DFSFDSD

FACULTAD DE INGENIERÍA
Carrera de Ingeniería Informática y de Sistemas
PROPUESTA DE ANÁLISIS DE DATOS NO

ESTRUCTURADOS PARA GENERAR
DECISIONES OPORTUNAS EN LA EMPRESA
GMD
Tesis para optar el Título Profesional de Ingeniero en

Informática y Sistemas
GARVICH SAN MARTÍN, KATIA ELIZABETH
Asesor:
Marco Antonio, Bazalar Herrera
Lima - Perú
2017
2
JURADO DE LA SUSTENTACIÓN ORAL
………………………….
Presidente
Isabel Juana, Guadalupe Sifuentes
………………………….
Jurado 1
Samuel Alonso, Oporto Díaz
…………………………
Jurado 2
Percy, Diez Quiñones Panduro
Entregado el: 30/10/2017 Aprobado por:
…………………………………… ………………………………………
Graduando Asesor de Tesis
Katia Elizabeth, Garvich San Martín Marco Antonio, Bazalar Herrera
3
UNIVERSIDAD SAN IGNACIO DE LOYOLA

FACULTAD DE INGENIERÍA
DECLARACIÓN DE AUTENTICIDAD
Yo, Katia Elizabeth Garvich San Martín, identificada con DNI N° 45508147 Bachiller del
Programa Académico de la Carrera de Ingeniería Informática y Sistemas de la Facultad
de Ingeniería de la Universidad San Ignacio de Loyola, presento mi tesis titulada:
Propuesta de análisis de datos no estructurados para generar decisiones oportunas en la
empresa GMD.
Declaro en honor a la verdad, que el trabajo de tesis es de mi autoría; que los datos, los
resultados y su análisis e interpretación, constituyen mi aporte. Todas las referencias han
sido debidamente consultadas y reconocidas en la investigación.
En tal sentido, asumo la responsabilidad que corresponda ante cualquier falsedad u

ocultamiento de la información aportada. Por todas las afirmaciones, ratifico lo expresado,
a través de mi firma correspondiente.
Lima, octubre de 2017
……………………………………………
Katia Elizabeth, Garvich San Martín
DNI N° 45508147
4
EPÍGRAFE
La información es la gasolina del sigo XXI
y el análisis de datos es el motor de
combustión.
(Peter Sondergaard, 2014)

Vicepresidente de Gartner
5
ÍNDICE GENERAL
DEDICATORIA 10
AGRADECIMIENTOS 11
RESUMEN 12
ABSTRACT 13
INTRODUCCIÓN 14
IDENTIFICACIÓN DEL PROBLEMA 15
FORMULACIÓN DEL PROBLEMA 19
Problema General 19
Problemas específicos 19
MARCO REFERENCIAL 21
Antecedentes Internacionales 21
Antecedentes Nacionales 25
Estado del Arte 26
Marco Teórico 30
Big Data. 30
Características del Big Data. 30
Tipos de Datos. 34
Tipos de análisis 35
Estructura de la solución de Análisis de Datos No estructurados. 36
Cuando considerar una solución de Análisis de Datos No estructurados. 38
Beneficios de la solución de Análisis de Datos No estructurados. 39
Desafíos del Análisis de Datos No Estructurado. 41
OBJETIVOS 42
Objetivo general 42
Objetivos específicos 42
JUSTIFICACIÓN DE LA INVESTIGACIÓN 43
Justificación Teórica 43
Justificación Práctica 43
ALCANCE DEL PROYECTO 44
LIMITACIONES DEL PROYECTO 44
HIPOTESIS 45
MATRIZ DE CONSISTENCIA 46
MARCO METODOLÓGICO 48
Metodología y Enfoque 48
Paradigma 48
6
Método 49
VARIABLES 49
Variable Independiente 49
Variable Dependiente 49
POBLACIÓN Y MUESTRA 50
Población 50
Muestra 50
UNIDAD DE ANÁLISIS 50
INSTRUMENTOS Y TÉCNICAS 51
Instrumentos 51
Técnicas 54
PROCEDIMIENTOS Y MÉTODO DE ANÁLISIS 56
Procedimiento 56
Método de Análisis 56
PROPUESTA DE ANÁLISIS DE DATOS NO ESTRUCTURADOS 57
Metodología para el desarrollo de la Tesis 57
Situación actual de la organización 59
Capacidades técnicas y de negocio de GMD 59
Capacidades Técnicas. 60
Capacidades de Negocio. 61
Planeamiento del proyecto de Tesis 63
Plan de Gestión del Tiempo. 63
Plan de Gestión de riesgos. 64
Requerimientos del Proyecto 64
Requerimientos Funcionales. 65
Requerimientos No Funcionales. 66
Análisis de las Principales plataformas de Big Data 67
Presupuesto e Inversión 70
Diseño de la infraestructura 71
Plataforma de Análisis de grandes volúmenes de datos 74
Sistema Hadoop. 75
Stream computing. 75
Integración de información y Gobierno. 76
Aceleradores. 76
Interfaces de usuario. 76
Gestión de análisis y decisiones. 76
Herramientas para el análisis de grandes volúmenes de datos 77
7
InfoSphere BigInsights. 77
InfoSphere Streams. 88
InfoSphere Information Server. 92
IBM Cognos. 101
Propuesta de Análisis de Datos No Estructurados Completa 117
RESULTADOS 118
DISCUSIÓN 127
CONCLUSIONES 129
RECOMENDACIONES 131
REFERENCIAS 132
ANEXOS 134
Anexo 1: Formato de Encuesta 134
Anexo 2: Respuestas de la encuesta 137
Anexo 3: Validación de encuesta por Juicio de Expertos 144
Anexo 4: Presupuesto 146
Anexo 5: Cronograma 147
Anexo 6: Aprobación del Gerente Línea de GMD 148
Anexo 7: Uso de productos IBM Big Data sobre el Cloud de GMD 149
ÍNDICE DE TABLAS
TABLA N° 1: Evaluación pregunta 1 15

TABLA N° 4: Capacidades funcionales y productos IBM para Big Data. 29
TABLA N° 5: Hipótesis 45
TABLA N° 6: Matriz de consistencia 47
TABLA N° 7: Variables e Indicadores 49
TABLA N° 8: Estadístico Alfa de Cronbach del instrumento 54
TABLA N° 9: Estadísticas de Total de elemento 55
TABLA N° 10: Hitos y entregables del proyecto de tesis 63
TABLA N° 11: Tablero de Riesgos 64
TABLA N° 12: Requerimientos Funcionales 65
TABLA N° 13: Requerimientos No Funcionales 66
TABLA N° 14: Ingresos Big Data por proveedor a nivel mundial 67
TABLA N° 15: Componentes open source del InfoSphere BigInsights 78
TABLA N° 16: HBase vs. HDFS 86
8
TABLA N° 17: HBase vs. RDBMS 87

TABLA N° 18: Componentes de la suite InfoSphere Information server 97
ÍNDICE DE FIGURAS
FIGURA N° 1: Evaluación pregunta 1 16

FIGURA N° 4: Árbol de Problemas 20
FIGURA N° 5: Plataforma de Análisis de Big Data 28
FIGURA N° 6: Volumen de data disponible vs. Volumen de data procesada 31
FIGURA N° 7: Características del Big Data, modelo de las 3V 33
FIGURA N° 8: Estructura de la solución de Análisis de datos No estructurados 36
FIGURA N° 9: Desafíos del Análisis de datos No estructurados 41
FIGURA N° 10: Ciclo de vida del desarrollo de la solución propuesta 58
FIGURA N° 11: vCenter del Cloud Computing 60
FIGURA N° 12: Inversión y facturación de la empresa GMD 61
FIGURA N° 13: Alianzas estratégicas de la empresa GMD 62
FIGURA N° 14: Magic Quadrant for Data Science Platforms 68
FIGURA N° 15: Cotización del licenciamiento de la plataforma IBM Big Data 70
FIGURA N° 16: Carga de trabajo Cloud Computing vs. Big Data 72
FIGURA N° 17: Diseño de la infraestructura Cloud 73
FIGURA N° 18: Diseño de un nodo del cluster Hadoop 74
FIGURA N° 19: Plataforma de Análisis de Big Data - Productos y 5Vs de IBM 75
FIGURA N° 20: Diseño de la arquitectura del servicio InfoSphere BigInsights 79
FIGURA N° 21: InfoSphere BigInsights Web Console 80
FIGURA N° 22: La interfaz de hoja de cálculo BigSheets 82
FIGURA N° 23: Visualización de datos en BigSheets 82
9
FIGURA N° 24: Texto de ejemplo (World Cup 2010) 83

FIGURA N° 25: Resultado de cómo trabaja el análisis de texto 84
FIGURA N° 26: Proceso de ejecución de la herramienta de análisis de texto 85
FIGURA N° 27: Ejemplo del esquema de tabla en la BD NoSQL HBase 87
FIGURA N° 28: Diseño de la arquitectura de la Base datos NoSQL HBase 88
FIGURA N° 29: Diseño de la arquitectura del servicio InfoSphere Streams 90
FIGURA N° 30: Modelo simple de la arquitectura del servicio InfoSphere Streams 91
FIGURA N° 31: Funciones de integración del InfoSphere Information Server 93
FIGURA N° 32: Fases de la integración de Información 95
FIGURA N° 33: Arquitectura del InfoSphere Information Server 97
FIGURA N° 34: Interfaz de usuario del IBM Cognos Business Insight 103
FIGURA N° 35: Página de Inicio: Abrir un Dashboard existente 104
FIGURA N° 36: Abrir un Dashboard existente en el Business Insight 105
FIGURA N° 37: Mover los contenedores de gráficos 105
FIGURA N° 38: Eliminar los contenedores de gráficos 106
FIGURA N° 39: Modificar los tipos de pantalla 106
FIGURA N° 40: Modificar los tipos de pantalla 107
FIGURA N° 41: Interfaz Avanzada de usuario del IBM Cognos Business Insight 108
FIGURA N° 42: Reporte de Gráfico de Barras 110
FIGURA N° 43: Reporte de Gráfico de Radar 110
FIGURA N° 44: Calendario de mapas de calor 111
FIGURA N° 45: Reporte Theme River 111
FIGURA N° 46: Reporte para las redes sociales 112
FIGURA N° 47: Reporte de visualización jerárquica 113
FIGURA N° 48: Mapa de árbol 114
FIGURA N° 49: Arquitectura de la integración de Cognos BI y BigInsights 115
FIGURA N° 50: IBM Cognos Dynamic Query integrado con IBM Cognos BI 116
FIGURA N° 51: Arquitectura de grandes volúmenes de datos Completa 117
10
DEDICATORIA
“Dedico este trabajo a mis padres por todo

el amor que me han dado y porque me
enseñaron a esforzarme al máximo y nunca
rendirme. Todo los soy y todo lo que he
logrado se los debo a ustedes.”
11
AGRADECIMIENTOS
Agradezco a cada uno de los que confiaron

y me apoyaron en la elaboración y
desarrollo de esta investigación, gracias a
todos por ayudarme a superar las
dificultades surgidas a lo largo del camino.
Agradezco también a mis padres por todo
el apoyo y confianza que siempre me han
dado y especialmente a Gabriel Jiménez
por asesorarme y aconsejarme a lo largo
de esta investigación.
12
RESUMEN
Hoy en día, las empresas depositan mucha confianza en la toma de decisiones que
realizan sobre sus negocios, basándose en la información que poseen sobre sus
operaciones internas y lo que ocurre en el mercado. Estas decisiones, que son tomadas
en un contexto de alta y creciente competencia, se toman cada vez más utilizando y
analizando la mayor cantidad de información que la empresa posea, dado que una
decisión errónea o tomada fuera tiempo (Es decir, cuando ya es demasiado tarde) puede
afectar significativamente a una organización.
La toma de decisiones implica incertidumbre y por lo tanto riesgo. Para minimizar

estos riesgos es necesario generar decisiones oportunas en base a un análisis de
información que sea eficiente y lo más cercado al tiempo real. Por tanto, la información en
una empresa debe ser clara, precisa, oportuna, completa, de fácil acceso y sobre todo
necesaria y no superflua.
Para la presente investigación, tomaremos como caso de estudio a la empresa

GMD S.A. (afiliada a Advent International), en base a la cual se elaborará la propuesta de
solución para análisis de datos No estructurados, con la finalidad que los jefes y gerentes
de proyecto puedan generar decisiones oportunas y eficientes mediante el análisis en
tiempo real o casi real de la data correspondiente a los proyectos.
13
ABSTRACT
Nowadays, companies place a lot of confidence in the decision making they make about
their businesses, based on the information they have about their internal operations and
what happens in the market. These decisions, which are taken in a context of high and
growing competition, are increasingly taken using and analyzing the largest amount of
information that the company possesses, given that a wrong decision or taken outside
time (That is, when it is too much late) can significantly affect an organization.
Decision making implies uncertainty and therefore risk. To minimize these risks it is
necessary to generate timely decisions based on an analysis of information that is efficient
and closer to the real time. Therefore, the information in a company must be clear,
precise, timely, complete, easily accessible and above all necessary and not superfluous.
For the present investigation, we will take as a case study the company GMD S.A.
(affiliated with Advent International), based on which the solution proposal for unstructured
data analysis will be elaborated, with the purpose that project managers can generate
timely and efficient decisions through real-time or near-real-time analysis of the
information corresponding to the projects.
14
INTRODUCCIÓN
En la actualidad, debido al gran avance que existe día a día en las tecnologías de
información, las organizaciones han tenido que enfrentarse a nuevos desafíos que les
permitan analizar, descubrir y entender, más allá de lo que sus herramientas tradicionales
reportan, sobre grandes y variados volúmenes de datos que se generan rápidamente;
asimismo, durante los últimos años el gran crecimiento de las aplicaciones disponibles en
internet ha sido parte importante de la generación de decisiones de negocio en las
empresas.
La primera pregunta que debemos hacernos es ¿Qué es el análisis de datos no

estructurados y porqué se ha vuelto tan importante? pues, en términos generales según
IBM, es una tendencia en el avance de la tecnología que ha abierto las puertas hacia un
nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir
enormes cantidades de datos que tomaría demasiado tiempo y sería muy costoso,
cargarlos en una base de datos relacional para su análisis. Por lo tanto, el concepto de
Análisis de datos no estructurados aplica para todos aquellos datos que no puede ser
procesados o analizados utilizando procesos o herramientas tradicionales.
El presente trabajo de tesis tiene como objetivo proponer una solución de Análisis
de datos No estructurados con la finalidad de resolver la problemática sobre la
generación de decisiones oportunas en la implementación de proyectos de TI para la
empresa GMD. Durante el desarrollo de la investigación se expondrá el problema,
alcance, limitaciones, objetivos y metodología para obtener los resultados, conclusiones y
recomendaciones del estudio.
15
IDENTIFICACIÓN DEL PROBLEMA
La información se ha convertido en el activo más valioso con el que cuentan las

empresas en la actualidad y dicha información se incrementa día a día sobre todo para
aquellas empresas que realizan mayor cantidad de transacciones. Sin embargo, el
principal problema a resolver es cómo obtener el máximo provecho de esta información
mediante herramientas que permitan extraer, procesar, analizar y visualizar grandes y
variados volúmenes de datos, con la finalidad de brindar respuestas a las necesidades de
negocio y tomar decisiones de manera oportuna.
Para la presente tesis tomaremos como caso de estudio la empresa GMD S.A
(afiliada a Advent International), la cual se dedica al outsourcing de Procesos de Negocio
y Tecnologías de la Información (TI). El problema se centra en la falta de herramientas
para la extracción, procesamiento, análisis y visualización de grandes volúmenes de
datos no estructurados correspondientes a la fase de Implementación de los proyectos;
causando que dicha información no sea analizada y utilizada de la manera más rápida y
eficiente por los gerentes de proyectos, para generar decisiones oportunas. Es decir: “La
toma de decisiones, no está sustentada en un análisis de información que incluya datos
no estructurados, con la finalidad de minimizar los costos de los proyectos y generar
decisiones oportunas durante la implementación de los proyectos de GMD”. Como
consecuencia de este problema, se crean sobrecostos, pérdida de oportunidades de
negocio e insatisfacción en los clientes.
En el 2016, se realizó una encuesta a 18 jefes de proyecto y 17 gerentes de

proyectos de GMD, para recopilar información sobre los principales problemas en la toma
de decisiones durante la fase de implementación de los proyectos. Los resultados fueron
los siguientes:
Pregunta 1 - ¿Se cuenta con la información para generar decisiones oportunas?

Categoría Frecuencia Porcentaje
No 18 51%
Si 17 49%
Total general 35 100%
TABLA N° 1: Evaluación pregunta 1

FUENTE: Elaboración propia
16
FIGURA N° 1: Evaluación pregunta 2

Como se muestra en la tabla 1 y figura 1, el 51% de los encuestados afirman

contar con la información suficiente para la toma de decisiones; sin embargo, el 49%
considera que no cuentan con la información necesaria para generar decisiones de
manera oportuna.
Pregunta 2 - ¿Se agilizaría la toma de decisiones si contara con información (no

estructurada) como audios, videos, documentos, imágenes, entre otros?
Categoría Frecuencia Porcentaje
No 6 17%
Si 29 83%
Total general 35 100%

17

Como se muestra en la tabla 2 y figura 2, el 83% de los encuestados considera

que generarían decisiones de manera más oportuna si contarán con data no estructurada
como videos, audios, documentos, imágenes, entre otros; mientras que sólo un 17%
considera lo contrario.
Pregunta 3 - ¿Cuáles son los principales problemas en la toma de decisiones en los

proyectos de GMD?
Opciones de la encuesta Frecuencia
En el análisis de datos, no se toma en cuenta la data no estructurada como videos, audios,
13
imágenes, correos, documentos entre otros.
Problemas de acceso hacia la información relevante 19
GMD no cuenta con herramientas para el análisis y procesamiento de grandes volúmenes de
22
datos.
Demoras en el análisis de información 23
La información no se encuentra centralizada 28
Total general 105

18

Como se muestra en la tabla 3 y figura 3, un total de 28 encuestados considera

que la falta de centralización de la información es el principal problema en la toma de
decisiones; en segundo lugar, con 23 votos, se tienen las demoras en el análisis de
información; en tercer lugar, con 22 votos, se tiene la falta de herramientas para el
análisis y procesamiento de grandes volúmenes de datos; en cuarto lugar, con 19 votos,
se tienen los problemas de acceso hacia la información relevante y en quinto lugar, con
13 votos, se tiene que en análisis de datos no se toma en cuenta la data no estructurada.
Por tanto, en el presente proyecto de investigación, se realizará una propuesta

para el análisis de datos no estructurados, con la finalidad que los jefes y gerentes de
proyecto de GMD puedan generar decisiones oportunas y eficientes, mediante el análisis
en tiempo real o casi real de la data correspondiente a los proyectos. Para esto,
tomaremos como objeto de estudio lo siguiente: costos, documentación propia de los
proyectos, quejas de los clientes y documentos de lecciones aprendidas.
19
FORMULACIÓN DEL PROBLEMA
Problema General
¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción,

procesamiento, análisis y visualización de grandes volúmenes de datos no estructurados,
en la generación de decisiones oportunas durante la implementación de los proyectos de
GMD?
Problemas específicos
¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción y

procesamiento de grandes volúmenes de datos no estructurados, en el tiempo de análisis
de información para la generación de decisiones oportunas?
¿Cuál es el impacto que ocasiona la falta de herramientas para el análisis y

visualización de grandes volúmenes de datos no estructurados, en el tiempo de análisis
de información para la generación de decisiones oportunas?
¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción y

procesamiento de grandes volúmenes de datos no estructurados, en tiempo real o casi
real, en la reducción de costos en los proyectos de TI de GMD?
¿Cuál es el impacto que ocasiona la falta de herramientas para el análisis y

visualización de grandes volúmenes de datos no estructurados, en tiempo real o casi real,
en la reducción de costos en los proyectos de TI de GMD?
20
Diagrama del árbol de Problemas
Posible pérdida de Quejas de los clientes

Efectos
clientes
Pérdida de Insatisfacción del Sobrecostos en los

oportunidades de cliente proyectos
negocio
Problema Falta de herramientas para la extracción, procesamiento, análisis y visualización de

Central grandes volúmenes de datos no estructurados en la generación de decisiones oportunas
en la implementación de proyectos de GMD
Retraso en el análisis
de información
El análisis de datos no Problemas al acceder

es en tiempo real a la información
Causas
No hay herramientas para el

procesamiento y análisis de
grandes volúmenes de datos
FIGURA N° 4: Árbol de Problemas

21
MARCO REFERENCIAL
Antecedentes Internacionales
En la universidad University of Twente (Netherlands), Mike Padberg (2015), realizó

una tesis de maestría sobre Big Data e Inteligencia de Negocios (BI), una
estrategia orientada a datos para organizaciones de comercio electrónico en la
industria hotelera. El objetivo de la tesis fue crear un enfoque práctico para
convertir a una organización en una orientada a los datos, para esto utilizaron las
tecnologías de análisis de grandes volúmenes de datos (no estructurados) y
optimizaron el proceso de Business Intelligence, con la finalidad de obtener mayor
valor de los datos disponibles y utilizarlos para la toma de decisiones. Como
resultado, se indicó que el análisis de datos no estructurados es considerado como
un nuevo tema y área de investigación donde pueden distinguirse dos corrientes: La
primera de personas sin experiencia en informática o ingeniería de software, quienes
argumentan que está relacionado con la inteligencia de negocios y la toma de
decisiones. El segundo grupo con experiencia en informática o ingeniería de
software, quienes argumentan que es un facilitador de inteligencia artificial y
algoritmos más inteligentes. En conclusión, el uso de tecnologías para el análisis de
datos no estructurados y el Business Intelligence, permiten obtener mayor valor de
los datos disponibles y contribuyen en la toma decisiones oportunas para favorecer la
comprensión sobre el comportamiento de los clientes, permitiendo un enorme
aumento en el desempeño. Asimismo, es importante maximizar la visualización de
los datos disponibles mediante un formato o interfaz comprensible y fácil de
entender.
En la universidad Ryerson University (Canadá), Feroz Alam (2015), realizó una

tesis sobre la migración datos entre las bases de datos relacionales y no
relacionales (NoSQL). El objetivo de la tesis fue realizar un estudio comparativo entre
las BD’s relacionales y No relacionales para el procesamiento y análisis de grandes
volúmenes de datos no estructurados para la toma de decisiones de negocio. Como
resultado, Se propuso una metodología para la migración exitosa de datos desde una BD
relacional hacia una BD NoSQL. Asimismo, se validó el procesamiento y análisis de datos
no estructurados para la toma de decisiones. En conclusión, La demanda de bases de
datos NoSQL está aumentando debido a sus características diversificadas que ofrecen
escalabilidad rápida y fácil, gran disponibilidad, arquitectura distribuida, buen desempeño
y rápido análisis de la información para la toma de decisiones de negocio.
22
En la universidad de San Andrés (Argentina), José Manso (2015), realizó un

estudio sobre el análisis de modelos de negocio basados en Big Data para
operadores móviles. El objetivo de la tesis fue analizar los modelos de negocios para
operadores móviles basados en Big Data y generar un marco referencial que integre las
mejores prácticas para maximizar la generación de valor. Como resultado, se elaboró una
propuesta de modelo de negocio basado en Big Data para operadores móviles que
permite ganar rentabilidad a largo plazo frente a los competidores. En conclusión, el
tráfico de datos móviles está creciendo exponencialmente alcanzando volúmenes de
información sin precedentes. Asimismo, los datos que genera una organización pueden
ser tanto estructurados como no estructurados y se pueden obtener de múltiples fuentes
de información tanto internas como externas a la organización, por tanto, es importante
para las empresas explotar y analizar estos datos en tiempo real o casi real para utilizar
el valor de estos activos con el fin de tomar mejores decisiones.
En la universidad de Barcelona (España), Galimany suriol (2014), realizó un

estudio sobre la creación de valor en las empresas a través del Big Data. El objetivo
de la tesis fue determinar, analizar y justificar la aportación del análisis de grandes
volúmenes de datos no estructurados sobre las empresas mediante la creación de valor y
ventajas competitivas. Como resultado, se indicó que el análisis de datos no
estructurados trae importantes ganancias en términos de eficiencia y nuevos productos a
las empresas, asimismo el procesamiento de datos permite obtener información y mejorar
la toma de decisiones. Por lo tanto, esta información junto con la experiencia favorece la
obtención de nuevos conocimientos para mejorar procesos, reducir costos, implementar
nuevos procesos, productos o variables relevantes en la producción. Por otro lado,
también permite tener un conocimiento más profundo de cómo es y cómo se comporta la
empresa internamente; es decir, como es el entorno en el que se mueve y cómo influye
esto en la empresa y en los stakeholders, con la finalidad de entender y analizar cómo se
comportan frente a los productos, cuáles son sus expectativas, cuáles son sus
sugerencias y cómo podemos satisfacerlos. En conclusión, el análisis de grandes
volúmenes de datos no estructurados es una fuente importante de valor para las
empresas, pues, aunque es una nueva tendencia, numerosos casos reales sustentan la
idea de que es un percusor de nuevas innovaciones y por tanto de ventajas competitivas
que no solo transforman las empresas y sus productos, sino que son capaces de crear y
transformar mercados.
23
En la universidad Helsinki Metropolia University of Applied Sciences (Finlandia),

Kevin Blasiak (2014), realizó un estudio sobre Big Data, una revolución en la Gestión,
el papel emergente del Big Data en las empresas. El objetivo de la tesis fue
proporcionar una visión general sobre las capacidades que tiene el análisis de grandes
volúmenes de datos no estructurados y las oportunidades que se derivan de su
aplicación, creando una comprensión sobre su papel en las decisiones de la alta gerencia
y determinando su posición dentro de un modelo de toma de decisiones. Como resultado,
se indicó que el análisis de grandes volúmenes de datos no estructurados es una
tecnología que puede originar la creación de ventajas competitivas fuertes. Asimismo,
permite favorecer el giro de negocio de la empresa mediante estadísticas sencillas y
algoritmos predictivos. En Conclusión, dentro de las organizaciones, el análisis de datos
no estructurados debe justificar su propósito como herramienta de gestión y desafiar la
cultura corporativa para redefinir la toma de decisiones.
En la universidad de Cantabria (España), García López (2013), realizó un estudio

sobre el análisis de las posibilidades de uso de Big Data en las organizaciones. El
objetivo de la tesis fue determinar en qué consiste el término Big Data, a qué hace
referencia y que tipo de tecnología está relacionada, asimismo, indicar como lo utilizan
las grandes empresas para obtener ventajas competitivas frente a sus competidores.
Como resultado, se indicó que la tecnología Big Data (Análisis de datos estructurados y
no estructurados), no solo sirve para obtener grandes cantidades de datos, sino también
para analizarlos y conseguir información y conocimiento, asimismo también permite
conocer las preferencias y demandas de los clientes, las debilidades internas de la
empresa y la tecnología Big Data las debilidades de los competidores, con lo que se
obtiene una gran ventaja competitiva. En conclusión, seguirá evolucionando, por tanto,
las empresas deben aprovechar la gran avalancha de datos que se generan, captando
únicamente aquellos que pueden ser transformados en información y conocimiento.
En la universidad de Amsterdam (Netherlands), Niels Mouthaan (2012), realizó un

estudio con la finalidad de examinar los efectos del análisis de Big Data en la
creación de Valor sobre las organizaciones. El objetivo de la investigación fue definir
el análisis de grandes volúmenes de datos, en términos de creación de valor, basado en
la diversidad de datos que existe en la actualidad. Sobre este punto índico que el 80% de
la data propia de las organizaciones es No estructurada y el análisis de datos tradicional
tiende a analizar sólo la data estructurada (el 20% restante), causando que una fuente de
información potencial y valiosa sea ignorada. Como método de investigación se
24
realizaron dos casos de estudio, el primero sobre los participantes de un show de música
en el cual se analizaron los tweets recolectados del Twitter y el segundo sobre una
página de internet sobre retail en el cual el análisis de grandes volúmenes de datos no
estructurados requería un poder computacional. Como resultado de los casos de estudio,
el análisis de datos no estructurados actuó como medio para la creación de Valor pues
ofrecía ventajas significativas para el cliente. Asimismo, mejoró la eficiencia de las
transacciones que se realizaban entre la página web y sus clientes a través de la mejora
en la actividad de búsqueda. En conclusión, el análisis de datos no estructurados puede
crear valor en dos formas: Mediante la mejora en la eficiencia de las transacciones y
soportando la innovación al crear nuevos o mejores productos y servicios en una
organización.
En la universidad Chalmers University (Suecia), Petter Näsholm (2012), realizó

una tesis de maestría sobre la extracción de Data desde una Base de datos NoSQL
como un paso hacia el análisis visual e interactivo de los datos NoSQL (No
estructurados). El objetivo de la tesis fue resolver el problema de extracción e
importación de datos que existe entre las Bases de datos NoSQL y las aplicaciones
tradicionales, con la finalidad de ser capaz de analizar y visualizar datos y tendencias
para la toma de decisiones de negocio, generando ventajas competitivas. Como
resultado, se aplicó una solución con herramientas para la importación de datos (como
Casandra y Neo4j) en la plataforma de las aplicaciones de negocio, logrando que éstas
pudieran soportar las características de las bases de datos NoSQL. En conclusión, se
logró adaptar una solución que permita la comunicación entre las bases de datos NoSQL
y las aplicaciones de negocio, permitiendo a las organizaciones analizar y visualizar la
data no estructurada para mejorar la toma de decisiones y generar ventajas competitivas.
En el instituto IMT – Institutions Markets Technologies (Italia), Gian Marco De

Francisci Morales (2010), realizó un estudio con la finalidad de proporcionar un marco
coherente para la investigación en el campo de análisis de datos a gran escala sobre
el Cloud Computing. Para alcanzar este objetivo, se centraron en la problemática del
Big Data (“Un increíble "diluvio de datos" está ahogando al mundo.”) y adoptaron los
principios de la investigación de base de datos, pues consideraron que los resultados en
estos campos son relevantes. Asimismo, estudiaron los algoritmos de análisis de datos
más comunes y definieron una carga de trabajo de análisis representativa. Como
resultado, se proporcionó un terreno común en el que los sistemas de base de datos y el
Cloud Computing fueran capaces de comunicarse y prosperar. En conclusión, el análisis
25
de Data es el proceso de inspección de datos con el propósito de extraer información útil

que permita la toma de decisiones y el Cloud Computing es una tecnología alternativa y
emergente para el análisis de datos a gran escala. En Conclusión, existe una gran
necesidad por generar mayor valor en las empresas, mediante el adecuado análisis de la
información, cuyo volumen crece día a día.
Antecedentes Nacionales
En la universidad UPC (Perú), Mérida Fonseca y Ríos Alvarado (2014), realizaron una
investigación sobre una propuesta de plataforma de Big Data orientado al sector
turístico. El objetivo de esta investigación fue aprovechar el análisis de grandes
volúmenes de datos, en los procesos del sector turístico e identificar en tiempo real la
necesidad de los clientes. Para esta investigación se utilizó como metodología un
enfoque cualitativo para la descripción de los procesos. Asimismo, se consideraron, en el
análisis, las plataformas Oracle y Microsoft.
Como resultado, presentaron la propuesta de una plataforma de Big Data que ofrece
procesos para la extracción de data (estructurada y No estructurada), procedimientos
para el procesamiento de datos y procesos para la gestión de información. En
conclusión, los procesos internos del Sector turístico pueden ser aprovechados como
fuentes de información para permitir un análisis más profundo de las características de
los consumidores y clientes potenciales.
26
Estado del Arte
En la actualidad los datos se han vuelto el activo más valioso para las empresas, pues
cada vez más organizaciones se encuentran almacenando, procesando y extrayendo
valor de grandes volúmenes de datos de diferentes tipos y tamaños; es decir, las
empresas están buscando la forma de explotar todo el potencial de los datos para poder
mejorar la toma de decisiones y obtener mayores ventajas competitivas. Al respecto,
Gartner predijo que los datos empresariales crecerían un 800% desde el 2011 hasta el
2015, con 80% de los datos en formato no estructurado (por ejemplo, correos
electrónicos, documentos, vídeos, imágenes y contenido de medios de comunicación
social) y el 20% en formato estructurado (por ejemplo, transacciones de tarjetas de
crédito e información de contacto).
El análisis de datos está evolucionando desde el procesamiento de datos

tradicional; es decir sobre data histórica, hacia el procesamiento de grandes volúmenes
de datos no estructurados en tiempo real. Esto se debe a que el análisis de datos en
tiempo real permite monitorear los datos a medida que se generan y se transmiten a la
organización, algo que no te permite el análisis tradicional. Por otro lado, cada vez son
más los casos de uso empresarial que se basan en un análisis de información avanzado
que permita agilizar y mejorar la toma de decisiones para crear ventajas competitivas.
En el 2012 Intel realizó una encuesta a 200 administradores de TI pertenecientes

a grandes empresas y encontró que, aunque hoy en día la cantidad de datos procesados
tradicionalmente, frente a la cantidad de datos procesados en tiempo real, se divide
uniformemente; la tendencia indica que habrá un aumento en el procesamiento de
grandes volúmenes de datos no estructurados en tiempo real. Por otro lado, la tecnología
para el procesamiento de información en tiempo real o en tiempo casi real, está en
continua evolución.
El análisis en tiempo real favorece el análisis predictivo, pues permite a las

organizaciones adquirir una visión orientada hacia el futuro y ofrecer algunas de las
oportunidades más interesantes para la conducción de valor a partir del análisis de
grandes volúmenes de datos no estructurados. Por otro lado, el análisis de datos en
tiempo real, ofrece la expectativa de un análisis predictivo rápido, preciso y flexible que se
adapte rápidamente a las condiciones cambiantes del negocio, pues cuanto más rápido
se analicen los datos, más oportunos serán los resultados y mayor será su valor
predictivo.
27
El alcance sobre el análisis de Big Data continuará expandiéndose, debido a que

se centra principalmente en los negocios y en las fuentes de datos sociales como el
correo electrónico, videos, tweets, Mensajes de Facebook, opiniones y comportamientos
Web. Por lo tanto, el valor real del Big Data está en el conocimiento que produce cuando
es analizado; es decir, cuando ayuda a descubrir patrones, indicadores para la toma de
decisiones y la habilidad de responder al mundo con mayor inteligencia. Por último, el
análisis de Big Data es un conjunto de tecnologías avanzadas, diseñadas para trabajar
con grandes volúmenes de datos heterogéneos (Estructurados, semiestructurados y No
estructurados).
Existen herramientas que permiten el procesamiento, análisis y visualización de

grandes volúmenes de datos no estructurados en tiempo real. La plataforma de análisis
de Big Data de IBM permitirá a GMD analizar un amplio conjunto de información mixta
(de diferentes tipos y fuentes), analizar flujos de información en movimiento (en tiempo
real) y descubrir y experimentar con nueva información. Asimismo, proporcionará la
capacidad de empezar con una sola funcionalidad y fácilmente añadir otras conforme se
requiera, ya que la pre-integración de sus componentes reduce el tiempo de
implementación y el costo.
La Figura 5 muestra los componentes que conforman la plataforma de análisis de

Big Data de IBM, entre los cuales destacan el Sistema Hadoop, Stream Computing y el
Gestor de análisis y decisiones (Analytic Applications).
28
FIGURA N° 5: Plataforma de Análisis de Big Data

FUENTE: Libro Building Big Data and Analytics Solutions in the Cloud.
En la tabla 4, se muestra la relación entre las capacidades funcionales y los

productos que ofrece IBM como herramientas para el procesamiento de Big Data. Para la
presente investigación utilizaremos el InfoSphere Streams, InfoSphere BigInsight,
InfoSphere Information Server y el Cognos BI como herramientas para la elaboración de
la propuesta de Análisis de grandes volúmenes de Datos No estructurados.
Componentes de la
Funcionalidad Descripción de la funcionalidad Producto IBM
plataforma
Optimiza el proceso de carga de

datos en el storage para dar soporte InfoSphere
Ingestión de datos Stream Computing
a las metas analíticas sensibles al Streams
tiempo.
Convierte los valores de los datos
Transformación de desde el sistema y formato de origen InfoSphere
Sistema Hadoop
datos hacia el sistema y formato de BigInsights
destino.
Descubre y comunicar patrones Gestión de análisis y
Análisis Cognos
significativos en los datos. decisiones
29
Hacer repetible la toma de

Decisiones decisiones en tiempo real sobre las Gestión de análisis y
Cognos
recurribles políticas organizacionales y reglas decisiones
de negocio
Descubrir, navegar y visualizar
grandes cantidades de data InfoSphere Interfaz de usuario
Descubrimiento y
estructurada y no estructurada a Information (Visualización y
exploración
través de diferentes sistemas de Server descubrimiento)
empresa y repositorios de datos.
Reportes, Proporcionar informes, análisis y
informes, dashboards para ayudar a mantener Gestión de análisis y
Cognos
Visualizaciones y la forma en que las personas decisiones
dashboards piensan y trabajan.
Integración de diferentes tipos de InfoSphere Integración de
Integración de
datos Information información y
datos
Server gobierno
TABLA N° 4: Capacidades funcionales y productos IBM para Big Data.

FUENTE: Libro Building Big Data and Analytics Solutions in the Cloud.
30
Marco Teórico
Big Data.
Existe mucha confusión sobre la definición de Big Data, al respecto podemos decir
que el término Big Data aplica a toda aquella información que no puede ser
procesada o analizada usando las herramientas o procesos tradicionales
(Zikopoulos, Eaton y Deroos, 2012). En consecuencia, las organizaciones de hoy
deben enfrentarse continuamente a los retos que implica el análisis de Big Data,
pues si bien tienen acceso a un gran volumen de información, no saben cómo
obtener valor de ella. Esto se debe a que la información se presenta en forma
cruda o en formatos semiestructurados o no estructurados; por lo tanto, como
resultado, no saben si vale la pena mantenerla.
La era del Big Data está en plena vigencia, debido a que el mundo está
cambiando; es decir, hoy en día somos capaces de percibir más cosas y en
consecuencia tendemos a tratar de almacenarla. Asimismo, mediante los avances
en comunicaciones, las personas y cosas se están volviendo cada vez más
interconectadas y no sólo por un tiempo sino casi todo el tiempo. Esta
interconectividad es la responsable de las altas tasas de crecimiento de datos.
Finalmente, debido a que los pequeños circuitos integrados son ahora tan baratos,
podemos agregar inteligencia a casi todo.
Características del Big Data.
Según Mitchell, Locke y Wilson (2012), existen 3 características que definen el Big
Data y son llamadas el modelo de las 3V (Volumen, Velocidad y Variedad), juntas
estas características definen lo que es el Big Data, dado que han creado la
necesidad de nuevas y mejores capacidades para aumentar las cosas que
podemos hacer hoy, con la finalidad de proveer un mejor control y habilidad sobre
el conocimiento existente.
Volumen.
Se refiere al hecho de que Big Data implica analizar grandes cantidades de datos
que se generan cada segundo en el mundo digital y que son creados por la
interacción de personas, máquinas, redes, entre otros.
Esto se debe a que almacenamos todo (sin mencionar el análisis de la

data almacenada) como: datos del entorno, datos financieros, datos médicos y la
31
lista sigue creciendo. Por ejemplo: Al hablar a través de un Smartphone se genera

un evento, cuando las puertas de un tren se abren para que los pasajeros aborden
se genera otro evento, cuando hacemos “Check in” para viajar en un avión,
cuando descargamos música en Spotify, cuando cambiamos de canal en la
televisión, etc. Todas estas acciones cotidianas generan nueva información a
cada segundo.
Por lo tanto; las organizaciones se enfrentan día a día a volúmenes

masivos de datos que no saben cómo administrar y en consecuencia terminan
abrumados por toda la nueva información generada. Sin embargo; dentro del
problema existe la oportunidad, pues mediante el uso de la plataforma y las
herramientas correctas se puede obtener un análisis de la información crítica y
útil, permitiendo un mejor entendimiento del negocio, los clientes y el mercado.
Por otro lado, mientras que la cantidad de data disponible para las
empresas va en aumento, el porcentaje de data que puede ser procesada,
comprendida y analizada disminuye, creando de este modo una zona ciega “The
blind zone”. Esta zona ciega es algo desconocido y puede significar un problema o
una oportunidad dependiendo del punto de vista. Finalmente, el tema sobre los
volúmenes de data está evolucionando de “Terabytes” hacia “Petabytes” e
inevitablemente seguirá hacia “Zettabytes” y toda esta información ya no podrá ser
almacenada ni procesada en los sistemas tradicionales pues no cuentan con las
capacidades necesarias (Zikopoulos, Eaton y Deroos, 2012).
FIGURA N° 6: Volumen de data disponible vs. Volumen de data procesada

FUENTE: Libro Understanding Big Data
32
Velocidad.
Se refiere a la velocidad con la cual la data es generada y actualizada. Asimismo,
en el mundo del Big Data la rapidez en el análisis de datos es uno de los factores
claves, debido a que tradicionalmente el análisis se realizaba sobre data histórica.
Big Data ha ampliado este concepto incluyendo el análisis en tiempo real.
En el mundo de los negocios, conseguir una ventaja sobre tus

competidores significa identificar una tendencia, problema u oportunidad en solo
segundos o incluso microsegundos antes que la competencia. Asimismo, más y
más de los datos que se generan hoy en día tienen una vida útil muy corta, por
tanto; las organizaciones deben ser capaces de analizar esta información lo más
cercano al tiempo real si desean poder obtener algún conocimiento de esta data.
Lidiar efectivamente con Big Data requiere de la realización de un análisis

contra el volumen y variedad de data mientras ésta está en movimiento no
después de que está en reposo (Zikopoulos, Eaton y Deroos, 2012).
Variedad.
Se refiere al hecho de que Big Data puede ser generada a través de diferentes
orígenes o fuentes y en varios formatos y estructuras. Con la explosión de
sensores, dispositivos inteligentes, redes sociales, entre otros; la data en las
empresas se ha vuelto más compleja, pues incluye no solo data relacional y
tradicional sino también data semi estructurada y no estructurada proveniente de
páginas web, registros web, búsquedas indexadas, fórums de las redes sociales,
e-mail, documentos, data de sensores de sistemas activos y pasivos, etc.
Asimismo, las empresas luchan por almacenar y realizar el análisis de

datos requerido con la finalidad de ganar entendimiento sobre el contenido de
estos registros, pues gran parte de la información que se genera no puede ser
procesada ni administrada en las bases de datos tradicionales.
Por otro lado, la data estructurada o relacional representa sólo el 20% del
total de data generada y disponible siendo el 80% restante data semi estructurada
o no estructurada. Es en este punto donde las empresas han empezado a
entender el valor y la oportunidad del Big Data y para poder capitalizar esta
33
oportunidad, las empresas deben poder analizar todo tipo de datos, tanto
relacional como no relacional (Zikopoulos, Eaton y Deroos, 2012).
FIGURA N° 7: Características del Big Data, modelo de las 3V

FUENTE: Libro Understanding Big Data.
Valor: La cuarta vital “V” del Big Data.

Aunque el modelo de las 3V es una manera útil de definir el Big Data, según
Mitchell, Locke y Wilson (2012), existe una cuarta “V” que también debe ser
tomada en cuenta: “Valor”. Esto se debe a que para las organizaciones no tendría
sentido implementar Big Data a menos que pudieran obtener mayor valor en sus
negocios. Esto significa que la data no sólo puede ser usada dentro de una misma
organización, sino que el valor puede provenir de venderla o proporcionando
acceso a terceros.
Este deseo de maximizar el valor del Big Data es un imperativo de negocio

clave. Asimismo, existen otras formas en las que Big Data ofrece nuevas maneras
para generar valor. Por ejemplo, mientras que en los sistemas de análisis
tradicionales de negocio se tenía que operar sobre data histórica que podía estar
desfasada por semanas e incluso meses; en una solución de Big Data se puede
analizar información en tiempo real.
34
Esto genera beneficios masivos para las organizaciones pues pueden

responder de manera más rápida a las nuevas tendencias, retos y cambios del
mercado. Por otro lado, las soluciones de Big Data pueden generar valor mediante
el análisis del sentimiento contenido en los datos en lugar de sólo mirar la
información en bruto. Por ejemplo, se puede llegar a entender cómo se sienten los
clientes con respecto a un producto o servicio en particular. Esto es conocido
como “Análisis del sentimiento”.
Big Data les da a las organizaciones la oportunidad de explotar una

combinación de data existente y fuentes de datos disponibles, con la finalidad de
extraer valor adicional mediante la mejora del conocimiento de negocios para la
toma de decisiones y el tratamiento de los datos como activo que puede ser
comercializado y vendido.
Tipos de Datos.
Según Mitchell, Locke y Wilson (2012), existen 3 tipos básicos de datos:
Data estructurada.
Se refiere a los tipos de datos que son usados por los sistemas de base de datos
tradicionales; es decir, donde los registros se distribuyen dentro de campos y filas
bien definidas, lo cual permite buscar, categorizar y ordenar fácilmente de acuerdo
a ciertos criterios. Por ejemplo, cuando ingresamos los datos de algún cliente o
empleado a través de formularios que piden datos como nombre, apellido,
dirección, etc.
Data no estructurada.
La data no estructurada es aquella que no tiene un formato predefinido y por tanto
no puede ser almacenada en una base de datos tradicional. Por ejemplo,
imágenes, videos, audios, textos, etc.
Data semiestructurada.
Es aquella que combina los dos tipos de datos descritos anteriormente. Los datos
semiestructurados no residen en bases de datos relacionales, pero presentan una
organización interna que facilita su tratamiento. Por ejemplo, documentos XML o
datos de ubicación anexados a las actualizaciones de las redes sociales.
35
Tipos de análisis
A continuación de definen los conceptos de análisis de datos y análisis de

información; asimismo, se indica que tipo de análisis es realizado a través de las
herramientas de la plataforma Big Data y qué tipo de análisis es realizado por el
gestor de proyecto para la toma de decisiones.
Análisis de datos.
Según Judd, McClelland y Ryan (2011), el análisis de datos es un proceso que
consiste en inspeccionar, limpiar y transformar datos con el objetivo de obtener
información útil que permita al gestor de proyecto realizar un análisis de dicha
información, a fin de obtener conclusiones que apoyen la toma de decisiones. Es
decir, el análisis de datos puede ser usado en diferentes industrias para permitir
que las compañías y las organizaciones tomen mejores decisiones empresariales.
Asimismo, también puede ser usado en las ciencias para verificar o reprobar
modelos o teorías existentes.
El análisis de datos se usa para describirlo todo. Por ejemplo, los bancos y
las compañías de tarjetas de crédito, analizan los retiros y los patrones de gasto
para prevenir el fraude o robo de identidad. Asimismo, las compañías de comercio
electrónico (Ecommerce) examinan el tráfico en el sitio web o los patrones de
navegación para determinar qué clientes son más o menos propensos a comprar
un cierto producto o servicio, basándose en compras previas o patrones de
visualización. Sin embargo, el análisis de datos moderno usa tableros de
información que se basan en flujos de datos en tiempo real. El llamado análisis en
tiempo real implica análisis e informes dinámicos basados en los datos
introducidos en un sistema un minuto antes del tiempo actual de uso. Para el caso
de la presente tesis, el análisis de datos en tiempo real es ejecutado de forma
automática mediante la herramienta de la plataforma Big Data Infosphere
Streams.
Análisis de información.
Según Izamorar (2018), el análisis de información es el proceso por el cual una
persona (en nuestro caso un gestor de proyecto), realiza el análisis de un conjunto
de datos procesados y organizados en reportes y/o dashboards, con el propósito
de reducir la incertidumbre e incrementar el conocimiento. Asimismo, el análisis de
Información favorece la resolución de problemas puesto que permite una
adecuada toma de decisiones.
36
Estructura de la solución de Análisis de Datos No estructurados.
Teniendo en cuenta que las empresas no tienen gran conocimiento acerca del
análisis de grandes volúmenes de datos no estructurados, lo primero que se
cuestionan es como puede estar conformada o estructurada la solución.
Al respecto, Mitchell, Locke y Wilson (2012), explican el siguiente diagrama

que muestra cómo puede estar diseñada una solución de análisis de datos no
estructurados, donde los cuadros rojos representan la propia solución. A la
izquierda, se encuentran las diferentes fuentes de datos que pueden alimentar un
sistema, por ejemplo: Datos abiertos (públicos o proporcionados por el gobierno,
datos comerciales), redes sociales (Facebook, Skype, Twitter), datos internos
(transacciones en línea o sistemas de análisis), entre otros.
FIGURA N° 8: Estructura de la solución de Análisis de datos No estructurados

FUENTE: Libro the white book of Big Data
37
La primera función de la solución es la integración de datos, la cual se

realiza conectando el sistema a estas diferentes fuentes de datos (usando
interfaces de aplicación estándar y protocolos).
Estos datos pueden ser transformados (es decir, cambiados a un formato

diferente para un fácil almacenamiento y control) mediante la función
“Transformación de datos” o monitoreados por desencadenadores claves
(triggers) en la función “Procesamiento de eventos complejos”.
Esta función busca cada pieza de data, la compara con un conjunto de

reglas y luego manda una alerta cuando una asociación es encontrada. Algunos
motores de procesamiento de eventos complejos también permiten reglas
basadas en tiempo.
Luego la data puede ser procesada y analizada casi en tiempo real,

mediante la función “Análisis masivo en paralelo” y/o almacenada dentro de la
función “Almacenamiento de datos” para un análisis posterior. Toda la data
almacenada está disponible tanto para el análisis semántico como para el análisis
histórico tradicional. Se debe tener en cuenta que el análisis histórico tradicional
significa que la data no es analizada en tiempo real, más no que las técnicas de
análisis utilizadas estén pasadas de moda.
La búsqueda de datos es también una parte importante dentro de la

solución ya que permite a los usuarios acceder a los datos a través de diferentes
formas. Por ejemplo, a través de páginas como Google, Bing, Baidu, Yahoo, entre
otros; a través de una simple caja de texto se pueden ingresar los criterios de
búsqueda para acceder a datos específicos.
Los datos (ya sean flujos de datos, datos capturados o nueva data
generada durante el análisis) también pueden estar disponibles para las partes
internas o externas que deseen utilizarlo. Esto puede ser en forma libre o
mediante el pago de cuotas dependiendo de quién sea el propietario de los datos.
Los desarrolladores de aplicaciones, socios de negocios u otros sistemas que
consumen esta información, lo hacen a través de una “Interfaz de acceso a datos”,
la cual está representada en el lado derecho del diagrama.
38
Finalmente, una de las funciones clave de la solución es la “Visualización

de datos”, la cual presenta información de negocios en una forma significativa,
relevante y fácil de entender.
Esta presentación puede ser textual (Listas o extractos) o gráfica (que van
desde simples tablas y diagramas hasta animaciones complejas). Asimismo, esta
visualización de datos debería darse en cualquier tipo de dispositivo, desde una
PC hasta un Smartphone.
Esta flexibilidad es especialmente importante debido a la variedad de

usuarios que existen, cuyas necesidades y preferencias varían. Algunos ejemplos
de estos usuarios son: Personal que toma decisiones (administrativos, jefes,
gerentes, etc.), consumidores de data (cualquier entidad recibiendo y usando
datos), científicos de datos (para crear modelos de predicción), entre otros. Éstos
están representados en la parte superior del diagrama.
Cuando considerar una solución de Análisis de Datos No estructurados.
A continuación, se detallarán algunos principios que se deben tener en cuenta

cuando se desea usar una solución de análisis de datos no estructurados:
Principio 1: Estas soluciones son ideales para analizar no sólo data

estructurada sino también data semi o no estructurada proveniente de una
infinidad de fuentes u orígenes.
Principio 2: Estas soluciones son ideales para el análisis iterativo y

exploratorio de datos.
Principio 3: Estas soluciones son ideales cuando toda o casi toda la data
necesita ser analizada versus una muestra de data o cuando una muestra de
datos no es tan efectiva como usar un amplio conjunto de datos desde el cual
realizar el análisis.
39
Asimismo, se debe considerar lo siguiente:
¿Puede este tipo de plataforma complementar el análisis tradicional y

alcanzar una sinergia con las soluciones existentes para conseguir mejores
resultados en los negocios? Típicamente, la data usada en el análisis de
warehouse tiene que estar documentada y ser de confianza antes de que pueda
estar dentro de un esquema estricto de warehouse y si no puede encajar dentro
de un formato tradicional de filas y columnas ni siquiera puede llegar al warehouse
en la mayoría de los casos. En contraste, este tipo de solución no sólo va a
aprovechar los datos en cantidades masivas de volumen, que no son típicamente
adecuados para un ambiente tradicional de warehouse, sino que también va a
renunciar a algunas de las formalidades y severidades de la data. El beneficio
está en que se podrá preservar la fidelidad de los datos y ganar acceso a
montañas de información para la exploración y descubrimiento de conocimiento
en negocios.
Es importante indicar que las bases de datos convencionales son una

importante y relevante parte de toda una solución de análisis. Asimismo, se
vuelven más vitales cuando se usan en conjunto con una plataforma de análisis
de datos no estructurados (Zikopoulos, Eaton y Deroos, 2012).
Beneficios de la solución de Análisis de Datos No estructurados.
Existen diferentes beneficios de la solución, a continuación, se detallarán las más

importantes, según Reda Chouffani (2013):
Mejor administración de los datos: Muchas de las plataformas de

procesamiento de datos permiten actualmente analizar, recolectar y filtrar
diferentes tipos de datos. Asimismo, las herramientas de análisis de datos no
estructurados permiten a los usuarios trabajar con datos sin tener que realizar
demasiados pasos técnicos complicados. Esta capa adicional de abstracción ha
permitido numerosos casos de uso donde los datos, en una amplia variedad de
formatos, han sido extraídos con éxito para fines específicos.
40
Beneficios de Velocidad, capacidad y escalabilidad por usar el

almacenamiento en el Cloud: Las organizaciones que deseen utilizar conjuntos de
datos substancialmente grandes, deberían considerar a los proveedores de
servicios Cloud, pues pueden proveer tanto el almacenamiento como el poder
computacional necesarios para soportar la solución. El almacenamiento en la
nube (Cloud) permite a las organizaciones analizar conjuntos de datos masivos
sin tener que realizar una inversión significativa de capital en Hardware para poder
almacenar la data internamente.
Los usuarios finales pueden visualizar los datos: La solución requiere de

herramientas de visualización de datos que presenten la data en tablas, gráficos y
diapositivas fáciles de leer. Debido a la gran cantidad de datos que son
examinados, estas aplicaciones deben ser capaces de ofrecer motores de
procesamiento que permitan a los usuarios consultar y manipular la información
rápidamente, incluso en tiempo real. Algunos proveedores de herramientas de
visualización son: IBM, Microsoft, Oracle, entre otros.
Las organizaciones pueden encontrar nuevas oportunidades de negocio:

Conforme las herramientas de análisis van madurando, se hace más evidente la
ventaja competitiva que significa ser una empresa basada en datos. Por ejemplo:
Para las elecciones presidenciales de EE.UU en el 2012, los líderes de campaña
en ambos partidos, tanto democráticos como republicanos, vieron una necesidad
crítica por obtener información sobre los votantes y sus intereses o problemas
específicos; ya que al tomar esta información y hacerle frente a sus problemas a
través de un correo personalizado o mediante volantes, significaba la posibilidad
de ganar o influir en una votación. Por lo tanto, la información sobre nuestras
preferencias, gustos y disgustos es crítica para las empresas. Las redes sociales
han identificado oportunidades para generar ganancias en base a la data que
recolectan, vendiendo publicidad basada en los intereses particulares de los
usuarios. Esto permite a las empresas dirigirse a grupos específicos de clientes
que encajan en determinado perfil.
Los métodos y capacidades para el análisis de datos evolucionan: Los

datos ya no son simples números dentro de una base de datos. Los archivos de
texto, audio y video también pueden proveer conocimiento de valor; determinadas
herramientas pueden reconocer patrones específicos basados en un criterio
determinado. Mucho de esto sucede al utilizar herramientas de procesamiento del
41
lenguaje natural, el cual puede resultar vital para minería de textos y análisis de
sentimientos.
Desafíos del Análisis de Datos No Estructurado.

El siguiente gráfico muestra los retos que enfrentan las organizaciones con
"grandes volúmenes de datos no estructurados". Según Shields, A. (2014), la
complejidad en la integración de datos es el mayor desafío.
Integración de datos 35%
Iniciar con el proyecto adecuado 29.00%
Alm acenar grandes volúm enes de datos 27%
Falta de personal con conocim ientos en Big Data 25%
Propiedad de los datos y otros asuntos políticos 22%
Falta de patrocinio em presarial 20%
Privacidad y seguridad de datos 20%
Lidear con data en tiem po real 17%

Big Data
m odelo de negocios no convincente 16%
Challenges
Datos de m ala calidad 14%
Inm adurez de fuentes y tipos de datos 13%
Arquitecturas de data Warehouse existentes 12%
Infraestructura inadecuada 8%
Falta de un esquem a para Big Data 8%
Altos costos 6%
Otros 4%
0% 5% 10% 15% 20% 25% 30% 35% 40%
FIGURA N° 9: Desafíos del Análisis de datos No estructurados

FUENTE: Must-know: An overview of "big data"
42
OBJETIVOS
Objetivo general
Determinar el impacto de implementar una propuesta de análisis de datos no

estructurados, con las herramientas IBM InfoSphere BigInsights, Streams, Information
Server y Cognos BI, para generar decisiones oportunas durante la implementación de los
proyectos de GMD.
Objetivos específicos

estructurados, en la reducción del tiempo de extracción y procesamiento de datos para
favorecer la generación de decisiones oportunas.

estructurados, en la reducción del tiempo de análisis y visualización de datos para
favorecer la generación de decisiones oportunas.

estructurados, en la reducción de costos en los proyectos de TI de GMD, mediante la
reducción en el tiempo de extracción y procesamiento de datos.

estructurados, en la reducción de costos en los proyectos de TI de GMD, mediante el
análisis y visualización de datos en tiempo real o casi real.
43
JUSTIFICACIÓN DE LA INVESTIGACIÓN
Justificación Teórica
Big Data es el gran conjunto de datos estructurados y no estructurados que cada año
aumenta su tamaño y que puede originarse a través de diferentes fuentes como: redes
sociales, consultas en motores de búsqueda, correos, Información propia de las
empresas, entre otros. En la actualidad, las empresas acumulan cada vez más y más de
estos datos; sin embargo, no cuentan con las herramientas, experiencia y conocimientos
necesarios para aprovecharla y generar ganancias.
Lira Segura, J. en el diario Gestión (2014), indicó que las empresas cuentan con
grandes cantidades de datos; sin embargo, no saben qué hacer con ellos; por lo tanto, es
momento de que vean el análisis de datos no estructurados como una fuente de riqueza y
comiencen a obtener ganancias en lugar de verlo como una carga. Por otro lado, de
acuerdo con un estudio de Edgell Knowledge, sólo el 80% de los minoristas ha
escuchado sobre el término “Grandes volúmenes de datos no estructurados” y de ellos,
sólo el 47% entiende cómo aplicarlo a su negocio. Asimismo, según el IDC, el 90% de los
datos a nivel mundial han sido creados tan sólo en los últimos dos años, estimando que
el volumen de registros digitales crezca a 1.2 millones de zetabytes este año y 44 veces
más durante la siguiente década.
Justificación Práctica
GMD es una empresa dedicada a la provisión de soluciones de tecnología de la
información (servicios de outsourcing de TI) a empresas a nivel nacional de diferentes
sectores como comercio, banca y finanzas, gobierno, entre otros. La fase de
implementación de las soluciones de TI es la etapa más corta y critica del proyecto, pues
es la etapa donde se desarrolla el servicio de acuerdo con el alcance ofrecido y vendido
al cliente; por tanto, es indispensable poder contar con una solución de análisis de datos
que permita agilizar la toma de decisiones y reducir los costos de los proyectos. Para
lograr este objetivo, es necesario incluir la mayor cantidad de información disponible,
tanto estructurada (Aprox. 20% de la información total) como no estructurada (Aprox.
80% de la información total), con la finalidad de obtener el máximo provecho posible.
Con respecto al punto anterior, Intel indicó lo siguiente: El análisis de grandes

volúmenes de datos no estructurados, ofrece la promesa de proveer información valiosa
44
que puede crear ventajas competitivas, desatar nuevas innovaciones e impulsar mayores
ingresos. (IT Center, 2014, p.3).
ALCANCE DEL PROYECTO
La siguiente investigación abarcará únicamente la presentación de una propuesta para el

análisis de datos no estructurados, con la finalidad de generar decisiones oportunas en la
fase de implementación de proyectos de TI (Área de Implementación, Innovación y
Gestión de proyectos de la Línea de Negocio ISO), de la empresa GMD. Dicha
generación de decisiones es responsabilidad de los jefes y gerentes de proyectos de TI.
Asimismo, se analizará la situación actual (Antes) mediante una encuesta

realizada por los jefes y gerentes de proyecto, con la finalidad de medir el tiempo en la
recolección, búsqueda, procesamiento y análisis de datos actual. Asimismo, se medirá el
tiempo ideal esperado por los jefes y gerentes para la obtención de resultados en un
análisis de datos.
Por último, para el análisis de la situación posterior (después) se utilizará la

técnica de juicio de expertos, mediante la cual se realizará una encuesta a expertos en la
materia, con la finalidad de sustentar los hallazgos e hipótesis de la presente tesis.
LIMITACIONES DEL PROYECTO
Por temas de costo y tiempo, la presente investigación no abarcará el proceso de

implementación y construcción de la solución, ni los temas relacionados a la
infraestructura de Hardware.
Asimismo, se tendrá como limitante la disponibilidad de tiempo de los jefes y

gerentes de proyectos y expertos en la materia para realizar las encuestas que
sustentarán los hallazgos.
45
HIPOTESIS
Tipo de Hipótesis Hipótesis Hipótesis Nula

La propuesta de análisis de datos no
estructurados No favorecerá la
estructurados favorecerá la generación
generación decisiones oportunas en la
decisiones oportunas en la fase de
fase de implementación de los
Hipótesis General implementación de los proyectos de
proyectos de GMD, mediante el uso de
GMD, mediante el uso de las
las herramientas IBM InfoSphere
herramientas IBM InfoSphere BigInsights,
BigInsights, Streams, Information
Streams, Information server y Cognos BI.
server y Cognos BI.
La propuesta de análisis de datos no La propuesta de análisis de datos no
estructurados favorecerá la reducción del estructurados No favorecerá la
tiempo de extracción y procesamiento de reducción del tiempo de extracción y
información para la generación de procesamiento de información para la
decisiones oportunas. generación de decisiones oportunas.
La propuesta de análisis de datos no La propuesta de análisis de datos no
estructurados favorecerá la reducción del estructurados No favorecerá la
tiempo de análisis y visualización de reducción del tiempo de análisis y
información para la generación de visualización de información para la
decisiones oportunas. generación de decisiones oportunas.
Hipótesis Especifica La propuesta de análisis de datos no
estructurados favorecerá la reducción de
reducción de costos en los proyectos
costos en los proyectos de TI de GMD,
de TI de GMD, mediante la extracción y
mediante la extracción y procesamiento
procesamiento de información en
de información en tiempo real o casi real.
tiempo real o casi real.
estructurados favorecerá la reducción de
reducción de costos en los proyectos
costos en los proyectos de TI de GMD,
de TI de GMD, mediante el análisis y
mediante el análisis y visualización de
visualización de información en tiempo
información en tiempo real o casi real.
real o casi real.
TABLA N° 5: Hipótesis
46
MATRIZ DE CONSISTENCIA
Tipo Problemas Objetivos Hipótesis Variables Metodología

¿Cuál es el impacto que ocasiona la falta Determinar el impacto de implementar La propuesta de análisis de datos
de herramientas para la extracción, una propuesta de análisis de datos no no estructurados favorecerá la
Variable
procesamiento, análisis y visualización de estructurados, con las herramientas generación decisiones oportunas
Independiente:
grandes volúmenes de datos no IBM InfoSphere BigInsights, Streams, en la fase de implementación de
General Propuesta de análisis
estructurados, en la generación de Information Server y Cognos BI, para los proyectos de GMD, mediante
de datos no
decisiones oportunas durante la generar decisiones oportunas durante el uso de las herramientas IBM
estructurados
implementación de los proyectos de GMD? la implementación de los proyectos de InfoSphere BigInsights, Streams, El tipo de investigación
GMD. Information server y Cognos BI. que se adapta al
¿Cuál es el impacto que ocasiona la falta Determinar el impacto de implementar La propuesta de análisis de datos Variable presente trabajo es
de herramientas para la extracción y una propuesta de análisis de datos no no estructurados favorecerá la Dependiente: Correlacional, aplicada,
procesamiento de grandes volúmenes de estructurados, en la reducción del reducción del tiempo de Impacto en No Experimental y
datos no estructurados, en el tiempo de tiempo de extracción y procesamiento extracción y procesamiento de Decisiones Transversal. Asimismo,
análisis de información para la generación de datos para favorecer la generación información para la generación de Oportunas el método de
de decisiones oportunas? de decisiones oportunas. decisiones oportunas. investigación será
Específico ¿Cuál es el impacto que ocasiona la falta Determinar el impacto de implementar La propuesta de análisis de datos Indicadores: cuantitativo
de herramientas para el análisis y una propuesta de datos no no estructurados favorecerá la Tiempo en toma de
visualización de grandes volúmenes de estructurados, en la reducción del reducción del tiempo de análisis y decisiones.
datos no estructurados, en el tiempo de tiempo de análisis y visualización de visualización de información para Tiempo de análisis de
análisis de información para la generación datos para favorecer la generación de la generación de decisiones información.
de decisiones oportunas? decisiones oportunas. oportunas. Sobrecostos en los
proyectos.
47
Tipo Problemas Objetivos Hipótesis Variables Metodología

¿Cuál es el impacto que ocasiona la falta Determinar el impacto de implementar La propuesta de análisis de datos Variable
de herramientas para la extracción y una propuesta de análisis de datos no no estructurados favorecerá la Dependiente:
procesamiento de grandes volúmenes de estructurados, en la reducción de reducción de costos en los Impacto en
El tipo de investigación
datos no estructurados, en tiempo real o costos en los proyectos de TI de GMD, proyectos de TI de GMD, Decisiones
que se adapta al
casi real, en la reducción de costos en los mediante la extracción y procesamiento mediante la extracción y Oportunas
presente trabajo es
proyectos de TI de GMD? de datos en tiempo real o casi real. procesamiento de información en
Correlacional, aplicada,
tiempo real o casi real. Indicadores:
Específico No Experimental y
¿Cuál es el impacto que ocasiona la falta Determinar el impacto de implementar La propuesta de análisis de datos Tiempo en toma de
Transversal. Asimismo,
de herramientas para el análisis y una propuesta de análisis de datos no no estructurados favorecerá la decisiones.
el método de
visualización de grandes volúmenes de estructurados, en la reducción de reducción de costos en los Tiempo de análisis de
investigación será
datos no estructurados, en tiempo real o costos en los proyectos de TI de GMD, proyectos de TI de GMD, información.
cuantitativo
casi real, en la reducción de costos en los mediante el análisis y visualización de mediante el análisis y Sobrecostos en los
proyectos.
proyectos de TI de GMD? datos en tiempo real o casi real. visualización de información en
tiempo real o casi real.
TABLA N° 6: Matriz de consistencia

FUENTE: Elaboración propia.
48
MARCO METODOLÓGICO
Metodología y Enfoque
El siguiente trabajo de tesis se realizará utilizando un enfoque cuantitativo, en el cual se

analizará el impacto en tiempos y costos de elaborar una propuesta de análisis de datos
no estructurados para la generación de decisiones oportunas. Asimismo, se realizarán
encuestas a los jefes y gerentes de proyectos de GMD para recolectar información sobre
la situación actual de la empresa con respecto a la toma de decisiones, posteriormente se
realizarán encuestas a expertos en el tema de análisis de datos no estructurados para
medir las variables y sustentar los resultados.
Hernández et al. Explican que “El enfoque cuantitativo Utiliza la recolección de

datos para probar hipótesis con base en la medición numérica y el análisis estadístico,
con el fin establecer pautas de comportamiento y probar teorías” (2014, p.4).
El estudio tendrá un alcance correlacional y se estudiarán las siguientes variables:

como variable independiente, la propuesta de análisis de datos no estructurados y como
variable dependiente la generación de decisiones oportunas.
Hernández et al. Explican que “Este tipo de estudios tiene como finalidad conocer
la relación o grado de asociación que existe entre dos o más conceptos, categorías o
variables en una muestra o contexto en particular. En ocasiones sólo se analiza la
relación entre dos variables, pero con frecuencia se ubican en el estudio vínculos entre
tres, cuatro o más variables. Para evaluar el grado de asociación entre dos o más
variables, en los estudios correlacionales primero se mide cada una de éstas, y después
se cuantifican, analizan y establecen las vinculaciones.” (2014, p.93).
Paradigma
La metodología cuantitativa se basa en el paradigma positivista, pues busca encontrar las

causas y la objetividad mediante encuestas o cuestionarios para la recolección de datos;
por lo tanto, en la presente investigación se producirán datos estadísticos y se seguirá un
proceso deductivo.
49
Método
El método que se aplicará al presente trabajo es No experimental, pues se analizarán las

variables en su contexto natural.
Hernández et al. Explican que “Investigación no experimental Estudios que se

realizan sin la manipulación deliberada de variables y en los que sólo se observan los
fenómenos en su ambiente natural para analizarlos.” (2014, p.152).
VARIABLES
Variable Independiente
La variable independiente es la propuesta de análisis de data no estructurada, porque es
el fenómeno que afectará a otras variables y no depende de otra variable para subsistir.
Variable Dependiente
La variable dependiente es el impacto en la generación de decisiones oportunas, porque
sufrirá los cambios ocasionados por la manipulación de la variable independiente, la
variable dependiente se medirá de acuerdo con los siguientes indicadores:
Variables Indicadores Instrumentos

Variable Independiente:
Propuesta de análisis de datos no
Tiempo en toma de decisiones
estructurados
Tiempo de Análisis de información Encuestas / cuestionarios
Variable Dependiente:
Sobrecostos en los proyectos
Generación de Decisiones
Oportunas
TABLA N° 7: Variables e Indicadores

50
POBLACIÓN Y MUESTRA
Población
La población objetivo está conformada por los jefes y gerentes de proyecto de la línea de
negocio ISO (International Standard Organization) de la empresa GMD. La empresa GMD
tiene actualmente 21 jefes de proyecto y 16 Gerentes de proyecto; es decir un total de 37
gestores de proyecto, quienes son responsables de la toma de decisiones.
Muestra
La muestra es censal, por lo tanto, se considerará a toda la población; es decir,

incluiremos en el estudio a todos los sujetos o casos (37 gestores de proyecto).
Hernández et al. Explican que “No siempre se tiene una muestra, pero en la
mayoría de las situaciones sí se realiza una. Sólo cuando queremos efectuar un censo
debemos incluir todos los casos (personas, animales, plantas, objetos) del universo o la
población. Por ejemplo, los estudios motivacionales en empresas suelen abarcar a todos
sus empleados para evitar que los excluidos piensen que su opinión no se toma en
cuenta. Las muestras se utilizan por economía de tiempo y recursos.” (2014, p.172).
UNIDAD DE ANÁLISIS
Para la presente tesis tendremos como unidad de análisis a los jefes y gerentes de
proyectos de la línea de negocio ISO; debido a que, son los responsables de la toma de
decisiones en los proyectos. Actualmente la toma de decisiones, no se encuentra
sustentada en un análisis de información que incluya datos no estructurados, debido a la
falta de herramientas para la extracción, procesamiento, análisis y visualización de éstos;
con la finalidad de minimizar los costos de los proyectos y generar decisiones oportunas.
La investigación se centrará en el proceso de implementación de la empresa

GMD, por ser la fase más crítica, en la cual se desarrolla el servicio de acuerdo con el
alcance ofrecido y vendido al cliente; dentro del marco de gestión de proyectos.
51
INSTRUMENTOS Y TÉCNICAS
Instrumentos
UNIVERSIDAD SAN IGNACIO DE LOYOLA – FACULTAD DE INGENIERÍA
DATOS INFORMATIVOS:
FECHA : ………/…… / 2017
PUESTO DE TRABAJO : Jefe de Proyecto ( ) Gerente de Proyecto ( )
_______________________________________________________________________
INDICACIONES:
Este instrumento me permitirá recoger información sobre la toma de decisiones de GMD,
con la finalidad de medir indicadores como: Tiempo de análisis de información, tiempo de
toma de decisiones y sobrecostos en los proyectos.
I. ¿Qué tan útil considera que es la información utilizada actualmente en la toma de

decisiones? Marcar del 1 al 5, teniendo en cuenta que 5 es Muy Útil y 1 Nada Útil
1 2 3 4 5
II. Considerando la siguiente escala, por favor indicar la frecuencia en la que se

presentan los siguientes eventos en la Toma de Decisiones:
1 NUNCA 2 CASI NUNCA 3 A VECES 4 CASI SIEMPRE 5 SIEMPRE
N° Preguntas del Cuestionario 1 2 3 4 5
Uso de información
01 Documentos sobre lecciones aprendidas.
02 Costos de los proyectos.
03 Quejas de los clientes (Correos, documentos, entre otros).
04 Documentación propia de los proyectos.
05 Audios y videos de comités ejecutivos y operativos.
Problemas Generales
06 Retraso en la toma de decisiones.
07 Sobrecostos en los proyectos.

52
08 Retraso en el análisis de información.

El análisis de datos no incluye data no estructurada como videos,
09
audios, imágenes, correos, documentos, entre otros.
Problemas al extraer y procesar datos
10 No se logra obtener las fuentes y tipos de datos necesarios.
11 Retrasos al extraer y procesar los datos.
12 Pérdida o difícil acceso a los datos no estructurados.

Falta de una interfaz amigable para la extracción y procesamiento de
13
datos.
Falta de herramientas para la extracción y procesamiento de grandes
14
volúmenes de datos.
Problemas al analizar y visualizar datos
15 Análisis de datos manual.

Falta de herramientas para el análisis de grandes volúmenes de
16
datos.
Falta de una interfaz amigable para el análisis y visualización de
17
datos.
18 El análisis de datos se realiza sobre data histórica.
19 Retrasos en el proceso de análisis de datos.
Efectos Negativos debido a los retrasos en la Toma de Decisiones
20 Insatisfacción en los clientes.
21 Hubo un incremento en los costos.
22 Se redujo la rentabilidad de la inversión.
III. Considerando la siguiente escala, por favor indicar el tiempo real y que considerada
adecuado para las siguientes situaciones:
1 Menos de 20 min
2 Entre 20 a 60 min
3 Más de 1 hora
4 Más de 1 día
5 Semanas o meses
53

Tiempo Real en la Toma de Decisiones
01 Extraer y procesar datos
02 Analizar datos
03 visualizar la información
IV. ¿Cuánto considera que es el sobrecosto en los proyectos, causado por los retrasos en
la toma de decisiones?
( ) A. Entre 0% a 15% adicional al costo del proyecto

( ) B. Entre 15% a 25% adicional al costo del proyecto
( ) C. Entre 25% a 50% adicional al costo del proyecto
( ) D. Entre 50% a 75% adicional al costo del proyecto
( ) E. Entre 75% a 100% adicional al costo del proyecto
V. Considerando la siguiente escala, por favor indicar el grado de importancia de las

siguientes características en una plataforma de análisis de grandes volúmenes de
datos en tiempo real o casi real para la toma de decisiones:
1 Nada Importante
2 Poco Importante
3 Indiferente
4 Importante
5 Muy Importante
Características de una plataforma de análisis de grandes volúmenes de datos
01 Interfaz fácil y amigable.
02 Análisis de datos en tiempo real o casi real.
03 Rápida búsqueda, captura y extracción de datos.
04 Almacenar y sistematizar la data estructura y no estructurada.
05 Rápido procesamiento de grandes y variados volúmenes de datos.

54
Técnicas
Se realiza la validación del instrumento aplicando el Coeficiente alfa de Cronbach. Para

esto se digitó y estructuró los datos obtenidos en la encuesta realizada por los gestores
de proyecto de GMD. Cabe resaltar que el Coeficiente alfa de Cronbach, es un modelo de
consistencia interna, basado en el promedio de las correlaciones entre los ítems.
Alfa de Cronbach Número de elementos

0,840 32
TABLA N° 8: Estadístico Alfa de Cronbach del instrumento

En la tabla N° 8 se observa un Coeficiente alfa de Cronbach de 0,840; por lo tanto,

podemos concluir que el instrumento de evaluación que mide el impacto de la propuesta
de análisis de datos no estructurados en la toma de decisiones oportunas tiene un grado
de fiabilidad alta.
Correlación total de elementos Alfa de Cronbach si el elemento

Ítems
corregida se ha suprimido
ÍTEM 1 0,377 0,835
ÍTEM 2 0,157 0,844
ÍTEM 3 0,317 0,837
ÍTEM 4 0,404 0,834
ÍTEM 5 0,308 0,838
ÍTEM 6 0,146 0,842
ÍTEM 7 0,455 0,832
ÍTEM 8 0,414 0,833
ÍTEM 9 0,611 0,829
ÍTEM 10 0,459 0,832
ÍTEM 11 0,549 0,831
ÍTEM 12 0,386 0,834
ÍTEM 13 0,483 0,831
ÍTEM 14 0,106 0,842
ÍTEM 15 0,117 0,842
ÍTEM 16 0,488 0,832
ÍTEM 17 0,185 0,840
ÍTEM 18 0,423 0,834
ÍTEM 19 0,142 0,841
ÍTEM 20 0,602 0,829
55
ÍTEM 21 0,520 0,831

ÍTEM 22 0,730 0,825
ÍTEM 23 0,478 0,832
ÍTEM 24 0,260 0,838
ÍTEM 25 0,410 0,834
ÍTEM 26 0,323 0,836
ÍTEM 27 0,718 0,821
ÍTEM 28 0,050 0,842
ÍTEM 29 0,073 0,841
ÍTEM 30 0,069 0,841
ÍTEM 31 0,047 0,842
ÍTEM 32 0,084 0,842
TABLA N° 9: Estadísticas de Total de elemento

En la tabla N° 9 se observa que en la columna “correlación elemento Total

corregida”, todos los valores son superiores a 0; por lo tanto, no es necesario eliminar
algún ítem; a su vez en la columna “Alfa de cronbach si se elimina el elemento”,
observamos que los valores no aumentan significativamente si se eliminara algún ítem.
En conclusión, todos los ítems aportan en la medición del impacto de la propuesta de
análisis de datos no estructurados en la toma de decisiones oportunas.
56
PROCEDIMIENTOS Y MÉTODO DE ANÁLISIS
Procedimiento
En toda investigación cuantitativa se aplica un instrumento para medir las variables

indicadas en la hipótesis. Esta medición es eficaz siempre y cuando el instrumento de
recolección de datos represente las variables que hemos definido, sino no podrá ser
tomada en cuenta. Si bien no existe una medición perfecta que represente con total
fidelidad las variables, es un hecho que debemos acercarnos lo más posible mediante el
instrumento de medición que desarrollemos. Se trata de un concepto básico del enfoque
cuantitativo, pues al medir estandarizamos y cuantificamos los datos (como se cita en
Hernández et al., 2014, p.200).
Para la presente investigación la unidad de análisis serán los jefes y gerentes de

proyecto de GMD, quiénes son responsables de la toma de decisiones. Por lo tanto, se
realizará el levantamiento de información mediante el instrumento validado (encuesta) a
los 37 gestores de proyecto de GMD, con la finalidad de medir el impacto de la propuesta
de análisis de datos no estructurados (Variable independiente) en la toma de decisiones
oportunas (Variable dependiente).
Para la recolección de datos se enviará la encuesta vía correo electrónico para

que pueda ser completada mediante el siguiente link:
https://docs.google.com/forms/d/e/1FAIpQLScXztTD0YVd0FL4JwqrEZq7puvjoHsRt0exhKSufaBdu5Rxbg/
viewform?usp=sf_link
Método de Análisis
Se llevará a cabo un análisis de datos mediante el software estadístico “SPSS versión
22”, con la finalidad de obtener la confiabilidad de los datos recolectados mediante el
instrumento (encuesta).
Con base en los datos que se obtengan y con la finalidad de responder al

problema y objetivos planteados, se presentarán cuadros de frecuencia y porcentajes, así
como gráficos de pie y barras, para el análisis de los datos.
57
PROPUESTA DE ANÁLISIS DE DATOS NO ESTRUCTURADOS
Metodología para el desarrollo de la Tesis
El siguiente gráfico ilustra el ciclo de vida que se adoptará para el desarrollo de la

propuesta de análisis de datos no estructurados para generar decisiones oportunas.
Justificación
Situación actual de la organización
Planeamiento
Capacidades técnicas y de negocio actuales de GMD
Planeamiento del proyecto
1
58
Análisis del Negocio
Requerimientos del proyecto
Análisis de las Principales plataformas de Big Data
Definición del presupuesto e Inversión
Diseño
Plataforma de Análisis de grandes volúmenes de datos
Herramientas para el análisis de grandes volúmenes de datos
Propuesta de Análisis de Datos No Estructurados Completa
FIGURA N° 10: Ciclo de vida del desarrollo de la solución propuesta

Fuente: Elaboración propia
59
Situación actual de la organización
GMD actualmente tiene una importante presencia en el mercado nacional y ha

experimentado un gran crecimiento en poco tiempo; sin embargo, esto ha causado un
gran desorden al interior de la empresa, pues se han visto en la necesidad de contratar
nuevo personal para afrontar los nuevos proyectos. Asimismo, se ha generado gran
cantidad de información al realizar las actividades de preventa e implementación para los
nuevos proyectos.
El hecho que GMD haya crecido de manera desordenada, significa que no estaba
preparada para dicho crecimiento. Por lo tanto, la generación de información se ha vuelto
un tema bastante engorroso, pues se cuenta con tanta información, que ya no se sabe
qué hacer con ella. Asimismo, no existe un repositorio oficial dentro de GMD donde
almacenar toda esta información, quedando distribuida en diferentes repositorios
dependiendo del área que la genera. Esto causa que cuando se necesita determinada
información, no se sabe dónde está, no está completa o no se cuenta con los accesos
necesarios. Por lo tanto, se gasta tiempo y esfuerzo en la búsqueda o se realiza un
retrabajo para generarla nuevamente, impidiendo que se explote al máximo o se use de
manera eficiente.
Por otro lado, hay información proveniente de correos, audios, videos, entre otros,
que se pierde o no se almacena ni utiliza de la mejor manera.
Por último, no se han desplegado herramientas para el análisis de datos no

estructurados, lo que significa que la toma de decisiones se realiza sin tomar en cuenta
esta información, lo que causa que no esté debidamente sustentada. Por otro lado, dado
que la información que se utiliza esta dispersa, se producen retrasos al buscar, extraer,
procesar y analizar la información, causando que la generación de decisiones, por parte
de los jefes y gerentes de proyecto de GMD, no sea oportuna.
Capacidades técnicas y de negocio de GMD
Las necesidades de negocio de GMD están orientadas a generar decisiones que sean
oportunas, con la finalidad de reducir tiempo y costos durante la implementación de los
proyectos. En base a esto, se definirán las capacidades técnicas y de Negocio para el
desarrollo de la propuesta de análisis de datos no estructurados para la generación de
decisiones oportunas.
60
Capacidades Técnicas.
GMD posee una infraestructura de Cloud Privado que está compuesta de la

siguiente manera:
A nivel físico: Está compuesta básicamente de storage (HP 3-PAR 7400 de

4 nodos), red SAN (Equipos Brocade de 24 puertos), red LAN (Equipos Cisco), y
servidores Blade en Clusters (HP Blade Server C7000).
A nivel lógico: Está compuesta por máquinas virtuales, las cuales son
creadas usando tecnología VMWare.
Asimismo, posee 2 Data centers, uno ubicado en Surquillo (COT1) y otro

ubicado en Cercado de Lima (COT4).
FIGURA N° 11: vCenter del Cloud Computing

FUENTE: Elaborado por GMD
61
Capacidades de Negocio.
En esta sección, detallaremos puntos como la inversión y Alianzas estratégicas

con los que cuenta actualmente GMD.
Inversión.
GMD cuenta con más de 30 años en el mercado de Tecnologías de la información
y con aproximadamente 2,000 colaboradores. En el año 2015, GMD cerró su
facturación anual con un monto de US$ 83 millones de dólares, distribuidos entre
sus principales líneas de negocio (ISO, AO y BPO). Asimismo, ha realizado una
inversión de US$ 40 millones de dólares en nuevas tecnologías y servicios como
el Cloud Computing, Software Factory, la construcción de un nuevo Datacenter,
entre otros.
FIGURA N° 12: Inversión y facturación de la empresa GMD

GMD tiene como meta propuesta para el año 2018, contar con presencia
regional en países como Chile y Colombia. Asimismo, se espera generar un
ingreso de US$ 260 millones de dólares. Por tanto, cuenta con la solvencia
necesaria para invertir en una solución de tecnología como la propuesta en la
presente tesis.
62
Alianzas estratégicas.
GMD tiene actualmente alianzas estratégicas con diferentes proveedores como
IBM (Partner a nivel de Hardware y Software), HP (Partner sólo a nivel de
Hardware), Oracle (Partner sólo a nivel de Software), entre otros, lo cual le
permite tener ventajas competitivas con respecto a sus competidores. Asimismo,
contar con descuentos y soporte para nuevos proyectos e inversiones en
soluciones de tecnología como la propuesta en la presente tesis.
FIGURA N° 13: Alianzas estratégicas de la empresa GMD

63
Planeamiento del proyecto de Tesis
A continuación, se detallan los planes de Gestión de tiempo y gestión de riesgos, con la

finalidad de controlar, de manera satisfactoria, el desarrollo del proyecto.
Plan de Gestión del Tiempo.

A continuación, se detallan las principales actividades del proyecto de tesis, junto
con las fechas y entregables incluidos en la tesis.
Fase Hitos del proyecto de Tesis Fecha Entregables incluidos

Identificación del problema 01/01/2017 Planteamiento y Formulación
Definición de alcances y Limitaciones 05/01/2017 Alcances y Limitaciones
Inicial Análisis de data no estructurada para
01/02/2017 Marco Teórico
generar decisiones oportunas
Identificación de Objetivos 20/03/2017 Objetivos Generales y Específicos
Definición del tipo y diseño de la Tesis 01/04/2017 Tipo y Diseño de la investigación
Definición de variables del proyecto 10/04/2017 Variables e indicadores
Selección de la muestra 15/04/2017 Población y Muestra
Metodología Definición de instrumentos y procedimientos Instrumentos y Procedimientos de
20/04/2017
de investigación recolección de datos.
Planeamiento del análisis de información Procedimientos y métodos de
15/05/2017
recolectada. análisis
Detalle de la situación actual de GMD 20/05/2017 Situación actual de la empresa
Identificación de las capacidades técnicas y Capacidades Técnicas y de
25/05/2017
de negocio de GMD Negocio.
Plan de Gestión de tiempos e identificación
31/05/2017 Planeamiento del proyecto
de Riesgos.
Identificación de requerimientos del proyecto 02/06/2017 Requerimientos
Desarrollo
Detalle de la inversión para la solución
10/06/2017 Inversión Propuesta
propuesta.
Herramientas para el análisis de
Herramientas y arquitectura funcional 20/06/2017
Propuesta de análisis de datos no
Arquitectura de la solución propuesta 31/07/2017
estructurados completa
Presentación de resultados 10/08/2017 Resultados
Final Presentación de conclusiones y
31/08/2017 Conclusiones y Recomendaciones
recomendaciones
TABLA N° 10: Hitos y entregables del proyecto de tesis

64
Plan de Gestión de riesgos.
A continuación, se detallan los riesgos identificados a lo largo de la presente

investigación; así como, las actividades necesarias para la mitigación de riesgos.
N° Riesgo Probabilidad Impacto Estrategia de mitigación

Retraso en la elaboración de la Solicitar autorización por parte del
Tesis; debido a restricciones en la Gerente de Línea de GMD para
1 Bajo Medio
obtención de Información de poder acceder a la información de la
GMD. empresa.
Cambios en el plan de Gestión del Aumentar las horas de trabajo
tiempo; debido a que no se dedicadas a la Tesis.
2 Bajo Medio
puedan cumplir las fechas Tener fechas con holgura para la
estimadas. elaboración de cada entregable.
Generación de respaldos de la
información.
3 Pérdida de información Medio Alto
Almacenamiento de la información
en la nube.
Reajustar la fecha de presentación
Retraso en la fecha de entrega de de la Tesis.
4 Medio Alto
la tesis (Según planeamiento). Tener fechas con holgura para la
elaboración de cada entregable.
Retraso en la elaboración de la
Coordinación anticipada con los
Tesis; debido a la falta de
5 Medio Alto jefes y gerentes de proyecto de
disponibilidad de los jefes y
GMD.
gerentes de proyecto de GMD.
TABLA N° 11: Tablero de Riesgos

Requerimientos del Proyecto

A continuación, se presentan los cuadros correspondientes a los requerimientos
funcionales y no funcionales para la propuesta de análisis de datos no estructurados.
Estos requerimientos se han identificado tomando en cuenta las necesidades del
negocio, la problemática planteada y los requisitos técnicos.
65
Requerimientos Funcionales.
Nivel Exigible /
N° Requerimientos
Prioridad Deseable
La solución deberá permitir la búsqueda, captura y extracción de información de
1 fuentes como: documentos de lecciones aprendidas, oportunidades de mejora, 1 E
costos, quejas de los clientes y documentación propia de los proyectos.
La solución deberá permitir realizar y visualizar, de manera rápida, fácil y
2 amigable, el análisis de grandes volúmenes de datos para la generación de 1 E
decisiones oportunas por parte de los jefes y gerentes de proyecto.
La solución deberá presentarse en forma de Dashboards y reportes amigables,
3 1 E
que faciliten la generación de toma de decisiones.
Se espera que la solución propuesta permita realizar un análisis sobre los
siguientes puntos:
Identificar los errores más frecuentes en los proyectos.
4 Definir si un proyecto ha culminado con éxito, en base al análisis de 2 D
información realizada.
Validar si se están aplicando las lecciones aprendidas en los proyectos.
Identificar los tipos de quejas de clientes que existen y su frecuencia.
La solución deberá permitir realizar un análisis de grandes volúmenes de datos
5 1 E
en tiempo real o casi real.
TABLA N° 12: Requerimientos Funcionales

Leyenda:
E = Exigible y D = Deseable
Nivel de Prioridad de mayor a menor:

Alto = 1, Medio = 2 y Bajo = 3
66
Requerimientos No Funcionales.
Nivel Exigible /
N° Requerimientos
Prioridad Deseable
Se deberán identificar las características a nivel de infraestructura que se
1 1 E
requieren para la solución.
Se deberán adquirir las licencias necesarias para el procesamiento y análisis de
2 1 E
Se deberá elegir una plataforma de Big Data a través de un análisis sobre los
3 1 E
principales proveedores.
La plataforma elegida deberá poder ser desplegada sobre la infraestructura
4 2 D
actual de GMD.
La solución deberá tener soporte del proveedor ante incidentes críticos en
5 2 D
modalidad 24 x 7 los 365 días del año.
6 La solución deberá permitir integrar y centralizar la información 1 E
TABLA N° 13: Requerimientos No Funcionales

Leyenda:
E = Exigible y D = Deseable
Nivel de Prioridad de mayor a menor:

Alto = 1, Medio = 2 y Bajo = 3
67
Análisis de las Principales plataformas de Big Data
Como parte de la presente investigación se realizará un análisis sobre las principales

plataformas Big Data que existen en el mercado, con la finalidad de seleccionar la más
adecuada para GMD. Debido a que GMD no cuenta con experiencia sobre tecnologías
Big Data, lo recomendable es adquirir una plataforma proveniente de un proveedor que
posea un dominio reconocido en el mercado sobre el tema, con la finalidad de obtener un
soporte confiable ante cualquier incidente.
Según Jeff Kelly (2014), el mundo de las empresas proveedoras de Big Data se
divide en dos: Aquellas empresas creadas recientemente y que están trayendo
innovación al creciente mercado de Big Data (sus ingresos dependen 100% de Big Data)
y aquellas empresas proveedoras de base de datos y data Warehouse, ya establecidas,
que se están expandiendo al mundo del Big Data desde una posición bastante fuerte
gracias a su larga experiencia y renombre en el mercado (sus ingresos no dependen
100% de Big Data). A continuación, se muestra la lista de las 10 empresas de Big Data
más importantes:
% de Ingresos
Ingresos Total % de Ingresos por % de Ingresos por
Proveedor por Big Data
Big Data Ingresos Big Data (Hardware) Big Data (Software)
(Servicios)
IBM $1,368 $99,751 31% 27% 42%
HP $869 $114,100 42% 14% 44%
Dell $652 $54,550 85% 0% 15%
SAP $545 $22,900 0% 76% 24%
Teradata $518 $2,665 36% 30% 34%
Oracle $491 $37,552 28% 37% 36%
SAS
$480 $3,020 0% 68% 32%
Institute
Palantir $418 $418 0% 50% 50%
Accenture $415 $30,606 0% 0% 100%
PWC $312 $32,580 0% 0% 100%
TABLA N° 14: Ingresos Big Data por proveedor a nivel mundial

FUENTE: Big Data Vendor Revenue and Market Forecast.
68
Adicionalmente, Según Gartner (2017), IBM es uno de los proveedores líderes en

el mercado de Plataformas de Análisis avanzado (Big Data + BI). Esto de acuerdo al
“cuadrante mágico de Gartner sobre plataformas de Data Science”:
FIGURA N° 14: Magic Quadrant for Data Science Platforms

FUENTE: Cuadrante mágico de Gartner
Por lo tanto, Tomando en cuenta las alianzas estratégicas de GMD, el ranking

realizado por Jeff Kelly y el Cuadrante Mágico de Gartner, el proveedor de plataforma Big
Data seleccionado para la presente propuesta de solución es IBM.
Según Zhu, Gupta y Kumar (2014), La plataforma de análisis de Big Data de IBM
proporciona a las organizaciones un conjunto de soluciones, diseñado específicamente
para uso empresarial. Asimismo, proporciona la capacidad de empezar con una sola
funcionalidad y fácilmente añadir otras conforme se requiera, ya que la pre-integración de
sus componentes reduce el tiempo de implementación y el costo.
69
Entre las ventajas de utilizar la plataforma de Análisis de Big Data de IBM se tiene:
Las 5V’s.
Variedad: La plataforma soporta gran variedad de datos y permite a las empresas
gestionar estos datos en su formato original y transformarlos a otros formatos
deseados.
Velocidad: La plataforma puede manejar datos a cualquier velocidad.
Volumen: La plataforma puede manejar grandes volúmenes de datos ya

sea que estén en reposo o en flujo constante (streaming data).
Veracidad: La plataforma incluye varias herramientas para eliminar la

incertidumbre sobre los datos de destino.
Visibilidad: La plataforma permite navegar, buscar y descubrir información

en una amplia gama de fuentes y tipos de datos, tanto dentro como fuera de su
empresa.
Análisis.
La plataforma permite analizar los datos en su formato nativo como texto, binario y
contenido multimedia.
La plataforma puede escalar para analizar todos los datos, no sólo un

subconjunto.
La plataforma permite realizar análisis dinámicos, como ajustes

automáticos y acciones.
Fácil de usar.
La plataforma incluye un conjunto de interfaces de usuario desarrollador (UI),
lenguajes comunes y consola de administración, que permiten una adopción más
rápida y reduce el tiempo de codificación y depuración.
La plataforma también ofrece interfaces de usuario final y capacidades de
visualización, como el análisis basado en web y herramientas para la visualización
de información, a través de interfaces familiares como las hojas de cálculo.
70
Integración.
La plataforma ofrece la posibilidad de integrar una amplia variedad de fuentes de
datos utilizando protocolos estándares, tales como Open Database Connectivity
(ODBC), Java Database Connectivity (JDBC), y Java Message Service (JMS).
Presupuesto e Inversión
Para el diseño de la solución propuesta se han definido las siguientes capacidades, las
cuales pueden ser ajustadas en el proceso. En base a este dimensionamiento tenemos
una inversión de $393,360.52 dólares.
InfoSphere BigInsights: Licenciamiento para 5 nodos virtuales (Procesamiento de

data de hasta 100TB).
InfoSphere Streams: Licenciamiento para que se instale en un ambiente de

producción.
Cognos BI: Licenciamiento para 5 usuarios y 1 administrador.

InfoSphere Information Server: Licenciamiento para 280 PVU.
FIGURA N° 15: Cotización del licenciamiento de la plataforma IBM Big Data

FUENTE: Elaborado por Nexsys (IBM Business Partner)
Dado que GMD tiene como meta propuesta para el año 2018, contar con un
ingreso de US$ 260 millones de dólares, cuenta la solvencia necesaria para invertir en
una solución de tecnología como la propuesta en la presente tesis. Asimismo, el
71
costo/beneficio que se puede obtener de esta solución radica en una toma de decisiones
mucho más rápida (oportuna) que esté basada en un análisis de datos completo y no sólo
en el instinto, permitiendo hacer frente a las necesidades y requerimientos de sus clientes
y ganando oportunidades de negocio e inversión frente a la competencia.
Diseño de la infraestructura
Según Zhu, Gupta y Kumar (2014), el análisis de Big Data requiere gran cantidad de
almacenamiento (a nivel de bloque u objeto), procesamiento (a nivel de recursos) e
intercambio de datos (a nivel de red).
Asimismo, las plataformas tradicionales para el análisis de datos, no pueden escalar
fácilmente a bajo costo para satisfacer las demandas de Big Data. Por otro lado, la
mayoría de los datos no son estructurados y adecuados para las bases de datos
relacionales y almacenes de datos (Data Warehouse) tradicionales.
Debido a lo anterior, la infraestructura del Cloud Computing ha aparecido como

una alternativa perfecta para escalar y dar cabida a grandes volúmenes de datos, ya que
puede dividirlos mediante el uso del particionamiento (almacenar datos en más de una
región o zona disponible). Por otra parte, el Cloud Computing, puede proporcionar
reducción en los costos, mediante el uso de nodos de computación con productos
básicos e infraestructura de red y demandando menos administradores y programadores
(gracias a la estandarización de servicios en la nube y al uso de APIs bien definidas).
Sin embargo, los entornos Cloud Computing están construidos para responder a
cargas de trabajo de propósito general y usar grupos comunes de recursos (Resource
pooling), durante un largo periodo de tiempo, para proporcionar elasticidad a demanda;
mientras que las cargas de trabajo de Big Data utilizan gran cantidad de recursos en un
periodo de tiempo corto.
72
FIGURA N° 16: Carga de trabajo Cloud Computing vs. Big Data

FUENTE: Building Big Data and Analytics Solutions in the Cloud.
Por lo tanto, un ambiente de Cloud Computing para Big Data, requiere extrema
elasticidad para proveer cientos de máquinas virtuales (VMs) en horas o incluso minutos.
Asimismo, se requieren redes dedicadas y aisladas para asegurar que la replicación de
datos entre los nodos no afecte la ingestión de datos entrantes.
Según Zhu, Gupta y Kumar (2014), Para que el Cloud Computing y el Big Data
puedan trabajar juntos se deben asegurar los siguientes puntos a nivel de infraestructura
del Cloud Computing (IaaS):
CPUs para el procesamiento de Big Data.
Para aumentar la capacidad de procesamiento, se puede crear un pool de

recursos con CPUs multicore (Múltiples núcleos), para lograr un mayor
rendimiento (en términos de cálculos por segundo) por cada unidad de energía
eléctrica que se consume en lugar de sus equivalentes de un solo núcleo. Los
CPUs de cuatro y seis núcleos, son la manera más atractiva y rentable de crear
grupos de recursos dedicados para el procesamiento de grandes volúmenes de
datos en el Cloud Computing.
73
FIGURA N° 17: Diseño de la infraestructura Cloud

FUENTE: Elaboración propia en conjunto con GMD
Almacenamiento para el procesamiento de datos.

Actualmente GMD utiliza una red SAN multicliente con almacenamiento HP 3PAR
7400; Sin embargo, según Evans (2013), el sistema Hadoop ha sido diseñado
para usar las capacidades masivas a escala y ejecutar el procesamiento
distribuido con la menor latencia posible, lo cual no encaja bien con las
implementaciones tradicionales de SAN, que tienen un costo mucho mayor por
cada GB que se despliega, en contraste con otras soluciones de almacenamiento
como la conexión local directa (Direct-Attached-Storage).
Por otro lado, no se recomienda el uso del canal de fibra en los

despliegues de HDFS, debido al gran costo de implementación en términos de
adaptadores de bus (HBA) y puertos SAN. Adicionalmente, HDFS está diseñado
para atender flujos de datos, que se generan como consecuencia de las
transacciones Hadoop que escriben datos a través del clúster y luego realizan
gran cantidad de lecturas. Esto funciona bien con unidades SATA conectadas
74
directamente, pero no tan bien con entornos de almacenamiento compartidos,

donde se utiliza el mismo disco físico subyacente para apoyar el cluster Hadoop.
Por lo tanto, para la presente tesis, se utilizará el tipo de storage DAS

(Direct-Attached-Storage), en lugar de la SAN multicliente de GMD, con unidades
SATA directamente conectadas al servidor, manteniendo de esta forma, el costo
global del sistema lo más bajo posible.
DAS con SATA
CPU multicore
FIGURA N° 18: Diseño de un nodo del cluster Hadoop

Plataforma de Análisis de grandes volúmenes de datos
La plataforma de Big Data permitirá a GMD analizar un amplio conjunto de información

mixta (de diferentes tipos y fuentes), analizar flujos de información en movimiento,
analizar grandes volúmenes de datos y descubrir y experimentar con nueva información.
Como se muestra en la figura 19, se ha mapeado cada componente de la

plataforma de análisis de Big Data con las 5Vs y los productos que ofrece IBM para cubrir
dicho servicio.
75
FIGURA N° 19: Plataforma de Análisis de Big Data - Productos y 5Vs de IBM

FUENTE: Building Big Data and Analytics Solutions in the Cloud.
Sistema Hadoop.
Proporciona una manera rentable de almacenar y procesar grandes volúmenes de

datos estructurados y no estructurados en un solo lugar para realizar un análisis
profundo. Hadoop cuenta con 2 componentes principales: HDFS y MapReduce. El
sistema Hadoop, permite almacenar cualquier tipo de dato como fotos, imágenes,
videos, audios, documentos, textos, entre otros, sin que tengamos que
preocuparnos por el modelo o esquema de datos. Asimismo, existen bases de
datos basadas en Hadoop que permiten almacenar información en diferentes
modelos de datos como: relacional, Key-value y columnar. Por último, si bien la
redundancia de datos es uno de los componentes principales en un cluster
Hadoop, es su modelo de programación quien espera y resuelve las fallas
mediante la ejecución de porciones del programa en varios de los servidores del
cluster y gracias a esta redundancia, es posible distribuir la data y el programa a
través de los componentes del cluster, brindando tolerancia a fallas.
Stream computing.
Está diseñado para analizar los datos en movimiento al tiempo que proporciona
una escalabilidad masiva y procesamiento de múltiples flujos de entrada
76
concurrentes. La plataforma IBM Streams puede procesar y analizar una amplia

variedad de data estructurada y no estructurada; asimismo, contenidos de video y
audio.
Integración de información y Gobierno.

Proporciona la capacidad de integrar cualquier tipo de dato. También proporciona
gobernabilidad y confianza sobre grandes volúmenes de datos, mediante el uso
de capacidades como: seguridad de datos sensibles, seguimiento al linaje de
datos, gestión del ciclo de vida para controlar el crecimiento de Big Data y
maestría de datos para establecer una única fuente de verdad.
Aceleradores.
La plataforma Big Data de IBM proporciona una serie de aceleradores, como los
aceleradores Analíticos (para manejar los datos de texto, la minería de datos y los
datos acústicos).
Interfaces de usuario.
Están diseñados para tres clases de usuarios (usuarios de negocios,

desarrolladores y administradores), con diferentes tipos de herramientas para
cada clase.
Usuarios de negocio: Pueden analizar una amplia variedad de datos

utilizando una interfaz basada en navegador y una interfaz al estilo de una hoja de
cálculo para explorar y visualizar datos.
Usuarios desarrolladores: Tienen acceso a diferentes APIs y entornos de

desarrollo útiles, como Eclipse.
Usuarios administrativos: Tienen acceso a las consolas para ayudar con el

monitoreo y la gestión de los sistemas y componentes de la plataforma de análisis
de Big Data de IBM.
Gestión de análisis y decisiones.

Están diseñadas para el desarrollo de aplicaciones de análisis y la integración con
una amplia variedad de aplicaciones de terceros para BI (Business Intelligence),
análisis predictivo, análisis de contenido, entre otros.
77
Herramientas para el análisis de grandes volúmenes de datos
A continuación, se detallan las herramientas que usaremos para el desarrollo de la

propuesta de análisis de grandes volúmenes de datos no estructurados.
InfoSphere BigInsights.
Según Zikopoulos, Deroos y Parasuraman (2013), BigInsights está basado en
Apache Hadoop y cuenta con proyectos de código abierto como componente
principal.
Este servicio proveerá valor a GMD, a nivel de negocios, debido a que:
Los volúmenes de datos no pueden ser administrados de manera rentable

utilizando la tecnología existente (El sistema actual de GMD “Take It”, no es
amigable y no permite realizar un análisis eficiente de la información).
Analizar grandes volúmenes de datos puede traer mejores resultados.

Permitirá minar conocimientos de tipos de datos no estructurados (como videos,
audios y documentos sobre los proyectos, costos, tickets, entre otros).
Permitirá explorar datos para comprender su valor potencial para los

negocios.
Permitirá definir si un proyecto ha culminado con éxito (sin sobrecostos),

en base al análisis de información realizada.
Permitirá validar si se están aplicando las lecciones aprendidas en los

proyectos.
78
Asimismo, provee las siguientes ventajas:
Es escalable, pues se pueden agregar nuevos nodos al cluster sobre la

marcha.
Es asequible, pues permite computación masiva en paralelo sobre los

servidores del cluster.
Es flexible, pues no requiere de un esquema y modelo de datos

determinado y puede almacenar y procesar cualquier tipo de dato.
Es tolerante a fallas.
Aunque desplegar un cluster Hadoop sobre servidores físicos provee mejor

performance que sobre servidores virtuales, la ventaja de usar el Cloud
Computing es que se pueden adicionar recursos de manera dinámica al cluster;
es decir, no hay necesidad de gastar tiempo limando detalles para obtener una
arquitectura perfecta, pues se pueden realizar los ajustes que sean necesarios en
tiempo real.
Arquitectura del Servicio InfoSphere BigInsights.
Componentes Descripción
Hadoop Está compuesto por HDFS y MapReduce

Avro Sirve para la socialización de Datos
Chukwa Supervisión de grandes sistemas en Cluster.
Flume Recopilación y agregación de datos
HBase Base de datos de tipo Column-Family. Lectura y escritura de base de datos en tiempo real.
HCatalog Gestión a nivel de tabla y storage
Hive Proporciona consultas ad-hoc-SQL para resumen y consulta de datos.
Lucene Realiza búsquedas en los textos
Oozie Orquesta los flujos de trabajo
Pig Lenguaje de programación Hadoop de alto nivel que proporciona un lenguaje de consultas.
Sqoop Realiza la transferencia de datos entre las bases de datos y Hadoop
ZooKeeper Proporciona servicios de coordinación para aplicaciones distribuidas
TABLA N° 15: Componentes open source del InfoSphere BigInsights

FUENTE: Harness the power of Big Data.
79
FIGURA N° 20: Diseño de la arquitectura del servicio InfoSphere BigInsights

FUENTE: IBM Big Data Platform. IBM Corporation.
Interfaz Web Console.

Esta consola es el punto focal de todo el clúster, pues todas las actividades de
administración, implementación y ejecución de aplicaciones se realizan ahí.
Las actividades que se pueden realizar en la consola dependen del nivel de
acceso que se tenga. Por ejemplo: Con la cuenta administrador, se pueden ver los
dashboards administrativos del Cluster (estado de la aplicación y del Cluster); sin
embargo, con una cuenta de usuario, sólo se pueden ver los dashboards de los
archivos de navegación, ejecutar aplicaciones y realizar trabajo de análisis.
80
FIGURA N° 21: InfoSphere BigInsights Web Console

FUENTE: Harness the power of Big Data
Herramientas de Desarrollo (Eclipse Plug-in).

Conjunto de herramientas de programación Eclipse para el desarrollo de
aplicaciones que trabajan con grandes volúmenes de datos. Este paquete de
herramientas se puede descargar desde la consola Web. Asimismo, permite a los
desarrolladores conectarse a la consola Web para probar y desplegar fácilmente
sus aplicaciones y para trabajar directamente con el clúster. Esta herramienta se
puede usar para desarrollar extractores de texto, Consultas para Big Data (usando
SQL, HiveQL y expresiones HBase) y aplicaciones para Big Data (usando Pig y
MapReduce).
BigSheet.
Aunque el sistema Hadoop hace posible el análisis de grandes volúmenes de
datos, se necesita de un programador con una buena comprensión del paradigma
MapReduce para explorar los datos, algo que la empresa GMD no posee y que
claramente puede representar una barrera. Para resolver este problema,
81
BigInsights ofrece una herramienta de visualización basada en navegador llamado

BigSheets.
Esta herramienta permite a los usuarios de la línea de negocio, aprovechar

el poder de Hadoop utilizando una interfaz de hoja de cálculo familiar. BigSheets
no requiere de programación (ya que genera código Hadoop de manera
automática) o administración especial; basta con saber utilizar una hoja de cálculo
para poder realizar el análisis de grandes volúmenes de datos, en cualquier
estructura.
Para realizar el análisis de Big Data con BigSheet, se requieren de 3 pasos:
Recopilar data: Puedes recolectar datos desde múltiples fuentes, mediante

aplicaciones que se implementan en BigInsights para rastrear la web, archivos
locales o archivos en la red. También te permite importar data de forma
personalizada.
Extraer y analizar data: Puedes manipular los datos recolectados, mediante

el uso de las herramientas de tipo hoja de cálculo que están disponibles en
BigSheets.
Explorar y visualizar data: Después de ejecutar el análisis de datos en las

hojas de cálculo, se pueden aplicar visualizaciones para ayudar a dar sentido a los
datos.
82
FIGURA N° 22: La interfaz de hoja de cálculo BigSheets

FIGURA N° 23: Visualización de datos en BigSheets

83
Herramientas de análisis de Texto.

Uno de los principales retos que tiene GMD es el análisis de datos que no están
estructurados como los correos electrónicos, documentos de proyectos, mensajes,
archivos de registros, entre otros. Por tanto, al depender cada vez más de
información que se presenta en diferentes formas de texto, es fundamental tener
un marco de trabajo que no sólo ayude a dar sentido a lo que está escrito, sino
que también ayude a hacerlo de manera rentable y rápida.
El mayor desafío consiste en analizar el texto, encontrar los elementos que

están siendo buscados, comprender su significado, y extraerlos de forma
estructurada para que pueda ser usado por otras aplicaciones. Para esto IBM
provee un juego de herramientas para análisis de texto con aceleradores, un
ambiente de desarrollo integrado (IDE) y un lenguaje de consultas (AQL) flexibles
para manejar la complejidad.
A continuación, se muestra un ejemplo de este proceso, en el cual una

aplicación de análisis de texto lee un párrafo y deriva la data estructurada basada
en diversas reglas. Estas reglas se definen en los extractores, que pueden,
identificar el nombre de una entidad dentro de un campo de texto. Ejemplo:
FIGURA N° 24: Texto de ejemplo (World Cup 2010)

FUENTE: IBM Big Data Platform.
84
El producto de estos extractores es un conjunto de texto seleccionado, tal

como se muestra en el ejemplo (texto marcado en color azul, verde y rojo). A partir
de esto, se derivan los siguientes datos estructurados:
FIGURA N° 25: Resultado de cómo trabaja el análisis de texto

FUENTE: IBM Big Data Platform
El desafío consiste en asegurar la exactitud de los resultados. Esta

exactitud se obtiene a través de dos componentes: precisión (porcentaje de
elementos en el conjunto de resultados que han sido identificados correctamente)
y recall (porcentaje de resultados relevantes recuperados del texto). Para
asegurar esta exactitud en los resultados, la solución se basa en muchas reglas
específicas, las cuales pueden ser agregadas a un extractor a través del AQL.
Una vez que el AQL ha sido compilado y optimizado, el resultado es un archivo
gráfico de operador de análisis (AOG), el cual es distribuido por cada mapeador
que se ejecuta en el clúster BigInsights. La complejidad de este proceso es
transparente para el usuario final (es decir, el usuario indica qué extraer y la
aplicación se encarga de cómo extraerlo).
85
FIGURA N° 26: Proceso de ejecución de la herramienta de análisis de texto

Base de datos NoSql HBase.

Es una base de datos distribuida orientada a columnas, que se construye sobre el
sistema de archivos Hadoop. Asimismo, es una parte del ecosistema Hadoop que
proporciona de manera aleatoria acceso de lectura / escritura de datos, en tiempo
real, sobre el sistema de archivos Hadoop.
Características de HBase:
Es horizontalmente escalable
Tiene soporte automático ante fallas
Provee lecturas y escrituras consistentes
Provee replicación de datos a través de los nodos del cluster
Se integra con Hadoop, tanto en el origen como en el destino.
Provee una API de Java amigable para clientes.
Esta base de datos brindará los siguientes beneficios a GMD:
Permitirá crear una base de datos NoSQL sobre la infraestructura Cloud de

GMD, con la finalidad de almacenar la información no estructura de los proyectos
(Documentos de lecciones aprendidas, oportunidades de mejora, correos de
quejas de los clientes, información diversa de los proyectos [documentos, audios,
videos, etc.], entre otros).
86
Proporciona tolerancia a fallos al almacenar grandes cantidades de datos

dispersos.
Permite escribir aplicaciones pesadas.
Proporciona un rápido acceso aleatorio a los datos disponibles.
Proporciona acceso aleatorio de lectura / escritura, en tiempo real sobre

grandes volúmenes de datos.
Alberga tablas muy grandes sobre los nodos del cluster Hadoop de
hardware básico.
Las Bases de datos orientadas a columnas (Column-Family) están

diseñadas para trabajar con tablas muy grandes.
Es conveniente para el procesamiento analítico.
Cuadro comparativo HBase vs. HDFS.
HDFS HBase
Es un sistema de archivos distribuido Es una base de datos construida en la cima del HDFS.
adecuado para almacenar archivos de gran
tamaño.
No admite búsquedas rápidas de registros Ofrece búsquedas rápidas sobre tablas grandes.
individuales.
Proporciona alta latencia en el Proporciona baja latencia de acceso a las filas individuales
procesamiento por lotes; No posee ningún de miles de millones de registros (acceso aleatorio).
concepto de procesamiento por lotes.
Sólo proporciona acceso secuencial de los HBase utiliza internamente tablas hash y proporciona
datos. acceso aleatorio; asimismo, almacena los datos en
archivos HDFS indexados para búsquedas más rápidas.
TABLA N° 16: HBase vs. HDFS

FUENTE: Apache HBase Hadoop Database
87
Mecanismo de almacenamiento en HBase.

HBase es una base de datos orientada a columnas, donde las tablas están
ordenadas por fila. El esquema de tablas sólo define las familias de columnas, las
cuales son los pares de Clave-valor (Key-value). Una tabla puede tener múltiples
familias de columnas y cada familia de columnas puede tener múltiples columnas.
Los valores de las columnas subsiguientes se almacenan de forma contigua en el
disco. Cada valor de celda en la tabla tiene una marca de tiempo. En conclusión:
Las tablas son conjuntos de filas.

Las filas son colecciones de familias de columnas.
Las familias de columnas son colecciones de columnas.
Las columnas son colecciones de pares de Clave-valor.
FIGURA N° 27: Ejemplo del esquema de tabla en la BD NoSQL HBase

Cuadro comparativo HBase vs. RDBMS.

HBase RDBMS
Carece de un esquema y no tiene el concepto de esquema de Se rige por su esquema, el cual

columnas fijas. Sólo define familias de las columnas. describe toda la estructura de tablas.
Está construido para grandes tablas. HBase es horizontalmente Está construido para pequeñas tablas y
escalable. es difícil escalar.
No hay transacciones Es transaccional
Los datos no están normalizados Cuenta con datos normalizados
Es beneficioso para datos semi-estructurados y estructurados. Es bueno para datos estructurados
TABLA N° 17: HBase vs. RDBMS

88
Arquitectura de HBase.
En HBase, las tablas se dividen en regiones y son servidos por regiones de
servidores. Las regiones se dividen verticalmente por las familias de columnas en
"Stores" (Término usado para las regiones, para explicar la estructura de
almacenamiento). Los stores son almacenados como archivos en el HDFS.
FIGURA N° 28: Diseño de la arquitectura de la Base datos NoSQL HBase

InfoSphere Streams.
Dado que los jefes y gerentes de proyecto de GMD, ya no pueden esperar días,
semanas o meses para identificar nuevas oportunidades de negocio, conocer la
salud de la empresa e identificar quejas, molestias o preocupaciones de los
clientes, con respecto a los productos y servicios que ofrecen; IBM ha
desarrollado la tecnología InfoSphere Streams, la cual ofrece la posibilidad de
obtener valor de los datos al instante (en tiempo real), mediante el análisis de
datos en movimiento (data-in-motion).
Según Zikopoulos, Deroos y Parasuraman (2013), su diseño le permite

aprovechar las técnicas de procesamiento masivo en paralelo (MPP), con la
finalidad de analizar los datos mientras son transmitidos; por tanto, GMD podrá
entender lo que está sucediendo en tiempo real, lo cual les permitirá a los jefes y
89
gerentes de proyecto, tomar las medidas correctivas y preventivas que sean

necesarias, generar decisiones oportunas y mejorar los resultados.
InfoSphere Streams, es una potente plataforma de software para análisis

computacional, que continuamente analiza y transforma los datos en memoria,
antes de que sean almacenados en disco.
En lugar de reunir grandes cantidades de datos, manipularlos y

almacenarlos en disco para posteriormente analizarlos, InfoSphere Streams,
permite aplicar la analítica directamente en los datos en movimiento. Al analizar
los datos en movimiento, se obtienen los resultados más rápidos posibles, un gran
ahorro a nivel de hardware y el más alto rendimiento.
InfoSphere Streams proveerá valor a GMD, a nivel de negocios, debido a que:
Permitirá identificar y analizar en tiempo real, los errores que se comentan

en los proyectos, evitando sobrecostos.
Permitirá identificar y analizar en tiempo real, las quejas, preocupaciones o

molestias de los clientes.
Permitirá correlacionar y combinar eventos que están estrechamente

relacionados en el tiempo.
Permitirá Conocer los cambios en el mercado y en las preferencias de los

clientes antes que la competencia.
Asimismo, es mucho más escalable y dinámico, con la finalidad de permitir

análisis más complejos y soportar una velocidad de flujo de datos mucho mayor
que otros sistemas. Muchos sistemas CEP (Complex event processing) o
sistemas de procesamiento de stream, incluyendo nuevos proyectos de código
abierto como Storm, anuncian unos cientos de miles de eventos por segundo
dentro de un Cluster; mientras que la tecnología Streams de IBM, ha demostrado
poder manejar unos pocos millones de eventos por segundo en un solo servidor.
90
FIGURA N° 29: Diseño de la arquitectura del servicio InfoSphere Streams

FUENTE: IBM Big Data Platform
Como se muestra en la figura 29, la data fluye continuamente a través de

una secuencia de operadores, en un modelo de tuberías (gráfico de nodos
conectados directamente por enlaces). Cada nodo en el grafico es un operador o
adaptador que procesa la data de un flujo. Los operadores de filtro se encargan de
descartar la data que no es útil o relevante, los operadores de modificación se
encargan de transformar la data en flujos de datos derivados, los operadores de
fusión se encargan de combinar diferentes tipos de datos, los operadores de
clasificación se encargan de enviar diferentes tipos de datos a diferentes
operadores que se encuentran más adelante en la tubería y otros operadores
pueden incluso enviar señales a las primeras etapas de análisis para cambiar el
comportamiento (control de calidad). Cuando los operadores son demasiado
lentos para mantenerse al día, un flujo de datos puede ser dividido y enviado a
instancias paralelas de aquellos operadores. Asimismo, estos operadores pueden
ser agregados, actualizados o eliminados de manera dinámica sin necesidad de
detener el análisis.
Los operadores pueden tener cero o más entradas y cero o más salidas,
las salidas de un operador se conectan con las entradas de otro operador. Los
enlaces (flechas) que unen a los nodos, representan el flujo de datos en
91
movimiento entre los operadores. Cada salida de un operador, define un nuevo

flujo de datos y otros operadores pueden conectarse a dicho flujo, los operadores
que se encuentran al inicio de la tubería pueden incluso conectarse a un flujo
producido por operadores que se encuentran al final de la tubería, lo que permite
control de flujos para cambiar el cálculo de los operadores iniciales con nuevos
conocimientos que no habían sido descubiertos.
En la figura 30 se muestra un modelo simple de flujo que lee data desde un

archivo, lo envía a un operador conocido como functor (función encargada de
transformar los datos de entrada), alimenta con esa data al operador split y luego,
dependiendo de su contenido, alimentará a un file sink o a una base de datos.
FIGURA N° 30: Modelo simple de la arquitectura del servicio InfoSphere Streams

Los elementos de datos dentro de un flujo son conocidos como tuplas, las
cuales representan paquetes de datos, formados por un conjunto de atributos para
un determinado objeto. Cada elemento en la tupla contiene el valor para ese
atributo y puede ser de tipo numérico, fecha, cadena o binario.
Los operadores más simples trabajan en una tupla a la vez. Estos

operadores pueden filtrar una tupla en base a las características de sus atributos,
extraer información adicional y transformarla antes de enviar los datos a un flujo
de salida.
Para correlacionar datos a través de diferentes flujos y ordenar tuplas, se

utilizan ventanas de datos (Windows of data), que son secuencias finitas de tuplas
similares a las vistas de las bases de datos relacionales. Estas ventanas son
92
actualizadas continuamente conforme nuevos datos llegan, mediante la

eliminación de las tuplas más antiguas y añadiendo las nuevas tuplas.
InfoSphere Streams también tiene el concepto de operadores compuestos,

los cuales consisten en un subgráfico de flujos reutilizable y configurable.
Asimismo, todas las aplicaciones contienen al menos un compuesto (compuesto
principal de la aplicación), pero pueden incluir más de uno (los compuestos
también pueden ser anidados). Un compuesto define cero o más flujos de entrada
y cero o más flujos de salida.
InfoSphere Information Server.
Según IBM (2015), Proporciona una plataforma para la integración de datos,

donde los componentes de la suite ofrecen resultados empresariales rápidos, a la
vez que mantienen la integridad y calidad de los datos en todo el ámbito de la
información.
InfoSphere Information Server proveerá valor a GMD, ya que le permitirá a

la empresa y a sus colaboradores, comprender el significado, la estructura y el
contenido de la información procedente de una amplia gama de orígenes.
Asimismo, permitirá acceder y utilizar la información de nuevas formas, para
impulsar la innovación, incrementar la eficacia operativa y disminuir el riesgo. Por
último, esta tecnología permitirá integrar los siguientes orígenes de información en
GMD: Documentos de lecciones aprendidas, documentos de oportunidades de
mejora, información y datos sobre costos, correos de quejas de los clientes,
información diversa de los proyectos, entre otros.
En la figura 31, se muestran las funciones claves del InfoSphere

Information Server que permitirán implementar una estrategia completa de
integración de datos. El núcleo de estas funciones es un repositorio común de
metadatos que almacenan los metadatos importados, las configuraciones, los
informes y los resultados de proyecto para todos los componentes de InfoSphere
Information Server. Cuando se comparten datos en el repositorio de metadatos,
otros usuarios de la organización pueden interactuar con los activos importados y
utilizarlos en otros componentes de InfoSphere Information Server.
93
FIGURA N° 31: Funciones de integración del InfoSphere Information Server

FUENTE: InfoSphere Information Server 11.5.0.
Comprender y colaborar (Information Governance).
Esta función permite mejorar la visibilidad y el control de los datos, permitiendo

vistas completas y autorizadas de la información con pruebas de calidad. Estas
vistas pueden estar disponibles y reutilizarse como servicios compartidos,
mientras que las reglas inherentes de las mismas se mantengan de forma
centralizada.
Limpiar y supervisar (Data Quality).
Esta función Estandariza, limpia y valida la información en el procesamiento por

lotes y en tiempo real. Asimismo, Carga información limpia en vistas analíticas
para supervisar y mantener la calidad de los datos. Estas vistas pueden ser
reutilizadas por toda la empresa para establecer métricas de calidad de datos que
estén alineadas con objetivos empresariales, permitiendo a la organización
descubrir y solucionar problemas de calidad de datos.
94
Por otro lado, permite enlazar registros relacionados a través de los

sistemas para garantizar la coherencia y la calidad de la información; consolida
datos dispares en un único registro fiable para garantizar que los mejores datos
sobrevivan en varios orígenes y carga este registro maestro en almacenes de
datos operativos, bases de datos o aplicaciones de datos maestros para crear una
fuente de información fiable.
Transformar y ofrecer (Data Integration).

Esta función permite Diseñar y desarrollar un proyecto de integración de datos
para mejorar la visibilidad y reducir el riesgo; descubrir relaciones entre sistemas y
definir reglas de migración que integren metadatos de activos a través de varios
orígenes y destinos. Comprender las relaciones e integrar los datos reduce los
costos operativos y estimula la calidad de los datos.
Por otro lado, permite recopilar, transformar y distribuir grandes volúmenes

de datos. Asimismo, utilizar las funciones de transformación incorporadas que
reducen el tiempo de desarrollo, mejoran la escalabilidad y proporcionan un
diseño flexible. Esto permitirá Ofrecer datos en tiempo real a las aplicaciones
empresariales, a través de entrega de datos masivos (ETL), entrega de datos
virtuales (federados) o entrega de datos incrementales (Change data capture).
Fases de la integración de información.

InfoSphere Information Server se centra en varias fases que forman parte de un
proyecto de integración de datos eficaz. La figura 32, muestra como los
componentes de la suite trabajan en conjunto para crear una solución de
integración de datos unificada. Un producto base de metadatos común permite
que distintos tipos de usuarios creen y gestionen metadatos utilizando
herramientas que están optimizadas para sus roles.
95
FIGURA N° 32: Fases de la integración de Información

Los analistas de datos, utilizan el InfoSphere Discovery para automatizar la

identificación y definición de relaciones de datos, alimentando con dicha
información al InfoSphere Information Analyzer y al InfoSphere FastTrack.
Los especialistas en calidad de datos, utilizan el InfoSphere Information

Analyzer para diseñar, desarrollar y gestionar reglas de calidad de datos. A
medida que los datos de la empresa evolucionan, estas reglas se pueden
modificar en tiempo real para que dicha información fiable se ingrese
al InfoSphere Information Governance Catalog, InfoSphere FastTrack, InfoSphere
DataStage, InfoSphere QualityStage y a otros componentes del InfoSphere
Information Server.
Los analistas de datos, utilizan el InfoSphere FastTrack para crear

especificaciones que conviertan los requisitos de la empresa en aplicaciones.
Los especialistas en integración de datos, utilizan estas especificaciones para
generar trabajos que se conviertan en el punto de partida de una transformación
compleja de datos. Mediante el uso del InfoSphere DataStage y QualityStage
Designer, los especialistas en integración de datos, desarrollan trabajos que
extraen, transforman y comprueban la calidad de los datos. Los arquitectos de
SOA, utilizan el InfoSphere Information Services Director para desplegar tareas de
integración a partir de los componentes de la suite.
96
InfoSphere Information Governance Catalog, proporciona informes de

flujos de datos y análisis de impacto completos de los activos de datos de la
organización. Los analistas empresariales, los analistas de datos y los
especialistas en integración de datos y otros usuarios interactúan con este
componente para explorar y gestionar los activos que InfoSphere Information
Server produce y utiliza. InfoSphere Information Governance Catalog, permite a
los usuarios comprender y gestionar el flujo de datos de la empresa, así como
descubrir y analizar las relaciones entre activos de información en el repositorio de
metadatos.
Componentes de la suite del InfoSphere Information Server.

La suite de InfoSphere Information Server, consta de varios componentes (tal
como se muestra en la tabla 16), que proporcionan distintas funciones para la
integración de datos. Juntos, estos componentes forman los bloques de
construcción necesarios para ofrecer información fiable en toda la empresa,
independientemente de la complejidad del entorno.
Componentes Descripción
Es una herramienta de integración de datos que permite a los usuarios mover y transformar
InfoSphere DataStage
datos entre los sistemas de destino operacionales, transaccionales, y analíticos.
InfoSphere Proporciona capacidades para crear y mantener una visión precisa de las entidades de datos
QualityStage como: clientes, ubicaciones, vendedores y productos a lo largo de la empresa.
Es una herramienta basada en web, utilizada para cargar datos entre las fuentes de datos
InfoSphere Data Click internas (on-premises) y externas (off-premises), incluyendo bases de datos y plataformas de
almacenamiento en el Cloud como Amazon S3.
Proporciona capacidades para automatizar el flujo de trabajo de la integración de datos. Los
usuarios pueden automatizar y monitorear múltiples tareas de integración de datos,
InfoSphere FastTrack
reduciendo el tiempo entre el desarrollo de los requerimientos de negocio y la implementación
de la solución.
InfoSphere Information Proporciona capacidades para perfilar y analizar datos, con la finalidad de ofrecer información
Analyzer fiable a la organización.
Es una herramienta basada en web que permite a los usuarios manejar un vocabulario
InfoSphere Information
empresarial. Asimismo, proporciona información sobre el flujo de datos de los activos que son
Governance Catalog
utilizados por los componentes de IBM InfoSphere Information Server.
InfoSphere Information Mide la efectividad del control de información, mediante la consulta y visualización de los
Governance Dashboard metadatos técnicos, operativos y de negocios.
InfoSphere Information Proporciona un entorno integrado que permite a los usuarios desplegar rápidamente la lógica
Services Director de InfoSphere Information Server como servicios.
97
InfoSphere Data
Permite diseñar y comprender los activos de los datos y sus relaciones.
Architect
Proporciona técnicas de exploración y análisis de datos para descubrir automáticamente las
InfoSphere Discovery
relaciones y correlaciones entre los datos estructurados de la empresa.
TABLA N° 18: Componentes de la suite InfoSphere Information server

Arquitectura del InfoSphere Information Server.

InfoSphere Information server proporciona una arquitectura unificada que funciona
con todos los tipos de integración de datos. Los servicios comunes, los procesos
paralelos unificados y los metadatos unificados son la base de la arquitectura.
La arquitectura está orientada a los servicios, permitiendo conectar los

módulos individuales de los productos de la suite. Asimismo, utiliza recursos de
hardware de forma eficiente, reduciendo los esfuerzos de desarrollo y
administración necesarios para desplegar una solución de integración.
FIGURA N° 33: Arquitectura del InfoSphere Information Server

98
Motor de procesos paralelos unificados.

La mayor parte del trabajo que realiza InfoSphere Information Server ocurre en el
motor de procesamiento en paralelo. El motor gestiona necesidades de procesos
de datos que pueden ser muy variadas, como el análisis de bases de datos de
gran tamaño para IBM InfoSphere Information Analyzer, la limpieza de datos
para IBM InfoSphere QualityStage y transformaciones complejas para IBM
InfoSphere DataStage. Este motor de procesamiento en paralelo, está diseñado
para ofrecer las siguientes ventajas:
Paralelismo e interconexión de datos, para completar volúmenes

crecientes de trabajo, en lapsos de tiempo cada vez menores.
Escalabilidad gracias a la adición de hardware, sin realizar cambios en el

diseño de integración de datos.
Procesos optimizados de bases de datos, archivos y colas para gestionar

archivos de gran tamaño o para gestionar un elevado número de archivos
pequeños.
Conectividad común
InfoSphere Information Server se conecta a fuentes de informaciones,
estructuradas, no estructuradas, en el sistema principal o en las aplicaciones. La
conectividad controlada por metadatos se comparte entre los componentes de la
suite y los objetos de conexión pueden volver a utilizarse en las distintas
funciones.
Los conectores proporcionan importación de metadatos en el diseño,

examen y muestreo de datos. Asimismo, acceso dinámico a metadatos en la
ejecución, manejo de errores, y acceso a datos en la ejecución de alta
funcionalidad y alto rendimiento. Las interfaces integradas para las aplicaciones
empaquetadas, denominadas paquetes, proporcionan adaptadores para SAP,
Siebel, Oracle y otros, lo que permite la integración con aplicaciones
empresariales y con sistemas de análisis y generación de informes.
99
Metadatos unificados.
InfoSphere Information Server está creado sobre una infraestructura de metadatos
unificados que permite el uso compartido de dominios empresariales y dominios
técnicos. Esta infraestructura reduce el tiempo de desarrollo y proporciona un
registro permanente que puede mejorar la confianza en la información. Todas las
funciones de InfoSphere Information Server comparten el mismo modelo, lo que
facilita la colaboración de distintos roles y funciones.
Un repositorio de metadatos común proporciona almacenamiento

permanente para todos los componentes de la suite. Asimismo, todos los
productos dependen del repositorio para navegar por los metadatos, consultarlos
y actualizarlos. El repositorio contiene dos tipos de metadatos:
Dinámico: Los metadatos dinámicos incluyen información de diseño.

Operativos: Los metadatos operativos incluyen datos para la supervisión del
rendimiento, auditoría, registro y datos de muestro, para la creación de perfiles de
datos.
Dado que el repositorio se comparte entre todos los componentes de la

suite, la información de creación de perfiles, creada por InfoSphere Information
Analyzer, está disponible de forma instantánea para los usuarios de InfoSphere
DataStage e InfoSphere QualityStage.
El repositorio es una aplicación J2EE que utiliza una base de datos

relacional estándar como IBM DB2, Oracle o SQL Server para la persistencia
(DB2 se proporciona con InfoSphere Information Server). Estas bases de datos
permiten la realización de copias de seguridad, administración, escalabilidad,
acceso paralelo, transacciones y acceso simultáneo.
Servicios comunes.
InfoSphere Information Server está creado sobre la base de un conjunto de
servicios compartidos que centralizan las tareas principales de la plataforma.
Estas tareas incluyen la seguridad, la administración de usuarios, el registro
cronológico y la generación de informes. Los servicios compartidos permiten
gestionar y controlar estas tareas desde un único lugar, independientemente del
componente de la suite que se utilice.
100
Los servicios comunes también incluyen servicios de metadatos, que

proporcionan acceso estándar orientado a servicios y análisis de metadatos en
toda la plataforma. Además, la capa de servicios comunes gestiona la forma de
desplegar los servicios desde cualquiera de las funciones del producto, lo que
permite publicar reglas de limpieza, transformación o consultas como servicios
compartidos dentro de SOA, utilizando un mecanismo sencillo y coherente.
Los productos de InfoSphere Information Server pueden acceder a tres

categorías generales de servicios:
Diseño: Los servicios de diseño ayudan a crear servicios específicos para

cada función, que también pueden compartirse. Por ejemplo, InfoSphere
Information Analyzer llama a un servicio de analizador común que se creó para el
análisis de datos empresariales, pero que puede integrarse con otras partes
de InfoSphere Information Server porque ofrece características SOA comunes.
Ejecución: Incluyen registros cronológicos de planificación, supervisión,

generación de informes y seguridad e infraestructura web.
Metadatos: Permiten compartir metadatos entre distintas herramientas, de

modo que, los cambios realizados en un componente de InfoSphere Information
Server, se reflejan de forma instantánea en todos los componentes de la suite.
Asimismo, los servicios de metadatos se integran con el repositorio de metadatos,
permitiendo intercambiar metadatos con herramientas externas.
Interfaz de usuario unificada.

InfoSphere Information Server se presenta como una interfaz gráfica común, con
herramientas para un marco de trabajo. Las interfaces compartidas, como la
Consola web de IBM InfoSphere Information Server, ofrecen una interfaz común
con controles visuales y una experiencia de usuario similar en los distintos
productos. Las funciones comunes, como examinar catálogos, importar
metadatos, realizar consultas y examinar datos, ofrecen servicios comunes de
manera uniforme. InfoSphere Information Server proporciona interfaces de cliente
de gran calidad, para realizar un trabajo de desarrollo minucioso; mientras que las
interfaces de clientes ligeras, se ejecutan en navegadores web para llevar a cabo
la administración.
101
IBM Cognos.
Según Browne et al. (2010), IBM Cognos Business Intelligence (BI), es un

componente de IBM Cognos Enterprise que ayuda a tomar decisiones de
negocios de manera inteligentes y con mayor rapidez. Asimismo, proporciona
reportes, análisis, dashboards y scorecards que pueden ser utilizados a través de
los navegadores de Internet y dispositivos móviles o enviados a un buzón de
correo electrónico. Estas herramientas ayudan a comprender el rendimiento
empresarial, explorar libremente la información, analizar datos clave y colaborar
rápidamente para alinear las decisiones con los principales interesados (jefes y
gerentes de proyectos). Por otro lado según Zikopoulos, Deroos y Parasuraman
(2013), IBM Cognos BI, ha sido extendido para ser usado con grandes volúmenes
de datos a través de la integración con la plataforma Big Data. Asimismo, está
integrado y certificado con InfoSphere BigInsights e InfoSphere Streams.
IBM Cognos Real time monitoring (Cognos RTM), es otro componente de

IBM Cognos Enterprise que proporciona visualización y análisis, en tiempo real,
sobre la analítica de streaming (flujos de datos) obtenida desde InfoSphere
Streams.
IBM Cognos BI ayudará a GMD en lo siguiente:
Visualizar, de manera rápida, fácil y amigable, el análisis de grandes

volúmenes de datos para la generación de decisiones oportunas por parte de los
jefes y gerentes de proyecto.
Analizar Dashboards y reportes que faciliten la generación de toma de

decisiones oportunas.
Analizar y personalizar información de gran volumen, combinación y

complejidad.
Tomar decisiones de manera segura (El análisis predictivo proporciona una

visión hacia el futuro para la visibilidad del negocio).
Explorar todo tipo de información, desde todos los ángulos, para evaluar la
situación actual del negocio.
102
Transformar el negocio, de una operación reactiva a una organización

proactiva.
Acceder a la información y tomar acción en cualquier lugar, aprovechando

los dispositivos móviles y el análisis en tiempo real.
IBM Cognos Business Insight, es una interfaz basada en web que permite
crear, editar o abrir dashboards sofisticados e interactivos para conocer y facilitar
la toma de decisiones. Los dashboards, son la manera más popular de presentar
información en base a las necesidades de negocio de los usuarios, asimismo, se
pueden crear diferentes tipos de reportes (gráficas, listas y tablas) para ser
usados dentro de los dashboards.
A continuación se indican algunas de las características de los dashboards:
Vista rápida de los resultados de negocio: Representación visual de la

información más importante sobre el rendimiento del negocio. La información se
consolida y se organiza de tal manera que hace fácil su control y seguimiento.
Interactividad y personalización: Es intuitivo e interactivo para que los

usuarios de negocio puedan personalizar el contenido y adaptarlo a sus
necesidades.
Proactividad y colaboración: Los usuarios de negocio, pueden tomar

acción directamente desde el panel de control, utilizando la colaboración y la
integración del flujo de trabajo para la tomar decisiones.
Ensamblaje de información desde diferentes fuentes: Combinan datos

desde diferentes fuentes para dar a los usuarios una visión completa sobre el
desempeño del negocio.
103
La interfaz de usuario del IBM Cognos Business Insight tiene los siguientes
componentes:
Una página de introducción que se muestra al iniciar el IBM Cognos Business

Insight.
Una barra de aplicaciones.
Un área de diseño para Dashboards.
Un panel de contenido que incluye las pestañas de contenido y herramientas

Widgets y filtros.
FIGURA N° 34: Interfaz de usuario del IBM Cognos Business Insight

FUENTE: IBM Cognos Business Intelligence V10.1 Handbook.
Personalizar el contenido de un Dashboard.

Cognos Insight utiliza un motor de análisis en memoria que proporciona la
velocidad y la flexibilidad para ver los datos de una manera que tenga el mayor
sentido para la organización.
104
Cuando se inicia el IBM Cognos Business Insight, se puede seleccionar

entre abrir un Dashboard existente o crear uno nuevo. Los usuarios de negocio
pueden crear reportes y dashboards, que incluyan toda la información necesaria
para que puedan trabajar. Es decir, pueden personalizar los dashboards según
sea conveniente con la finalidad de responder y adaptarse a sus necesidades
específicas. Estas necesidades pueden incluir la reorganización del diseño,
cambios en los gráficos, el reordenamiento fácil de los datos para ver cómo se
clasifican los valores de mayor a menor y la búsqueda de un reporte adicional que
puede ser agregado al espacio de trabajo.
En tan sólo 60 segundos, se puede ir desde datos en bruto hasta el

análisis y publicación de un dashboard. Esto significa que la empresa GMD, podrá
detectar rápidamente los cambios en el mercado, cifras de ventas y cambios en
los proyectos en tiempo real; lo que le permitirá responder de inmediato a las
nuevas oportunidades o amenazas.
Pasos para personalizar el contenido de un Dashboard.

Primero: Abrir la conexión del IBM Cognos, usando la siguiente URL:
http://machinename/ibmcognos
Segundo: En el panel de acciones, seleccionar la opción crear Dashboard

para abrir la página de inicio del IBM Cognos Business Insight. En esta página, se
puede personalizar un Dashboard en base a un Dashboard existente.
FIGURA N° 35: Página de Inicio: Abrir un Dashboard existente

105
Tercero: Seleccionamos la opción abrir y el Dashboard se abrirá como se

muestra a continuación:
FIGURA N° 36: Abrir un Dashboard existente en el Business Insight

FUENTE: IBM Cognos Business Intelligence V10.1 Handbook
Cuarto: Al analizar de cerca los datos de un reporte, se puede reorganizar

el diseño de un Dashboard. Se puede cambiar la ubicación de los gráficos
ubicados dentro de los contendores en el interior del Dashboard.
FIGURA N° 37: Mover los contenedores de gráficos

106
Quinto: Se debe tener en cuenta que puede haber reportes que muestren
la misma información y ocupen espacio en el Dashboard. En estos casos es
recomendable eliminar los reportes redundantes. Para esto seleccionar la opción
Eliminar Dashboard y luego confirmar la eliminación.
FIGURA N° 38: Eliminar los contenedores de gráficos

Sexto: Cambiar el diseño de los gráficos según convenga y de modo que

sea más fácil comparar los datos.
FIGURA N° 39: Modificar los tipos de pantalla

107
Séptimo: Finalmente el Dashboard luce como se muestra en la Figura 40
FIGURA N° 40: Modificar los tipos de pantalla

Agregar contenido No-BI a un Dashboard.

Además de contenido de IBM Cognos BI, se puede agregar contenido no-BI a un
dashboard, tales como imágenes, texto, páginas web o feeds RSS. En el
escenario de negocios de GMD, se requiere incluir reportes, documentos y
noticias de diferentes fuentes.
Inteligencia de negocios colaborativa.

La colaboración juega un papel importante en la toma de decisiones y en la
resolución de problemas de negocios. Aunque la creación de reportes y
Dashboards y el análisis de datos, son tareas que normalmente se realizan de
manera individual por cada usuario, cuando se trata de tomar decisiones de
negocio en base a esa información, se suelen crear Reportes y Dashboards para
un grupo de usuarios que se encargarán de realizar el análisis de datos en
conjunto.
108
Este componente, permite Informar, comprometer y alinear a todos en la

organización, con respecto a la toma de decisiones basada en la información de
colaboración.
Interface avanzada de IBM Cognos Business Insight.

Es una herramienta basada en web utilizada por usuarios de negocio y analistas
avanzados para crear y analizar reportes. Esta herramienta también permite que
los usuarios tomen ventaja de las características de exploración y análisis
interactivos mientras construyen reportes. Las características de interacción y
análisis, les permiten ensamblar y personalizar las vistas, para seguir una línea de
pensamiento y generar perspectivas únicas de manera fácil. Asimismo, su interfaz
es intuitiva y amigable con la finalidad de minimizar la inversión en capacitación.
FIGURA N° 41: Interfaz Avanzada de usuario del IBM Cognos Business Insight
109
Visualización Variada y rica.

Según Ziff Davis B2B (2014), actualmente las medianas y grandes organizaciones
están luchando con grandes volúmenes de datos (Big Data) que se generan día a
día, ocasionando que los medios tradicionales de análisis y reportes, no sean
suficientes para derivar conocimientos predictivos reales y útiles de los datos.
A pesar de que se cuenta con prácticas bien definidas, software y

hardware para la recolección y almacenamiento de datos que van desde el
procesamiento de transacciones de alta velocidad, hasta el almacenamiento de
datos no estructurados en Hadoop, muchas organizaciones aún confían en los
enfoques tradicionales para la presentación de reportes. En consecuencia, filtrar
ideas útiles a partir de una amplia variedad de datos es cada vez más difícil, sobre
todo cuando los usuarios de todos los niveles de una organización exigen soporte
para la toma de decisiones, capacidad de predicción, acceso a los datos en
tiempo real e información específica.
En este punto la visualización, rica y variada, se convierte en la mejor

solución, pues permite una progresión natural para el análisis de negocios,
ofreciendo gráficos atractivos, interactivos y altamente descriptivos que se
adaptan bien a una variedad de tipos de datos. La visualización complementa las
prácticas estándares y típicas de los reportes escritos, tabulares y gráficos, lo que
simplifica muchos aspectos de la presentación de los datos y la entrega del
conocimiento de negocio a los usuarios. La ventaja más importante de la
visualización, es que permite realizar un análisis exploratorio lo suficientemente
potente para que los científicos de datos lo usen y lo suficientemente accesible
para que los usuarios finales puedan realizar su trabajo.
Para entender mejor la visualización y las formas en que puede agregar

valor a las organizaciones, es útil ver ejemplos de herramientas modernas
generadas con diferentes tipos de datos. Si bien algunas de las visualizaciones
que se muestran a continuación son gráficos y tablas bastante típicos, otros
gráficos tienen enfoques completamente diferentes para la presentación de los
datos:
El gráfico de barras apiladas muestra una medida única para múltiples

categorías a través del tiempo.
110
FIGURA N° 42: Reporte de Gráfico de Barras

FUENTE: How IBM Business Analytics Lets Users See Big Data
El gráfico de radar muestra los ciclos semanales de datos que están

dispuestos en forma circular para ilustrar mejor las fluctuaciones relativas de los
puntos de datos con el tiempo.
FIGURA N° 43: Reporte de Gráfico de Radar

111
En la figura 44, se aprecia un ejemplo del calendar heat map (Mapas de

calor), que muestra dos años de cambios (en porcentaje) en los pedidos de los
clientes web por año (fila), mes (columna), día de la semana (fila sub), semana
(columna sub) y día. Los Mapas de calor pueden sustituir los gráficos de líneas,
pues ofrecen una representación más intuitiva y compacta de los datos en capas.
FIGURA N° 44: Calendario de mapas de calor

El reporte Theme River (Río de temas), es útil para visualizar los datos no
estructurados y basados en texto. En el ejemplo de la figura 45, se muestran las
frases más populares relacionadas a los videojuegos sobre una línea de tiempo.
FIGURA N° 45: Reporte Theme River

112
La visualización de redes sociales muestra patrones de confianza del

cliente, personas influyentes claves y su alcance. Al igual que el reporte Theme
River, este tipo de gráfico sería imposible de generar con herramientas
tradicionales, como las hojas de cálculo e incluso muchas aplicaciones analíticas.
FIGURA N° 46: Reporte para las redes sociales

113
Una visualización jerarquía representa la magnitud relativa de puntos de

datos, así como subconjuntos de datos, utilizando burbujas de diversos tamaños y
colores. En el ejemplo de la figura 47, la visualización muestra el número de
respuestas de una campaña a nivel regional, estatal y municipal. Se debe tener en
cuenta que una sola escala se aplica a través de todas las burbujas,
reemplazando los gráficos circulares anidados o secuenciales con un solo gráfico.
FIGURA N° 47: Reporte de visualización jerárquica

Los mapas de árboles muestran datos como rectángulos anidados, el

tamaño de cada rectángulo representa su importancia jerárquica en un conjunto
de datos. La figura 48, muestra la vista de un mapa de árbol de una red social a
partir de un servicio de streaming media.
114
FIGURA N° 48: Mapa de árbol

Hay muchos tipos de visualizaciones que mejoran o reemplazan los

gráficos típicos, como los diagramas de acordes (utilizados para mostrar las
relaciones entre las entidades) o el mapa del árbol, los cuales representan nuevas
formas de ver los datos. Independientemente del tipo de visualización que se
utilice, los diferenciadores claves, entre la visualización y las técnicas estándares
de reportes, son la interactividad y la intuición. La visualización apela a nuestra
comprensión inherente de las relaciones espaciales e ilustraciones gráficas,
mientras nos permite profundizar en los datos para explorar más a fondo y
examinar áreas de interés.
115
Integración del Cognos BI con el InfoSphere BigInsights.

Según Tavoularis (2013), IBM Cognos Business Intelligence, a través de su
interoperabilidad con IBM InfoSphere BigInsights, ahora tiene fácil acceso a los
datos de origen no estructurados, proporcionando a los analistas de negocio la
exposición a las conclusiones clave que se encuentran en grandes volúmenes de
texto.
Hive es un sistema de data Warehouse que se encuentra en la cima de

Hadoop y ofrece herramientas de extracción, transformación y carga (ETL) que
pueden añadir estructura para igualar las fuentes de datos basadas en texto y
permitir el análisis de grandes volúmenes de datos almacenados en el sistema de
archivos distribuido Hadoop (HDFS).
Cognos Business Intelligence genera HiveQL para consultar el sistema de

archivos BigInsights. Como se muestra en la Figura 66, el servidor Cognos BI se
conecta al BigInsights a través del controlador BigInsights Hive JDBC. Los
metadatos del Catálogo Hive pueden ser importados dentro del Cognos
Framework Manager, permitiendo que el modelador de inteligencia de negocios
publique paquetes de contenido BigInsights al servidor de Cognos BI. Estos
paquetes se pueden utilizar para crear reportes, dashboards y espacios de
trabajo, a la vez que aprovechan las capacidades del BigInsights MapReduce.
FIGURA N° 49: Arquitectura de la integración de Cognos BI y BigInsights

FUENTE: Cognos Business Intelligence 10.2 reporting on InfoSphere BigInsights
116
Análisis de Big Data con IBM Cognos Dynamic Query.

Según IBM Corporation. (2013), El servidor de Cognos BI interpreta las
especificaciones que se requieren para los reportes y las traduce en consultas de
recuperación de datos que se adaptan a las fuentes más populares como
RDBMS, OLAP, CRM y ERP. El Término consulta dinámica se refiere a la
planificación y ejecución de consultas utilizando el motor de consulta extensible,
basado en Java, en la plataforma Cognos.
El corazón de la plataforma Cognos es su arquitectura orientada a

servicios (SOA), la cual está construida sobre un conjunto de servicios peer-to-
peer interoperables y extensibles a través de interfaces y protocolos estándar.
Esta característica permite que las organizaciones puedan realizar el análisis de
Big Data a través de la Web, dispositivos móviles, o vía e-mail.
Dado que el éxito del negocio depende de su capacidad para analizar la

información de forma rápida, para encontrar las respuestas correctas y
presentarlas de manera oportuna, IBM Cognos Business Intelligence proporciona
un modo mejorado de ejecutar consultas, basado en Java. Estas consultas
dinámicas conservan los conjuntos de resultados y metadatos capturados en la
memoria caché, de Manera que se puedan reutilizar para minimizar los tiempos de
espera de futuras consultas.
FIGURA N° 50: IBM Cognos Dynamic Query integrado con IBM Cognos BI
FUENTE: Big Data Analytics with IBM Cognos BI Dynamic Query.
117
Propuesta de Análisis de Datos No Estructurados Completa
FIGURA N° 51: Arquitectura de grandes volúmenes de datos Completa

FUENTE: Elaboración Propia
118
RESULTADOS
Se presentan los resultados de la encuesta sobre el impacto de la propuesta de análisis

de datos no estructurados en la generación de decisiones oportunas en la
implementación de proyectos de GMD.
1. ¿Qué tan útil considera que es la información utilizada actualmente en la toma de

decisiones?
Opciones Frecuencia Porcentaje Porcentaje acumulado
1 6 16% 16%
2 13 35% 51%
3 11 30% 81%
4 6 16% 97%
5 1 3% 100%
Total 37 100% 100%


Análisis e interpretación:
Como se muestra en la tabla 19 y figura 52, el 81% de los encuestados afirman que la
información disponible actualmente para la toma de decisiones es poco o nada útil;
mientras que el 19% afirma que la información disponible es útil o muy útil.
119
2. Frecuencia en el uso de la información
A Veces Casi Nunca Casi Siempre Nunca Siempre

Opciones % del % del % del % del % del
Recuento N de Recuento N de Recuento N de Recuento N de Recuento N de
fila fila fila fila fila
Documentos sobre
7 18.9% 12 32.4% 14 37.8% 3 8.1% 1 2.7%
lecciones aprendidas
Costos de los proyectos 12 32.4% 5 13.5% 13 35.1% 0 0.0% 7 18.9%
Quejas de los clientes 17 45.9% 6 16.2% 9 24.3% 2 5.4% 3 8.1%
Documentación propia de
8 21.6% 8 21.6% 10 27.0% 2 5.4% 9 24.3%
los proyectos.
Audios y videos de
comités ejecutivos y 6 16.2% 12 32.4% 4 10.8% 15 40.5% 0 0.0%
operativos.

50%
46%
45%
41%
40% 38%
35%
35% 32% 32% 32%
30%
27%
24% 24%
25%
22% 22%
20% 19% 19%
16% 16%
15% 14%
11%
10% 8% 8%
5% 5%
5% 3%
0% 0%
0%
Documentos sobre lecciones Costos de los proyectos. Quejas de los clientes (Correos, Documentación propia de los Audios y videos de comités
aprendidas documentos, entre otros). proyectos. ejecutivos y operativos.
Nunca Casi Nunca A Veces Casi Siempre Siempre

Como se muestra en la tabla 20 y figura 53, la documentación de los proyectos y costos
tienen el mayor porcentaje de uso: mientras que los audios y videos de los comités y las
lecciones aprendidas, casi nunca o nunca son usados durante la toma de decisiones.
120
3. Frecuencia de los siguientes problemas generales
A Veces Casi Nunca Casi Siempre Nunca Siempre

Opciones % del % del % del % del % del
Recue Recue
Recuento N de Recuento N de N de Recuento N de N de
nto nto
fila fila fila fila fila
Retraso en la toma de
13 35.1% 4 10.8% 15 40.5% 0 0.0% 5 13.5%
decisiones.
Sobrecostos en los
14 37.8% 2 5.4% 12 32.4% 0 0.0% 9 24.3%
proyectos.
Retraso en el análisis
15 40.5% 1 2.7% 16 43.2% 0 0.0% 5 13.5%
de información.
El análisis de datos no
incluye data no 7 18.9% 7 18.9% 14 37.8% 2 5.4% 7 18.9%
estructurada


Como se muestra en la tabla 21 y figura 54, los principales problemas están relacionados
a los sobrecostos en los proyectos, a la falta de un análisis de datos que incluya data no
estructurada como audios, videos, entre otros y a retrasos en el análisis de información,
causando retrasos en la toma de decisiones.
121
4. Frecuencia de los siguientes problemas al extraer y procesar datos
A Veces Casi Nunca Casi Siempre Siempre

Opciones % del % del % del % del
Recuento N de Recuento N de Recuento N de Recuento N de
fila fila fila fila
No se logra obtener las fuentes y tipos de
12 32.4% 3 8.1% 18 48.6% 4 10.8%
datos necesarios.
Retrasos al extraer y procesar los datos. 14 37.8% 3 8.1% 15 40.5% 5 13.5%
Pérdida o difícil acceso a los datos no
11 29.7% 2 5.4% 15 40.5% 9 24.3%
estructurados.
Falta de una interfaz amigable para la
6 16.2% 1 2.7% 16 43.2% 14 37.8%
extracción y procesamiento de datos.
Falta de herramientas para la extracción y
procesamiento de grandes volúmenes de 9 24.3% 2 5.4% 12 32.4% 14 37.8%
datos.


a la falta de herramientas para la extracción y procesamiento de grandes volúmenes de
datos; así como a la falta de una interfaz amigable, causando retrasos en el proceso.
122
5. Frecuencia de los siguientes problemas al analizar y visualizar datos

fila fila fila fila
Análisis de datos manual. 6 16.2% 1 2.7% 18 48.6% 12 32.4%
Falta de herramientas para el análisis de
7 18.9% 0 0.0% 15 40.5% 15 40.5%
grandes volúmenes de datos.
Falta de una interfaz amigable para el análisis
3 8.1% 0 0.0% 20 54.1% 14 37.8%
y visualización de datos.
El análisis de datos se realiza sobre data
5 13.5% 1 2.7% 19 51.4% 12 32.4%
histórica.
Retrasos en el proceso de análisis de datos. 13 35.1% 0 0.0% 14 37.8% 10 27.0%


a la falta de herramientas para el análisis de grandes volúmenes de datos; así como a la
falta de una interfaz amigable para el análisis y visualización de datos, por otro lado,
actualmente el análisis de datos se realiza de forma manual y sobre data histórica,
causando retrasos en el proceso.
123
6. Frecuencia de los Efectos Negativos debido a los retrasos en la Toma de Decisiones

fila fila fila fila
Insatisfacción en
15 40.5% 1 2.7% 15 40.5% 6 16.2%
los clientes.
Hubo un
incremento en 9 24.3% 6 16.2% 15 40.5% 7 18.9%
los costos.
Se redujo la
rentabilidad de 8 21.6% 7 18.9% 19 51.4% 3 8.1%
la inversión.

60%
51%
50%
41% 41% 41%
40%
30% 24%
16% 16% 19% 19% 22%
20%
8%
10%
0% 3% 0% 0%
0%
Insatisfacción en los clientes. Hubo un incremento en los Se redujo la rentabilidad de la
costos. inversión.
Nunca Casi Nunca A Veces Casi Siempre Siempre

Como se muestra en la tabla 24 y figura 57, los principales efectos negativos
relacionados a los retrasos en la toma de decisiones son el incremento en los costos y la
insatisfacción en los clientes, causando pérdidas monetarias a la empresa.
124
7. Tiempo Real en la Toma de Decisiones
Menos de 20 Semanas o
Entre 20 a 60 min Más de 1 día Más de 1 hora
Opciones min meses
Recuento % Recuento % Recuento % Recuento % Recuento %
Extraer y
procesar 1 2.7% 17 45.9% 5 13.5% 1 2.7% 13 35.1%
datos
Analizar
0 0.0% 12 32.4% 12 32.4% 0 0.0% 13 35.1%
datos
Visualizar la
4 10.8% 18 48.6% 11 29.7% 0 0.0% 4 10.8%
información


Como se muestra en la tabla 25 y figura 58, el 46% de los encuestados indica que la
extracción y procesamiento de datos toma más de un día; mientras que el 35% indica que
el proceso toma semanas o meses. El 35% de los encuestados indica que el proceso de
análisis de datos toma semanas o meses; mientras que el 32% indica que el proceso
toma más de un día. El 49% de los encuestados indica que el proceso de visualizar la
información toma más de un día; mientras que el 30% indica que el proceso toma más de
1 hora.
125
8. ¿Cuánto considera que es el sobrecosto en los proyectos, causado por los retrasos en
Porcentaje
Opciones Frecuencia Porcentaje
acumulado
Entre 0% a 15% adicional al costo del proyecto 13 35% 35%
Entre 50% a 75% adicional al costo del proyecto 3 8.% 100%
Total 37 100% 100%

8% Entre 0% a 15% adicional al costo del proyecto
Entre 15% a 25% adicional al costo del proyecto

24% 35%
Entre 25% a 50% adicional al costo del proyecto
33% Entre 50% a 75% adicional al costo del proyecto

Como se muestra en la tabla 26 y figura 59, el 35% de los encuestados indica que el
sobrecosto en los proyectos, producto de los retrasos en la toma de decisiones, está
entre el cero y 15% adicional al costo del proyecto; mientras que el 33% indica que el
sobrecosto está entre el 15% y 25% adicional al costo del proyecto. Asimismo, el 24%
indica que el sobrecosto está entre el 25% y 50% y por último, el 8% indica que el
sobrecosto está entre el 50% y 75% adicional al costo del proyecto.
126
9. Indicar el grado de importancia de las siguientes características
Importante Indiferente Muy Importante Poco Importante

fila fila fila fila
Interfaz fácil y amigable. 19 51.4% 3 8.1% 14 37.8% 1 2.7%
Análisis de datos en tiempo real o casi
11 29.7% 1 2.7% 25 67.6% 0 0.0%
real.
Rápida búsqueda, captura y extracción de
15 40.5% 0 0.0% 22 59.5% 0 0.0%
datos.
Almacenar y sistematizar la data
15 40.5% 2 5.4% 20 54.1% 0 0.0%
estructura y no estructurada.
Rápido procesamiento de grandes y
10 27.0% 1 2.7% 26 70.3% 0 0.0%
variados volúmenes de datos.


Como se muestra en la tabla 27 y figura 60, más del 70% de los gestores de proyecto
consideran como importante o muy importante las siguientes características con las que
debe contar la plataforma de análisis de grandes volúmenes de datos en tiempo real para
la toma de decisiones: rápido procesamiento de grandes y variados volúmenes de datos
y el análisis en tiempo o casi real.
127
DISCUSIÓN
En la presente tesis se desarrolló la arquitectura de la propuesta de análisis de datos no

estructurados para la generación de decisiones oportunas dentro de la empresa GMD
S.A. El propósito de la investigación es generar decisiones que sean oportunas y que
estén basadas en un análisis significativo que abarque no sólo parte de la información
almacenada en las bases de datos relaciones sino también data no estructurada que se
genera en el día a día como parte de la gestión e implementación de los proyectos.
Se realizó una encuesta a 21 jefes y 16 gerentes de proyecto de GMD para

conocer a detalle la problemática planteada y el impacto de la propuesta de análisis de
datos no estructurada en la generación de decisiones oportunas. Con base en esto se
definieron los objetivos, la hipótesis y las variables e indicadores para la medición.
De acuerdo con los resultados encontrados en esta investigación se puede decir

que actualmente los jefes y gerentes de proyecto no cuentan con la información
necesaria para generar decisiones oportunas, pues no toman en cuenta la información de
tipo no estructurada como audios, videos, documentos, imágenes, entre otros,
correspondiente a los proyectos. Asimismo, la información, sea estructurada o no
estructurada, se encuentra dispersa en diferentes repositorios y no existe ningún
mecanismo que ayude a integrar dichas fuentes de información; Por otro lado, GMD
actualmente no cuenta con herramientas o tecnologías que realicen y faciliten el análisis
y procesamiento de grandes volúmenes de datos, causando demoras y retrasos durante
el proceso de extracción, procesamiento, análisis y visualización de la información,
provocando retrasos en la toma de decisiones. Esto a su vez se traduce en sobrecostos
en los proyectos e insatisfacción en los clientes.
Otro punto importante que se pudo identificar en los resultados es la necesidad

que tienen actualmente los gestores de proyectos de minimizar los tiempos de extracción,
procesamiento, análisis y visualización de información, dado que actualmente estos
procesos, en su mayoría, llegan a tardar días, semanas o incluso meses en finalizar. Esto
se debe a que dichos procesos se ejecutan de manera manual y sobre data histórica.
En la encuesta también se pudo identificar que uno de los principales problemas

que tiene GMD, es la interfaz poco amigable y difícil que utilizan actualmente para la
búsqueda, extracción, análisis y visualización de la información, asimismo, indicaron que
la información es poco útil, pues no se toma en cuenta la data no estructurada.
128
Para resolver los problemas descritos y minimizar el tiempo durante la toma de

decisiones, la presente tesis propone como solución, utilizar las siguientes herramientas
de la plataforma Big Data de IBM: El InfoSphere Information Server y el Cognos BI que
permiten la integración de diferentes fuentes de datos y una interfaz intuitiva con
diferentes reportes y dashboards que facilitan la búsqueda, extracción y presentación de
la información; mientras que las herramientas InfoSphere BigInsights e InfoSphere
Streams, brindan la solución a los problemas de análisis y procesamientos de grandes y
variados volúmenes de datos, ya sea que éstos estén almacenados o en movimiento
(Análisis en tiempo real). Todo esto sobre una infraestructura Cloud que permite la
disponibilidad, fácil acceso y flexibilidad de los diferentes recursos a demanda. Asimismo,
un rápido crecimiento y escalabilidad, con la finalidad de realizar ajustes en el diseño
sobre la marcha (es decir, sin necesidad de recurrir a ventanas de tiempo o
indisponibilidad de servicios).
Por último, los resultados del presente estudio concuerdan con los resultados de
las investigaciones descritas en la sección de antecedentes, pues éstas tenían como
finalidad presentar propuestas de plataformas de Big Data para ofrecer procesos de
extracción de datos (estructurados y No estructurados), procedimientos para el
procesamiento de datos y herramientas para el análisis y visualización de información.
Asimismo, recomendaban aprovechar la mezcla de Big Data y Cloud Computing para
crear valor y alcanzar objetivos orientados a sus casos de estudio en sectores como el
turístico y retail.
129
CONCLUSIONES
Al finalizar el desarrollo de la presente investigación, se lograron alcanzar los objetivos

definidos y se confirman las hipótesis planteadas mediante los resultados obtenidos.
Primera: Se desarrolló una propuesta de arquitectura de análisis de datos no

estructurados con las herramientas de la plataforma de Big Data de IBM, las cuales
impactan positivamente en la generación de decisiones oportunas al reducir los tiempos
de extracción, procesamiento, análisis y visualización de datos. Asimismo, impactan
positivamente en la reducción de costos al brindar un análisis de datos en tiempo real.
De acuerdo con los resultados obtenidos, más del 50% de los gestores de
proyectos indican que actualmente los procesos de extracción, procesamiento, análisis y
visualización de datos toman aproximadamente 1 día, llegando incluso a tardar semanas
o meses dependiendo de la complejidad y/o volumen de los datos. Por lo tanto, la
propuesta de análisis de datos no estructurados, mediante las herramientas de la
plataforma Big Data de IBM, permitirán automatizar estos procesos causando una
reducción en los tiempos de respuesta a sólo segundos o minutos. En Conclusión, se
acepta la hipótesis general donde se determina que la propuesta de análisis de datos no
estructurados favorecerá la generación decisiones oportunas en la fase de
implementación de los proyectos de GMD, mediante el uso de las herramientas IBM
InfoSphere BigInsights, Streams, Information server y Cognos BI.
Segunda: De acuerdo con los resultados obtenidos, el 81% de los gestores de

proyectos consideran que la información actual y disponible es poco o nada útil; por lo
tanto, la propuesta de análisis de datos no estructurados, mediante el uso de la
herramienta InfoSphere Information Server, permitirá la integración y centralización de
diferentes fuentes y tipos de datos, tales como audios y videos de los comités ejecutivos,
documentación propia de los proyectos, correos, entre otros. Asimismo, la reducción en el
tiempo de extracción de los datos, logrando un mejor uso, facilitando el acceso y
obteniendo mayor utilidad de los grandes volúmenes de datos estructurados y no
estructurados que se generan día a día en la empresa GMD, sin importar donde estén
ubicados.
Por último, la reducción en el tiempo de procesamiento de los datos se logró

mediante el uso de la herramienta InfoSphere BigInsights, la cual permite el
procesamiento y almacenamiento de grandes y variados volúmenes de datos. En
130
conclusión, se acepta la hipótesis específica 1 donde se determina que existe un impacto

positivo en la reducción del tiempo de extracción y procesamiento de datos, favoreciendo
la generación de decisiones oportunas.
Tercera: De acuerdo con los resultados obtenidos, más del 50% de los gestores
de proyectos consideran que los principales problemas en los procesos de análisis y
visualización de datos están relacionados con la falta de herramientas e interfaz
amigable; asimismo, el análisis de datos se realiza de forma manual y sobre data
histórica, causando retrasos en estos procesos. Por lo tanto, la propuesta de análisis de
datos no estructurados, mediante el uso de la herramienta InfoSphere Streams, permitirá
la reducción en el tiempo de análisis de datos, al realizar el análisis en tiempo real o casi
real de datos como: la detección de errores en los proyectos, identificación de quejas y/o
preferencias de los clientes, correlación de eventos, entre otros.
Asimismo, la reducción en el tiempo de visualización de información se logró

mediante el uso de la herramienta Cognos BI, la cual permite la búsqueda, captura y
presentación de la información de forma fácil y rápida a través de una interfaz amigable.
Cabe resaltar que la empresa GMD carecía de este tipo de análisis e interfaz causando
demoras en la recopilación y análisis de la información. En conclusión, se acepta la
hipótesis específica 2 donde se determina que el desarrollo de la propuesta de análisis de
datos no estructurados impacta positivamente en la reducción del tiempo de análisis y
visualización de información, favoreciendo la generación de decisiones oportunas.
Cuarta: De acuerdo con los resultados obtenidos, el 65% de los gestores de

proyectos consideran que los retrasos en la toma de decisiones causan sobrecostos
desde 15% a 75% adicional al costo del proyecto. Por lo tanto, la propuesta de análisis de
datos no estructurados permitirá reducir el tiempo de extracción y procesamiento de
diferentes tipos, fuentes y tamaños de datos relaciones y no relacionales, sustentando la
toma de decisiones en un análisis de información más completo y confiable, causando
una reducción en los costos de los proyectos, al reducir los sobrecostos por retrabajos y
malas decisiones. En conclusión, se acepta la hipótesis específica 3 donde se determina
que el desarrollo de la propuesta de análisis de datos no estructurados impacta
positivamente en la reducción de costos en los proyectos de TI de GMD, mediante la
reducción en el tiempo de extracción y procesamiento de información.
131
Quinta: De acuerdo con los resultados obtenidos, más del 50% de los gestores de
proyectos consideran que los principales efectos negativos relacionados a los retrasos en
la toma de decisiones son el incremento en los costos y la insatisfacción en los clientes,
causando pérdidas monetarias a la empresa. Por lo tanto, la solución permitirá reducir el
tiempo en el análisis y visualización de la información, logrando también una reducción en
el tiempo de la toma decisiones, y por lo tanto una reducción en los sobrecostos de los
proyectos por decisiones tardías. En conclusión, se acepta la hipótesis específica 4
donde se determina que el desarrollo de la propuesta de análisis de datos no
estructurados impacta positivamente en la reducción de costos en los proyectos de TI de
GMD, mediante el análisis y visualización de información en tiempo real o casi real.
RECOMENDACIONES
Dentro de un proyecto tan ambicioso como lo fue éste, siempre se desea que exista una
mejora continua del mismo; por lo tanto, se recomienda realizar futuras investigaciones
que se centren en el proceso de implementación y desarrollo de la propuesta de análisis
de datos no estructurados para la generación de decisiones oportunas, corroborando los
resultados obtenidos en la presente tesis. Para esto es recomendable realizar la
adquisición de las herramientas de la plataforma Big Data de IBM.
Se recomienda realizar los ajustes a nivel de infraestructura sobre el cloud de

GMD, de acuerdo a lo indicado en la presente investigación, con la finalidad de
implementar la solución propuesta.
Se recomienda aplicar la solución planteada en otros sectores como el financiero,

salud, criminalística, entre otros, con la finalidad de usar la propuesta para resolver
también otros tipos de problemáticas que sean característicos de cada sector.
132
REFERENCIAS
Alam, F. (2017). Data Migration: Relational Rdbms To Non-Relational Nosql (Tesis de maestría).
Blasiak, K. (2014). Big Data; A Management Revolution: The emerging role of big data in
businesses.
Browne et al. (2010). IBM Cognos Business Intelligence V10.1. International Business Machines
Corporation. Handbook.
http://www.redbooks.ibm.com/redbooks/pdfs/sg247912.pdf
Chouffani, R. (2013). 5 Reasons to Move to Big Data. CIO.

http://www.cio.com/article/2385690/big-data/5-reasons-to-move-to-big-data--and-1-reason-
why-it-won-t-be-easy-.html
Evans C. (2013). Big data storage: Hadoop storage basics.

http://www.computerweekly.com/feature/Big-data-storage-Hadoop-storage-basics
Gartner (2017). Magic Quadrant for Data Science Platforms

https://www.gartner.com/doc/reprints?id=1-3TKD8OH&ct=170215&st=sb
Galimany Suriol, A. (2014). La creación de valor en las empresas a través del Big Data.
Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2014). Metodología de la
investigación. Sexta Edición. Editorial Mc Graw Hill. México.
IBM Corporation. (2013). Big Data Analytics with IBM Cognos BI Dynamic Query.
http://www.redbooks.ibm.com/technotes/tips1057.pdf
IBM Corporation (2015). InfoSphere Information Server 11.5.0. IBM Knowledge Center.
Intel IT Center. (2014). Big Data in the Cloud: Converging Technologies. Intel Solution Brief, 3-11.
Izamorar. (2018). ¿Cuál es la diferencia entre dato e información? Recuperado de

https://izamorar.com/cual-es-la-diferencia-entre-dato-e-informacion/
Judd, C. M., McClelland, G. H., & Ryan, C. S. (2011). Data analysis: A model comparison
approach. Routledge.
Kelly, J. (2014). Big Data Vendor Revenue and Market Forecast 2013-2017. Wikibon. Big Data
Vendor Revenue And Market Forecast 2012-2017.
Lira Segura, J.(2014). Big Data: La nueva moneda en el mundo de los negocios. Diario Gestión.
Recuperado de la Web del Diario Gestión.
http://gestion.pe/tecnologia/big-data-nueva-moneda-mundo-negocios-2110577
López García, D. (2013). Análisis de las posiblidades de uso de Big Data en las
organizaciones (Master's thesis).
Manso, F. (2017). Análisis de modelos de negocios basados en big data para operaciones
móviles.
Mérida, C. M. & Ríos, R. P. (2014). Propuesta de la plataforma de Big Data orientado al sector
turístico. Recuperada de Repositorio académico UPC de
http://repositorioacademico.upc.edu.pe/upc/handle/10757/346172
133
Mitchell, I., Locke, M. & Wilson, M. (2012). The white book of Big Data. United Kingdom: Fujitsu
Services Ltd.
Morales, G. D. F. (2010). Cloud computing for large scale data analysis. Technical report, IMT
Institute for Advanced Studies.
Mouthaan, N. (2012). Effects of Big Data Analytics on Organizations’ value creation (Tesis de
maestría). Recuperada de Digital Academic Repository de
http://dare.uva.nl/cgi/arno/show.cgi?fid=452536
Näsholm, P. (2012). Extracting Data from NoSQL Databases-A Step towards Interactive Visual
Analysis of NoSQL Data (Tesis de maestría).
Padberg, M. D. (2017). Big Data and Business Intelligence: a data-driven strategy for e-commerce
organizations in the hotel industry (Master's thesis, University of Twente).
Shields, A. (2014). Must-know: An overview of "big data". Market Realist.

http://marketrealist.com/2014/07/overview-big-data/
Tavoularis J. (Enero de 2013). Cognos Business Intelligence 10.2 reporting on InfoSphere

BigInsights.
Tutorials Point (2014). Apache HBase Hadoop Database. Tutorials Points Ltd.
http://www.tutorialspoint.com/hbase/hbase_tutorial.pdf
Winer M. (2012). IBM Big Data Platform. IBM Corporation.
Ziff Davis B2B (2014). Visualization is Worth a Thousand Tables: How IBM Business Analytics Lets
Users See Big Data.
http://public.dhe.ibm.com/common/ssi/ecm/yt/en/ytl03299usen/YTL03299USEN.PDF
Zikopoulos, Deroos y Parasuraman (2013). Harness the power of Big Data. United States of
America: The McGraw-Hill Companies.
Zhu, W., Gupta, M. & Kumar, V. (2014). Building Big Data and Analytics Solutions in the Cloud.
IBM Corp.
134
ANEXOS
Anexo 1: Formato de Encuesta
UNIVERSIDAD SAN IGNACIO DE LOYOLA – FACULTAD DE INGENIERÍA
DATOS INFORMATIVOS:
FECHA : ………/…… / 2017
PUESTO DE TRABAJO : Jefe de Proyecto ( ) Gerente de Proyecto ( )
_______________________________________________________________________
INDICACIONES:
Este instrumento me permitirá recoger información sobre la toma de decisiones de GMD,
con la finalidad de medir indicadores como: Tiempo de análisis de información, tiempo de
toma de decisiones y sobrecostos en los proyectos.
VI. ¿Qué tan útil considera que es la información utilizada actualmente en la toma de
decisiones? Marcar del 1 al 5, teniendo en cuenta que 5 es Muy Útil y 1 Nada Útil
1 2 3 4 5
VII. Considerando la siguiente escala, por favor indicar la frecuencia en la que se

presentan los siguientes eventos en la Toma de Decisiones:
1 NUNCA 2 CASI NUNCA 3 A VECES 4 CASI SIEMPRE 5 SIEMPRE
Uso de información
01 Documentos sobre lecciones aprendidas.
02 Costos de los proyectos.
03 Quejas de los clientes (Correos, documentos, entre otros).
04 Documentación propia de los proyectos.
05 Audios y videos de comités ejecutivos y operativos.

135
Problemas Generales
06 Retraso en la toma de decisiones.
07 Sobrecostos en los proyectos.
08 Retraso en el análisis de información.

El análisis de datos no incluye data no estructurada como videos,
09
audios, imágenes, correos, documentos, entre otros.
Problemas al extraer y procesar datos
10 No se logra obtener las fuentes y tipos de datos necesarios.
11 Retrasos al extraer y procesar los datos.
12 Pérdida o difícil acceso a los datos no estructurados.

Falta de una interfaz amigable para la extracción y procesamiento de
13
datos.
Falta de herramientas para la extracción y procesamiento de grandes
14
volúmenes de datos.
Problemas al analizar y visualizar datos
15 Análisis de datos manual.

Falta de herramientas para el análisis de grandes volúmenes de
16
datos.
Falta de una interfaz amigable para el análisis y visualización de
17
datos.
18 El análisis de datos se realiza sobre data histórica.
19 Retrasos en el proceso de análisis de datos.
Efectos Negativos debido a los retrasos en la Toma de Decisiones
20 Insatisfacción en los clientes.
21 Hubo un incremento en los costos.
22 Se redujo la rentabilidad de la inversión.
VIII. Considerando la siguiente escala, por favor indicar el tiempo real y que
considerada adecuado para las siguientes situaciones:
1 Menos de 20 min
2 Entre 20 a 60 min
3 Más de 1 hora
4 Más de 1 día
5 Semanas o meses
136

Tiempo Real en la Toma de Decisiones
01 Extraer y procesar datos
02 Analizar datos
03 visualizar la información
IX. ¿Cuánto considera que es el sobrecosto en los proyectos, causado por los retrasos en
( ) A. Entre 0% a 15% adicional al costo del proyecto

( ) B. Entre 15% a 25% adicional al costo del proyecto
( ) C. Entre 25% a 50% adicional al costo del proyecto
( ) D. Entre 50% a 75% adicional al costo del proyecto
( ) E. Entre 75% a 100% adicional al costo del proyecto
X. Considerando la siguiente escala, por favor indicar el grado de importancia de las

siguientes características en una plataforma de análisis de grandes volúmenes de
datos en tiempo real o casi real para la toma de decisiones:
1 Nada Importante
2 Poco Importante
3 Indiferente
4 Importante
5 Muy Importante
Características de una plataforma de análisis de grandes volúmenes de datos
01 Interfaz fácil y amigable.
02 Análisis de datos en tiempo real o casi real.
03 Rápida búsqueda, captura y extracción de datos.
04 Almacenar y sistematizar la data estructura y no estructurada.
05 Rápido procesamiento de grandes y variados volúmenes de datos.

137
Anexo 2: Respuestas de la encuesta

PREGUNTAS
GESTORES
N° 1 N° 2 – a N° 2 - b N° 2 - c N° 2 – d N° 2 – e N° 3 – a N° 3 - b N° 3 - c N° 3 - d N° 3 - e
1 1 Casi Nunca Casi Siempre Casi Nunca Casi Siempre Casi Nunca Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre
2 3 A Veces Casi Siempre A Veces Casi Siempre Nunca A Veces A Veces A Veces Casi Siempre Casi Nunca
3 2 Casi Siempre Siempre Siempre A Veces A Veces A Veces A Veces A Veces Casi Nunca Casi Siempre
4 2 Nunca Casi Nunca Casi Siempre Siempre Nunca Casi Nunca A Veces A Veces Siempre Casi Siempre
5 4 Casi Nunca Siempre Casi Siempre Siempre Nunca Casi Nunca Casi Siempre A Veces A Veces A Veces
6 2 Casi Siempre Siempre A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Siempre Casi Siempre
7 2 Casi Siempre Siempre Casi Siempre Casi Siempre Casi Nunca Siempre Siempre Siempre Siempre A Veces
8 3 A Veces Casi Siempre Casi Siempre Siempre Casi Nunca A Veces Casi Nunca Casi Siempre Casi Nunca A Veces
9 4 Casi Siempre Casi Siempre Casi Siempre Siempre Casi Nunca A Veces A Veces A Veces Casi Nunca A Veces
10 2 A Veces Casi Siempre Siempre Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces A Veces
11 2 Nunca Siempre Nunca Nunca Nunca Siempre Siempre Siempre Nunca A Veces
12 2 Casi Nunca Casi Siempre A Veces A Veces Nunca A Veces Casi Siempre A Veces Nunca Casi Nunca
13 3 Nunca Casi Siempre Casi Nunca Casi Siempre Casi Nunca A Veces A Veces A Veces Casi Siempre A Veces
14 3 Casi Siempre A Veces A Veces Siempre A Veces Casi Nunca Casi Nunca Casi Nunca Casi Nunca Casi Nunca
15 2 Siempre Siempre A Veces Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre
16 4 A Veces Casi Siempre A Veces Casi Siempre Nunca Casi Siempre Siempre A Veces Siempre Casi Siempre
17 3 Casi Nunca Casi Siempre A Veces Siempre Nunca A Veces Casi Siempre Casi Siempre Casi Nunca Casi Siempre
18 5 Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Nunca Casi Siempre Siempre Casi Siempre Casi Siempre A Veces
19 1 A Veces Casi Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces A Veces A Veces A Veces
20 2 Casi Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Casi Siempre A Veces A Veces
21 4 A Veces A Veces A Veces Casi Siempre Casi Nunca A Veces A Veces A Veces A Veces Casi Siempre
22 2 A Veces Casi Nunca Casi Nunca A Veces Nunca Casi Nunca A Veces Casi Siempre Siempre Casi Siempre
23 4 Casi Nunca A Veces A Veces A Veces Nunca A Veces Casi Siempre Casi Siempre Siempre Casi Siempre
24 2 Casi Siempre A Veces Casi Siempre Casi Nunca Casi Nunca Casi Siempre A Veces A Veces A Veces Casi Siempre
138
PREGUNTAS
GESTORES
N° 1 N° 2 – a N° 2 - b N° 2 - c N° 2 – d N° 2 – e N° 3 – a N° 3 - b N° 3 - c N° 3 - d N° 3 - e
25 3 Casi Siempre Casi Nunca Casi Nunca Nunca Nunca Casi Siempre Casi Siempre A Veces A Veces Casi Siempre
26 3 Casi Nunca A Veces Nunca Casi Nunca Casi Nunca Siempre Casi Siempre Casi Siempre Casi Siempre Siempre
27 1 Casi Siempre Casi Nunca Casi Siempre Casi Nunca Casi Nunca A Veces Casi Siempre Casi Siempre Casi Siempre A Veces
28 4 Casi Nunca A Veces A Veces A Veces Nunca Casi Siempre A Veces A Veces Casi Nunca A Veces
29 1 Casi Siempre A Veces A Veces Casi Siempre A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre
30 3 Casi Nunca Casi Siempre A Veces A Veces Casi Nunca A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre
31 1 Casi Nunca A Veces Casi Nunca Casi Nunca Nunca Casi Siempre A Veces Casi Siempre Casi Siempre Siempre
32 3 Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre
33 3 Casi Nunca A Veces A Veces Casi Nunca Casi Nunca Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre
34 3 Casi Siempre Casi Nunca A Veces Casi Nunca Nunca Casi Siempre A Veces A Veces Casi Nunca Casi Siempre
35 1 Casi Nunca A Veces A Veces A Veces A Veces Siempre Siempre Siempre Siempre Siempre
36 2 Casi Nunca A Veces A Veces Casi Nunca Nunca Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre
37 2 Casi Siempre A Veces Casi Nunca Casi Nunca Nunca Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre
PREGUNTAS
GESTORES
N° 4 - a N° 4 – b N° 4 - c N° 4 – d N° 5 - a N° 5 - b N° 5 – c N° 5 - d N° 5 - e N° 6 - a N° 6 - b N° 6 - c
1 Siempre Casi Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre Siempre Casi Siempre Siempre Casi Siempre
2 Casi Nunca Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre A Veces Casi Nunca
3 Casi Siempre Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Siempre A Veces Casi Siempre A Veces
4 Casi Siempre Casi Siempre Siempre Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Casi Siempre
5 Casi Siempre Casi Nunca Casi Siempre Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces
6 A Veces A Veces Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Siempre A Veces Casi Siempre A Veces Casi Siempre
7 Siempre Siempre Siempre Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Casi Siempre
8 Siempre Siempre Casi Siempre Siempre Casi Siempre Siempre Siempre Casi Siempre Casi Siempre A Veces Siempre Casi Siempre
9 A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces A Veces A Veces A Veces
139
PREGUNTAS
GESTORES
10 Casi Siempre A Veces Casi Siempre Siempre Casi Siempre Siempre Siempre Siempre Casi Siempre A Veces A Veces A Veces
11 A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Siempre Casi Siempre Casi Siempre
12 A Veces Casi Siempre Siempre Siempre A Veces A Veces Casi Siempre Casi Siempre A Veces A Veces Casi Siempre Casi Siempre
13 Casi Nunca A Veces Siempre Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Siempre Siempre
14 Casi Nunca Casi Nunca Casi Siempre Casi Siempre Casi Nunca Casi Siempre Casi Siempre Siempre Casi Siempre A Veces A Veces A Veces
15 Casi Siempre Siempre A Veces A Veces Siempre Siempre Siempre Siempre Siempre Siempre Siempre A Veces
16 A Veces A Veces Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Casi Siempre
17 A Veces Casi Siempre Siempre Siempre Casi Siempre Siempre Siempre Casi Siempre A Veces Casi Siempre Casi Siempre A Veces
18 Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre Siempre Siempre Siempre
19 A Veces A Veces A Veces A Veces A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre
20 A Veces A Veces A Veces A Veces Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre
21 A Veces Casi Siempre Casi Siempre A Veces Casi Siempre A Veces A Veces A Veces A Veces Casi Siempre Casi Siempre Casi Siempre
22 Casi Siempre Siempre A Veces Casi Siempre Casi Siempre A Veces Casi Siempre A Veces A Veces A Veces Casi Siempre Casi Siempre
23 A Veces Casi Siempre Casi Nunca Casi Nunca A Veces Casi Siempre Casi Siempre Casi Siempre Siempre A Veces Casi Siempre Casi Nunca
24 Casi Siempre A Veces Casi Siempre Siempre Casi Siempre A Veces Casi Siempre Siempre Casi Siempre A Veces Casi Nunca Casi Nunca
25 Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre Siempre Siempre Casi Siempre A Veces A Veces Casi Nunca Casi Siempre
26 Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre A Veces Casi Siempre
27 A Veces Casi Siempre Siempre A Veces Casi Siempre Casi Siempre Siempre Siempre A Veces Casi Siempre Siempre Casi Siempre
28 A Veces Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre Siempre
29 Casi Siempre A Veces Casi Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre A Veces Casi Siempre Casi Nunca Casi Nunca
30 Casi Siempre Casi Siempre Siempre A Veces Casi Siempre Casi Siempre Siempre Siempre A Veces A Veces Casi Nunca Casi Nunca
31 A Veces Siempre Siempre Siempre Siempre Casi Siempre Siempre Siempre Siempre A Veces Casi Siempre Casi Siempre
32 Siempre Siempre Casi Siempre A Veces Siempre Siempre Siempre Casi Siempre Siempre Casi Siempre Casi Nunca Casi Nunca
33 A Veces Casi Siempre Casi Siempre Casi Siempre A Veces Siempre Casi Siempre Casi Siempre A Veces A Veces Casi Nunca Casi Nunca
34 Casi Siempre A Veces A Veces Casi Nunca A Veces A Veces Casi Siempre Casi Siempre Casi Siempre A Veces A Veces Casi Siempre
35 Casi Siempre Siempre Siempre Siempre Siempre Casi Siempre Siempre Siempre Siempre Siempre Siempre Casi Siempre
140
PREGUNTAS
GESTORES
36 Siempre Casi Siempre Casi Siempre Casi Siempre Siempre Siempre Siempre Casi Siempre Casi Siempre Siempre Casi Siempre Casi Siempre
37 Casi Siempre Siempre Siempre A Veces A Veces Casi Siempre A Veces Casi Nunca A Veces Casi Nunca A Veces A Veces
PREGUNTAS
GESTORES N° 7 - a N° 7 – b N° 7 - c N° 8 N° 9 - a N° 9 – b N° 9 - c N° 9 - d N° 9 - e
Entre 25% a 50%
adicional al costo del
1 Más de 1 día Más de 1 día Más de 1 hora proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 0% a 15%
2 Más de 1 hora Más de 1 hora Más de 1 hora proyecto Muy Importante Importante Importante Importante Muy Importante
Entre 0% a 15%
3 Más de 1 día Más de 1 día Más de 1 día proyecto Muy Importante Importante Importante Muy Importante Importante
Entre 15% a 25%
4 Más de 1 día Más de 1 hora Más de 1 hora proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 0% a 15%
5 Más de 1 día Más de 1 hora Entre 20 a 60 min proyecto Importante Muy Importante Importante Importante Indiferente
Entre 25% a 50%
6 Más de 1 día Más de 1 hora Entre 20 a 60 min proyecto Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 25% a 50%
7 Más de 1 día Más de 1 día Más de 1 día proyecto Importante Muy Importante Muy Importante Importante Importante
Entre 50% a 75%
Semanas o adicional al costo del
8 meses Semanas o meses Semanas o meses proyecto Importante Importante Importante Importante Importante
Entre 0% a 15%
Entre 20 a 60 adicional al costo del
9 min Más de 1 hora Entre 20 a 60 min proyecto Importante Muy Importante Importante Importante Importante
Entre 15% a 25%
10 Más de 1 día Más de 1 hora Más de 1 hora adicional al costo del Importante Muy Importante Muy Importante Importante Muy Importante
141
PREGUNTAS
proyecto
Entre 50% a 75%
11 Más de 1 hora Más de 1 hora Entre 20 a 60 min proyecto Poco Importante Importante Muy Importante Muy Importante Importante
Entre 0% a 15%
12 Más de 1 hora Más de 1 hora Más de 1 hora proyecto Importante Importante Importante Muy Importante Importante
Entre 15% a 25%
13 Más de 1 día Más de 1 hora Más de 1 hora proyecto Muy Importante Importante Importante Muy Importante Muy Importante
Entre 0% a 15%
14 Más de 1 día Más de 1 día Más de 1 día proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 25% a 50%
15 meses Más de 1 día Más de 1 día proyecto Importante Indiferente Importante Muy Importante Muy Importante
Entre 25% a 50%
Menos de 20 adicional al costo del
16 min Más de 1 hora Más de 1 hora proyecto Muy Importante Importante Importante Muy Importante Muy Importante
Entre 15% a 25%
17 Más de 1 día Más de 1 hora Más de 1 hora proyecto Importante Muy Importante Muy Importante Indiferente Importante
Entre 50% a 75%
18 Más de 1 día Semanas o meses Más de 1 día proyecto Muy Importante Muy Importante Importante Importante Muy Importante
Entre 15% a 25%
19 Más de 1 hora Más de 1 día Más de 1 día proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 0% a 15%
20 Más de 1 hora Más de 1 hora Más de 1 hora proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 0% a 15%
21 Más de 1 día Más de 1 día Más de 1 día proyecto Importante Muy Importante Importante Importante Muy Importante
Entre 15% a 25%
22 meses Más de 1 día Más de 1 día proyecto Importante Muy Importante Importante Importante Muy Importante
142
PREGUNTAS
Entre 25% a 50%
23 Más de 1 día Semanas o meses Semanas o meses proyecto Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 0% a 15%
24 meses Semanas o meses Más de 1 día proyecto Muy Importante Muy Importante Muy Importante Indiferente Importante
Entre 25% a 50%
25 meses Semanas o meses Más de 1 día proyecto Muy Importante Muy Importante Muy Importante Importante Importante
Entre 0% a 15%
26 Más de 1 día Más de 1 día Más de 1 hora proyecto Importante Muy Importante Muy Importante Importante Muy Importante
Entre 25% a 50%
27 meses Semanas o meses Más de 1 día proyecto Muy Importante Muy Importante Muy Importante Importante Muy Importante
Entre 15% a 25%
28 Más de 1 día Semanas o meses Más de 1 día proyecto Importante Importante Muy Importante Muy Importante Muy Importante
Entre 15% a 25%
29 meses Más de 1 día Más de 1 día proyecto Importante Muy Importante Importante Muy Importante Muy Importante
Entre 0% a 15%
30 meses Semanas o meses Semanas o meses proyecto Importante Importante Importante Muy Importante Muy Importante
Entre 15% a 25%
31 meses Más de 1 día Más de 1 hora proyecto Importante Importante Muy Importante Muy Importante Muy Importante
Entre 15% a 25%
32 meses Semanas o meses Más de 1 día proyecto Indiferente Muy Importante Muy Importante Importante Muy Importante
Entre 0% a 15%
33 Más de 1 día Semanas o meses Más de 1 día proyecto Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 0% a 15%
34 meses Más de 1 día Más de 1 día proyecto Importante Muy Importante Muy Importante Muy Importante Muy Importante
Semanas o Entre 25% a 50%
35 meses Semanas o meses Más de 1 día adicional al costo del Indiferente Importante Importante Importante Importante
143
PREGUNTAS
proyecto
Entre 15% a 25%
36 Más de 1 día Semanas o meses Semanas o meses proyecto Muy Importante Muy Importante Muy Importante Muy Importante Muy Importante
Entre 15% a 25%
37 meses Semanas o meses Más de 1 día proyecto Indiferente Muy Importante Muy Importante Importante Muy Importante
144
Anexo 3: Validación de encuesta por Juicio de Expertos

145
146
Anexo 4: Presupuesto
147
Anexo 5: Cronograma
Año 2017
N° Actividad
Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre
1 Planificación de la investigación
2 Aprobación del plan de tesis
3 Planteamiento del problema
Revisión de la literatura y revisión del

4 marco teórico
5 Visualización del alcance del estudio

6 Desarrollo del tema de Tesis
Elaboración de hipótesis y definición

7 de variables e indicadores
8 Desarrollo del diseño de investigación
9 Definición y selección de la muestra

10 Recolección de los datos
11 Análisis de los datos
12 Elaboración de reporte de resultados
Presentación y revisión del informe de

13 Tesis
14 Aprobación del informe de Tesis

15 Sustentación de tesis
148
Anexo 6: Aprobación del Gerente Línea de GMD

149
Anexo 7: Uso de productos IBM Big Data sobre el Cloud de GMD

DFSFDSD

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DFSFDSD

Cargado por

Copyright:

Formatos disponibles

FACULTAD DE INGENIERÍA

Carrera de Ingeniería Informática y de Sistemas

PROPUESTA DE ANÁLISIS DE DATOS NO

Tesis para optar el Título Profesional de Ingeniero en

GARVICH SAN MARTÍN, KATIA ELIZABETH

JURADO DE LA SUSTENTACIÓN ORAL

Entregado el: 30/10/2017 Aprobado por:

UNIVERSIDAD SAN IGNACIO DE LOYOLA

En tal sentido, asumo la responsabilidad que corresponda ante cualquier falsedad u

Lima, octubre de 2017

(Peter Sondergaard, 2014)

TABLA N° 1: Evaluación pregunta 1 15

TABLA N° 17: HBase vs. RDBMS 87

FIGURA N° 1: Evaluación pregunta 1 16

FIGURA N° 24: Texto de ejemplo (World Cup 2010) 83

“Dedico este trabajo a mis padres por todo

Agradezco a cada uno de los que confiaron

La toma de decisiones implica incertidumbre y por lo tanto riesgo. Para minimizar

Para la presente investigación, tomaremos como caso de estudio a la empresa

La primera pregunta que debemos hacernos es ¿Qué es el análisis de datos no

IDENTIFICACIÓN DEL PROBLEMA

La información se ha convertido en el activo más valioso con el que cuentan las

En el 2016, se realizó una encuesta a 18 jefes de proyecto y 17 gerentes de

Pregunta 1 - ¿Se cuenta con la información para generar decisiones oportunas?

TABLA N° 1: Evaluación pregunta 1

FIGURA N° 1: Evaluación pregunta 2

Como se muestra en la tabla 1 y figura 1, el 51% de los encuestados afirman

Pregunta 2 - ¿Se agilizaría la toma de decisiones si contara con información (no

TABLA N° 2: Evaluación pregunta 2

FIGURA N° 2: Evaluación pregunta 2

Como se muestra en la tabla 2 y figura 2, el 83% de los encuestados considera

Pregunta 3 - ¿Cuáles son los principales problemas en la toma de decisiones en los

TABLA N° 3: Evaluación pregunta 2

FIGURA N° 3: Evaluación pregunta 2

Como se muestra en la tabla 3 y figura 3, un total de 28 encuestados considera

Por tanto, en el presente proyecto de investigación, se realizará una propuesta

FORMULACIÓN DEL PROBLEMA

¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción,

¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción y

¿Cuál es el impacto que ocasiona la falta de herramientas para el análisis y

¿Cuál es el impacto que ocasiona la falta de herramientas para la extracción y

¿Cuál es el impacto que ocasiona la falta de herramientas para el análisis y

Diagrama del árbol de Problemas

Posible pérdida de Quejas de los clientes

Pérdida de Insatisfacción del Sobrecostos en los

Problema Falta de herramientas para la extracción, procesamiento, análisis y visualización de

El análisis de datos no Problemas al acceder

No hay herramientas para el

FIGURA N° 4: Árbol de Problemas

En la universidad University of Twente (Netherlands), Mike Padberg (2015), realizó

En la universidad Ryerson University (Canadá), Feroz Alam (2015), realizó una

En la universidad de San Andrés (Argentina), José Manso (2015), realizó un

En la universidad de Barcelona (España), Galimany suriol (2014), realizó un

En la universidad Helsinki Metropolia University of Applied Sciences (Finlandia),

En la universidad de Cantabria (España), García López (2013), realizó un estudio

En la universidad de Amsterdam (Netherlands), Niels Mouthaan (2012), realizó un

En la universidad Chalmers University (Suecia), Petter Näsholm (2012), realizó

En el instituto IMT – Institutions Markets Technologies (Italia), Gian Marco De

de Data es el proceso de inspección de datos con el propósito de extraer información útil

Estado del Arte

El análisis de datos está evolucionando desde el procesamiento de datos

En el 2012 Intel realizó una encuesta a 200 administradores de TI pertenecientes

El análisis en tiempo real favorece el análisis predictivo, pues permite a las