Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analítica de
datos y big data
Unidad Didáctica
Analítica de datos y big data
Autor
Norbey Mejía Chica
Fecha
Fecha últimarevisión
última versión
Abrilde
Marzo de2023
2022
ESAP ha verificado, hasta donde es posible, que el contenido de los enlaces web citados y presentados en este curso sean
verídicos y que correspondan; sin embargo, y debido a la naturaleza dinámica de internet, ESAP no puede responsabilizarse
por el correcto y adecuado funcionamiento de los mismos.
La mayoría de las imágenes de este documento han sido compradas a través de: https://www.shutterstock.com
2
Unidad 1. Analítica de datos y big data
Contenido
1. Tipología 4
2. Objetivo 4
3. Justificación 5
4. Análisis de datos 7
4.1. Algunos ámbitos de aplicación del análisis de datos 8
4.2. Para qué sirve el análisis de datos 9
5. Analítica de datos 10
5.1. ¿Cómo se llegó a la analítica de datos? 13
6. Los datos y sus formatos de representación 16
7. Tipos de datos que tienen las organizaciones 18
7.1. Tipos de datos 20
8. Minería de datos big data 24
81. Data mining 25
8.1.1. Beneficios de usar data mining 25
8.2. Business Intelligence (BI) 26
8.2.1. Tipos de BI 26
8.2.2. Formas de presentar BI 28
9. Big data 29
9.1. Las 5vs de big data 30
9.2. Un ejemplo para entender las diferencias 32
10. Importancia de los proyectos de big data para las entidades del Estado 35
10.1. ¿Cómo ganar valor para las entidades a partir de big data? 36
10.2. Roles para un proyecto de big data en la entidad 36
10.2.1. Usuario del negocio 37
10.2.2. Patrocinador del proyecto o project sponsor 37
10.2.3. Project manager o gerente de proyecto 38
10.2.4. Business intelligent analyst o analista de inteligencia de negocio 38
10.2.5. Administrador de la base de datos o data base administrator (DBA) 38
10.2.6. Ingeniero de datos 38
10.2.7. Científico de datos o data scientist 38
Glosario 39
Bibliografía 43
Material de consulta 45
3
1. Tipología
Conceptual.
2. Objetivo
Contextualizar al estudiante en el mundo de los datos masivos, su uso y ventajas
para el profesional y la empresa moderna revisando el impacto del big data en la
sociedad actual, en el mundo de los negocios, la investigación científica y, particu-
larmente, en la administración pública.
4
3. Justificación
El concepto de big se origina en 1997 cuando los De forma sencilla y didáctica se abordarán los con-
investigadores de la NASA Michael Cox y David ceptos relacionados con big data y analítica. Así,
Ellsworth ponían en conocimiento de esta institu- cuando las áreas de tecnología, comerciales u otros
ción aeroespacial que el aumento desmesurado procesos decidan asumir implementaciones de
de datos sería un problema para los sistemas de big data podrá, a partir de este conocimiento, dar
información existentes, refiriéndose a ello como el mejor aporte. Recuerde, puede ser difícil recono-
“problema del big data” y tenían toda la razón, aun- cer el valor de algo que no se conoce, en la medi-
que sus razonamientos estaban más orientados da en que los elementos conceptuales van siendo
a la cantidad de datos. Hoy este significado está entendidos e interpretados, así mismo el valor que
induciendo a las compañías, entidades guberna- tiene para las organizaciones podrá identificarse,
mentales y organizaciones a tener conciencia de valorarse y aplicarse efectivamente.
la riqueza y el potencial que hay en los datos para
facilitar las decisiones, hacer estudios profundos y Siguiendo esta línea, a través de esta unidad 1 se
proyectar decisiones. busca que el estudiante, una vez culminado su es-
tudio, esté en capacidad de:
La mayoría de las organizaciones en el mundo son
fábricas de datos, pero no son industrias de infor- 1. Entender el impacto del tratamiento
mación y las entidades públicas no son ajenas a de datos masivos en la sociedad actual.
estos desafíos. Esta unidad desarrolla cuáles son
las tendencias en términos de datos y las respon-
sabilidades relacionadas con el usufructo del valor 2. Entender y explicar la procedencia y
que estos tienen. Busca evidenciar que los datos características de los datos masivos.
no tienen ciclos de vida cortos, permanecen en el
tiempo y son una medida clave para fijar y esta-
bilizar a las empresas, puesto que, si se trabajan y 3. Distinguir los diferentes tipos de ana-
lítica de datos.
modelan adecuadamente, se pueden determinar
y extraer conclusiones anticipadas para calcular los
comportamientos que van a tener decisiones pro- 4. Entender la importancia de big data
pias de las entidades públicas relacionadas con va- en las entidades públicas.
riables exógenas macro y micro económicas y con
la priorización de proyectos que favorecen el mejor
estar de la ciudadanía. Para lograrlo, todo inicia con 5. Conocer cómo se implementan equi-
buenos análisis de datos. Introducirse en el tema pos y proyectos de trabajo de big data
de big data implica prepararse para el cambio. en la organización.
6
4. Análisis de datos
El análisis de datos es la ciencia que per- Financieros: ofrecen a las organizaciones informa-
mite examinar un conjunto de datos buscando ción sobre los resultados precisos de las inversio-
obtener conclusiones sobre la información para nes, comportamiento de los costos y de los gastos.
facilitar la toma acertada de decisiones o tener un
conocimiento más completo y entendible sobre Evaluación de talento humano: pueden estable-
diversos temas de estudio. (Questionpro, s.f.) cerse variables del comportamiento de los em-
pleados de una entidad u organización e incluso
Este análisis trata los datos con operaciones mate- estimar el clima laboral a partir de la evaluación de
máticas y estadísticas que permiten obtener con- diversos factores que combinados permiten de-
clusiones precisas. Ayudan a dilucidar y compren- terminar tendencias y patrones de actuación del
der información que de forma simple no es fácil personal.
de abstraer.
En la academia: un estudiante o profesor puede
Actualmente el análisis de datos debe ser usado ser trazado, detalladamente, en todo su ciclo de
por todas las organizaciones sin importar su obje- vida al interior de una entidad educativa. Pueden
to de trabajo para tener mayor precisión y oportu- estimarse comportamientos y rendimientos a fu-
nidad en sus decisiones. turo y establecerse claras líneas de acción para
efectuar mejoras individuales y colectivas en los
procesos de enseñanza-aprendizaje.
4.1. Algunos ámbitos de aplica-
ción del análisis de datos Mantenimientos industriales: los mantenimien-
tos preventivos y correctivos, típicamente, ahora
A continuación, podrá revisar los diferentes frentes tienen un gran aliado que es el mantenimiento
de trabajo que hoy necesitan del análisis de datos “predictivo”. Este se da a partir de los datos que
y que han comprobado las mejoras en eficiencias arrojan diversos sensores propios del Internet de
y óptimos resultados al hacer uso de esta discipli- las cosas (IoT), los cuales facilitan pronosticar fallas
na (Next International Business School, 2018). con anticipación y promover alertas tempranas.
8
Unidad 1. Analítica de datos y big data
g. Presentación de resultados y
conclusiones de cualquier estudio en
formatos más claros y de fácil navegación
de modo que faciliten los análisis.
9
5. Analítica de datos
Unidad 1. Analítica de datos y big data
En el mundo moderno, los datos abundan y hacen El foro económico mundial (World Economic
presencia en todas partes. La cantidad de datos de Forum [WEF], s.f.) afirma que desde el 2020 los da-
origen digital crece de manera sorprendente cada tos están creciendo alrededor de 1,7 megabytes de
día. Todas las actividades humanas están permea- información nueva por segundo. No más para el
das por los recursos tecnológicos que dan origen a 2025 se estima que cerca de 463 exabytes de datos
registros de datos con diversidad de presentacio- serán creados diariamente en el mundo, eso sería
nes y múltiples formatos. como usar unos 212,765,957 DVD por día (Business
Coaching School, 2019). Entonces, ¿qué hacer con
La figura 1. “multiplicación de los datos” recuerda los datos?, ¿cómo sacarles el máximo provecho
las nuevas dimensiones que hoy son usadas res- para mejorar la gestión de las entidades y empre-
pecto del almacenamiento de datos. sas? Las respuestas a estas preguntas las entrega
la “analítica de datos”.
11
Figura 1.
Multiplicación de los datos.
b bit 0 or 1 1 / 8 of a byte
2
MB megabyte 1,000 bytes 1,000,000 bytes
3
GB glgabyte 1,000 bytes 1,000,000,000 bytes
4
TB terabyte 1,000 bytes 1,000,000,000,000 bytes
5
PB petabyte 1,000 bytes 1,000,000,000,000,000 bytes
6
EB exabyte 1,000 bytes 1,000,000,000,000,000,000 bytes
7
ZB zettabyte 1,000 bytes 1,000,000,000,000,000,000,000 bytes
8
YB yottabyte 1,000 bytes 1,000,000,000,000,000,000,000,000 bytes
18
Exabytes: 10 bytes
21
Zettabytes: 10 bytes
Data analytics o analítica de datos es una disciplina para examinar datos en sus formatos
de origen y obtener información de ellos. La analítica de datos implica la aplicación de
procesos algorítmicos que utilizan diversas técnicas de análisis para buscar correlacio-
nes significativas entre sí. Las industrias y empresas de todo tipo las usan para tomar
mejores decisiones, así como verificar y rechazar hipótesis o teorías existentes. La analí-
tica aprovecha los modelos matemáticos y probabilísticos para inferir conclusiones con
menores grados de incertidumbre. (KioNetworks, 2020).
12
Unidad 1. Analítica de datos y big data
Figura 2.
Evolución temporal de la analítica.
Evaluación de la
analítica
Inteligencia Artificial
Funciones analíticas de
Capacidades Optimización bases de datos
prescriptivas estocastica Bussines inteligent
Procesamiento de
eventos complejos Analítica
Modelos inicicales Visualización Avanzada
SQL Extremo de optimización Análisis de comportamientos
¿Porqué sucedio?
Valor aportado y complejidad
Capacidades Aletas
descriptivas automatizadas
Data mining (Minería de datos)
Consultas
(Querys) Analítica Básica
¿Qué sucede?
¿Cuando sucedió?
Reportes
Adhoc
Reportes
estándares
Nota. La imagen fue modificada a partir de la publicada de Evolución de la analítica (Intelnaes, s.f.).
13
Los sistemas de información que estaban instala- Posteriormente, el desarrollo tecnológico permitió
dos en las organizaciones ofrecían unos reportes crear las capacidades predictivas, las cuales se ca-
estándares finalizando los años 90. En algunos ca- racterizan por las alertas online. Ya aparecen aná-
sos, eran considerados como aplicaciones mudas lisis estadísticos como el forecasting, se utilizan
porque la información generada era escasa, muy análisis de series de tiempo, modelos estadísticos
puntual y entregada a través de reportes están- multi-variables y el uso de las Online Analitical Pro-
dares. Posteriormente se advierte un notable pro- cessing (OLAP) o procesamiento analítico en línea,
greso con la llegada de los Enterprise Resources caracterizado por herramientas automatizadas
Planning (ERP), los cuales entregaron posibilida- que facilitan la generación de información a través
des de crear reportes ad hoc generados a partir de de proyecciones y posibilidad de realizar pronósti-
la selección que los usuarios hacían de los campos cos con cada vez menores índices de incertidum-
de las bases de datos que eran necesitados y de vi- bre. Estos escenarios son parte de la capacidad
sualizar informes con los datos de interés. Un poco predictiva o analítica predictiva de una organiza-
más adelante tomó protagonismo el uso de los ción.
querys o consultas, utilidad propia de los Sistemas
Manejadores de Bases de Datos (SMBD). Cuando Avanzando en el tiempo, ya en el año 2000, son de-
una entidad usa motores de bases de datos como sarrolladas las capacidades prescriptivas, lo que in-
SQL Server u Oracle, por ejemplo, pueden aprove- fiere el uso de modelos predictivos. Estos incluyen
char las funciones “query” que, sumadas a los re- modelos de optimización e incluyen optimización
portes estándares, ad hoc o alertas ya existentes, estocástica para facilitar los análisis en ambiente
hacen parte de las capacidades descriptivas de un no determinístico, dado los altos niveles de incer-
sistema. Justamente a este modelo de tratamiento tidumbre en las variables a utilizar en los estudios.
de datos se le conoce como analítica descriptiva o Cuando se realiza el análisis prescriptivo no solo se
analítica básica, la cual responde a preguntas tales pronostica qué va a suceder, sino cuál es la mejor
como: ¿qué sucedió?, ¿cuándo sucedió? y ¿cuál fue opción de decisión que debe adoptarse. La analí-
su impacto? Es decir, hablamos del ayer, de los re- tica descriptiva dice qué pasó y por qué paso. La
gistros de lo que ya pasó. analítica predictiva habla de qué puede pasar y la
analítica prescriptiva incluye conocer cuáles pue-
Siguiendo esta línea, por ejemplo, en el contexto den ser las mejores soluciones para atender, pro-
del sistema bancario: una solicitud de préstamo y yectar o mejorar lo que va a suceder. En la analítica
los responsables de la aprobación hacen el análisis prescriptiva se usan herramientas de mayor com-
del historial crediticio del solicitante. Cuando se es- plejidad como los análisis semánticos, análisis de
tudia en diferentes bases de datos cuál ha sido el redes sociales y restricciones sobre los análisis. Es-
comportamiento de pago de la persona requirente tas funciones de estudio son utilizadas por los ana-
se está haciendo analítica descriptiva. listas y científicos de datos para determinar cuáles
insumos y data pueden ser utilizadas para hacer
más viable una certera prescripción.
14
Unidad 1. Analítica de datos y big data
15
6. Los datos y sus formatos
de representación
Unidad 1. Analítica de datos y big data
En la Figura 3, se pueden observar los sistemas de información que luego de los años 90 em-
pezaron a ser instalados en las organizaciones. Estuvieron y están caracterizados por el uso de
Sistemas de Bases de Datos Relacionales (RDBMS) y bodegas de datos (Data warehouse). Las
grandes compañías han llegado incluso a tener bases de datos con varios Terabytes en su capa-
cidad de almacenamiento. Llegado el año 2000, el aumento del contenido digital se hace aún
mayor, ya que proliferan millones de archivos propios de la ofimática, tales como procesadores
de texto, hojas electrónicas, herramientas de presentación, PDF, etc.
Figura 3.
Recorrido de análisis de datos.
Recorrido de
análisis de datos
Algunas organizaciones, dadas sus operaciones y nivel de automatización, escalan aún más sus
capacidades de almacenamiento y ya son varios los Petabytes requeridos. A partir del 2010, con la
aparición y masificación de las redes sociales (Facebook, Twitter, YouTube, LinkedIn y WhatsApp,
entre otros), varias compañías han crecido de maneras ostensibles las cantidades de datos que ad-
ministran, siendo relevantes para ellas apelar a capacidades de almacenamiento mucho mayores,
en ellas el término de exabytes ya es de común uso
17
.
Desde que inició la era computacional a media- Para el 2025 hay una estimación de que se crearán
dos del siglo pasado y particularmente después 463 hexabytes en todo el mundo, eso es como si se
de la Segunda Guerra Mundial, el proceso de cre- grabara más o menos 212 millones de Dvd’s por día.
cimiento y desarrollo en computadores y en ser- Es decir, es muchísima la información disponible.
vidores ha sido vertiginoso, así como los proce-
sos de almacenamiento. Si se hace un recorrido Una de las tareas de la analítica y de Big Data es
generacional se puede decir que el inicio fue con preguntar: ¿qué hacer con la información?, ¿cómo
grandes dispositivos de almacenamiento secun- clasificarla?, ¿cómo tratarla? y ¿cómo usufructuarla
dario, luego aparecieron los discos duros, pasan- debidamente?
do por los disquetes, después tomaron prota-
gonismo los CDs, posteriormente las memorias
USB y hoy estamos gozando todos del beneficio
de la computación en la nube llamada cloud
computing, por su expresión en inglés. La multi-
plicación excesiva de los datos acontece porque
el desarrollo tecnológico ha permitido cada vez
mayores capacidades de almacenamiento y pro-
cesamiento para operar la información que está
alojada en esos dispositivos.
19
7.1. Tipos de datos
Existen cuatro tipos de datos característicos en las organizaciones: (a) estructurados, (b) semi es-
tructurados, (c) cuasi estructurados y (d) no estructurados. Algunos autores solo clasifican tres tipos,
uniendo el (b) y el (c) en un solo concepto de “semiestructurados” (Ayudaley, s.f.).
Observe la siguiente figura para interpretar, desde la visualidad, cada uno de los tipos de datos:
Tipos de datos
Figura 4.
Tipos de datos
Datos
a. Datos estructurados: hacen parte de aquellos archivos y tablas propias de los sistemas de infor-
mación que soportan las operaciones de las organizaciones. Herramientas como los ERPs, CRMs y
otros elementos de administración de datos desarrollados in house o provistos por terceros se crea-
ron usando bases de datos relacionales. Los archivos y tablas que almacenan los datos propios de las
anteriores herramientas son considerados datos estructurados, es decir, filas y columnas donde en
cada celda sólo figura un dato con una configuración específica. Las tablas en Excel o de bases de
datos como Oracle son un ejemplo. La Figura 5, con ciudades del departamento de Cundinamarca
en Colombia, es un ejemplo.
20
Unidad 1. Analítica de datos y big data
Figura 5.
Ejemplo baseTipos
de datos sobre habitantes por población.
de datos
Ejemplo base de datos sobre habitantes por población.
20 Mucipios
Total
Nombre de
Municipio
2018 2019 2020
21
b. Datos semiestructurados: hacen parte del seg- c. Datos no estructurados: son hoy por hoy más
mento archivos tipo Json y XML. Estos datos utilizan del 90% de los datos que hay en el planeta y que
marcadores para separar sus diferentes elementos. reposan en contenidos digitales. Encontramos allí
Cuando ha tenido la oportunidad de ver el código archivos de audio tipo mp4, Wap, archivos de tex-
fuente que hace parte de una página web, puede to, PDF, archivos de imágenes, videos, mensajes de
ver que entre corchetes hay expresiones estructu- correo, mensajes de WhatsApp, entre otros. Gene-
radas (tablas) y no estructuradas (textos y mensa- ralmente se almacenan como diferentes tipos de
jes). Esta combinación genera la característica de archivos y puede advertirse en las extensiones que
“datos semiestructurados”. La siguiente figura es utilizan en los nombres. Este segmento es el gran
un ejemplo de este tipo de datos. desafío de la Inteligencia Artificial (IA), ya que es-
tos formatos deberán ser convertidos a modelos
estructurados para poder presentar información
Figura 6. fácilmente consolidada y entendible para el usua-
Ejemplos de datos semiestructurados rio final. Un ejemplo claro es cuando se identifican
tendencias en Twitter combinado con otras redes
sociales, ya que software y maquinas con gran po-
[ der de procesamiento deben barrer archivos de
Marcadores”:[ diferentes tipos, originados en diferentes redes
sociales para determinar cuál es la palabra o frase
[ que se hace tendencia en un país o en el mundo.
“Latitude”: 40.416875
“longitude”: - 3.703308
],
[ “latitude”: 40.41738,
“longitude”: -3.693363
“description”: “Paseo de prado”
],
[
“latitude”: 40.407015,
“longitude”: -3.691163,
“city”: “Madrid”
“description”: “Estación de Atocha”
]
[ [
22
Unidad 1. Analítica de datos y big data
Figura 7.
Ejemplos de datos no estructurados
Ejemplos de datos
no estructurados
23
8. Minería de datos
big data
Unidad 1. Analítica de datos y big data
25
8.2. Business Intelligence (BI) 8.2.1. Tipos de BI
Figura 8.
Inteligencia de Negocio (BI)
Inteligencia de Negocio
Almacenamiento
de datos
La modernización del
Descubrimiento y
almacenamiento de datos
visualización de datos
Inteligencia
de Negocio
Autoservicio
Fuente: Google – Product School (s.f).
27
8.2.2. Formas de presentar BI
28
9. Big data
Este término, que es eje de la unidad que le moti-
va a estudiar en este momento, es una expresión
que hace referencia a grandes volúmenes de datos
estructurados y no estructurados que se crean y
llegan en todas las empresas. Ciertamente la can-
tidad de datos no es lo importante, lo es la reflexión
de lo que las organizaciones hacen con los datos.
Big data se utiliza para analizar datos claves que
promueven las mejores decisiones estratégicas de
negocios.
30
Unidad 1. Analítica de datos y big data
Figura 9.
Características de viabilidad para un
proyecto big data.
a. Volumen: como una empresa que tiene De esta manera, los sistemas de información
gran cantidad de datos, llámese terabytes y los motores de bases de datos pueden
y en algunos casos podríamos hablar administrar fácilmente esta información.
de que su volumen de datos está por Ahora, cuando las fuentes de datos se
un número superior a los diez terabytes. vuelven diversas y no son solo estructuradas
Podría considerarse que la compañía sino también semiestructuradas y no
necesita hacer big data para mantener y estructuradas se estaría hablando de
asegurar sus registros, sus transacciones y escenarios de variedad. ¿Por qué de variedad?,
mantener adecuadamente almacenados y la respuesta está en que los datos llegan, por
administrados sus tablas y archivos referente ejemplo, en formatos de datos frecuentes
al volumen por la gran cantidad de datos. como formatos de video, fotografía, audio,
chats, mensajería electrónica, etc. Estos
b. Variedad: se relaciona con la característica datos son no estructurados. Si una entidad
de diferentes fuentes y tipos de datos, tiene gran variedad de fuentes de datos
¿qué significa? Que una organización para ser procesadas cumpliría con esta “v” y
normalmente tiene datos estructurados, pero, justificaría hacer big data.
¿estos datos dónde están? Se encuentran en
las tablas que hacen parte de los sistemas de
información automatizados de las empresas,
es semejante a tener hojas electrónicas en
Excel que se manejan con filas y columnas.
31
c. Velocidad: está relacionada con la En resumen, si una entidad cumple con las carac-
característica del flujo de datos. Cuando terísticas de las 5 Vs es necesario implementar big
una entidad u organización cualquiera data.
se caracteriza por tener un flujo de datos
continuo (streaming), más allá de los flujos Existen propuestas de autores sobre la inclusión
de datos por lotes o en batch convencionales,
de otras “v”, se revisarán brevemente. Por ejemplo,
entonces cumple con la “v” de velocidad. Hoy
han incluido la “v” de viscosidad para los datos de
es usual que las compañías reciban datos
en línea y en tiempo real desde sensores o un proyecto de big data que se interrelacionan en-
dispositivos emisores que están en celulares tre sí. Otra es la viabilidad, la cual implica que esa
o en sensores de internet de las cosas data que llega a la organización debe ser viable en
(IoT), ubicadas en oficinas y en carreteras, la medida en que se deje filtrar adecuadamente
por ejemplo. Tal streaming de datos para determinar que esos datos limpios sí permi-
permanente exige que la compañía haga un ten llegar a resultados confiables. Por último, está
procesamiento oportuno y adecuado de esa la “v” de la visualización, esa data tratada y mane-
gran cantidad de datos. Así se cumpliría con jada debe ser legible y muy clara para el usuario
la característica asociada a la velocidad. que la está utilizando y permitirle tomar las mejo-
res decisiones de forma oportuna.
d. Veracidad: significa que la empresa,
además de otras características, requiere
datos de alta calidad cuyo origen y reputación 9.2. Un ejemplo para entender
de la fuente que los emite sea el mejor, así
como una alta responsabilidad e integridad
las diferencias
del dato, que no haya lugar a duda ni tenga
altas incertidumbres. Los tres conceptos de minería de datos, Business
Intelligence y big data no son excluyentes, más
e. Valor: implica que el dato tiene repercusión bien son complementarios. Todo depende del pro-
y alto relieve para la organización, razón pósito que se tenga, de los recursos disponibles y
por la que debe tener especial cuidado. de los tiempos que dispongamos para hacer di-
Además, extraer la información para volverla chos análisis.
conocimiento a través de técnicas predictivas
que permitan garantizar que el dato para la
organización ocupa un lugar estratégico.
32
Unidad 1. Analítica de datos y big data
Figura 10.
Diferencias en el análisis de datos.
Mineria de Business
Big data
datos intelligence
Común
Analisis de datos
Siguiendo la Figura 10, se hace minería de datos cuando se busca encontrar patrones comunes y
diferentes en conjuntos de datos, es decir, cuando pretendemos identificar tendencias, cifras recu-
rrentes y atípicas dentro de los archivos objeto de estudio. La minería de datos facilita los procesos
de búsqueda y la posibilidad de descender cada vez más en los análisis, encontrando conclusiones
en el menor tiempo posible. Por ejemplo, si hablásemos de empresas como Netflix, Amazon prime
o Disney, esas empresas requieren saber de todos sus usuarios o suscriptores cuáles son los tipos de
películas que más son consumidas y esto pueden hacerlo por países, ciudades o zonas.
33
Conocer qué películas y en qué horarios son des-
cargadas es posible con ejercicios de minería de
datos.
34
10. Importancia de los
proyectos de big data
para las entidades del
Estado
El big data resulta útil para las entidades al posibili- d. Nuevos servicios. Con la capacidad de
tar respuestas a preguntas que ellas mismas desco- medir las necesidades de los ciudadanos y la
nocen. Hay muchos datos disponibles que requieren satisfacción a través de análisis de los datos
ser tratados y/o depurados para facilitar su análisis. producto del seguimiento a los datos que son
retroalimentados, la entidad puede gestar
Las empresas pueden identificar los problemas de
nuevos modelos operacionales de mayor
manera más comprensible y tener en los datos in-
impacto y satisfacción a clientes internos y
sumos para calcular adecuadamente los caminos de externos.
solución (PowerData, s.f.).
El análisis de big data ayuda a las organizaciones a re- 10.2. Roles para un proyecto de
conocer la importancia de los datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, con- big data en la entidad
duce a decisiones más inteligentes, operaciones más
eficientes, mayor balance en los resultados y ciuda- A continuación, se describen los roles importan-
danos y clientes mucho más satisfechos (PowerData, tes para desarrollar un proyecto de big data. Estos
s.f.). roles son claves, pero podrían eventualmente su-
marse otras funciones diferentes de la empresa,
Así mismo, ayuda a las organizaciones a aprovechar dependiendo del proyecto que se va a desarrollar.
sus datos y utilizarlos para identificar nuevas oportu- Hacen parte de este equipo inicial: el usuario del
nidades aproximándolas a movimientos de negocios negocio, el patrocinador o sponsor del proyecto, el
más inteligentes, operaciones más eficientes, mayo- gerente de proyecto o project manager, el analis-
res ganancias y clientes más satisfechos con sus pro- ta de inteligencia de negocios, el administrador de
ductos y servicios (PowerData, s.f.). base de datos, el ingeniero de datos y el científico
de datos.
10.1. ¿Cómo ganar valor para las
entidades a partir de big data?
a. Reducción de costos en la entidad. Analizar
en detalle el origen de los costos, sobrecargas
en los procedimientos, duplicaciones de
funciones, tiempos de aplicación a las
actividades, entre otras. Este análisis permite
identificar las causas o raíces de sobrecostos
en las operaciones.
36
Unidad 1. Analítica de datos y big data
Figura 11.
Descripción de roles y formas de participación
en el proyecto. en el análisis de datos.
Diferencias
Administrador de Base
Ingeniero de Datos Cientifico de Datos
de Datos (DBA)
Crea consultas a la (Aplica Analitica en
(Configura ambiente de
base de datos modelamiento de datos)
base de datos)
37
10.2.3. Project manager o gerente 10.2.6. Ingeniero de datos
de proyecto El ingeniero de datos tiene experiencia y habili-
dades para crear consultas a las bases de datos a
El gerente de proyecto asegura esencialmente que través de “querys”, utilizando las herramientas tec-
se cumplan los objetivos en el tiempo y en la cali- nológicas disponibles. Tiene la capacidad de hacer
dad que se espera. extracción de datos. Apoya el soporte necesario
cuando se trata de hacer ingesta de datos de las
10.2.4. Business intelligent analyst o diferentes fuentes que se tienen identificadas.
38
Glosario
Algoritmo: es una secuencia lógica, finita y con
instrucciones que forman una fórmula matemá-
tica o estadística para realizar el análisis de datos.
(Big Data Social, s.f.)
Customer relationship management (CRM): sis- Enterprise Resource Planning (ERP): son siste-
tema de Información que permite la administra- mas de información que integran y manejan mu-
ción o gestión con los clientes. Un modelo de ges- chos de los negocios asociados con las operaciones
tión de toda la organización. El ciclo de vida de los de producción y de los aspectos de distribución de
negocios con los clientes puede ser seguido y eva- una compañía en la producción de bienes o ser-
luado a través de esta herramienta. vicios. SAP, People Soft, JDEdwards son algunos
ejemplos de ello.
Data cleansing: es el método que mantiene los
bancos de datos libres de informaciones inconsis- Los sistemas de planificación de recursos empre-
tentes o irrelevantes. (Fsisorg, s.f.) sariales son los sistemas de información gerencia-
les que integran y manejan muchos de los nego-
Data lake: es un lago de datos en el cual se alma- cios asociados con las operaciones de producción
cenan informaciones en su estado natural y en y de los aspectos de distribución de una compañía
gran volumen, es allí donde el Data Scientist debe en la producción de bienes o servicios. (Mercado,
sumergirse para encontrar sus principales insights. 2007)
40
Exabyte (EB): unidad de datos equivalente a 103
(1.024) petabytes o 1018 bytes.
42
Unidad 1. Analítica de datos y big data
Bibliografía
Aguilar Omar. (2019). Analítica predictiva y el Fsisorg. (s.f.). Términos. Hipervínculo: https://sites.
big data. Universidad Santiago de Chile. Hi- google.com/site/fsisorg/wiki/big-data-huanca-hi-
pervínculo: https://www.researchgate.net/ lachoque-vanessa-monica
publication/332278423_ LA _ ANALITICA _ PRE-
DICTIVA_Y_EL_BIG_DATA_EL_PODER_DE_PRE- Inflab (s.f). ¿Qué es un Data Scientist?. 2020 Hiper-
DECIR_LAS_FALLAS_EN_EL _MANTENIMIENTO_ vínculo: https://inlab.fib.upc.edu/es/blog/que-es-
INTEGRAL_MINERO un-data-scientist.
Ayuda Ley. (s.f.). Diferencias entre datos estructura- Instituto Empresa Digital (s.f). Las claves del Big
dos y no estructurados. Data. 2019. Kaloyan Stoyanov Georgiev. Hipervíncu-
lo: https://institutoempresadigital.com/las-claves-
Hipervínculo: https://ayudaleyprotecciondatos.es/ del-big-data/
bases-de-datos/diferencias-entre-datos-estruc-
turados-y-no-estructurados/#:%7E:text=Los%20 Intelnaes. (s.f.). Evolución del análisis de datos Hi-
datos%20estructurados%20est%C3%A1n%20alta- pervínculo: https://corporacionintelnaes.com.ec/
mente,de%20recopilar%2C%20procesar%20y%20 business-intelligence-analytics/evolucion-anali-
analizar. sis-de-los-datos/
Intelligent. (2021). (22 de marzo de 2021). Procesa-
Big Data Social. (s.f.). Glosario Big Data (A-G). Hi- miento del Lenguaje Natural: tareas y aplicacio-
pervínculo: http://www.bigdata-social.com/glosa- nes.
rio-big-data-a-g/
Hipervínculo: https://itelligent.es/es/procesamien-
Business Coaching School. (2019). Big Data en la to-del-lenguaje-natural-tareas-aplicaciones/
gestión de talent humano. Hipervínculo: https://
www.businesscoachingschool.org/post/big-da- Intelligent. (2019). (20 de marzo de 2019). ¿Qué es
ta-en-la-gesti%C3%B3n-de-talento-humano la Analítica Empresarial? Hipervínculo: https://itelli-
gent.es/es/que-es-analitica-empresarial/
Salesforce blog. (2020). (26 de octubre de 2020).
Data Warehouse y Data Lake: ¿Qué son?. Hipervín- Intelligent. (2017). (04 de octubre de 2017) ¿Qué
culo: https://www.salesforce.com/mx/blog/2020/10/ significa Business Analytics? ¿Qué podemos hacer
data-warehouse-y-data-lake.html con la Analítica Empresarial? Hipervínculo: https://
itelligent.es/es/significado-business-analytics/
Cámara de Comercio de Bogotá. (2018). En Bogo-
tá-región viven más de 10 millones de habitantes. IPMOGUIDE. (s.f.). Análisis predictivo (AP). Glosario
Hipervínculo: https://www.ccb.org.co/observatorio/ de términos. Hipervínculo: https://ipmoguide.com/
Entorno-para-los-negocios/Entorno-para-los-ne- glossary/analisis-predictivo-ap/
gocios/Desarrollo-urbano-y-regional/En-Bogo-
ta-region-viven-mas-de-10-millones-de-habitan- IPMOGUIDE. (s.f.). Analítica empresarial (AE). Glo-
tes sario de términos. Hipervínculo: https://ipmoguide.
com/glossary/analitica-empresarial/
43
Itelligent (s.f.). Cómo funciona un sistema de Geo-
marketing. 2016. ITELLIGENT INFORMATION TECH-
NOLOGIES
Material de consulta
Big Data For Dummies 1st Edición. Edición Kindle. Alan
Nugent, Fern Halper, Judith S. Hurwitz, Marcia Kauf-
man, 2018.
45