Está en la página 1de 46

UNIDAD DIDÁCTICA 1

Analítica de
datos y big data

Subdirección Nacional de Proyección Institucional


Escuela Superior de Administración Pública
ESAP

Unidad Didáctica
Analítica de datos y big data

Autor
Norbey Mejía Chica

Equipo de producción de la Dirección de


Entornos y Servicios Virtuales-ESAP Corrección
de estilo, acompañamiento pedagógico, diseño
instruccional, diseño gráfico y virtualización.

Fecha
Fecha últimarevisión
última versión
Abrilde
Marzo de2023
2022

ESAP ha verificado, hasta donde es posible, que el contenido de los enlaces web citados y presentados en este curso sean
verídicos y que correspondan; sin embargo, y debido a la naturaleza dinámica de internet, ESAP no puede responsabilizarse
por el correcto y adecuado funcionamiento de los mismos.

La mayoría de las imágenes de este documento han sido compradas a través de: https://www.shutterstock.com

2
Unidad 1. Analítica de datos y big data

Contenido
1. Tipología 4
2. Objetivo 4
3. Justificación 5
4. Análisis de datos 7
4.1. Algunos ámbitos de aplicación del análisis de datos 8
4.2. Para qué sirve el análisis de datos 9
5. Analítica de datos 10
5.1. ¿Cómo se llegó a la analítica de datos? 13
6. Los datos y sus formatos de representación 16
7. Tipos de datos que tienen las organizaciones 18
7.1. Tipos de datos 20
8. Minería de datos big data 24
81. Data mining 25
8.1.1. Beneficios de usar data mining 25
8.2. Business Intelligence (BI) 26
8.2.1. Tipos de BI 26
8.2.2. Formas de presentar BI 28
9. Big data 29
9.1. Las 5vs de big data 30
9.2. Un ejemplo para entender las diferencias 32
10. Importancia de los proyectos de big data para las entidades del Estado 35
10.1. ¿Cómo ganar valor para las entidades a partir de big data? 36
10.2. Roles para un proyecto de big data en la entidad 36
10.2.1. Usuario del negocio 37
10.2.2. Patrocinador del proyecto o project sponsor 37
10.2.3. Project manager o gerente de proyecto 38
10.2.4. Business intelligent analyst o analista de inteligencia de negocio 38
10.2.5. Administrador de la base de datos o data base administrator (DBA) 38
10.2.6. Ingeniero de datos 38
10.2.7. Científico de datos o data scientist 38
Glosario 39
Bibliografía 43
Material de consulta 45

3
1. Tipología
Conceptual.

Al cumplir el objetivo se busca que la persona participante comprenda, conozca,


describa e identifique los aspectos más importantes sobre big data, sus diferentes
usos y la manera como puede mejorar la eficiencia en la administración de los datos
en las organizaciones.

2. Objetivo
Contextualizar al estudiante en el mundo de los datos masivos, su uso y ventajas
para el profesional y la empresa moderna revisando el impacto del big data en la
sociedad actual, en el mundo de los negocios, la investigación científica y, particu-
larmente, en la administración pública.

4
3. Justificación
El concepto de big se origina en 1997 cuando los De forma sencilla y didáctica se abordarán los con-
investigadores de la NASA Michael Cox y David ceptos relacionados con big data y analítica. Así,
Ellsworth ponían en conocimiento de esta institu- cuando las áreas de tecnología, comerciales u otros
ción aeroespacial que el aumento desmesurado procesos decidan asumir implementaciones de
de datos sería un problema para los sistemas de big data podrá, a partir de este conocimiento, dar
información existentes, refiriéndose a ello como el mejor aporte. Recuerde, puede ser difícil recono-
“problema del big data” y tenían toda la razón, aun- cer el valor de algo que no se conoce, en la medi-
que sus razonamientos estaban más orientados da en que los elementos conceptuales van siendo
a la cantidad de datos. Hoy este significado está entendidos e interpretados, así mismo el valor que
induciendo a las compañías, entidades guberna- tiene para las organizaciones podrá identificarse,
mentales y organizaciones a tener conciencia de valorarse y aplicarse efectivamente.
la riqueza y el potencial que hay en los datos para
facilitar las decisiones, hacer estudios profundos y Siguiendo esta línea, a través de esta unidad 1 se
proyectar decisiones. busca que el estudiante, una vez culminado su es-
tudio, esté en capacidad de:
La mayoría de las organizaciones en el mundo son
fábricas de datos, pero no son industrias de infor- 1. Entender el impacto del tratamiento
mación y las entidades públicas no son ajenas a de datos masivos en la sociedad actual.
estos desafíos. Esta unidad desarrolla cuáles son
las tendencias en términos de datos y las respon-
sabilidades relacionadas con el usufructo del valor 2. Entender y explicar la procedencia y
que estos tienen. Busca evidenciar que los datos características de los datos masivos.
no tienen ciclos de vida cortos, permanecen en el
tiempo y son una medida clave para fijar y esta-
bilizar a las empresas, puesto que, si se trabajan y 3. Distinguir los diferentes tipos de ana-
lítica de datos.
modelan adecuadamente, se pueden determinar
y extraer conclusiones anticipadas para calcular los
comportamientos que van a tener decisiones pro- 4. Entender la importancia de big data
pias de las entidades públicas relacionadas con va- en las entidades públicas.
riables exógenas macro y micro económicas y con
la priorización de proyectos que favorecen el mejor
estar de la ciudadanía. Para lograrlo, todo inicia con 5. Conocer cómo se implementan equi-
buenos análisis de datos. Introducirse en el tema pos y proyectos de trabajo de big data
de big data implica prepararse para el cambio. en la organización.

6. Contestar a una pregunta bien for-


mulada en función de la información
disponible.

6
4. Análisis de datos
El análisis de datos es la ciencia que per- Financieros: ofrecen a las organizaciones informa-
mite examinar un conjunto de datos buscando ción sobre los resultados precisos de las inversio-
obtener conclusiones sobre la información para nes, comportamiento de los costos y de los gastos.
facilitar la toma acertada de decisiones o tener un
conocimiento más completo y entendible sobre Evaluación de talento humano: pueden estable-
diversos temas de estudio. (Questionpro, s.f.) cerse variables del comportamiento de los em-
pleados de una entidad u organización e incluso
Este análisis trata los datos con operaciones mate- estimar el clima laboral a partir de la evaluación de
máticas y estadísticas que permiten obtener con- diversos factores que combinados permiten de-
clusiones precisas. Ayudan a dilucidar y compren- terminar tendencias y patrones de actuación del
der información que de forma simple no es fácil personal.
de abstraer.
En la academia: un estudiante o profesor puede
Actualmente el análisis de datos debe ser usado ser trazado, detalladamente, en todo su ciclo de
por todas las organizaciones sin importar su obje- vida al interior de una entidad educativa. Pueden
to de trabajo para tener mayor precisión y oportu- estimarse comportamientos y rendimientos a fu-
nidad en sus decisiones. turo y establecerse claras líneas de acción para
efectuar mejoras individuales y colectivas en los
procesos de enseñanza-aprendizaje.
4.1. Algunos ámbitos de aplica-
ción del análisis de datos Mantenimientos industriales: los mantenimien-
tos preventivos y correctivos, típicamente, ahora
A continuación, podrá revisar los diferentes frentes tienen un gran aliado que es el mantenimiento
de trabajo que hoy necesitan del análisis de datos “predictivo”. Este se da a partir de los datos que
y que han comprobado las mejoras en eficiencias arrojan diversos sensores propios del Internet de
y óptimos resultados al hacer uso de esta discipli- las cosas (IoT), los cuales facilitan pronosticar fallas
na (Next International Business School, 2018). con anticipación y promover alertas tempranas.

Marketing: el análisis de datos es comúnmente Detección de fraudes: cuando se comparan diver-


usado para predecir el comportamiento de los sas variables que administran los sistemas de in-
procesos de mercado y la reacción de los consu- formación instalados en las empresas con propó-
midores frente a las ofertas y campañas ofrecidas. sitos financieros, administrativos o de producción,
es posible identificar con antelación acciones de
fraude que se estén preparando o estén en proce-
so al interior de una empresa.

8
Unidad 1. Analítica de datos y big data

4.2. Para qué sirve el


análisis de datos

a. Ayuda a las entidades a identificar


inconvenientes en los rendimientos y
resultados del personal y áreas a las que
pertenecen facilitando acciones objetivas
de control y mejora.

b. Comprensión de las necesidades de


información de los ciudadanos y demás
clientes internos y externos de las
entidades.

c. Facilita el perfilamiento de los usuarios


del servicio que ofrecemos.

d. Contribuye a la interrelación con los


ciudadanos y otros stakeholders de la
entidad.

e. Fortalece la capacidad para tomar


decisiones basadas en datos más que en
percepciones de los hechos.

f. Permite la implementación de acciones


de control y mejora cuando administramos
riesgos ya que todo se soporta en datos y
hechos.

g. Presentación de resultados y
conclusiones de cualquier estudio en
formatos más claros y de fácil navegación
de modo que faciliten los análisis.

h. Reduce los costos dado el conocimiento


en detalle de los datos relacionados en
que incurre una entidad o empresa.

9
5. Analítica de datos
Unidad 1. Analítica de datos y big data

En el mundo moderno, los datos abundan y hacen El foro económico mundial (World Economic
presencia en todas partes. La cantidad de datos de Forum [WEF], s.f.) afirma que desde el 2020 los da-
origen digital crece de manera sorprendente cada tos están creciendo alrededor de 1,7 megabytes de
día. Todas las actividades humanas están permea- información nueva por segundo. No más para el
das por los recursos tecnológicos que dan origen a 2025 se estima que cerca de 463 exabytes de datos
registros de datos con diversidad de presentacio- serán creados diariamente en el mundo, eso sería
nes y múltiples formatos. como usar unos 212,765,957 DVD por día (Business
Coaching School, 2019). Entonces, ¿qué hacer con
La figura 1. “multiplicación de los datos” recuerda los datos?, ¿cómo sacarles el máximo provecho
las nuevas dimensiones que hoy son usadas res- para mejorar la gestión de las entidades y empre-
pecto del almacenamiento de datos. sas? Las respuestas a estas preguntas las entrega
la “analítica de datos”.

11
Figura 1.
Multiplicación de los datos.

La multiplicación de los datos

Abbreviation Unit Value Size (in bytes)

b bit 0 or 1 1 / 8 of a byte

B bytes 8 bits 1 bytes

KB kilobytes 1,000 bytes 1,000 bytes

2
MB megabyte 1,000 bytes 1,000,000 bytes

3
GB glgabyte 1,000 bytes 1,000,000,000 bytes

4
TB terabyte 1,000 bytes 1,000,000,000,000 bytes

5
PB petabyte 1,000 bytes 1,000,000,000,000,000 bytes

6
EB exabyte 1,000 bytes 1,000,000,000,000,000,000 bytes

7
ZB zettabyte 1,000 bytes 1,000,000,000,000,000,000,000 bytes

8
YB yottabyte 1,000 bytes 1,000,000,000,000,000,000,000,000 bytes

18
Exabytes: 10 bytes
21
Zettabytes: 10 bytes

Fuente: tomado de WEF (s.f.).

Data analytics o analítica de datos es una disciplina para examinar datos en sus formatos
de origen y obtener información de ellos. La analítica de datos implica la aplicación de
procesos algorítmicos que utilizan diversas técnicas de análisis para buscar correlacio-
nes significativas entre sí. Las industrias y empresas de todo tipo las usan para tomar
mejores decisiones, así como verificar y rechazar hipótesis o teorías existentes. La analí-
tica aprovecha los modelos matemáticos y probabilísticos para inferir conclusiones con
menores grados de incertidumbre. (KioNetworks, 2020).

12
Unidad 1. Analítica de datos y big data

5.1. ¿Cómo se llegó a la analítica de


datos?

Como puede verse en la Figura 2, existe una línea de


tiempo que indica cuál ha sido el progreso y evolución
de la analítica.

Figura 2.
Evolución temporal de la analítica.

Evaluación de la
analítica

Inteligencia Artificial

Funciones analíticas de
Capacidades Optimización bases de datos
prescriptivas estocastica Bussines inteligent
Procesamiento de
eventos complejos Analítica
Modelos inicicales Visualización Avanzada
SQL Extremo de optimización Análisis de comportamientos
¿Porqué sucedio?
Valor aportado y complejidad

Modelos Analítica Semántica


Machine ¿Cuando sucedio?
predictivos Analítica para
redes sociales learning
Capacidades ¿Causas?
Analítica de
predictivas Diahnóstico Times series analysis
Forescasting ¿Como evitar o
Pronósticos Procesamiento de lenguaje natural activar el evento?
¿Porque
sucedieron
las cosas?

Análisis Análisis estadísticos Multivariado Tranformación


¿Cúal fue su Digital
impacto? estadísticos Procesamiento Analítico en línea (OLAP)

Capacidades Aletas
descriptivas automatizadas
Data mining (Minería de datos)
Consultas
(Querys) Analítica Básica
¿Qué sucede?
¿Cuando sucedió?
Reportes
Adhoc

Reportes
estándares

Finales Despues Despues


de 1990 del 2000 del 2011

Nota. La imagen fue modificada a partir de la publicada de Evolución de la analítica (Intelnaes, s.f.).

13
Los sistemas de información que estaban instala- Posteriormente, el desarrollo tecnológico permitió
dos en las organizaciones ofrecían unos reportes crear las capacidades predictivas, las cuales se ca-
estándares finalizando los años 90. En algunos ca- racterizan por las alertas online. Ya aparecen aná-
sos, eran considerados como aplicaciones mudas lisis estadísticos como el forecasting, se utilizan
porque la información generada era escasa, muy análisis de series de tiempo, modelos estadísticos
puntual y entregada a través de reportes están- multi-variables y el uso de las Online Analitical Pro-
dares. Posteriormente se advierte un notable pro- cessing (OLAP) o procesamiento analítico en línea,
greso con la llegada de los Enterprise Resources caracterizado por herramientas automatizadas
Planning (ERP), los cuales entregaron posibilida- que facilitan la generación de información a través
des de crear reportes ad hoc generados a partir de de proyecciones y posibilidad de realizar pronósti-
la selección que los usuarios hacían de los campos cos con cada vez menores índices de incertidum-
de las bases de datos que eran necesitados y de vi- bre. Estos escenarios son parte de la capacidad
sualizar informes con los datos de interés. Un poco predictiva o analítica predictiva de una organiza-
más adelante tomó protagonismo el uso de los ción.
querys o consultas, utilidad propia de los Sistemas
Manejadores de Bases de Datos (SMBD). Cuando Avanzando en el tiempo, ya en el año 2000, son de-
una entidad usa motores de bases de datos como sarrolladas las capacidades prescriptivas, lo que in-
SQL Server u Oracle, por ejemplo, pueden aprove- fiere el uso de modelos predictivos. Estos incluyen
char las funciones “query” que, sumadas a los re- modelos de optimización e incluyen optimización
portes estándares, ad hoc o alertas ya existentes, estocástica para facilitar los análisis en ambiente
hacen parte de las capacidades descriptivas de un no determinístico, dado los altos niveles de incer-
sistema. Justamente a este modelo de tratamiento tidumbre en las variables a utilizar en los estudios.
de datos se le conoce como analítica descriptiva o Cuando se realiza el análisis prescriptivo no solo se
analítica básica, la cual responde a preguntas tales pronostica qué va a suceder, sino cuál es la mejor
como: ¿qué sucedió?, ¿cuándo sucedió? y ¿cuál fue opción de decisión que debe adoptarse. La analí-
su impacto? Es decir, hablamos del ayer, de los re- tica descriptiva dice qué pasó y por qué paso. La
gistros de lo que ya pasó. analítica predictiva habla de qué puede pasar y la
analítica prescriptiva incluye conocer cuáles pue-
Siguiendo esta línea, por ejemplo, en el contexto den ser las mejores soluciones para atender, pro-
del sistema bancario: una solicitud de préstamo y yectar o mejorar lo que va a suceder. En la analítica
los responsables de la aprobación hacen el análisis prescriptiva se usan herramientas de mayor com-
del historial crediticio del solicitante. Cuando se es- plejidad como los análisis semánticos, análisis de
tudia en diferentes bases de datos cuál ha sido el redes sociales y restricciones sobre los análisis. Es-
comportamiento de pago de la persona requirente tas funciones de estudio son utilizadas por los ana-
se está haciendo analítica descriptiva. listas y científicos de datos para determinar cuáles
insumos y data pueden ser utilizadas para hacer
más viable una certera prescripción.

14
Unidad 1. Analítica de datos y big data

Al observar el pronóstico del clima este predice el com-


portamiento con base en variables climatológicas que se
acopian y comparan. Cuando se habla de prescripción se
dice qué va a suceder y qué es lo mejor. Un ejemplo claro
de este tipo de análisis es la aplicación social “Waze”, que
es usada a diario por miles de personas para movilizarse
en las ciudades, puesto que permite conocer en tiempo
real qué va a suceder en una ruta, además indica cuál es
la mejor. Este es un caso de capacidades prescriptivas.

Todas las entidades dependiendo de su tamaño y ante


todo de su decisión pueden seguir usando sus capacida-
des descriptivas y potenciar las predictivas y prescriptivas.

15
6. Los datos y sus formatos
de representación
Unidad 1. Analítica de datos y big data

En la Figura 3, se pueden observar los sistemas de información que luego de los años 90 em-
pezaron a ser instalados en las organizaciones. Estuvieron y están caracterizados por el uso de
Sistemas de Bases de Datos Relacionales (RDBMS) y bodegas de datos (Data warehouse). Las
grandes compañías han llegado incluso a tener bases de datos con varios Terabytes en su capa-
cidad de almacenamiento. Llegado el año 2000, el aumento del contenido digital se hace aún
mayor, ya que proliferan millones de archivos propios de la ofimática, tales como procesadores
de texto, hojas electrónicas, herramientas de presentación, PDF, etc.

Figura 3.
Recorrido de análisis de datos.
Recorrido de
análisis de datos

Medios en Medios en Medios en


TERABYTES PETABYTES EXABYTRES
VOLUMEN DE INFORMACIÓN

1 TB - 1000 GB 1 PB - 1000 TB 1 XB - 1000 PB

1990 S 2000S 2010S

( RDBMS & DATA ( AMPILIOS Y DIVERSOS ( MILLONES DE


WAREHOSE) CONTENIDOS DIGITALES) ARCHIVOS NOSQL)

Fuente: elaboración propia.

Algunas organizaciones, dadas sus operaciones y nivel de automatización, escalan aún más sus
capacidades de almacenamiento y ya son varios los Petabytes requeridos. A partir del 2010, con la
aparición y masificación de las redes sociales (Facebook, Twitter, YouTube, LinkedIn y WhatsApp,
entre otros), varias compañías han crecido de maneras ostensibles las cantidades de datos que ad-
ministran, siendo relevantes para ellas apelar a capacidades de almacenamiento mucho mayores,
en ellas el término de exabytes ya es de común uso

17
.

7. Tipos de datos que tienen


las organizaciones
Unidad 1. Analítica de datos y big data

Desde que inició la era computacional a media- Para el 2025 hay una estimación de que se crearán
dos del siglo pasado y particularmente después 463 hexabytes en todo el mundo, eso es como si se
de la Segunda Guerra Mundial, el proceso de cre- grabara más o menos 212 millones de Dvd’s por día.
cimiento y desarrollo en computadores y en ser- Es decir, es muchísima la información disponible.
vidores ha sido vertiginoso, así como los proce-
sos de almacenamiento. Si se hace un recorrido Una de las tareas de la analítica y de Big Data es
generacional se puede decir que el inicio fue con preguntar: ¿qué hacer con la información?, ¿cómo
grandes dispositivos de almacenamiento secun- clasificarla?, ¿cómo tratarla? y ¿cómo usufructuarla
dario, luego aparecieron los discos duros, pasan- debidamente?
do por los disquetes, después tomaron prota-
gonismo los CDs, posteriormente las memorias
USB y hoy estamos gozando todos del beneficio
de la computación en la nube llamada cloud
computing, por su expresión en inglés. La multi-
plicación excesiva de los datos acontece porque
el desarrollo tecnológico ha permitido cada vez
mayores capacidades de almacenamiento y pro-
cesamiento para operar la información que está
alojada en esos dispositivos.

La unidad mínima de información es el “bit”, sig-


nifica “paso o no paso de corriente” a través de
un circuito electrónico. Un byte son ocho bits y,
desde allí, empieza una escala de crecimiento
en capacidades que llega a los kilobytes, luego a
los mega bytes, giga bytes, terabytes, petabytes,
los hexabytes, los zetabytes y los yorabytes (ver
Figura 1). Estas grandes cifras para los datos re-
quieren de dispositivos de almacenamiento con
altas condiciones de espacio para albergarlos.
Hablar de big data, de la cual profundizaremos
en la siguiente unidad, es propio de las entida-
des que administran datos por encima de 10 te-
rabytes.

Entre el 2012 y 2015 la capacidad de almacena-


miento se multiplicó por tres. Hoy es un hecho
que la información digital es más del 95% de la
información que existe en el mundo. Ello signifi-
ca que las compañías proveedoras de tecnología
tendrán cada vez mayores retos en construir, ela-
borar y diseñar dispositivos de gran calidad, no
solamente para almacenara datos sino también
para procesarlos.

19
7.1. Tipos de datos
Existen cuatro tipos de datos característicos en las organizaciones: (a) estructurados, (b) semi es-
tructurados, (c) cuasi estructurados y (d) no estructurados. Algunos autores solo clasifican tres tipos,
uniendo el (b) y el (c) en un solo concepto de “semiestructurados” (Ayudaley, s.f.).

Observe la siguiente figura para interpretar, desde la visualidad, cada uno de los tipos de datos:  

Tipos de datos
Figura 4.
Tipos de datos

Datos

Estructurados Semiestructurados No Estructurados

Fuente: tomada de Salesforce blog (2020).

a. Datos estructurados: hacen parte de aquellos archivos y tablas propias de los sistemas de infor-
mación que soportan las operaciones de las organizaciones. Herramientas como los ERPs, CRMs y
otros elementos de administración de datos desarrollados in house o provistos por terceros se crea-
ron usando bases de datos relacionales. Los archivos y tablas que almacenan los datos propios de las
anteriores herramientas son considerados datos estructurados, es decir, filas y columnas donde en
cada celda sólo figura un dato con una configuración específica. Las tablas en Excel o de bases de
datos como Oracle son un ejemplo. La Figura 5, con ciudades del departamento de Cundinamarca
en Colombia, es un ejemplo.

20
Unidad 1. Analítica de datos y big data

Figura 5.
Ejemplo baseTipos
de datos sobre habitantes por población.
de datos
Ejemplo base de datos sobre habitantes por población.

20 Mucipios

Total
Nombre de
Municipio
2018 2019 2020

Soacha 660.179 702.276 753.548

Facatativá 139.441 148.001 155.978

Fusagasugá 138.498 146.556 154.143

Chía 132.181 141.308 149.570

Zipaquirá 130.537 138.654 146.352

Mosquera 130.221 141.171 150.665

Madrid 112.254 120.067 127.138

Girardot 101.018 105.379 109.792

Fuza 93.154 99.387 105.086

Cajicá 82.244 87.866 92.967

Villa de San Diego de Ubaté 42.558 44.802 46.911

Tocancipá 39.996 43.020 45.714

Sibté 33.491 35.102 36.658

La Mesa 32.694 34.465 36.129

Cota 32.691 34.948 36.992

Guaduas 30.524 31.869 33.212

La Calera 29.868 31.432 32.917

Villeta 26.873 27.986 29.128

Sopó 25.782 27.456 28.999

Pacho 24.413 25.046 25.803

Población Municipio Habitantes

Villeta Gualivá 25.270

Gachalá Guavio 5.701

Gachetá Guavio 11.163

Gama Guavio 4.011

Fuente: Tomado de Población en Bogotá Cámara de Comercio de Bogotá ([CCB], s.f.).

21
b. Datos semiestructurados: hacen parte del seg- c. Datos no estructurados: son hoy por hoy más
mento archivos tipo Json y XML. Estos datos utilizan del 90% de los datos que hay en el planeta y que
marcadores para separar sus diferentes elementos. reposan en contenidos digitales. Encontramos allí
Cuando ha tenido la oportunidad de ver el código archivos de audio tipo mp4, Wap, archivos de tex-
fuente que hace parte de una página web, puede to, PDF, archivos de imágenes, videos, mensajes de
ver que entre corchetes hay expresiones estructu- correo, mensajes de WhatsApp, entre otros. Gene-
radas (tablas) y no estructuradas (textos y mensa- ralmente se almacenan como diferentes tipos de
jes). Esta combinación genera la característica de archivos y puede advertirse en las extensiones que
“datos semiestructurados”. La siguiente figura es utilizan en los nombres. Este segmento es el gran
un ejemplo de este tipo de datos. desafío de la Inteligencia Artificial (IA), ya que es-
tos formatos deberán ser convertidos a modelos
estructurados para poder presentar información
Figura 6. fácilmente consolidada y entendible para el usua-
Ejemplos de datos semiestructurados rio final. Un ejemplo claro es cuando se identifican
tendencias en Twitter combinado con otras redes
sociales, ya que software y maquinas con gran po-
[ der de procesamiento deben barrer archivos de
Marcadores”:[ diferentes tipos, originados en diferentes redes
sociales para determinar cuál es la palabra o frase
[ que se hace tendencia en un país o en el mundo.
“Latitude”: 40.416875
“longitude”: - 3.703308
],
[ “latitude”: 40.41738,
“longitude”: -3.693363
“description”: “Paseo de prado”
],
[
“latitude”: 40.407015,
“longitude”: -3.691163,
“city”: “Madrid”
“description”: “Estación de Atocha”
]
[ [

Ejemplo de datos semiestructruados


Fuente: Calvo, D. (2017)

22
Unidad 1. Analítica de datos y big data

Figura 7.
Ejemplos de datos no estructurados

Ejemplos de datos
no estructurados

Redes sociales Tipos de formatos no estructurados


Fuente: tomado de Ramonramon.org (s.f.).

23
8. Minería de datos
big data
Unidad 1. Analítica de datos y big data

Estas tres disciplinas tienen bastante en común,


pueden complementarse entre ellas. No obstante, 8.1.1. Beneficios de usar
hay notables diferencias en los conceptos a partir data mining
del alcance que cada una tiene y las herramientas
tecnológicas con las que son llevadas a cabo. Vea-
mos cada una por separado. a. Coadyuva con los objetivos de ahorro de
costos de la organización.

8.1 Data mining b. Dados los análisis, promueve mejores


usos del tiempo aplicados en los procesos
empresariales al identificar fugas y pérdidas
La minería de datos o data mining, en inglés, hace
de tiempo de poca o ninguna justificación.
referencia a un proceso para identificar informa-
ción clave en grandes conjuntos de datos procu- c. Facilita la gestión y organización de la
rando siempre hacerlo de la manera más automá- información de una empresa.
tica que sea posible. La minería de datos busca
encontrar patrones comunes, tendencias o reglas d. Pueden advertirse situaciones adversas o
que permitan entender el comportamiento de los de alta presión para la empresa en el futuro
datos bajo un análisis particular que sea estudiado. próximo.
Lograr identificar patrones sería, en condiciones
normales, muy complejo dada la gran cantidad de e. Promueve y facilita la toma de decisiones
datos que son analizados. Para ello se crean mo- estratégicas basadas en datos ciertos.
delos matemáticos para deducir tales tendencias.
f. Permite el conocimiento y perfilamiento de
Sirve para estudiar hechos o situaciones pasadas,
los clientes a través del análisis de sus gustos y
también puede ser predictiva cuando se usan es- comportamientos facilitando el crecimiento
tadísticas y probabilidades de información que de las ventas a partir del buen tratamiento e
figura oculta en datos almacenados. Un ejemplo identificación de sus necesidades.
es detectar los movimientos inusuales de cuentas
bancarias desde diferentes ciudades, usuarios o
sucursales que podrían ser el anuncio de un fraude
financiero por lavado de activos.

La minería de datos ofrece un vasto ejemplo de


aplicación de las matemáticas y la estadística que
alguna vez estudiamos. Sin el ánimo de profundi-
zar en estas aplicaciones, es común escuchar para
la aplicación de modelos de data mining estructu-
ras de análisis tales como selección de variables, ár-
boles de decisión, regresiones lineales y logísticas,
series temporales, modelos heurísticos, entre otros.

25
8.2. Business Intelligence (BI) 8.2.1. Tipos de BI

El BI o inteligencia de negocios es un conjunto de Dependiendo de quién los use podemos clasificar-


aplicaciones y diversas herramientas que permi- los de la siguiente manera:
ten administrar y crear conocimiento para mejorar
y optimizar las decisiones empresariales y el ren- a. Operativo: relacionado con las rutinas diarias,
dimiento de las operaciones asociadas. Hasta ahí caracteriza la información al ser oportuna,
resulta similar al data mining, solo que usa otros exacta y adecuada.
conceptos para la obtención y consolidación de la
b. Táctico: es usado por el nivel medio de
información como el multidimensionamiento de
la organización utilizando software sin
las fuentes de datos, el uso de datawarehouses y
participación de terceros.
un despliegue de información al usuario con mejo-
res recursos, que los hace amigable y comprensible c. Estratégico: permite monitorear tendencias,
para los análisis. Revisemos los componentes del BI patrones y objetivos. Usado generalmente por
o inteligencia de negocios. la alta dirección. Permite el uso del modelo de
Balanced Score Card.
a. Multidimensionalidad: implica que se
tienen diversas fuentes de datos.

b. Data mining: para evaluar tendencias


nuevas, comportamientos o cambios de
los datos y, en consecuencia, quiénes los
generan.

c. Agentes: este es un software que analiza


datos sin necesidad del raciocinio de las
personas.

d. Datawarehouse: son bodegas de datos


que se especializan en almacenar datos con
características comunes y esto facilita la
descentralización en la toma de decisiones.
En cada área o proceso de la organización
se hará lo que corresponda dependiendo del
datawarehouse manejado.
26
Unidad 1. Analítica de datos y big data

Figura 8.
Inteligencia de Negocio (BI)
Inteligencia de Negocio

Almacenamiento
de datos

La modernización del
Descubrimiento y
almacenamiento de datos
visualización de datos

Inteligencia
de Negocio

Integración de Datos maestros y


datos gestión de la
calidad de los datos

Autoservicio
Fuente: Google – Product School (s.f).

27
8.2.2. Formas de presentar BI

a. Score cards y tableros de control: los


empleados pueden visualizar la información
oportuna de sus actividades diarias. En esta
forma se tiene una visión instantánea del
negocio. Puede accederse a esta información
desde cualquier parte o medio digital
dispuesto como celulares, tabletas o laptops.

b. Enterprise reporting: estas revisiones


corporativas muestran la información en
formatos para realizar los resultados de las
operaciones diarias.

c. Análisis OLAP: con estas herramientas


el ejecutivo accede a sus Datawarehouses.
Permite análisis avanzados para usuarios con
poder de decisión.

d. Alertas y envíos proactivos: esta opción


permite a BI distribuir informes y alertas a la
comunidad interna y externa según como se
haya parametrizado la herramienta utilizada.

8.2.3 Beneficios del Business Intelligence

1. Crear bases de datos de clientes con perfiles específi-


cos de los mismos.

2. Elaborar pronósticos de ventas que faciliten las deci-


siones de compras de insumos y de planes de produc-
ción.

3. Efectuar análisis multidimensionales donde los sitios


físicos, el tiempo y otras características de productos
o cliente pueden ser incorporadas como variables de
análisis.

4. Generar y procesar datos que sean relevantes para la


organización.

5. Mejorar el servicio al cliente dado el conocimiento


particular y detallado que puede hacerse de él.

28
9. Big data
Este término, que es eje de la unidad que le moti-
va a estudiar en este momento, es una expresión
que hace referencia a grandes volúmenes de datos
estructurados y no estructurados que se crean y
llegan en todas las empresas. Ciertamente la can-
tidad de datos no es lo importante, lo es la reflexión
de lo que las organizaciones hacen con los datos.
Big data se utiliza para analizar datos claves que
promueven las mejores decisiones estratégicas de
negocios.

El término big data tiene que ver con datos que


son tan grandes, tan diferentes sus formatos, tan
rápidos o complejos que no es posible procesarlos
con los métodos tradicionales. El cómo acceder y
almacenar grandes cantidades de información ha
sido un desafío y búsqueda de las personas estu-
diosas tecnológicas desde hace décadas. Hoy big
data dispone de infraestructura.

9.1. Las 5vs de big data

Desde febrero de 2001, la industria de las


tecnologías de la información empieza a traba-
jar con el modelo de las 3Vs relacionadas con big
data para indicar volumen, velocidad y variedad.
Esto para afirmar que si una compañía cumplía
con estas tres variables era factible que necesitara
big data. Desde entonces ha iniciado un proceso
de crecimiento donde posteriormente se le coloca
una “v” adicional, hasta llegar al que hoy está revi-
sando, las 5 Vs: volumen, variedad, velocidad, vera-
cidad y valor. Detengámonos a analizar cada una
de las características que haría viable un proyecto
de big data o al menos lo justificaría.

30
Unidad 1. Analítica de datos y big data

Figura 9.
Características de viabilidad para un
proyecto big data.

Las 5 Vs del Big Data


Características

Volumen Variedad Velocidad Veracidad Valor

Gran cantidad Diferentes Flujos de datos Fuentes Alto impacto


de datos (> 10 fuentes y tipos de continios confiales. para la
Terabytes) datos. (streaming) y Calidad del dato organización.
Datos procesamiento de recibido, Generar
estructurados, datos en los lotes reputación conocimiento
semienstructurad (batch) y en comprobada. través de
os, y no tiempo real. Integridad de técnicas
estructurados. dato. predictivas

Fuente: creada a partir de la gráfica de Researchgate (2017).

a. Volumen: como una empresa que tiene De esta manera, los sistemas de información
gran cantidad de datos, llámese terabytes y los motores de bases de datos pueden
y en algunos casos podríamos hablar administrar fácilmente esta información.
de que su volumen de datos está por Ahora, cuando las fuentes de datos se
un número superior a los diez terabytes. vuelven diversas y no son solo estructuradas
Podría considerarse que la compañía sino también semiestructuradas y no
necesita hacer big data para mantener y estructuradas se estaría hablando de
asegurar sus registros, sus transacciones y escenarios de variedad. ¿Por qué de variedad?,
mantener adecuadamente almacenados y la respuesta está en que los datos llegan, por
administrados sus tablas y archivos referente ejemplo, en formatos de datos frecuentes
al volumen por la gran cantidad de datos. como formatos de video, fotografía, audio,
chats, mensajería electrónica, etc. Estos
b. Variedad: se relaciona con la característica datos son no estructurados. Si una entidad
de diferentes fuentes y tipos de datos, tiene gran variedad de fuentes de datos
¿qué significa? Que una organización para ser procesadas cumpliría con esta “v” y
normalmente tiene datos estructurados, pero, justificaría hacer big data.
¿estos datos dónde están? Se encuentran en
las tablas que hacen parte de los sistemas de
información automatizados de las empresas,
es semejante a tener hojas electrónicas en
Excel que se manejan con filas y columnas.

31
c. Velocidad: está relacionada con la En resumen, si una entidad cumple con las carac-
característica del flujo de datos. Cuando terísticas de las 5 Vs es necesario implementar big
una entidad u organización cualquiera data.
se caracteriza por tener un flujo de datos
continuo (streaming), más allá de los flujos Existen propuestas de autores sobre la inclusión
de datos por lotes o en batch convencionales,
de otras “v”, se revisarán brevemente. Por ejemplo,
entonces cumple con la “v” de velocidad. Hoy
han incluido la “v” de viscosidad para los datos de
es usual que las compañías reciban datos
en línea y en tiempo real desde sensores o un proyecto de big data que se interrelacionan en-
dispositivos emisores que están en celulares tre sí. Otra es la viabilidad, la cual implica que esa
o en sensores de internet de las cosas data que llega a la organización debe ser viable en
(IoT), ubicadas en oficinas y en carreteras, la medida en que se deje filtrar adecuadamente
por ejemplo. Tal streaming de datos para determinar que esos datos limpios sí permi-
permanente exige que la compañía haga un ten llegar a resultados confiables. Por último, está
procesamiento oportuno y adecuado de esa la “v” de la visualización, esa data tratada y mane-
gran cantidad de datos. Así se cumpliría con jada debe ser legible y muy clara para el usuario
la característica asociada a la velocidad. que la está utilizando y permitirle tomar las mejo-
res decisiones de forma oportuna.
d. Veracidad: significa que la empresa,
además de otras características, requiere
datos de alta calidad cuyo origen y reputación 9.2. Un ejemplo para entender
de la fuente que los emite sea el mejor, así
como una alta responsabilidad e integridad
las diferencias
del dato, que no haya lugar a duda ni tenga
altas incertidumbres. Los tres conceptos de minería de datos, Business
Intelligence y big data no son excluyentes, más
e. Valor: implica que el dato tiene repercusión bien son complementarios. Todo depende del pro-
y alto relieve para la organización, razón pósito que se tenga, de los recursos disponibles y
por la que debe tener especial cuidado. de los tiempos que dispongamos para hacer di-
Además, extraer la información para volverla chos análisis.
conocimiento a través de técnicas predictivas
que permitan garantizar que el dato para la
organización ocupa un lugar estratégico.

32
Unidad 1. Analítica de datos y big data

Figura 10.
Diferencias en el análisis de datos.

Diferencias en el análisis de datos.

Mineria de Business
Big data
datos intelligence

Común
Analisis de datos

Enfocar factores y Organizar y tranformar Todo lo anterior


Diferente patrones comunes la información para
y diferentes facilitar la toma de - Variedad
decisiones - Velocidad
- Volumen

Datos Datos Datos estructurados


estructurados estructurados y no estructurados

Enfocar factores y Cálculo del mol de Analisis de la demanda


patrones comunes y peliculas y tipos que para negociación con
diferentes debe tener en oferta productores de
Ejemplo peliculas o creación de
Netflix nuevas peliculas

Fuente: elaboración propia basada en “Tipos de datos”


del Instituto Empresa Digital (s.f.).

Siguiendo la Figura 10, se hace minería de datos cuando se busca encontrar patrones comunes y
diferentes en conjuntos de datos, es decir, cuando pretendemos identificar tendencias, cifras recu-
rrentes y atípicas dentro de los archivos objeto de estudio. La minería de datos facilita los procesos
de búsqueda y la posibilidad de descender cada vez más en los análisis, encontrando conclusiones
en el menor tiempo posible. Por ejemplo, si hablásemos de empresas como Netflix, Amazon prime
o Disney, esas empresas requieren saber de todos sus usuarios o suscriptores cuáles son los tipos de
películas que más son consumidas y esto pueden hacerlo por países, ciudades o zonas.

33
Conocer qué películas y en qué horarios son des-
cargadas es posible con ejercicios de minería de
datos.

Cuando la pretensión de estas empresas es cono-


cer las temáticas que más gustan a los usuarios, los
tipos de series, horarios preferidos y tiempos que
permanecen frente a la pantalla podrían entonces
inferir el mix o combinación de películas que más
satisfaría el gusto de sus clientes y así determinar
las parrillas o programaciones óptimas; en este
caso está haciendo uso de business intelligence.

Cuando las empresas con el objetivo de ampliar sus


mercados deciden identificar cuáles son las temá-
ticas que más podrían impactar a los usuarios de
los países por razones de historia de sus naciones,
conocimiento de personajes altamente reconoci-
dos o hechos que hayan marcado al país, pueden
decidir entonces seleccionar temas, encontrar pro-
ductores locales y generar planes de creación de
películas para esos target específicos. Hacer estos
análisis implica estudiar miles de registros de las
historias de cada país, esto conlleva a administrar
grandes y variados volúmenes de información para
determinar los perfiles de temáticas que garanti-
cen el éxito de las nuevas producciones locales.
Ante esta situación, se hace necesario el uso de he-
rramientas de software y hardware de gran poder
de procesamiento. Así se constituye este ejemplo
en un escenario típico de aplicación de big data.

Es claro, entonces, que en los tres casos se hacen


análisis de datos, tanto en minería como en BI son
utilizados datos estructurados, mientras que en
big data se incluyen también los no estructurados,
dado que para estos análisis de mayor complejidad
una empresa como Netflix, por ejemplo, necesita
analizar diversas fuentes de datos que figuran en
formatos de video, audio y diferentes redes sociales
para identificar y reconocer temas afines que pue-
dan gustarle a la población objetivo.

34
10. Importancia de los
proyectos de big data
para las entidades del
Estado
El big data resulta útil para las entidades al posibili- d. Nuevos servicios. Con la capacidad de
tar respuestas a preguntas que ellas mismas desco- medir las necesidades de los ciudadanos y la
nocen. Hay muchos datos disponibles que requieren satisfacción a través de análisis de los datos
ser tratados y/o depurados para facilitar su análisis. producto del seguimiento a los datos que son
retroalimentados, la entidad puede gestar
Las empresas pueden identificar los problemas de
nuevos modelos operacionales de mayor
manera más comprensible y tener en los datos in-
impacto y satisfacción a clientes internos y
sumos para calcular adecuadamente los caminos de externos.
solución (PowerData, s.f.).

El análisis de big data ayuda a las organizaciones a re- 10.2. Roles para un proyecto de
conocer la importancia de los datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, con- big data en la entidad
duce a decisiones más inteligentes, operaciones más
eficientes, mayor balance en los resultados y ciuda- A continuación, se describen los roles importan-
danos y clientes mucho más satisfechos (PowerData, tes para desarrollar un proyecto de big data. Estos
s.f.). roles son claves, pero podrían eventualmente su-
marse otras funciones diferentes de la empresa,
Así mismo, ayuda a las organizaciones a aprovechar dependiendo del proyecto que se va a desarrollar.
sus datos y utilizarlos para identificar nuevas oportu- Hacen parte de este equipo inicial: el usuario del
nidades aproximándolas a movimientos de negocios negocio, el patrocinador o sponsor del proyecto, el
más inteligentes, operaciones más eficientes, mayo- gerente de proyecto o project manager, el analis-
res ganancias y clientes más satisfechos con sus pro- ta de inteligencia de negocios, el administrador de
ductos y servicios (PowerData, s.f.). base de datos, el ingeniero de datos y el científico
de datos.
10.1. ¿Cómo ganar valor para las
entidades a partir de big data?
a. Reducción de costos en la entidad. Analizar
en detalle el origen de los costos, sobrecargas
en los procedimientos, duplicaciones de
funciones, tiempos de aplicación a las
actividades, entre otras. Este análisis permite
identificar las causas o raíces de sobrecostos
en las operaciones.

b. Rápida toma de decisiones. La entidad


puede analizar la información inmediatamente
y tomar decisiones basadas en lecciones
aprendidas basadas en datos.

c. Renovación de servicios. Determinar los


tiempos de uso y fallas en los servicios es posible
a través de la analítica de datos en cualquiera
de sus presentaciones.

36
Unidad 1. Analítica de datos y big data

Figura 11.
Descripción de roles y formas de participación
en el proyecto. en el análisis de datos.
Diferencias

Participador (sponsor) Gerente del proyecto Analisista de Business


Usuarios del negocio
del proyecto(coloca los (Project manager) intelligence.
(Conocedor del
resultados necesarios) (Vela por el Crea tableros
proceso)
cumplimeinto) (dashboards)

Administrador de Base
Ingeniero de Datos Cientifico de Datos
de Datos (DBA)
Crea consultas a la (Aplica Analitica en
(Configura ambiente de
base de datos modelamiento de datos)
base de datos)

Fuente: Elaboración propia.

10.2.1. Usuario del negocio 10.2.2. Patrocinador del proyecto o


project sponsor
El usuario de negocio es una persona que domina
y conoce los beneficios de los resultados del pro- El patrocinador es responsable de crear las bases
yecto. Este rol se comporta como un consultor o para el proyecto. Ofrece los elementos o requeri-
un consejero del equipo del proyecto para darle mientos que son necesarios para el proyecto, tiene
contexto en el alcance y beneficios requeridos. En- claro cuál es el problema para solucionar y en con-
trega datos e información significativos para la ela- secuencia qué recursos e insumos se necesitan.
boración del trabajo. Este usuario de negocio tiene Generalmente provee a su equipo de trabajo los
muy claro cómo va a operacionalizarse el proyecto elementos necesarios para su desarrollo. El spon-
una vez se culmine. Normalmente se puede com- sor define un conjunto de prioridades que son im-
portar como el líder del proyecto, ya que tiene un portantes transmitirlas al equipo de trabajo.
conocimiento profundo sobre los detalles propios
del trabajo de big data que va a ser desarrollado.

37
10.2.3. Project manager o gerente 10.2.6. Ingeniero de datos
de proyecto El ingeniero de datos tiene experiencia y habili-
dades para crear consultas a las bases de datos a
El gerente de proyecto asegura esencialmente que través de “querys”, utilizando las herramientas tec-
se cumplan los objetivos en el tiempo y en la cali- nológicas disponibles. Tiene la capacidad de hacer
dad que se espera. extracción de datos. Apoya el soporte necesario
cuando se trata de hacer ingesta de datos de las
10.2.4. Business intelligent analyst o diferentes fuentes que se tienen identificadas.

analista de inteligencia de negocio


10.2.7. Científico de datos o data
Este analista tiene experticia en entender los da-
scientist
tos. Este rol tiene claro cuáles son los indicadores
claves del proyecto, cuáles son las métricas más El científico de datos tiene experiencia en técnicas
importantes y cuáles los reportes de inteligencia analíticas en modelamiento de datos y las aplica
de negocios (BI) que son requeridos. El analista de para solucionar problemas del negocio. Asegura
inteligencia de negocios suele crear los dashboard que los objetivos se cumplan para efectos de los
o tableros que permiten mostrar los reportes de re- datos que son requeridos. Diseña y ejecuta mé-
sultados a través de graficas que exhiben el com- todos analíticos que quedan disponibles para el
portamiento de los datos y las fuentes de donde equipo del proyecto.
son obtenidas.
Con esto se completan estos siete roles fundamen-
10.2.5. Administrador de la base de tales para iniciar un proyecto de analítica que lleve
a configurar big data en las entidades.
datos o data base administrator
(DBA) Los conceptos de transformación digital que hoy
están inundando el mundo también tienen espe-
El DBA provee y configura el ambiente de base de cial interés para el contexto de Colombia y, es por
datos y soporta todos los análisis que son necesa- esto, que las entidades del sector público deben
rios para el equipo de trabajo con respecto a las ba- conocer y acercarse a los conceptos más impor-
ses de datos que se van a utilizar. Es responsable de tantes de Big Data y todas las terminologías rela-
la seguridad de las bases de datos y de identificar cionada con ellos. Por ejemplo, conocer conceptos
las tablas que se requieren y los niveles de acceso relacionados con analítica, business inteligent, Da-
necesarios para proteger los repositorios de datos. tawarehouse y minería de datos, puesto que son
determinantes para entender las nuevas tecnolo-
gías y las premisas y estructuras que las confor-
man. Se deriva consecuentemente de ello el poder
inferir cuál podría ser la mejor manera de utilizarlas
para favorecer la efectividad, oportunidad y segu-
ridad de los proyectos en curso o futuros que em-
prenderán las entidades del Estado.

38
Glosario
Algoritmo: es una secuencia lógica, finita y con
instrucciones que forman una fórmula matemá-
tica o estadística para realizar el análisis de datos.
(Big Data Social, s.f.)

Análisis predictivo (AP): el análisis predictivo


pertenece al área de la Analítica Empresarial y
trata de utilizar los datos para determinar qué
puede pasar en el futuro. La AP permite deter-
minar la probabilidad asociada a eventos futuros
a partir del análisis de la información disponible
(presente y pasada). También permite descubrir
relaciones entre los datos que normalmente no
es detectada con un análisis menos sofisticado.
Técnicas como la minería de datos (data mining)
y los modelos predictivos son utilizados. (IPMO-
GUIDE, s.f.)

Análisis Empresarial (AE): la Analítica Empresa-


rial comprende los métodos y las técnicas que
se utilizan para recopilar, analizar e investigar el
conjunto de datos de una organización, lo cual
genera conocimiento que se transforma en opor-
tunidades de negocio y mejora la estrategia em-
presarial. AE permite una mejora en la toma de
decisiones ya que éstas se basan en la obtención
de datos reales y tiempo real y permite conseguir
objetivos empresariales a partir del análisis de es-
tos datos. (IPMOGUIDE, s.f.)

Analytics: es la forma de capturar informaciones,


procesarlas y analizarlas para que se conviertan
en insights. (InfoMarketing.pe, s.f.)
Business Inteligence (BI): es el método que trans-
forma informaciones almacenadas y analizadas
en datos que son estratégicos para una empresa
y que se convierten en ganancia para el negocio.
(InfoMarketing.pe, s.f.)
Big data: es la expresión utilizada para designar un Data mining: es el proceso previo al analytics, es
conjunto de datos tan grande que es difícil traba- la minería de los datos, la forma de descubrir infor-
jar con los medios habituales (bases de datos). Se maciones relevantes. (Fsisorg, s.f.)
suele decir que el big data responde a las cinco V:
volumen de datos importante, variedad de datos, Ciencia de datos (data science): la oportunidad
velocidad a la que llegan, valor de los datos y vera- que los datos ofrecen para generar nuevo conoci-
cidad de los datos. (Big Data Social, s.f.) miento requiere de técnicas sofisticadas de prepa-
ración de estos datos (estructuración) y análisis de
Business Analytics (Analítica Empresarial): la los mismos. Así en Internet, sistemas de recomen-
Analítica Empresarial o Business Analytics permite dación, traducción automática y otros sistemas de
conseguir los objetivos empresariales, a partir del Inteligencia Artificial se basan en técnicas de data
análisis de datos. Básicamente permite detectar science. (Big Data Social, Tendencias de Marketing
tendencias y realizar pronósticos a partir de mode- Digital (s.f.)
los predictivos y utilizar estos modelos para optimi-
zar los procesos de negocio. (Intelligent, 2019) Data scientist: El data scientist es un experto en la
ciencia de datos (data science). Su trabajo se cen-
Business Inteligence (Inteligencia de Negocio): tra en extraer conocimiento a partir de grandes vo-
la Inteligencia Empresarial (IE) se centra en el uso lúmenes de datos (Big Data) extraídos de diversas
de los datos de una empresa para facilitar también fuentes y múltiples formatos para dar respuesta a
la toma de decisiones y anticipar acciones empre- las cuestiones que se planteen. (Inlab, s.f.)
sariales. La diferencia con la AE es que la IE es un
concepto más amplio, no solo se centra en el aná- Datos estructurados y no estructurados: Los da-
lisis de datos, sino que este es un área dentro de la tos estructurados tienen una organización lógica,
IE. Es decir, la IE se trata de un conjunto de estra- pero con posibilidades pequeñas de extracción de
tegias, aplicaciones, datos, tecnología y arquitectu- informaciones para el Big Data. Los no estructu-
ra técnica entre las que se encuentra la AE; y todo rados son desorganizados, como los mensajes en
ello, enfocado a la creación de nuevo conocimiento emails y redes sociales, pero permiten una gran
a través de los datos existentes de la empresa. (In- posibilidad de extracción de insights comerciales.
telligent, 2017) (InfoMarketing.pe, s.f.)

Customer relationship management (CRM): sis- Enterprise Resource Planning (ERP): son siste-
tema de Información que permite la administra- mas de información que integran y manejan mu-
ción o gestión con los clientes. Un modelo de ges- chos de los negocios asociados con las operaciones
tión de toda la organización. El ciclo de vida de los de producción y de los aspectos de distribución de
negocios con los clientes puede ser seguido y eva- una compañía en la producción de bienes o ser-
luado a través de esta herramienta. vicios. SAP, People Soft, JDEdwards son algunos
ejemplos de ello.
Data cleansing: es el método que mantiene los
bancos de datos libres de informaciones inconsis- Los sistemas de planificación de recursos empre-
tentes o irrelevantes. (Fsisorg, s.f.) sariales son los sistemas de información gerencia-
les que integran y manejan muchos de los nego-
Data lake: es un lago de datos en el cual se alma- cios asociados con las operaciones de producción
cenan informaciones en su estado natural y en y de los aspectos de distribución de una compañía
gran volumen, es allí donde el Data Scientist debe en la producción de bienes o servicios. (Mercado,
sumergirse para encontrar sus principales insights. 2007)

40
Exabyte (EB): unidad de datos equivalente a 103
(1.024) petabytes o 1018 bytes.

Gigabyte (EB): unidad de datos equivalente a 103


(1.024) Megabytes o 109 bytes.

Geomarketing: el análisis conjunto de datos de-


mográficos, económicos y geográficos que posi-
bilita estudios de mercado para rentabilizar las
estrategias de marketing se puede llevar a cabo
a través del geomarketing, una confluencia en-
tre geografía y marketing. Se trata de un sistema
integrado de información —datos de diversa ín-
dole—, métodos estadísticos y representaciones
gráficas orientados a dar respuestas a cuestiones
de marketing de forma rápida y sencilla. (Itelli-
gent, s.f.)

Hadoop: framework de aplicaciones distribuidas


de Java de código abierto, destinado a procesar
volúmenes de datos de varios petabytes y con
miles de nodos. (Big Data Social, s.f.)

Inteligencia artificial: en computación se trata


de programas o bots diseñados para realizar de-
terminadas operaciones que se consideran pro-
pias de la inteligencia humana. Se trata de hacer
que estos sean tan inteligentes como un huma-
no. La idea es que perciban su entorno y actúen
con base a ello, centrado en el auto-aprendizaje y
sean capaces de reaccionar ante nuevas situacio-
nes. (Big Data Social, s.f.)

Internet of Things (IoT): concepto creado por Ke-


vin Ashton y hace referencia al ecosistema en el
que los objetos cotidianos están interconectados
a través de Internet. (IPMOGUIDE, s.f.)

JavaScript Object Notation (Json): formato de


texto sencillo del lenguaje usado para desarrollo
de páginas web. para el intercambio de datos. Es
característico su rendimiento cuando se mane-
jan volúmenes de datos (Next_U. JSON, s.f.).

In house: desarrollos de software hechos por las


mismas empresas que los necesitan.
Aprendizaje automático (Machine learning): este Small Data: mucho más pequeño que el Big Data,
término hace referencia a la creación de sistemas a se refiere al análisis que se hace con pocas fuentes
través de la inteligencia artificial, donde lo que real- de datos.
mente aprende es un algoritmo, el cual supervisa
los datos con la intención de poder predecir com- SQL/noSQL: el Structured Query Language es el
portamientos futuros. (Big Data Social, s.f.) lenguaje informático más utilizado para estructu-
rar bases de datos y realizar consultas para extraer
MapReduce: tecnología de acceso y procesado dis- la información. Estos últimos años ha aparecido un
tribuido de los datos que permite realizar cálculos nuevo sistema de bases de datos «noSQL», que se
en paralelo adecuado para el tratamiento de ba- distingue por tener una mayor flexibilidad de las
ses de datos de gran tamaño. Accede a los datos bases de datos y una arquitectura de cluster. (Big
mediante el procesado de los datos en cada nodo Data Social, s.f.)
(Map) y la unificación de estos datos procesados de
los diferentes nodos (Reduce) (Big Data-Social, s.f. XML (Extensible Markup Language): es un meta-
). lenguaje que permite definir lenguajes de marcas
Predictive analytics: el análisis predictivo es la uti- utilizado en la Web para almacenar datos en forma
lización de datos para predecir tendencias o even- legible. (Lenguajes de marcas, 2018)
tos futuros.

Procesamiento del Lenguaje Natural (PLN): del


procesamiento conjunto de la ciencia computacio-
nal y la lingüística aplicada nace el Procesamiento
de Lenguaje Natural (PLN o NLP en inglés), cuyo
objetivo no es otro que el de hacer posible la com-
presión y procesamiento asistidos por ordenador
de información expresada en lenguaje humano, o
lo que es lo mismo, hacer posible la comunicación
entre personas y máquinas. (Intelligent, 2021)

Producto Matching: es un área perteneciente a


Data Matching o Record Linkage encargada de
identificar automáticamente aquellas ofertas, pro-
ductos o entidades en general, que aparecen en
la web procedente de diversas fuentes, aparente-
mente de forma distinta e independiente, pero que
hacen referencia a una misma entidad real. (Big
Data Social, s.f.)

Ramsonware: Un ransomware (del inglés ransom,


‘rescate’, y ware, acortamiento de software) o ‘se-
cuestro de datos’ en español, es un tipo de progra-
ma dañino que restringe el acceso a determinadas
partes o archivos del sistema operativo infectado y
pide un rescate a cambio de quitar esta restricción.
(Wikipedia, s.f.)

42
Unidad 1. Analítica de datos y big data

Bibliografía
Aguilar Omar. (2019). Analítica predictiva y el Fsisorg. (s.f.). Términos. Hipervínculo: https://sites.
big data. Universidad Santiago de Chile. Hi- google.com/site/fsisorg/wiki/big-data-huanca-hi-
pervínculo: https://www.researchgate.net/ lachoque-vanessa-monica
publication/332278423_ LA _ ANALITICA _ PRE-
DICTIVA_Y_EL_BIG_DATA_EL_PODER_DE_PRE- Inflab (s.f). ¿Qué es un Data Scientist?. 2020 Hiper-
DECIR_LAS_FALLAS_EN_EL _MANTENIMIENTO_ vínculo: https://inlab.fib.upc.edu/es/blog/que-es-
INTEGRAL_MINERO un-data-scientist.

Ayuda Ley. (s.f.). Diferencias entre datos estructura- Instituto Empresa Digital (s.f). Las claves del Big
dos y no estructurados. Data. 2019. Kaloyan Stoyanov Georgiev. Hipervíncu-
lo: https://institutoempresadigital.com/las-claves-
Hipervínculo: https://ayudaleyprotecciondatos.es/ del-big-data/
bases-de-datos/diferencias-entre-datos-estruc-
turados-y-no-estructurados/#:%7E:text=Los%20 Intelnaes. (s.f.). Evolución del análisis de datos Hi-
datos%20estructurados%20est%C3%A1n%20alta- pervínculo: https://corporacionintelnaes.com.ec/
mente,de%20recopilar%2C%20procesar%20y%20 business-intelligence-analytics/evolucion-anali-
analizar. sis-de-los-datos/
Intelligent. (2021). (22 de marzo de 2021). Procesa-
Big Data Social. (s.f.). Glosario Big Data (A-G). Hi- miento del Lenguaje Natural: tareas y aplicacio-
pervínculo: http://www.bigdata-social.com/glosa- nes.
rio-big-data-a-g/
Hipervínculo: https://itelligent.es/es/procesamien-
Business Coaching School. (2019). Big Data en la to-del-lenguaje-natural-tareas-aplicaciones/
gestión de talent humano. Hipervínculo: https://
www.businesscoachingschool.org/post/big-da- Intelligent. (2019). (20 de marzo de 2019). ¿Qué es
ta-en-la-gesti%C3%B3n-de-talento-humano la Analítica Empresarial? Hipervínculo: https://itelli-
gent.es/es/que-es-analitica-empresarial/
Salesforce blog. (2020). (26 de octubre de 2020).
Data Warehouse y Data Lake: ¿Qué son?. Hipervín- Intelligent. (2017). (04 de octubre de 2017) ¿Qué
culo: https://www.salesforce.com/mx/blog/2020/10/ significa Business Analytics? ¿Qué podemos hacer
data-warehouse-y-data-lake.html con la Analítica Empresarial? Hipervínculo: https://
itelligent.es/es/significado-business-analytics/
Cámara de Comercio de Bogotá. (2018). En Bogo-
tá-región viven más de 10 millones de habitantes. IPMOGUIDE. (s.f.). Análisis predictivo (AP). Glosario
Hipervínculo: https://www.ccb.org.co/observatorio/ de términos. Hipervínculo: https://ipmoguide.com/
Entorno-para-los-negocios/Entorno-para-los-ne- glossary/analisis-predictivo-ap/
gocios/Desarrollo-urbano-y-regional/En-Bogo-
ta-region-viven-mas-de-10-millones-de-habitan- IPMOGUIDE. (s.f.). Analítica empresarial (AE). Glo-
tes sario de términos. Hipervínculo: https://ipmoguide.
com/glossary/analitica-empresarial/

43
Itelligent (s.f.). Cómo funciona un sistema de Geo-
marketing. 2016. ITELLIGENT INFORMATION TECH-
NOLOGIES

KioNetworks (2020). (27 de abril de 2020). Tipos


de analítica de datos, sus aplicaciones y venta-
jas. Hipervínculo: https://www.kionetworks.com/
blog/aplicaciones/tipos-de-analitica-de-da-
tos-sus-aplicaciones-y-ventajas

Mercado, Ricardo. (2007). (11 de junio de 2007). Sis-


temas de información gerencial. ERP. Hipervíncu-
lo: http://rmd5107.blogspot.com/2007/06/erp.html

Next International Business School (2018). (diciem-


bre 13 de 2018). Diez áreas en las que el Big Data
ya está en pleno rendimiento. Hipervínculo: https://
www.nextibs.com/diez-areas-en-las-que-el-big-
data-ya-esta-en-pleno-rendimiento/

Next_U. JSON (s.f.). ¿Qué es y para qué sirve? 2019.


Next UBlog | NextU LATAM

PowerData. (s.f.). Big Data: ¿En qué consiste? Su


importancia, desafíos y gobernabilidad. Hipervín-
culo: https://www.powerdata.es/big-data

Productschool (s.f). BI: Business Intelligence. 2019.


Hipervínculo: https://productschool.com/pro-
duct-glossary/bi-business-intelligence-definition/

Ramonramon (s.f). ¿Qué son las Redes Sociales y


para qué las utilizamos? 2020. Alonso Rodriguez-
Comunicación y Conocimiento Libre

Researchgate (s.f.). 5 Vs of Big Data, diciembre 2017.


Hipervínculo: https://www.researchgate.net/figu-
re/5Vs-of-big-data-10_fig1_325103690

Questionpro. (s.f.). ¿Qué es el análisis de datos? Hi-


pervínculo: https://www.questionpro.com/es/anali-
sis-de-datos.html

World Economic Forum (s.f.) How much data is


generated each day? Hipervínculo: https://www.
weforum.org/agenda/2019/04/how-much-da-
ta-is-generated-each-day-cf4bddf29f/
Unidad 1. Analítica de datos y big data

Material de consulta
Big Data For Dummies 1st Edición. Edición Kindle. Alan
Nugent, Fern Halper, Judith S. Hurwitz, Marcia Kauf-
man, 2018.

Data Science and Big Data Analytics, EMS Education


Services, Primera Edición, 2015.

45

También podría gustarte