Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 4 - Big Data
Clase 4 - Big Data
ii
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
INTRODUCCIÓN AL TEMA
El objetivo del Big Data es facilitar a las Hoy en día podemos encontrar ejemplos del
empresas la obtención de respuestas y la uso del Big Data en las siguientes áreas:
identificación de problemas a partir del análisis registros de logs de TI, para la detección de
de los datos recaudados. Gracias a la infracciones de seguridad entre otras cosas;
recopilación de estos datos, es posible buscar contenido de medios sociales para mejorar los
tendencias en diferentes ámbitos productos, los servicios y la interacción con el
empresariales, lo que permite adelantarse a cliente; detección y prevención de fraudes en
futuros problemas que están por venir o cualquier industria que procese transacciones
prevenir tendencias de los requerimientos de financieras online, tales como compras,
los clientes. actividades bancarias, inversiones y seguros; y
por último, áreas como el turismo, la
Estas ventajas se trasladan directamente a una administración o la publicidad también se ven
reducción de costes en muchos de los aspectos muy beneficiadas de la toma de decisiones
que forman una empresa, facilitan la toma de basada en el análisis del Big Data.
decisiones y agilizan la creación de nuevos
servicios y productos. Hace tiempo que las grandes empresas
analizan los datos de sus clientes para
evolucionar en la dirección correcta, pero esta
3
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
capacidad de análisis está directamente ligada crecer dos de las características que hemos
a la evolución del Big Data. La capacidad de nombrado anteriormente, el volumen y la
una empresa de interpretar estos datos es vital variabilidad de los datos.
para facilitar la identificación de nuevas
oportunidades en el mercado, como Terminando esta introducción acerca del Big
movimientos de negocio más inteligentes, Data, solo falta echar un pequeño vistazo al
operaciones más eficientes y clientes más futuro y ver qué nos esperan los años que
felices, lo que se traduce en clientes más vienen. Para ello, veremos unos datos bastante
felices. significativos que muestran el continuo
crecimiento de los dispositivos que nos rodean.
Con los avances tecnológicos que estamos Según Gartner, en 2020 hubo más de 25.000
experimentando a nivel mundial, el coste del millones de dispositivos conectados a Internet.
almacenaje de los datos está reduciendo de A finales de 2013, la cantidad de datos
manera significativa, lo que permite almacenar generados por los dispositivos era de 4.4
y gestionar el gran volumen de información con billones de GB. Cifra que se espera se
el que cuentan las empresas. Este avance, multiplique por 10 en 2022.
además, es imprescindible para hacer frente a
uno de los pilares del Big Data, que es la Esta gran cantidad de datos supondrá un gran
velocidad con la que crecen los datos que se reto para la tecnología, pues requerirán de
recopilan. nuevas técnicas y de una capacidad de gestión
mayor. Y a pesar de que lo conseguido ya con
La capacidad de obtención de los datos con la el Big Data permite ver el futuro con optimismo,
que cuentan las grandes corporaciones es otro esto será posible siempre y cuando la
de los factores que han ayudado al crecimiento tecnología crezca al nivel al que lo hacen los
del Big Data. Estamos rodeados de dispositivos datos. Además, áreas como el medio ambiente,
y tecnologías que recopilan datos: desde los la salud, la productividad o la vida personal
web logs, las búsquedas en internet, las redes podrán verse beneficiadas por esos miles de
sociales, teléfonos móviles e incluso los millones de bytes que generamos diariamente.
vehículos, lo que es imprescindible para hacer
Fuente bibliográfica
(Consulting Team, 2021)
4
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Básicamente, big data es el proceso de manejar grandes volúmenes de datos. Incluye prácticas estándar
para la gestión y el procesamiento de datos a alta velocidad manteniendo la consistencia de los datos.
El análisis de datos está asociado con la obtención de información significativa a partir de los datos a
través de procesos matemáticos o no matemáticos. La ciencia de datos es el arte de hacer sistemas
inteligentes para que aprendan de los datos y luego tomen decisiones de acuerdo con experiencias
pasadas.
Algunos de los principales problemas de calidad cuando se trata de big data son los datos duplicados,
los datos incompletos, el formato incoherente de los datos, los datos incorrectos, el volumen de datos
(big data), la falta de un mecanismo de almacenamiento adecuado, etc.
Fuente bibliográfica
(Consulting Team, 2021)
5
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Los macrodatos se pueden recopilar a partir de comentarios compartidos públicamente en redes sociales
y sitios web, recopilados voluntariamente de aplicaciones y dispositivos electrónicos personales, a través
de cuestionarios, compras de productos y registros electrónicos. La presencia de sensores y otras
entradas en dispositivos inteligentes permite recopilar datos en un amplio espectro de situaciones y
circunstancias.
Los macrodatos se almacenan con mayor frecuencia en bases de datos informáticas y se analizan
mediante software diseñado específicamente para manejar conjuntos de datos grandes y complejos.
Muchas empresas de software como servicio (SaaS) se especializan en la gestión de este tipo de datos
complejos. El aumento en la cantidad de datos disponibles presenta tanto oportunidades como
problemas. En general, tener más datos sobre los clientes (y clientes potenciales) debería permitir a las
empresas adaptar mejor los productos y los esfuerzos de marketing para crear el nivel más alto de
satisfacción y la repetición del negocio. Las empresas que recopilan una gran cantidad de datos tienen
la oportunidad de realizar un análisis más profundo y rico en beneficio de todas las partes interesadas.
Fuente bibliográfica
(Consulting Team, 2021)
6
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Big Data es un término que hace referencia a la manipulación de una gran cantidad de datos, que pueden
ser de diferentes tipos. La clasificación de la consultora IBM sobre los diversos tipos de datos que pueden
ser analizados es ilustrativa. Existen cinco tipos:
Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter,
LinkedIn, etc.
Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc.
Estos datos transaccionales están disponibles en formatos tanto semi estructurados como no
estructurados.
Machine-to-Machine (M2M)
M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos
como sensores o medidores que capturan algún evento en particular, los cuales transmiten a través de
7
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en
información significativa, seguridad e inteligencia. Los datos biométricos han sido información importante
para las agencias de investigación.
Biométricas
Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial,
genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información
importante para las agencias de investigación.
Las personas generamos diversas cantidades de datos como la información que guarda un call center
al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos,
estudios médicos, etc.
Fuente bibliográfica
(Consulting Team, 2021)
8
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Datos estructurados
Este tipo de datos contiene datos organizados. Tiene un esquema fijo. Por lo tanto, es fácil de
comprender y analizar los datos estructurados.
Datos semiestructurados
Los datos en forma de varios formatos de archivo como XML, JSON y CSV se clasifican como datos
semiestructurados. Se trata de datos parcialmente organizados, lo que dificulta su comprensión.
Datos no estructurados
Este tipo de datos no tiene una estructura o un esquema bien definidos. Los datos del mundo real
siempre están desestructurados y, por lo tanto, son difíciles de entender. Estos datos se generan a través
de varios canales digitales, incluidos teléfonos móviles, Internet, redes sociales y sitios web de comercio
electrónico.
Fuente bibliográfica
(Consulting Team, 2021)
9
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Las organizaciones que basan sus acciones comerciales en el análisis de datos tienen 23 veces más
probabilidades de adquirir nuevos clientes que las que no. La analítica de Big Data ayuda a las empresas
a conocer con exactitud qué buscan sus clientes, permitiéndoles establecer una sólida relación y un
vínculo duradero con su target. Los nuevos procesos de recopilación de datos identifican los patrones
de los consumidores (como compras en línea o transacciones en el punto de venta), y posteriormente
usan esta información para generar acciones que produzcan lealtad a la marca, como experiencias
personalizadas, servicios novedosos, o campañas enfocadas y dirigidas que superen las expectativas
del público.
Las herramientas de Big Data traen consigo importantes ventajas de costos cuando se trata de
almacenar, procesar y analizar grandes cantidades de datos. ¿De qué manera? Identificando formas
más eficientes y económicas de hacer negocios y generando impactos financieros positivos como la
reducción de fallas.
10
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Un ejemplo basado en la industria de la logística ayudará a entender mejor este beneficio: según
UpGrad, el costo de las devoluciones de productos es 1,5 veces mayor que los costos de envío reales.
En este rubro, las herramientas de análisis de Big Data permiten predecir aquellos casos donde se
podrían presentar devoluciones y -asimismo- ayuda a identificar los productos que son más propensos
a ser regresados. Ello permite a las empresas tomar las medidas necesarias para evitar retornos y -con
ello- pérdidas económicas.
Actualizar y mejorar los productos existentes -o innovar otros nuevos- son acciones claves para
mantener y aumentar la satisfacción del consumidor. Al recopilar grandes cantidades de datos, y al hacer
uso de ellos, las empresas pueden proporcionar a los clientes lo que realmente necesitan. Esta
comprensión del público objetivo, como resultado directo del análisis de Big Data, tendrá un impacto
importante en las ganancias.
El uso de Big Data puede propiciar el 'análisis de sentimientos', práctica que consiste en la recopilación
de los comentarios que tiene el público sobre una marca, sus productos y sus servicios. Conociendo
este aspecto, un negocio puede monitorear, verificar y proteger su reputación al tomar en cuenta las
percepciones y opiniones de la gente en las redes sociales y la web. Además, al comprender las
necesidades, gustos y quejas de las personas en las plataformas digitales, se podrá trabajar para
mejorar los servicios que se les ofrecen, lo que a la larga beneficiará la reputación y la forma en la que
nuevos clientes potenciales verán la marca.
El análisis de Big Data ha permitido que los negocios se muevan de forma más rápida y eficaz,
mejorando su eficiencia operativa a pasos agigantados. Al identificar y analizar las últimas tendencias
del mercado, o al automatizar procesos y tareas rutinarias, se libera valioso tiempo que puede ser
dedicado a otras actividades igual de productivas para la marca. Asimismo, el desarrollo de la tecnología
y de las herramientas de Big Data ha hecho que sea más fácil y menos engorroso interpretar datos como
los gustos y preferencias del cliente, sus comportamientos de compra, y los puntos débiles que una
empresa debe solucionar o erradicar, haciéndola más competitiva y manteniéndola actualizada con las
exigencias del mercado.
Fuente bibliográfica
(Consulting Team, 2021)
11
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Implementar una solución de análisis de big data no siempre es tan sencillo como las empresas esperan
que sea. De hecho, la mayoría de las encuestas encuentran que la cantidad de organizaciones que
experimentan un beneficio financiero al implementar proyectos de analytics y tornarse más inteligentes.
Sin embargo, pueden plantearse algunos desafíos que pueden dificultar el logro de los beneficios
prometidos:
Crecimiento de datos
Uno de los mayores desafíos del análisis de big data es la tasa explosiva de crecimiento de datos. Según
IDC, la cantidad de datos en los servidores del mundo se duplica aproximadamente cada dos años. Las
soluciones de análisis de Big Data deben ser capaces de funcionar bien a gran escala si deben ser útiles
para las empresas.
Datos no estructurados
Los datos no almacenados en los sistemas de una empresa no residen en bases de datos estructuradas.
En cambio, se trata de datos no estructurados, como mensajes de correo electrónico, imágenes,
informes, archivos de audio, vídeos y otros tipos de archivos. Estos datos no estructurados pueden ser
muy difíciles de buscar, a menos que tenga capacidades avanzadas de inteligencia artificial. Los
12
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
proveedores actualizan constantemente sus herramientas de análisis de Big Data para que sean mejores
al examinar y extraer información de datos no estructurados.
Silos de Datos
Los datos empresariales se crean mediante una amplia variedad de aplicaciones diferentes, como
soluciones de planificación de recursos empresariales (ERP), soluciones de gestión de relaciones con
los clientes (CRM), software de gestión de la cadena de suministro, soluciones de comercio electrónico,
programas de productividad de oficina, etc. Integrando los datos de todas estas diferentes fuentes es
uno de los desafíos más difíciles en cualquier proyecto de análisis de big data.
Desafíos culturales
Aunque el análisis de big data se está volviendo común, todavía no se ha infiltrado en la cultura
corporativa. En una encuesta de NewVantage Partners, el 52.5% de los ejecutivos dijeron que los
obstáculos organizativos como la falta de alineación, la resistencia interna o la falta de una estrategia
coherente les impedían utilizar big data tan ampliamente como les hubiera gustado.
Fuente bibliográfica
(Consulting Team, 2021)
13
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Volumen
La cantidad de datos generados por día a partir de múltiples fuentes es muy alta. Anteriormente,
almacenar estos macrodatos era una tarea redundante. Pero, con la ayuda de Big Data Hadoop,
podemos almacenar de manera eficiente estos enormes volúmenes de datos.
Variedad
Hay una variedad de datos recopilados de diferentes fuentes. Puede ser un archivo de audio, video,
imágenes, documentos o texto no estructurado. Las herramientas de Big Data ayudan a procesar esta
variedad de datos estructurados y no estructurados.
Velocidad
En esta era digital, el número de usuarios de Internet aumenta rápidamente día a día. Debido a esto, se
mejora la velocidad de generación de datos. El término Velocidad se refiere a qué tan rápido se está
produciendo esta generación de datos y su procesamiento. Se utiliza para comprender las tendencias
en los datos y satisfacer las demandas del mercado.
14
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Veracidad
Se relaciona con la calidad de los datos recopilados. Las organizaciones deben cuidar la calidad de los
datos mientras los recopilan para que los datos sean relevantes para ellos.
Valor
Big Data se centra en la recopilación de datos que crean algún valor comercial para las organizaciones.
Esto les ayuda a competir en el mercado y aumentar sus beneficios.
Variabilidad
Fuente bibliográfica
(Consulting Team, 2021)
15
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
A medida que la tecnología se vuelve omnipresente, nuestras huellas digitales están en todas partes.
Desde clics y vistas en sitios web y aplicaciones móviles, hasta datos de sensores obtenidos de sistemas
virtuales y del mundo real, el rastro digital sigue creciendo. Las organizaciones que utilizan conjuntos de
macrodatos de manera eficaz están aprendiendo más sobre sus clientes, usuarios, pacientes y
ciudadanos, y luego aplican ese conocimiento para satisfacer las necesidades individuales. El software
de análisis avanzado y los paneles de control impulsados por big data brindan una vista más completa
de las interacciones y comportamientos de los clientes; muchas empresas están combinando datos de
una variedad de fuentes internas y externas para mejorar el servicio al cliente, mejorar las ventas,
optimizar el marketing, mejorar los productos y servicios y, en general, inyectar más inteligencia real en
sus operaciones.
Al utilizar big data, las organizaciones tienen un mejor manejo de lo que les interesa a los clientes, cómo
se utilizan los productos y servicios y las razones por las que los clientes dejan de comprar o utilizar las
ofertas. A través de aplicaciones de big data, las empresas pueden identificar con mayor precisión lo
que los clientes realmente buscan y observar sus patrones de comportamiento. Luego, pueden aplicar
16
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
esos patrones para mejorar los productos, generar mejores conversiones, mejorar la lealtad a la marca,
detectar tendencias antes y encontrar formas adicionales de mejorar la satisfacción general del cliente.
Abordar el fraude es un desafío interminable para las empresas. Las organizaciones utilizan el análisis
de big data para identificar patrones de fraude o abuso, detectar anomalías en el comportamiento del
sistema y frustrar a los malos actores. Los sistemas de big data pueden analizar grandes cantidades de
transacciones y registrar datos en servidores, bases de datos, aplicaciones, archivos y dispositivos para
identificar, prevenir, detectar y mitigar posibles comportamientos fraudulentos. Estos sistemas también
pueden combinar datos internos con datos externos de fuentes de terceros para alertar a las empresas
sobre amenazas de ciberseguridad que aún no han aparecido en sus propios sistemas. Sin capacidades
de análisis y gestión de big data, esto sería imposible.
Si bien es posible que no sea posible saber con certeza lo que sucederá mañana, el big data está dando
a las organizaciones el poder de detectar patrones y tendencias temprano. Detectar la escasez al
principio de la producción de productos, por ejemplo, brinda a las organizaciones la capacidad de
adaptarse en consecuencia, lo que evita costosos errores en toda la cadena de suministro. Conocer la
demanda de productos desde el principio puede ayudar a mejorar la previsión de ventas o ayudar a
determinar el precio óptimo incluso antes de que un producto salga al mercado. De hecho, los
macrodatos han ayudado a las empresas a tomar mejores decisiones al brindarles a las organizaciones
información sobre la probabilidad de lo que podría suceder en el futuro.
Uno de los usos más populares de big data es mejorar las recomendaciones de productos y la
personalización de sitios web y servicios. El desafío con las ofertas en línea es que a veces hay una
abrumadora cantidad de opciones. Con todas esas opciones, tomar una decisión incorrecta puede
resultar en usuarios y clientes insatisfechos. Los macrodatos han impulsado algunas de las innovaciones
más importantes en los sistemas de recomendación y personalización, brindando a las personas
recomendaciones hiperpersonalizadas que mejor se adaptan a sus necesidades.
Las empresas ahora están procesando zettabytes de datos en general. Gran parte de esos datos son
información no estructurada, como texto, videos, imágenes, audio y otras formas que no se pueden
buscar ni procesar fácilmente.
17
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Las organizaciones se han dado cuenta del beneficio de usar big data para ayudar a garantizar que sus
organizaciones y sistemas sigan funcionando. Para muchas industrias, el tiempo de inactividad
simplemente no es aceptable y puede provocar una pérdida significativa de negocios, o incluso la
pérdida de vidas. Los sistemas producen una gran cantidad de datos en forma de registros, sensores y
datos de IoT, y otra información que puede dar una indicación temprana del potencial de falla. Las
organizaciones que saben cómo usar esta información pueden ver un impacto muy reducido de cortes
no programados, tiempo de inactividad, desastres naturales u otros incidentes disruptivos.
El mundo es un lugar complicado con riesgos que surgen a cada paso concebible. Anticipar, planificar y
responder a estos cambios y riesgos es fundamental para la longevidad de cualquier operación. Los
macrodatos han demostrado ser útiles en todo el espectro de la gestión de riesgos, proporcionando una
visibilidad temprana de los riesgos potenciales, ayudando a cuantificar la exposición a los riesgos y
pérdidas potenciales, y ayudando a acelerar la respuesta a cambios importantes.
Fuente bibliográfica
(Consulting Team, 2021)
18
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
No debería sorprender que para tener una estrategia de big data exitosa, primero deba definir qué
objetivos comerciales está tratando de lograr. No todas las empresas son iguales, por lo que aquí no
hay una respuesta única para todos. Sin embargo, debe asegurarse de que su estrategia se alinee con
sus objetivos comerciales corporativos generales y, al mismo tiempo, aborde los problemas comerciales
clave y los indicadores clave de rendimiento. Asegúrese de que las partes interesadas, incluidas las
personas de su equipo de gestión de datos, líderes de línea de negocio, ingenieros de datos, científicos
de datos y cualquier otra persona que utilizará sus grandes almacenes de datos, estén involucrados
desde el principio y brinden información clave sobre de forma continua.
El siguiente paso implica identificar la variedad de sus datos, así como evaluar los procesos comerciales
actuales, las fuentes de datos, los activos de datos, los activos de tecnología, las capacidades y las
políticas de la organización. Los datos vienen en diferentes formatos, incluidos estructurados, no
estructurados o semiestructurados. No es raro que una organización tenga muchas variedades de datos,
incluidas hojas de cálculo, documentos, bases de datos, archivos de registro, videos, imágenes y texto,
entre otros tipos.
19
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Una vez que haya identificado las fuentes de datos, ejecute una evaluación de su estrategia de datos.
Asegúrese de abordar los objetivos comerciales que describió en el paso uno y trabaje desde allí. Por
ejemplo, si un objetivo comercial de su estrategia de datos es mejorar la experiencia del cliente, entonces
su evaluación de estado actual cubriría cualquier proceso comercial, modelo comercial o activo de datos,
incluida la arquitectura de datos, que afecte a los clientes. Al evaluar su estado actual, es una buena
práctica entrevistar e involucrar a todos los empleados y partes interesadas relevantes.
Al formular una estrategia de big data, comience con poco, piense en grande, repita con frecuencia y
piense en términos de casos de uso. Identifique casos de uso de big data que cumplan con los objetivos
comerciales descritos en el paso uno. Utilice el análisis de big data para examinar sus grandes
volúmenes de datos y descubrir patrones ocultos, correlaciones y otros conocimientos. Estos ejercicios
deberían ayudarlo a desarrollar y perfeccionar los casos de uso. El siguiente paso es comenzar a
priorizar estos casos de uso en función de factores como su impacto comercial, el presupuesto y los
recursos necesarios. Dependiendo de cuántos departamentos diferentes haya representado en el
proceso, reducir los casos de uso y priorizar con cuáles comenzar puede ser difícil. Recuerde
mantenerse enfocado, anotar los casos de uso a medida que se acuerden y trabajar en grupo para
elaborar un plan.
Una vez que haya identificado sus objetivos comerciales, haya comprendido sus datos y el estado actual
de la capacidad y haya identificado los casos de uso, ahora puede comenzar a formular una hoja de ruta
de big data. Este paso crucial es a menudo el paso que requiere más tiempo para las organizaciones.
Al crear su hoja de ruta de big data, recuerde que la hoja de ruta es solo un esquema. Puede continuar
iterando y evolucionando su hoja de ruta con el tiempo. Con eso en mente, imagine el estado final
deseado y trabaje hacia atrás, asegurándose de que el objetivo final sea preciso, seguro y directo. El
ejercicio de la hoja de ruta debe centrarse en identificar cualquier brecha que tenga en torno a la
arquitectura de datos, la tecnología y las herramientas, los procesos y los conjuntos de habilidades. El
análisis de brechas probablemente provocará una revisión de los casos de uso priorizados en el paso
tres. Nuevamente, las partes interesadas desempeñarán un papel clave en la priorización de estas
iniciativas en función de la complejidad, el presupuesto y los costos / beneficios.
Fuente bibliográfica
(Consulting Team, 2021)
20
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
La mejor manera de comprender la idea detrás de la analítica de Big Data es compararla con la analítica
de datos habitual.
Enfoque tradicional
La analítica suele tener lugar después de un cierto período de tiempo o evento. Si eres propietario de
una tienda online, puedes mirar los datos acumulados durante una semana y luego analizarlos. Por
ejemplo, calcula qué clientes utilizaron certificados de descuento que se les enviaron por correo
electrónico.
Big Data
La analítica suele ocurrir en tiempo real, a medida que se generan los datos, y los descubrimientos se
presentan casi instantáneamente. Digamos que opera una flota de 100 camiones y necesita saber la
ubicación exacta de cada uno, así como los retrasos en las rutas en tiempo real.
21
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
Los datos generados a partir de varias fuentes, incluidos sensores, archivos de registro y redes sociales,
lo que sea, se pueden utilizar de forma independiente y como complemento de los datos transaccionales
existentes que muchas organizaciones ya tienen a mano. Además, no solo los usuarios comerciales y
los analistas pueden usar estos datos para análisis avanzados, sino también los equipos de ciencia de
datos que pueden aplicar Big Data para construir proyectos de ML predictivos.
Fuente bibliográfica
(Consulting Team, 2021)
22
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
El análisis descriptivo es un tipo común de análisis que le permite averiguar qué sucedió y cuándo.
El análisis de diagnóstico explica por qué y cómo sucedió algo mediante la identificación de patrones y
relaciones en los datos disponibles.
El análisis predictivo utiliza datos históricos para descubrir patrones y hacer predicciones sobre lo que
es probable que suceda en el futuro.
La analítica prescriptiva proporciona recomendaciones específicas sobre lo que debería hacerse mejor.
Puede consultar nuestra publicación sobre el modelo de madurez analítica donde describimos los tipos
antes mencionados con más detalle.
Por ahora, pasemos a explicar los procesos detrás del análisis de Big Data y qué herramientas hacen
que todo funcione.
Fuente bibliográfica
(Consulting Team, 2021)
23
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
El análisis de Big Data abarca los procesos de recopilación, procesamiento, filtrado / limpieza y análisis
de conjuntos de datos extensos para que las organizaciones puedan usarlos para desarrollar, crecer y
producir mejores productos. Echemos un vistazo más de cerca a estos procedimientos.
Fuente bibliográfica
(Consulting Team, 2021)
24
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
DATA INGESTION
El proceso de identificar las fuentes y luego obtener Big Data varía de una empresa a otra. Sin embargo,
vale la pena señalar que la recopilación de datos suele ocurrir en tiempo real o casi en tiempo real para
garantizar un procesamiento inmediato. Las tecnologías modernas permiten recopilar tanto datos
estructurados (datos que vienen en formatos tabulares principalmente) como no estructurados (todo tipo
de formatos de datos) de una variedad de fuentes que incluyen sitios web, aplicaciones móviles, bases
de datos, archivos planos, sistemas de gestión de relaciones con el cliente (CRM), IoT sensores, etc.
Los datos sin procesar deben someterse a los procesos de extracción, transformación y carga, por lo
que las canalizaciones de datos ETL o ELT se construyen para entregar datos de fuentes a repositorios
centralizados para su posterior almacenamiento y procesamiento. Con el enfoque ETL, la transformación
de datos ocurre antes de que lleguen a un repositorio de destino como un almacén de datos, mientras
que ELT hace posible transformar los datos después de que se cargan en un sistema de destino.
Fuente bibliográfica
(Consulting Team, 2021)
25
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
DATA STORAGE
En función de la complejidad de los datos, se pueden trasladar a almacenes como almacenes de datos
en la nube o lagos de datos desde donde las herramientas de inteligencia empresarial pueden acceder
a ellos cuando sea necesario. Hay bastantes soluciones modernas basadas en la nube que normalmente
incluyen componentes de infraestructura de cliente, computación y almacenamiento. Las capas de
almacenamiento permiten que los datos que provienen de fuentes dispares se organicen en particiones
para una mayor optimización y compresión. Las capas de computación son los conjuntos de motores de
procesamiento que se utilizan para realizar cualquier tarea computacional sobre los datos. También hay
capas de cliente donde ocurren todas las actividades de gestión de datos.
Cuando los datos están en su lugar, deben convertirse en las formas más digeribles para obtener
resultados procesables en consultas analíticas. Para tal fin, existen diferentes opciones de
procesamiento de datos. La elección del enfoque correcto puede depender de las tareas analíticas y
computacionales de una empresa, así como de los recursos disponibles.
Fuente bibliográfica
(Consulting Team, 2021)
26
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
En base a los criterios de uso de una o varias máquinas, los entornos de procesamiento se clasifican en
centralizados y distribuidos:
El procesamiento distribuido se utiliza cuando los conjuntos de datos son demasiado amplios para ser
procesados en una sola máquina. Este enfoque permite dividir grandes conjuntos de datos en partes
más pequeñas y almacenarlos en varios servidores. Esto, a su vez, permite procesar datos en paralelo.
Lo mejor del enfoque distribuido es que las tareas de procesamiento de datos se pueden mover a otros
servidores disponibles en caso de que un servidor de la red falle.
Fuente bibliográfica
(Consulting Team, 2021)
27
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
El procesamiento por lotes, como su nombre indica, es el método en el que los datos, acumulados
durante un período de tiempo, se procesan en lotes. Esto sucede en un momento en que los recursos
computacionales están fácilmente disponibles, ahorrando en ellos, pero requiriendo algo de tiempo para
realizar los trabajos por lotes. El procesamiento por lotes se puede elegir sobre el procesamiento en
tiempo real cuando la precisión está en la agenda, no la velocidad.
El procesamiento en tiempo real garantiza que los datos estén siempre actualizados debido a la entrada,
transformación y salida continuas de elementos de datos. Este tipo de procesamiento implica que todos
los trabajos computacionales se realizan en un lapso corto, generalmente en cuestión de segundos o
milisegundos. Piense en un software de gestión de flotas que rastrea la posición geográfica y la dirección
de la ruta en tiempo real. Más complejo en términos de implementación, el procesamiento en tiempo real
es una gran opción para una toma de decisiones más rápida.
Fuente bibliográfica
(Consulting Team, 2021)
28
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
DATA CLEANSING
Antes de ser analizados a fondo, los datos, ya sean pequeños o grandes, deben limpiarse
adecuadamente para garantizar la mejor calidad posible y proporcionar resultados precisos. En pocas
palabras, el proceso de limpieza de datos implica eliminar errores, duplicaciones, inconsistencias,
redundancias, formatos incorrectos, etc. y, como tal, confirmar la utilidad y relevancia de los datos para
el análisis. Cualquier dato irrelevante o defectuoso debe eliminarse o tenerse en cuenta. Varias
herramientas de calidad de datos pueden detectar cualquier defecto en los conjuntos de datos y
limpiarlos.
Fuente bibliográfica
(Consulting Team, 2021)
29
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
DATA ANALYSIS
Aquí es cuando Big Data se convierte en información útil que, entre otras cosas, está impulsando el
desarrollo y la competitividad de las empresas. Para dar sentido a las enormes cantidades de datos,
existen varias técnicas y prácticas. A continuación, enumeramos algunos de ellos:
• El procesamiento del lenguaje natural es la tecnología utilizada para que las computadoras
comprendan y respondan al lenguaje humano, ya sea texto o palabras habladas.
• La minería de texto es un enfoque analítico avanzado que se utiliza para dar sentido a Big Data
que viene en formas textuales como correos electrónicos, tweets, investigaciones y publicaciones
de blogs.
• El análisis de datos de sensores es el examen de los datos que son generados continuamente
por diferentes sensores instalados en objetos físicos. Cuando se realiza de manera oportuna y
adecuada, puede ayudar no solo a brindar una imagen completa del estado del equipo, sino
también a detectar comportamientos defectuosos y predecir fallas.
• El análisis de valores atípicos o la detección de anomalías es la técnica utilizada para identificar
puntos de datos y eventos que se desvían del resto de los datos. Se aplica ampliamente en las
actividades de detección de fraudes.
Fuente bibliográfica
(Consulting Team, 2021)
30
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
CONCLUSIONES
31
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
BIBLIOGRAFÍA
32
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
33
Tecnología e inteligencia de negocios
Lelis Emin Rivera Martinez
34