Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
En los negocios digitales los datos ocupan un rol central. Necesitamos capturar,
almacenar, procesar, utilizar y tomar decisiones basados en datos reales. Lo importante
es convertir esos datos en acciones. Basado en los datos que tengo, definir las acciones
que puedo tomar para conseguir un objetivo.
Nos permiten acceder a una ventaja competitiva considerable. Los datos son un activo
muy importante dentro de la empresa.
Big Data
Según Viktor Mayer-Schönberger y Kennet Cukier son datos que nos ayudan a
extraer nuevas percepciones o crear nuevas formas de valor.
El Big Data consiste en analizar todos los datos que se generan dentro y fuera de la
empresa, separar lo que es relevante de lo que no y trabajar para crear
información que permita tomar mejores decisiones. Transforma grandes
volúmenes de datos en inteligencia.
Si bien, las empresas realizan trabajos de Big Data hace años, en esta era es distinto por:
La digitalización de todo. Gracias a ella hay nuevos tipos de datos y por todos
lados. La mayoría son datos no normalizados: geoespaciales, generados por
sensores, tradicionales y estructurados.
Las tecnologías y técnicas de análisis avanzados permiten extraer conocimiento
de los datos con sofisticación, velocidad y precisión.
¿Por qué las empresas quieren Big Data? Las empresas usan Big Data en tres ámbitos:
Unir el Big Data a un sistema transaccional. En las empresas hay dos sistemas:
transaccional (sigue la operación de toda la empresa) y el informacional (toma la
información la dota de inteligencia y permite la toma de decisiones).
Hay entornos regulados que usan el Big Data para seguir la traza de los datos y
aprovecharlos para disminuir el riesgo o el fraude.
Desde el punto de vista del negocio surgen una serie de actividades. Big Data permite
predecir el comportamiento de los clientes para mejorar su experiencia de compra. Si
tenemos diferentes fuentes de datos, podremos crear una imagen más completa de las
preferencias del cliente. Por ejemplo: Cuando compramos un artículo y abajo nos
recomienda artículos complementarios.
El Big Data ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es usada para describir enormes cantidades de datos. Hay diferentes
tipos de datos:
El concepto de Big Data aplica para toda aquella información que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales.
Además del gran volumen de información, existe una amplia variedad de datos, que
pueden ser representados de diversos modos, los cuales pueden medir y comunicar el
posicionamiento, vibración, temperatura, humedad y hasta cambios químicos en el aire.
Las aplicaciones requieren de velocidad para brindar una rápida respuesta.
Es importante entender que las bases de datos convencionales son una parte
importante y relevante para una solución analítica.
¿Qué tipo de datos explorar? El hincapié debería hacerse en qué problema se intenta
resolver. Si bien existe una amplia variedad de datos a analizar, una buena clasificación
de los mismos ayudaría a entender mejor su representación. Hay diferentes tipos:
Web y RRSS. Se incluye el contenido web, la información extraída de las redes
sociales, blogs y sitios de almacenamiento de información. Se analiza mediante
analítica web y social, métricas y KPI. Ejemplo: Flujos de clics, feeds de twitter,
entradas de Facebook, contenido web.
Máquina a máquina. Tecnologías que permiten a los dispositivos conectarse
con otros y que transmiten lo recogido por redes inalámbricas. Lectura de
medidores, señales de GPS, lecturas de sensores, lecturas RFID.
Datos de transacciones grandes. Incluyen regristros de facturación, registros
detallados de las llamadas. Estos datos transaccionales están disponibles en
formatos semiestructurados.
Biometría. La información biométrica abarca huellas digitales, escaneo de
retina y reconocimiento facial.
Generado por humanos. Registros de voz, correos electrónicos, registros
electrónicos.
Usando el análisis avanzado las entidades pueden estudiar grandes volúmenes de datos
para entender el estado actual de su negocio y realizar un seguimiento de los aspectos
todavía en evolución.
El Big Data es un activo de la empresa con el poder para obtener información
procesable.
Para las empresas enfocadas en el comercio electrónico, el Web Data es un buen lugar
para empezar. Ver cómo la gente se mueve a través de una página web. Ver la eficacia
al momento de vender o no, la eficacia del carrito de compras, lo que se vende bien y lo
que se estuvo a punto de vender.
La evolución del Big Data se moverá al mismo tiempo que los usuarios y las
tecnologías maduren. Las que más crecerán serán: la visualización avanzada de datos, el
uso de animaciones y visualización cotidiana de datos.
Ahora, las empresas ven a los datos como un recurso valioso. Hay una actitud cada vez
más marcada en aquellas organizaciones que necesitan utilizar información para crear
productos basados en ella.
Las empresas que usan Big Data para obtener resultados centrados en el cliente,
aprovechan los datos internos y crear un mejor ecosistema de información. Hay cinco
tendencias:
Visión de 360º del cliente. Las compañías deben obtener información de fuentes
internas y externas que le permitan asesorar mejor al cliente y entender cuál es la mejor
forma de ayudarlo. El objetivo es comprender su comportamiento y predecir sus
acciones.
Los empleados deben crear una relación de confianza y conseguir una fidelidad del
consumidor. Debe poseer información interna (comportamiento del sujeto con la
empresa) y externa (gustos, intereses).
Se pueden conectar con datos relacionados con otros datos de la empresa, información
del cliente o el producto, aunque los mismos se hallen en formatos distintos.
Lecturas complementarias:
https://www.i-scoop.eu/big-data-action-value-context/big-data-analytics-from-big-
data-to-smart-data-and-decisions/
https://www.mckinsey.com/business-functions/mckinsey-analytics/our-
insights/achieving-business-impact-with-data
El volumen es la característica más común del Big Data. Hace referencia a las
cantidades masivas de datos que las organizaciones intentan aprovechar para mejorar la
toma de decisiones en toda la empresa. Continúan aumentando constantemente. Hay
que tener en cuenta que muchos de esos datos no serán útiles porque no tendrán calidad
o porque no forman parte de la estrategia. Lo que hoy nosotros consideramos un
volumen alto, mañana será algo menor.
Hay muchas plataformas para el análisis masivo de datos: Strategy Big Data.
El modelo relacional describe los datos mediante el uso de un formato tabular. Todos
los elementos de datos se colocan en tablas bidimensionales llamada relaciones, que
constituyen el equivalente lógico de los archivos. Encontramos: DB2, Oracle, Sybase,
SQL Server, Microsoft Access, MySQL.
Cada renglón de una tala representa una entidad de datos, mientras que cada columna
representa los atributos.
Se puede hacer uso de metadatos, usar datos que puedan describir otros datos. Por
ejemplo: una biblioteca tiene fichas o un sistema de información de los libros: autor,
título, editorial, ISBN.
Datos Semiestructurados. Son una mezcla de los dos tipos de datos mencionados
anteriormente. Cuentan con una organización definida en sus metadatos, donde
describen los objetos y sus relaciones. Ejemplo: HTML, XML, JSON.
Se debe tener la capacidad de crear, procesar, analizar y dar respuesta a los eventos. El
tiempo de respuesta hace necesario el uso de tecnologías que permitan responder en el
plazo necesario.
Los datos deben ser analizables y analizados. Hay que modelarlos y caracterizarlos,
construir modelos alineados con el negocio. Puede recurrirse a plataformas como:
Hadoop, Spark.
Cuando se tiene el modelo, pueden aplicarse los algoritmos de data mining adaptados al
modelo y el problema a resolver.
Los datos, como tales, no tienen sentido. Lo que realmente importa es su significado,
datos procesables, información procesable, un objetivo y la acción para llegar allí. Esto
se da gracias a la analítica de los datos. Debemos pasar del descubrimiento de los datos
a la acción.
La visualización hace referencia al modo en que los datos son presentados. Una vez que
son procesados es necesario presentarlos.
Desde un punto de vista tecnológico, se extrae que el Big Data se trata de una colección
de herramientas, técnicas, tecnologías y algoritmos. Encontramos: Analytics,
infraestructura, software, servicios, APIs, desarrollo. Todo lo relacionado con gestión de
la información.
Consecuencias tecnológicas del Big Data. Gracias al Big Data aparecieron las bases
de datos no relacionales, como consecuencia de la incapacidad de las bases datos
tradicionales (PostgreSQL, DB2, Oracle) de almacenar datos no estructurados ni las
características de los datos provenientes de una fuente Big Data. Ahora, aparecieron
HBASE, Cassandra que suelen ser tan rápidas como las relacionales pero cuentan con
una capacidad de almacenamiento distribuido y datos no estructurados.
La segunda consecuencia es el surgimiento del enfoque de procesamiento en paralelo.
En lugar de realizar una tarea de procesamiento en un gran servidor, la misma se divide
en partes pequeñas, se recogen y se combinan resultados.
Permite tecnologías que acepten los errores. Mayor cantidad de equipos y mayor
capacidad de procesamiento. Hadoop es una tecnología de procesamiento distribuido,
que nos permite construir herramientas de persistencia dividida.
El Big Data Landscape refleja las tecnologías de datos que continúan progresando,
dado que se han vuelto más eficientes y han logrado una adopción más extendida. Los
eventos y las tendencias clave del 2018 son: infraestructura y analítica, y aprendizaje de
máquina e inteligencia artificial.
Para lograr un valor de negocio tenemos que pensar en una arquitectura que respalde la
escalabilidad y la disponibilidad de los datos y la diversidad. Revisar si la arquitectura
responde a una gestión de información integrada, escalable y segura.
Integrada porque uno de los beneficios del Big Data es poder tomar información y
conectarla desde diferentes fuentes empresariales. Escalable porque su capacidad de
crecer en capacidad de crecimiento y procesamiento, debe responder a un proyecto de
Big Data. Segura porque uno de sus componentes es la seguridad de los datos y el
gobierno de estos.
Lograr un valor de negocio importante y cuantificable a partir de Big Data sólo puede
hacerse realidad si las empresas crean una base de información que respalde el volumen,
la variedad y la velocidad de los datos.
La alta dirección exige un caso de negocio sólido y cuantificable, uno que defina las
inversiones progresivas junto con las oportunidades para racionalizar y optimizar los
costes de sus entornos de gestión de la información. Algunas tácticas desarrolladas en la
actualidad que persiguen dicha finalidad son arquitecturas de menor coste, incluido el
cloud computing.
Caso de Estudio
El cliente solicitaba monitorizar los medios para medir el impacto que un programa
tenía en las redes sociales. Ver cuál era la reacción a cada programa para cambiar el
rumbo. Entender si en un programa beneficiaba al canal.
La principal funcionalidad es la captura de las reacciones en las redes sociales. Para eso
se usó una arquitectura de Big Data: adquisición de datos escalables en la nube y un
cluster autoescalable. La escalabilidad era muy importante.
Una vez que las mediciones eran clasificadas por sentimiento y categorizadas por
productos, se construyen dashboards de clientes. Se generaron tableros para tomar
decisiones en función de si un programa es mejor en un horario, o si se debe cancelar.
Se creó un sistema de alerta para ver si los sentimientos cayeron o si se modificaron.
Big Data no crea valor por sí mismo. Requiere de capacidades analíticas dentro de las
personas: consultas y generación de informes, extracción de datos, visualización de
datos, modelos predictivos, optimización. A eso deben sumársele habilidades y modelos
predictivos.
Las empresas deben descubrir patrones en los datos: aplicar modelos de optimización,
analítica avanzada, hacer simulaciones y trabajar con miles de variables.
Para encontrar un patrón dentro de un conjunto de datos, debo saber aplicar algoritmos
de correlación para hacer una predicción a corto plazo.
Aparece el Data Business Analist. Tiene como misión recolectar, procesar y realizar
análisis estadísticos de datos. Puede cruzar datos de distintas áreas, conoce tratamientos
de información. Lenguajes: Python, HTML, Javascript, C o C++ y SQL.
Un estudio de IBM arrojó que para que las empresas comiencen a aplicar Big Data,
necesitan pasar por cuatro fases:
Recomendaciones:
Analítica de Datos
Los ambientes de Big Data generan mucha información que es consumida por la
computación cognitiva.
Lecturas:
https://www.i-scoop.eu/big-data-action-value-context/big-data-analytics-from-big-data-to-
smart-data-and-decisions/
https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/achieving-
business-impact-with-data
Tarea:
Qué es un Petabyte.
Links importantes
https://antoniopita.blog/2017/02/05/slides-openclass-como-introducirse-en-el-big-data/