Gadtd s11 Big Data

Gestión y
análisis de datos
para la toma de
decisiones
Semana 11 – Big data

Big Data
¿Qué es Big Data?
Big data se refiere normalmente a la

aplicación de un enfoque científico
práctico a la resolución de problemas
de datos en los cuales se necesita
atacar eficientemente a uno o más de
los cinco atributos principales:
• Volumen o cantidad de datos
• Variedad en el origen y/o formato
de los datos
• Velocidad de generación y/o
consumo de los datos
• Veracidad
• Valor
Atributos de Big Data
Volumen
Representa la —muchas veces difusa— frontera que separa

aquellos problemas que para ser abordados y resueltos de forma
correcta y eficiente requieren del manejo de tal cantidad de
información que limita la aplicación de métodos de cómputo
tradicionales, como por ejemplo las búsquedas en Google. Sin lugar
a dudas esta propiedad está intrínseca y morfológicamente
relacionada con el origen y la nomenclatura de big data.
Velocidad
Esta propiedad se refiere a la segunda de las características que
comúnmente definen un problema de big data: la necesidad de poder
trabajar de forma eficiente con un flujo constante de datos que se
generan a velocidades cada vez mayores.
Esta situación, en la que el sistema de big data tiene que poder manejar
el flujo de datos, tiene dos aristas o derivaciones según el caso de uso.
– La primera es la que deriva en un sistema de cola de mensajes o buffering, donde se
adquieren los datos y se los encola para luego poder procesarlos.
– La segunda es en la que ese flujo constante de datos debe ser adquirido pero
además también procesado a alta velocidad dentro de una ventana temporal acotada.
Actualmente existen muchos sistemas que poseen este tipo de
restricciones, como los de «misión crítica», que requieren una
respuesta en tiempo real (por ejemplo sistemas de control de tráfico
aéreo), o procesos más cotidianos como el pronóstico del tiempo cuya
ventana temporal es de veinticuatro horas.
Variedad
Propiedad que refleja la diversidad tanto en el origen como en el

formato de los datos que se utilizan en el cómputo, incluyendo datos
estructurados y no estructurados. En la actualidad, más del 90 % de
los datos que se generan día a día son no estructurados. Esto
implica una gran diferencia respecto a los sistemas de
procesamiento tradicionales enfocados en datos estructurados, y
fundamenta la necesidad de aplicar enfoques de big data
Veracidad
Esta propiedad tiene relación directa con el principio de certidumbre
o certeza de los datos y es sumamente valiosa en verticales de
negocio tales como el sector bancario. Es una propiedad vinculada
al proceso de entrada de datos y por ende está muy relacionada
con la aplicación de la ciencia de datos.
Valor
En contraste con la veracidad, que es una propiedad de entrada, el
valor es una característica de salida o resultado propia de la
aplicación de un proceso de negocio. La aplicación de big data
sobre los datos del problema nos permite obtener un mayor valor
estratégico y de negocio
Evolución de Big Data
Big data fue evolucionando de forma incremental a lo largo del

tiempo, ampliando su espectro a medida que iban apareciendo
nuevas generaciones de soluciones de datos.
Si bien hay opiniones encontradas, podemos identificar
claramente cuatro generaciones o enfoques incrementales y
coexistentes de los proyectos de datos:
• Plataformas SQL
• Plataformas batch
• Plataformas de NRT
• Plataformas de IA
Plataformas SQL (Plataformas de consulta estructurada)
Soluciones centradas en herramientas basadas en SQL, cuyo auge se

dio principalmente en las décadas de los ochenta y los noventa con la
expansión de los sistemas de bases de datos relacionales, la
inteligencia de negocio y el data warehousing.
Si bien esta categoría representa la primera generación de plataformas
de datos, las alternativas SQL están viviendo un lento pero firme
renacer de la mano de soluciones orientadas a consultas interactivas.
Estas plataformas encarnan la referencia en cuanto a lenguaje
compartido de manipulación de datos se refiere, al punto que otras
generaciones intentan el uso de lenguajes similares al SQL. La capa
tradicional de plataformas SQL representarían el territorio donde se
puede ser data driven sin llegar a ser propiamente big data
Procesamiento en lotes o batch
Agrupa las soluciones basadas en el procesamiento masivo de datos en

bloques o batch.
Potenciada por el desarrollo de Apache hadoop, que es una plataforma de
software de código abierto basada en Java diseñada para gestionar el
procesamiento y almacenamiento de datos para aplicaciones de big data.
Este framework posibilita la distribución de grandes conjuntos de datos y su
proceso de análisis en una gran cantidad de nodos (máquinas), permitiendo
consultas con muy bajos tiempos de respuesta.
Esto es posible porque el volumen de datos se divide en cargas de trabajo
más pequeñas que se ejecutan en paralelo en los diferentes nodos.
Hadoop tiene la capacidad para procesar datos estructurados y no
estructurados y escalar de forma confiable desde un servidor hasta miles de
ellos, gracias a que cada máquina, aunque trabaja de forma independiente,
actúa en equipo para conformar una sola estructura.
Procesamiento cercano al tiempo real o NRT
Esta generación tiene su relación directa con las herramientas y los

frameworks orientados al procesamiento «cercano al tiempo real» o Near
Real-Time (NRT), particularmente las que atacan problemáticas de
streaming de datos. (conjunto de datos que se incrementan de forma
constante a lo largo del tiempo)
Una vez que los streams están identificados, se pueden realizar varios tipos
de procesamientos. Las tres opciones principales son
1) escribir los datos en un sistema de almacenamiento desde donde pueden
ser consultados por otras aplicaciones
2) disparar acciones hacia los usuarios a partir de los datos, como por
ejemplo alertas (push notifications) o correos electrónicos
3) generar otros streams de salida a partir de aplicar operadores o
transformaciones a los streams de entrada
Plataformas de inteligencia artificial
Aplicaciones de datos cuyas características fueron pensadas para dar
soporte a técnicas de inteligencia artificial (IA),que datan de tan atrás como
la década de los cincuenta pero que tuvieron un renacer en los últimos años
con la aparición y popularización de técnicas de deep learning.
El impacto particular de las plataformas de IA radica en las necesidades de
volúmenes de datos en el extremo superior de las medidas usuales, a los
cuales se debe poder acceder en batches a grandes porciones de los datos
y de forma repetida para instancias de entrenamiento, mientras que se
necesita un procesado NRT para su uso en producción frente a streams de
eventos y datos. Estos usos no se dan de manera secuencial y definitoria,
sino que se alterna entre uno y otro uso permanentemente. Estamos frente
a un cambio de paradigma en el cual las tecnologías de núcleo de big data
se utilizan para atacar desafíos cruciales de la ingeniería de datos, y los
mecanismos de aprendizaje automático (machine learning) se utilizan para
extraer valor de los datos, ya sea en forma de conocimiento o expertise
analítico, o en forma de acciones
Proyecto Big Data
Primer paso: Pensar en Objetivos de negocio
Segundo paso: Definir un producto mínimo (MVP)
Tercer paso: Lograr Viabilidad

Proyecto de Big Data
Primer paso: Pensar en Objetivos de negocio

• Nunca anteponer la tecnología a la resolución de objetivos y
conocimiento del negocio
• Situaciones que evidencian que no hay un objetivo de negocio:
• El área de negocio sabe que sus datos tienen mucho valor pero
no son capaces de optimizarlos o potenciarlos.
• Tenemos un proceso de datos funcionando, pero la salida no es lo
suficientemente clara y no sabemos bien por qué.
• La compañía necesita hacer tal o cual cosa pero no saben qué
datos necesitan para lograrlo.
• Las demás empresas del sector están usando big data, por lo
tanto nosotros también tenemos que hacerlo.
Segundo paso: definir un producto mínimo (MVP)

• Un MVP realmente es una táctica para reducir el desperdicio
de horas de ingeniería y poner el producto en las manos de
«clientes visionarios» tan pronto como sea posible
• Basado en conceptos de metodologías ágiles
• Al ser proyecto más pequeños, se tienen menos riesgos

• Pasos:
• Entendimiento de negocio
• Maquetado de perspectivas
• Definición de infraestructura y soporte
• Definición de interfaces y etapas
• Planteo del esquema de deployment continuo.
Pensar desde el negocio hacia la tecnología. O desde el
resultado esperado hacia el producto de datos
– La idea de desarrollo iterativo es lo que nos permite ir mejorando de forma
continua nuestro producto, sumando features de forma incremental en
pos de lograr convertir el producto en algo viable y, por tanto, en un MVP.
– Es importante basarse en un plan de largo plazo y no en las exigencias
de los usuario a corto plazo
– Evitar caer en producto tan mínimos que sean poco útiles
– Se recomiendan sprints de 2 o 3 semanas
– Un MVP se plantea para ser desarrollado siguiendo el ciclo de «idear,
construir, medir y aprender». Sin embargo, en el momento de realizar su
diseño, se sigue un orden inverso comenzando por el planteo de una
serie de hipótesis a comprobar (aprender), luego se plantean una serie de
métricas o Key Performance Indicator (KPI) que nos permitan extraer la
información que nos ayude a comprobar la hipótesis (medir) y por último
construimos el MVP que necesitamos para poder medir y aprender sobre
nuestra hipótesis.
Tercer paso: lograr viabilidad
• Como obtener valor de cada interación?

• 1) definir de forma concisa y asertiva las métricas a utilizar
desde el inicio del proyecto
• 2) evaluar las métricas a consciencia en cada iteración
• 3) mejorar o ajustar el MVP según el resultado de la
evaluación.
Tercer paso: lograr viabilidad
• ¿Cuándo finalizan las iteraciones?¿Cómo socializamos el

MVP?
• El MVP hasta que no tenga feedback de personas
externas al proyecto solo es una hipótesis no validada
• Una buena práctica durante el desarrollo de las iteraciones
es plantear la pregunta «¿Cuáles la siguiente cosa más
importante que el producto actual no hace?». A medida
que se nos va haciendo más difícil responder a esta
pregunta, las probabilidades de que nos estemos
acercando al final de las iteraciones aumenta.
Algunos Conceptos
Data Lake
• Un data lake es un repositorio de almacenamiento que
contienen una gran cantidad y tipo de datos en bruto y que se
mantienen allí hasta que sea necesario. A diferencia de un data
warehouse jerárquico que almacena datos en ficheros o
carpetas, un data lake utiliza una arquitectura plana para
almacenar los datos.
• A cada elemento de un data lake se le asigna un identificador
único y se etiqueta con un conjunto de etiquetas de metadatos
extendidas. Cuando se presenta una cuestión de negocios que
debe ser resuelta, podemos solicitarle al data lake los datos
que estén relacionados con esa cuestión. Una vez obtenidos
podemos analizar ese conjunto de datos más pequeño para
ayudar a obtener una respuesta.
Algunos Conceptos
Small Data
• El Small Data es un conjunto de datos con un formato y un
volumen que los hace accesibles, informativos y procesables.
• El objetivo del Small Data es hacer entendible el Big Data,
conectando, organizando y empaquetando los datos para que
estén disponibles para todos los miembros de la organización,
siendo fáciles de aplicar en su día a día, y se centren en la
tarea en cuestión que se desea abordar.
• La diferencia entre el Big Data y el Small Data está en que el
primero atiende a las 5 V´s; mientras que el Small Data se
compone de porciones utilizables.
Algunos Conceptos
Dase de Datos In Memory

• Una base de datos en memoria almacena todos los datos de
una organización o de una persona en la memoria principal de
un ordenador.
• El análisis de datos en la base de datos en memoria es rápido
en comparación con las bases de datos tradicionales, que
utilizan dispositivos de almacenamiento secundarios. Estos
dispositivos de almacenamiento secundarios incluyen un disco
duro o dispositivos de estado sólido. La unidad central de
procesamiento (CPU) de un ordenador tiene acceso directo
solo a los datos almacenados en la memoria principal. Por lo
tanto, un ordenador puede leer/escribir datos en la memoria
principal mucho más rápido que los datos en el dispositivo de
almacenamiento secundario, lo cual hace que las bases de
datos en memoria sean increíblemente rápidas.
Perfil de Data Scientist
• Es un científico de datos, un experto estadista que da forma a los
datos en bruto que se generan en la red
• Un Data Scientist es el profesional que, ante enormes bases de
datos, la mayor parte de ellos desestructurados, aplica sobre ellas
sus conocimientos en programación, matemáticas y estadística
para recopilar, extraer y procesar información relevante que
contienen
• Perfil: “es mejor en estadística que cualquier programador, y mejor
programador que cualquier estadístico” (Josh Wills). Necesita una
simbiosis entre conocimientos técnicos como matemáticas,
estadística, programación; y habilidades personales como
curiosidad intelectual; comunicación efectiva o conocimiento del
negocio.
Casos de uso
Manufactura
Mantenimiento predictivo
Los grandes datos pueden ayudar a predecir fallas en los equipos.
Los posibles problemas se pueden descubrir analizando ambos datos estructurados (año,
marca y modelo del equipo) y datos multiestructurados (entradas de registro, sensores de
datos, mensajes de error, temperatura del motor y otros factores). Con estos datos, los
fabricantes pueden maximizar el tiempo de actividad de las piezas y los equipos e
implementar el mantenimiento de manera más rentable. Estos datos se pueden usar para
predecir más que solo una falla del equipo. Para muchas manufacturas procesos, también es
importante predecir la vida útil restante óptima de los sistemas y componentes para
asegurarse de que funcionan dentro de las especificaciones. Caer fuera de la tolerancia,
incluso si nada está roto, puede ser tan malo como el fracaso. Por ejemplo: en la fabricación
de medicamentos, un dispositivo defectuoso, pero aún funcional podría introducir demasiado
o muy poco del ingrediente activo.
Desafíos
Las empresas deben integrar datos provenientes de diferentes formatos e identificar las
señales que conducir a la optimización del mantenimiento.
Casos de uso
Manufactura
Eficiencia operacional
La eficiencia operativa es una de las áreas en las que el big data puede tener mayor impacto
en rentabilidad. Con big data, puede analizar y evaluar los procesos de producción, responder
de manera proactiva a los comentarios de los clientes y anticiparse a las demandas futuras.
Desafíos
Los equipos de datos deben equilibrar el volumen de datos con el creciente número de
fuentes, usuarios, y aplicaciones.
Casos de uso
Manufactura
Optimización de la producción
La optimización de las líneas de producción puede reducir los costos y aumentar los ingresos.
Los grandes datos pueden ayudar a los fabricantes a entender el flujo de artículos a través de
sus líneas de producción y identificar en qué áreas se puede beneficiar. El análisis de datos
revelará qué pasos conducen a un mayor tiempo de producción y cuáles áreas están
causando retrasos.
Desafíos
La optimización de la producción requiere que los fabricantes analicen los datos de sus
equipos de producción, uso de materiales y otros factores. La combinación de los diferentes
tipos de datos puede suponer un desafío.
Casos de uso
Retail
Desarrollo de productos
Big data puede ayudar a anticipar la demanda de los clientes. Al clasificar los atributos clave
del pasado y productos actuales y luego modelando la relación entre esos atributos y el
comercial éxito de las ofertas, puede crear modelos predictivos para nuevos productos y
servicios. Excavar más profundo mediante el uso de datos y análisis de grupos focales, redes
sociales, mercados de prueba y primeros lanzamientos de tiendas para planificar, producir y
lanzar nuevos productos.
Desafíos
Las empresas tendrán que analizar lo que puede ser un gran volumen de datos en diferentes
formatos, y luego cree segmentos de acuerdo con el comportamiento del cliente. También
tendrán que identificar sofisticados use patrones y comportamientos y mapéelos a nuevas
ofertas potenciales.
Casos de uso
Retail
Experiencia del cliente

La carrera por los clientes está en marcha. Big data proporciona a los minoristas una visión
más clara del cliente experiencia que pueden utilizar para afinar sus operaciones. Al recopilar
datos de las redes sociales, visitas web, registros de llamadas y otras interacciones de la
empresa, y otras fuentes de datos, las empresas pueden mejorar las interacciones con los
clientes y maximizar el valor entregado. El análisis de Big Data puede serse utiliza para
ofrecer ofertas personalizadas, reducir la rotación de clientes y manejar los problemas de
manera proactiva.
Desafíos
La integración de un gran volumen de datos de varias fuentes puede ser difícil. Una vez que
los datos son integrados, el análisis de ruta se puede utilizar para identificar rutas de
experiencia y correlacionarlas con varios conjuntos de comportamiento.
Casos de uso
Servicios Financieros
Fraude y cumplimiento
Cuando se trata de seguridad, no se trata solo de unos pocos piratas informáticos
deshonestos. La industria de servicios financieros es contra equipos completos de expertos.
Si bien los panoramas de seguridad y los requisitos de cumplimiento son Constantemente
evolucionando. Mediante el uso de big data, las empresas pueden identificar patrones que
indican fraude y agregar grandes volúmenes de información para agilizar los informes
regulatorios.
Desafíos
Estos datos requieren la integración de diferentes conjuntos de datos de transacciones con
información adicional, tales como eventos de interacción y comportamiento del cliente. Para
identificar posibles patrones de fraude, las empresas tendrá que tamizar a través de un gran
volumen de datos.
Ejercicio en Clase
Busque en internet un caso de éxito de big data y colóquelo en la
siguiente estructura:
1) Situación Inicial
2) Desafío
3) Despliegue
4) Resultados
Responda:
1) Identifique los atributos de Big data en el caso planteado
2) Herramientas utilizadas
3) ¿Cual podría ser una siguiente ola o sprint?
Business Intelligence

Gadtd s11 Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Gadtd s11 Big Data

Cargado por

Copyright:

Formatos disponibles

Gestión y

Semana 11 – Big data

Big data se refiere normalmente a la

Representa la —muchas veces difusa— frontera que separa

Propiedad que refleja la diversidad tanto en el origen como en el

Big data fue evolucionando de forma incremental a lo largo del

Soluciones centradas en herramientas basadas en SQL, cuyo auge se

Procesamiento en lotes o batch

Agrupa las soluciones basadas en el procesamiento masivo de datos en

Procesamiento cercano al tiempo real o NRT

Esta generación tiene su relación directa con las herramientas y los

Primer paso: Pensar en Objetivos de negocio

Segundo paso: Definir un producto mínimo (MVP)

Tercer paso: Lograr Viabilidad

Primer paso: Pensar en Objetivos de negocio

Segundo paso: definir un producto mínimo (MVP)

Segundo paso: definir un producto mínimo (MVP)

Tercer paso: lograr viabilidad

• Como obtener valor de cada interación?

Tercer paso: lograr viabilidad

• ¿Cuándo finalizan las iteraciones?¿Cómo socializamos el

Dase de Datos In Memory

Experiencia del cliente

También podría gustarte