Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
AGENDA DE LA JORNADA
• Intercambio
.
2
3
Contexto de la clase
• Disponibilidad de distintas fuentes de datos, en formatos
heterogéneos
• Necesidades de infraestructura
4
Relación con Sistemas Inteligentes
• Sistemas conducidos por datos
Incorporar “inteligencia” en
procesos de operación/negocio Inteligencia Artificial
Minería de
Diferenciación en términos de valor Datos ML
agregado Ciencia de
Datos
Personalización de capacidades y
funciones del sistema
Big Data
Soporte a la toma de decisiones Arquitecturas
de Software
8
Una definición de Big Data
• Es el campo dedicado al análisis, procesamiento y almacenamiento de grandes
conjuntos de datos, que frecuentemente se originan en distintas fuentes.
• Las soluciones y prácticas de Big Data son necesarias cuando las técnicas y
tecnologías tradicionales para análisis, procesamiento y almacenamiento no son
suficientes
9
¿De dónde provienen los datos?
• Generados por humanos
• Son el resultado de una interacción humana
con sistemas de SW
• Por ej., servicios online y digitales tales como
redes sociales, e-mails, mensajería, etc.
10
Terminología básica de Datos
• Conjunto de datos
• Análisis de datos
• Analítica
• Inteligencia de negocios (BI)
• Indicadores claves de desempeño (KPIs)
• Conductores de negocio (drivers)
• Cloud Computing
11
Conjunto de Datos
• Son colecciones o grupos de datos relacionados
• Todas las instancias comparten el mismo conjunto de atributos (esquema)
12
Análisis de Datos
• Es el proceso de examinar datos para encontrar hechos, relaciones, patrones,
insights, o tendencias. El objetivo normalmente es dar soporte a la toma de
decisiones
• Un ejemplo simple puede ser el análisis de históricos de ventas en relación a ciertos
períodos de tiempo, estacionalidad, condiciones climáticas, etc.
• El análisis de datosde
Casos ayuda a establecer
uso en general. patrones y relaciones entre los datos
Ejemplo: Recolección de MAC addresses (datos
semi-estructurados)
Usos
de dispositivos móviles, para
Existen incontables casos de uso que se puede ir
Presentación
Es posible también representar la información, casi de
cualquier forma que sea requerida, gráficos interactivos, en
tiempo real, completamente dinámicos. Este tipo de
soluciones son practicas a la hora de armar estrategias para 13
dispersión de aglomeraciones, manejo de emergencias
Analítica (de datos)
• Es la disciplina que busca lograr un entendimiento de los datos mediante técnicas científicas de
análisis y herramientas automatizadas, donde el foco está en identificar patrones y correlaciones
• En ambientes de Big Data, la analítica se realiza utilizando tecnologías y frameworks distribuidos para
analizar grandes volúmenes de datos y con diferentes formatos
14
Inteligencia de Negocios (BI)
• Es el proceso de extraer insights sobre el funcionamiento de una empresa con el fin
de mejorar la toma de decisiones en la misma, analizando fuentes de datos
externas y datos generados por los procesos de negocio
• Los KPIs están estrechamente vinculados a los objetivos de negocio (o misión) de una
empresa, y a menudo se usan para:
• Identificar áreas problemáticas, a fin de tomar acciones correctivas
• Adherir a normativas o regulaciones
16
Ejemplo:
Tableros
17
Ejemplo:
Call Center Monitoring - 5 Second Auto Refresh
Resolution Status Summary Average Duration (sec) Average Wait Time (sec)
18
Drivers de Negocio y Tecnología (Big Data)
• Big Data emerge como una combinación de
necesidades de negocio e innovaciones tecnológicas Los conceptos de objetivos de
negocio y drivers se relacionan
• Los principales conductores (drivers) incluyen: también con atributos de calidad
• Analítica y ciencia de datos en arquitecturas de software
• Digitalización
• Tecnologías accesibles y hardware de bajo costo
• Medios sociales
• Hiper-conectividad de comunidades y dispositivos
15x
19
(Big) Data Analytics
El diseño de arquitectura es
relativamente trivial
Las principales decisiones
tienen que ver con:
- Usar una arquitectura de
referencia (por ej., 3 tier)
- Diseño tradicional de BD
relacional
- Patrones para estilo cliente-
servidor
20
El valor del Análisis de datos
VALOR PARA EL NEGOCIO
21
Características de los Datos
• Son los que normalmente diferencian una aplicación o solución Big Data
18a
22
Volumen
• Se relaciona con la capacidad de generar datos
23
Velocidad
• Tiene que ver con la velocidad a la que se ingresan los datos al sistema
24
Variedad
• Se refiere a los múltiple formatos y tipos de datos que el sistema debe soportar
25
Veracidad
• Se refiere a la calidad o fidelidad de los datos
• Algunos datos puede tener un significado o estar “limpios”, mientras que otros datos
pueden tener “ruido” y no agregar valor
• Relación señal/ruido
• Los datos que se adquieren de manera controlada (por ej., transacciones de clientes)
suelen contener menos ruido que los datos que se adquieren de fuentes “no
controladas” (por ej. blogs)
26
Valor
• Se define en términos de la utilidad de los datos para la empresa
• Esta característica se relaciona directamente con la veracidad, ya que una alta fidelidad en los
datos implica generalmente mayor valor para el negocio
• El valor es dependiente de cuanto tiempo lleva procesar los datos, ya que valor y tiempo se
consideran
inversamente
proporcionales
• Cuanto más tiempo
lleve extraer información
útil de los datos, menor
será el valor para el 18h 18i
negocio, ya que se afecta
la capacidad para tomar
“buenas” decisiones
27
Tipos de Datos
• De acuerdo a la organización interna de los datos, se dividen en las siguientes
categorías
• estructurados
• no estructurados
• semi-estructurados
• Y también meta-datos
(que no se considera técnicamente un tipo de datos,
pero que está relacionado a la estructura de los datos)
28
Datos estructurados
• Sus características son:
• Adhieren a un modelo de datos o esquema
• Se almacenan en forma de tabla
• Pueden ser relacionales
29
Datos no estructurados
• Son características son:
• No adhieren a un modelo de datos o esquema
• Pueden tolerar inconsistencia
• Son no relacionales
30
Datos semi-estructurados
• Son características se refieren a:
• Nivel de estructura y consistencia (aunque no llega a ser relacional)
• Por ej., formatos XML, JSON
• Suelen ser más fácilmente procesables que los datos no
estructurados
31
Meta-datos
• Provee información sobre las características y la estructura del conjunto de datos
• Este tipo de datos generalmente lo genera la misma computadora o algoritmo y lo
adjunta a los datos
• En Big Data los meta-datos son importantes para procesar, almacenar y analizar los
conjuntos de datos. También sirven para determinar provenance
• Ejemplos incluyen:
• Tags XMLs
• Tamaño y resolución, en imágenes
32
Importancia de la Metadata
• Básicamente la implantación de Big Data debe:
33
Niveles de Metadata
• Metadata del negocio empresariales
• Suministra el contexto empresarial en torno a los datos, como el nombre, la
definición, los propietarios o los administradores, y los datos de referencia
asociados
• Metadata técnica
• Proporciona información técnica sobre los datos, como el nombre de la tabla de
origen, el nombre de columna de la tabla de origen y el tipo de datos y sus reglas
• Metadata Operacional
• Proporciona información sobre el uso de los datos, como la fecha de última
actualización, el número de veces que se accedió o la fecha en que se accedió
por última vez. También provee información sobre los procedimientos de
ejecución y análisis.
34
Tipos de datos y Veracidad
• Los datos semi-estructurados y no estructurados tiene una mayor relación señal-
ruido que los datos estructurados
35
Tecnologías relacionadas con Big Data
• Las siguientes son tecnologías que hace tiempo están disponibles en el
mercado y que al mismo tiempo son relevantes para soluciones y
ecosistemas de Big Data:
36
Tecnologías relacionadas con Big Data
• OLTP son sistemas de software que procesan datos orientados a
transacciones
• Ejemplos:
• Sistemas bancarios
• Reserva de pasajes
• Transacciones POS
37
Tecnologías relacionadas con Big Data
• OLAP es una aplicación utilizada para procesar análisis de datos a partir de
queries
• Este tipo de aplicaciones son importantes para Big Data porque pueden
servir como fuentes de datos y también receptores de los mismos
38
Tecnologías relacionadas con Big Data
• OLAPs son utilizadas para diagnóstico, analytics predictivo y prescriptivo
39
Tecnologías relacionadas con Big Data –OLTP vs. OLAP
Características OLTP OLAP
Fuente de Datos Datos originales de la operación Se reciben de las apps OLTP
Diseño de la base de datos Normalizados – muchas tablas Des normalizados, pocas tablas
40
Tecnologías relacionadas con Big Data
• Una ETL es una herramienta, (y/o un proceso), que toma datos desde una fuente bien
identificada y los carga en un sistema destino
• La fuente de datos puede ser una base de datos, un archivo plano o una aplicación
• El sistema destino puede ser una base de datos o algún otro tipo de sistema de
información
• Una ETL es la operación básica a través de la cual un Data Warehouse obtiene sus
datos. Una aplicación de Big Data utiliza ETLs para convertir datos de diferentes tipos,
(no es la única)
41
Tecnologías relacionadas con Big Data
Base de datos relacionales Data Warehouse
Diseño ETL: Proceso
identificar y
Sistema 1 Mapear fuente
Sistema 2 Extracción
Sistema n Perfilar
Transformación
Data Mart n
Excel Agregación
PDF
TXT, XML Filtrado
Join
Otras fuentes
ERP Ordenamiento
CRM
Carga
SCM Creación de
workflows para carga
42
Tecnologías relacionadas con Big Data
• Un Data Warehouse es un repositorio central, focalizado en la empresa en toda su amplitud
que consiste de información vigente e histórica. Este repositorio es utilizado para resolver
consultas a través de BI.
• Tiene una fuerte interacción con OLAP para resolver queries de analytics
• También suele tomar datos desde otras fuentes, (CRM, SCM, ERP, OLTP), para consolidación
en un único dataset.
• Los Data Marts son un subconjunto de los datos almacenados en un DW que, típicamente,
responden a un departamento, división o línea particular del negocio
43
Tecnologías relacionadas con Big Data
45
Tecnologías para Big Data: Bases de datos NoSQL
• Creados para soportar las nuevas necesidades de
almacenamiento, procesamiento y recuperación
46
Tecnologías para Big Data: Teorema de CAP
• Consistencia
• Cada lectura recibe la más reciente
actualización o un error
• Disponibilidad
• Cada requerimiento recibe una respuesta, (no
error), sin garantizar la última actualización
• Particionado
• El sistema continúa funcionando a pesar de un
número arbitrario de mensajes que son
descartados (o retrasados por los nodos de la
red)
47
Tecnologías para Big Data: Teorema de CAP
• Combinaciones posibles:
• CA
• CP
• AP
http://www.w3resource.com/mongodb/nosql.php
Tecnologías para Big Data: Hadoop
• Hadoop es un framework open source creado para almacenar y procesar grandes volúmenes de
datos que puede ser ejecutado en hardware no demasiado sofisticado, (hardware comodity).
• Puede ser utilizado como un motor de ETLs o como un motor de analytics para procesar
grandes volúmenes de datos estructurados, semi estructurados o no estructurados.
• Por ejemplo:
• Tags XML proveen información del autor y fecha de creación de un documento
• Atributos que proveen el tamaño del archivo o resolución de una fotografía digital
• Y las preguntas bien formuladas requieren una clara comprensión de los problemas del
negocio y no de los datos en si mismo.
• BI Tradicional utiliza
DW y Data Marts para
reportes y análisis de
datos
• Big Data BI conjuga ambos analytics: predictivo y prescriptivo para facilitar una visión
integradora para poder entender cómo esta operando el negocio
• La resultante de esta nueva generación son DW híbridos, los cuales actúan como un
repositorio uniforme y central de todos los tipos de datos que fluyen en la organización.
Este repositorio está disponible para ser explotado por herramientas de BI.
• Esta nueva tecnología evita que las herramientas de Big Data BI deban acceder a múltiples
fuentes de información para recibir y/o acceder a datos.
BI y Big Data
INTERVENCION
DESCRIPTIVO HUMANA
EJECUCION MANUAL
BIG
DATA PREDICTIVO INTERVENCION HUMANA EJECUCION MANUAL
PRESCRIPTIVO
BIG LOGIC
ESPACIO COMPARTIDO DE CONOCIMIENTO
58
Una definición
“La arquitectura de un programa o sistema es la
estructura o las estructuras del sistema que
contienen a los componentes, las propiedades
visibles de esos componentes y las relaciones entre
ellos”
Software Architecture in Practice
(Bass, Clements and Kazman, 1998)
59
Arquitecturas como “blueprints”
60
Arquitecturas para Procesamiento de Datos
61
Algunos casos de la vida real
• Un sistema de procesamiento de logs (de películas) para crear un dashboard funciona
correctamente, pero presenta problemas cuando se quiere incrementar el número de dispositivos
que envían sus logs para procesar.
62
¿Qué tienen en común?
• Toma de decisiones técnicas
• Algunas pobres o malentendidas
• Algunas de estas decisiones son arquitecturalmente relevantes
63
Atributos de Calidad
• Sin atributos de calidad • Con atributos de calidad
• El sistema implementa la funcionalidad • Hablan sobre la calidad esperada del
correcta pero: sistema
• “Anda lento” • Están definidos desde el punto de vista
• permite que los hackers roben datos de los stakeholders
• Está caído la mayor parte del tiempo • De manera precisa (no ambigua)
• No escala • Permite “testear” si el requerimiento de
• Es difícil realizar cambios o integraciones
atributo de calidad se satisface o no
• …
64
Atributos de Calidad (en general)
• Propiedades (sistémicas) de un producto de software a través de las cuales los
stakeholders juzgan la calidad del producto
• Performance
• Seguridad
• Modificabilidad
• Disponibilidad
• Usabilidad
• Portabilidad
• Estabilidad
• Escalabilidad
• “Webifyability”
• “Greenability”
• …
65
Atributos de Calidad en Big Data
• Cómo se relacionan las Vs (de Big Data) con los atributos de calidad?
18a
• Seguridad (y privacidad)
66
CONSULTAS