Está en la página 1de 52

Maestría en

Finanzas
Generación de
FI-75301 Macrodatos y
Fintech conocimiento
M.Sc. Walter Jeremías López.
con Big Data.
Maestría en
Finanzas Objetivos de aprendizaje:
• Describir las principales
arquitecturas de Big Data en
FI-75301 Macrodatos y cuanto a la manera de
Fintech incorporarlas a sus entornos
laborales.
• Explorar las diferentes
M.Sc. Walter Jeremías López. plataformas disponibles en el
mercado para el análisis de Big
Data en las empresas.
Maestría en
Finanzas Competencias a desarrollar:
• El alumno conoce la manera
en que funcionan las
FI-75301 Macrodatos y arquitecturas de Big Data para
Fintech incorporarlas en su trabajo.
• El alumno conoce las
plataformas de Big Data
M.Sc. Walter Jeremías López.
disponibles en el mercado
para incorporarlas en su
empresa.
Maestría en
Finanzas Agenda:

• Gestión organizativa eficiente


mediante la cadena de valor.
FI-75301 Macrodatos y • Aplicaciones sectoriales,
Fintech.
arquitecturas y almacenes
para macrodatos.
• Plataformas, tecnologías y
M.Sc. Walter Jeremías López. aplicaciones para Big Data.
• Conclusiones.
Generación
Cadena de
valor Adquisición
Cómo gestionar
eficiente el Big Data
mediante la cadena Almacenamiento
de valor.

Análisis
Generación Adquisición Almacenamiento Análisis
1) Los datos se generan de
múltiples y diversas fuentes.
Fase 1:
Generación
2) Según los objetivos estratégicos
Fases de la cadena planteados, se deben elegir las
de valor de los fuentes apropiadas donde se espera
macrodatos. obtener los datos que se necesitan
para alcanzarlos.
1) Recogida de datos – 2 enfoques:
◦ Pull.
Fase 2: ◦ Push.

Adquisición 2) Transmisión.

Fases de la cadena 3) Preprocesamiento:


◦ Integración (ETL):
de valor de los
◦ Extraer: Extraer los datos.
macrodatos. ◦ Transformar: con rutinas o scripts.
◦ Cargar: a un Datawarehouse.
◦ Limieza.
◦ Eliminar la redundancia.
Los datos se pueden cargar en
diferentes repositorios adecuados
Fase 3: para datos masivos según su fase,
Almacenar los cuáles pueden ser:
a) Data Lake.
Fases de la cadena
b) Data Warehouse.
de valor de los
macrodatos. c) Data Mart.
Normalmente no están normalizados
y son diferentes a una base de
datos tradicional.
Esquema de los repositorios de Big Data:
Comparación de repositorios de datos:
Comparación de repositorios de datos:
Base de datos Data Operational
Características Data Lake Data Mart
relacional Warehouse Data Store
Tipos de datos. Estructurados, Relacional, Estructurados y Datos Datos
numéricos, datos de no relacionales, transaccioneale
texto, fechas, sistemas estructurados subconjuntos s de distintas
organizados en transaccionales, de sensores, para funciones bases de datos
un modelo bases sitios web, apps específicas. de la empresa.
relacional. operacionales y móviles y de
aplicaciones. negocios, etc.
Propósito. Procesamiento Almacenar Análisis de Big Datos usados Ingestar,
de datos para Data, machine para análisis por integrar, guardar
transacciones. inteligencia de learning, una comunidad y prerar datos
negocios, análisis específica de para
reportes por predictivo y usuarios. operaciones o
lotes y descubrimiento análisis,
visualización de de datos. alimenta el data
datos. warehouse.
Comparación de repositorios de datos:
Base de datos Data Operational
Características Data Lake Data Mart
relacional Warehouse Data Store
Captura de Desde una sola Desde múltiples Desde múltiples Típicamente del Múltiples bases
datos. fuente, como un fuentes fuentes y varios data warehouse, de datos de
TPS. relacionales. tipos de datos. pero puede aplicaciones
venir de empresariales y
sistemas fuentes.
operacionales o
fuentes externas
Normalización Esquemas Esquemas Desnormalizado Normalizado o Desnormalizado
de datos. estáticos y desnormalizado , esquema desnormalizado. .
normalizados. s, sobre sobre lectura.
escritura.
Comparación de repositorios de datos:
Base de datos Data Operational
Características Data Lake Data Mart
relacional Warehouse Data Store
Beneficios Provee datos Datos históricos Datos en su Fácil, rápido Consultas
consistentes de diferentes formato nativo acceso a datos rápidas en
para fuentes en un de diversas relevantes para tiempo real (o
aplicaciones solo lugar para fuentes. aplicaciones casi) para
críticas de accesibilidad. Flexibilidad para específicos y reportes y
negocios. análisis y tipos de decisiones
desarrollo de usuarios. operativas.
modelos.
Calidad de los Organizados y Datos curados, Datos crudos Datos con alto Datos limpios y
datos. consistentes. centralizados y que pueden nivel de conformes, pero
listos para tener errores y curación. no tan
usarlos en BI y redundancia consistentes
análisis. para su uso. como en data
warehouse.
Engloba un conjunto de procedimientos

Fase 4: y modelos estadísticos. Existen 3 líneas


de investigación:
Análisis a) Diseño de tecnologías y SW para
Fases de la cadena análisis según el tipo de datos.
de valor de los b) Diseño de métodos de análisis.
macrodatos.
c) Visualización.
Algunos métodos de análisis son:
Métodos de extracción y análisis de datos:
Tipos de datos Extracción Métodos
Detección de anomalías. Algoritmos.
Descubrimiento de
Estructurados. estructuras mediante la
explotación de Minería de datos (Data Mining).
características, tiempos
y espacio.
Sistemas de minería de texto
basados en: expresiones,
Desestructurados: procesamiento de lenguaje natural:
Datos de texto
datos en texto. resumen de texto, clasificación,
agrupación, minería de opinión,
etc:
Métodos de extracción y análisis de datos:
Tipos de datos Extracción Métodos
Minería de contenido web, análisis
Texto, multimedia, foros.
multimedia, minería de hipertexto.
Estructuras de los
enlaces dentro de una Minería de estructura web.
web entre varias web.
Datos de Web. Logs de servidores y
proxies, historiales de
Minería de uso web: para cualquier
navegación, perfiles de
dato generado en la interacción
usuarios, sesiones de
con la web.
usuario, preguntas,
bookmarks, clics, etc.
Métodos de extracción y análisis de datos:
Tipos de datos Extracción Métodos
Resumen, anotación, indexación,
Video, música,
Datos multimedia recuperación, detección de
imágenes.
acontecimientos.
Análisis de redes sociales.
Datos masivos
Análisis de la estructura basada en
Redes sociales enlazables, datos de
enlaces.
contenidos
Análisis basado en contenidos.
La estadística se divide en 2: descriptiva

Análisis e inferencia, puede ser paramétrica o no


paramétrica. En su mayoría se basa en
estadístico la teoría de la probabilidad, creando
modelos estocásticos.
Tipos de estadística
y análisis a realizar. Los tipos de análisis pueden ser:
a) Univariante.
b) Bivariante.
c) Multivariante.
Engloba un conjunto de metodologías,
procesos de modelización y técnicas
Minería de matemáticas para analizar datos de
Datos distintas fuentes con el objetivo de
extraer información previamente
Modelos predictivos,
desconocida.
de clasificación o
segmentación.
Analiza estructuras de datos de las que
emergen patrones de comportamiento y
tendencias.
Utiliza técnicas basadas en estadística e
Inteligencia Artificial:
Minería de
Aprendizaje de Máquina (Machine
Datos Learning).
Técnicas de data ◦ Algoritmos supervisados.
◦ Algoritmos no supervisados.
mining empleadas
con datos masivos.
Los algoritmos más representativos
son: regresiones, árboles de decisión,
redes neuronales, clustering,
segmentación y reglas de asociación.
Redes Neuronales (ANN – Artificial
Neural Networks):
Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Regresión lineal simple:

Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Regresión lineal múltiple:

Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Regresión

Minería de logística:

Datos
Algoritmos de data
Comparación:
mining más
utilizados con datos
masivos.
Árboles de decisión:

Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Agrupamiento (clustering):

Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Segmentación:

Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Reglas de asociación:

Minería de
Datos
Algoritmos de data
mining más
utilizados con datos
masivos.
Extrae información de los enlaces,
contenidos de páginas web y logs de los
Minería recursos de Internet:
Web
Definición y tipos de 1. Estructura web (Web structure
Web Mining. mining).
2. Contenido web (Web content mining).
3. Uso de la web (Web usage mining).
Se fundamenta en lingüística
computacional, procesamiento de texto y
Minería de aprendizaje automático:

texto 1. Usan diccionarios para eliminar


conjunciones, preposiciones,
Extraer lematización, signos, tags, etc.
conocimiento de 2. Dispone de modelos de representación
texto no de documentos como modelo vectorial
estructurado. de Salton (esquema tf.idf).
3. Usan glosarios, tesauros, taxonomías y
ontologías para relaciones semánticas.
1. Opinion mining y Sentiment Analysis:
valorar opiniones positivas o
Minería de negativas del público.
texto 2. Social Network Analysis (SNA):
Otras técnicas de estudia las interacciones y relaciones
minería de texto. en redes sociales (centralidad,
proximidad, intermediación,
visibilidad y exposición, notoriedad,
influencia, engagement, popularidad).
3. Reputation Management.
1. En la cadena de valor es importante
velar por la calidad de los datos: La
Data norma técnica es la ISO 8000.
Governance 2. Los roles identificados son: gestor de
La gobernanza de datos, administrador de dato y
los datos y de la técnico de datos.
información. 3. La gobernanza de la información:
A. Gestión y cultura organizativa.
B. Control y uso de la información de
forma holística y transversal.
Generación

Data Uso Selección

Governance
Ciclo de vida de la
gestión de la
Distribución Representación
información.

Recuperación Almacenaje
Determinación
FCV / Recursos

Data Revisión Recogida

Governance
Ciclo de vida de la
inteligencia
Aplicación Filtro y análisis
competitiva.

Difusión de
Protección
resultados
Crear y
capturar
conocimiento
Data Evaluar
Governance
Contextualizar
Ciclo de la gestión
del conocimiento.
Adquirir y Diseminar y
aplicar compartir
conocimiento conocimiento

Actualizar
El análisis se puede hacer
desde 3 visiones:
Gestión
organizativa Perspectiva Prospectiva
o descriptiva o predictiva
Generación de
conocimiento para la
acción.

Prescriptiva
1. Alta gerencia: BSC con Big Data.
2. Mercadeo: clientes, fuerza de ventas.
Gestión
3. Producción: cadena de suministro,
organizativa líneas de producción.
Aplicaciones 4. Contabilidad, auditoría y finanzas:
sectoriales del Big prevención de fraude y lavado,
Data o por funciones análisis de transacciones, riesgos.
de negocio.
Vean Open Data: ODI
Ejemplos: data.gov data.gov.uk
Liderazgo

Gestión
organizativa Cultura Gestión del
Corporativa talento
Los 5 retos de la
gestión de datos
masivos en la
empresa.
Toma de
Tecnología
decisiones
Modelos

Gestión de
Macrodatos Arquitecturas
Infraestructur
as
Herramientas para la
Ecosistema
de
gestión de datos
macrodatos
masivos en la
empresa.
Protocolos Tecnologías
Deben proporcionar rendimiento de
R/W, acceso a datos simultáneos,
Gestión de creación de FS bajo demanda y
sincronizar archivos:
Macrodatos
1. Acceso distribuido y transparencia
Sistemas de archivo en la localización.
para datos masivos.
2. Gestión de fallos (Fault Tolerance).
3. Heterogeneidad.
4. Distribución definida de datos.
5. Tolerancia a la partición de la red.
No son relacionales ni utilizan SQL,
tienen las siguientes cualidades:
Gestión de 1. No siguen el esquema E-R (Entidad
Macrodatos – Relación). Por lo tanto carecen de
estructura prefijada en tablas y
Tecnologías de
relaciones.
bases de datos para
datos masivos. 2. Usan Lenguaje NoSQL, que
significa Not only SQL.
3. Implementaciones BigTable y
orientadas a grafos.
Los Macrodatos se almacenan en
cientos o miles de servidores, que
Gestión de operan con modelos de programación
Macrodatos paralelos (PPM):
1. Los modelos paralelos tradicionales
Modelos de
como MPI u OpenMP pueden ser
programación para
inadecuados para gran escala.
datos masivos.
2. Los nuevos modelos son:
MapReduce, Dyrad, Ajo-Pairs y
Pregel.
MapReduce:
Modelo de programación creado por
Gestión de aplicaciones que deben grandes
Macrodatos cantidades de datos de forma paralela,
dividiéndolos en grupos para
Modelos de
procesarlos distribuidos en diferente
programación para
HW, para luego combinar el resultado.
datos masivos.

Permite varios lenguajes: Java, Ruby,


Python y C++.
Gestión de Es una estructura de SW Open Source
para almacenar datos y ejecutar
Macrodatos aplicaciones en clústeres de HW.
Modelos de Surge de las ideas de datos distribuidos
programación para de Google, así como del proyecto Nutch
datos masivos dividido en dos partes: el rastreador
web que se mantuvo como tal y el
motor de cómputo y procesamiento
distribuido se convirtió en Hadoop.
Ecosistema Hadoop:
Tecnologías y aplicaciones más empleadas.
La cadena de valor para la gestión de
macrodatos consta de 4 fases principales:
Generación, adquisición, almacenamiento y
análisis. Las cuales a su vez tienen subfases
o subprocesos para gestionar la calidad de
los datos.

Conclusiones
Para obtener datos, se pueden extraer
automáticamente mediante crawlers o enviar
bajo demanda (pull o push).

El preprocesamiento se hace con el método


ETL (Extract, Transform, Load).

Conclusiones
Los datos procesados se deben limpiar,
eliminar la redundancia y luego almacenar.

Los tipos de repositorios para guardarlos


pueden ser: Data Lakes, Data Warehouse o
Data Mart.

Conclusiones
Para analizar y visualizar datos se usan
diferentes técnicas estadísticas, minería de
datos y algoritmos de aprendizaje automático
lo cual se conoce como ciencia de datos.
Las principal tecnología para gestión de
macrodatos son MapReduce y el ecosistema
Hadoop.

Conclusiones
Maestría en
Finanzas
¡Gracias por
FI-75301 Macrodatos y
Fintech.
su atención!
M.Sc. Walter Jeremías López. ¿Preguntas o comentarios?

También podría gustarte