Está en la página 1de 29

BIG DATA

Datos masivos

• Ing. Iván García S., PhD


• idgarcia@utn.edu.ec
• www.ivangarciasantillan.com

• Abril 2023
Contenido general
• Unidad 1. Introducción al Big Data
• Unidad 2. Técnicas y algoritmos para análisis de Big Data
• Unidad 3. Back-End (Arquitecturas) para Big Data
• Unidad 4. Proyecto final

Horario:
lunes 07h00 – 10h00 y Martes de
09h00 a 11h00
03-Abr. 2023 al 31-Jul. 2023
2
Contenidos detallados:
• Introducción al Big Data
• ¿Qué es big data?
• Metodologías para desarrollo de proyectos de análisis de datos masivos
• KDD
• CRISP-DM
• Aspectos legales y éticos del uso del Big Data: Privacidad y Seguridad
• Técnicas y algoritmos para análisis de Big Data
• Predictivos: clasificación y regresión
• Descriptivos: agrupamiento y asociación
• Framework y Back-End para Big Data
• TensorFlow y Keras
• MongoDB (noSQL)
• Apache Hadoop, PySpark
• AWS, Azure, Google Cloud Platform

3
UNIDAD 1
Introducción al Big Data

4
Big Data
• El Big Data es el análisis masivo de datos. Una cuantía de datos,
sumamente grande, que las aplicaciones de software de procesamiento de
datos que tradicionalmente se venían usando no son capaces de capturar,
tratar y poner en valor en un tiempo razonable; También se refiere a los
procedimientos usados para encontrar patrones/relaciones repetitivos
dentro de esos datos.
• Las dificultades más habituales vinculadas a la gestión de estas cantidades
de datos se centran en la recolección y el almacenamiento, búsqueda,
compartición, análisis,​ y visualización.
• La tendencia a manipular enormes cantidades de datos se debe a su
crecimiento de manera exponencial provenientes de varias fuentes:
Internet (buscadores, correo), IoT, dispositivos móviles, redes sociales,
comercio electrónico, etc.

5
TIPOS DE DATOS EN BIG DATA
• Datos estructurados (Structured Data): Datos que tienen bien definidos su
longitud y su formato, como las fechas, los números o las cadenas de
caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos
relacionales y las hojas de cálculo.

• Datos no estructurados (Unstructured Data): Datos en el formato tal y como


fueron recolectados, que carecen de un formato específico. No se pueden
almacenar dentro de una tabla ya que no se puede desgranar su información a
tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia
(imagen, audio, video), e-mails o documentos de texto.

• Datos semiestructurados (Semistructured Data): Siguen una especie de


estructura pero no es lo suficiente regular como para gestionarla como datos
estructurados, Ej. HTML, XML, Json

6
Características del Big Data: las 7 “V”
• Velocidad: con la que actualmente se generan y procesan los datos.
• Volumen: la cantidad de datos generados está aumentando exponencialmente.
• Variedad: proceden de numerosas fuentes y se encuentran en distintos formatos,
cada vez más en forma no estructurada.
• Veracidad: fiabilidad y calidad de los datos (ISO/IEC 25012)
• Valor: El valor de los datos está en que sean accionables, es decir, que permitan
tomar una decisión/acción (la mejor) en base a los datos. Hace referencia al
beneficio para las empresas.
• Visualización: mostrar gráficamente los resultados de forma clara, sencilla.
Resumida (dashboard, balacescorecard).
• Variabilidad: varían mucho, no son fijos en el tiempo y requieren de un control
periódico. Ej. modelos post-covid

7
Beneficios del Big Data
• Convertir: Dato → información → conocimiento → decisión → acción
• Permite que una empresa tenga ventajas competitivas.
• Transformación digital basada en datos.
• Podremos sacar conclusiones con una base más sólida y unos conceptos que se
orienten a la toma de decisiones/acciones efectivas.
• Todo ello, aplicando no únicamente variables del pasado, sino predicciones a
futuro mucho más fundamentadas en una base científica.
• Casos de éxito empresarial: Amazon: recomendación de productos; Netflix:
creación de nuevos contenidos basado en preferencias; T-Mobile: retención de
clientes. Nike: Fidelización de clientes (promociones, desafíos).
• Otros ámbitos de aplicación: selección de deportistas para clubes de élite
(Manchester United), ayuda en campaña electoral (Facebook), detección de
fraudes bancarios, sistemas de detección de intrusos IDS, etc.

8
¿Por qué dominar Big Data?
• Tres razones:
• Actualmente, el Big Data es el principal destino para la inversión para las empresas.
• Es la principal fuente de empleo cualificado.
• Es la mayor causa de creación de empresas de productos y servicios (startups) en el
ámbito de los sistemas de información.
• Los profesionales dedicados al tratamiento del Big Data, denominados
Data Scientists, se han convertido en unos de los mejores pagados del
sector TIC, en parte por la escasez de profesionales con este perfil.
• Según la encuesta anual KDNuggets, el salario de un Data Scientist en
Estados Unidos oscila entre los 103.000 y los 131.000 dólares mientras que
en Europa se encuentra entre los 54.000 y los 82.000 dólares.
9
Cursos de AWS:

• AWS Academy Cloud Foundations: 20 horas, teórico.


• AWS Academy Introduction to Cloud: Semester 1, 60 horas, teórico-
práctico (laboratorios).

10
Data Science
(Big Data)
La parte medular de la
ciencia de datos son los
algoritmos de Inteligencia
Artificial que manejan
datos, ellos forman parte de
la minería de datos, y
tienen la finalidad de
explorar y sacarles el
máximo valor. Dentro de
este campo, tenemos 2 tipos
de aprendizaje. El
supervisado y no
supervisado.

11
Minería de Datos (Data Mining)
La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge
Discovery in Databases" o KDD) es un campo de la estadística y las ciencias de la
computación referido al proceso que intenta descubrir patrones (relaciones,
tendencias) en grandes volúmenes de conjuntos de datos.

Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y


sistemas de bases de datos.

Tenemos 2 grandes grupos: técnicas predictivas y descriptivas.

12
Técnicas de análisis de datos masivos:
Técnicas predictivas:
• Clasificación: El atributo a predecir (target) es de tipo cualitativo (categoría). ej.
clasificación de objetos en imágenes: perro, gato, avión, laptop.
• Regresión: similar a la clasificación, pero el atributo a predecir es de tipo
cuantitativo. Regresión lineal y múltiple.
Excepción: la regresión logística es una técnica para clasificación binaria.
Técnicas Descriptivas:
• Agrupamiento: segmentación en grupos homogéneos. Ej. Clientes A, B, C
• Asociación: identificación de productos que habitualmente se compran juntos
(análisis de la canasta). Ej. pan, azúcar → leche. Reglas antecedente-consecuente.
• Detección de atípicos: localización de objetos que manifiestan características
significativamente diferentes al resto y afectan a los modelos.
13
Algoritmos en análisis de datos masivos:
Técnicas predictivas:
• Clasificación: Machine Learning: RNA (MLP), SVM, decision tree, K-NN, Naive Bayes, logistic regression,
Random Forest (ensemble).
Deep learning: Redes neuronales Convolucionales, Redes Neuronales Recurrentes (RNN),
Autoencoders, Transformers, Redes Adversarias Generativas (GAN).
• Regresión: linear and multiple regression with least-squares method, RNA, Regression tree, SVM, RF,
CNN.

Técnicas Descriptivas:
• Agrupamiento: k-means, Expectation Maximization (EM), K-NN
• Asociación: A priori, FP Growth
• Detección de atípicos: técnicas estadísticas: scatter-plot, box-plot y algoritmos: Isolation Forest,
Minimum Covariance Determinant, Local Outlier Factor, One-Class SVM

Preprocesamiento: valores perdidos (nulos), detección de atípicos, escalado y normalización de datos,


reducción de dimensiones (PCA), to encode the categorical data: label encoder or one-hot encoder.
Herramientas: Matlab, Python, Anaconda, TensorFlow, Keras, Weka, Google Colaboratory, Orange ML, Pentaho,
14
AWS, Azure, PySpark.
15
Metodologías para desarrollo de proyectos de análisis de datos
• KDD (knowledge Discovery in databases, 1996)
• CRISP-DM (Cross-Industry Standard Process for Data Mining, 2000)

• Una metodología no solo define las fases de un proceso, sino también las tareas que
deberían realizarse y cómo llevar a cabo las mismas.
• KDD constituyó el primer modelo aceptado en la comunidad científica que estableció las
etapas principales de un proyecto de explotación de información. Está más cercano a un
modelo de proceso, ya que sólo proponen las fases generales para el proceso de minería
de datos y no incorpora actividades para la gestión del proyecto (como la gestión del
tiempo, costo, riesgo).
• CRISP-DM podrían ser considerados una metodología, por el nivel de detalle con el que
describen las tareas en cada fase del proceso, y porque incorporan actividades para la
gestión del proyecto. CRISP-DM es actualmente la guía de referencia más utilizada en el
desarrollo de proyectos de minería de datos.

16
CONOCIMIENTO

PROCESO KDD MODELOS

Es un proceso iterativo e VISTA MINABLE

interactivo.

DATA
WAREHOUSE

DATOS EN
BRUTO

RECOPILACIÓN SELECCIÓN, LIMPIEZA Y MINERÍA DE DATOS EVALUACIÓN /


TRANSFORMACIÓN INTERPRETACIÓN

Fayyad, U.: Advances in Knowledge Discovery and Data Mining. MIT Press (1996). 17
KDD (versión más completa)

18
CRISP-DM
• Iniciativa financiada por la Comunidad
Europea para desarrollar una
plataforma para Minería de Datos.
• Plataforma para almacenar experiencia
de proyectos previos.
• Permite que los proyectos sean
replicados.
• Ayuda a la planeación y gerencia del
proyecto (como gestión del tiempo,
costo, riesgo).

19
Data Science Process (Crisp-DM)
1. Comprensión del Negocio
• Entendimiento del Problema. 4. Modeling
• Objetivo del Negocio. • Partición de los datos (train-test)
2. Entendimiento de los Datos • Balanceo de los datos (oversampling,
• Definición de la variable TARGET undersamplig, SMOTE, etc)
• Elección y definición del horizonte temporal • Aplicación de Algoritmos (regresión lineal,
(ventana de análisis) logística, regularizaciones, decision tree,
random forest, GBM, lightGBM, etc)
• Criterios de Inclusión y Exclusión de Información
• GridSearch de Hiperparametros (tuning de
3. Preparación de los Datos modelos)
• Exploración de variables (estadísticas, visualización) • Ensamble de Modelos (voting, stacking, etc)
• Imputación de variables (missing values) • Validación Cruzada
• Limpieza de variables (outliers, distribución de los 5. Evaluación (Métricas)
datos)
• Creación de nuevas variables (Feature Engineering)
• Matriz de confusión, accuracy, precisión,
recall, AUC, ROC curve, F1-Score, R2
• Transformación de variables (Feature Engineering:
label-encoder, One-hot-encoder)
6. Despliegue (model deployment)
• Scaling de variables (min-maxscaler, robustscaler, • AWS, Azure, Colab, PySpark, App Web/Móvil,
etc) Sistema embebido, etc.
• Análisis variables vs target (visualización, correlación)
• Selección de variables (feature selection: técnicas
paramétricas, técnicas machine learning) 20
Fases del proceso de minería de datos en cada modelo:

21
Roles en un proyecto de Ciencia de Datos

22
DATASETS:

Machine Learning Repository


(Universidad de California)

• http://archive.ics.uci.edu/ml/datasets.php
• 559 Data Sets
• Classification
• Regression
• Clustering
• Other

23
Kaggle
https://www.kaggle.com/competitions
• Kaggle es una plataforma on-line que propone competiciones de minería de datos.
• La plataforma proporciona un repositorio para que las compañías publiquen sus datos. A partir de
ahí, comienza un concurso abierto para que los expertos en minería de datos (data scientists) de
todo el mundo descarguen esos datos y propongan soluciones a los problemas planteados de la
vida real. La mejor solución se hace con un permio económico.
Video: Qué es Kaggle (~10 min)

Ejemplos de Competitions:
Kaggle:
• Identify Pneumothorax disease in chest x-rays → dataset de imágenes
• Datathon Internacional Interbank 2020 (Score crediticio para emprendedores) → dataset alfanumérico
DataSource.AI:
• Predecir el Puntaje de Recencia en Papers de Investigación (2000 USD de premio, 03-jul al 03-sep/2021)

24
Google Dataset search
• https://datasetsearch.research.google.com/

Taller:
• Busque algún dataset de su interés y explique su estructura y posibles
técnicas de análisis de datos que se pueda aplicar. ¿Objetivo?

25
Deber
• Aspectos legales y éticos del uso del Big Data: Privacidad y Seguridad
• Constitución de la república del Ecuador
• Ley de comercio electrónico en el Ecuador
• Ley orgánica de protección de datos personales (LOPDP), 2021.
• Recomendación sobre la Ética de la Inteligencia Artificial (Unesco, Nov. 2021)
• Reglamento General de Protección de Datos de la Unión Europea
• Casos reales: CNT, Banco Pichincha, DeepFeak (audio, imagen, video falso).
• Realice un resumen gráfico (SmartArt) basado en el contexto de
Ecuador, Latam, USA, Europa, Asia, Oceanía. (2 Página). Grupos de 5
personas.

26
Deber: Computer vision in healthcare by CEDIA
Enlace: https://www.facebook.com/CEDIAec/videos/831153168290043

Duración: 2h10 (junio, 2022)

Temas:

1. Visión por computador en el cuidado de la salud (aprox. al min 6)


2. IA aplicada en dermatología (aprox. al min 19)
3. Optimización de redes neuronales profundas para la clasificación de imágenes
ecocardiográficas (imagen de ultrasonido del corazón) (aprox. al min 40)

4. Procesamiento de imágenes de fondo de ojo de recién nacidos para asistir al


diagnóstico de Rinopatía (aprox. al min 1h05)

5. Implementaciones de IA en medicina en una clínica (aprox. al min 1h26)


27
Deber
• Técnicas de Reducción de dimensiones
• PCA.
• LDA
• Exponga la teoría y un ejemplo en Python en grupos de 4 personas.
• No se admite ejemplos repetidos entre grupos.

• En el ejemplo práctico, entrene un modelo de ANN (MLP o CNN) con


las variables originales, evalúe el rendimiento con métricas y compare
con el nuevo modelo basado en PCA.
• Despliegue el modelo PCA en una app. Web (Heroku, Flask).

28
Bibliografía del capítulo
• Berzal, Fernando (2019). Redes neuronales & Deep Learning. USA: Independently published.
• Torres, J. (2020). Python Deep Learning: Introducción práctica con Keras y TensorFlow 2. Marcombo.
• Lara, J. (2014). Minería de Datos. Madrid: CEF-Udima
• Sierra, B. (2006). Aprendizaje automático : conceptos básicos y avanzados. Madrid: Prentice-Hall.
• Beaulieu, K. (2020). Machine Learning Mastery. https://machinelearningmastery.com
• González, F. (2020). Introducción a los Sistemas Inteligentes. https://fagonzalezo.github.io/iis-2020-1/

29

También podría gustarte