Está en la página 1de 25

Taller Integrador

Diplomado SAP y BigData Otoño 2021

Profesor: REINEL RUIZ RINCÓN


Email: e.ruizrincon@uandresbello.edu

Clases 1

Diplomado SAP y BigData Otoño 2021 Asignatura: Taller Integrador Profesor: Reinel Ruiz Rincón
Contenido del curso
• Introducción
• Modelo predictivo
• Metodología de proyectos de BigData
• Metodología de la fase de modelamiento
• Introducción procesamiento y limpieza de datos en R
• Introducción al análisis exploratorio de datos y gráficos en R
• Taller de modelos supervisados de Regresión en R
• Taller de modelos de Clasificación en R
• Taller de modelos no supervisados en R
• Ejemplo de puesta en producción de un modelo en R

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Objetivos
• Familiarizarse con diferentes tipos de modelos predictivos.

• Aprender a evaluar la calidad predictiva de los modelos.

• Conocer casos prácticos que permitan aplicar gran parte de modelos


revisados.

• Conocer como emplear R para desarrollar un modelo predictivo.

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Evaluación
La evaluación consiste en tres entregas:

Taller1(50%) – 25 de Agosto hasta las 23:00 horas


Taller2 (50%) – 4 de Agosto hasta las 23:00 horas

Los entregables de cada taller son los siguientes: Código de corrida del modelo, archivo datos Excel,
informe en formato Word o PDF.

El informe debe contener:


Portada, Índice, Introducción, Desarrollo, Conclusiones (todos los ítems serán tenidos en cuenta en la
evaluación)

Criterios Evaluación Talleres


Selección Presetación
Selección Análisis Gráfico Conclusione Puntaje
Variable Modelo1 Modelo2 Modelo3 Modelo4 mejor informe y
variables Outliers Variables s total
Modelo anexos
Puntaje 0,5 0,5 0,5 1 1 1 1 0,5 0,5 0,5 7

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Bibliografía
• James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to Statistical
Learning: with Applications in R. Springer.
• Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning.
Second Edition. Springer Series in Statistics. New York: Springer.
• Kuhn, M. and Johnson, K. (2013). Applied Predictive Modeling. Springer.
http://appliedpredictivemodeling.com
• Gil B., Carlos J. R para profesionales de los datos: una introducción.
https://datanalytics.com/libro_r/_main.pdf
• Araneda, Patricion. Manual de Análisis Predictivo. https://www.rpubs.com/paraneda/predictivo
• Amat, R. Machine Learning con R. https://www.cienciadedatos.net/machine-learning-r.html
• Yihui Xie, J. J. Allaire, Garrett, G. R Markdown: The Definitive Guide.
https://bookdown.org/yihui/rmarkdown/

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción

Big Data

Data Science

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción
El análisis predictivo consiste en la tecnología que
aprende de la
experiencia para predecir el futuro
comportamiento de individuos para
tomar mejores decisiones.

Eric Siegel

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción
Dónde se aplican los modelos predictivos Si existen datos
• Marketing: adopción de productos/servicios, segmentación de clientes y productos
es posible crear
• Finanzas: detección de fraude, seguros, gestión del riesgo. modelos para
• Salud: descifrar y obtener diagnósticos de paciente según su histórica clínica realizar
Deportes: Mejorar rendimiento y dietas de los jugadores predicciones
• Prevención de Desastres: Incendios, sismos

• Planificación del territorio: Imágenes satelitales

• Reconocimiento de imágenes, texto y voz

• Detección de fallas, fraudes y eventos atípicos (anomalías)

Lectura: Descubre Cómo la Analítica Predictiva Ayuda a Potenciar el Customer Experience


https://debmedia.com/blog/analitica-predictiva-y-customer-experience/

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción:
Ejemplo de aplicación de fuga de clientes

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción: Terminología
Clase o Etiqueta:

Es el atributo o factor que queremos predecir, el objetivo de la predicción. Ejemplo: La probabilidad de fuga
de un cliente, el estado del tiempo, el precio de una vivienda, la calidad de un servicio.

Atributo o característica:

Son los atributos que describen cada una de las instancias del conjunto de datos. En el caso de una cartera de
clientes, estaríamos hablando del número de compras de cada cliente, antigüedad, si es seguidor en redes sociales,
qué productos ha comprado, etc. En una hoja de cálculo, serían las columnas.

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos predictivos
Modelo: representación simplificada de la realidad.

Modelamiento predictivo: es el proceso de aplicación de un modelo estadístico o algoritmo de minería de


datos con el fin de predecir observaciones nuevas o futuras.

Modelo predictivo: “predice” el valor de una variable de interés dado valores conocidos de otras variables.

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos Predictivos

Y = f ( xi ) Modelo predictivo

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Tipos de Modelos Predictivos

Existe una etiqueta o Tarjet y un conjunto


Se dispone solo del conjunto de atributos.
de atributos. Los modelos se ajustan a los
Los modelos agrupan por similitud
datos históricos o reales

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos Predictivos - Supervisados
Regresión Clasificación
Estos algoritmos de aprendizaje supervisado Predecir una clase con las observaciones
permiten predecir el valor de una variable. (clasificación) o agrupar las observaciones en grupos
significativos (clustering)
Modelos;
Regresión lineal, regresión polinómica, regresión Modelos:
logística, árboles de decisión, random forest, Regresión logística,Máquinas de vectores de soporte
redes neuronales, logit, logit ordinal,... (SVM), arboles de clasificación, redes neuronales, ….

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos No Supervisados
No se cuenta con la etiqueta o clase, solo se tiene información de atributos

Ejemplo:
- Segmentación de clientes de acuerdo a los productos que consumen
- Detectar evento anómalos en el funcionamiento de un equipo
- Detectar objetos extraños en proceso industrial

Modelos:
K-means, Dbscan, Redes Neuronales, Isolate Forest, etc

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Metodología de Proyectos BigData
En general, antes de desarrollar proyectos de
modelamiento predictivo se recomienda seguir una
metodología analítica.

La metodología CRISP-DM (Cross-Industry


Standard Process for Data Mining) nos orienta
mediante un proceso de 7 fases:

- Entendimiento del negocio


- Entendimiento de la información
- Preparación de la información
- Validación de la información
- Modelamiento
- Evaluación o validación del modelo
- Implementación

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Metodología de la fase de Modelamiento
Validación de la información
- Revisión atributos y formatos
- Identificación de datos nulos
- Identificación de outliers
- Imputación de datos faltantes

Modelamiento
- Análisis exploratorio de las variables
- Elección de modelos
- Medidas de bondad de ajuste y selección variables

Evaluación o validación del modelos


- Utilización de métricas para comparar y seleccionar el modelo que predice mejor

Implementación o puesta en producción


Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Separación de los datos

80% 20%

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Métricas de validación calidad de predicción los modelos variable
predictora continua
La validación se realiza utilizando la
muestra de validación(test), aplicada a
modelo entrenado

• Raíz del error cuadrático medio (RMSE)


• Error absoluto medio ponderado (MAPE)
• Error absoluto medio (MAE)
• Validación cruzada generalizada (GCV)

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Métricas de validación de los modelos variable predictora discreta
Matrix de Confusión Métricas

Peligro: la métrica accuracy (exactitud) no funciona bien cuando las clases están
desbalanceadas como es en este caso. En este caso es mejor usar precisión, recall y
F1. Estas métricas dan una mejor idea de la calidad del modelo.

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Métricas de validación de los modelos de clasificación
Matrix de Confusión ejemplo

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción procesamiento y limpieza de datos en R
- Lectura de datos, atributos y formatos
Importante en el manejo de las variables tipo discreto
- Identificación de datos nulos
Variables que no tiene información por no respuesta (NA)
- Identificación de outliers
Datos que tiene comportamientos fuera de los rangos de comportamiento de las variables

- Imputación de datos
Utilización de técnicas para imputar valores a los datos nulos (media, mediana, moda, k-means, etc)

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción al análisis exploratorio de datos y gráficos en R
Gráfico variable tarjet o dependiente Gráfico variable tarjet vs variable categórica

Gráfico variable tarjet vs variables continuas

Matrix
Correlaciones

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón 23
Ahora a Prácticar en R

https://www.r-project.org/

https://www.rstudio.com/products/rstudio
/#rstudio-desktop

Download MiKTeX (Rmarkdown)


http://miktex.org/download.

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón 24
Instalación de librerías a utilizar en el curso
Deben instalarse las siguientes librerías que serán utilizadas durante el curso

install.packages("rmarkdown")
install.packages("caret")
install.packages("corrplot")
install.packages("ggplot2")
install.packages("cowplot")
install.packages("inspectdf")
install.packages("dplyr")
install.packages("PerformanceAnalytics")
install.packages("leaps")
install.packages("neuralnet")
install.packages("dummies")
install.packages("tree")
install.packages("mice")
install.packages("randomForest")
install.packages("e1071")

Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón 25

También podría gustarte