Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clases 1
Diplomado SAP y BigData Otoño 2021 Asignatura: Taller Integrador Profesor: Reinel Ruiz Rincón
Contenido del curso
• Introducción
• Modelo predictivo
• Metodología de proyectos de BigData
• Metodología de la fase de modelamiento
• Introducción procesamiento y limpieza de datos en R
• Introducción al análisis exploratorio de datos y gráficos en R
• Taller de modelos supervisados de Regresión en R
• Taller de modelos de Clasificación en R
• Taller de modelos no supervisados en R
• Ejemplo de puesta en producción de un modelo en R
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Objetivos
• Familiarizarse con diferentes tipos de modelos predictivos.
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Evaluación
La evaluación consiste en tres entregas:
Los entregables de cada taller son los siguientes: Código de corrida del modelo, archivo datos Excel,
informe en formato Word o PDF.
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Bibliografía
• James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to Statistical
Learning: with Applications in R. Springer.
• Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning.
Second Edition. Springer Series in Statistics. New York: Springer.
• Kuhn, M. and Johnson, K. (2013). Applied Predictive Modeling. Springer.
http://appliedpredictivemodeling.com
• Gil B., Carlos J. R para profesionales de los datos: una introducción.
https://datanalytics.com/libro_r/_main.pdf
• Araneda, Patricion. Manual de Análisis Predictivo. https://www.rpubs.com/paraneda/predictivo
• Amat, R. Machine Learning con R. https://www.cienciadedatos.net/machine-learning-r.html
• Yihui Xie, J. J. Allaire, Garrett, G. R Markdown: The Definitive Guide.
https://bookdown.org/yihui/rmarkdown/
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción
Big Data
Data Science
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción
El análisis predictivo consiste en la tecnología que
aprende de la
experiencia para predecir el futuro
comportamiento de individuos para
tomar mejores decisiones.
Eric Siegel
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción
Dónde se aplican los modelos predictivos Si existen datos
• Marketing: adopción de productos/servicios, segmentación de clientes y productos
es posible crear
• Finanzas: detección de fraude, seguros, gestión del riesgo. modelos para
• Salud: descifrar y obtener diagnósticos de paciente según su histórica clínica realizar
Deportes: Mejorar rendimiento y dietas de los jugadores predicciones
• Prevención de Desastres: Incendios, sismos
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción:
Ejemplo de aplicación de fuga de clientes
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción: Terminología
Clase o Etiqueta:
Es el atributo o factor que queremos predecir, el objetivo de la predicción. Ejemplo: La probabilidad de fuga
de un cliente, el estado del tiempo, el precio de una vivienda, la calidad de un servicio.
Atributo o característica:
Son los atributos que describen cada una de las instancias del conjunto de datos. En el caso de una cartera de
clientes, estaríamos hablando del número de compras de cada cliente, antigüedad, si es seguidor en redes sociales,
qué productos ha comprado, etc. En una hoja de cálculo, serían las columnas.
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos predictivos
Modelo: representación simplificada de la realidad.
Modelo predictivo: “predice” el valor de una variable de interés dado valores conocidos de otras variables.
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos Predictivos
Y = f ( xi ) Modelo predictivo
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Tipos de Modelos Predictivos
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos Predictivos - Supervisados
Regresión Clasificación
Estos algoritmos de aprendizaje supervisado Predecir una clase con las observaciones
permiten predecir el valor de una variable. (clasificación) o agrupar las observaciones en grupos
significativos (clustering)
Modelos;
Regresión lineal, regresión polinómica, regresión Modelos:
logística, árboles de decisión, random forest, Regresión logística,Máquinas de vectores de soporte
redes neuronales, logit, logit ordinal,... (SVM), arboles de clasificación, redes neuronales, ….
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Modelos No Supervisados
No se cuenta con la etiqueta o clase, solo se tiene información de atributos
Ejemplo:
- Segmentación de clientes de acuerdo a los productos que consumen
- Detectar evento anómalos en el funcionamiento de un equipo
- Detectar objetos extraños en proceso industrial
Modelos:
K-means, Dbscan, Redes Neuronales, Isolate Forest, etc
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Metodología de Proyectos BigData
En general, antes de desarrollar proyectos de
modelamiento predictivo se recomienda seguir una
metodología analítica.
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Metodología de la fase de Modelamiento
Validación de la información
- Revisión atributos y formatos
- Identificación de datos nulos
- Identificación de outliers
- Imputación de datos faltantes
Modelamiento
- Análisis exploratorio de las variables
- Elección de modelos
- Medidas de bondad de ajuste y selección variables
80% 20%
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Métricas de validación calidad de predicción los modelos variable
predictora continua
La validación se realiza utilizando la
muestra de validación(test), aplicada a
modelo entrenado
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Métricas de validación de los modelos variable predictora discreta
Matrix de Confusión Métricas
Peligro: la métrica accuracy (exactitud) no funciona bien cuando las clases están
desbalanceadas como es en este caso. En este caso es mejor usar precisión, recall y
F1. Estas métricas dan una mejor idea de la calidad del modelo.
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Métricas de validación de los modelos de clasificación
Matrix de Confusión ejemplo
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción procesamiento y limpieza de datos en R
- Lectura de datos, atributos y formatos
Importante en el manejo de las variables tipo discreto
- Identificación de datos nulos
Variables que no tiene información por no respuesta (NA)
- Identificación de outliers
Datos que tiene comportamientos fuera de los rangos de comportamiento de las variables
- Imputación de datos
Utilización de técnicas para imputar valores a los datos nulos (media, mediana, moda, k-means, etc)
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón
Introducción al análisis exploratorio de datos y gráficos en R
Gráfico variable tarjet o dependiente Gráfico variable tarjet vs variable categórica
Matrix
Correlaciones
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón 23
Ahora a Prácticar en R
https://www.r-project.org/
https://www.rstudio.com/products/rstudio
/#rstudio-desktop
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón 24
Instalación de librerías a utilizar en el curso
Deben instalarse las siguientes librerías que serán utilizadas durante el curso
install.packages("rmarkdown")
install.packages("caret")
install.packages("corrplot")
install.packages("ggplot2")
install.packages("cowplot")
install.packages("inspectdf")
install.packages("dplyr")
install.packages("PerformanceAnalytics")
install.packages("leaps")
install.packages("neuralnet")
install.packages("dummies")
install.packages("tree")
install.packages("mice")
install.packages("randomForest")
install.packages("e1071")
Diplomado SAP y BigData 2021 Asignatura:Taller Integrador Profesor: Reinel Ruiz Rincón 25