ATD - Sesion 09-10 Data Modeling - NEW Format

Redefinamos los
buenos negocios
Analítica para la centrum.pucp.edu.pe
Toma de
Decisiones
Sesión 09 - 10:
Data Modeling
Agenda
• Modelización, Metodología y
Análisis de Datos.
• IA, Machine Learning, Deep
Learning.
Modelización, Análisis de Datos y
Metodología
Modelización Matemática
“La modelización
matemática es el
arte de aplicar la
matemática a
situaciones de la
vida real”
Mogens Niss, 1989

Cuánto estimo que

venderé el año 2019
si…
Año 2016 ---- 100

Año 2017 ---- 120
Año 2018 ----140
Año 2019---- ??
Modelización Matemática - ejemplo
La frecuencia cardíaca máxima es el valor máximo de pulsaciones que el corazón es capaz de
mantener durante un período muy pequeño de tiempo, es decir, es lo máximo de rápido que es capaz
de latir nuestro corazón. Este parámetro es interesante para poder diseñar un buen entrenamiento
físico y ajustar la carga de ejercicio al % de la frecuencia máxima.
¿Cómo sé cual es mi frecuencia cardiaca

máxima?
Modelización Matemática –
Regresión Lineal
Modelización Pasado y Presente
Modelización Pasado y Presente
Se requiere conocer el comportamiento de las variables en el pasado, en el presente y en el futuro.

Mantenimiento de los Modelos
¿Cómo confirmar si ya es tiempo de realizar el mantenimiento?
• Verificar las variables independientes o explicativas. Siguen siendo las
mismas? O ¿Existirán nuevas?
• Verificar los indicadores de performance.
• Repetir las pruebas de validación del modelo.
Análisis de Datos
Estadística Descriptiva vs Inferencial
“Desafío de la Estadística: Estimar parámetros de funciones que simulan
fenómenos naturales, negocios, etc” -→ Modelamiento
Población
Muestra Estadística Descriptiva:
Explora la data a través de
medidas o gráficas
estadísticas.
Estadística Inferencial:
Imputa los resultados de la
muestra a la población.
Caracterizada por Caracterizada por estadísticos:
parámetros poblacionales:
Ejemplo: Media muestral (X),
Ejemplo: Media (µ), Desviación muestral (S)
Desviación (σ)
Análisis de Datos
Estadística Descriptiva vs
Inferencial
Análisis de Datos
Estadística Descriptiva vs Inferencial
Análisis de Datos
Variables Estadísticas
• Variable: Una propiedad que puede medirse u observarse, puede tomar varios valores.
• Clasificación de las Variables:
• Por Tipo:
• Cualitativas o Categóricas
• Nacionalidad, Color de piel, Sexo.
• Cuantitativas
• Ejemplo: Edad, precio, ingreso
• A la vez las cuantitativas se pueden clasificar en:
• Discretas: toma valores enteros (Ejem: 2 hermanos, -4 aves desaparecidas
• Continuas: toma valores dentro de un intervalo (Ejem: 90.4 Km/h
• Por Dimensión
• Unidimensional (Ejem: Edad de los alumnos)
• Bidimensional (Ejem: Edad y Altura)
• Pluridimensional (Ejem: Edad, Altura y Peso)
Modelo CRISP-DM : Cross-Industry Standard
Process for Data Mining
• Entendimiento del negocio

Objetivos claros del proyecto y requerimientos específicos
para solucionar un problema de negocio.
• Interpretación de los datos

Recolección inicial de datos, calidad de datos y problemas
de tratamiento identificados
• Preparación de los datos

Diseño de tablas de datos y selección de atributos,
transformación y limpieza de datos.
• Modelamiento
Aplicación de técnicas de modelamiento y calibración de
parámetros.
• Evaluación
Objetivos del negocio & evaluación de resultados.
• Implementación
Implementación del modelo obtenido y replicación del
procesos de minería de datos.
CRISP-DM fue concebido en 1996 – Proyecto Unión Europea- ESPRIT
Metodología
Fases del Proceso de Modelamiento
1. Recolección de Datos
2. Almacén de Datos (DWH)
3. Navegación y Visualización
4. Selección, Limpieza y Transformación
5. Minería de Datos
6. Representación de Patrones
7. Entendimiento y Toma de Decisión
Metodología
Fase 1: Recolección de Datos (Datos Crudos)
• Bases de Datos
• Otras fuentes internas y externas
• Las fuentes pueden ser:
OLAP u OLTP ROLAP o MOLAP
Metodología
Fase 2: Data Wrangling
Es el proceso de transformación de datos “Crudos" en datos que pueden
analizarse para generar conocimientos válidos y procesables, y los pasos
son:
• Selección
• Limpieza
DATA
• Transformación CRUDA
De acuerdo a una encuesta realizada en el 2017, un analista

de datos puede pasar, en promedio, el 80% de su tiempo en
Data Wrangling.
Metodología
Fase 3: Data Transformada/ Patrones
Una vez recogidos los datos de interés, un explorador puede
decidir qué tipos de patrón quiere descubrir:
• Clasificación (Predictivo)
• Regresión Logística (Predictivo)
• Conglomerados (Descriptivo)
• Asociación (Descriptivo)
• Optimización (Prescriptivo)
“Si torturas los datos el tiempo suficiente,
te confesarán cualquier cosa …”
Darrell Huff
Metodología
Fase 4: Visualización y Entendimiento
• Las técnicas de visualización de datos se utilizan

fundamentalmente con dos objetivos:
• Extraer patrones a partir de imágenes.
• Descubrir nuevos patrones para un mejor entendimiento con reportes
simples y otros complejos.
Patrones
https://flowingdata.com/2015/12/15/a-day-in-
the-life-of-americans/
https://www.gapminder.org/tools/
Inteligencia Artificial, Data Science,
Machine Learning, y Deep Learning
Inteligencia Artificial
“La inteligencia artificial (IA) hace posible que las máquinas aprendan de la experiencia, se ajusten
a nuevas aportaciones y realicen tareas como seres humanos. La mayoría de los ejemplos de
inteligencia artificial sobre los que oye hablar hoy día – desde computadoras que juegan ajedrez o Go
hasta automóviles de conducción autónoma – recurren mayormente al aprendizaje profundo y al
procesamiento del lenguaje natural. Empleando estas tecnologías, las computadoras pueden ser
entrenadas para realizar tareas específicas procesando grandes cantidades de datos y reconociendo
patrones en los datos” - SAS Institute.
Machine Learning
El Machine Learning es una

disciplina enfocada en cómo
construir sistemas que de
manera automática mejoren de
acuerdo a su experiencia sin ser
programados para eso, que a su
vez consisten en, entrenar un
modelo matemático o
estadístico usando información
histórica, para inferir o
predecir el valor de una
variable, la cual puede ser
continua o discreta, en orden
para entender o explicar un
fenómeno dado.
IA y Machine Learning (ML)
Australian Open 2022, final: Daniil Medvedev vs Rafael Nadal… la IA no es infalible!
Tipos de Error en Predicción
Machine Learning
Realidad
Algoritmo de Diagnostico de Cáncer
Falso positivo o “Error tipo I”
• El paciente no tiene cáncer, pero el algoritmo
ha diagnosticado que sí lo padece.
• Se realizarán mas pruebas adicionales que

acabarán descartando el diagnóstico.
• Tendrá un costo económico y un impacto

emocional sobre el paciente, pero no se
traducirá en riesgo vital.
Falso negativo o “Error tipo II”

• El paciente sí tiene cáncer, pero el algoritmo
predice que no.
• Este error del algoritmo se traduce en una falta

de detección temprana de la enfermedad.
• El paciente no recibirá tratamiento a tiempo y

esto, indudablemente reduce sus posibilidades
de superar la enfermedad.
Matriz de Confusión
Desempeño del Modelo
Predicción
NO SI
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑
Observado / Real
Verdadero Negativo Razón de Fracasos

NO Falso Positivo = 87 (𝑉𝑁)
= 876
(𝑉𝑁 + 𝐹𝑃)
(ROC Analysis)
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑
Falso Negativo = Verdadero Positivo =
SI
157 342 (𝑉𝑃) Razón de Éxitos
(𝑉𝑃 + 𝐹𝑁) o Recall
𝑉𝑎𝑙𝑜𝑟 𝑃𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 o Valor
𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑎 Predicción Positiva 𝐴𝑐𝑢𝑟𝑎𝑐𝑐𝑦
(𝑉𝑃) (𝑉𝑃 + 𝑉𝑁)

(𝑉𝑁) (𝑉𝑃 + 𝐹𝑃 + 𝑉𝑁 + 𝐹𝑁)
(𝑉𝑃 + 𝐹𝑃)
(𝑉𝑁 + 𝐹𝑁)
Revista Economía – 27 de Abril
2021:
Gerdau desarrolló, en conjunto

con Deloitte, “Safety Analytics”,
un software que tiene la
capacidad de predecir en un
80% la probabilidad de
accidentes en planta, a través
del uso de Inteligencia
Artificial y tecnologías
analíticas. La información llega
a este sistema a través de los
diversos reportes de ocurrencia
registrados por los colaboradores
en sus actividades, así como en
las inspecciones de seguridad
diarias. Así, la predicción de
eventos resulta clave para poder
establecer estrategias de
prevención efectivas y oportunas.
Metodologías Inferenciales
▪ Ningún modelo predictivo alcanzará una certeza del 100%
▪ Tipos de errores cometidos, ejemplo en base a un modelo de evaluación
de riesgo crediticio:
Hipótesis Predecido
NO Pagarán SI Pagarán
oportunamente oportunamente NO SI
su crédito su crédito
NO Pagaron Error Tipo I –
Inferencia Rechazo
Observado
oportunamente Error tipo I NO aceptación
Realidad
Correcta Correcto
su crédito incorrecta
SI Pagaron Error Tipo II –
Inferencia Aceptación
oportunamente Error tipo II SI rechazo
correcta Correcta
su crédito incorrecto
Resultados del Test o Validación
• CA Accuracy = Precisión de la clasificación o
Exactitud: es la proporción de ejemplos
clasificados correctamente.
CA = Accuracy =
(VP+VN)/(VP+FP+FN+VN)
• Precision: Proporción de verdaderos positivos
entre los casos clasificados como positivos.
Precision = VP/(VP+FP)
• Recall : Recuperación es la proporción de
verdaderos positivos que fueron
correctamente identificados por el algoritmo.
Recall = VP/(VP+FN)
• F-1: Medio armónico ponderado de

precisión y recuperación.
F1 Score = 2*(Recall * Precision)
/ (Recall + Precision)
CURVA ROC – Área bajo la Curva
Una curva ROC (acrónimo de Receiver Operating Characteristics, o Características Operativa del
Receptor) es una representación gráfica de la sensibilidad frente a la especificidad para un sistema
clasificador binario según se varía el umbral de discriminación.
1 Valor Diagnostico Perfecto 1

Valor Diagnostico Bueno 1 Sin Valor Diagnostico
AUC =1.0
AUC =0.8
% Verdaderos Positivos
% Bien Clasificados
% Clasificados Regular
Sensibilidad
Sensibilidad
Sensibilidad
AUC =0.5
% Sin Clasificar
0 1 0 0
1- Especificidad 1- Especificidad 1 1- Especificidad 1
% Falsos Positivos % Falsos Positivos % Falsos Positivos
Conceptos Básicos Machine Learning
El Machine Learning es un campo de la inteligencia artificial que brinda a las computadoras la
capacidad de aprender sin ser programado explícitamente
Data Etiquetada Algoritmo de

(data histórica cuyo «resultado Machine Learning
final» ya conocemos (Aprendizaje)
Entrenamiento
Prediccion
Data NO Etiquetada (datos Modelo

nuevos cuyo «resultado final» Predicción
Aprendizaje
queremos predecir
Es el método que puede aprender y hacer predicciones sobre datos

Flujo Básico del Machine Learning
Flujo Básico del Machine Learning /
Deep Learning
Deep Learning
El Deep Learning lleva a cabo el proceso de Machine Learning usando una red neuronal artificial
que se compone de un gran número de niveles jerárquicos. En el nivel inicial de la jerarquía la
red aprende algo simple y luego envía esta información al siguiente nivel. El siguiente nivel toma
esta información sencilla, la combina, compone una información algo un poco más compleja, y se lo
pasa al tercer nivel, y así sucesivamente.
Deep Learning – Image recognition
Deep Learning – Voice recognition
Machine Learning y Deep Learning
Machine Learning o
Aprendizaje Automático
Deep Learning o
Aprendizaje Profundo
Tipos de Aprendizaje
Tipos de Aprendizaje: Supervisado
Aprendizaje supervisado (Supervised
machine learning)
Generan un modelo predictivo, basado en
datos de entrada y salida. La palabra
clave “supervisado” viene de la idea de
tener un conjunto de datos previamente
etiquetado y clasificado, es decir, tener
un conjunto de muestra el cual ya se sabe
a qué grupo, valor o categoría pertenecen
los ejemplos. Con este grupo de datos, el
cual llamamos datos de entrenamiento,
se realiza el ajuste al modelo inicial
planteado. De esta forma es como el
algoritmo va “aprendiendo” a clasificar
las muestras de entrada comparando el
resultado del modelo, y la etiqueta real
de la muestra, realizando las
compensaciones respectivas al modelo de
acuerdo a cada error en la estimación del
resultado.
Tipos de Aprendizaje: No Supervisado
Aprendizaje no supervisado
(Unsupervised machine learning)
Estos algoritmos ajustan su modelo

predictivo tomando en cuenta los
datos de entrada, sin importar los
de salida. A diferencia del
aprendizaje supervisado, los datos
de entrada no están clasificados ni
etiquetados, y no son necesarias
estas características para entrenar
el modelo. Dentro de este tipo de
algoritmos, el agrupamiento o
clustering en inglés, es el más
utilizado, ya que particiona los
datos en grupos que posean
características similares entre sí.
Tipos de Aprendizaje: Por Refuerzo
Aprendizaje por refuerzo
(Reinforcement learning)
Los algoritmos de aprendizaje por

refuerzo definen modelos y funciones
enfocadas en maximizar una medida de
“recompensas”, basados en “acciones” y
al ambiente en el que el agente
inteligente se desempeñará. Este
algoritmo es el más apegado a la
psicología conductista de los humanos,
ya que es un modelo acción-recompensa,
que busca que el algoritmo se ajuste a la
mejor “recompensa” dada por el
ambiente, y sus acciones por tomar
están sujetas a estas recompensas. Este
tipo de métodos pueden usarse para
hacer que los robots aprendan a realizar
diferentes tareas.
Tipos y ejemplos de algoritmos de ML
Tipos y ejemplos de ML
Vocabulario Gráfico de Machine Learning
Distribución Normal Mezcla Gaussiana Skewness
Regresión Lineal Underfitting Fit Correcto Over Fitting

Vocabulario Gráfico de Machine Learning
Árbol de
Decisión
Compitiendo Mediante Analítica
El uso extensivo de datos, análisis

estadístico y cuantitativo, modelos
explicativos y predictivos y una gestión
basada en hechos para impulsar
decisiones y acciones.
Enterprise Analytics. Thomas Davenport. Pearson Publishing. 2013

Analítica Predictiva
Necesidades del Cliente y valor de proposición
Fuente: SAP-HANA
Modelamiento
Prescriptivo
Ventaja Competitiva
Modelamiento ¿Qué es lo mejor

Predictivo que podría
Analítica suceder?
Reportes Predictiva
Adhoc & General
OLAP ¿Qué Sucederá?
Reporte
Data Estándar
Data Limpiada ¿Porqué Sucedió?
Cruda
¿Qué Sucedió?
Madurez Analítica
La clave es desbloquear datos para mover la toma de decisiones desde sentido común y responder para
predecir y actuar
Big Bang de la Analítica
El Análisis Predictivo alcanza la masa critica
del Big Data y nuevas tecnologías aparecen:
Intercambios en Analítica que
- R versiones 1.0 permitan colaboración global con
- Estándares de Procesamiento de Analítica Anticipatoria
Lenguaje Natural
- Apache Hadoop Usuario
-Analítica en Tiempo Real
- Analítica Prescriptiva +
- Programación no-lineal
- Resolución de Expertos en Analítica & Pequeñas Empresas
- Simulación problemas heurísticos
Montecarlo Basados en Computador
- Modelos de Acelera la Innovación de la Analítica
Redes neuronales + ▪ 2000-2009 producción de la versión
- Programación R lenguaje como software de
lineal Analítica crece de “0” a 1000 MM
Estadísticas
usuarios.
+ Negocios Medianos
&
Desarrollo Tecnología. Compras! Compras!, Compras!
▪ 2000-2012 el mercado de software
Corporaciones & de analítica crece de 11 billones a 35
Institutos de Investigación
Billones de US$.
Agencias de Gobierno
Siglo
19
1930s-40s 1950s-60s 1970s-90s 2000s al Presente
Próximamente
Capacidades del Data Scientist
Ingenieria Método
de Científico
Información
Especialista
en el Matemáticas
Campo
Científico
Mentalidad
de Datos Estadística
de Hacker
Ciencias de
Aprendizaje
la
de
Computación
Visualización Maquinas
Lectura: El Camino hacia la Prescripción

ATD - Sesion 09-10 Data Modeling - NEW Format

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ATD - Sesion 09-10 Data Modeling - NEW Format

Cargado por

Copyright:

Formatos disponibles

Redefinamos los

Mogens Niss, 1989

Cuánto estimo que

Año 2016 ---- 100

¿Cómo sé cual es mi frecuencia cardiaca

Se requiere conocer el comportamiento de las variables en el pasado, en el presente y en el futuro.

• Entendimiento del negocio

• Interpretación de los datos

• Preparación de los datos

De acuerdo a una encuesta realizada en el 2017, un analista

• Las técnicas de visualización de datos se utilizan

El Machine Learning es una

• Se realizarán mas pruebas adicionales que

• Tendrá un costo económico y un impacto

Falso negativo o “Error tipo II”

• Este error del algoritmo se traduce en una falta

• El paciente no recibirá tratamiento a tiempo y

Verdadero Negativo Razón de Fracasos

(𝑉𝑃) (𝑉𝑃 + 𝑉𝑁)

Gerdau desarrolló, en conjunto

• F-1: Medio armónico ponderado de

1 Valor Diagnostico Perfecto 1

Data Etiquetada Algoritmo de

Data NO Etiquetada (datos Modelo

Es el método que puede aprender y hacer predicciones sobre datos

Estos algoritmos ajustan su modelo

Los algoritmos de aprendizaje por

Distribución Normal Mezcla Gaussiana Skewness

Regresión Lineal Underfitting Fit Correcto Over Fitting

El uso extensivo de datos, análisis

Enterprise Analytics. Thomas Davenport. Pearson Publishing. 2013

Modelamiento ¿Qué es lo mejor

También podría gustarte