ATD - Sesion 09-10 Data Modeling - NEW Format

Redefinamos los
buenos negocios
Analítica para la centrum.pucp.edu.pe
Toma de
Decisiones
Sesión 07 – 08 :
Data Modeling
Agenda
• Modelización, Metodología y
Análisis de Datos.
• Machine Learning, Data
Science y Deep Learning.
Modelización, Análisis de Datos y
Metodología
Modelización Matemática
“La modelización
matemática es el arte de
aplicar la matemática a
situaciones de la vida real”
Niss,Mogens 1989
¿Cuánto venderé el
próximo año? - año X.
Año X-3 ---- 100

Año X-2 ---- 120
Año X-1 ----140
Año X---- ??
Modelización Matemática - ejemplo
La frecuencia cardíaca máxima es el valor máximo de pulsaciones que el corazón es capaz de
mantener durante un período muy pequeño de tiempo, es decir, es lo máximo de rápido que es capaz
de latir nuestro corazón. Este parámetro es interesante para poder diseñar un buen entrenamiento
físico y ajustar la carga de ejercicio al % de la frecuencia máxima.
¿Cómo sé cual es mi frecuencia cardiaca

máxima?
Modelización Pasado y Presente
Se requiere conocer el comportamiento de las variables en el pasado, en el presente y en el futuro.

Modelización Pasado y Presente
Se requiere conocer el comportamiento de las variables en el pasado, en el presente y en el futuro.

Mantenimiento de los Modelos
¿Cómo confirmar si ya es tiempo de realizar el mantenimiento?
• Verificar las variables independientes o explicativas. Siguen siendo las
mismas? O ¿Existirán nuevas?
• Verificar los indicadores de performance.
• Repetir las pruebas de validación del modelo.
Análisis de Datos
Estadística Descriptiva vs Inferencial
“Desafío de la Estadística: Estimar parámetros de funciones que simulan
fenómenos naturales, negocios, etc” -→ Modelamiento
Población
Muestra Estadística Descriptiva:
Explora la data a través de
medidas o gráficas
estadísticas.
Estadística Inferencial:
Imputa los resultados de la
muestra a la población.
Caracterizada por Caracterizada por estadísticos:
parámetros poblacionales:
Ejemplo: Media muestral (X),
Ejemplo: Media (µ), Desviación muestral (S)
Desviación (σ)
Análisis de Datos
Estadística Descriptiva vs
Inferencial
Análisis de Datos
Estadística Descriptiva vs Inferencial
Análisis de Datos
Variables Estadísticas
• Variable: Una propiedad que puede medirse u observarse, puede tomar varios valores.
• Clasificación de las Variables:
• Por Tipo:
• Cualitativas o Categóricas
• Nacionalidad, Color de piel, Sexo.
• Cuantitativas
• Ejemplo: Edad, precio, ingreso
• A la vez las cuantitativas se pueden clasificar en:
• Discretas: toma valores enteros (Ejem: 2 hermanos, -4 aves desaparecidas
• Continuas: toma valores dentro de un intervalo (Ejem: 90.4 Km/h
• Por Dimensión
• Unidimensional (Ejem: Edad de los alumnos)
• Bidimensional (Ejem: Edad y Altura)
• Pluridimensional (Ejem: Edad, Altura y Peso)
Modelo CRISP-DM : Cross-Industry Standard
Process for Data Mining
• Entendimiento del negocio

Objetivos claros del proyecto y requerimientos específicos
para solucionar un problema de negocio.
• Interpretación de los datos

Recolección inicial de datos, calidad de datos y problemas
de tratamiento identificados
• Preparación de los datos

Diseño de tablas de datos y selección de atributos,
transformación y limpieza de datos.
• Modelamiento
Aplicación de técnicas de modelamiento y calibración de
parámetros.
• Evaluación
Objetivos del negocio & evaluación de resultados.
• Implementación
Implementación del modelo obtenido y replicación del
procesos de minería de datos.
CRISP-DM fue concebido en 1996 – Proyecto Unión Europea- ESPRIT
Metodología
Fases del Proceso de Modelamiento
1. Recolección de Datos
2. Almacén de Datos (DWH)
3. Navegación y Visualización
4. Selección, Limpieza y Transformación
5. Minería de Datos
6. Representación de Patrones
7. Entendimiento y Toma de Decisión
Metodología
Fase 1: Recolección de Datos (Datos Crudos)
• Bases de Datos
• Otras fuentes internas y externas
• Las fuentes pueden ser:
OLAP u OLTP ROLAP o MOLAP
Metodología
Fase 2: Data Wrangling
Es el proceso de transformación de datos “Crudos" en datos que pueden
analizarse para generar conocimientos válidos y procesables, y los pasos
son:
• Selección
• Limpieza
DATA
• Transformación CRUDA
De acuerdo a una encuesta realizada en el 2017, un analista

de datos puede pasar, en promedio, el 80% de su tiempo en
Data Wrangling.
Metodología
Fase 3: Data Transformada/ Patrones
Una vez recogidos los datos de interés, un explorador puede
decidir qué tipos de patrón quiere descubrir:
• Clasificación (Predictivo)
• Regresión Logística (Predictivo)
• Conglomerados (Descriptivo)
• Asociación (Descriptivo)
• Optimización (Prescriptivo)
“Si torturas los datos el tiempo suficiente,
te confesarán cualquier cosa …”
Darrell Huff
Metodología
Fase 4: Visualización y Entendimiento
• Las técnicas de visualización de datos se utilizan

fundamentalmente con dos objetivos:
• Extraer patrones a partir de imágenes.
• Descubrir nuevos patrones para un mejor entendimiento con reportes
simples y otros complejos.
Patrones
https://flowingdata.com/2015/12/15/a-day-in-
the-life-of-americans/
https://www.gapminder.org/tools/
Inteligencia Artificial, Data Science,
Machine Learning, y Deep Learning
Inteligencia Artificial
“La inteligencia artificial (IA) hace posible que las máquinas aprendan de la experiencia, se ajusten
a nuevas aportaciones y realicen tareas como seres humanos. La mayoría de los ejemplos de
inteligencia artificial sobre los que oye hablar hoy día – desde computadoras que juegan ajedrez o Go
hasta automóviles de conducción autónoma – recurren mayormente al aprendizaje profundo y al
procesamiento del lenguaje natural. Empleando estas tecnologías, las computadoras pueden ser
entrenadas para realizar tareas específicas procesando grandes cantidades de datos y reconociendo
patrones en los datos” - SAS Institute.
Machine Learning y Deep Learning
Tipos de Error en Machine Learning
Algoritmo de Diagnostico de Cáncer
Falso positivo o “Error tipo I”

• El paciente no tiene cáncer, pero el algoritmo ha diagnosticado que sí lo padece.
• Se realizarán mas pruebas adicionales que acabarán descartando el diagnóstico.
• Tendrá un costo económico y un impacto emocional sobre el paciente, pero no se
traducirá en riesgo vital.
Falso negativo o “Error tipo II”

• El paciente sí tiene cáncer, pero el algoritmo predice que no.
• Este error del algoritmo se traduce en una falta de detección temprana de la
enfermedad.
• El paciente no recibirá tratamiento a tiempo y esto, indudablemente reduce sus
posibilidades de superar la enfermedad.
Matriz de Confusión
Desempeño del Modelo
Predecido
NO SI
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦
Observado / Real
Verdadero Negativo Razón de Fracasos

NO Falso Positivo = 87 (𝑉𝑁)
= 876
(𝑉𝑁 + 𝐹𝑃)
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦
Falso Negativo = Verdadero Positivo =
SI
157 342 (𝑉𝑃) Razón de Éxitos
(𝑉𝑃 + 𝐹𝑁)
𝑉𝑎𝑙𝑜𝑟 𝑃𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 o Valor
Negativa Predicción Positiva 𝐴𝑐𝑢𝑟𝑎𝑐𝑐𝑦
(𝑉𝑁) (𝑉𝑃) (𝑉𝑃 + 𝑉𝑁)

(𝑉𝑁 + 𝐹𝑁) (𝑉𝑃 + 𝐹𝑃) (𝑉𝑃 + 𝐹𝑃 + 𝑉𝑁 + 𝐹𝑁)
Revista Economía – 27 de Abril
2021:
Gerdau desarrolló, en conjunto

con Deloitte, “Safety Analytics”,
un software que tiene la
capacidad de predecir en un
80% la probabilidad de
accidentes en planta, a través
del uso de Inteligencia
Artificial y tecnologías
analíticas. La información llega
a este sistema a través de los
diversos reportes de ocurrencia
registrados por los colaboradores
en sus actividades, así como en
las inspecciones de seguridad
diarias. Así, la predicción de
eventos resulta clave para poder
establecer estrategias de
prevención efectivas y oportunas.
Metodologías Inferenciales
▪ Ningún modelo predictivo alcanzará una certeza del 100%
▪ Tipos de errores cometidos, ejemplo en base a un modelo de evaluación
de riesgo crediticio:
Hipótesis Predecido
NO Pagarán SI Pagarán
oportunamente oportunamente NO SI
su crédito su crédito
NO Pagaron Error Tipo I –
Inferencia Rechazo
Observado
oportunamente Error tipo I NO aceptación
Realidad
Correcta Correcto
su crédito incorrecta
SI Pagaron Error Tipo II –
Inferencia Aceptación
oportunamente Error tipo II SI rechazo
correcta Correcta
su crédito incorrecto
CURVA ROC – Área bajo la Curva
Una curva ROC (acrónimo de Receiver Operating Characteristic, o Característica Operativa del
Receptor) es una representación gráfica de la sensibilidad frente a la especificidad para un sistema
clasificador binario según se varía el umbral de discriminación.
1 Valor Diagnostico Perfecto 1

Valor Diagnostico Bueno 1 Sin Valor Diagnostico
AUC =1.0
AUC =0.8
% Verdaderos Positivos
% Bien Clasificados
% Clasificados Regular
Sensibilidad
Sensibilidad
Sensibilidad
AUC =0.5
% Sin Clasificar
0 1 0 0
1- Especificidad 1- Especificidad 1 1- Especificidad 1
% Falsos Positivos % Falsos Positivos % Falsos Positivos
Conceptos Básicos Machine Learning
El Machine Learning es un campo de la inteligencia artificial que brinda a las computadoras la
capacidad de aprender sin ser programado explícitamente
Data Etiquetada Algoritmo de

(data histórica cuyo «resultado Machine Learning
final» ya conocemos (Aprendizaje)
Entrenamiento
Prediccion
Data NO Etiquetada (datos Modelo

nuevos cuyo «resultado final» Predicción
Aprendizaje
queremos predecir
Es el método que puede aprender y hacer predicciones sobre datos

Deep Learning
El Deep Learning lleva a cabo el proceso de Machine Learning usando una red neuronal artificial
que se compone de un número de niveles jerárquicos. En el nivel inicial de la jerarquía la red
aprende algo simple y luego envía esta información al siguiente nivel. El siguiente nivel toma esta
información sencilla, la combina, compone una información algo un poco más compleja, y se lo pasa
al tercer nivel, y así sucesivamente.
Tipos de Aprendizaje: Supervisado
Aprendizaje supervisado (Supervised
machine learning)
Generan un modelo predictivo, basado en
datos de entrada y salida. La palabra
clave “supervisado” viene de la idea de
tener un conjunto de datos previamente
etiquetado y clasificado, es decir, tener
un conjunto de muestra el cual ya se sabe
a qué grupo, valor o categoría pertenecen
los ejemplos. Con este grupo de datos, el
cual llamamos datos de entrenamiento,
se realiza el ajuste al modelo inicial
planteado. De esta forma es como el
algoritmo va “aprendiendo” a clasificar
las muestras de entrada comparando el
resultado del modelo, y la etiqueta real
de la muestra, realizando las
compensaciones respectivas al modelo de
acuerdo a cada error en la estimación del
resultado.
Tipos de Aprendizaje: No Supervisado
Aprendizaje no supervisado
(Unsupervised machine learning)
Estos algoritmos ajustan su modelo

predictivo tomando en cuenta los
datos de entrada, sin importar los
de salida. A diferencia del
aprendizaje supervisado, los datos
de entrada no están clasificados ni
etiquetados, y no son necesarias
estas características para entrenar
el modelo. Dentro de este tipo de
algoritmos, el agrupamiento o
clustering en inglés, es el más
utilizado, ya que particiona los
datos en grupos que posean
características similares entre sí.
Tipos de Aprendizaje: Por Refuerzo
Aprendizaje por refuerzo
(Reinforcement learning)
Los algoritmos de aprendizaje por

refuerzo definen modelos y funciones
enfocadas en maximizar una medida de
“recompensas”, basados en “acciones” y
al ambiente en el que el agente
inteligente se desempeñará. Este
algoritmo es el más apegado a la
psicología conductista de los humanos,
ya que es un modelo acción-recompensa,
que busca que el algoritmo se ajuste a la
mejor “recompensa” dada por el
ambiente, y sus acciones por tomar
están sujetas a estas recompensas. Este
tipo de métodos pueden usarse para
hacer que los robots aprendan a realizar
diferentes tareas.
Técnicas de Supervisado y No Supervisado
Técnicas disponibles:
Supervisado
▪ Regresión logística
▪ Regresión multivariable
▪ Clusters y
Conglomerados
▪ Arboles de decisión
▪ Naive-Bayes
▪ Reglas de Asociación
▪ Redes neuronales No Supervisado
Vocabulario Gráfico de Machine Learning
Distribución Normal Mezcla Gaussiana Skewness
Regresión Lineal Underfitting Fit Correcto Over Fitting

Distribución Normal del Coronavirus
Fuente: CDC
https://www.worldometers.info/coronavirus/
https://coronavirus.jhu.edu/map.html
Árbol de
Decisión
Compitiendo Mediante Analítica
El uso extensivo de datos, análisis

estadístico y cuantitativo, modelos
explicativos y predictivos y una gestión
basada en hechos para impulsar
decisiones y acciones.
Enterprise Analytics. Thomas Davenport. Pearson Publishing. 2013

Analítica Predictiva
Necesidades del Cliente y valor de

Fuente: SAP-HANA
proposición
Modelamiento
Prescriptivo
Ventaja Competitiva
Modelamiento ¿Qué es lo
Predictivo mejor que
Analítica podría suceder?
Reportes Predictiva
Adhoc & General
¿Qué Sucederá?
Reporte OLAP
Data Estándar
Data Limpiada ¿Porqué
Cruda Sucedió?
¿Qué Sucedió?
Madurez Analítica
La clave es desbloquear datos para mover la toma de decisiones desde sentido común y responder para
predecir y actuar
Big Bang de la Analítica
El Análisis Predictivo alcanza la masa critica
del Big Data y nuevas tecnologías aparecen:
Intercambios en Analítica que
- R versiones 1.0 permitan colaboración global con
- Estándares de Procesamiento de Analítica Anticipatoria
Lenguaje Natural
- Apache Hadoop Usuario
-Analítica en Tiempo Real
- Analítica Prescriptiva +
- Programación no-lineal
- Resolución de Expertos en Analítica & Pequeñas Empresas
- Simulación problemas heurísticos
Montecarlo Basados en Computador
- Modelos de Acelera la Innovación de la Analítica
Redes neuronales + ▪ 2000-2009 producción de la versión
- Programación R lenguaje como software de
lineal Analítica crece de “0” a 1000 MM
Estadísticas
usuarios.
+ Negocios Medianos
&
Desarrollo Tecnología. Compras! Compras!, Compras!
▪ 2000-2012 el mercado de software
Corporaciones & de analítica crece de 11 billones a 35
Institutos de Investigación
Billones de US$.
Agencias de Gobierno
Siglo
19
1930s-40s 1950s-60s 1970s-90s 2000s al Presente
Próximamente
Capacidades del Data Scientist
Ingenieria Método
de Científico
Información
Especialista
en el Matemáticas
Campo
Científico
Mentalidad
de Datos Estadística
de Hacker
Ciencias de
Aprendizaje
la
de
Computación
Visualización Maquinas
Lectura: El Camino hacia la Prescripción

ATD - Sesion 09-10 Data Modeling - NEW Format

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ATD - Sesion 09-10 Data Modeling - NEW Format

Cargado por

Copyright:

Formatos disponibles

Redefinamos los

Año X-3 ---- 100

¿Cómo sé cual es mi frecuencia cardiaca

Se requiere conocer el comportamiento de las variables en el pasado, en el presente y en el futuro.

Se requiere conocer el comportamiento de las variables en el pasado, en el presente y en el futuro.

• Entendimiento del negocio

• Interpretación de los datos

• Preparación de los datos

De acuerdo a una encuesta realizada en el 2017, un analista

• Las técnicas de visualización de datos se utilizan

Falso positivo o “Error tipo I”

Falso negativo o “Error tipo II”

Verdadero Negativo Razón de Fracasos

(𝑉𝑁) (𝑉𝑃) (𝑉𝑃 + 𝑉𝑁)

Gerdau desarrolló, en conjunto

1 Valor Diagnostico Perfecto 1

Data Etiquetada Algoritmo de

Data NO Etiquetada (datos Modelo

Es el método que puede aprender y hacer predicciones sobre datos

Estos algoritmos ajustan su modelo

Los algoritmos de aprendizaje por

Distribución Normal Mezcla Gaussiana Skewness

Regresión Lineal Underfitting Fit Correcto Over Fitting

El uso extensivo de datos, análisis

Enterprise Analytics. Thomas Davenport. Pearson Publishing. 2013

Necesidades del Cliente y valor de

También podría gustarte