Documentos de Académico
Documentos de Profesional
Documentos de Cultura
buenos negocios
Analítica para la centrum.pucp.edu.pe
Toma de
Decisiones
Sesión 07 – 08 :
Data Modeling
Agenda
• Modelización, Metodología y
Análisis de Datos.
• Machine Learning, Data
Science y Deep Learning.
Modelización, Análisis de Datos y
Metodología
Modelización Matemática
“La modelización
matemática es el arte de
aplicar la matemática a
situaciones de la vida real”
Niss,Mogens 1989
Modelización Matemática
¿Cuánto venderé el
próximo año? - año X.
Población
Muestra Estadística Descriptiva:
Explora la data a través de
medidas o gráficas
estadísticas.
Estadística Inferencial:
Imputa los resultados de la
muestra a la población.
Caracterizada por Caracterizada por estadísticos:
parámetros poblacionales:
Ejemplo: Media muestral (X),
Ejemplo: Media (µ), Desviación muestral (S)
Desviación (σ)
Análisis de Datos
Estadística Descriptiva vs
Inferencial
Análisis de Datos
Estadística Descriptiva vs Inferencial
Análisis de Datos
Variables Estadísticas
• Variable: Una propiedad que puede medirse u observarse, puede tomar varios valores.
• Clasificación de las Variables:
• Por Tipo:
• Cualitativas o Categóricas
• Nacionalidad, Color de piel, Sexo.
• Cuantitativas
• Ejemplo: Edad, precio, ingreso
• A la vez las cuantitativas se pueden clasificar en:
• Discretas: toma valores enteros (Ejem: 2 hermanos, -4 aves desaparecidas
• Continuas: toma valores dentro de un intervalo (Ejem: 90.4 Km/h
• Por Dimensión
• Unidimensional (Ejem: Edad de los alumnos)
• Bidimensional (Ejem: Edad y Altura)
• Pluridimensional (Ejem: Edad, Altura y Peso)
Modelo CRISP-DM : Cross-Industry Standard
Process for Data Mining
• Modelamiento
Aplicación de técnicas de modelamiento y calibración de
parámetros.
• Evaluación
Objetivos del negocio & evaluación de resultados.
• Implementación
Implementación del modelo obtenido y replicación del
procesos de minería de datos.
CRISP-DM fue concebido en 1996 – Proyecto Unión Europea- ESPRIT
Metodología
Fases del Proceso de Modelamiento
1. Recolección de Datos
2. Almacén de Datos (DWH)
3. Navegación y Visualización
4. Selección, Limpieza y Transformación
5. Minería de Datos
6. Representación de Patrones
7. Entendimiento y Toma de Decisión
Metodología
Fase 1: Recolección de Datos (Datos Crudos)
• Bases de Datos
• Otras fuentes internas y externas
• Las fuentes pueden ser:
OLAP u OLTP ROLAP o MOLAP
Metodología
Fase 2: Data Wrangling
Es el proceso de transformación de datos “Crudos" en datos que pueden
analizarse para generar conocimientos válidos y procesables, y los pasos
son:
• Selección
• Limpieza
DATA
• Transformación CRUDA
• Clasificación (Predictivo)
• Regresión Logística (Predictivo)
• Conglomerados (Descriptivo)
• Asociación (Descriptivo)
• Optimización (Prescriptivo)
“Si torturas los datos el tiempo suficiente,
te confesarán cualquier cosa …”
Darrell Huff
Metodología
Fase 4: Visualización y Entendimiento
https://www.gapminder.org/tools/
Inteligencia Artificial, Data Science,
Machine Learning, y Deep Learning
Inteligencia Artificial
“La inteligencia artificial (IA) hace posible que las máquinas aprendan de la experiencia, se ajusten
a nuevas aportaciones y realicen tareas como seres humanos. La mayoría de los ejemplos de
inteligencia artificial sobre los que oye hablar hoy día – desde computadoras que juegan ajedrez o Go
hasta automóviles de conducción autónoma – recurren mayormente al aprendizaje profundo y al
procesamiento del lenguaje natural. Empleando estas tecnologías, las computadoras pueden ser
entrenadas para realizar tareas específicas procesando grandes cantidades de datos y reconociendo
patrones en los datos” - SAS Institute.
Machine Learning y Deep Learning
Tipos de Error en Machine Learning
Algoritmo de Diagnostico de Cáncer
NO SI
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦
Observado / Real
Hipótesis Predecido
NO Pagarán SI Pagarán
oportunamente oportunamente NO SI
su crédito su crédito
NO Pagaron Error Tipo I –
Inferencia Rechazo
Observado
oportunamente Error tipo I NO aceptación
Realidad
Correcta Correcto
su crédito incorrecta
SI Pagaron Error Tipo II –
Inferencia Aceptación
oportunamente Error tipo II SI rechazo
correcta Correcta
su crédito incorrecto
CURVA ROC – Área bajo la Curva
Una curva ROC (acrónimo de Receiver Operating Characteristic, o Característica Operativa del
Receptor) es una representación gráfica de la sensibilidad frente a la especificidad para un sistema
clasificador binario según se varía el umbral de discriminación.
AUC =1.0
AUC =0.8
% Verdaderos Positivos
% Verdaderos Positivos
% Verdaderos Positivos
% Bien Clasificados
% Clasificados Regular
Sensibilidad
Sensibilidad
Sensibilidad
AUC =0.5
% Sin Clasificar
0 1 0 0
1- Especificidad 1- Especificidad 1 1- Especificidad 1
% Falsos Positivos % Falsos Positivos % Falsos Positivos
Conceptos Básicos Machine Learning
El Machine Learning es un campo de la inteligencia artificial que brinda a las computadoras la
capacidad de aprender sin ser programado explícitamente
Entrenamiento
Prediccion
Técnicas disponibles:
Supervisado
▪ Regresión logística
▪ Regresión multivariable
▪ Clusters y
Conglomerados
▪ Arboles de decisión
▪ Naive-Bayes
▪ Reglas de Asociación
▪ Redes neuronales No Supervisado
Vocabulario Gráfico de Machine Learning
https://www.worldometers.info/coronavirus/
https://coronavirus.jhu.edu/map.html
Vocabulario Gráfico de Machine Learning
Árbol de
Decisión
Compitiendo Mediante Analítica
Modelamiento ¿Qué es lo
Predictivo mejor que
Analítica podría suceder?
Reportes Predictiva
Adhoc & General
¿Qué Sucederá?
Reporte OLAP
Data Estándar
Data Limpiada ¿Porqué
Cruda Sucedió?
¿Qué Sucedió?
Madurez Analítica
La clave es desbloquear datos para mover la toma de decisiones desde sentido común y responder para
predecir y actuar
Big Bang de la Analítica
El Análisis Predictivo alcanza la masa critica
del Big Data y nuevas tecnologías aparecen:
Intercambios en Analítica que
- R versiones 1.0 permitan colaboración global con
- Estándares de Procesamiento de Analítica Anticipatoria
Lenguaje Natural
- Apache Hadoop Usuario
-Analítica en Tiempo Real
- Analítica Prescriptiva +
- Programación no-lineal
- Resolución de Expertos en Analítica & Pequeñas Empresas
- Simulación problemas heurísticos
Montecarlo Basados en Computador
- Modelos de Acelera la Innovación de la Analítica
Redes neuronales + ▪ 2000-2009 producción de la versión
- Programación R lenguaje como software de
lineal Analítica crece de “0” a 1000 MM
Estadísticas
usuarios.
+ Negocios Medianos
&
Desarrollo Tecnología. Compras! Compras!, Compras!
▪ 2000-2012 el mercado de software
Corporaciones & de analítica crece de 11 billones a 35
Institutos de Investigación
Billones de US$.
Agencias de Gobierno
Siglo
19
1930s-40s 1950s-60s 1970s-90s 2000s al Presente
Próximamente
Capacidades del Data Scientist
Ingenieria Método
de Científico
Información
Especialista
en el Matemáticas
Campo
Científico
Mentalidad
de Datos Estadística
de Hacker
Ciencias de
Aprendizaje
la
de
Computación
Visualización Maquinas
Lectura: El Camino hacia la Prescripción