Documentos de Académico
Documentos de Profesional
Documentos de Cultura
buenos negocios
Analítica para la centrum.pucp.edu.pe
Toma de
Decisiones
Sesión 09 - 10:
Data Modeling
Agenda
• Modelización, Metodología y
Análisis de Datos.
• IA, Machine Learning, Deep
Learning.
Modelización, Análisis de Datos y
Metodología
Modelización Matemática
“La modelización
matemática es el
arte de aplicar la
matemática a
situaciones de la
vida real”
Población
Muestra Estadística Descriptiva:
Explora la data a través de
medidas o gráficas
estadísticas.
Estadística Inferencial:
Imputa los resultados de la
muestra a la población.
Caracterizada por Caracterizada por estadísticos:
parámetros poblacionales:
Ejemplo: Media muestral (X),
Ejemplo: Media (µ), Desviación muestral (S)
Desviación (σ)
Análisis de Datos
Estadística Descriptiva vs
Inferencial
Análisis de Datos
Estadística Descriptiva vs Inferencial
Análisis de Datos
Variables Estadísticas
• Variable: Una propiedad que puede medirse u observarse, puede tomar varios valores.
• Clasificación de las Variables:
• Por Tipo:
• Cualitativas o Categóricas
• Nacionalidad, Color de piel, Sexo.
• Cuantitativas
• Ejemplo: Edad, precio, ingreso
• A la vez las cuantitativas se pueden clasificar en:
• Discretas: toma valores enteros (Ejem: 2 hermanos, -4 aves desaparecidas
• Continuas: toma valores dentro de un intervalo (Ejem: 90.4 Km/h
• Por Dimensión
• Unidimensional (Ejem: Edad de los alumnos)
• Bidimensional (Ejem: Edad y Altura)
• Pluridimensional (Ejem: Edad, Altura y Peso)
Modelo CRISP-DM : Cross-Industry Standard
Process for Data Mining
• Modelamiento
Aplicación de técnicas de modelamiento y calibración de
parámetros.
• Evaluación
Objetivos del negocio & evaluación de resultados.
• Implementación
Implementación del modelo obtenido y replicación del
procesos de minería de datos.
CRISP-DM fue concebido en 1996 – Proyecto Unión Europea- ESPRIT
Metodología
Fases del Proceso de Modelamiento
1. Recolección de Datos
2. Almacén de Datos (DWH)
3. Navegación y Visualización
4. Selección, Limpieza y Transformación
5. Minería de Datos
6. Representación de Patrones
7. Entendimiento y Toma de Decisión
Metodología
Fase 1: Recolección de Datos (Datos Crudos)
• Bases de Datos
• Otras fuentes internas y externas
• Las fuentes pueden ser:
OLAP u OLTP ROLAP o MOLAP
Metodología
Fase 2: Data Wrangling
Es el proceso de transformación de datos “Crudos" en datos que pueden
analizarse para generar conocimientos válidos y procesables, y los pasos
son:
• Selección
• Limpieza
DATA
• Transformación CRUDA
• Clasificación (Predictivo)
• Regresión Logística (Predictivo)
• Conglomerados (Descriptivo)
• Asociación (Descriptivo)
• Optimización (Prescriptivo)
“Si torturas los datos el tiempo suficiente,
te confesarán cualquier cosa …”
Darrell Huff
Metodología
Fase 4: Visualización y Entendimiento
https://www.gapminder.org/tools/
Inteligencia Artificial, Data Science,
Machine Learning, y Deep Learning
Inteligencia Artificial
“La inteligencia artificial (IA) hace posible que las máquinas aprendan de la experiencia, se ajusten
a nuevas aportaciones y realicen tareas como seres humanos. La mayoría de los ejemplos de
inteligencia artificial sobre los que oye hablar hoy día – desde computadoras que juegan ajedrez o Go
hasta automóviles de conducción autónoma – recurren mayormente al aprendizaje profundo y al
procesamiento del lenguaje natural. Empleando estas tecnologías, las computadoras pueden ser
entrenadas para realizar tareas específicas procesando grandes cantidades de datos y reconociendo
patrones en los datos” - SAS Institute.
Machine Learning
Realidad
Algoritmo de Diagnostico de Cáncer
Falso positivo o “Error tipo I”
• El paciente no tiene cáncer, pero el algoritmo
ha diagnosticado que sí lo padece.
NO SI
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑
Observado / Real
Hipótesis Predecido
NO Pagarán SI Pagarán
oportunamente oportunamente NO SI
su crédito su crédito
NO Pagaron Error Tipo I –
Inferencia Rechazo
Observado
oportunamente Error tipo I NO aceptación
Realidad
Correcta Correcto
su crédito incorrecta
SI Pagaron Error Tipo II –
Inferencia Aceptación
oportunamente Error tipo II SI rechazo
correcta Correcta
su crédito incorrecto
Resultados del Test o Validación
• CA Accuracy = Precisión de la clasificación o
Exactitud: es la proporción de ejemplos
clasificados correctamente.
CA = Accuracy =
(VP+VN)/(VP+FP+FN+VN)
• Precision: Proporción de verdaderos positivos
entre los casos clasificados como positivos.
Precision = VP/(VP+FP)
• Recall : Recuperación es la proporción de
verdaderos positivos que fueron
correctamente identificados por el algoritmo.
Recall = VP/(VP+FN)
AUC =1.0
AUC =0.8
% Verdaderos Positivos
% Verdaderos Positivos
% Verdaderos Positivos
% Bien Clasificados
% Clasificados Regular
Sensibilidad
Sensibilidad
Sensibilidad
AUC =0.5
% Sin Clasificar
0 1 0 0
1- Especificidad 1- Especificidad 1 1- Especificidad 1
% Falsos Positivos % Falsos Positivos % Falsos Positivos
Conceptos Básicos Machine Learning
El Machine Learning es un campo de la inteligencia artificial que brinda a las computadoras la
capacidad de aprender sin ser programado explícitamente
Entrenamiento
Prediccion
Machine Learning o
Aprendizaje Automático
Deep Learning o
Aprendizaje Profundo
Tipos de Aprendizaje
Tipos de Aprendizaje: Supervisado
Aprendizaje supervisado (Supervised
machine learning)
Generan un modelo predictivo, basado en
datos de entrada y salida. La palabra
clave “supervisado” viene de la idea de
tener un conjunto de datos previamente
etiquetado y clasificado, es decir, tener
un conjunto de muestra el cual ya se sabe
a qué grupo, valor o categoría pertenecen
los ejemplos. Con este grupo de datos, el
cual llamamos datos de entrenamiento,
se realiza el ajuste al modelo inicial
planteado. De esta forma es como el
algoritmo va “aprendiendo” a clasificar
las muestras de entrada comparando el
resultado del modelo, y la etiqueta real
de la muestra, realizando las
compensaciones respectivas al modelo de
acuerdo a cada error en la estimación del
resultado.
Tipos de Aprendizaje: No Supervisado
Aprendizaje no supervisado
(Unsupervised machine learning)
Árbol de
Decisión
Compitiendo Mediante Analítica
Madurez Analítica
La clave es desbloquear datos para mover la toma de decisiones desde sentido común y responder para
predecir y actuar
Big Bang de la Analítica
El Análisis Predictivo alcanza la masa critica
del Big Data y nuevas tecnologías aparecen:
Intercambios en Analítica que
- R versiones 1.0 permitan colaboración global con
- Estándares de Procesamiento de Analítica Anticipatoria
Lenguaje Natural
- Apache Hadoop Usuario
-Analítica en Tiempo Real
- Analítica Prescriptiva +
- Programación no-lineal
- Resolución de Expertos en Analítica & Pequeñas Empresas
- Simulación problemas heurísticos
Montecarlo Basados en Computador
- Modelos de Acelera la Innovación de la Analítica
Redes neuronales + ▪ 2000-2009 producción de la versión
- Programación R lenguaje como software de
lineal Analítica crece de “0” a 1000 MM
Estadísticas
usuarios.
+ Negocios Medianos
&
Desarrollo Tecnología. Compras! Compras!, Compras!
▪ 2000-2012 el mercado de software
Corporaciones & de analítica crece de 11 billones a 35
Institutos de Investigación
Billones de US$.
Agencias de Gobierno
Siglo
19
1930s-40s 1950s-60s 1970s-90s 2000s al Presente
Próximamente
Capacidades del Data Scientist
Ingenieria Método
de Científico
Información
Especialista
en el Matemáticas
Campo
Científico
Mentalidad
de Datos Estadística
de Hacker
Ciencias de
Aprendizaje
la
de
Computación
Visualización Maquinas
Lectura: El Camino hacia la Prescripción