01 Introduccion

Master Universitario
Big Data Analytics

Módulo 4: Análisis de datos y
aprendizaje
Introducción
José María Gómez Hidalgo, 2019/20
Motivación
Objetivo del aprendizaje automático
• Diagnóstico de enfermedades
• Identificación de mareas negras
• Identificación de fraude financiero
• Determinación del periodo fértil del ganado vacuno

Múltiples tareas a
automatizar • Detección del correo basura o Spam
• Análisis de tendencias en mercados financieros
• Mantenimiento predictivo de maquinaria
• ...
Sistemas basados en conocimiento
Características del paciente
• Usualmente, muchas de estas tareas Edad
son realizadas por expertos humanos Enfermedad ocular
Astigmatismo
Lágrima
• Para automatizarlas, podemos
Objetivo: recomendar
• Extraer su conocimiento o Lentes blandas
experiencia y codificarlo Lentes duras
No usar lentes
típicamente como reglas
• Construir un sistema experto o

sistema basado en conocimiento Adquisición de
conocimiento
Oftalmólogo Ingeniero del
conocimiento
• Es la tarea del ingeniero del
conocimiento Conocimiento = reglas
SI [la tasa de lágrimas es baja]
ENTONCES [no usar lentes]
Problemática de los sistemas expertos
PROBLEMAS SOLUCIONES
Cuello de botella de adquisición del Dejemos al experto que siga

conocimiento trabajando…
Conocimiento difícil de
formalizar Almacenamos los resultados de su
Expertos no cooperativos trabajo => Base de Datos de ejemplo
Carencia de portabilidad y Construimos algoritmos que infieren

escalabilidad reglas a partir de los ejemplos
Prescindimos temporalmente del

experto durante la adquisición
Aprendizaje
automático
Aprendizaje automático
• “Sistemas que aprenden a cambiar su comportamiento de modo que resulten más efectivos
en el futuro”
• “A computer program is said to learn from experience E with respect to some task T and
some performance measure P, if its performance on T, as measured by P, improves with
experience E.”
– Tom Mitchell, Carnegie Mellon University
Ventajas e inconvenientes
VENTAJAS INCONVENIENTES
Proceso de adquisición automático No siempre se alcanza la efectividad del

experto
Podemos prescindir del experto, y quedarnos
con sus datos El proceso es bastante sofisticado
Selección de fuentes, recopilación de
La tecnología es portable datos, selección de los más adecuados,
Aprender sobre datos distintos => aplicar estructuración y representación,
sobre dominios nuevos aprendizaje, comprensión de resultados
La tecnología es más escalable Los datos son confusos, erróneos,

Cuantos más datos, mejor funcionará incompletos, pocos, con ruido, etc.
Posibilidad de explotar la actual abundancia Docenas de técnicas disponibles…

de datos …Y cada día aparecen nuevos algoritmos
¡Deep Learning!
Gran cantidad de SW disponible
Ejemplo: Clasificador generado por PRISM
Age Spectacle prescription Astigmatism Tear production rate Contact lenses
young myope no reduced none
young myope no normal soft
young myope yes reduced none
young hypermetrope yes reduced none
young hypermetrope yes normal hard
pre-presbyopic myope no reduced none
pre-presbyopic myope no normal soft
pre-presbyopic hypermetrope yes normal none
presbyopic myope no reduced none
presbyopic hypermetrope yes reduced none
presbyopic hypermetrope yes normal none
… ... ... ... ...
Sistema de 9 reglas de clasificación, incluyendo
IF astigmatism = no
and tear-prod-rate = normal
and spectacle-prescrip = hypermetrope THEN soft
IF astigmatism = yes
and tear-prod-rate = normal
and spectacle-prescrip = myope THEN hard
IF tear-prod-rate = reduced THEN none
Un ejemplo
práctico
Mantenimiento predictivo
Coste de parada o “downtime cost”
28
millones
*Costes diarios de parada al día

en la industria de la automoción
Prácticamente cada fábrica pierde al menos el 5% de su capacidad productiva debido a las paradas, y
puede llegar al 20%. Del 20% de empresas que pueden estimar su tiempo de parada, usualmente lo
infra estiman en un 200% - 300%
20%
80%
*Inform de McKinsey basado en news.thomasnet.com
11
¿Dónde estamos hoy?
Auto-optimizado
Prevención
Predictivo de eventos
Detección durante
Proactivo el proceso
Análisis del éxito

Analítico del proceso
Datos e informes
Monitorizado históricos
Heurístico
HOY
Sin datos
12
Bombas de extracción petrolífera
sumergibles Componentes de la bomba
Cable de correinte
Monitorización de datos
Bomba
• Temperatura del motor Consumidor
• Vibración del motor Protector
• Corriente
Motor de la bomba
• Presión
• Flujo Unidad de monitorización
• ...
13
Problema objetivo
Configuración de las señales

cuando se producen
disrupciones en el flujo
La entrada de suciedad y
despedrdicios produce la
disrupción en el flujo
14
Datos técnicos
• Flujo de datos en tiempo real que mide la presión de

consume y el amperaje del motor de 28 bombas en
intervalos de un minute en un periodo de 30 días
• Configuración de las herramientas para la captura de

datos, definición del modelo físico y cálculo de la
pendiente de presión
• Umbrales verificados y usados

• Presión < 650 Kpa
• Amperaje > 15 A
• Pendiente de presión < 25 kPa/h
15
Demostración
https://www.tibco.com/resources/demand-webinar/demand-predictive-maintenance-webinar-industrialization-analytics
16
Relación con
otros
campos
Su lugar en el KDD
Data Mining = Minería de Datos = Aprendizaje Automático
Proceso del Descubrimiento de Conocimiento en Bases de Datos

Knowledge Discovery In Databases
Conceptos relacionados
Data Mining, minería de datos – fase de aprendizaje propiamente dicho
Data analysis, análisis de datos – fase de comprensión y preparación del dato previa al
aprendizaje
Data Science, ciencia de datos, analytics, analítica – todos los procesos relacionados
con el aprendizaje, incluyendo desde la captura de requisitos y definición del caso de
uso, análisis, aprendizaje automático, y reporting de resultados, hasta la
operativización o industrialización de los modelos construidos.
El marco de la Inteligencia Artificial
Razonar y
aprender
Si está escrito en
Powerpoint, es
Tareas realizadas Inteligencia Artificial
mejor por seres Ver y
humanos que por entender
computadoras Si está escrito en
Python, es aprendizaje
automático
Comunicarse
Resumen y
conclusiones
Resumen y conclusiones
• El objetivo final del aprendizaje automático es la automatización de tareas realizadas

usualmente por seres humanos.
• Se contrapone fundamentalmente a los sistemas expertos, en los que las decisiones se
toman por medio de reglas introducidas por un ingeniero del conocimiento en base a un
experto (médico, etc.).
• El aprendizaje automático es la capacidad de un sistema software de mejorar su
rendimiento con la experiencia.
• Son sistemas automáticos, portables, eficaces y escalables.
• Se corresponde con la fase de minería de datos en el KDD, y está en el centro de la
ciencia de datos y de la analítica.
• Se corresponde con una de las capacidades humanas que son objeto de estudio por la
Inteligencia Artificial.
22
Preguntas
23
Referencias
Referencias bibliográficas
• Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, 1996. From data mining to
knowledge discovery in databases. AI Magazine, Volume 17, Number 3.
– Disponible en: https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131

01 Introduccion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

01 Introduccion

Cargado por

Copyright:

Formatos disponibles

Master Universitario

Big Data Analytics

• Identificación de mareas negras

• Identificación de fraude financiero

• Determinación del periodo fértil del ganado vacuno

• Análisis de tendencias en mercados financieros

• Mantenimiento predictivo de maquinaria

• Construir un sistema experto o

Cuello de botella de adquisición del Dejemos al experto que siga

Carencia de portabilidad y Construimos algoritmos que infieren

Prescindimos temporalmente del

Proceso de adquisición automático No siempre se alcanza la efectividad del

La tecnología es más escalable Los datos son confusos, erróneos,

Posibilidad de explotar la actual abundancia Docenas de técnicas disponibles…

Sistema de 9 reglas de clasificación, incluyendo

*Costes diarios de parada al día

Análisis del éxito

Configuración de las señales

• Flujo de datos en tiempo real que mide la presión de

• Configuración de las herramientas para la captura de

• Umbrales verificados y usados

Proceso del Descubrimiento de Conocimiento en Bases de Datos

Data Mining, minería de datos – fase de aprendizaje propiamente dicho

• El objetivo final del aprendizaje automático es la automatización de tareas realizadas

También podría gustarte