Está en la página 1de 25

Master Universitario

Big Data Analytics


Módulo 4: Análisis de datos y
aprendizaje

Introducción
José María Gómez Hidalgo, 2019/20
Motivación
Objetivo del aprendizaje automático

• Diagnóstico de enfermedades

• Identificación de mareas negras

• Identificación de fraude financiero

• Determinación del periodo fértil del ganado vacuno


Múltiples tareas a
automatizar • Detección del correo basura o Spam

• Análisis de tendencias en mercados financieros

• Mantenimiento predictivo de maquinaria

• ...
Sistemas basados en conocimiento
Características del paciente
• Usualmente, muchas de estas tareas Edad
son realizadas por expertos humanos Enfermedad ocular
Astigmatismo
Lágrima
• Para automatizarlas, podemos
Objetivo: recomendar
• Extraer su conocimiento o Lentes blandas
experiencia y codificarlo Lentes duras
No usar lentes
típicamente como reglas

• Construir un sistema experto o


sistema basado en conocimiento Adquisición de
conocimiento
Oftalmólogo Ingeniero del
conocimiento
• Es la tarea del ingeniero del
conocimiento Conocimiento = reglas
SI [la tasa de lágrimas es baja]
ENTONCES [no usar lentes]
Problemática de los sistemas expertos

PROBLEMAS SOLUCIONES

Cuello de botella de adquisición del Dejemos al experto que siga


conocimiento trabajando…
Conocimiento difícil de
formalizar Almacenamos los resultados de su
Expertos no cooperativos trabajo => Base de Datos de ejemplo

Carencia de portabilidad y Construimos algoritmos que infieren


escalabilidad reglas a partir de los ejemplos

Prescindimos temporalmente del


experto durante la adquisición
Aprendizaje
automático
Aprendizaje automático

• “Sistemas que aprenden a cambiar su comportamiento de modo que resulten más efectivos
en el futuro”

• “A computer program is said to learn from experience E with respect to some task T and
some performance measure P, if its performance on T, as measured by P, improves with
experience E.”
– Tom Mitchell, Carnegie Mellon University
Ventajas e inconvenientes

VENTAJAS INCONVENIENTES

Proceso de adquisición automático No siempre se alcanza la efectividad del


experto
Podemos prescindir del experto, y quedarnos
con sus datos El proceso es bastante sofisticado
Selección de fuentes, recopilación de
La tecnología es portable datos, selección de los más adecuados,
Aprender sobre datos distintos => aplicar estructuración y representación,
sobre dominios nuevos aprendizaje, comprensión de resultados

La tecnología es más escalable Los datos son confusos, erróneos,


Cuantos más datos, mejor funcionará incompletos, pocos, con ruido, etc.

Posibilidad de explotar la actual abundancia Docenas de técnicas disponibles…


de datos …Y cada día aparecen nuevos algoritmos
¡Deep Learning!
Gran cantidad de SW disponible
Ejemplo: Clasificador generado por PRISM
Age Spectacle prescription Astigmatism Tear production rate Contact lenses
young myope no reduced none
young myope no normal soft
young myope yes reduced none
young hypermetrope yes reduced none
young hypermetrope yes normal hard
pre-presbyopic myope no reduced none
pre-presbyopic myope no normal soft
pre-presbyopic hypermetrope yes normal none
presbyopic myope no reduced none
presbyopic hypermetrope yes reduced none
presbyopic hypermetrope yes normal none
… ... ... ... ...

Sistema de 9 reglas de clasificación, incluyendo

IF astigmatism = no
and tear-prod-rate = normal
and spectacle-prescrip = hypermetrope THEN soft
IF astigmatism = yes
and tear-prod-rate = normal
and spectacle-prescrip = myope THEN hard
IF tear-prod-rate = reduced THEN none
Un ejemplo
práctico
Mantenimiento predictivo
Coste de parada o “downtime cost”

28
millones

*Costes diarios de parada al día


en la industria de la automoción

Prácticamente cada fábrica pierde al menos el 5% de su capacidad productiva debido a las paradas, y
puede llegar al 20%. Del 20% de empresas que pueden estimar su tiempo de parada, usualmente lo
infra estiman en un 200% - 300%

20%

80%
*Inform de McKinsey basado en news.thomasnet.com

11
Mantenimiento predictivo
¿Dónde estamos hoy?
Auto-optimizado
Prevención
Predictivo de eventos

Detección durante
Proactivo el proceso

Análisis del éxito


Analítico del proceso

Datos e informes
Monitorizado históricos

Heurístico
HOY
Sin datos

12
Mantenimiento predictivo
Bombas de extracción petrolífera
sumergibles Componentes de la bomba
Cable de correinte
Monitorización de datos
Bomba
• Temperatura del motor Consumidor
• Vibración del motor Protector
• Corriente
Motor de la bomba
• Presión
• Flujo Unidad de monitorización
• ...

13
Mantenimiento predictivo
Problema objetivo

Configuración de las señales


cuando se producen
disrupciones en el flujo

La entrada de suciedad y
despedrdicios produce la
disrupción en el flujo

14
Mantenimiento predictivo
Datos técnicos

• Flujo de datos en tiempo real que mide la presión de


consume y el amperaje del motor de 28 bombas en
intervalos de un minute en un periodo de 30 días

• Configuración de las herramientas para la captura de


datos, definición del modelo físico y cálculo de la
pendiente de presión

• Umbrales verificados y usados


• Presión < 650 Kpa
• Amperaje > 15 A
• Pendiente de presión < 25 kPa/h

15
Mantenimiento predictivo
Demostración

https://www.tibco.com/resources/demand-webinar/demand-predictive-maintenance-webinar-industrialization-analytics
16
Relación con
otros
campos
Su lugar en el KDD
Data Mining = Minería de Datos = Aprendizaje Automático

Proceso del Descubrimiento de Conocimiento en Bases de Datos


Knowledge Discovery In Databases
Conceptos relacionados

Data Mining, minería de datos – fase de aprendizaje propiamente dicho

Data analysis, análisis de datos – fase de comprensión y preparación del dato previa al
aprendizaje

Data Science, ciencia de datos, analytics, analítica – todos los procesos relacionados
con el aprendizaje, incluyendo desde la captura de requisitos y definición del caso de
uso, análisis, aprendizaje automático, y reporting de resultados, hasta la
operativización o industrialización de los modelos construidos.
El marco de la Inteligencia Artificial

Razonar y
aprender
Si está escrito en
Powerpoint, es
Tareas realizadas Inteligencia Artificial
mejor por seres Ver y
humanos que por entender
computadoras Si está escrito en
Python, es aprendizaje
automático
Comunicarse
Resumen y
conclusiones
Resumen y conclusiones

• El objetivo final del aprendizaje automático es la automatización de tareas realizadas


usualmente por seres humanos.
• Se contrapone fundamentalmente a los sistemas expertos, en los que las decisiones se
toman por medio de reglas introducidas por un ingeniero del conocimiento en base a un
experto (médico, etc.).
• El aprendizaje automático es la capacidad de un sistema software de mejorar su
rendimiento con la experiencia.
• Son sistemas automáticos, portables, eficaces y escalables.
• Se corresponde con la fase de minería de datos en el KDD, y está en el centro de la
ciencia de datos y de la analítica.
• Se corresponde con una de las capacidades humanas que son objeto de estudio por la
Inteligencia Artificial.

22
Preguntas

23
Referencias
Referencias bibliográficas

• Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, 1996. From data mining to
knowledge discovery in databases. AI Magazine, Volume 17, Number 3.
– Disponible en: https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131

También podría gustarte