Está en la página 1de 110

CURSOS DE VERANO 2014

APROXIMACIN PRCTICA A LA CIENCIA DE


DATOS Y BIG DATA: HERRAMIENTAS KNIME, R,
HADOOP Y MAHOUT
Introduccin a la Ciencia de Datos, Minera de
Datos y Big Data
Francisco Herrera

Introduccin a la Ciencia de Datos,


Minera de Datos y Big data
Francisco Herrera
Dpto. Ciencias de la Computacin e I.A.
Universidad de Granada
herrera@decsai.ugr.es
Grupo de investigacin SCI2S
http://sci2s.ugr.es

Ciencia de Datos, Minera de


Datos, Big Data
Nuestro mundo gira en torno a los datos

Ciencia

Ciencias Sociales y Humanidades

Imgenes en internet, pelculas, ficheros MP3,

Medicina

Ventas de corporaciones, transacciones de mercados,


censos, trfico de aerolneas,

Entretenimiento y Ocio

Libros escaneados, documentos histricos, datos sociales,

Negocio y Comercio

Bases de datos de astronoma, genmica,


datos medio-ambientales, datos de transporte,

Datos de pacientes, datos de escaner, radiografas

Industria, Energa,

Sensores,

Motivacin
El problema de la explosin de informacin:

existencia de herramientas para la recoleccin de informacin


madurez de la tecnologa de bases de datos
bajo precio del hardware

cantidades gigantescas de datos


almacenados en bases de datos, data warehouses y
otros tipos de almacenes de informacin

Disponemos de

Somos ricos en datos pero pobres en conocimiento


El progreso y la innovacin ya no se ven obstaculizados por la
capacidad de recopilar datos, sino por la capacidad de gestionar,
analizar, sintetizar, visualizar, y descubrir el conocimiento de los
datos recopilados de manera oportuna y en una forma escalable

Ciencia de Datos, Minera de


Datos, Big Data
Alex ' Sandy' Pentland, director del
programa de emprendedores del 'Media
Lab' del Massachusetts Institute of
Technology (MIT)

Considerado por 'Forbes'


como uno de los siete
cientficos de datos ms
influyentes del mundo

http://www.elmundo.es/elmundo/2013/09/03/navegante/1378243782.html

Objetivos de esta sesin:

Introducir los conceptos de ciencia de datos,


minera de datos y big data

Conocer las etapas del proceso de minera

de datos
Introducir las tcnicas clsicas de minera de
datos, casos de estudio, lenguajes de
programacin utilizados,

Objetivo del curso: Ciencia de datos es un campo muy amplio de


conocimiento y de tecnologas asociadas. En el curso trataremos de
introducir brevemente las amplias reas de estudio en minera de datos y big
data, y formar a nivel de iniciacin prctica en cuatro herramientas y
lenguajes muy utilizados: KNIME, R, Hadoop y Mahout.

Pgina web con el material del curso


http://sci2s.ugr.es/docencia/index.php

http://sci2s.ugr.es/docencia/asignatura.php?id_asignatura=16

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Ciencia de Datos
Data Science
Ciencia de Datos es el mbito de conocimiento que engloba las
habilidades asociados al procesamiento de datos, incluyendo
Big Data

Ciencia de Datos
Data Science o la Ciencia de Datos incorpora diferentes
elementos y se basa en las tcnicas y teoras de muchos
campos, incluyendo las matemticas, estadstica, ingeniera
de datos, reconocimiento de patrones y aprendizaje,
computacin avanzada, visualizacin, modelado de la
incertidumbre, almacenamiento de datos y la informtica de
alto rendimiento con el objetivo de extraer el significado de
datos y la creacin de productos de datos.
Es un trmino relativamente nuevo que se utiliza a menudo
de manera intercambiable con inteligencia o analtica de
negocio analtica de datos. La ciencia de datos busca
utilizar todos los datos disponibles y relevantes para extraer
conocimiento que pueda ser fcilmente comprendido por
los expertos en el rea de aplicacin. Un experto de la ciencia
de datos se denomina un cientfico de datos.

Ciencia de Datos
Qu es un Cientfico de Datos?
Un cientfico de datos es un profesional que debe
dominar las ciencias matemticas y la estadstica,
conocimientos de programacin (y sus mltiples
lenguajes), ciencias de la computacin y analtica.

Data Science
Machine Learning
Traditional Research
Danger Zone =
Traditional software

Ciencia de Datos
Jos Antonio Guerrero: uno de los mejores
cientficos de datos del mundo (Plataforma Kaggle)
Qu es un cientfico de datos?
Es una persona con fundamentos en matemticas, estadstica
y mtodos de optimizacin, con conocimientos en lenguajes de
programacin y que adems tiene una experiencia prctica en
el anlisis de datos reales y la elaboracin de modelos
predictivos.
De las tres caractersticas quizs la ms difcil es la tercera; no
en vano la modelizacin de los datos se ha definido en
ocasiones como un arte. Aqu no hay reglas de oro, y cada
conjunto de datos es un lienzo en blanco.
Leer ms: http://www.elconfidencial.com/tecnologia/2013-12-19/unmatematico-andaluz-desconocido-es-el-mejor-cientifico-de-datos-delmundo 67675/

Ciencia de Datos
Minera de Datos
Descubrimiento de patrones interesantes en una base de datos (usualmente
grande): Desde la informacin al conocimiento
How can I analyze this data?

Knowledge

We have rich data,


but poor information

Data mining-searching for knowledge


(interesting patterns) in your data.

Ciencia de Datos
Big Data
Big Data son datos cuyo
volumen, diversidad y complejidad
requieren nueva arquitectura,
tcnicas, algoritmos y anlisis para
gestionar y extraer valor y
conocimiento oculto en ellos ...
Volumen

Big
Data
Variedad

Velocidad

Ciencia de Datos
Big Data

Big data es cualquier caracterstica


sobre los datos que represente un reto
para las funcionalidades de un
sistema.
16

Ciencia de Datos

Big Data
Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Qu es la Minera de Datos?
La Minera de datos (MD) es el proceso de
extraccin de patrones de informacin
(implcitos, no triviales, desconocidos y
potencialmente tiles) a partir de grandes
cantidades de datos
Tambin se conoce como:

Descubrimiento de conocimiento en bases de datos (KDD),


extraccin del conocimiento,
anlisis inteligente de datos /patrones,

Qu es la Minera de Datos?

Muchas de las tcnicas utilizadas en MD ya se


conocan previamente, a qu se debe?

En los 90s convergen los siguientes factores:


1.
2.
3.
4.
5.

Los datos se estn produciendo


Los datos se estn almacenando
La potencia computacional necesaria es abordable
Existe una gran presin competitiva a nivel empresarial
Las herramientas software de MD estn disponibles

Qu es la Minera de Datos?
How can I analyze this data?

Knowledge

Qu es la Minera de Datos?
Para qu se utiliza el conocimiento obtenido?

hacer predicciones sobre nuevos datos


explicar los datos existentes
resumir una base de datos masiva para facilitar la toma
de decisiones
visualizar datos altamente dimensionales, extrayendo
estructura local simplificada,

Nuevas necesidades de anlisis datos

Qu es la Minera de Datos?

KDD = Knowledge Discovery from Databases

El KDD es el proceso completo de extraccin de


conocimiento a partir de bases de datos

El trmino se acu en 1989 para enfatizar que el


conocimiento es el producto final de un proceso de
descubrimiento guiado por los datos

La Minera de Datos es slo una etapa en el proceso


de KDD

Informalmente se asocia Minera de Datos con KDD

Qu es la Minera de Datos?
Etapas en un proceso de KDD
Preprocesamiento de Datos
Comprensin del Problema
y de los Datos

Conocimiento
e Implantacin
Modelos
Interpretacin y
Evaluacin

Datos Preprocesados
Datos Fuente

Minera de Datos

Problema de KDD

Informalmente se asocia Minera de Datos con KDD

Qu es la Minera de Datos?

Minera de Datos. Tipos de datos


A qu tipos de datos puede aplicarse las tcnicas de
Minera de Datos?
En principio, a cualquier tipo

Bases de datos relacionales

Bases de datos espaciales

Bases de datos temporales

Bases de datos documentales (Text mining)

Bases de datos multimedia

World Wide Web (Web mining)

El almacn de informacin ms grande y diverso de los existentes

Existe gran cantidad de datos de los que extraer informacin til

. Grandes volmenes de datos: Big Data, Social Big


Data

Minera de Datos. reas de aplicacin


Aplicaciones empresariales / industriales
Toma de decisiones en banca, seguros, finanzas,
marketing, control de calidad, retencin de
clientes, prediccin, polticas de accin
(sanidad, etc.),

Aplicaciones en investigacin cientfica


Medicina, astronoma, geografa, gentica,
bioqumica, meteorologa, etc.

Aplicaciones en Internet/Redes Sociales


Minera de textos y de datos en la web

Minera de Datos. reas de aplicacin


Anlisis y gestin de mercados (I)

Fuentes: transacciones con tarjetas de crdito, tarjetas de


descuento, quejas de cliente, estilos de vida publicados,
comentarios en redes sociales

Identificacin de objetivos para marketing: encontrar


grupos (clusters) que identifiquen un modelo de cliente con
caractersticas comunes (intereses, nivel de ingresos, hbitos
de gasto, )

Determinar patrones de compra en el tiempo: Unificacin


de cuentas bancarias, compra de determinados productos
simultneamente,

Minera de Datos. reas de aplicacin


Anlisis y gestin de mercados (II)

Anlisis de cestas de mercado: asociaciones / corelaciones entre ventas de producto, prediccin basada en
asociacin de informaciones,

Perfiles de cliente: Identificar qu tipo de clientes compra


qu productos (clustering y/o clasificacin), usar prediccin
para encontrar factores que atraigan nuevos clientes,
retencin de clientes,

Generar informacin resumida: informes


multidimensionales, informacin estadstica (tendencia central
y variacin),

Minera de Datos. reas de aplicacin


Anlisis de riesgo en banca y seguros

Banca

Seguros

Detectar patrones de uso fraudulento en tarjetas


Estudio de concesin de crditos y/o tarjetas
Determinacin del gasto en tarjeta por grupos
Identificar reglas de comportamiento del mercado de valores a
partir de histricos
Prediccin de clientes propensos a suscribir nuevas plizas
Identificar grupos/patrones de riesgo
Identificar tendencias de comportamiento fraudulento

Ambos: Identificacin de clientes leales, identificacin de fuga


de clientes

Minera de Datos. reas de aplicacin


Minera de datos en industria

Control de calidad

Deteccin precisa de productos defectuosos


Localizacin precoz de defectos
Identificacin de causas de fallos

Procesos industriales

Automatizar el control del proceso


Optimizacin del rendimiento de forma adaptativa
Implementar programas de mantenimiento predictivo

Minera de Datos. reas de aplicacin


Medicina / diagnstico

Identificacin de terapias para diferentes enfermedades


Estudio de factores de riesgo en distintas patologas
Segmentacin de pacientes en grupos afines
Gestin hospitalaria y planificacin temporal de salas,
urgencias,
Recomendacin priorizada de frmacos para una misma
patologa
Estudios en gentica (ADN,)
Seleccin de embriones en reproduccin artificial

Minera de Datos. reas de aplicacin


Web mining / minera de datos web

La mayora de las herramientas actuales analizan los ficheros


.log y generan estadsticas, pero ningn conocimiento acerca de
las caractersticas del cliente ni de su comportamiento

Minera de datos web en un sitio de e-comercio, generara


anlisis del comportamiento y perfiles del visitante

Lo que interesa es responder preguntas del tipo: quin compra


qu producto y en qu porcentaje?

Hay que capturar informacin en el servidor desde los .log,


cookies, formularios, y completar con informacin geogrfica,
etc.,

En funcin de esto y de su actividad, generar perfiles de cliente


y estudiar posibilidades de venta cruzada (cross-selling)

Recuperacin de informacin (information retrieval)

Minera de Datos. Caso de estudio


Marketing y ventas (asociaciones)

Si se realiza slo toma de decisin en funcin de los informes


(datos), por ejemplo para dos productos, cerveza y paales

Qu informacin aporta?

Minera de Datos. Caso de estudio


Marketing y ventas (asociaciones)

Objetivo: determinar grupos de items que tienden a


ocurrir juntos en transacciones (=tickets de compra
pagados con o sin tarjeta)
Se utilizan tcnicas de asociacin, que pueden descubrir
informacin como:

Los clientes que compran cerveza tambin compran


patatas
Para eso no es necesario el uso de tcnicas de DM!
Los viernes por la tarde, con frecuencia, quienes compran
paales, compran tambin cerveza.

Qu significa?
A qu se debe?
Acciones a realizar

Minera de Datos. Caso de estudio


Marketing y ventas (asociaciones)
Explicacin ms probable

Se acerca el fin de
semana
Hay un beb en casa
No quedan paales
El padre/madre compra
paales al salir del
trabajo
No pueden salir!
Comprar cervezas para
el fin de semana (y un
partido/pelcula PPV)

Se acerca el fin de semana


Hay un beb en casa luego
nada de ir fuera
Hay que comprar paales
Quedarse en casa ver
partido/pelcula
Comprar cervezas para el
partido/pelcula

Paales Cerveza

Minera de Datos. Caso de estudio


Marketing y ventas (asociaciones)
Acciones a realizar:
Planificar disposiciones alternativas en el almacn
Limitar descuentos especiales a slo uno de los dos
productos que tienden a comprarse juntos
Poner los aperitivos que ms margen dejan entre los
paales y las cervezas
Poner productos de beb en oferta cerca de las cervezas
Ofrecer cupones descuento para el producto
complementario, cuando uno de los productos se venda
por separado
La profileracin de tarjetas de lealtad se debe al inters por
identificar el historial de ventas individual del cliente

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Etapas en el proceso de KDD


1.Integracin y recopilacin: Comprensin del
dominio de aplicacin del problema, identificacin
de conocimiento a priori y creacin del
Datawarehouse
2.Preprocesamiento: Seleccin de datos, limpieza,
reduccin y transformacin
3.Seleccin de la tcnica de MD y aplicacin de
algoritmos concretos de MD
4.Evaluacin, interpretacin y presentacin de los
resultados obtenidos
5.Difusin y utilizacin del nuevo conocimiento

Etapas en el proceso de KDD


Etapas en un proceso de KDD
Preprocesamiento de Datos
Comprensin del Problema
y de los Datos

Conocimiento
e Implantacin
Modelos
Interpretacin y
Evaluacin

Datos Preprocesados
Datos Fuente

Minera de Datos

Problema de KDD

Informalmente se asocia Minera de Datos con KDD

Etapas en el proceso de KDD

Tiempos estimados en el anlisis de un problema mediante


tcnicas de minera de datos

Etapas en el proceso de KDD


Seleccin, limpieza, reduccin y transformacin

La calidad del conocimiento descubierto no depende


slo del algoritmo de DM sino de la calidad de los
datos minados

Objetivo general de esta fase: seleccionar el


conjunto de datos adecuado para el resto del
proceso de KDD

Las tareas de esta etapa se agrupan en:

Limpieza de datos (data cleaning)


Transformacin de los datos
Reduccin de la dimensionalidad

Etapas en el proceso de KDD


Minera de datos

Objetivo: Producir nuevo conocimiento que pueda utilizar el usuario

Cmo? Construyendo un modelo, basado en los datos recopilados, que


sea una descripcin de los patrones y relaciones entre los datos con los
que se puedan hacer predicciones, entender mejor los datos o explicar
situaciones pasadas

Decisiones a tomar:
Qu tipo de conocimiento buscamos?
Predictivo, Descriptivo

Qu tcnica es la ms adecuada?
Clasificacin, Regresin, clustering, Asociaciones,
Qu tipo de modelo?
P.e. Clasificacin: reglas, rboles de decisin, SVM, etc.

Es necesaria la incertidumbre en el modelo resultante? Certeza,


probabilidad, lgica difusa,

Qu algoritmo es el ms adecuado?

Etapas en el proceso de KDD


Evaluacin, interpretacin y presentacin de resultados

La fase de MD puede producir varias hiptesis de modelos

Es necesario establecer qu modelos son los ms vlidos

Criterios: los patrones descubiertos deben ser

precisos,
comprensibles, e
interesantes (tiles, novedosos)

Tcnicas de evaluacin: Al menos se divide el conjunto de datos en dos


(entrenamiento y test)

Entrenamiento: Para extraer el conocimiento


Test: Para probar la validez del conocimiento extrado
Alternativas:
Validacin simple
n-validacin cruzada
Bootstrapping,

Medidas de evaluacin de modelos: Dependen de la tarea:

Clasificacin: precisin predictiva (%acierto)


Regresin: Error cuadrtico medio
Agrupamiento: Medidas de cohesin y separacin entre grupos
Reglas de asociacin: cobertura, confianza

La interpretacin de los mejores modelos (visualizacin, simplicidad,


posibilidad de integracin, ventajas colaterales,) ayuda a la seleccin
del modelo(s) final(es)

Etapas en el proceso de KDD


Difusin y utilizacin del nuevo conocimiento
Una vez construido y validado el modelo puede utilizarse:
para recomendar acciones
para aplicar el modelo a diferentes conjuntos de datos
En cualquier caso, es necesario:
Difusin: Elaboracin de informes para su distribucin
Utilizacin del nuevo conocimiento de forma independiente
Incorporacin a sistemas ya existentes
comprobar con el conocimiento ya utilizado para evitar inconsistencias y
posibles conflictos

La monitorizacin del sistema en accin dar lugar a nuevos casos que


realimentarn el ciclo del KDD
Las conclusiones iniciales pueden variar, invalidando el modelo
adquirido

Relacin con otras disciplinas

Tecnologas de
Bases de Datos

Estadstica
Computacin
paralela

Minera
de datos

Sistemas de toma
de decisiones

Visualizacin

Aprendizaje
automatizado

Otras disciplinas

Disciplinas del cientfico de datos

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin,
Regresin, Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Tcnicas de Minera de Datos

Mtodos predictivos

Se utilizan algunas variables para predecir valores


desconocidos de otras variables

Mtodos descriptivos

Encuentran patrones interpretables que describen los


datos

Aprendizaje Supervisado vs No Supervisado

Aprendizaje supervisado:
Aprende, a partir de un
conjunto de instancias
pre-etiquetadas un
metodo para predecir
(Ejemplo, clasificacin:
la clase a que pertenece
una nueva instancia)

Aprendizaje Supervisado vs No
Supervisado

Aprendizaje no supervisado:
No hay conocimiento a priori
sobre el problema, no hay
instancias etiquetadas, no
hay supervisin sobre el
procedimiento.
(Ejemplo, clustering:
Encuentra un agrupamiento
de instancias natural dado
un conjunto de instancias no
etiquetadas)

Tcnicas de Minera de Datos

Classification [Predictive]
Clustering [Descriptive]
Association Rule Discovery [Descriptive]
Sequential Pattern Discovery [Descriptive]
Regression [Predictive]
Deviation/Anomaly Detection [Predictive]
Time Series [Predictive]
Summarization [Descriptive]

Regresin

Modelado o
Prediccin
El problema
fundamental de la
prediccin est en
modelar la
relacin entre las
variables de
estado para
obtener el valor de
la variable de
control.

Clasificacin

Clasificacin
El problema fundamental
de la clasificacin est
directamente relacionado
con la separablidad de
las clases.

Clasificacin. Ejemplo

Ejemplo: Diseo de un Clasificador para Iris


Problema simple muy conocido: clasificacin de lirios.
Tres clases de lirios: setosa, versicolor y virginica.
Cuatro atributos: longitud y anchura de ptalo y spalo,
respectivamente.
150 ejemplos, 50 de cada clase.
Disponible
en

http://www.ics.uci.edu/~mlearn/MLRepository.html

setosa

versicolor

virginica

Clasificacin. Ejemplo

Ejemplos de conjuntos seleccionados sobre Iris:


IRIS: Conjunto entrenamiento original
setosa

versicolor

virginica

1
0,9
Anchura Ptalo

0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0

0,2

0,4

0,6

Longitud Ptalo

0,8

Clasificacin. Ejemplo
Clases Definidas
Basado en Distancias

Basado en Particiones

Ejemplo de Clasificador: k-NN

k-NN devuelve la clase ms repetida de entre todos los k


ejemplos de entrenamiento cercanos a xq.
Diagrama de Voronoi: superficie de decisin inducida
por 1-NN para un conjunto dado de ejemplos de
entrenamiento.

_
_

+
xq

_ .
_

_
+

.
.

Ejemplo de Clasificador: k-NN

k=3

Agrupamiento
Hay problemas en
los que deseamos
agrupar las
instancias creando
clusters de similares
caractersticas
Ej. Segmentacin de
clientes de una
empresa

Agrupamiento. Niveles

La decisin del nmero de clusters


es uno de los retos en agrupamiento

Agrupamiento. Modelos
Modelos
Jerrquicos

Modelos
Particionales

(c) Eamonn Keogh, eamonn@cs.ucr.edu

Ejemplos de Agrupamiento

Marketing: descubrimiento de distintos grupos de


clientes en la BD. Usar este conocimiento en la poltica
publicitaria, ofertas,

Uso de la tierra: Identificacin de reas de uso similar a


partir de BD con observaciones de la tierra (cultivos, )

Seguros: Identificar grupos de asegurados con


caractersticas parecidas (siniestros, posesiones, .).
Ofertarles productos que otros clientes de ese grupo ya
poseen y ellos no

Planificacin urbana: Identificar grupos de viviendas de


acuerdo a su tipo, valor o situacin geogrfica
WWW: Clasificacin de documentos, analizar ficheros .log
para descubrir patrones de acceso similares,

Descubrimiento de Asociaciones

Descubrimiento de reglas de asociacin:

Bsqueda de patrones frecuentes, asociaciones, correlaciones,


o estructuras causales entre conjuntos de artculos u objetos
(datos) a partir de bases de datos transaccionales,
relacionales y otros conjuntos de datos

Bsqueda de secuencias o patrones temporales

Aplicaciones:

anlisis de cestas de la compra (Market Basket analysis)


diseo de catlogos,
Qu hay en la cesta? Libros de Jazz
Qu podra haber en la cesta? El ltimo CD de Jazz
Cmo motivar al cliente a comprar los artculos que es probable
que le gusten?

Descubrimiento de asociaciones
Market Basket Analysis
Compra: zumo de naranja,
pltanos, detergente para
vajillas, limpia cristales,
gaseosa, ...
Cmo afecta la
demografa de la
vecindad a la compra de
los clientes?

Dnde deberan colocarse los


detergentes para maximizar
sus ventas?

Es tpico comprar
gaseosa y pltanos? Es
importante la marca de
la gaseosa?

Aumenta la compra del


limpia cristales cuando
se compran a la vez
detergente para vajillas
y zumo de naranja?

Descubrimiento de Asociaciones.
Ejemplo
Ejemplo: Asociacin Cervezas y Paales

Los clientes que compran cerveza tambin compran


patatas
Para eso no es necesario el uso de tcnicas de Minera de Datos!

Los viernes por la tarde, con frecuencia, quienes


compran paales, compran tambin cerveza.

Qu significa?
A qu se debe?
Acciones a realizar

Descubrimiento de asociaciones
Market Basket Analysis

TID

Items

1
2
3
4
5

Bread, Coke, Milk


Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk

Rules Discovered:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}

Deteccin de Desviaciones/Anomalas
Deteccin de desviaciones
significativas de datos normales
Aplicaciones
Deteccin de fraude en
tarjetas de crdito

Deteccin de intrusos
en redes de ordenadores

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Minera de Datos. Casos de estudio


Procesamiento de prstamos
Estudio de imgenes
Planificacin de recursos
Diagnstico de fallos
Marketing y ventas
Bioinformtica
Minera web

Minera de Datos. Casos de estudio


Procesamiento de prstamos (clasificacin)
Entrada: cuestionario de datos personales y financieros
Problema: se le concede el prstamo?
Muchas solicitudes
estudiadas por ordenador (estadsticos)
90% se procesan directamente, pero el 10% estn en la duda
estudiar por un experto en prstamos
De los prstamos concedidos en esta franja de duda, el 50%
no devuelven el dinero!
La solucin NO es denegar todos los prstamos de esta franja

Minera de Datos. Casos de estudio


Procesamiento de prstamos (clasificacin)
Datos: 1000 ejemplos de casos en la franja completa
20 atributos: edad, antigedad en la direccin actual, tarjetas
de crdito, salario, posesiones, historial en el banco,
Enfoque: reglas. Las reglas aprendidas clasifican
correctamente 2/3 de los casos en un conjunto de prueba
(test) distinto
Ventaja adicional: el conocimiento extrado (reglas) sirve al
agente para explicar su decisin

Minera de Datos. Casos de estudio


Estudio de imgenes (clasificacin)
Entrada: imgenes de satlite de aguas costeras
Problema: deteccin de mareas negras
Una marea negra suele aparecer en la imagen como una
regin oscura de tamao y forma cambiante
Complejidad: situaciones parecidas pueden ser
provocadas por vientos y tormentas
El estudio de las imgenes es un proceso costoso tanto en
tiempo como en dinero (personal muy especializado)

Minera de Datos. Casos de estudio


Estudio de imgenes (clasificacin)
Dado el gran mercado, una empresa decide abordar el
problema mediante un producto software
Problema: trabajar con la imagen directamente es
inviable
Preprocesamiento: de los pixeles a docenas de atributos
(extraccin de caractersticas)
Atributos: tamao de la mancha, geometra, intensidad,
Problemas encontrados en el desarrollo:
Escasez de ejemplos positivos datos no balanceados
Complicado de generalizar, muy dependiente de la zona

Minera de Datos. Casos de estudio


Planificacin de recursos (regresin/series
temporales)
Las compaas elctricas necesitan predicciones de demanda
futura
La prediccin con exactitud de un intervalo de carga para cada
hora ahorrar mucho dinero
Problema: se dispone de un modelo esttico de prediccin que
asume condiciones climticas normales, el objetivo es ajustar
la prediccin en funcin del clima
Modelo esttico: demanda usual en el ao, fechas
vacacionales,

Minera de Datos. Casos de estudio


Planificacin de recursos (regresin/series
temporales)
Prediccin basada en estudio de das ms similares
Datos: La prediccin esttica, archivos histricos, datos
climticos
Se genera una base de datos para los 15 aos anteriores con
atributos como temperatura, humedad, velocidad del viento,
nubosidad y la diferencia entre la prediccin de consumo
esttica y el consumo real
Se aade la diferencia media de los tres das ms similares a
la prediccin del modelo esttico
Se usa regresin lineal como modelo de prediccin

Minera de Datos. Casos de estudio


Diagnstico de fallos (clasificacin o deteccin de anomalas)
El diagnstico es el dominio por excelencia de los sistemas
expertos
Conjuntos de reglas elicitados a partir del experto son viables en
problemas pequeos, pero no en problemas medianos/grandes
Problema: realizar diagnstico de fallos y mantenimiento
predictivo en dispositivos electromecnicos como motores y
generadores, en una planta qumica de unos 1000 dispositivos
Datos: se miden vibraciones en determinados puntos y se realiza
un anlisis de Fourier
Objetivo: determinar fallos y realizar mantenimiento predictivo
Actualmente: se usa un conjunto de reglas diseadas por el
experto

Minera de Datos. Casos de estudio


Diagnstico de fallos (clasificacin)
Datos: provenientes de diagnsticos realizados por el
experto, 600 casos
Despus de depurar se descartan 300
Se incrementa la dimensin del problema (atributos) con
conceptos intermedios (razonamiento causal)
El conjunto de reglas resultante muestra una gran
exactitud, pero no le gusta al experto, porque no est en
lnea con su forma de actuar
Tras aadir conocimiento de background, el conjunto de
reglas es ms complicado pero le gusta al experto porque
est en consonancia con su mecnica
Las reglas se usan no porque sean buenas, si no porque
le gustan al experto

Minera de Datos. Casos de estudio


Marketing y ventas (asociaciones)
Empresa de supermercados con ms de 1000 tiendas
Vende aproximadamente 20.000 artculos distintos
Los datos de las ventas se almacenan (lector de cdigo de
barras + Pc)
Todas las transacciones + datos adicionales de cada
tienda se almacenan y actualizan diariamente en una
sede central
Dispone de una tarjeta de cliente frecuente
Se generan informes diarios, semanales y mensuales,
mostrando para cada artculo y cada marca: ventas,
inventario, ofertas, precios,

Minera de Datos. Casos de estudio


Marketing y ventas (asociaciones)
Dnde se deberan colocar
los detergentes para maximizar
las ventas?
Se compra limpia cristales si
se compra simultneamente
zumo de naranja y refrescos?
Cmo afecta la demografa
del entorno a lo que compran
los clientes?

Minera de Datos. Casos de estudio


Compras a travs de internet (asociaciones)

Una persona compra un libro (producto) en Amazon.com

Tarea: Recomendar otros libros (productos) que esa


persona pueda comprar

Amazon hace clustering basndose en las compras de


libros: clientes que compran Advances in Knowledge
Discovery and Data Mining, tambin compran Data
Mining: Practical Machine Learning Tools and Techniques
with Java Implementations

El programa de recomendacin es bastante xitoso

Minera de Datos. Casos de estudio


Genomic Microarrays (Clasificacin)
Dado un conjunto de datos de microarrays para un
nmero de ejemplos (pacientes), podemos

Diagnosticar de forma precisa la enfermedad?

Predecir resultados para un tratamiento dado?

Recomendar el mejor tratamiento?

Minera de Datos. Casos de estudio


Descubrimiento de secuencias en pginas web

Objetivo:
Determinar patrones secuenciales en los datos

Estos patrones son asociaciones en los datos pero


con una relacin en el tiempo

Ejemplo: Descubrimiento de secuencias en el


anlisis de un web log para determinar como
acceden los usuarios a determinadas pginas

Minera de Datos

La Minera de Datos
es una forma de
aprender del pasado
para tomar mejores
decisiones en el
futuro

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Herramientas, Lenguajes, Kaggle


Una web sobre el software libre para Ciencia de Datos

Software (open source tools)

http://www.bigdata-startups.com/open-source-tools/

Herramientas, Lenguajes, Kaggle


Una web sobre el software libre para Ciencia de Datos
http://www.bigdata-startups.com/open-source-tools/

Herramientas, Lenguajes, Kaggle


Generation

1 Generacin

2 Generacin

Ejemplos

KNIME, SAS, R,
Weka, SPSS, KEEL

Mahout, Pentaho, Cascading

Escalabilidad

Vertical

Horizontal (over Hadoop)

Algoritmos
disponibles

Huge collection of
algorithms

Small subset: sequential logistic


regression, linear SVMs,
Stochastic Gradient Descendent,
k-means clustering, Random
forest, etc.

Algoritmos
No disponibles

Practically nothing

Vast no.: Kernel SVMs,


Multivariate Logistic Regression,
Conjugate Gradient Descendent,
ALS, etc.

Tolerancia a
Fallos

Single point of
failure

Most tools are FT, as they are


built on top of Hadoop

Herramientas, Lenguajes, Kaggle


KNIME (o Konstanz Information Miner) es una plataforma de

minera de datos que permite el desarrollo de modelos en un


entorno visual. KNIME est desarrollado sobre la plataforma
Eclipse y programado, esencialmente, en java.

Fue desarrollado originalmente en el departamento de


bioinformtica y minera de datos de la Universidad de Constanza,
Alemania, bajo la supervisin del profesor Michael Berthold. En la
actualidad, la empresa KNIME.com GmbH, radicada en Zrich,
Suiza, contina su desarrollo adems de prestar servicios de
formacin y consultora.

https://www.knime.org/

Herramientas, Lenguajes, Kaggle

Weka

The University of Waikato, New


Zealand
Machine learning software in Java
implementation

http://www.cs.waikato.ac.nz/ml/weka/

Herramientas, Lenguajes, Kaggle

KEEL

University of Granada
Machine learning
software in Java
implementation

http://www.keel.es/

Herramientas, Lenguajes, Kaggle


Sobre herramientas de minera de datos

http://blog.revolutionanalytics.com/2013/10/r-usageskyrocketing-rexer-poll.html

Herramientas, Lenguajes, Kaggle


Sobre los lenguajes de programacin (R, Phyton, ).

Lenguajes a usar para Data Science

Herramientas, Lenguajes, Kaggle


Sobre los lenguajes de programacin (R, Phyton, ).

Consolidation among top 4 languages: R,


SAS, Python, and SQL, and decline in
usage of less popular languages for data
mining: Java, Unix shell, MATLAB, C/C++,
Perl, Octave, Ruby, Lisp, F.
Languages with the highest growth in
2014 were
Julia, 316% growth, from 0.7% share in
2013 to 2.9% in 2014
SAS, 76% growth, from 20.8% in 2013 to
36.4% in 2014
Scala, 74% growth, from 2.2% in 2013 to
3.9% in 2014

By Gregory Piatetsky, Aug 18, 2014.


http://www.kdnuggets.com/polls/201
4/languages-analytics-data-miningdata-science.html

Herramientas, Lenguajes, Kaggle


Sobre los lenguajes de programacin (R, Phyton, ).

Herramientas, Lenguajes, Kaggle


Sobre los lenguajes de programacin (R, Phyton, ).
El website CRAN

cran.r-project.org/
The Comprehensive R Archive Network

http://cran.r-project.org/web/views/MachineLearning.html

Herramientas, Lenguajes, Kaggle


y un buen enlace para comenzar a practicar, KAGGLE

Kaggle: The Home of Data Science


http://www.kaggle.com/

Es un portal web que ofrece


competiciones, tutoriales,
actividades acadmicas

Herramientas, Lenguajes, Kaggle


y un buen enlace para comenzar a practicar, KAGGLE

Kaggle: The Home of Data Science

Herramientas, Lenguajes, Kaggle


y un buen enlace para comenzar a practicar, KAGGLE

Kaggle: The Home of Data Science

MNIST data

Herramientas, Lenguajes, Kaggle


y un buen enlace para comenzar a practicar, KAGGLE

Kaggle: The Home of Data Science

60,000 32x32
color images
containing one of
10 object classes,
with 6000 images
per class.

Herramientas, Lenguajes, Kaggle


y un buen enlace para comenzar a practicar, KAGGEL

Kaggle: The Home of Data Science


Comunidad Kaggle

Es una muy buena


oportunidad para
practicar en la
resolucin de problemas
reales y la adquisicin
de habilidades en Data
Science.

Ciencia de Datos y Minera de Datos


Qu es la Ciencia de Datos?
Minera de Datos
Proceso de Minera de Datos
Tcnicas de Minera de Datos: Clasificacin, Regresin,
Agrupamiento, Asociacin y Otros
Minera de Datos: Casos de uso
Herramientas y Lenguajes en Ciencia de Datos.
Repositorio Kaggle
Comentarios Finales

Comentarios Finales

Ciencia de datos: Es el mbito de conocimiento que engloba las


habilidades asociados al procesamiento de datos, incluyendo Big
Data

Minera de datos: descubrimiento de patrones interesantes en


una base de datos (usualmente grande)

Un proceso de KDD incluye: limpieza de datos, integracin,


reduccin de datos, transformacin, minera de datos, evaluacin,
y presentacin del conocimiento

La minera de datos puede utilizarse sobre una gran variedad de


fuentes de informacin (numrica, textos, )

Funcionalidades en Minera de Datos: caracterizacin, asociacin,


regresin, characterization, agrupamiento, deteccin outlier,
tendencias, minera de textos,

Comentarios Finales
(Data Science, Business Analytics, Data Analytics)
Anlisis de Datos en un contexto amplio

http://www.bzst.com/
DesigningaBusinessAnalyticsprogram

BusinessAnalytics
DataScience
BusinessAnalytics
DataAnalytics

Data
Visualization
Big
Data

Statistical
Analysis

Data
Warehousing
Business
Analytics

Contemporary
Analytics

Data
Mining

Operations

Datamining:DataPreprocessing,Supervisedlearning,unsupervisedlearning,forecasting
ContemporaryAnalytics: textmining,networkanalytics,socialanalytics,customeranalytics,
webanalytics,riskanalytics,informationretrievalandrecommendations
StatisticalAnalysis: Estimation andinference;andregression models
Operations: Simulation andoptimization

Comentarios Finales
Hay que obtener conocimiento til

Hay que evitar los errores comunes

Aprender de cosas que no


son ciertas

Patrones que no representan


ninguna regla subyacente
Datos que no reflejan lo
relevante
Datos con un nivel de detalle
errneo

Aprender cosas ciertas,


pero intiles

Aprender informacin ya
conocida
Aprender cosas que no se
pueden utilizar

Hay que obtener


conocimiento til

Comentarios Finales
Surge como profesin el Cientfico de Datos

Cientfico de Datos
Oportunidad profesional: En 2015, Gartner predice
que 4,4 millones de empleos sern creados en torno
a big data. (Gartner, 2013)
Fuente: http://www.gartner.com/technology/topics/big-data.jsp

Comentarios Finales
Una demanda creciente de profesionales en Big Data y
Ciencia de Datos

Oportunidades en Big Data


La demanda de profesionales
formados en Ciencia de Datos y
Big Data es enorme.
Se estima que la conversin de
datos en informacin til generar
un mercado de 132.000 millones
de dlaresen2015yquesecrearn
msde4.4millonesdeempleos.
Espaanecesitarpara 2015msde
60.000profesionalesconformacin
enCienciadeDatosyBigData.

http://economia.elpais.com/economia/2013/09/27/actual
idad/1380283725_938376.html

Comentarios Finales
Una demanda creciente de profesionales en Big Data y
Ciencia de Datos

Oportunidades en Big Data (en Espaa)


http://www.revistacloudcomputing.com/2013/10/espana-necesitara-60-000-profesionales-de-big-datahasta-2015/?goback=.gde_4377072_member_5811011886832984067#!

Existe una demanda


mundial para formar a 4,4
millones de profesionales de
la gestin Big Data desde
ingenieros, gestores y
cientficos de datos,
comenta Antn. Sin
embargo, las empresas
todava no ven en el Big
Data un modelo de
negocio, lamenta. Solo se
extrae un 1% de los datos
disponibles en la red,
aade. Hace falta
formacin y concienciacin.

Contenido
Lunes 25: Minera de Datos. Herramienta KNIME
Martes 26: Minera de Datos, Visualizacin y Datos
Temporales en el Lenguaje R
Mircoles 27: Big Data. Plataforma Hadoop y
Librera Mahout.
Jueves 25: Mahout. Kaggle (Comunidad,
repositorio, competiciones )

Comentarios Finales

Para terminar, un video de la UMUC sobre Big Data y Data


Analytics