Data Mining

Data Mining
Introduccin
(Basado en el texto Introduction to Data Mining de
Tan, Steinbach, Kumar)
Por qu Data Mining?

Desde el punto comercial
Se estn recogiendo y almacenando una gran cantidad de
datos
Datos Web, e-commerce
Compras en supermercados
Transacciones de bancos y tarjetas de crdito
Las computadoras son cada vez ms baratas y ms
econmicas
La presin de la competencia es cada vez ms fuerte
Proporcionar mejores servicios personalizados (por
ejemplo, en Customer Relationship Management)
20
Por qu Data Mining?

Desde el punto cientfico
Los datos son recogidos y almacenados a gran velocidad
(GB / hora)
sensores remotos en un satlite
telescopios que exploran el cielo
microarrays de datos genticos
simulaciones cientficas generando terabytes de datos
Las tcnicas tradicionales son inviables para datos en
bruto
La minera de datos puede ayudar a los cientficos en:
la clasificacin y segmentacin de datos
la formacin de hiptesis
20
Por qu Data Mining?

A menudo hay informacin "oculta" en los
datos que no es fcilmente evidente
A los analistas les pueden llevar semanas
descubrir informacin til
Gran parte de los datos nunca se analiza
por completo
20
Qu es Data Mining?
Muchas Definiciones
Es la extraccin no trivial de informacin
implcita, previamente desconocida y
potencialmente til, a partir de los datos
Exploracin y anlisis, a travs de medios
semi-automticos o automticos, de grandes
cantidades de datos para descubrir patrones
significativos
20
Qu es Data Mining?
Qu NO es Data Mining?
Qu NO es DM?
Qu es DM?
Buscar un nmero de
telfono en la gua
Algunos nombres son

ms comunes en ciertas
regiones (Juan, Pedro,
etc)
Consultar a travs de
un motor de bsqueda
de la WEB
informacin de
Amazon
Un grupo de
documentos similares
devuelto por el motor de
bsqueda de la WEB, de
acuerdo al contexto
(selva amaznica,
Amazon.com, etc)
20
Origen del Data Mining

Ideas provenientes desde aprendizaje automtico / AI,
reconocimiento de patrones, estadsticas, y sistemas de Bases
de Datos
Las tcnicas tradicionales
Estadsticas
Aprendizaje
no se adecuan a:
Enormidad de datos
Alta dimensionalidad
Naturaleza heterognea
y distribuida de los datos
/ Intelig
Artificial
automtico /
Reconocimiento de
patrones
Data Mining
Sistemas de
Bases de
Datos
Tareas de Data Mining

Modelos Predictivos
Clasificacin
Regresin
Deteccin de anomalas
Modelos Descriptivos
Clustering o Agrupamiento
Reglas de asociacin
Patrn secuencial
Tareas de Data Mining
Tan-Steinbach-Kumar Introduction to Data MIning
Clasificacin: Definicin
Dada una coleccin de registros (training set )
Cada registro contienen un conjunto de atributos, uno de los
atributos es la clase.
Buscar un modelo para el atributo clase como una funcin

de los valores de otros atributos.
Objetivo: los registros inditos deben ser asignados a una
clase con la mayor precisin posible.
Se utiliza un conjunto de prueba (test set) para determinar la
precisin del modelo. Por lo general, se divide el conjunto de
datos obtenidos en training set y test set. El training set se
utiliza para construir el modelo y test set se utiliza para
validarlo.
Ejemplo de Clasificacin
o
eg
t
ca
10
l
a
c
ri
eg
t
ca
l
a
c
ri
tin
n
co
us
o
u
ss
a
l
c
Tid Refund Marital

Status
Taxable
Income Cheat
Yes
Single
125K
No
No
Married
100K
No
No
Single
70K
No
Yes
Married
120K
No
No
Divorced 95K
Yes
No
Married
No
Yes
Divorced 220K
No
No
Single
85K
Yes
No
Married
75K
No
10
No
Single
90K
Yes
60K
Refund Marital
Status
Taxable
Income Cheat
No
Single
75K
Yes
Married
50K
No
Married
150K
Yes
Divorced 90K
No
Single
40K
No
Married
80K
10
Training
Set
Clasificador
Test
Set
Modelo
Clasificacin: Aplicacin 1
Marketing Directo
Objetivo: Reducir el costo de envo para focalizar en
un conjunto de compradores de nuevos telfonos
celulares.
Enfoque:
Introduzca los datos para un producto similar introducido antes.
Sabemos cules clientes deciden comprar y cules no. Esta
decisin: {compra, no compra} forma el atributo clase.
Recopilar informacin demogrfica, estilos de vida y toda la
informacin relacionada acerca de la interaccin de esos clientes
con la compaa
Tipo de negocio, donde viven, cunto ganan, etc.
Utilice esta informacin como atributos de entrada para aprender
un modelo clasificador. .
From [Berry & Linoff] Data Mining Techniques, 1997
Deteccin de fraude
Objetivo: Predecir casos fraudulentos en
transacciones de tarjetas de crdito.
Enfoque:
Utilizar las transacciones de tarjeta de crdito y la
informacin de su titular
Cundo compra, qu compra, con qu frecuencia paga a
tiempo, etc
Etiquetar transacciones pasadas, como fraude o

transacciones OK. Esto forma el atributo de clase.
Aprender un modelo para la clase de las transacciones.
Utilizar el modelo para detectar fraude en las transacciones
de tarjeta de crdito de una cuenta en particular
Desercin de clientes:
Objetivo: Predecir cuando un cliente se pierde en
manos de un competidor.
Enfoque:
Use registros detallados de las transacciones con cada uno
de los clientes pasados y presentes, para encontrar
atributos.
Con qu frecuencia llama, dnde llama, a qu hora del
da llama, su situacin financiera, estado civil, etc
Etiquete los clientes como fieles o infieles.
Encuentre un modelo de fidelidad.
From [Berry & Linoff] Data Mining Techniques, 1997
Catlogo de objetos del cielo
Objetivo: Predecir clases (estrellas o galaxias) de
objetos del cielo, especialmente de visualizacin
dbil, basado en las imgenes telescpicas de
Palomar Observatory.
3000 imgenes con 23.040 x 23.040 pixels por imagen.
Enfoque:
Segmentar las imgenes.
Medir los atributos de las imgenes (caractersticas) - 40 por
objeto.
Modelar la clase basada en esas caractersticas.
Historia de xito: se han podido encontrar 16 nuevos quasars, unos
de los objetos ms lejanos que son difciles de encontrar!
Fayyad, Advances in Knowledge Discovery and Data Mining, 1996
Clasificacin de Galaxias
Precoz
Clase:
Atributos:
Estado de formacin Caractersticas de la

imagen
Caractersticas de las
ondas de luz recibida
Intermedio
Tardo
Tamao de los Datos:

72 millones de estrellas, 20 millones de galaxias
Catlogo de objeto: 9 GB
Base de Datos de imgenes: 150 GB
Clustering: Definicin
Dado un conjunto de puntos de datos, cada uno con un
conjunto de atributos, y una medida de similitud entre ellos,
encontrar grupos de tal manera que:
Los puntos de datos en un clster sean ms similares
entre s que los puntos de datos de otros clusters
Medidas de similitud:
Distancia euclideana si los atributos son continuos.
Otros problemas: medidas especficas.
Ejemplo de Clustering
Distancia euclidiana en un espacio de 3 dimensiones
Intra-cluster
las distancias
se minimizan
Inter-cluster
las distancias
se maximizan
Clustering: Aplicacin 1
Segmentacin del mercado:
Objetivo: subdividir un mercado en distintos subconjuntos de clientes, donde cualquier sub-conjunto
pueda ser concebido como un mercado objetivo que
pueda ser alcanzado con un mix de marketing
diferentes.
Enfoque:
Recoger diferentes atributos de los clientes en funcin de su
informacin geogrfica y estilo de vida
Encontrar clusters de clientes similares.
Medir la calidad del clustering mediante la observacin de
los patrones de compra de los clientes de un mismo clster
frente a aquellos de diferentes clusters.
Clustering: Aplicacin 2
Clustering de documentos:
Objetivo: Para encontrar grupos de documentos que son
similares entre s basados en palabras importantes que
aparecen en ellos.
Enfoque: Identificar palabras que aparecen con

frecuencia en cada documento. Formar una medida de
similitud basada en las frecuencias de las diferentes
palabras. Usarlo como clster.
Beneficios: la recuperacin de la informacin puede

utilizar el cluster para relacionar un nuevo documento o
buscar palabras en los documentos del cluster
Clustering de documentos
Puntos del Clustering: 3204 artculos de Los Angeles
Times.
Medida de similitud: Cuntas palabras tienen en comn
(despus de filtrar algunas).
Category
Financial
Total
Articles
555
Correctly
Placed
364
Foreign
341
260
National
273
36
Metro
943
746
Sports
738
573
Entertainment
354
278
Clustering de los movimientos de

acciones de S&P 500
Observar los movimientos diarios de las acciones
Puntos del Clustering: Acciones {UP/DOWN}
Medida de similitud: Dos puntos son ms similares si los
eventos descritos por ellos frecuentemente ocurren juntos
en el mismo da.
Utilizamos las reglas de asociacin para cuantificar una
Discovered Clusters
Industry Group
medida de similitud
1
2
3
4
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,

Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N,
Sun-DOW N
Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-M icro-Device-DOWN,Andrew-Corp-DOWN,
Co mputer-Assoc-DOWN,Circuit-City-DOWN,
Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN
Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N,
MBNA-Corp -DOWN,Morgan-Stanley-DOWN
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlu mberger-UP
Technology1-DOWN
Technology2-DOWN
Financial-DOWN
Oil-UP
Regla de Asociacin: Definicin

Dado un conjunto de registros los cuales contienen un
nmero de elementos de una coleccin determinada;
Producir reglas de dependencia para predecir la
ocurrencia de un elemento basado en las ocurrencias
de otros elementos
TID
Items
1
2
Bread, Coke, Milk

Beer, Bread
3
4
5
Beer, Coke, Diaper, Milk

Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
Rules
RulesDiscovered:
Discovered:
{Milk}
{Milk}-->
-->{Coke}
{Coke}
{Diaper,
{Diaper,Milk}
Milk}-->
-->{Beer}
{Beer}
Regla de Asociacin: Aplicacin 1

Marketing y promocin de ventas:
Suponga que la regla descubierta sea:
{Cerveza, } --> {Papas fritas}
Papas fritas como consecuencia => Se puede utilizar
para determinar qu se debe hacer para aumentar sus
ventas.
Cerveza en el antecedente => Se puede utilizar para
ver qu productos se veran afectados si la tienda
suspende la venta de cerveza
Cerveza en el antecedente y papas fritas como

consecuencia => se puede utilizar para ver qu
productos se deberan vender con cerveza para promover

la venta de papas fritas!

Manejo de las gndolas del supermercado.
Objetivo: Identificar los artculos que se compran
juntos por bastantes clientes.
Enfoque: Procesar los datos de los puntos de venta
recogidos con escneres de cdigo de barras, para
encontrar dependencias entre elementos.
Una regla clsica

Si un cliente compra paales y leche, entonces es muy
probable que compre cerveza.
Por lo tanto, no se sorprenda si encuentra packs de latas de
cerveza apilados junto a los paales!

Manejo de inventario:
Objetivo: Una empresa de reparacin de
electrodomsticos quiere anticipar la naturaleza de las
reparaciones de los productos de consumo y mantener
equipados a los vehculos de servicio a domicilio con las
piezas adecuadas, para reducir la cantidad de visitas a los
hogares de los consumidores
Enfoque: Procesar los datos sobre las herramientas y

piezas necesarias en reparaciones previas, en diferentes
lugares de consumo y descubrir los patrones de
ocurrencia.
Patrones Secuenciales: Definicin
Dado un conjunto de objetos, cada objeto asociado con su propia lnea de

tiempo de los eventos, encontrar reglas que predigan fuertes dependencias
secuenciales entre los diferentes eventos.
(A B)
(C)
(D E)
Las reglas se forman, primero descubriendo patrones. La ocurrencia de

eventos en los patrones se rigen por limitaciones de tiempo.
(A B)
<= xg
(C) (D E)
>ng <= ws
<= ms
Ejemplos de Patrones Secuenciales

Un negocio de venta de electrodomsticos y equipos de audio
analiza las ventas que ha realizado usando anlisis secuencial, y
descubre que el 30% de los clientes que compraron un televisor
hace 6 meses compraron un DVD en los siguientes 2 meses.
(Televisor) 2 meses (DVD)
Negocio de ropa deportiva:
(Zapatillas) (Raqueta, Pelota_Tenis) 15 das (Remera_Tenis)
Regresin
Predecir el valor de una variable continua, basndose en
los valores de otras variables, suponiendo un modelo
lineal o no lineal de la dependencia.
Estudiado en gran medida en las estadsticas, campos
de redes neuronales.
Ejemplos:
Predecir los importes de ventas de nuevos productos basados
en los gastos de publicidad
Predecir la velocidad del viento como una funcin de la
temperatura, humedad, presin, etc.
Prediccin de series de tiempo de los ndices burstiles .
Deteccin de anomalas / desvos

Detectar desvos significativos de un comportamiento normal
Aplicaciones:
Deteccin de fraudes con tarjetas
de crdito
Deteccin de intrusos
en una red
Desafos del Data Mining
Escalabilidad
Dimensionalidad
Complejidad y heterogeneidad de los datos
Calidad de los Datos
Propiedad de los Datos y Distribucin
Preservacin de la Privacidad
Trasmisin de datos

Data Mining - Introducción

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Data Mining - Introducción

Cargado por

Copyright:

Formatos disponibles

Por qu Data Mining?

Por qu Data Mining?

Por qu Data Mining?

Algunos nombres son

Origen del Data Mining

Tareas de Data Mining

Tareas de Data Mining

Tan-Steinbach-Kumar Introduction to Data MIning

Buscar un modelo para el atributo clase como una funcin

Tid Refund Marital

Etiquetar transacciones pasadas, como fraude o

Estado de formacin Caractersticas de la

Tamao de los Datos:

Enfoque: Identificar palabras que aparecen con

Beneficios: la recuperacin de la informacin puede

Clustering de los movimientos de

Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,

Regla de Asociacin: Definicin

Bread, Coke, Milk

Beer, Coke, Diaper, Milk

Regla de Asociacin: Aplicacin 1

Cerveza en el antecedente y papas fritas como

productos se deberan vender con cerveza para promover

Regla de Asociacin: Aplicacin 2

Una regla clsica

Regla de Asociacin: Aplicacin 3

Enfoque: Procesar los datos sobre las herramientas y

Patrones Secuenciales: Definicin

Dado un conjunto de objetos, cada objeto asociado con su propia lnea de

Las reglas se forman, primero descubriendo patrones. La ocurrencia de

Ejemplos de Patrones Secuenciales

Deteccin de anomalas / desvos

Desafos del Data Mining

También podría gustarte