Está en la página 1de 32

Data Mining

Introduccin
(Basado en el texto Introduction to Data Mining de
Tan, Steinbach, Kumar)

Por qu Data Mining?


Desde el punto comercial
Se estn recogiendo y almacenando una gran cantidad de
datos
Datos Web, e-commerce
Compras en supermercados
Transacciones de bancos y tarjetas de crdito
Las computadoras son cada vez ms baratas y ms
econmicas
La presin de la competencia es cada vez ms fuerte
Proporcionar mejores servicios personalizados (por
ejemplo, en Customer Relationship Management)

20

Por qu Data Mining?


Desde el punto cientfico
Los datos son recogidos y almacenados a gran velocidad
(GB / hora)
sensores remotos en un satlite
telescopios que exploran el cielo
microarrays de datos genticos
simulaciones cientficas generando terabytes de datos
Las tcnicas tradicionales son inviables para datos en
bruto
La minera de datos puede ayudar a los cientficos en:
la clasificacin y segmentacin de datos
la formacin de hiptesis
20

Por qu Data Mining?


A menudo hay informacin "oculta" en los
datos que no es fcilmente evidente
A los analistas les pueden llevar semanas
descubrir informacin til
Gran parte de los datos nunca se analiza
por completo

20

Qu es Data Mining?
Muchas Definiciones
Es la extraccin no trivial de informacin
implcita, previamente desconocida y
potencialmente til, a partir de los datos
Exploracin y anlisis, a travs de medios
semi-automticos o automticos, de grandes
cantidades de datos para descubrir patrones
significativos

20

Qu es Data Mining?

Qu NO es Data Mining?
Qu NO es DM?

Qu es DM?

Buscar un nmero de
telfono en la gua

Algunos nombres son


ms comunes en ciertas
regiones (Juan, Pedro,
etc)

Consultar a travs de
un motor de bsqueda
de la WEB
informacin de
Amazon

Un grupo de
documentos similares
devuelto por el motor de
bsqueda de la WEB, de
acuerdo al contexto
(selva amaznica,
Amazon.com, etc)
20

Origen del Data Mining


Ideas provenientes desde aprendizaje automtico / AI,
reconocimiento de patrones, estadsticas, y sistemas de Bases
de Datos
Las tcnicas tradicionales
Estadsticas
Aprendizaje
no se adecuan a:

Enormidad de datos
Alta dimensionalidad
Naturaleza heterognea
y distribuida de los datos

/ Intelig
Artificial

automtico /
Reconocimiento de
patrones

Data Mining

Sistemas de
Bases de
Datos

Tareas de Data Mining


Modelos Predictivos
Clasificacin
Regresin
Deteccin de anomalas
Modelos Descriptivos
Clustering o Agrupamiento
Reglas de asociacin
Patrn secuencial

Tareas de Data Mining

Tan-Steinbach-Kumar Introduction to Data MIning

Clasificacin: Definicin
Dada una coleccin de registros (training set )
Cada registro contienen un conjunto de atributos, uno de los
atributos es la clase.

Buscar un modelo para el atributo clase como una funcin


de los valores de otros atributos.
Objetivo: los registros inditos deben ser asignados a una
clase con la mayor precisin posible.
Se utiliza un conjunto de prueba (test set) para determinar la
precisin del modelo. Por lo general, se divide el conjunto de
datos obtenidos en training set y test set. El training set se
utiliza para construir el modelo y test set se utiliza para
validarlo.

Ejemplo de Clasificacin
o
eg
t
ca

10

l
a
c
ri

eg
t
ca

l
a
c
ri

tin
n
co

us
o
u

ss
a
l
c

Tid Refund Marital


Status

Taxable
Income Cheat

Yes

Single

125K

No

No

Married

100K

No

No

Single

70K

No

Yes

Married

120K

No

No

Divorced 95K

Yes

No

Married

No

Yes

Divorced 220K

No

No

Single

85K

Yes

No

Married

75K

No

10

No

Single

90K

Yes

60K

Refund Marital
Status

Taxable
Income Cheat

No

Single

75K

Yes

Married

50K

No

Married

150K

Yes

Divorced 90K

No

Single

40K

No

Married

80K

10

Training
Set

Clasificador

Test
Set

Modelo

Clasificacin: Aplicacin 1
Marketing Directo
Objetivo: Reducir el costo de envo para focalizar en
un conjunto de compradores de nuevos telfonos
celulares.
Enfoque:
Introduzca los datos para un producto similar introducido antes.
Sabemos cules clientes deciden comprar y cules no. Esta
decisin: {compra, no compra} forma el atributo clase.
Recopilar informacin demogrfica, estilos de vida y toda la
informacin relacionada acerca de la interaccin de esos clientes
con la compaa
Tipo de negocio, donde viven, cunto ganan, etc.
Utilice esta informacin como atributos de entrada para aprender
un modelo clasificador. .
From [Berry & Linoff] Data Mining Techniques, 1997

Clasificacin: Aplicacin 2
Deteccin de fraude
Objetivo: Predecir casos fraudulentos en
transacciones de tarjetas de crdito.
Enfoque:
Utilizar las transacciones de tarjeta de crdito y la
informacin de su titular
Cundo compra, qu compra, con qu frecuencia paga a
tiempo, etc

Etiquetar transacciones pasadas, como fraude o


transacciones OK. Esto forma el atributo de clase.
Aprender un modelo para la clase de las transacciones.
Utilizar el modelo para detectar fraude en las transacciones
de tarjeta de crdito de una cuenta en particular

Clasificacin: Aplicacin 3
Desercin de clientes:
Objetivo: Predecir cuando un cliente se pierde en
manos de un competidor.
Enfoque:
Use registros detallados de las transacciones con cada uno
de los clientes pasados y presentes, para encontrar
atributos.
Con qu frecuencia llama, dnde llama, a qu hora del
da llama, su situacin financiera, estado civil, etc
Etiquete los clientes como fieles o infieles.
Encuentre un modelo de fidelidad.
From [Berry & Linoff] Data Mining Techniques, 1997

Clasificacin: Aplicacin 4
Catlogo de objetos del cielo
Objetivo: Predecir clases (estrellas o galaxias) de
objetos del cielo, especialmente de visualizacin
dbil, basado en las imgenes telescpicas de
Palomar Observatory.
3000 imgenes con 23.040 x 23.040 pixels por imagen.

Enfoque:
Segmentar las imgenes.
Medir los atributos de las imgenes (caractersticas) - 40 por
objeto.
Modelar la clase basada en esas caractersticas.
Historia de xito: se han podido encontrar 16 nuevos quasars, unos
de los objetos ms lejanos que son difciles de encontrar!
Fayyad, Advances in Knowledge Discovery and Data Mining, 1996

Clasificacin de Galaxias
Precoz

Clase:

Atributos:

Estado de formacin Caractersticas de la


imagen
Caractersticas de las
ondas de luz recibida
Intermedio

Tardo

Tamao de los Datos:


72 millones de estrellas, 20 millones de galaxias
Catlogo de objeto: 9 GB
Base de Datos de imgenes: 150 GB

Clustering: Definicin
Dado un conjunto de puntos de datos, cada uno con un
conjunto de atributos, y una medida de similitud entre ellos,
encontrar grupos de tal manera que:
Los puntos de datos en un clster sean ms similares
entre s que los puntos de datos de otros clusters
Medidas de similitud:
Distancia euclideana si los atributos son continuos.
Otros problemas: medidas especficas.

Ejemplo de Clustering
Distancia euclidiana en un espacio de 3 dimensiones

Intra-cluster
las distancias
se minimizan

Inter-cluster
las distancias
se maximizan

Clustering: Aplicacin 1
Segmentacin del mercado:
Objetivo: subdividir un mercado en distintos subconjuntos de clientes, donde cualquier sub-conjunto
pueda ser concebido como un mercado objetivo que
pueda ser alcanzado con un mix de marketing
diferentes.
Enfoque:
Recoger diferentes atributos de los clientes en funcin de su
informacin geogrfica y estilo de vida
Encontrar clusters de clientes similares.
Medir la calidad del clustering mediante la observacin de
los patrones de compra de los clientes de un mismo clster
frente a aquellos de diferentes clusters.

Clustering: Aplicacin 2
Clustering de documentos:
Objetivo: Para encontrar grupos de documentos que son
similares entre s basados en palabras importantes que
aparecen en ellos.

Enfoque: Identificar palabras que aparecen con


frecuencia en cada documento. Formar una medida de
similitud basada en las frecuencias de las diferentes
palabras. Usarlo como clster.

Beneficios: la recuperacin de la informacin puede


utilizar el cluster para relacionar un nuevo documento o
buscar palabras en los documentos del cluster

Clustering de documentos
Puntos del Clustering: 3204 artculos de Los Angeles
Times.
Medida de similitud: Cuntas palabras tienen en comn
(despus de filtrar algunas).
Category
Financial

Total
Articles
555

Correctly
Placed
364

Foreign

341

260

National

273

36

Metro

943

746

Sports

738

573

Entertainment

354

278

Clustering de los movimientos de


acciones de S&P 500
Observar los movimientos diarios de las acciones
Puntos del Clustering: Acciones {UP/DOWN}
Medida de similitud: Dos puntos son ms similares si los
eventos descritos por ellos frecuentemente ocurren juntos
en el mismo da.
Utilizamos las reglas de asociacin para cuantificar una
Discovered Clusters
Industry Group
medida de similitud

1
2
3
4

Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,


Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N,
Sun-DOW N
Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-M icro-Device-DOWN,Andrew-Corp-DOWN,
Co mputer-Assoc-DOWN,Circuit-City-DOWN,
Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN
Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N,
MBNA-Corp -DOWN,Morgan-Stanley-DOWN
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlu mberger-UP

Technology1-DOWN

Technology2-DOWN

Financial-DOWN
Oil-UP

Regla de Asociacin: Definicin


Dado un conjunto de registros los cuales contienen un
nmero de elementos de una coleccin determinada;
Producir reglas de dependencia para predecir la
ocurrencia de un elemento basado en las ocurrencias
de otros elementos
TID

Items

1
2

Bread, Coke, Milk


Beer, Bread

3
4
5

Beer, Coke, Diaper, Milk


Beer, Bread, Diaper, Milk
Coke, Diaper, Milk

Rules
RulesDiscovered:
Discovered:

{Milk}
{Milk}-->
-->{Coke}
{Coke}
{Diaper,
{Diaper,Milk}
Milk}-->
-->{Beer}
{Beer}

Regla de Asociacin: Aplicacin 1


Marketing y promocin de ventas:
Suponga que la regla descubierta sea:
{Cerveza, } --> {Papas fritas}
Papas fritas como consecuencia => Se puede utilizar
para determinar qu se debe hacer para aumentar sus
ventas.
Cerveza en el antecedente => Se puede utilizar para
ver qu productos se veran afectados si la tienda
suspende la venta de cerveza

Cerveza en el antecedente y papas fritas como


consecuencia => se puede utilizar para ver qu

productos se deberan vender con cerveza para promover


la venta de papas fritas!

Regla de Asociacin: Aplicacin 2


Manejo de las gndolas del supermercado.
Objetivo: Identificar los artculos que se compran
juntos por bastantes clientes.
Enfoque: Procesar los datos de los puntos de venta
recogidos con escneres de cdigo de barras, para
encontrar dependencias entre elementos.

Una regla clsica


Si un cliente compra paales y leche, entonces es muy
probable que compre cerveza.
Por lo tanto, no se sorprenda si encuentra packs de latas de
cerveza apilados junto a los paales!

Regla de Asociacin: Aplicacin 3


Manejo de inventario:
Objetivo: Una empresa de reparacin de
electrodomsticos quiere anticipar la naturaleza de las
reparaciones de los productos de consumo y mantener
equipados a los vehculos de servicio a domicilio con las
piezas adecuadas, para reducir la cantidad de visitas a los
hogares de los consumidores

Enfoque: Procesar los datos sobre las herramientas y


piezas necesarias en reparaciones previas, en diferentes
lugares de consumo y descubrir los patrones de
ocurrencia.

Patrones Secuenciales: Definicin

Dado un conjunto de objetos, cada objeto asociado con su propia lnea de


tiempo de los eventos, encontrar reglas que predigan fuertes dependencias
secuenciales entre los diferentes eventos.

(A B)

(C)

(D E)

Las reglas se forman, primero descubriendo patrones. La ocurrencia de


eventos en los patrones se rigen por limitaciones de tiempo.

(A B)
<= xg

(C) (D E)
>ng <= ws
<= ms

Ejemplos de Patrones Secuenciales


Un negocio de venta de electrodomsticos y equipos de audio
analiza las ventas que ha realizado usando anlisis secuencial, y
descubre que el 30% de los clientes que compraron un televisor
hace 6 meses compraron un DVD en los siguientes 2 meses.
(Televisor) 2 meses (DVD)
Negocio de ropa deportiva:
(Zapatillas) (Raqueta, Pelota_Tenis) 15 das (Remera_Tenis)

Regresin
Predecir el valor de una variable continua, basndose en
los valores de otras variables, suponiendo un modelo
lineal o no lineal de la dependencia.
Estudiado en gran medida en las estadsticas, campos
de redes neuronales.
Ejemplos:
Predecir los importes de ventas de nuevos productos basados
en los gastos de publicidad
Predecir la velocidad del viento como una funcin de la
temperatura, humedad, presin, etc.
Prediccin de series de tiempo de los ndices burstiles .

Deteccin de anomalas / desvos


Detectar desvos significativos de un comportamiento normal
Aplicaciones:
Deteccin de fraudes con tarjetas
de crdito

Deteccin de intrusos
en una red

Desafos del Data Mining

Escalabilidad
Dimensionalidad
Complejidad y heterogeneidad de los datos
Calidad de los Datos
Propiedad de los Datos y Distribucin
Preservacin de la Privacidad
Trasmisin de datos

También podría gustarte