Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccin
(Basado en el texto Introduction to Data Mining de
Tan, Steinbach, Kumar)
20
20
Qu es Data Mining?
Muchas Definiciones
Es la extraccin no trivial de informacin
implcita, previamente desconocida y
potencialmente til, a partir de los datos
Exploracin y anlisis, a travs de medios
semi-automticos o automticos, de grandes
cantidades de datos para descubrir patrones
significativos
20
Qu es Data Mining?
Qu NO es Data Mining?
Qu NO es DM?
Qu es DM?
Buscar un nmero de
telfono en la gua
Consultar a travs de
un motor de bsqueda
de la WEB
informacin de
Amazon
Un grupo de
documentos similares
devuelto por el motor de
bsqueda de la WEB, de
acuerdo al contexto
(selva amaznica,
Amazon.com, etc)
20
Enormidad de datos
Alta dimensionalidad
Naturaleza heterognea
y distribuida de los datos
/ Intelig
Artificial
automtico /
Reconocimiento de
patrones
Data Mining
Sistemas de
Bases de
Datos
Clasificacin: Definicin
Dada una coleccin de registros (training set )
Cada registro contienen un conjunto de atributos, uno de los
atributos es la clase.
Ejemplo de Clasificacin
o
eg
t
ca
10
l
a
c
ri
eg
t
ca
l
a
c
ri
tin
n
co
us
o
u
ss
a
l
c
Taxable
Income Cheat
Yes
Single
125K
No
No
Married
100K
No
No
Single
70K
No
Yes
Married
120K
No
No
Divorced 95K
Yes
No
Married
No
Yes
Divorced 220K
No
No
Single
85K
Yes
No
Married
75K
No
10
No
Single
90K
Yes
60K
Refund Marital
Status
Taxable
Income Cheat
No
Single
75K
Yes
Married
50K
No
Married
150K
Yes
Divorced 90K
No
Single
40K
No
Married
80K
10
Training
Set
Clasificador
Test
Set
Modelo
Clasificacin: Aplicacin 1
Marketing Directo
Objetivo: Reducir el costo de envo para focalizar en
un conjunto de compradores de nuevos telfonos
celulares.
Enfoque:
Introduzca los datos para un producto similar introducido antes.
Sabemos cules clientes deciden comprar y cules no. Esta
decisin: {compra, no compra} forma el atributo clase.
Recopilar informacin demogrfica, estilos de vida y toda la
informacin relacionada acerca de la interaccin de esos clientes
con la compaa
Tipo de negocio, donde viven, cunto ganan, etc.
Utilice esta informacin como atributos de entrada para aprender
un modelo clasificador. .
From [Berry & Linoff] Data Mining Techniques, 1997
Clasificacin: Aplicacin 2
Deteccin de fraude
Objetivo: Predecir casos fraudulentos en
transacciones de tarjetas de crdito.
Enfoque:
Utilizar las transacciones de tarjeta de crdito y la
informacin de su titular
Cundo compra, qu compra, con qu frecuencia paga a
tiempo, etc
Clasificacin: Aplicacin 3
Desercin de clientes:
Objetivo: Predecir cuando un cliente se pierde en
manos de un competidor.
Enfoque:
Use registros detallados de las transacciones con cada uno
de los clientes pasados y presentes, para encontrar
atributos.
Con qu frecuencia llama, dnde llama, a qu hora del
da llama, su situacin financiera, estado civil, etc
Etiquete los clientes como fieles o infieles.
Encuentre un modelo de fidelidad.
From [Berry & Linoff] Data Mining Techniques, 1997
Clasificacin: Aplicacin 4
Catlogo de objetos del cielo
Objetivo: Predecir clases (estrellas o galaxias) de
objetos del cielo, especialmente de visualizacin
dbil, basado en las imgenes telescpicas de
Palomar Observatory.
3000 imgenes con 23.040 x 23.040 pixels por imagen.
Enfoque:
Segmentar las imgenes.
Medir los atributos de las imgenes (caractersticas) - 40 por
objeto.
Modelar la clase basada en esas caractersticas.
Historia de xito: se han podido encontrar 16 nuevos quasars, unos
de los objetos ms lejanos que son difciles de encontrar!
Fayyad, Advances in Knowledge Discovery and Data Mining, 1996
Clasificacin de Galaxias
Precoz
Clase:
Atributos:
Tardo
Clustering: Definicin
Dado un conjunto de puntos de datos, cada uno con un
conjunto de atributos, y una medida de similitud entre ellos,
encontrar grupos de tal manera que:
Los puntos de datos en un clster sean ms similares
entre s que los puntos de datos de otros clusters
Medidas de similitud:
Distancia euclideana si los atributos son continuos.
Otros problemas: medidas especficas.
Ejemplo de Clustering
Distancia euclidiana en un espacio de 3 dimensiones
Intra-cluster
las distancias
se minimizan
Inter-cluster
las distancias
se maximizan
Clustering: Aplicacin 1
Segmentacin del mercado:
Objetivo: subdividir un mercado en distintos subconjuntos de clientes, donde cualquier sub-conjunto
pueda ser concebido como un mercado objetivo que
pueda ser alcanzado con un mix de marketing
diferentes.
Enfoque:
Recoger diferentes atributos de los clientes en funcin de su
informacin geogrfica y estilo de vida
Encontrar clusters de clientes similares.
Medir la calidad del clustering mediante la observacin de
los patrones de compra de los clientes de un mismo clster
frente a aquellos de diferentes clusters.
Clustering: Aplicacin 2
Clustering de documentos:
Objetivo: Para encontrar grupos de documentos que son
similares entre s basados en palabras importantes que
aparecen en ellos.
Clustering de documentos
Puntos del Clustering: 3204 artculos de Los Angeles
Times.
Medida de similitud: Cuntas palabras tienen en comn
(despus de filtrar algunas).
Category
Financial
Total
Articles
555
Correctly
Placed
364
Foreign
341
260
National
273
36
Metro
943
746
Sports
738
573
Entertainment
354
278
1
2
3
4
Technology1-DOWN
Technology2-DOWN
Financial-DOWN
Oil-UP
Items
1
2
3
4
5
Rules
RulesDiscovered:
Discovered:
{Milk}
{Milk}-->
-->{Coke}
{Coke}
{Diaper,
{Diaper,Milk}
Milk}-->
-->{Beer}
{Beer}
(A B)
(C)
(D E)
(A B)
<= xg
(C) (D E)
>ng <= ws
<= ms
Regresin
Predecir el valor de una variable continua, basndose en
los valores de otras variables, suponiendo un modelo
lineal o no lineal de la dependencia.
Estudiado en gran medida en las estadsticas, campos
de redes neuronales.
Ejemplos:
Predecir los importes de ventas de nuevos productos basados
en los gastos de publicidad
Predecir la velocidad del viento como una funcin de la
temperatura, humedad, presin, etc.
Prediccin de series de tiempo de los ndices burstiles .
Deteccin de intrusos
en una red
Escalabilidad
Dimensionalidad
Complejidad y heterogeneidad de los datos
Calidad de los Datos
Propiedad de los Datos y Distribucin
Preservacin de la Privacidad
Trasmisin de datos