Introduccin
Introduccin
Cantidad
60.000
30.000
9.000
24.000
...
Salario
2.200
3.500
1.700
2.100
...
Casa
SI
SI
SI
NO
...
Cuentas Morosas
2
0
1
0
...
Devuelve
NO
SI
NO
NO
...
...
...
...
...
...
...
En base a los datos mostrados se puede establecer reglas de carcter automtico que permitiese excluir o no a determinados clientes futuros de un modo
automtico como por ejemplo:
SI Cuentas Morosas >0 ENTONCES Devuelve = NO
SI Cuentas Morosas = 0 Y ((Salario >2.500) O (Duracin >10))
ENTONCES Devuelve = SI
2. Anlisis de la cesta de la compra.Se supone ahora que un supermercado quiere obtener la mxima informacin sobre la cesta de la compra de sus
clientes. Se dispone de la siguiente informacin:
Huevos
SI
NO
NO
NO
...
Aceite
NO
NO
NO
NO
...
Paales
SI
NO
SI
NO
...
Vino
SI
SI
SI
NO
...
Leche
NO
NO
SI
NO
...
Mantequilla
NO
SI
NO
SI
...
...
...
...
...
...
...
Casado
SI
NO
SI
SI
SI
NO
NO
...
Coche
NO
SI
SI
SI
SI
SI
NO
...
Hijos
0
1
2
1
0
0
0
...
Alq/Hip
ALQ
ALQ
PROP
ALQ
PROP
ALQ
ALQ
...
Sindicado
NO
SI
SI
NO
SI
SI
SI
...
Bajas
7
3
5
15
1
3
0
...
Ant
15
3
10
7
6
16
8
...
Sexo
H
M
H
M
H
M
H
...
Mediante tcnicas de minera de datos se podra establecer de un modo automtico tres grupos bien diferenciados del siguiente modo:
Grupo 1. Sin hijos y con vivienda de alquiler. Poco Sindicados y muchas
bajas.
Grupo 2. Sin hijos y con coche. Muy sindicados y normalmente son mujeres
con casas de alquiler y no cogen muchas bajas.
Grupo 3. Con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda.
La minera de datos dispone de dos tipos de modelos fundamentalmente:
Predictivos. Aquellos modelos que a partir de un conjunto de datos son capaces de establecer una prediccin en alguna de las variables para cuando venga
una instancia futura el propio modelo prediga qu va a suceder. Tpicamente
son los modelos que resuelven los problemas de clasificacin y regresin.
Descriptivos. Son modelos que describen el conjunto de datos estableciendo
ciertas reglas entre las variables o conclusiones de inters. En este tipo de
modelos se encuentran el agrupamiento, las reglas de asociacin y el anlisis
correlacional por ejemplo.
Introduccin
DATOS
Asociacin
Limpieza
PREPROCESO
Minera de
datos
Patrones
PROCESO
Interpretacin
Visualizacin
INFORMACIN
CONOCIMIENTO
POSPROCESO
KDD
Figura 1.1: Flujo del proceso de transicin de los datos a la informacin o conocimiento
in Databases (KDD). As, Fayyad et al. en 1996 define KDD como el proceso no
trivial de identificar patrones vlidos, novedosos, potencialemnte tiles y, en ltima
instancia, comprensibles a partir de los datos. Ese conocimiento que se extrae de los
daos es necesario que cumpla ciertas caractersticas o por lo menos es deseable:
Vlido. Los patrones deben seguir siendo precisos para datos nuevos (test) y
no slo para los que han sido usados para el modelo (train)
Novedoso. Nuevas aportaciones para el modelo y sobre todo para el usuario.
Potencielmante til. En la lnea de lo anterior, la informacin debe aportar
algo al usuario.
Comprensible. Los patrones deben ser perfectamente comprensibles para el
usuario.
En la figura 1.1 se puede observar de un modo esquemtico el proceso de transformacin de datos en conocimiento, y qu papel juega el KDD en sus tres fases:
1. Preproceso. Preparacin y limpieza de los datos.
2. Proceso. Implementacin del conjunto de tcnicas y modelos e minera de datos
que se vayan a utilizar.
3. Posproceso. Extraccin de las caractersticas, visualizacin de los modelos e
interpretacin de los resultados obtenidos.