Está en la página 1de 46

Gua paso a paso de Minera de Datos

Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR),


homas Khaba!a (SPSS), homas Reinart! (DaimlerChrysler),
Colin Shearer (SPSS) y R"di#er $irth (DaimlerChrysler)
CRISP-DM 1.0
Metodologa CRISP-DM
%ste do&umento des&ribe el pro&eso de modelado CR'SP(DM y &ontiene la in)orma&i*n sobre la metodolo#a de CR'SP(DM,
el modelo de re)eren&ia de CR'SP(DM, la #ua de usuario de CR'SP(DM , + el reporte CR'SP(DM, as &omo un ap,ndi&e
&on in)orma&i*n adi&ional rela&ionada- %ste do&umento e in)orma&i*n a.u son propiedad e/&lusi0a de los &ompa1eros del
&onsor&io CR'SP(DM2 NCR 'n#eniera de sistemas Copenha#ue (%%- 33 y Dinamar&a), DaimlerChrysler 4G (4lemania),
SPSS 'n&- (%%- 33), + 56R4 7er!e8erin#en en Deposita Groep 9-7- (Pases 9a:os)-
Copyri#ht ; <===, >???
odas las mar&as re#istradas y se1ales de ser0i&io men&ionadas en este do&umento son las se1ales de sus due1os
respe&ti0os y son &omo tal re&ono&ido por los miembros del &onsor&io de CR'SP(DM-
Advertencia
%l CR'SP(DM )ue &on&ebido a )inales de <==@ por tres A0eteranosA del :o0en e inmaduro mer&ado de minera de datos-
DaimlerChrysler (enton&es Daimler(9en!) estaba ya delante de la mayora de las or#ani!a&iones industriales y &omer&iales
en la apli&a&i*n de la minera de datos en sus opera&iones de ne#o&ios-
SPSS (enton&es 'SB) haba estado propor&ionando ser0i&ios basados en Minera de datos desde <==? y haba lan!ado la
primer herramienta de traba:o &omer&ial de Minera de Datos Clementine en <==C-
NCR, &omo parte de su ob:eti0o para entre#ar 0alor adi&ional a su eradata D 4lma&,n de datos (data Earehouse), haban
estable&ido los e.uipos &onsultores de minera de datos y espe&ialistas de te&nolo#a para atender las e/i#en&ias de sus
&lientes-
%n a.uel tiempo, el temprano inter,s del mer&ado en la minera de datos mostraba si#nos de e/plosi*n en la &omprensi*n
popular- %sto era tan apasionante &omo aterrador- odos nosotros habamos desarrollado nuestro in#reso (apro/ima&i*n) a
la minera de datos .ue pasamos de lar#o- FNosotros ha&amos lo &orre&toG FCada nue0a adop&i*n de minera de datos iba
a tener .ue aprenderse, &omo nosotros habamos ini&iado, por prueba y errorG F+ desde la perspe&ti0a de un pro0eedor,
&omo podamos mani)estarnos a &lientes anti&ipados .ue la minera de datos era su)i&ientemente madura para ser adoptado
&omo una parte &la0e de su pro&eso de ne#o&ioG
3n modelo de pro&eso estHndar, pensamos, sin propietarios y libremente disponible, podra diri#ir estas &uestiones para
nosotros y para todos los pro)esionales-
3n a1o mHs tarde, nosotros habamos )ormado un &onsor&io, in0entado una si#la (Pro&eso %stHndar 'ndustrial 6brido para
la Minera de Datos), obtenido )inan&ieramente de la Comisi*n europea, e ini&iado para estable&er nuestras ideas ini&iales-
Como el CR'SP(DM )ue planeado para ser herramienta industrial, y de apli&a&i*n neutral, nosotros sabamos .ue tu0imos
.ue ser introdu&idos a una amplia #ama &omo de pro)esiones y otros (tal &omo 0endedores de alma&enes de datos y
&onsultas de administra&i*n) &on un inter,s personal en minera de datos- 6i&imos esto por &rear el Grupo interesado
espe&ialmente en CR'SP(DM (Iel G'SJ, &omo se hi!o &ono&ido)- Ban!amos el G'S por di)usi*n de una in0ita&i*n a partes
interesadas para unirnos en 4msterdam para todo un da de taller2 Nosotros &ompartiramos nuestras ideas, los in0itaramos
a presentar las suyas, y abrimos la dis&usi*n de &omo tomar el CR'SP(DM en adelante-
%n los das del taller, haba un sentimiento de a#ita&i*n entre los miembros del &onsor&io- F4l#uien estara bastante
interesado en mostrarseG F5, si ellos lo hi&ieran, nos diran .ue ellos realmente no 0ieron una ne&esidad ur#ente para un
pro&eso estHndarG F5 .ue nuestras ideas estaban ahora )uera del paso .ue &ual.uier otra idea de estandari!a&i*n era una
)antasa impra&ti&ableG
%l taller sobrepas* todas nuestras e/pe&tati0as- res &osas se desta&aron2
%l doble de personas apare&i* de lo .ue al prin&ipio habamos esperado-
6aba un a&uerdo #eneral aplastante .ue la industria ne&esitaba de un pro&eso estHndar y lo ne&esitaba ahora-
Como los asistentes presentaron sus opiniones sobre la minera de datos desde su e/perien&ia de proye&to, se
hi!o &laro .ue aun.ue hubiera di)eren&ias super)i&iales ( prin&ipalmente en la demar&a&i*n de )ases y en la
terminolo#a( hubo enormes puntos en &omKn en &omo ellos 0ieron el pro&eso de minera de datos-
6a&ia el )inal del taller, sentimos &on)iden&ias .ue nosotros podramos entre#ar, &on la entrada del G'sLS y las &rti&as, un
modelo de pro&eso estHndar para atender la &omunidad de minera de datos-
Durante los dos pr*/imos a1os y medio, traba:amos para desarrollar y re)inar el CR'SP(DM- Controlamos pruebas en 0i0o,
en proye&tos de #ran es&ala de minera de datos, en Mer&edes 9en! y en nuestro &ompa1ero del se&tor de se#uros, 56R4-
raba:amos sobre la inte#ra&i*n del CR'SP(DM &on herramientas &omer&iales de minera de datos- %l G'S demostr* ser
0alioso, &re&iendo a mHs de >?? miembros y sosteniendo talleres en Bondres, Nue0a +or8, y 9ruselas-
6a&ia el )inal del proye&to de la parte )inan&iada por C% (mid(<===( habamos produ&ido lo .ue &onsideramos un esbo!o de
buena &alidad del modelo de pro&eso- 4.uellos )amiliari!ados &on a.uel esbo!o en&ontrarHn .ue un a1o mHs tarde, aun.ue
ahora mu&ho mHs &ompleto y me:or presentado, el CR'SP(DM <-? no es en nin#Kn &aso radi&almente di)erente- Nosotros
,ramos sumamente &ons&ientes .ue, durante el proye&to, el modelo de pro&eso estH toda0a &on mu&hsimo traba:o(en(
pro#resoM el CR'SP(DM s*lo haba sido 0alidado sobre un :ue#o estre&ho de proye&tos- 4 lo lar#o del a1o pasado,
DaimlerChrysler tena la oportunidad de apli&ar el CR'SP(DM a una mHs amplia #ama de usos- Bos #rupos de Ser0i&ios
Pro)esionales del SPSSL + NCRLS han adoptado el CR'SP(DM y usado satis)a&toriamente sobre numerosos &ontratos de
&liente &ubriendo mu&has industrias y problemas de ne#o&io-
%n todo este tiempo, hemos 0isto .ue los pro0eedores de ser0i&io de )uera del &onsor&io adoptan el CR'SP(DM, repetidas
re)eren&ias por los analistas &omo el estHndar real para la industria, y una &on&ien&ia &re&iente de su importan&ia entre
&lientes (CR'SP(DM esta ahora &on )re&uen&ia re)erido en in0ita&iones al &on&urso y en do&umentos RNP)- Creemos .ue
nuestra ini&iati0a ha sido a )ondo rei0indi&ado, y mientras )uturas me:oras y e/tensiones son muy deseables &omo
ine0itables, &onsideramos la 0ersi*n de CR'SP(DM <-? su)i&ientemente 0alidado para ser publi&ado y distribuido-
%l CR'SP(DM no ha sido &onstruido a una manera te*ri&a, a&ad,mi&a .ue traba:a de prin&ipios t,&ni&os, ni hi!o &omit,s de
la elite de #urKes &reando detrHs de puertas &erradas- 4mbos de estos a&&esos a metodolo#as .ue se desarrollan han sido
intentados en el pasado, pero raras 0e&es &ondu&an a lo prH&ti&o, lo a&ertado, y e/tensamente ha adoptado normas- %l
CR'SP(DM tiene ,/ito por.ue esta pro)undamente basado en la e/perien&ia prH&ti&a, la e/perien&ia del mundo real de &omo
la #ente &ondu&e proye&tos de minera de datos- + en este sentido, somos abrumadoramente el deudor a mu&hos m,di&os
.uien &ontribuyeron &on sus es)uer!os y sus ideas en todas partes del proye&to-
El consorcio de CRISP-DM
Agosto de 2000
I-Introduccin
1. La metodologa CRISP-DM
1.1. Interrupcin jerruic!
Ba metodolo#a de CR'SP(DM estH des&rita en t,rminos de un modelo de pro&eso :erHr.ui&o, &onsistente en un
&on:unto de tareas des&ritas en &uatro ni0eles de abstra&&i*n (de lo #eneral a lo espe&)i&o)2 )ase, tarea #en,ri&a, tarea
espe&iali!ada, e instan&ia de pro&esos- (7er la )i#ura <-)
%n el ni"el superior, el pro&eso de minera de datos es or#ani!ado en un nKmero de )asesM &ada )ase &onsiste de 0arias
tareas #en,ri&as de se#undo ni0el- %ste segundo ni"el lo llaman gen#rico por.ue esta destinado a ser bastante #eneral
para &ubrir todas las situa&iones posibles de minera de datos- Bas tareas #en,ri&as estHn destinadas a ser tan
&ompletas y estables &omo sea posible- Co$pleto si#ni)i&a .ue &ubre tanto al pro&eso entero de minera de datos y
todas las apli&a&iones de minera de datos posibles- Est!%le si#ni)i&a .ue el modelo debera ser 0Hlido para
a&onte&imientos normales y aKn para desarrollos impre0istos &omo t,&ni&as de modelado nue0o-
%l tercer ni"el, el ni0el de tarea espe&iali!ado, es el lu#ar para des&ribir &omo las a&&iones en las tareas #en,ri&as
deberan ser reali!adas en &iertas situa&iones espe&)i&as- Por e:emplo, en el se#undo ni0el podra haber una tarea
#en,ri&a llamada limpie!a de datos- %l ter&er ni0el des&ribe &omo esta tarea se di)eren&ia en situa&iones di)erentes,
&omo la limpie!a de 0alores num,ri&os &ontra la limpie!a de 0alores &ate#*ri&os, o si el tipo de problema es
a#rupamiento o el modelado predi&ti0o-
Ba des&rip&i*n de )ases y tareas &omo pasos dis&retos reali!ados en un orden espe&)i&o representa una se&uen&ia
ideali!ada de e0entos-
%n la prH&ti&a, mu&has de las tareas pueden ser reali!adas en una orden di)erente, y esto a menudo serH ne&esario
0ol0er a ha&er tareas anteriores repetidamente y repetir &iertas a&&iones- Nuestro modelo de pro&eso no intenta
&apturar todas estas posibles rutas
del pro&eso de la minera de datos
por.ue esto re.uerira un modelo
de pro&eso demasiado &omple:o-
%l cu!rto ni"el, la instan&ia de
pro&eso, es un re#istro de las
a&&iones, de&isiones, y de los
resultados de una minera de
datos real &ontratada-
3na instan&ia de pro&eso esta
or#ani!ado se#Kn las tareas
de)inidas en los ni0eles mHs altos,
pero representa lo .ue en realidad
pas* en un &ontrato parti&ular mHs
bien .ue lo .ue pasa en #eneral-
Ni#ura <2 Cuatro ni0eles de interrup&i*n de la metodolo#a CR'SP(DM
1.2. Modelo de re&erenci! ' gu(! de usu!rio
6ori!ontalmente, la metodolo#a de CR'SP(DM se distin#ue entre el modelo de re)eren&ia y la #ua de usuario- %l
modelo de re)eren&ia presenta una des&rip&i*n rHpida de )ases, las tareas, y sus salidas, y des&riben .ue ha&er en el
proye&to de minera de datos- Ba #ua de usuario da &onse:os mHs detallados e insinua&iones para &ada )ase y &ada
tarea dentro de una )ase, y representa &omo reali!ar un proye&to de minera de datos
%ste do&umento &ubre tanto el modelo de re)eren&ia &omo la #ua de usuario en el ni0el #en,ri&o-
2. Paa!e de modelo gen"rico a modelo e#eciali$ado
2.1. Conte)to de l! $iner(! de d!tos
%l &onte/to de minera de datos tra!a un mapa entre lo #en,ri&o y el ni0el espe&iali!ado en CR'SP(DM- 4&tualmente,
distin#uimos entre &uatro dimensiones di)erentes de &onte/tos de minera de datos2
el dominio de a#licacin es el Hrea espe&)i&a en la .ue el proye&to de minera de datos toma lu#ar
los ti#o de #ro%lema de minera de dato des&riben la(s) &lase(s) espe&)i&a(s) de ob:eti0o(s) &on el .ue el
proye&to de minera de datos trata (0er tambi,n el 4p,ndi&e >)
el a#ecto t"cnico &ubre &uestiones espe&)i&as en minera de datos .ue des&ribe di)erentes (t,&ni&as)
di)i&ultades .ue por lo #eneral o&urren durante la minera de datos
la &erramienta y las espe&i)i&a&iones de dimensi*n t"cnica en la .ue las herramienta(s) de minera de datos
yOo t,&ni&as son apli&adas durante el proye&to de minera de datos
Ba abla < de aba:o resume estas dimensiones de &onte/tos de minera de datos y muestra e:emplos espe&)i&os para
&ada dimensi*n-
Conte'to de Minera de Dato
Dimenin
Dominio de
a#licacin
(i#o de
#ro%lema de
Minera de
Dato
A#ecto
("cnico
)erramienta *
("cnica
+!em#lo
Modelado de
respuesta
Des&rip&i*n y
resumen
7alores
en&ontrados
Clementine
Realimentar
predi&&iones
Se#menta&i*n Salidas MineSet
---
Des&rip&i*n de
&on&eptos
---
4rbol de
de&isi*n
Predi&&i*n ---
4nHlisis de
dependen&ia
abla <- Dimensi*n de &onte/tos y e:emplos de minera de datos
3n &onte/to espe&)i&o de minera de datos es un 0alor &on&reto para una o mHs de estas dimensiones- Por e:emplo, un
proye&to de minera de datos tratando &on un problema de &lasi)i&a&i*n .ue se re0uel0e &on la predi&&i*n &onstituye un
&onte/to espe&)i&o- Bo mHs espe&)i&o (los 0alores) para las dimensiones de &onte/tos di)erentes son )i:adas
(espe&i)i&adas), lo mas &on&reto es el &onte/to de minera de datos-
2.2. P!s!je con conte)tos
Distin#uimos entre dos tipos di)erentes de pasa:es (plan) entre el ni0el #en,ri&o y un espe&iali!ado en el CR'SP(DM-
Paa!e #ara el #reente2 Si s*lo apli&amos el modelo de pro&eso #en,ri&o para reali!ar un proye&to de minera simple,
e intentar pasar de tareas #en,ri&as y sus des&rip&iones al proye&to espe&)i&o &omo re.uerido, hablamos sobre un
pasa:e solo para (probablemente) un solo uso-
Paa!e #ara el ,uturo2 Si sistemHti&amente espe&iali!amos el modelo de pro&eso #en,ri&o se#Kn un &onte/to
prede)inido (o anali!ando sistemHti&amente de modo similar y &onsolidando las e/perien&ias de un Kni&o proye&to ha&ia
un modelo de pro&eso espe&iali!ado para el uso )uturo en &onte/tos &omparables), hablamos e/pl&itamente de la
sobre es&ritura de un modelo de pro&eso espe&iali!ado en t,rminos de CR'SP(DM-
Cual.uiera de los tipos de tra!ados es apropiado se#Kn sus propios ob:eti0os, depende de su &onte/to de minera de
datos espe&)i&os y las ne&esidades de su or#ani!a&i*n-
2.*. P!s!je
Ba estrate#ia bHsi&a para pasar un mapa del modelo de pro&eso #en,ri&o al ni0el espe&iali!ado es la misma para
ambos tipos de pasa:e2
4nali!ar su &onte/to espe&)i&o
Puitar &ual.uier detalle no apli&able a su &onte/to
4#re#ar &ual.uier detalle espe&)i&o a su &onte/to
%spe&iali!ar (o instan&iar) el &ontenido #en,ri&o se#Kn las &ara&tersti&as &on&retas de su &onte/to
Renombrar el &ontenido #en,ri&o posible para propor&ionar si#ni)i&ados mHs e/pl&itos en su &onte/to para la
a&lara&i*n-
-. Decri#cin de #arte
*.1. Contenido
%l modelo de pro&eso de CR'SP(DM (este do&umento) es or#ani!ado en &in&o partes di)erentes2
Parte I2 es esta una introdu&&i*n a la metodolo#a de CR'SP(DM, .ue propor&iona al#unas dire&tri&es
#enerales para pasar un modelo de pro&eso #en,ri&o a modelos de pro&eso espe&iali!ados
Parte II2 des&ribe el modelo de re)eren&ia de CR'SP(DM, sus )ases, tareas #en,ri&as, y salidas
Parte III presenta la #ua de usuario de CR'SP(DM, .ue 0a mHs allH de la des&rip&i*n pura de )ases, tareas
#en,ri&as, y salidas, y &ontiene el asesoramiento mHs detallado sobre &omo reali!ar proye&tos de minera de
datos
Parte I.2 Se &entra en los in)ormes para ser produ&idos durante y despu,s de un proye&to, y su#iere
&ontornos para estos in)ormes- %llo tambi,n muestra re)eren&ias &ru!adas entre salidas y tareas-
Parte . es el ap,ndi&e, .ue in&luye un #losario de terminolo#a importante y una &ara&teri!a&i*n de los tipos
de problemas de minera de datos
*.2. +%jeti"o
Bos usuarios y los le&tores de este do&umento deberan ser &ons&ientes de las instru&&iones si#uientes2
Si usted lee el modelo de pro&eso de CR'SP(DM por primera 0e!, &omien&e &on la Parte ', la introdu&&i*n,
para entender la metodolo#a de CR'SP(DM, todos sus &on&eptos, y &omo los distintos &on&eptos se
rela&ionan uno &on el otro- %n remotas le&turas, usted podra saltar la introdu&&i*n y s*lo 0erlo si lo ne&esita
para una a&lara&i*n-
Si usted ne&esita rHpido el a&&eso a una des&rip&i*n del modelo de pro&eso de CR'SP(DM, re)erirse a la Parte
'', el modelo de re)eren&ia de CR'SP(DM, otra )orma de un proye&to de minera de datos rHpidamente o
&onse#uir una introdu&&i*n a la #ua de usuario de CR'SP(DM-
Si usted ne&esita el asesoramiento detallado en la reali!a&i*n de su proye&to de minera de datos, 0er Parte
'''', la #ua de usuario de CR'SP(DM, es lo mHs parte mHs importante de este do&umento- Nota2 si usted no ha
ledo primero la introdu&&i*n o el modelo de re)eren&ia, 0uel0a y lea estas primeras dos Partes-
Si usted estH en la etapa de minera de datos &uando usted sobres&ribe sus in)ormes, 0er Parte '7- Si usted
pre)iere #enerar deliberadamente las des&rip&iones durante el proye&to, mu,0ase ha&ia adelante y ha&ia atrHs
entre Partes ''' y '7 &omo lo desee-
Ninalmente, el ap,ndi&e es Ktil &omo in)orma&i*n adi&ional de )ondo a la M'N%RQ4 de datos y al CR'SP(DM-
3se el ap,ndi&e para bus&ar 0arios t,rminos si usted no es aKn un e/perto en el &ampo-
II-+l modelo de re,erencia CRISP-DM
%l modelo de pro&eso &orriente para la minera de datos propor&iona una des&rip&i*n del &i&lo de 0ida del proye&to de
minera de datos- %ste &ontiene las )ases de un proye&to, sus tareas respe&ti0as, y las rela&iones entre estas tareas- %n este
ni0el de des&rip&i*n, no es posible identi)i&ar todas las rela&iones- Bas rela&iones podran e/istir entre &ual.uier tarea de
minera de datos se#Kn los ob:eti0os, el &onte/to, y Rlo mHs importante( el inter,s del usuario sobre los datos-
%l &i&lo de 0ida del proye&to de minera de datos &onsiste en seis )ases, mostrado en la Ni#ura >- Ba se&uen&ia de las )ases
no es r#ida-
%l mo0imiento ha&ia adelante y ha&ia atrHs entre )ases di)erentes es siempre re.uerido- %l resultado de &ada )ase determina
.ue la )ase, o la tarea parti&ular de una )ase, tienen .ue ser reali!ados despu,s- Bas )le&has indi&an las mHs importantes y
)re&uentes dependen&ias entre )ases-
%l &r&ulo e/terno en la Ni#ura > simboli!a la naturale!a &&li&a de la minera de datos- Ba minera de datos no se termina
una 0e! .ue la solu&i*n es desple#ada- Bas in)orma&iones o&ultas (le&&iones &ultas) durante el pro&eso y la solu&i*n
desple#ada pueden pro0o&ar nue0as, a menudo mHs ( pre#untas en)o&adas en el ne#o&io- Bos pro&esos de minera
subse&uentes se bene)i&iarHn de las e/perien&ias pre0ias- %n el si#uiente, bre0emente per)ilamos &ada )ase2
Ni#ura >2 Nases del modelo de re)eren&ia CR'SP(DM
Co$prensin del negocio
%sta )ase ini&ial se en)o&a en la &omprensi*n de los ob:eti0os de proye&to y e/i#en&ias desde una perspe&ti0a de ne#o&io,
lue#o &on0irtiendo este &ono&imiento de los datos en la de)ini&i*n de un problema de minera de datos y en un plan
preliminar dise1ado para al&an!ar los ob:eti0os-
Co$prensin de los d!tos
Ba )ase de entendimiento de datos &omien!a &on la &ole&&i*n de datos ini&ial y &ontinua &on las a&ti0idades .ue le permiten
)amiliari!ar primero &on los datos, identi)i&ar los problemas de &alidad de datos, des&ubrir los primeros &ono&imientos en los
datos, yOo des&ubrir sub&on:untos interesantes para )ormar hip*tesis en &uanto a la in)orma&i*n o&ulta-
Prep!r!cin de d!tos
Ba )ase de prepara&i*n de datos &ubre todas las a&ti0idades ne&esarias para &onstruir el &on:unto de datos )inal Slos datos
.ue serHn pro0istos en las herramientas de modeladoT de los datos en brutos ini&iales- Bas tareas de prepara&i*n de datos
probablemente 0an a ser reali!adas mu&has 0e&es y no en &ual.uier orden pres&ripto- Bas tareas in&luyen la sele&&i*n de
tablas, re#istros, y atributos, as &omo la trans)orma&i*n y la limpie!a de datos para las herramientas .ue modelan-
Model!do
%n esta )ase, 0arias t,&ni&as de modelado son sele&&ionadas y apli&adas, y sus parHmetros son &alibrados a 0alores
*ptimos- pi&amente hay 0arias t,&ni&as para el mismo tipo de problema de minera de datos- 4l#unas t,&ni&as tienen
re.uerimientos espe&)i&os sobre la )orma de datos- Por lo tanto, 0ol0er a la )ase de prepara&i*n de datos es a menudo
ne&esario-
E"!lu!cin
%n esta etapa en el proye&to, usted ha &onstruido un modelo (o modelos) .ue pare&e tener la alta &alidad de una
perspe&ti0a de anHlisis de datos-
4ntes del pro&eder al desplie#ue )inal del modelo, es importante e0aluar a )ondo ello y la re0isi*n de los pasos e:e&utados
para &rearlo, para &omparar el modelo &orre&tamente obtenido &on los ob:eti0os de ne#o&io- 3n ob:eti0o &la0e es determinar
si hay al#una &uesti*n importante de ne#o&io .ue no ha sido su)i&ientemente &onsiderada- %n el )inal de esta )ase, una
de&isi*n en el uso de los resultados de minera de datos debera ser obtenida-
Des!rrollo
Ba &rea&i*n del modelo no es #eneralmente el )inal del proye&to- 'n&luso si el ob:eti0o del modelo es de aumentar el
&ono&imiento de los datos, el &ono&imiento #anado tendrH .ue ser or#ani!ado y presentado en el modo en el .ue el &liente
pueda usarlo- %llo a menudo impli&a la apli&a&i*n de modelos A0i0osA dentro de un pro&eso de toma de de&isiones de una
or#ani!a&i*n, por e:emplo, en tiempo real la personali!a&i*n de pH#ina $eb o la repetida obten&i*n de bases de datos de
mer&adeo- Dependiendo de los re.uerimientos, la )ase de desarrollo puede ser tan simple &omo la #enera&i*n de un in)orme
o tan &omple:a &omo la reali!a&i*n repetida de un pro&eso &ru!ado de minera de datos a tra0,s de la empresa- %n mu&hos
&asos, es el &liente, no el analista de datos, .uien lle0a el paso de desarrollo- Sin embar#o, in&luso si el analista reali!ara el
es)uer!o de desplie#ue, esto es importante para el &liente para entender de )rente .ue a&&iones ne&esita para ser
e:e&utadas en orden para ha&er uso de los modelos &reados a&tualmente-
Ba )i#ura U presenta un &onte/to de )ases a&ompa1adas por tareas #en,ri&as y las salidas- %n las se&&iones si#uientes,
des&ribimos &ada tarea #en,ri&a y sus salidas mHs detalladamente- %n)o&amos nuestra aten&i*n en des&rip&iones de tarea
y los resKmenes de salidas-
Ni#ura U2 areas #en,ri&as (ne#ritas) y salidas (&ursi0as) del modelo de re)eren&ia CR'SP(DM
1. Com#renin del negocio
Ni#ura C- Comprensi*n del ne#o&io
1.1. Deter$in!cin de o%jeti"os de negocio
(area Determinar lo o%!etivo de negocio
%l primer ob:eti0o del analista de datos para un &onte/to es entender, desde una perspe&ti0a de
ne#o&io, lo .ue el &liente realmente .uiere lo#rar- 4 menudo el &liente tiene mu&hos ob:eti0os .ue
&ompiten y restri&&iones .ue deben ser &orre&tamente e.uilibrados- %l ob:eti0o del analista debe
mostrar (destapar) )a&tores importantes, en el prin&ipio, esto puede in)luir en el resultado del proye&to-
3na &onse&uen&ia posible de la ne#li#en&ia de este paso es #astar un #ran es)uer!o produ&iendo
respuestas &orre&tas a pre#untas in&orre&tas o erradas-
Salida Conte'to
Re#istre la in)orma&i*n .ue &ono&e sobre la situa&i*n de ne#o&io de la or#ani!a&i*n en el prin&ipio del
proye&to-
/%!etivo de negocio
Des&riba el ob:eti0o primario del &liente, desde una perspe&ti0a de ne#o&io- 4demHs de los ob:eti0os
del ne#o&io primario, all hay tpi&amente otras pre#untas de ne#o&io rela&ionadas &on lo .ue al
&liente le #ustara administrar- Por e:emplo, el ob:eti0o primario de ne#o&io podra ser mantener a
&lientes &orrientes por predi&&i*n &uando ellos son propensos a mo0erse a un &ompetidor- Bos
e:emplos de pre#untas rela&ionadas de ne#o&io son IFC*mo el uso del &anal primario (Por e:emplo,
4M, 0isita al ne#o&io, 'nternet) a)e&ta si los &lientes se .uedan o se 0anG A o AF9a:ar los honorarios
de 4M &onsiderablemente redu&irH el nKmero de los &lientes mas importante .ue se irHnGJ
Criterio de "'ito de negocio
Des&riba los &riterios para un resultado a&ertado o Ktil al proye&to desde el punto de 0ista del ne#o&io-
%sto podra ser bastante espe&)i&o y &apa! de ser medido ob:eti0amente, por e:emplo, la redu&&i*n
de &lientes se re0uel0e a un &ierto ni0el o 0alor, o esto podra ser #eneral y sub:eti0o, &omo Idar ideas
Ktiles en las rela&ionesJ- %n este Kltimo &aso, esto debera indi&arse .uien ha&e el :ui&io sub:eti0o-
1.2. E"!lu!cin de l! situ!cin
(area +valuar la ituacin
%sta tarea impli&a la in0esti#a&i*n mHs detallada sobre todos los re&ursos, restri&&iones,
presun&iones, y otros )a&tores .ue deberan ser &onsiderados en la determina&i*n del ob:eti0o de
anHlisis de datos y el plan de proye&to- %n la tarea anterior, su ob:eti0o es para ponerse rHpidamente
al .uid de la situa&i*n- 4.u, usted .uiere ampliarse sobre los detalles-
Salida Inventario de recuro
Bistar los re&ursos disponibles para el proye&to, in&luyendo el personal (e/pertos de ne#o&io, e/pertos
de datos, soportes t,&ni&os, e/pertos en minera de datos), datos (e/tra&tos )i:os, apro/ima&iones a la
0ida, alma&enes de datos, u datos opera&ionales), re&ursos &omputa&ionales (plata)ormas de
hardEare), y so)tEare (herramientas de minera de datos, otros so)tEare rele0antes)-
Re0uerimiento1 #reuncione1 * retriccione
Bistar todos los re.uerimientos del proye&to, in&luyendo el pro#rama de termina&i*n, la
&omprensibilidad y &alidad de los resultados, y la se#uridad, as &omo las &uestiones le#ales- Como
parte de esta salida, ase#Krese .ue le permitan usar los datos-
Bistar las presun&iones he&has por el proye&to- %stas pueden ser presun&iones sobre los datos .ue
pueden ser 0eri)i&ados durante la minera de datos, pero tambi,n puede in&luir presun&iones no(
&omprobables sobre el ne#o&io rela&ionado &on el proye&to- %s en parti&ular importante listar si esto
a)e&tarH la 0alide! de los resultados-
Bistar las restri&&iones sobre el proye&to- %stas pueden ser restri&&iones sobre la disponibilidad de
re&ursos, pero puede tambi,n in&luir &oa&&iones te&nol*#i&as &omo el tama1o de &on:unto de datos lo
.ue es prH&ti&o para usar el modelado-
Riego * contingencia
Bistar los ries#os o los a&onte&imientos .ue podran retrasar el proye&to o ha&er .ue ello )alle- Bistar
los planes de &ontin#en&ia &orrespondientes, .ue a&&i*n serH tomada si estos ries#os o
a&onte&imientos o&urren-
(erminologa
Compile un #losario de terminolo#a rele0ante al proye&to- %sto puede in&luir dos &omponentes2
(<) 3n #losario de terminolo#a rele0ante del ne#o&io, .ue )orma la parte de la &omprensi*n
del ne#o&io disponible al proye&to- Ba &onstru&&i*n de este #losario es una Ktil Ie0o&a&i*n al
&ono&imientoJ y un e:er&i&io de edu&a&i*n-
(>) 3n #losario de terminolo#a de minera de datos, ilustrada &on e:emplos rele0antes al
problema del ne#o&io en &uesti*n-
Coto * %ene,icio
Construya un anHlisis de &osto(bene)i&io para el proye&to, .ue &ompare los #astos del proye&to &on
los bene)i&ios poten&iales al ne#o&io si esto es e/itoso- Ba &ompara&i*n debera ser tan espe&)i&a
&omo posible- Por e:emplo, use medidas monetarias en una situa&i*n &omer&ial-
1.*. Deter$in!cin de los o%jeti"os de l! $iner(! de d!tos
(area Determinar lo o%!etivo de la minera de dato
3n ob:eti0o de ne#o&io de&lara ob:eti0os en la terminolo#a de ne#o&io- 3n ob:eti0o de minera de
datos de&lara ob:eti0os de proye&to en t,rminos t,&ni&os- Por e:emplo, el ob:eti0o de ne#o&io podra
ser I4umentar &atHlo#os de 0entas a &lientes e/istentes-J 3n ob:eti0o de minera de datos podran ser
IPrede&ir &uantas barati:as un &liente &omprarH, obteniendo datos de sus &ompras de tres a1os
pasados, in)orma&i*n demo#rH)i&a (edad, sueldo, &iudad, et&-), y el pre&io del art&ulo-J
Salida /%!etivo de la minera de dato
Des&ribir las salidas inten&ionadas del proye&to .ue permiten el lo#ro de los ob:eti0os de ne#o&io-
Criterio de "'ito de la minera de dato
De)inir los &riterios de un resultado e/itoso para el proye&to en t,rminos t,&ni&os (por e:emplo, un
&ierto ni0el de predi&&i*n pre&isa o un per)il de in&lina&i*n(a(&omprar &on un determinado #rado de
Aele0a&i*nA- Como &on un &riterio de ,/ito de ne#o&io, puede ser ne&esario des&ribir estos en
t,rminos sub:eti0os, en este &aso la persona o las personas .ue ha&en el :ui&io sub:eti0o deberan ser
identi)i&adas-
1.,. Producir el pl!n del pro'ecto
(area Producir el #lan del #ro*ecto
Des&ribir el plan inten&ionado para al&an!ar los ob:eti0os de minera de datos y as al&an!ar los
ob:eti0os de ne#o&io-
%l plan debera espe&i)i&ar los pasos para ser reali!ados durante el resto del proye&to, in&luyendo la
sele&&i*n ini&ial de herramientas y t,&ni&as-
Salida Plan del Pro*ecto
Bistar las etapas a ser e:e&utadas en el proye&to, :untos &on su dura&i*n, re&ursos re.ueridos,
entradas, salidas, y dependen&ias- Donde sea posible, ha#a e/pl&ito las itera&iones en #ran es&ala
en el pro&eso de minera de datos (por e:emplo, las repeti&iones del modelado y las )ases de
e0alua&i*n-
Como parte del plan de proye&to, es tambi,n importante anali!ar dependen&ias entre la plani)i&a&i*n
de tiempo y los ries#os-
Mar&ar los resultados de estos anHlisis e/pl&itamente en el plan de proye&to, idealmente &on
a&&iones y re&omenda&iones si los ries#os se mani)iestan-
Nota2 el plan de proye&to &ontiene proye&tos detallados para &ada )ase- De&ida en este punto .ue
estrate#ia de e0alua&i*n serH usada en la )ase de e0alua&i*n-
%l plan de proye&to es un do&umento dinHmi&o en el sentido de .ue en el )inal de &ada )ase, son
ne&esarios una re0isi*n del pro#reso y lo#ros y una a&tuali!a&i*n &orrespondiente del plan de
proye&to es re&omendado- Bos puntos de re0isi*n espe&)i&as para estas a&tuali!a&iones son parte
del plan de proye&to-
+valuacin inicial de &erramienta * t"cnica
%n la )inal de la primera )ase, una e0alua&i*n ini&ial de herramientas y t,&ni&as debera ser reali!ada-
4.u, por e:emplo, usted sele&&iona una herramienta de minera de datos .ue soporte 0arios m,todos
para las distintas etapas del pro&eso-
%s importante e0aluar herramientas y t,&ni&as temprano en el pro&eso desde la sele&&i*n de
herramientas y t,&ni&as y esto puede in)luir en el proye&to entero-
2. Com#renin de dato
Ni#ura V2 Comprensi*n de datos
2.1. Recoleccin de d!tos inici!les
(area Recolectar dato iniciale
4d.uiera en el proye&to los datos (o el a&&eso a los datos) listados en los re&ursos del proye&to- %sta
&ole&&i*n ini&ial in&luye &ar#a de datos, si es ne&esario para la &omprensi*n de los datos- Por
e:emplo, si usted usa un instrumento espe&)i&o para la &omprensi*n de los datos, esto per)e&tamente
se entiende para abrir sus datos en esta herramienta- %ste es)uer!o posiblemente &ondu&e a los
pasos ini&iales de prepara&i*n de datos-
Note2 si usted ad.uiere datos de mKltiples )uentes, la inte#ra&i*n es una &uesti*n adi&ional, a.u o
mas tarde en las )ases de prepara&i*n de datos mHs-
Salida In,orme de coleccin de dato inicial
Biste el &on:unto de dato(s) ad.uirido(s), :untos &on sus posi&iones, los m,todos usados para
ad.uirirlos, y al#unos de los problemas en&ontrados- Re#istre los problemas en&ontrados y al#unas
de las resolu&iones al&an!adas- %sto ayudarH &on la r,pli&a (obser0a&i*n) )utura de este proye&to o
&on la e:e&u&i*n de proye&tos similares )uturos-
2.2. Descri%ir los d!tos
(area Decri%ir lo dato
%/amine las propiedades A#ruesasA o Asuper)i&ialesA de los datos e in)orme ad.uiridos en los
resultados-
Salida In,orme de decri#cin de dato
Des&riba los datos .ue han sido ad.uiridos, in&luyendo el )ormato de los datos, la &antidad de datos
(por e:emplo, el nKmero de re#istros y &ampos en &ada tabla), los identi)i&adores de los &ampos, y
&ual.uier otro ras#o super)i&ial .ue ha sido des&ubierto- %0alKe si los datos ad.uiridos satis)a&en las
e/i#en&ias rele0antes-
2.*. E)plor!r los d!tos
(area +'#lorar lo dato
%sta tarea diri#e interro#antes de minera de datos usando pre#untas, 0isuali!a&i*n, y t,&ni&as de
reporte- %stos in&luyen la distribu&i*n de atributos &la0es (por e:emplo, el atributo ob:eti0o de una
tarea de predi&&i*n) rela&ionados entre pares o pe.ue1os nKmeros de atributos, los resultados de
simples a#re#a&iones, las propiedades de las subpobla&iones si#ni)i&ati0as, y anHlisis estadsti&os
simples- %stos anHlisis dire&tamente pueden diri#ir los ob:eti0os de minera de datosM ellos tambi,n
pueden &ontribuir o re)inar la des&rip&i*n de datos e in)ormes de &alidad, y alimentar en la
trans)orma&i*n y otros pasos de prepara&i*n de datos ne&esarios para anHlisis )uturos-
Salida In,orme de e'#loracin de dato
Des&riba los resultados de esta tarea, in&luyendo primeras &on&lusiones o hip*tesis ini&iales y su
impa&to sobre el resto del proye&to- Si es apropiado, in&luya #rH)i&os y plots para indi&ar las
&ara&tersti&as de datos .ue su#ieren mHs e/amen de sub&on:untos de datos interesantes-
2.,. -eri&ic!r l! c!lid!d de los d!tos
(area .eri,icar la calidad de lo dato
%/amine la &alidad de los datos, diri#iendo pre#untas &omo2 FBos datos estHn &ompletosG (F%sto
&ubre todo los &asos re.ueridos)G FSon &orre&tos, o estos &ontienen errores y, si hay errores, .ue tan
&omunes son estosG F6ay 0alores omitidos en los datosG Si es as, F&omo se representan estos,
donde o&urre esto, y .ue tan &omunes son estosG
Salida In,orme de calidad de dato
Biste los resultados de la 0eri)i&a&i*n de &alidad de datosM si e/isten problemas de &alidad, liste las
posibles solu&iones- Bas solu&iones a los problemas de &alidad de datos #eneralmente dependen
tanto del &ono&imiento de los datos y &omo del ne#o&io-
-. Pre#aracin de dato
Ni#ura @2 Prepara&i*n de datos
Salida Con!unto de dato
%ste es el &on:unto (o &on:untos) produ&ido por la )ase de prepara&i*n de datos, .ue serH usada para
modelar o para el traba:o prin&ipal de anHlisis del proye&to-
Decri#cin del con!unto de dato
Des&ribir el &on:unto de dato (o &on:untos) .ue serH usado para el modelado y el traba:o prin&ipal de
anHlisis del proye&to-
*.1. Seleccin de d!tos
(area Seleccin de dato
De&idir .ue datos serHn usados para el anHlisis- Bos &riterios in&luyen la importan&ia a los ob:eti0os de
la minera de datos, la &alidad, y las restri&&iones t,&ni&as &omo lmites sobre el 0olumen de datos o
los tipos de datos- Note .ue la sele&&i*n de datos &ubre la sele&&i*n de atributos (&olumnas) as &omo
la sele&&i*n de re#istros ()ilas) en una tabla-
Salida Ra$onamiento #ara la incluin2e'cluin
Bistar los datos para ser in&luidosOe/&luidos y los moti0os para estas de&isiones-
*.2. .i$pie/! de d!tos
(area Lim#iar dato
%le0ar la &alidad de los datos al ni0el re.uerido por las t,&ni&as de anHlisis sele&&ionadas- %sto puede
impli&ar la sele&&i*n de los sub&on:untos de datos limpios, la inser&i*n de datos por de)e&tos
ade&uados, o t,&ni&as mHs ambi&iosas tales &omo la estima&i*n de datos )altantes mediante
modelado-
Salida In,orme de la lim#ie$a de lo dato
Des&riba .ue de&isiones y a&&iones )ueron tomadas para diri#ir los problemas de &alidad de datos
in)ormados durante la tarea de 7eri)i&a&i*n de Calidad de Datos de los Datos de la )ase de
Comprensi*n de Datos- Bas trans)orma&iones de los datos para una apropiada limpie!a y el posible
impa&to en el anHlisis de resultados deberan ser &onsiderados-
*.*. Construir d!tos
(area Contruir dato
%sta tarea in&luye la &onstru&&i*n de opera&iones de prepara&i*n de datos tales &omo la produ&&i*n
de atributos deri0ados o el in#reso de nue0os re#istros, o la trans)orma&i*n de 0alores para atributos
e/istentes-
Salida Atri%uto derivado
Bos atributos deri0ados son los atributos nue0os .ue son &onstruidos de uno o mHs atributos
e/istentes en el mismo re#istro- %:emplo2 Hrea W lon#itud X an&hura-
Regitro generado
Des&riba la &rea&i*n de re#istros &ompletamente nue0os- %:emplo2 Crear re#istros para los &lientes
.uienes no hi&ieron &ompras durante el a1o pasado- No haba nin#una ra!*n de tener tales re#istros
en los datos brutos, pero para el ob:eti0o del modelado esto podra tener sentido para representar
e/pl&itamente el he&ho .ue &iertos &lientes no hayan he&ho &ompra nada-
*.,. Integr!r d!tos
(area Integrar dato
%stos son los m,todos por el &ual la in)orma&i*n es &ombinada de mKltiples tablas o re#istros para
&rear nue0os re#istros o 0alores-
Salida Com%inacin de dato
Ba &ombina&i*n de tablas se re)iere a la uni*n simultHnea de dos o mHs tablas .ue tienen in)orma&i*n
di)erente sobre el mismo ob:eto- %:emplo2 una &adena de 0enta al pKbli&o tiene una tabla &on la
in)orma&i*n sobre las &ara&tersti&as #enerales de &ada tienda (Por e:emplo, el espa&io, el tipo de
&omer&io), otra tabla &on datos resumidos de las 0entas (por e:emplo, el bene)i&io, el &ambio
por&entual en 0entas desde el a1o anterior), y el otro &on in)orma&i*n sobre los datos demo#rH)i&os
del Hrea &ir&undante- Cada una de estas tablas &ontiene un re#istro para &ada tienda- %stas tablas
pueden ser &ombinadas simultHneamente en una nue0a tabla &on un re#istro para &ada tienda,
&ombinando &ampos de las tablas )uentes-
Bos datos &ombinados tambi,n &ubren a#re#a&iones- Ba a#re#a&i*n se re)iere a opera&iones en la
.ue nue0os 0alores son &al&ulados de in)orma&i*n resumida de mKltiples re#istros yOo tablas- Por
e:emplo, &on0irtiendo una tabla de &ompra de &lientes donde hay un re#istro para &ada &ompra en
una tabla nue0a donde hay un re#istro para &ada &liente, &on &ampos tales &omo el nKmero de
&ompras, el promedio de la &antidad de &ompra, el por&enta:e de ordenes &obrados a tar:eta de
&r,dito, el por&enta:e de art&ulos ba:o promo&i*n, et&-
*.0. 1or$!te!r d!tos
(area 3ormatear dato
Normateando trans)orma&iones se re)iere a modi)i&a&iones prin&ipalmente sintctic!s he&has a los
datos .ue no &ambian su si#ni)i&ado, pero podra ser re.uerido por la herramienta de modelado-
Salida Dato re,ormateado
4l#unas herramientas tienen re.uerimientos sobre el orden de los atributos, tales &omo el primer
&ampo .ue es un Kni&o identi)i&ador para &ada re#istro o el Kltimo &ampo es el &ampo resultado .ue
el modelo debe prede&ir-
Podra ser importante &ambiar el orden de los re#istros en el &on:unto de datos- Pui!Hs la herramienta
de modelado re.uiere .ue los re#istros sean &lasi)i&ados se#Kn el 0alor del atributo de resultado-
ComKnmente, los re#istros del &on:unto de datos son ordenados al prin&ipio de al#Kn modo, pero el
al#oritmo .ue modela ne&esita .ue ellos est,n en un orden moderadamente arbitrario- Por e:emplo,
&uando se usa redes neuronales, esto es #eneralmente me:or para los re#istros para ser presentados
en un orden aleatorio, aun.ue al#unas herramientas mane:en esto automHti&amente sin la
inter0en&i*n e/pli&ita del usuario-
4demHs, hay &ambios puramente sintH&ti&os he&hos para satis)a&er las e/i#en&ias de la herramienta
de modelado espe&)i&a- %:emplos2 el .uitar de &omas de adentro de &ampos de te/to en )i&heros de
datos delimitados por &oma, &orta todos los 0alores a un mH/imo de U> &ara&teres-
4. Modelado
Ni#ura Y2 Modelado
,.1. Seleccin de l! t#cnic! de $odel!do
(area +coger la t"cnica de modelado
Como primer paso en modelado, sele&&ionar la t,&ni&a de modelado real .ue estH por ser usado-
4un.ue usted haya podido sele&&ionar una herramienta durante la )ase de Comprensi*n del ne#o&io,
esta tarea se re)iere a la t,&ni&a de modelado espe&)i&o, por e:emplo, un Hrbol de&isi*n &onstruido
&on CC-V, o la #enera&i*n de red neuronales 9a&8(Propa#a&i*n- Si mKltiples t,&ni&as son apli&adas,
se reali!an esta tarea separadamente para &ada t,&ni&a-
Salida ("cnica de modelado
Do&umente la t,&ni&a de modelado real .ue estH por ser usado-
Preuncione del modelado
Mu&has t,&ni&as de modelado ha&en presun&iones espe&)i&as sobre los datos (por e:emplo, .ue
todos los atributos ten#an distribu&iones uni)ormes, no en&ontrar 0alores no permitidos, el atributo de
&lase debe ser simb*li&o, et&- Re#istrar &ual.uiera de tales presun&iones he&has-
,.2. 2ener!cin de l! prue%! de dise3o
(area 5enerar la #rue%a de die6o
4ntes de .ue nosotros en realidad &onstruyamos un modelo, tenemos .ue #enerar un pro&edimiento
o el me&anismo para probar la &alidad y 0alide! del modelo- Por e:emplo, en tareas de minera de
datos super0isados &omo la &lasi)i&a&i*n, esto es &omKn usar tasas de errores &omo medida de
&alidad para modelos de minera de datos- Por lo tanto, tpi&amente separamos el &on:unto de datos
en una serie y en un &on:unto de prueba, &onstruimos el modelo sobre el &on:unto de series, y
estimamos su &alidad sobre el &on:unto de prueba separado-
Salida Prue%a de die6o
Des&ribir el plan inten&ionado para el entrenamiento, la prueba, y la e0alua&i*n de los modelos- 3n
&omponente primario del plan determina &omo di0idir un &on:unto de datos disponible en datos de
entrenamiento, datos de prueba, y &on:unto de datos de 0alida&i*n-
,.*. Construccin del $odelo
(area Contruir el modelo
%:e&utar la herramienta de modelado sobre el &on:unto de datos preparados para &rear uno o mHs
modelos-
Salida Par7metro de a!ute
Con &ual.uier herramienta de modelado, hay a menudo un #ran nKmero de parHmetros .ue pueden
ser a:ustados- Bistar los parHmetros y sus 0alores es&o#idos, tambi,n &on el ra!onamiento para ele#ir
los parHmetros de a:ustes-
Modelo
%stos son los modelos reales produ&idos por la herramienta de modelado, no un in)orme-
Decri#cione del modelo
Des&ribir los modelos obtenidos- 'n)ormar sobre la interpreta&i*n de los modelos y do&umentar
&ual.uier di)i&ultad en&ontrada &on sus si#ni)i&ados-
,.,. E"!lu!cin del $odelo
(area +valuar el modelo
%l in#eniero de minera de datos interpreta los modelos se#Kn su &ono&imiento de dominio, los
&riterios de ,/itos de minera de datos, y el dise1o de prueba deseado- %l in#eniero de minera de
datos :u!#a el ,/ito de la apli&a&i*n del modelado y des&ubre t,&ni&as mas t,&ni&amenteM ,l se pone
en &onta&to &on analistas de ne#o&io y e/pertos en el dominio lue#o para hablar de los resultados de
la minera de datos en el &onte/to de ne#o&io- Por )a0or note .ue esta tarea s*lo se &onsidera
modelos, mientras .ue la )ase de e0alua&i*n tambi,n toma en &uenta todos los otros resultados .ue
)ueron produ&idos en el &urso del proye&to-
%l in#eniero de minera de datos intenta &lasi)i&ar los modelos- Zl e0alKa los modelos se#Kn los
&riterios de e0alua&i*n- anto &omo es posible, ,l tambi,n tiene en &uenta ob:eti0os del ne#o&io y
&riterios de ,/ito de ne#o&io- %n los #randes proye&tos de minera de datos, el in#eniero de minera
de datos apli&a una sola t,&ni&a mHs de una 0e!, o #enera resultados de minera de datos &on 0arias
t,&ni&as di)erentes- %n esta tarea, ,l tambi,n &ompara todos los resultados se#Kn los &riterios de
e0alua&i*n-
Salida +valuacin de modelo
Resumir los resultados de esta tarea, listar las &alidades de los modelos #enerados (por e:emplo, en
t,rminos de e/a&titud), y &lasi)i&ar su &alidad en rela&i*n &on &ada otro-
Par7metro de a!ute reviado
Se#Kn la e0alua&i*n del modelo, re0ise los parHmetros de a:uste y t,mplelos para la si#uiente &orrida
en la tarea de Constru&&i*n del Modelo- Repetir la &onstru&&i*n y e0alua&i*n del modelo hasta .ue
&rea .ue usted ha en&ontrado el4los $ejor4es $odeloOs- Do&umentar todo &omo las re0isiones y las
e0alua&iones-
8. +valuacin
Ni#ura [2 %0alua&i*n
0.1. E"!lu!cin de los result!dos
(area +valuar lo reultado
Bos pasos de la e0alua&i*n anterior trata &on )a&tores &omo la e/a&titud y la #eneralidad del modelo-
%ste paso e0alKa el #rado al .ue el modelo responde (en&uentra) los ob:eti0os de ne#o&io y pro&ura
determinar si hay al#una de&isi*n de ne#o&io por el .ue este modelo es de)i&iente- 5tra op&i*n de
e0alua&i*n es probar elOlos modeloOs sobre apli&a&iones de prueba en la apli&a&i*n real, si el tiempo y
las restri&&iones de presupuesto lo permiten-
4demHs, la e0alua&i*n tambi,n 0eri)i&a otros resultados #enerados por la minera de datos- Bos
resultados de la minera de datos impli&an modelos .ue ne&esariamente son rela&ionados &on los
ob:eti0os ori#inales de ne#o&io y todas los otros des&ubrimientos .ue no son rela&ionados
ne&esariamente &on los ob:eti0os ori#inales de ne#o&io, pero tambi,n podra re0elar desa)os
adi&ionales, in)orma&i*n, o insinua&iones para )uturas dire&&iones-
Salida +valuacin de lo reultado de la minera de dato en lo 0ue concierne a criterio de "'ito de
negocio
Resumir los resultados de e0alua&i*n en t,rminos de &riterios de ,/ito de ne#o&io, in&luyendo una
de&lara&i*n )inal en &uanto si el proye&to ya en&uentra los ob:eti0os ini&iales de ne#o&io-
Modelo a#ro%ado
Despu,s de la e0alua&i*n de modelos en lo .ue &on&ierne a &riterios de ,/ito de ne#o&io, los modelos
#enerados .ue en&uentran los &riterios sele&&ionados son los modelos aprobados-
0.2. Proceso de re"isin
(area Reviar el #roceo
%n este punto, los modelos resultantes pasan a ser satis)a&torios y a satis)a&er las ne&esidades de
ne#o&io- 4hora es apropiado ha&er una re0isi*n mHs &uidadosa de los &ompromisos de la minera de
datos para determinar si hay &ual.uier )a&tor importante o tarea .ue de al#Kn modo ha sido pasada
por alto- %sta re0isi*n tambi,n &ubre &uestiones de &alidad (por e:emplo2 FConstruimos &orre&tamente
el modeloG F3samos s*lo los atributos .ue nos permitieron usar y .ue estHn disponibles para anHlisis
)uturosG
Salida Reviin de #roceo
Resumir la re0isi*n de pro&eso y desta&ar las a&ti0idades .ue han sido omitidas yOo a.uellas .ue
deberan ser repetidas-
0.*. Deter$in!cin de los pr)i$os p!sos
(area Determinar lo #r'imo #ao
Se#Kn los resultados de la e0alua&i*n y la re0isi*n de pro&eso, el e.uipo de proye&to de&ide &omo
pro&eder- %l e.uipo de&ide si hay .ue terminar este proye&to y tomar medidas sobre el desarrollo si es
apropiado, tanto ini&iar mHs itera&iones, o &omen!ar nue0os proye&tos de minera de datos- %sta
tarea in&luye los anHlisis de re&ursos restantes y del presupuesto, .ue puede in)luir en las de&isiones-
Salida Lita de #oi%le accione
Bistar las a&&iones )uturas poten&iales, &on los moti0os a )a0or y en &ontra de &ada op&i*n-
Deciin
Des&ribir la de&isi*n en &uanto a &omo pro&eder, :unto &on el ra!onamiento-
9. Dearrollo
Ni#ura =2 Desarrollo
5.1. Des!rrollo del pl!n
(area Dearrollar el #lan
De a&uerdo al desarrollo de los resultados de minera de datos en el ne#o&io, esta tarea toma los
resultados de la e0alua&i*n y determina una estrate#ia para el desarrollo- Si un pro&edimiento #eneral
ha sido identi)i&ado para &rear elOlos modeloOs rele0anteOs, este pro&edimiento es do&umentado a.u
para el desarrollo posterior-
Salida Dearrollo del #lan
Resumir la estrate#ia de desarrollo, in&luyendo los pasos ne&esarios y &omo reali!arlos-
5.2. Pl!n de super"isin ' $!nteni$iento
(area Planear la u#erviin * el mantenimiento
Ba super0isi*n y el mantenimiento son &uestiones importantes si los resultados de minera de datos
son parte del ne#o&io &otidiano y de su ambiente- Ba prepara&i*n &uidadosa de una estrate#ia de
mantenimiento ayuda e0itar lar#os periodos inne&esarios de uso in&orre&to de resultados de minera
de datos- Para super0isar el desarrollo de los resultados de la minera de datos, el proye&to ne&esita
un plan detallado de pro&eso de super0isi*n- %ste plan tiene en &uenta el tipo espe&)i&o de desarrollo-
Salida Su#erviin * #lan de mantenimiento
Resumir la estrate#ia de super0isi*n y mantenimiento in&luyendo los pasos ne&esarios y &omo
reali!arlos-
5.*. In&or$e de&initi"o de producto
(area Producir el in,orme ,inal
%n el )inal del proye&to, el lder del proye&to y su e.uipo sobres&ribe un in)orme )inal- Se#Kn el plan de
desarrollo, este in)orme puede ser s*lo un resumen del proye&to y sus e/perien&ias (si estas aKn no
han sido do&umentadas &omo una a&ti0idad en &urso) o esto puede ser una presenta&i*n )inal y
&omprensi0a de los resultados de minera de datos-
Salida In,orme de,initivo
%sto es el in)orme es&rito )inal del &ompromiso de la minera de datos- %sto in&luye todo el desarrollo
anterior, el resumen y la or#ani!a&i*n de los resultados-
Preentacin ,inal
ambi,n a menudo habrH una reuni*n en la &on&lusi*n del proye&to en el .ue los resultados son
presentados 0erbalmente al &liente-
5.,. Re"isin del pro'ecto
(area Reviar el #ro*ecto
%0aluar lo .ue )ue &orre&to y lo .ue se e.ui0o&*, lo .ue )ue bien he&ho y lo .ue ne&esita para ser
me:orado-
Salida Documentacin de la e'#eriencia
Resumir las e/perien&ias importantes #anadas durante el proye&to- Por e:emplo, trampas, a&&esos
en#a1osos, o las insinua&iones para sele&&ionar las me:ores t,&ni&as de minera de datos en
situa&iones similares podran ser la parte de esta do&umenta&i*n- %n proye&tos ideales, la
do&umenta&i*n de la e/perien&ia tambi,n &ubre &ual.uier in)orme .ue ha sido es&rito por miembros
indi0iduales del proye&to durante las )ases del proye&to y sus tareas-
III-La gua de uuario de CRISP-DM : A;<= M+ ;<+D+
1. Com#rendiendo el negocio
1.1. Deter$in!cin de o%jeti"os de negocio
(area Determinar o%!etivo de negocio
%l primer ob:eti0o del analista es &omprender a )ondo, desde una perspe&ti0a de ne#o&io, lo .ue el
&liente realmente .uiere lo#rar- 4 menudo el &liente tiene mu&hos ob:eti0os y restri&&iones .ue
&ompiten .ue deben ser &orre&tamente e.uilibrados- %l ob:eti0o del analista debe destapar )a&tores
importantes en el prin&ipio del proye&to esto puede in)luir en el resultado )inal- 3na &onse&uen&ia
probable de des&uidar este paso debe ser a e/pensas de un dar un #ran es)uer!o de produ&ir las
respuestas &orre&tas a las pre#untas in&orre&tas-
Salida Conte'to
Cote:e la in)orma&i*n .ue &ono&i* sobre la situa&i*n de ne#o&io de la or#ani!a&i*n al prin&ipio del
proye&to- %stos detalles no s*lo sir0en para identi)i&ar mas estre&hamente los ob:eti0os de ne#o&io a
ser al&an!ados, pero tambi,n sir0en para identi)i&ar los re&ursos, tanto humano &omo material, .ue
puede ser usado o sea ne&esario durante el &urso del proye&to-
Actividade /rgani$ar
Desarrollar or#ani#ramas .ue identi)i.uen di0isiones, departamentos, y #rupos de proye&tos- %l
or#ani#rama debera tambi,n identi)i&ar los nombres de los #erentes y sus responsabilidades
'denti)i&ar a personas &la0es en el ne#o&io y sus roles
'denti)i&ar a un patro&inador interno (el patro&inador )inan&iero y el e/perto primario del dominio
de usuario)
'ndi&ar si hay un &omit, de dire&&i*n y lista de miembros
'denti)i&ar las unidades de ne#o&io .ue son a)e&tadas por el proye&to de minera de datos (por
e:emplo, el Control de &omer&iali!a&i*n, 7entas, Ninan!as)
>rea del #ro%lema
'denti)i&ar el Hrea del problema (por e:emplo, el &ontrol de &omer&iali!a&i*n, el &uidado de &liente,
el desarrollo &omer&ial, et&-)
Des&ribir el problema en t,rminos #enerales
Comprobar el estado a&tual del proye&to (por e:emplo, Comprobar si ya esta &laro .ue dentro de
la unidad de ne#o&io un proye&to de minera de datos debe ser reali!ado, o si la minera de datos
ne&esita ser promo0ida &omo una te&nolo#a &la0e en el ne#o&io)
Clari)i&ar los re.uisitos pre0ios del proye&to (por e:emplo, FCuHl es la moti0a&i*n del proye&toG
FBa minera de datos ya estH siendo usada en el ne#o&ioG)
Si es ne&esario, preparar presenta&iones y demostra&iones de minera de datos para el ne#o&io
'denti)i&ar #rupos de ob:eti0os para el resultado de proye&to (por e:emplo, F%speramos entre#ar
un in)orme para la dire&&i*n superior o un sistema opera&ional para ser usado por usuarios
)inales ine/pertosG)
'denti)i&ar las ne&esidades de los usuarios y sus e/pe&tati0as
Solucin actual
Des&ribir &ual.uier solu&i*n usada a&tualmente para diri#ir el problema
Des&riben las 0enta:as y las des0enta:as de la solu&i*n &orriente y el ni0el al .ue esto es
a&eptado por los usuarios
Salida /%!etivo de negocio
Des&ribir el ob:eti0o primario del &liente, desde una perspe&ti0a de ne#o&io- 4demHs del ob:eti0o de
ne#o&io primario, hay tpi&amente un #ran nKmero de pre#untas rela&ionadas al ne#o&io a las .ue al
&liente le #ustara diri#ir- Por e:emplo, el ob:eti0o primario de ne#o&io podra ser mantener a &lientes
a&tuales por predi&&i*n &uando ellos son propensos a mo0erse a un &ompetidor, mientras un ob:eti0o
se&undario de ne#o&io podra ser de determinar si pre&ios (&omisiones) in)eriores a)e&tan s*lo un
se#mento parti&ular de &lientes-
Actividade
De manera in)ormal des&ribir el problema a ser solu&ionado
%spe&i)i&ar todas las pre#untas de ne#o&io tan pre&isas &omo sea posible
%spe&i)i&ar &ual.uier otras e/i#en&ias de ne#o&io (por e:emplo, el ne#o&io no .uiere perder a
nin#Kn &liente)
%spe&i)i&ar las 0enta:as esperadas en t,rminos de ne#o&io
?Cuidado@
ener &uidado de estable&er ob:eti0os inal&an!ables he&hos por ellos tan realistas &omo posible-
Salida Criterio de "'ito de negocio
Des&ribir los &riterios para un resultado e/itoso o Ktil al proye&to desde el punto de 0ista del ne#o&io-
%sto podra ser bastante espe&)i&o y )H&ilmente medible, &omo una redu&&i*n de &liente a un &ierto
#rado, o #eneral y sub:eti0o, &omo Idar ideas Ktiles en las rela&ionesJ- %n el &aso Kltimo, est, se#uro
de indi&ar .uien hara el :ui&io sub:eti0o-
Actividade
%spe&i)i&ar &riterios de ,/ito de ne#o&io (por e:emplo, Me:orar la tasa de respuesta en una
&ampa1a de &orreo en el <? por &iento y mar&ar la tasa en el >? por &iento)
'denti)i&an .uien e0alKa los &riterios de ,/ito
?Recuerde@
Cada uno de los &riterios de ,/ito debera rela&ionarse &on al menos uno de los ob:eti0os
espe&i)i&ados de ne#o&io-
?Auena Idea@
4ntes del &omien!o de la e0alua&i*n de situa&i*n, usted podra anali!ar las e/perien&ias anteriores de
este problema(
'nternamente, usando CR'SP(DM, o e/ternamente, usando solu&iones pre(empa.uetadas-
1.2. E"!lu!cin de l! situ!cin
(area +valuar la ituacin
%sta tarea impli&a una in0esti#a&i*n mHs detallada sobre todos los re&ursos, restri&&iones,
presun&iones, y otros )a&tores .ue deberan ser &onsiderados en la determina&i*n del ob:eti0o de
anHlisis de datos y en el desarrollo del plan de proye&to-
Salida Inventario de recuro
Bistar los re&ursos disponibles para el proye&to, in&luyendo el personal (e/pertos de datos y de
ne#o&ios, soportes t,&ni&os, e/pertos en minera de datos), datos (e/tra&&iones )i:as, a&&eso a datos
e/istentes en alma&enes de datos u opera&ionales), re&ursos &omputa&ionales (plata)ormas de
hardEare), y so)tEare (instrumentos de minera de datos, otros so)tEare rele0antes)-
Actividade Recuro de )ardBare
'denti)i&ar el hardEare bHsi&o
%stable&er la disponibilidad del hardEare bHsi&o para el proye&to de minera de datos
Comprobar si la plani)i&a&i*n del mantenimiento de hardEare se opone a la disponibilidad del
hardEare para el proye&to de minera de datos-
'denti)i&ar el hardEare disponible para ser usado por la herramienta de minera de datos (si el
instrumento es &ono&ido en esta etapa)
3uente de dato * conocimiento
'denti)i&ar las )uentes de datos
'denti)i&ar el tipo de )uentes de datos ()uentes en lnea, e/pertos, do&umenta&i*n es&rita, et&-)
'denti)i&ar )uentes de &ono&imiento
'denti)i&ar el tipo de )uentes de &ono&imientos ()uentes en lnea, e/pertos, do&umenta&i*n es&rita,
et&-)
Comprobar herramientas disponibles y t,&ni&as
Des&ribir el &ono&imiento de #eneralidades rele0ante (de manera in)ormal o )ormalmente)
3uente de #eronal
'denti)i&ar al patro&inador de proye&to (si di)iere del patro&inador interno &omo en la Se&&i*n
<-<-<)
'denti)i&ar al administrador de sistema, el administrador de base de datos, y el personal de
soporte t,&ni&o para )uturas pre#untas
'denti)i&ar a analistas de mer&ado, los e/pertos en minera de datos, y estadsti&os, y &omprobar
su disponibilidad
Comprobar la disponibilidad de e/pertos de dominio para )ases posteriores
?Recuerde@
Re&uerde .ue el proye&to puede ne&esitar personal t,&ni&o en &ual.uier momento en todas partes del
proye&to, por e:emplo durante la trans)orma&i*n de datos-
Salida Re0uerimiento1 #reuncione1 * retriccione
Bistar todos los re.uerimientos del proye&to, in&luyendo la planea&i*n de la termina&i*n, la
&omprensibilidad, y la &alidad y se#uridad de los resultados, as &omo &uestiones le#ales- Como la
parte de esta salida, ase#Krese de .ue le permiten usar los datos-
Bistar las presun&iones he&has por el proye&to- %stos pueden ser presun&iones sobre los datos, .ue
pueden ser 0eri)i&ados durante la minera de datos, pero tambi,n puede in&luir presun&iones no(
&omprobables rela&ionadas &on el proye&to- %sto es en parti&ular 'mportante de ponerlos en una lista
si ellos a)e&tarHn la 0alide! de los resultados-
Bistar las restri&&iones he&has en el proye&to- %stas restri&&iones podran impli&ar la &aren&ia de
re&ursos para terminar al#unas tareas en el proye&to en el tiempo re.uerido, o all pueden ser
restri&&iones le#ales o ,ti&as sobre el uso de los datos o la solu&i*n ne&esita terminar la tarea de
minera de datos-
Actividade Re0uerimiento
%spe&i)i&ar el per)il del #rupo ob:eti0o
Capturar todas los re.uerimientos en la plani)i&a&i*n
Capturar los re.uerimientos de &omprensibilidad, e/a&titud, desarrollar habilidades,
mantenimiento, y repetibillidad del proye&to de minera de datos y los modelos resultantes-
Capturar los re.uerimientos de se#uridad, restri&&iones le#ales, de pri0a&idad, in)orma&i*n, y
plani)i&a&i*n de proye&to
Preuncione
4&larar todas las presun&iones (in&luyendo las impl&itas) y las he&has por ellos e/pl&itamente
(por e:emplo, diri#ir las &uestiones de ne#o&io, a un nKmero mnimo de &lientes &on la edad por
en&ima de V? es ne&esaria)
Bistar las presun&iones sobre &alidad de datos (por e:emplo, e/a&titud, disponibilidad)
Bistar las presun&iones sobre )a&tores e/ternos (por e:emplo, &uestiones e&on*mi&as, produ&tos
&ompetiti0os, a0an&es t,&ni&os)
4&larar presun&iones .ue &ondu&en a &ual.uiera de las estima&iones (por e:emplo, el pre&io de
un instrumento espe&)i&o es asumido para ser menor .ue <,??? \)
Bistar todas las presun&iones en &uanto a si es ne&esario entender y des&ribir o e/pli&ar el
modelo (Por e:emplo, &omo el modelo y los resultados son presentados a la dire&&i*n O
patro&inador)
Retriccione
Comprobar restri&&iones #enerales (por e:emplo, &uestiones le#ales, presupuesto, es&alas de
tiempo, y re&ursos)
Comprobar el &orre&to a&&eso a )uentes de datos (por e:emplo, restri&&iones de a&&eso, la
&ontrase1a re.uerida)
Comprobar la a&&esibilidad t,&ni&a de datos (los sistemas de opera&iones, el sistema de
administra&i*n de datos, el )ormato de ar&hi0o y de base de datos)
Comprobar si el &ono&imiento rele0ante es a&&esible
Comprobar restri&&iones de presupuesto (#astos )i:os, #astos de implementa&i*n, et&-)
?Recuerde@
Ba lista de presun&iones tambi,n in&luye presun&iones al prin&ipio del proye&to, esto es, lo .ue el
punto de ini&io del proye&to ha sido-
Salida Riego * contingencia
Bistar los ries#os, es de&ir los a&onte&imientos .ue podran o&urrir, impa&tando en la plani)i&a&i*n, el
&osto, o el resultado- Bistar los planes de &ontin#en&ias respe&ti0os2 .ue a&&i*n serH tomada para
e0itar o redu&ir al mnimo el impa&to o re&uperar de la o&urren&ia de los ries#os pre0istos-
Actividade Identi,icar riego
'denti)i&ar ries#os de ne#o&io (por e:emplo, el &ompetidor apare&e primero &on me:ores
resultados)
'denti)i&ar ries#os de or#ani!a&i*n (por e:emplo, el departamento .ue soli&ita el proye&to no tiene
)inan&ia&i*n para el proye&to)
'denti)i&ar ries#os )inan&ieros (por e:emplo, aumentar la )inan&ia&i*n depende de los resultados
ini&iales de minera de datos)
'denti)i&ar ries#os t,&ni&os
'denti)i&ar los ries#os .ue dependen de datos y de las )uentes de datos (por e:emplo, la mala
&alidad y &obertura)
Dearrollo de #lane de contingencia
Determinar &ondi&iones en las .ue &ada ries#o puede o&urrir
Desarrollar planes de &ontin#en&ia
Salida (erminologa
Compilar un #losario de terminolo#a rele0ante al proye&to- %sto debera in&luir al menos dos
&omponentes2
(<) 3n #losario de terminolo#a rele0ante de ne#o&io, .ue )orma parte de la &omprensi*n de
ne#o&io disponible al proye&to
(>) 3n #losario de terminolo#a de minera de datos, ilustrada &on e:emplos rele0antes al
problema de ne#o&io en &uesti*n-
Actividade
Comprobar la disponibilidad pre0ia de #losariosM si no &omien&e a bos.ue:ar #losarios
6ablar a e/pertos de dominio para entender su terminolo#a
Namiliari!arse &on la terminolo#a de ne#o&io
Salida Coto * %ene,icio
Preparar un anHlisis de &osto(bene)i&io para el proye&to, &omparando los #astos del proye&to &on el
bene)i&io poten&ial para el ne#o&io si esto es e/itoso
Actividade
%stimar el &osto para la &ole&&i*n de datos
%stimar el &osto de desarrollo y reali!a&i*n de una solu&i*n
'denti)i&ar bene)i&ios (por e:emplo, me:orar la satis)a&&i*n del &liente, R5', y el aumento de las
#anan&ias)
%stimar #astos de opera&i*n
?Auena Idea@
Ba &ompara&i*n debera ser tan espe&)i&a &omo sea posible, &omo esto permite un me:or &aso de
ne#o&io para ser reali!ado-
?Cuidado@
4&u,rdese de identi)i&ar &ostos o&ultos, &omo la e/tra&&i*n y prepara&i*n repetida de datos, &ambios
en los pro&esos laborales, y tiempo re.uerido para el entrenamiento-
1.*. Deter$in!r o%jeti"os de $iner(! de d!tos
(area Determinar o%!etivo de minera de dato
3n ob:eti0o de ne#o&io de&lara ob:eti0os en la terminolo#a de ne#o&ioM un ob:eti0o de minera de
datos de&lara ob:eti0os de proye&to en t,rminos t,&ni&os- Por e:emplo, el ob:eti0o de ne#o&io podra
ser, I4umentar la 0enta por &atalo#o a &lientes e/istentesJ, mientras un ob:eti0o de minera de datos
podra ser, IPrede&ir &uantas barati:as &omprarH un &liente, &onsiderando sus &ompras durante los
tres a1os pasados, in)orma&i*n demo#rH)i&a rele0ante, y el pre&io del art&ulo-J
Salida /%!etivo de minera de dato
Des&ribir las salidas planeadas del proye&to .ue permiten el lo#ro de los ob:eti0os de ne#o&io-
Note .ue estos son salidas normalmente t,&ni&as-
Actividade
radu&ir las pre#untas de ne#o&io a ob:eti0os de minera de datos (por e:emplo, una &ampa1a de
&ontrol de &omer&iali!a&i*n re.uiere la se#menta&i*n de &lientes para de&idir a .uien a&er&arse
en esta &ampa1aM el ni0elOtama1o de los se#mentos debera ser espe&i)i&ado)-
%spe&i)i&ar datos tipo de problema de minera de datos (por e:emplo, la &lasi)i&a&i*n, la
des&rip&i*n, la predi&&i*n, y &lusterin#)- Para mHs detalles sobre tipos de problema de minera de
datos, 0ea el 4p,ndi&e >-
?Auena idea@
Puede ser sabio rede)inir el problema- Por e:emplo, modelar la reten&i*n de produ&to mHs .ue la
reten&i*n del &liente &uando la reten&i*n del &liente entre#a resultados muy tarde para a)e&tar la
salida-
Salida Criterio de "'ito de minera de dato
De)inir los &riterios para un resultado a&ertado para el proye&to en t,rminos t,&ni&os, por e:emplo un
&ierto #rado de e/a&titud predi&ti0a o un per)il de propensi*n(a(&omprar &on un ni0el dado Aele0a&i*nA-
Como &on los &riterios de ,/itos del ne#o&io, puede ser ne&esario des&ribir estos en t,rminos
sub:eti0os, en el &aso de .ue la persona o las personas .ue ha&en el :ui&io sub:eti0o deberan ser
identi)i&adas-
Actividade
%spe&i)i&ar los &riterios para e0aluar el modelo (por e:emplo, la e/a&titud del modelo, el
)un&ionamiento y la &omple:idad)
De)inir el patr*n de pruebas para los &riterios de e0alua&i*n
%spe&i)i&ar las re#las .ue diri#en &riterios de e0alua&i*n sub:eti0os (por e:emplo, el habilidad de
e/pli&ar del modelo y de los datos y la &omprensi*n de mer&adeo propor&ionada por el modelo)
?(enga cuidado@
Re&uerde .ue los datos .ue e/traen &riterios de ,/ito son di)erentes a los &riterios de ,/ito de ne#o&io
de)inidos antes-
Re&uerde es sabio planear para el desarrollo desde el prin&ipio del proye&to-
1.,. Produccin del pl!n del pro'ecto
(area Producir el #lan del #ro*ecto
Des&ribir el plan propuesto para al&an!ar los ob:eti0os de minera de datos y as al&an!ar de los
ob:eti0os de ne#o&io-
Salida Plan del Pro*ecto
Bistar las etapas para ser e:e&utadas en el proye&to, :untos &on su dura&i*n, re&ursos re.ueridos,
entradas, salidas, y dependen&ias- %n &ual.uier parte donde posible, ha#a e/pl&ito las itera&iones en
#ran es&ala en el pro&eso de minera de datos( Por e:emplo, las repeti&iones del modelado y )ases de
e0alua&i*n- Como parte del plan de proye&to, esto es tambi,n importante anali!ar dependen&ias entre
el planeamiento de los tiempos y los ries#os- Mar&ar los resultados de estos anHlisis e/pl&itamente
en el plan de proye&to, idealmente &on a&&iones y re&omenda&iones para a&tuar si los ries#os son
mani)estados-
4un.ue esto sea la Kni&a tarea en la .ue el plan de proye&to dire&tamente es llamado, sin embar#o
debera ser &onsultado &ontinuamente y repasado en todas partes del proye&to- Deberan &onsultar el
plan de proye&to &omo mnimo siempre .ue una tarea nue0a sea &omen!ada o una itera&i*n )utura de
una tarea o una a&ti0idad esta &omen!ando-
Actividade
De)inir el plan de pro&eso ini&ial y hablar de la 0iabilidad &on todo el personal in&luido
Combinar todos los ob:eti0os identi)i&ados y t,&ni&as sele&&ionadas en un pro&edimiento
&oherente .ue solu&ione las &uestiones del ne#o&io y en&uentre los &riterios de ,/ito de ne#o&io
%stimar el es)uer!o y los re&ursos ne&esarios para al&an!ar y desarrollar la solu&i*n- (%s Ktil
&onsiderar la e/perien&ia de otras personas estimando es&alas de tiempo para proye&tos de
minera de datos- Por e:emplo, es a menudo presumido .ue el V?(Y? por &iento del tiempo y el
es)uer!o en un proye&to de minera de es usado en la Nase de Prepara&i*n de Datos, mientras
.ue solo un >?(U? por &iento es usado en la Nase de Comprensi*n de Datos, mientras .ue solo
un <?(>? por &iento es #astado en &ada uno de las Nase de Modelado, %0alua&i*n, y
Comprensi*n del Ne#o&io %ntendiendo y el V(<? por &iento en la Nase de Desarrollo-)
'denti)i&ar pasos &rti&os
Mar&ar los puntos de de&isi*n
Mar&ar los puntos de re0isi*n
'denti)i&ar las prin&ipales itera&iones
Salida +valuacin de Inicial de &erramienta * t"cnica
4l )inal de la primera )ase, el e.uipo de proye&to reali!a una e0alua&i*n ini&ial de herramientas y
t,&ni&as- 4.u, es importante sele&&ionar una herramienta de minera de datos .ue soporte 0arios
m,todos para las di)erentes etapas del pro&eso, ya .ue la sele&&i*n de herramientas y t,&ni&as puede
in)luir en el proye&to entero-
Actividade
Crear una lista de &riterios de sele&&i*n para herramientas y t,&ni&as (o usar uno e/istente si estH
disponible)
%s&o#er herramientas y t,&ni&as posibles
%0aluar la ade&ua&i*n de t,&ni&as
Re0isar y priori!ar t,&ni&as apli&ables se#Kn la e0alua&i*n de solu&iones alternati0as
2. Com#renin de Dato
2.1. Recoleccin de d!tos inici!les
(area Recoger dato iniciale
5btener los datos (o el a&&eso a los datos) listados en los re&ursos de proye&to- %sta &ole&&i*n ini&ial
in&luye &ar#a de datos, si es ne&esario para la &omprensi*n de datos- Por e:emplo, si usted tiene la
inten&i*n de usar una herramienta espe&)i&a para &omprender los datos, es l*#i&o &ar#ar sus datos
en esta herramienta-
Salida In,orme de la recoleccin de dato inicial
Des&ribir toda la 0ariedad de datos usados para el proye&to, e in&luya &ual.uier re.uerimiento de
sele&&i*n para datos mHs detallados- %l in)orme de &ole&&i*n de datos tambi,n debera de)inir si
al#unos atributos son relati0amente mHs importantes .ue otros-
Re&uerde .ue &ual.uier e0alua&i*n de &alidad de datos debera ser he&ha no solamente de las
)uentes de datos indi0iduales, pero tambi,n de al#unos datos .ue son resultado de )uentes de datos
.ue se &ombinan- Por in&onsisten&ias entre las )uentes, los datos &ombinados pueden presentar los
problemas .ue no e/isten en las )uentes de datos indi0iduales-
Actividade Plani,icacin de re0uerimiento de dato
Planee .ue in)orma&i*n es ne&esaria (por e:emplo, s*lo para atributos determinados, o la in)orma&i*n
adi&ional espe&)i&a)
Comprobar si toda la in)orma&i*n ne&esaria (para resol0er los ob:eti0os de la minera de datos) esta
en realidad disponible
Criterio de eleccin
%spe&i)i&ar los &riterios de sele&&i*n (por e:emplo, FPu, atributos son ne&esarios para los
ob:eti0os espe&)i&os de minera de datosG FPue atributos han sido identi)i&ados &omo no
pertinentesG FCuantos atributos podemos mane:ar &on las t,&ni&as es&o#idasG)
%le#ir tablasOar&hi0os de inter,s
%le#ir datos dentro de una tablaOar&hi0o
Pensar &uanto tiempo de una historial habra .ue usar (por e:emplo, si <[ meses de datos estHn
disponibles, s*lo <> meses pueden ser ne&esarios para el e:er&i&io)
?(enga cuidado@
%star &ons&iente de .ue los datos re&ole&tados de di)erentes )uentes pueden dar lu#ar a problemas
de &alidad &uando sean &ombinados (Por e:emplo, los ar&hi0os de dire&&i*n &ombinados &on una
base de datos de &liente pueden mostrar in&onsisten&ias de )ormato, in0alide! de datos, et&-)-
Inercin de dato
Si los datos &ontienen libre entradas de te/to, Ftenemos .ue &odi)i&arlos para modelar o
ne&esitamos a#ruparlos en entradas espe&)i&asG
FC*mo podemos en&ontrar atributos omitidosG
FC*mo podemos me:orar la e/tra&&i*n los datosG
?Auena Idea@
Re&ordar .ue al#Kn &ono&imiento sobre los datos puede estar disponible de )uentes no(ele&tr*ni&as
(Por e:emplo, de #ente, de te/to impreso, et&-)-
Re&ordar .ue puede ser ne&esario a prepro&eso de los datos (datos de serie tiempo, promedios
ponderados, et&-)-
2.2. Descripcin de d!tos
(area Decri%ir dato
%/amine las propiedades A#ruesasA de los datos obtenidos y el in)orme sobre los resultados-
Salida In,orme de decri#cin de dato
Des&rip&i*n de los datos .ue han sido obtenidos, in&luyendo el )ormato de los datos, la &antidad de
los datos
(Por e:emplo, el nKmero de re#istros y &ampos internos de &ada tabla), las identidades de los &ampos,
y &ual.uier otro ras#o super)i&ial .ue haya sido des&ubierto-
Actividade An7lii .olum"trico de dato
'denti)i&ar datos y m,todos de &aptura
4&&eder a las )uentes de datos
3sar anHlisis estadsti&os si es apropiado
Reportar las tablas y sus rela&iones
Compruebe el 0olumen de datos, el nKmero de mKltiplos, la &omple:idad
Notar si los datos &ontienen entradas de te/to libres
Atri%uto ti#o * valore
Comprobar la a&&esibilidad y disponibilidad de atributos
Comprobar los tipos de atributos (num,ri&o, simb*li&o, la ta/onoma, et&-)
Comprobar el ran#o de 0alores de los atributos
4nali!ar los atributos &orrelati0os (&orrela&iones de atributo)
Comprender el si#ni)i&ado de &ada atributo y &lasi)i&ar (des&ribir) el 0alor en t,rminos de ne#o&io
Para &ada atributo, &al&ular la estadsti&a bHsi&a (por e:emplo, &al&ule la distribu&i*n, el promedio,
el mH/imo, el mnimo, la des0ia&i*n estHndar, la 0arian!a, la moda, la in&lina&i*n, et&-)
4nali!ar la estadsti&a bHsi&a y rela&ionan los resultados &on su si#ni)i&ado en t,rminos de
ne#o&io
De&idir si el atributo es rele0ante para los ob:eti0os espe&)i&os de la minera de datos
Determinar si el si#ni)i&ado del atributo es usado &oherentemente (&ons&ientemente)
%ntre0istar a e/pertos de dominio para obtener su opini*n sobre la importan&ia de los atributos
De&idir si es ne&esario e.uilibrar los datos (basado en las t,&ni&as .ue modelan a ser usado)
Clave
4nali!ar rela&iones &la0es
Comprobar la &antidad de &oin&iden&ias entre 0alores de atributos &la0es a tra0,s de tablas
Reviin de /%!etivo2Preuncione
4&tuali!ar la lista de presun&iones, si es ne&esario
2.*. E)plor!cin de d!tos
(area +'#lorar dato
%sta tarea aborda las pre#untas de minera de datos .ue pueden ser diri#idas usando la
interro#a&i*n, la 0isuali!a&i*n, y t,&ni&as de in)orme- %stos anHlisis pueden dire&tamente diri#ir los
ob:eti0os de minera de datos- Sin embar#o, ellos pueden tambi,n &ontribuir a re)inar la des&rip&i*n de
datos e in)ormes de &alidad, y alimentar internamente la trans)orma&i*n y otros pasos de prepara&i*n
de datos ne&esario antes de .ue pueda o&urrir un )uturo anHlisis-
Salida In,orme de e'#loracin de dato
Des&ribir los resultados de esta tarea, in&luyendo las primeras &on&lusiones o las hip*tesis ini&iales y
su impa&to sobre el resto del proye&to- %l in)orme tambi,n puede in&luir #rH)i&os y dise1os (plots) .ue
indi&an las &ara&tersti&as de los datos o los puntos de inter,s de sub&on:untos de datos di#nos de
una )utura in0esti#a&i*n-
Actividade +'#loracin de Dato
4nali!ar en detalles las propiedades de atributos interesantes (por e:emplo, la estadsti&a bHsi&a,
las sub(pobla&iones interesantes)
'denti)i&ar las &ara&tersti&as de las sub(pobla&iones
3ormar u#oicione #ara an7lii ,uturo
Considerar y e0alKan la in)orma&i*n y &on&lusiones en el in)orme de des&rip&iones de datos
Normar una hip*tesis e identi)i&an a&&iones
rans)orman la hip*tesis en un ob:eti0o de minera de datos, si es posible
4&larar ob:eti0os de minera de datos o ha&erlos mHs e/a&tos- 3na bKs.ueda A&ie#aA no es
ne&esariamente inKtil, pero una bKs.ueda mHs diri#ida ha&ia ob:eti0os de ne#o&io es pre)erible-
Reali!ar un anHlisis bHsi&o para 0eri)i&ar la hip*tesis
2.,. -eri&ic!cin de l! c!lid!d de d!tos
(area .eri,icar la calidad de dato
%/amine la &alidad de los datos, diri#iendo pre#untas &omo2 %s los datos &ompletos (Festo &ubre
todos los &asos re.ueridosG) F6ay en ellos errores o ellos &ontienen erroresG FSi hay errores, &omo
son ellosG F6ay 0alores omitidos en los datosG Si es as, F&*mo son representados, donde o&urren, y
&omo son ellosG
Salida In,orme de calidad de dato
Bistar los resultados de la 0eri)i&a&i*n de &alidad de datosM si hay problemas de &alidad, Bistar las
posibles solu&iones-
Actividade
'denti)i&ar 0alores espe&iales y &atalo#ar su si#ni)i&ado
Reviin de atri%uto clave
Comprobar la &obertura (por e:emplo, si todos los 0alores posibles son representados)
Comprobar las &la0es
7eri)i&ar .ue los si#ni)i&ados de los atributos y 0alores &ontenidos se satis)a&en simultHneamente
'denti)i&ar atributos omitidos y &ampos en blan&o
%stable&er el si#ni)i&ado de datos .ue )altan o )allan
Comprobar los atriibutos &on los 0alores di)erentes .ue tienen si#ni)i&ados similares (por e:emplo,
la #rasa ba:a, la dieta)
Comprobar la orto#ra)a y el )ormato de 0alores (por e:emplo, mismo 0alor pero a 0e&es &omien!a
&on una letra minKs&ula, a 0e&es &on una letra mayKs&ula)
Comprobar las des0ia&iones, y de&iden si una des0ia&i*n es AruidoA o puede indi&ar un )en*meno
interesante
Comprobar la plausibilidad de 0alores, (por e:emplo, todos los &ampos .ue tienen el mismo o &asi
los mismos 0alores)
?Auena idea@
Repasar &ual.uiera de los atributos .ue dan respuestas .ue estHn en desa&uerdo &on el sentido
&omKn (por e:emplo, adoles&entes &on altos ni0eles de in#reso)-
3se plots de 0isuali!a&i*n, histo#ramas, et&- para re0elar in&onsisten&ias en los datos-
Calidad de dato en arc&ivo #lano
Si los datos son alma&enados en ar&hi0os planos, &omprobar .ue delimitador es usado y si esto
es usado &oherentemente en todos los atributos
Si los datos son alma&enados en ar&hi0os planos, &omprobar el nKmero de &ampos en &ada
re#istro para 0er si ellos &oin&iden
Ruido e inconitencia entre ,uente
Comprobar &onsisten&ia y superabundan&ia entre )uentes di)erentes
Planear para tratar el ruido
Des&ubrir el tipo de ruido y .ue atributos son a)e&tados
?Auena idea@
Re&uerde .ue puede ser ne&esario e/&luir al#unos datos ya .ue ellos no e/ponen &omportamiento
positi0o o ne#ati0o (por e:emplo, al &omprobar en el &omportamiento del pr,stamo de &lientes, e/&luye
a todo los .ue nun&a han tomado prestado, a.uellos .ue no )inan&ian una hipote&a de &asa, a.uellos
&uya hipote&a se a&er&a a la madure!, et&-)-
Re0isar si las presun&iones son 0Hlidas o no, &onsiderando la in)orma&i*n real o a&tual en los datos y
el &ono&imiento de ne#o&io-
-. Pre#aracin de lo dato
Salida Con!unto de dato
%stos son los &on:untos de dato(s) produ&idos por la )ase de prepara&i*n de datos, usada para
modelar o para el traba:o de anHlisis prin&ipal del proye&to-
Salida Decri#cin del con!unto de dato
%sto es la des&rip&i*n del &on:unto de datos(s) usado para el modelado o para el traba:o de anHlisis
prin&ipal del proye&to-
*.1. D!tos seleccion!dos
(area Seleccionar dato
De&idir los datos a ser usados para el anHlisis- Bos &riterios in&luyen la importan&ia a los ob:eti0os de
minera de datos, la &alidad, y las restri&&iones t,&ni&as &omo los lmites en el 0olumen de datos o en
los tipos de datos-
Salida Ra$onamiento #ara incluin2e'cluin
Bistar los datos a ser usados O e/&luidos y los moti0os para estas de&isiones-
Actividade
Re&o#en datos adi&ionales apropiados (de di)erentes )uentes ( internos as &omo e/ternos)
Reali!ar las pruebas de importan&ia y &orrela&i*n para de&idir si los &ampos son in&luidos
Re&onsideran Criterios de Sele&&i*n de Datos (7ea la area >-<) en la lu! de las e/perien&ias de
&alidad de los datos y en la e/plora&i*n de datos (esto es, puede desear in&luirOe/&luir otros
:ue#os de datos)
Re&onsiderar Criterios de Sele&&i*n de Datos (7ea la area >-<) en la lu! de e/perien&ia de
modelado (esto es, la e0alua&i*n del modelo puede mostrar .ue otros &on:untos de datos son
ne&esarios)
Sele&&ionar di)erentes sub&on:untos de datos (por e:emplo, atributos di)erentes, s*lo los datos
.ue en&uentran &iertas &ondi&iones)
Considerar el uso de t,&ni&as de muestreo (por e:emplo, una solu&i*n rHpida puede impli&ar la
prueba dura y el entrenamiento del &on:unto de datos o la redu&&i*n del tama1o de la &on:unto de
datos de prueba, si la herramienta no puede mane:ar &on:unto de datos llenos- %sto puede
tambi,n ser Ktil para tener muestras ponderadas para dar la distinta importan&ia a atributos
di)erentes o 0alores di)erentes del mismo atributo-)
Do&umentar el ra!onamiento para la in&lusi*nOe/&lusi*n
Comprobar t,&ni&as disponibles para el muestreo de datos
?Auena idea@
9asado en Criterios de Sele&&i*n de Datos, de&idir si uno o mHs atributos son mHs importantes .ue
otros el &orrespondiente peso de los atributos- De&idir, basado en el &onte/to (esto es, el uso, la
herramienta, et&-), &omo mane:arse &on el peso-
*.2. .i$pie/! de d!tos
(area Lim#iar dato
%le0ar la &alidad de datos al ni0el re.uerido por las t,&ni&as de anHlisis sele&&ionadas- %sto puede
impli&ar la sele&&i*n de sub&on:untos limpios de los datos, la inser&i*n de )altas apropiadas, o
t,&ni&as mHs ambi&iosas &omo la estima&i*n de datos omitidos por modelado-
Salida In,orme de la lim#ie$a de dato
Des&ribir las de&isiones y las a&&iones .ue )ueron tomados para diri#ir los problemas de &alidad de
datos in)ormados durante la area de 7eri)i&a&i*n de Calidad de Datos- Si los datos estHn para ser
usados en el e:er&i&io de minera de datos, el in)orme debera diri#ir &uestiones de &alidad de datos
e/&ep&ionales y el e)e&to posible .ue esto podra tener sobre los resultados-
Actividade
Re&onsiderar &omo tratar &on &ual.uier tipo de ruido obser0ado
Corre#ir, remo0er, o i#norar el ruido
De&idir &omo tratar &on 0alores espe&iales y su si#ni)i&ado- %l Hrea de 0alores espe&iales puede
dar lu#ar a mu&hos resultados e/tra1os y &on &uidado deberan ser e/aminados- Bos e:emplos de
0alores espe&iales podran sur#ir por los resultados tomados de una re0isi*n donde al#unas
&uestiones no )ueron pre#untadas o no )ueron &ontestadas- %sto podra terminar en un 0alor de
== para datos des&ono&idos- Por e:emplo, == para estado &i0il o a)ilia&i*n polti&a- Bos 0alores
espe&iales tambi,n podra sur#ir &uando los datos son trun&ados por e:emplo-, ?? para #ente de
<?? a1os o para todos los &o&hes &on <??,??? 8il*metros en el od*metro-
Re&onsiderar Criterios de Sele&&i*n de Datos (7ea la area >-<) en la lu! de las e/perien&ias de
los datos limpiados (esto es, usted puede desea in&luirOe/&luir otros &on:untos de datos)-
?Auena idea@
Re&uerde .ue al#unos &ampos pueden ser irrele0antes a los ob:eti0os de minera de datos y, por lo
tanto, el ruido en a.uellos &ampos no tiene nin#una importan&ia- Sin embar#o, si el ruido es i#norado
por estos moti0os, esto debera ser totalmente do&umentado &omo &ir&unstan&ias .ue pueden
&ambiarse mHs tarde-
*.*. Construccin de d!tos
(area Contruir dato
%sta tarea in&luye la &onstruir de opera&iones de prepara&i*n de datos tales &omo la produ&&i*n de
atributos deri0ados, &ompletar re#istros nue0os, o trans)ormar 0alores para atributos e/istentes-
Actividade
Comprobar los me&anismos de &onstru&&i*n disponibles &on la lista de herramientas su#eridas
para el proye&to
De&idir si esto es lo me:or para reali!ar la &onstru&&i*n dentro de la herramienta o )uera de ella
(esto es, .ue es mHs e)i&iente, e/a&to, repetible)
Re&onsiderar Criterios de Sele&&i*n de Datos (7ea la area >-<) en la lu! de las e/perien&ias de
&onstru&&i*n de datos (esto es, usted puede desear in&luirOe/&luir otros &on:untos de datos)
Salida Atri%uto derivado
Bos atributos deri0ados son los atributos nue0os .ue son &onstruidos de uno o atributos mHs
e/istentes en el mismo re#istro- 3n e:emplo podra ser2 Hrea W lon#itud X an&hura-
FPor .u, deberamos tener .ue &onstruir atributos deri0ados durante el &urso de una in0esti#a&i*n de
minera de datosG No debera pensarse .ue s*lo los datos de bases de datos u otras )uentes
deberan ser usados en la &onstru&&i*n de un modelo- Bos atributos deri0ados podran ser &onstruidos
por.ue2
%l &ono&imiento del &onte/to nos &on0en&e .ue al#Kn he&ho es importante y debera ser
representado aun.ue no ten#amos nin#Kn atributo a&tualmente para representarlo
%l al#oritmo de modelado en uso mane:a los s*lo &iertos tipos de datos (por e:emplo estamos
usando re#resi*n lineal y sospe&hamos .ue hay &iertas no(linealidades .ue serHn in&luidos en el
modelo
%l resultado de la )ase de modelado su#iere .ue &iertos he&hos no sean &ubiertos
Actividade Derivar atri%uto
De&idir si &ual.uier atributo puede ser normali!ado (por e:emplo, usando un al#oritmo de
a#rupamiento (&lusterin#) &on el periodo y el in#reso, en &iertas di0isas, el in#reso se &ontrolarH)
Considerar a#re#ar nue0a in)orma&i*n sobre la importan&ia rele0ante de los atributos para
a#re#ar de nue0os atributos (Por e:emplo, atributos &on peso, normali!a&i*n ponderada)
FC*mo se puede &onstruir o imputar atributos )altantesG SDe&idir el tipo de &onstru&&i*n (por
e:emplo, la &ombina&i*n, el promedio, la indu&&i*n)-T
4#re#ar atributos nue0os a los datos a&&eso de a&&eso
?Auena idea@
4ntes de a#re#ar 4tributos Deri0ados, intente determinar si y &omo ellos )a&ilitan el pro&eso de
modelado o )a&ilitan el al#oritmo de modelado- Pui!Hs Iel in#reso por personaJ es un me:orOmHs )H&il
atributo para usar .ue Iel in#reso por &asa-J No sa.ue atributos simplemente para redu&ir el nKmero
de atributos de entrada-
5tro tipo de atributo deri0ado es la trans)orma&i*n de un atributo indi0idual, por lo #eneral reali!ado
para &ubrir las ne&esidades de las herramientas de modelado-
Actividade (ran,ormacione de atri%uto individual
%spe&i)i&ar los pasos de trans)orma&iones ne&esarias en los t,rminos de )a&ilitar las
trans)orma&i*n disponibles (por e:emplo, &ambiar un binnin# de un atributo num,ri&o)
Reali!ar pasos de trans)orma&i*n
?Auena idea@
Bas trans)orma&iones pueden ser ne&esarias para &ambiar ran#os a &ampos simb*li&os (por e:emplo,
a1os a ran#os de edad) o &ampos simb*li&os (Ide)initi0amente sJ, IsJ, Ino se sabe,J AnoA) a 0alores
num,ri&os- Bas herramientas de modelado o los al#oritmos a menudo los re.uieren-
Salida Regitro generado
Bos re#istros #enerados son re#istros &ompletamente nue0os, .ue a#re#an nue0o &ono&imiento o
representan nue0os datos .ue de otro modo no son representado (por e:emplo, habiendo se#mentado
los datos, puede ser Ktil #enerar un re#istro para represente al miembro prototpi&o de &ada se#mento
para un tratamiento )uturo)-
Actividade
Comprobar por t,&ni&as disponibles si es ne&esario (por e:emplo, me&anismos para &onstruir
prototipos para &ada se#mento de datos se#mentados)-
*.,. Integr!cin de d!tos
(area Integrar dato
%stos son m,todos para &ombinar la in)orma&i*n de mKltiples tablas u otras )uentes de in)orma&i*n
para &rear nue0os re#istros o 0alores-
Salida Dato com%inado
Ba &ombina&i*n de tablas se re)iere a la uni*n de dos o mHs tablas .ue tienen di)erente in)orma&i*n
sobre los mismos ob:etos- %n esta etapa, tambi,n puede ser a&onse:able #enerar re#istros nue0os-
ambi,n puede ser re&omendado para #enerar 0alores a#re#ados-
Ba a#re#a&i*n se re)iere a opera&iones donde los nue0os 0alores son &al&ulados por in)orma&i*n
resumida de mKltiples re#istros yOo tablas-
Actividade
Comprobar si las apli&a&iones de inte#ra&i*n son &apa&es de inte#rar las )uentes de entrada
&omo se re.uiere
'nte#rar )uentes y resultados alma&enados
Re&onsiderar Criterios de Sele&&i*n de Datos (7ea la area >-<) en la lu! de las e/perien&ias de
inte#ra&i*n de datos (esto es, usted puede desear in&luirOe/&luir otros &on:untos de datos)
?Auena idea@
Re&ordar .ue al#Kn &ono&imiento puede estar &ontenido en el )ormato no(ele&tr*ni&o-
*.0. 1or$!teo de d!tos
(area 3ormatear dato
rans)ormar )ormateando se re)iere prin&ipalmente a modi)i&a&iones sintH&ti&as he&has a los datos
.ue no &ambian su si#ni)i&ado, pero podra ser re.uerido por la herramienta de modelado-
Salida Dato re,ormateado
4l#unas herramientas tienen re.uerimientos sobre la orden de los atributos, tal .ue el primer &ampo
sea un Kni&o identi)i&ador para &ada re#istro o el &ampo Kltimo ser el :ue#o de resultados .ue el
modelo debe prede&ir-
Actividade Atri%uto reorgani$ado
4l#unas herramientas tienen re.uerimientos sobre la orden de los atributos, tal .ue el primer &ampo
sea un Kni&o identi)i&ador para &ada re#istro o el &ampo Kltimo ser el :ue#o de resultados .ue el
modelo debe prede&ir-
Reordenando regitro
Podra ser importante &ambiar el orden de los re#istros en el &on:unto de datos- Pui!Hs el instrumento
de modelado re.uiere .ue los re#istros sean &lasi)i&ados se#Kn el 0alor del atributo de resultado-
Re,ormateado valore interno
%stos son &ambios puramente sintH&ti&os he&hos para satis)a&er las e/i#en&ias de la herramienta
espe&)i&a de modelado
Re&onsiderar Criterios de Sele&&i*n de Datos (7ea la area >-<) en la lu! de las e/perien&ias de
limpie!a de datos (esto es, usted puede desear in&luirOe/&luir otros &on:untos de datos)
4. Modelado
,.1. Seleccion!r t#cnic!s de $odel!do
(area Seleccionar t"cnica de modelado
Como el primero paso en modelado, sele&&ionar la t,&ni&a de modelado ini&ial a&tual- Si mKltiples
esta para ser apli&ados, reali!ar separadamente esta tarea para &ada t,&ni&a-
Re&uerde .ue no todos los instrumentos y t,&ni&as son apli&ables a toda y &ada tarea- Para &iertos
problemas, s*lo al#unas t,&ni&as son apropiadas (7ea el 4p,ndi&e >, donde las t,&ni&as asi#nan
para &iertos tipos de problemas de minera de datos es hablada mHs detalladamente)-
IRe.uerimientos polti&osJ y otras restri&&iones adi&ionales limitan las op&iones disponibles para el
in#eniero de minera de datos- Puede ser solo una herramienta o t,&ni&a estHn disponibles para
solu&ionar el problema a mano ( y .ue el instrumento no pueda ser absolutamente lo me:or, de un
punto de 0ista t,&ni&o-
Ni#ura <?2 3ni0ersidad (Di0ersidad) de ,&ni&as
Salida ("cnica de modelado
Re#istrar las t,&ni&as de modelado real .ue se usa-
Actividade
De&idir las t,&ni&as apropiada para el e:er&i&io, teniendo en &uenta la herramienta sele&&ionada-
Salida Preuncione de modelado
Mu&has t,&ni&as de modelado reali!an presun&iones espe&)i&as sobre los datos-
Actividade
De)inir &ual.uier presun&iones &onstruidas he&has por la t,&ni&a sobre los datos (por e:emplo, la
&alidad, el )ormato, la distribu&i*n)
Comparar estas presun&iones &on a.uellas de el 'n)orme de Des&rip&i*n de Datos
4se#urarse .ue estas presun&iones sostienen y 0ol0er a la Nase de Prepara&i*n de Datos, si es
ne&esario
,.2. 2ener!r el dise3o de prue%!
(area 5enerar el die6o de #rue%a
4ntes de &onstruir un modelo, es ne&esario de)inir un pro&edimiento para probar la &alidad del modelo
y la 0alide!- Por e:emplo, en tareas de minera de datos super0isadas &omo la &lasi)i&a&i*n, es &omKn
usar tasas de error &omo medidas de &alidad para modelos de minera de datos- Por lo tanto, el
dise1o de prueba espe&i)i&a .ue el &on:unto de datos debera ser separado en el entrenamiento y en
el &on:unto de prueba- %l modelo esta &onstruido sobre el &on:unto de entrenamiento y su &alidad
estimada sobre el &on:unto de prueba-
Salida Die6o de Prue%a
Des&ribir el plan deliberado para el entrenamiento, las pruebas, y la e0alua&i*n de los modelos- 3n
&omponente primario del plan es para de&idir &omo di0idir el &on:unto de datos disponible sobre datos
.ue se entrenan, datos de prueba, y &on:unto de pruebas de 0alida&i*n-
Actividade
Comprobar .ue e/iste dise1os de prueba separadamente para &ada ob:eti0o de minera de datos
De&idir los pasos ne&esarios (el nKmero de itera&iones, el nKmero de des0ia&iones o &ur0as, et&-)
Preparar los datos re.ueridos para la prueba
,.*. Construccin del $odelo
(area Contruir el modelo
Correr la herramienta de modelado sobre el &on:unto de datos listo para &rear uno o mHs modelos-
Salida Par7metro de a!ute
Con &ual.uier herramienta de modelado, hay a menudo un #ran nKmero de parHmetros .ue pueden
ser a:ustados- Bistar los parHmetros y sus 0alores sele&&ionados, &on la e/pli&a&i*n (el ra!onamiento)
para la ele&&i*n-
Actividade
Determinar los parHmetros ini&iales
Do&umentar las ra!ones para ele#ir a.uellos 0alores
Salida Modelo
Controle la herramienta de modelado en el &on:unto de datos listos para &rear uno o mHs modelos-
Actividade
%:e&utar la t,&ni&a sele&&ionada sobre el &on:unto de datos de entrada para produ&ir el modelo
Post(pro&esar los resultados de minera de datos (por e:emplo, editar re#las, mostrar Hrboles)
Salida Decri#cin del modelo
Des&ribir el resultado del modelado y e0aluar su e/a&titud esperada, la robuste!, y de)e&tos posibles-
'n)ormar sobre la interpreta&i*n de los modelos y en&ontrar &ual.uier de las di)i&ultades-
Actividade
Des&ribir &ual.uier &ara&tersti&as del modelo a&tual .ue puede ser Ktil para el )uturo
4:ustar parHmetro de entorno (de re#istro) usado para produ&ir el modelo
Dar una des&rip&i*n detallada del modelo y &ual.uier ras#o espe&ial
Para modelos basados por re#la, listar las re#las produ&idas, mHs &ual.uier e0alua&i*n de &ada(
re#la o la e/a&titud y al&an&e total del modelo
Para modelos no transparentes, listar &ual.uier in)orma&i*n t,&ni&a sobre el modelo (&omo la
topolo#a de las redes neuronales) y &ual.uier des&rip&i*n de &omportamiento produ&ido por el
pro&eso de modelado (&omo la e/a&titud o la sensibilidad)
Des&ribir el &omportamiento del modelo y la interpreta&i*n
%/presar &on&lusiones respe&to a los patrones en los datos (si hay al#uno)M a 0e&es el modelo
re0ela he&hos importantes sobre los datos sin un pro&eso de e0alua&i*n separado (por e:emplo,
.ue la salida o la &on&lusi*n son dupli&adas en una de las entradas)
,.,. E"!lu!cin del $odelo
(area +valuar el modelo
%l modelo ahora debera ser e0aluado para ase#urar .ue se en&ontr* &riterios de ,/ito de la minera
de datos y aprobar los &riterios de prueba deseados- %sto es una e0alua&i*n puramente t,&ni&a
basada en el resultado de las tareas modelado-
Salida +valuacin del modelo
Resumir los resultados de esta tarea, listar las &alidades de los modelos #enerados (por e:emplo, en
t,rminos de e/a&titud), y el ni0el de su &alidad en rela&i*n a &ada otro-
Actividade
%0aluar los resultados en lo .ue &on&ierne a &riterios de e0alua&i*n
Probar los resultados se#Kn una estrate#ia de prueba (por e:emplo2 Corrida y Prueba, 7alida&i*n
&ru!ada, bootstrappin#, et&-)
Comparar los resultados de la e0alua&i*n y la interpreta&i*n
Crear la &lasi)i&a&i*n de resultados en lo .ue &on&ierne a &riterios de ,/ito y e0alua&i*n
Sele&&ionar los me:ores modelos
'nterpretar los resultados en t,rminos de ne#o&io (tanto &omo sea posible en esta etapa)
Conse#uir &omentarios de los modelos por e/pertos en datos o en el dominio
Che.uear la &redibilidad del modelo
Comprobar los e)e&tos sobre los ob:eti0os de minera de datos
Comprobar los modelan &ontra una base de &ono&imiento determinada para 0er si la in)orma&i*n
des&ubierta es nue0a y Ktil
Comprobar la )iabilidad de los resultados
4nali!ar el poten&ial para el desarrollo de &ada resultado
Si hay una des&rip&i*n 0erbal del modelo #enerado (por e:emplo, en )orma de re#las), e0aluar las
re#las2 F%llos son l*#i&os, o ellos son )a&tibles, hay demasiadas re#las o hay demasiado po&o,
ellos 0iolan el sentido &omKnG
%0aluar resultados
Conse#uir ideas espe&)i&as de &ada t,&ni&a de modelado y &iertos parHmetros de a:ustes .ue
&ondu!&an a resultados buenosOmalos
?Auena idea@
Cablas de %le0a&i*nJ y Iablas de 9ene)i&ioJ pueden ser &onstruidas para determinar los bien .ue el
modelo predi&e-
Salida Reviacin de #ar7metro de a!ute
Se#Kn la e0alua&i*n del modelo, re0ise parHmetros de a:uste y t,mplelos para la si#uiente &orrida en
la tarea de Constru&&i*n del Modelo- 'tere (repita) la &onstru&&i*n del modelo y e0alKe hasta .ue
usted en&uentre el me:or modelo-
Actividade
4:ustar parHmetros para produ&ir me:ores modelos-
8. +valuacin
Bos pasos de e0alua&i*n pre0ia tratan &on )a&tores &omo la e/a&titud y la #eneralidad del modelo- %ste paso e0alKa el #rado
.ue el modelo en&uentra los ob:eti0os de ne#o&io, y pro&ura determinar si hay al#una ra!*n de ne#o&io por .u, este
modelo sea de)i&iente- %sto &ompara resultados &on los &riterios de e0alua&i*n de)inidos en el prin&ipio del proye&to-
3n modo bueno de de)inir las salidas totales de un proye&to de minera de datos es usar la e&ua&i*n2
R%S3B4D5S W M5D%B5S ] C5NCB3S'5N%S
%n esta e&ua&i*n, de)inimos .ue la salida total del proye&to de minera de datos no es solamente los modelos (aun.ue ellos
sean, desde lue#o, importantes) pero tambi,n las &on&lusiones, las .ue de)inimos &omo al#o (aparte del modelo) .ue es
importante en
la bKs.ueda de los ob:eti0os de ne#o&io o importante para arribar a nue0as pre#untas,
las lneas de apro/ima&i*n, o
los e)e&tos ne#ati0os (por e:emplo, los problemas de &alidad de datos des&ubierto por el uso de la minera de
datos)-
Notar2 4un.ue el modelo est, dire&tamente &one&tado a las pre#untas de ne#o&io, las &on&lusiones no ne&esariamente
estHn rela&ionadas &on &ual.uiera de las pre#untas u ob:eti0os, mientras ellos son importantes para el promotor del
proye&to-
0.1. E"!lu!cin de los result!dos
(area +valuar lo reultado
%ste paso e0alKa el #rado al .ue el modelo en&uentra los ob:eti0os de ne#o&io, y pro&ura determinar
si hay al#una ra!*n de ne#o&io por el &ual este modelo es de)i&iente- 5tra op&i*n es probar el (los)
modelo(s) sobre la apli&a&i*n de prueba en el sistema 0erdadero, si permiten las restri&&iones de
tiempo y de presupuesto-
4demHs, la e0alua&i*n tambi,n e0alKa otros resultados #enerados por la minera de datos- Bos
resultados de minera de datos &ubren los modelos .ue estHn rela&ionados &on los ob:eti0os
ori#inales de ne#o&io y todas las demHs &on&lusiones- 3nos son rela&ionados &on los ob:eti0os de
ne#o&ios ori#inales mientras .ue otros podran re0elar desa)os adi&ionales, in)orma&i*n, o ideas para
)uturas administra&iones (dire&&iones)-
Salida +valuacin de lo reultado de minera de dato en lo 0ue re#ecta a criterio de "'ito de negocio
Resumir resultados de e0alua&i*n en t,rminos de &riterios de ,/ito de ne#o&io, in&luyendo una
de&lara&i*n )inal rela&ionada a si el proye&to ya en&uentra los ob:eti0os ini&iales de ne#o&io-
Actividade
Comprender los resultados de la minera de datos
'nterpretar los resultados en t,rminos de la apli&a&i*n (del uso)
Comprobar e)e&tos sobre los ob:eti0os de minera de datos
Comprobar los resultados de minera de datos &ontra la base de un &ono&imiento determinado
para 0er si la in)orma&i*n des&ubierta es nue0a y Ktil
%0aluar y estimar los resultados en lo .ue respe&ta a &riterios de ,/ito de ne#o&io (esto es, el
proye&to ha al&an!ado los 5b:eti0os de Ne#o&io ori#inales)
Comparar los resultados de la e0alua&i*n y la interpreta&i*n
Clasi)i&ar los resultados en lo .ue respe&ta a &riterios de ,/ito de ne#o&io
Comprobar el e)e&to de los resultados sobre el ob:eti0o ()in) de la apli&a&i*n ini&ial
Determinar si hay nue0os ob:eti0os de ne#o&io para ser diri#idos mHs tarde en el proye&to, o en
nue0os proye&tos
%/presar re&omenda&iones para proye&tos )uturos de minera de datos
Salida Modelo a#ro%ado
Despu,s de e0aluar los modelos &on respe&to a los &riterios de ,/ito de ne#o&io, sele&&ionar y
aprobar los modelos #enerados .ue en&ontraron los &riterios sele&&ionados-
0.2. Proceso de re"isin
(area Reviar el #roceo
%n este punto, el modelo resultante pare&e ser satis)a&torio y pare&e satis)a&er ne&esidades de
ne#o&io- %s ahora apropiado ha&er una re0isi*n mHs &uidadosa de las promesas de minera de datos
para determinar si hay al#Kn )a&tor importante o tarea .ue de al#Kn modo ha sido pasada por alto- %n
esta etapa del e:er&i&io de minera de datos, el Pro&eso de Re0isi*n toma la )orma de una Re0isi*n de
Garanta de Calidad-
Salida Reviin de #roceo
Resumir el pro&eso de re0isi*n y poner en una lista las a&ti0idades .ue han sido omitidas yOo deberan
ser repetidas-
Actividade
Propor&ionar una des&rip&i*n del pro&eso de minera de datos usado
4nali!ar el pro&eso de minera de datos- Para &ada etapa del pro&eso pre#unte2
o F%sto )ue ne&esarioG
o F%sto )ue e:e&utado *ptimamenteG
o F%n .ue modo podra ser me:oradoG
'denti)i&ar )ra&asos
'denti)i&ar pasos des0iados (de en#a1os)
'denti)i&ar a&&iones alternati0as posibles yOo &aminos inesperados en el pro&eso
Re0isar resultados de minera de datos en lo .ue &on&ierne a &riterios de ,/ito de ne#o&io
0.*. Deter$in!cin de los pr)i$os p!sos
(area Determinar lo #r'imo #ao
9asado en los resultados de e0alua&i*n y la re0isi*n de pro&eso, el e.uipo de proye&to de&ide &omo
pro&eder-
Bas de&isiones a ser he&has in&luyen si hay .ue terminar este proye&to y se#uir adelante al
desarrollo, para ini&iar )uturas 'tera&iones, o estable&er nue0os proye&tos de minera de datos-
Salida Lita de accione #oi%le
Bista a&&iones )uturas posibles &on los moti0os para y &ontra de &ada op&i*n-
Actividade
4nali!ar e poten&ial para el desarrollo de &ada resultado
%stimar el poten&ial para la me:ora de pro&eso a&tual
Comprobar los re&ursos restantes para determinar si ellos permiten itera&iones de pro&eso
adi&ionales (o si re&ursos adi&ionales pueden estar siendo disponibles)
Re&omendar &ontinuar &on las alternati0as
Re)inar el plan de pro&eso
Salida Deciin
Des&ribir las de&isiones he&has, &on el ra!onamiento para ello-
Actividade
Clasi)i&ar las a&&iones posibles
Sele&&ionar una de las a&&iones posibles
Do&umentar las ra!ones para la ele&&i*n
9. Dearrollo
5.1. Pl!n de des!rrollo
(area Dearrollo del Plan
%sta tarea &omien!a &on la e0alua&i*n de los resultados y &on&luye &on una estrate#ia para el
desarrollo de los resultados de la minera de datos en el ne#o&io-
Salida Plan de Dearrollo
Resumir la estrate#ia de desarrollo, in&luyendo los pasos ne&esarios y &omo reali!arlos-
Actividade
Resumir resultados desarrollados
Construir y e0aluar los planes alternati0os para el desarrollo
De&idir para &ada resultado de &ono&imiento o in)orma&i*n distinto
Determinar &omo el &ono&imiento o la in)orma&i*n serHn propa#ados (#enerados) a los usuarios
De&idir &omo serH super0isado el uso del resultado y medido sus bene)i&ios (donde sea apli&able)
De&idir por &ada resultado de modelo desarrollado o de so)tEare
%stable&er &omo el modelo o el resultado de so)tEare serHn desple#ados dentro de los sistemas
de la or#ani!a&i*n
Determinar &omo su empleo serH super0isado y medido sus bene)i&ios (donde sea apli&able)
'denti)i&ar posibles problemas durante el desarrollo (peli#ros a ser e0itados)
5.2. Super"isin ' $!nteni$iento del pl!n
(area Su#erviar * mantener el #lan
Ba super0isi*n y el mantenimiento son &uestiones importantes si los resultados de la minera de datos
se ha&en parte del ne#o&io &otidiano y de su ambiente- 3na prepara&i*n &uidadosa de una estrate#ia
de mantenimiento ayuda e0itar inne&esariamente lar#os perodos de uso in&orre&to de los resultados
de minera de datos- Para super0isar el desarrollo de los resultados de minera de datos, el proye&to
ne&esita un plan detallado para super0isar y mantener- %ste plan tiene en &uenta el tipo espe&)i&o de
desarrollo-
Salida Plan de u#erviin * mantenimiento
Resumir la estrate#ia de super0isi*n y mantenimiento, la in&lusi*n de pasos ne&esarios y &omo
reali!arlos-
Actividade
Comprobar aspe&tos dinHmi&os (esto es, F.u, &osas podran &ambiar en el entornoG)
De&idir &omo serH super0isada la pre&isi*n
Determinar &uando el resultado de minera de datos o el modelo no deberan ser usados mHs-
'denti)i.ue &riterios (la 0alide!, el lmite de la e/a&titud, nue0os datos, &ambios en el dominio de
apli&a&i*n, et&-), y .ue debera pasar si el modelo o el resultado no pueden ser mHs usados-
(4&tuali!a&i*n del modelo, estable&imiento de nue0os proye&tos de minera de datos, et&-)-
FCambiarHn &on el tiempo los ob:eti0os de ne#o&io del uso empleo del modeloG Do&umentar
totalmente el problema ini&ial .ue el modelo intentaba solu&ionar-
Desarrollar el plan de mantenimiento y la super0isi*n-
5.*. Produccin de In&or$e de&initi"o
(area Producir In,orme de,initivo
%n el )inal del proye&to, el e.uipo de proye&to sobres&ribe un in)orme de)initi0o- Se#Kn el plan de
desarrollo, este in)orme puede ser s*lo un resumen del proye&to y su e/perien&ia, o una presenta&i*n
)inal de los resultados de minera de datos-
Salida In,orme de,initivo
%n el )inal del proye&to, habrH al menos un in)orme de)initi0o en el .ue todos los hilos son
en&ontrados- 4s &omo la identi)i&a&i*n de los resultados obtenidos, el in)orme tambi,n debera
des&ribir el pro&eso, mostrar los &ostos .ue se han en&ontrados, de)inir &ual.uier des0ia&i*n del plan
ori#inal, des&ribir proye&tos de implementa&i*n, y ha&er &ual.uier re&omenda&i*n para el )uturo
traba:o- %l &ontenido real detallado del in)orme depende mu&hsimo de la audien&ia planeada-
Actividade
'denti)i&ar &uales in)ormes son ne&esarios (presenta&i*n de diapositi0a, &on&lusiones de
administra&i*n, detalles en&ontrados, e/pli&a&i*n de los modelos, et&-)
4nali!ar .ue tan bien se han en&ontrado los ob:eti0os de minera de datos ini&iales
'denti)i&ar #rupos de ob:eti0os para el in)orme
Des&ribir en )orma #eneral las estru&turas y el &ontenido de in)orme(s)
Sele&&ionar &on&lusiones para ser in&luidas en los in)ormes
%s&ribir un in)orme
Salida Preentacin ,inal
4s &omo un in)orme de)initi0o, puede ser ne&esario ha&er una presenta&i*n )inal para &on&luir el
proye&to( tal 0e! al patro&inador de dire&&i*n, por e:emplo- Ba presenta&i*n normalmente &ontiene un
sub&on:unto del &ontenido de la in)orma&i*n en el in)orme de)initi0o, estru&turado de un modo
di)erente-
Actividade
De&idir el #rupo ob:eti0o para la presenta&i*n )inal y determinar si ellos ya habrHn re&ibido el
in)orme de)initi0o
Sele&&ionar &uales de los art&ulos del in)orme de)initi0o deberan ser in&luidos en la presenta&i*n
)inal
5.,. Re"isin del pro'ecto
(area Reviar el #ro*ecto
%0aluar .ue )ue lo &orre&to y .ue )ue lo errado, &ual )ue el ,/ito obtenido, y .ue ne&esidades serHn
me:oradas-
Salida Documentacin de e'#eriencia
Resumir la #ran e/perien&ia #anada durante el proye&to- Por e:emplo, trampas, a&&esos a in)orma&i*n
in&orre&ta (misleadin# approa&hes), o los puntos para sele&&ionar las me:ores t,&ni&as de minera de
datos en situa&iones similares podran ser la parte de esta do&umenta&i*n- %n proye&tos ideales, la
do&umenta&i*n de e/perien&ia tambi,n &ubre &ual.uier in)orme .ue ha sido es&rito por miembros
indi0iduales del proye&to durante el proye&to-
Actividade
%ntre0istar a toda la #ente si#ni)i&ati0a in0olu&rada en el proye&to y pre#untarles sobre su
e/perien&ia durante el proye&to
Si los usuarios )inales traba:an en el ne#o&io &on los resultados de minera de datos,
entre0istarlos2 F%stHn satis)e&hosG FC*mo podra haber sido me:or reali!adoG FNe&esitan de
apoyo adi&ionalG
Resumir la realimenta&i*n y es&ribir la do&umenta&i*n de e/perien&ia
4nali!ar el pro&eso (las &osas .ue se traba:aron bien, los errores produ&idos, las le&&iones
aprendidas, et&-)
Do&umentar el pro&eso de minera de datos espe&)i&o (FC*mo puede los resultados y la
e/perien&ia de apli&a&i*n del modelo ser realimentado en el pro&esoG)
Generali!ar desde los detalles para produ&ir la e/perien&ia Ktil para proye&tos )uturos
I.-La alida del CRISP-DM
%sta se&&i*n &ontiene las bre0es des&rip&iones de los ob:eti0os y el &ontenido de los in)ormes mHs importantes- 4.u,
en)o&amos en los in)ormes .ue son si#ni)i&ati0os para &omuni&ar los resultados de una )ase a la #ente no in0olu&rada en
esta )ase (y posiblemente no in0olu&rada en este proye&to)- %stos no son ne&esariamente id,nti&os a las salidas &omo lo
des&rito en el modelo de re)eren&ia y la #ua de usuario- %l ob:eti0o de estas salidas es mas para do&umentar resultados
mientras se estH reali!ando el proye&to-
1. Com#renin del negocio
Bos resultados de la )ase de Comprensi*n de Ne#o&io pueden ser resumidos en un in)orme- Su#erimos las se&&iones
si#uientes2
Conte)to
Ba se&&i*n Conte/to propor&iona una des&rip&i*n bHsi&a del &onte/to de proye&to- Bistar &uales Hreas estHn traba:ando en el
proye&to, .ue problemas han sido identi)i&ados, y por .u, la minera de datos pare&e propor&ionar una solu&i*n-
+%jeti"os de negocio ' criterios de #)ito
Ba se&&i*n de 5b:eti0os de ne#o&io des&ribe los ob:eti0os del proye&to en t,rminos de ne#o&io- Para &ada ob:eti0o, Bos
Criterios de Z/ito de Ne#o&io, esto es, des&ribir las medidas para determinar si realmente el proye&to ha lo#rado en sus
ob:eti0os-
%sta se&&i*n tambi,n debera listar los ob:eti0os .ue )ueron &onsiderados, pero re&ha!ados- %l ra!onamiento de la sele&&i*n
de ob:eti0os debera ser dado-
In"ent!rio de recursos
Ba se&&i*n de 'n0entario de Re&ursos apunta para identi)i&ar el personal, )uentes de datos, instala&iones t,&ni&as, y otros
re&ursos .ue pueden ser Ktiles en la reali!a&i*n del proye&to-
Reueri$ientos6 presunciones6 ' restricciones
%sta se&&i*n lista los re.uerimientos #enerales para la e:e&u&i*n del proye&to2 tipo de resultados de proye&to, presun&iones
he&has sobre la naturale!a del problema y de los datos .ue estHn siendo usados, y restri&&iones impuestas al proye&to-
Riesgos ' contingenci!s
%sta se&&i*n identi)i&a los problemas .ue pueden o&urrir en el proye&to, des&ribe las &onse&uen&ias, y de&laran .ue
a&&iones pueden ser tomadas para redu&ir al mnimo tales ries#os-
7er$inolog(!
Ba se&&i*n de erminolo#a permite a la #ente des&ono&ida &on los problemas .ue estHn siendo diri#idos por el proye&to
para ha&erse mHs )amiliar &on ellos-
Costos ' %ene&icios
%sta se&&i*n des&ribe los &ostos del proye&to y predi&e los bene)i&ios del ne#o&io si el proye&to es e/itoso (por e:emplo, la
0uelta en la 'n0ersi*n)- 5tros bene)i&ios menos tan#ibles (por e:emplo, la satis)a&&i*n del &liente) tambi,n deberan ser
desta&adas-
+%jeti"os de $iner(! de d!tos ' criterios de #)ito
Ba se&&i*n de 5b:eti0os de Minera de datos de&lara los resultados del proye&to .ue permiten el lo#ro de los ob:eti0os de
ne#o&io- ambi,n &omo el listado de los a&&esos probables de minera de datos, los &riterios de ,/ito para los resultados en
t,rminos de minera de datos, tambi,n deberan ser puestos en una lista-
Pl!n de pro'ecto
%sta se&&i*n pone en una lista las etapas para ser e:e&utadas en el proye&to, :untos &on su dura&i*n, re&ursos re.ueridos,
entradas, salidas, y dependen&ias- Donde sea posible, esto debera ha&er e/pl&itamente las itera&iones en #ran es&ala en
el pro&eso por e:emplo de minera de datos ( por e:emplo, las repeti&iones del modelado y )ases de e0alua&i*n-
E"!lu!cin inici!l de 8err!$ient!s ' t#cnic!s
%sta se&&i*n da una 0ista ini&ial de .ue herramientas y t,&ni&as probablemente 0an a ser usadas y &omo- %sto des&ribe los
re.uerimientos para las herramientas y t,&ni&as, ponen en una lista herramientas disponibles y t,&ni&as, y los &ompara a
los re.uerimientos-
2. Com#renin de Dato
Bos resultados de la )ase Comprensi*n de Datos por lo #eneral son do&umentados en 0arios in)ormes- 'dealmente, estos
in)ormes seran los es&ritos mientras se estaban reali!ando las respe&ti0as tareas- Bos in)ormes des&riben el &on:unto de
datos .ue es e/plorado durante la &omprensi*n de datos-
Para el in)orme de)initi0o, un sumario de las partes mHs rele0antes es su)i&iente-
In&or$e de coleccin de d!tos inici!les
%ste in)orme des&ribe &omo las di)erentes )uentes de datos identi)i&adas en el in0entario )ueron &apturadas y e/trados-
emas para ser &ubiertos2
Conte/to de datos
Bista de )uentes de datos &on amplia Hrea de &obertura de datos re.ueridos por &ada uno
Para &ada )uente de datos, m,todo de ad.uisi&i*n o e/tra&&i*n
Problemas en&ontrados en ad.uisi&i*n de datos o e/tra&&i*n
In&or$e de descripcin de d!tos
Cada &on:unto de datos ad.uirido es des&rito en este in)orme-
emas para ser &ubiertos2
Cada )uente de datos des&rita detalladamente
Bista de tablas (puede ser s*lo uno) u otros ob:etos de base de datos
Des&rip&i*n de &ada &ampo, in&luyendo unidades, &*di#os usados, et&-
In&or$e de e)plor!cin de d!tos
%ste in)orme des&ribe la e/plora&i*n de datos y sus resultados-
o emas para ser &ubiertos2
o Conte/to, in&luyendo los amplios ob:eti0os de e/plora&i*n de datos- Para &ada Hrea de e/plora&i*n
emprendida2
o Bas re#ularidades esperadas o patrones
o M,todo de dete&&i*n
o Re#ularidades o patrones en&ontrados, esperados e inesperados
o Cual.uier otra sorpresa
o Con&lusiones para trans)orma&i*n de datos, limpie!a de datos, y &ual.uier otro pro&eso pre0io
o Con&lusiones rela&ionadas &on datos .ue e/traen ob:eti0os u ob:eti0os de ne#o&io
o Sumario de &on&lusiones
In&or$e de c!lid!d de d!tos
%ste in)orme des&ribe lo &ompleto y la e/a&titud de los datos-
emas para ser &ubiertos2
Conte/to, in&luyendo amplias e/pe&tati0as sobre &alidad de datos- Para &ada &on:unto de datos2
o 4&er&ar tomas para e0aluar la &alidad de datos
o Bos resultados de e0alua&i*n de &alidad de datos
o Sumario de &on&lusiones de &alidad de datos
-. Pre#aracin de Dato
Bos in)ormes en la )ase de prepara&i*n de datos se en)o&an en los pasos de pre(pro&eso .ue produ&en los datos para ser
minados-
In&or$e de descripcin de conjunto de d!tos
%ste in)orme propor&iona una des&rip&i*n del &on:unto de datos (despu,s del pre(pro&eso) y el pro&eso por el .ue )ue
produ&ido-
emas para ser &ubiertos2
Conte/to, in&luyendo ob:eti0os amplios y plan para el pre(pro&eso
Ra!onamiento para in&lusi*nOe/&lusi*n de &on:unto de datos- Para &ada &on:unto de datos in&luir2
o Ba des&rip&i*n del pre(pro&eso, in&luyendo las a&&iones .ue )ueron ne&esarias para diri#ir &ual.uier &uesti*n
de &alidad de datos
o Des&rip&i*n detallada del &on:unto de datos resultante, tabla por tabla y &ampo por &ampo
o Ra!onamiento para in&lusi*nOe/&lusi*n de atributos
o Des&ubrimientos de he&hos durante el pre(pro&eso, y &ual.uier impli&a&i*n para )uturos traba:os
o Sumario y &on&lusiones
4. Modelado
Bas salidas produ&idas durante la )ase Modelado pueden ser &ombinadas en un in)orme- Su#erimos las se&&iones
si#uientes2
Model!do de presunciones
%sta se&&i*n de)ine &ual.uier presun&i*n e/pl&ita he&ha sobre los datos y &ual.uier presun&i*n .ue estH impl&ita en la
t,&ni&a de modelado a ser usado-
Dise3o de prue%!
%sta se&&i*n des&ribe &omo los modelos son &onstruidos, probados, y e0aluados-
emas para ser &ubiertos2
Conte/to de )ondo la o&upa&i*n del modelo y su rela&i*n a los ob:eti0os de minera de datos- Para &ada tarea de
modelado2
o 4mplia&i*n de la des&rip&i*n del tipo de modelo y los datos .ue se entrenan para ser usado
o Ba e/pli&a&i*n de &omo el modelo serH probado o e0aluado
o Des&rip&i*n de &ual.uier dato re.uerido para las pruebas
o Plan para produ&&i*n de los datos de prueba si hay
o Des&rip&i*n de &ual.uier e/amen planeado de modelos por e/pertos en dominio o de datos
o Sumario de plan de prueba
Descripcin del $odelo
%ste in)orme des&ribe los modelos entre#ados y las des&rip&iones del pro&eso por el .ue ellos )ueron produ&idos-
emas para ser &ubiertos2
Des&rip&i*n de modelos produ&idos- Para &ada modelo2
o ipo de modelo y la rela&i*n a los ob:eti0os de minera de datos-
o Bos parHmetros de a:ustes usados produ&ir el modelo
o Des&rip&i*n detallada del modelo y &ual.uier ras#o espe&ial- Por e:emplo2
Para modelos basados por re#la, listar las re#las produ&idas mHs &ual.uier e0alua&i*n de pre&isi*n por(re#la o el
modelo &ompleto y el al&an&e
Para modelos no transparentes, listar &ual.uier in)orma&i*n t,&ni&a sobre el modelo (&omo la topolo#a de red de los
ner0ios) y al#unas des&rip&iones de &omportamiento produ&idas por el pro&eso de modelado (&omo la pre&isi*n o la
sensibilidad)
Des&rip&i*n del &omportamiento del modelo e interpreta&i*n
o Con&lusiones en &uanto a los patrones en los datos (si hay)- 4 0e&es el modelo re0elarH he&hos importantes
sobre los datos sin un pro&eso de e0alua&i*n separado (por e:emplo, .ue la salida o la &on&lusi*n estHn
dupli&adas en una de las entradas)-
Sumario de &on&lusiones
E"!lu!cin del $odelo
%sta se&&i*n des&ribe los resultados de prueba de los modelos se#Kn el dise1o de prueba-
emas para ser &ubiertos2
Des&rip&i*n de los pro&esos de e0alua&i*n y los resultados, in&luyendo &ual.uier des0ia&i*n del plan de prueba- Para
&ada modelo2
o %0alua&i*n detallada, in&luyendo medidas &omo pre&isi*n e interpreta&i*n del &omportamiento
o Cual.uier &omentario sobre los modelos por e/pertos en el dominio o de datos
o %0alua&i*n resumida de modelos
o 'deas en por .u, una &ierta t,&ni&a de modelado y &iertos a:ustes de parHmetro &ondu&en a resultados
buenosOmalos
o %0alua&i*n sumaria del &on:unto de modelos &ompletos
8. +valuacin
E"!lu!cin de los result!dos de $iner(! de d!tos en lo ue respect! ! criterios de #)ito de negocio
%ste in)orme &ompara los ob:eti0os de minera de datos &on los ob:eti0os de ne#o&io y los &riterios de ,/ito de ne#o&io-
emas para ser &ubiertos2
Re0isi*n de ob:eti0os de ne#o&io y &riterios de ,/ito de ne#o&io (.ue podra haberse &ambiado durante yOo &omo
&onse&uen&ia de la minera de datos)- Para &ada &riterio de ,/ito de ne#o&io2
o Compara&i*n detallada entre &riterio de ,/ito y resultados de minera de datos
o Con&lusiones sobre a&eptabilidad (a&hie0ability) de &riterios de ,/itos y &on0enien&ia del pro&eso de minera
de datos
Re0isi*n del ,/ito de proye&to2
o F%l proye&to ha al&an!ado los ob:eti0os ori#inales de ne#o&ioG
o F5b:eti0os all nue0os de ne#o&io deben ser diri#idos despu,s en el proye&to o en nue0os proye&tosG
o Con&lusiones para )uturos proye&tos de minera de datos
Re"isin de proceso
%sta se&&i*n e0alKa la e)i&a&ia del proye&to e identi)i&a &ual.uier )a&tor .ue podran haber sido pasado por alto .ue debera
ser tenido en &uenta si el proye&to es repetido-
.ist! de posi%les !cciones
%sta se&&i*n ha&e re&omenda&iones en &uanto a los si#uientes pasos en el proye&to-
9. Dearrollo
Pl!n de des!rrollo
%ste in)orme espe&i)i&a el desarrollo de los resultados de minera de datos-
emas para ser &ubiertos2
Resumen de los resultados desarrollados (deri0ado de los in)ormes de Pr*/imos Pasos)
Des&rip&i*n de plan de desarrollo
Super"isin ' pl!n de $!nteni$iento
Ba super0isi*n y el plan de mantenimiento espe&i)i&an &omo los resultados desarrollados deben ser mantenidos- emas
para ser &ubiertos2
Des&rip&i*n de los resultados de desarrollo y la indi&a&i*n de .ue los resultados pueden re.uerir la a&tuali!a&i*n (y el
por .u,)- Para &ada resultado desarrollado2
o Des&rip&i*n de &omo la a&tuali!a&i*n serH pro0o&ada (por una normal a&tuali!a&i*n, por un a&onte&imiento de
a&ti0a&i*n, por la e:e&u&i*n de una super0isi*n)
o Des&rip&i*n de &omo la a&tuali!a&i*n serH reali!ada
Resumen de los pro&esos de a&tuali!a&i*n de los resultados
In&or$e de&initi"o
%l in)orme de)initi0o es usado para resumir el proye&to y sus resultados-
Contenido2
Resumen de la &omprensi*n del ne#o&io2 &onte/to, ob:eti0os, y &riterios de ,/ito
Sumario de pro&eso de minera de datos
Resumen de los resultados de minera de datos
Sumario de la e0alua&i*n de resultados
Resumen del desarrollo y de los planes de mantenimiento
4nHlisis CostoO9ene)i&io
Con&lusiones para el ne#o&io
Con&lusiones para )utura minera de datos
D. Reumen de de#endencia
Ba si#uiente tabla resume las entradas prin&ipales para los operadores- %sto no si#ni)i&a .ue solo las listas de entradas
puestas deberan ser &onsideradas (por e:emplo, los ob:eti0os de ne#o&io deberan ser distribuidos a todo los operadores-
Sin embar#o, el operador debera diri#ir &uestiones espe&)i&as ele0adas por sus entradas-
.-A#"ndice
1. 5loario2(erminologa
Actividad R %s parte de una tarea en la Gua de 3suarioM des&ribe las a&&iones para reali!ar una tarea
Metodologa de CRISP-DM ( %l t,rmino #eneral para todos los &on&eptos desarrollados y de)inidos en el CR'SP(DM
Conte'to de minera de dato ( 3n &on:unto de restri&&iones y presun&iones, tales &omo el tipo de problema, las t,&ni&as o
herramientas, el dominio de apli&a&i*n
(i#o de #ro%lema de minera de dato ( 3na &lase de tpi&os problemas de minera de datos, tales &omo la des&rip&i*n
de datos y el resumen, la se#menta&i*n, las des&rip&iones de &on&eptos, la &lasi)i&a&i*n, la predi&&i*n, el anHlisis de
dependen&ia
5en"rico ( 3na tarea .ue mantiene un &ru&e &on todos los proye&tos de minera de datos posibles
Modelo ( Ba &apa&idad de apli&ar al#oritmos a un &on:unto de datos para prede&ir atributos ob:eti0osM e:e&utable
Salida ( %l resultado tan#ible de la e:e&u&i*n de una tarea
3ae ( 3n t,rmino para la parte de alto ni0el del modelo de pro&eso CR'SP(DMM &onsiste en tareas rela&ionadas
Cao del #roceo ( 3n proye&to espe&)i&o des&rito en t,rminos del modelo de pro&eso
Modelo de #roceo ( De)ine la estru&tura de proye&tos de minera de datos y propor&iona la #ua para su e:e&u&i*nM
&onsiste en el modelo de re)eren&ia y en la #ua de usuario
Modelo de re,erencia ( Des&omposi&i*n de proye&tos de minera de datos en )ases, tareas, y salidas
+#eciali$ado ( 3na tarea .ue ha&e presun&iones espe&)i&as en &onte/tos espe&)i&os de minera de datos
(area ( 3na serie de a&ti0idades para produ&ir una o mHs salidasM parte de una )ase
5ua de uuario ( 4sesoramiento espe&)i&o sobre &omo reali!ar proye&tos de minera de datos
2. (i#o de #ro%lema de minera de dato
Por lo #eneral, los proye&tos de minera de datos impli&an una &ombina&i*n de di)erentes tipos de problema, .ue :untos
solu&ionan el problema de ne#o&io-
2.1. Descripcin de d!tos ' resu$en
Ba des&rip&i*n y el resumen de datos apuntan a la des&rip&i*n &on&isa de las &ara&tersti&as de los datos, tpi&amente
en )orma elemental y a#re#ada- %sto da al usuario una des&rip&i*n de la estru&tura de los datos- 4 0e&es, una
des&rip&i*n y resumen de los datos solo puede ser un ob:eti0o de un proye&to de minera de datos- Por e:emplo, un
minorista podra estar interesado en el 0olumen de 0entas de todas las salidas separado por &ate#oras- Bos &ambios y
di)eren&ias de un perodo anterior podran ser resumidos y desta&ados- %sta &lase de problema estara en lo mas ba:o
de la es&ala de problemas de minera de datos-
%n &asi todos los proye&tos de minera de datos, sin embar#o, la des&rip&i*n y resumen de los datos son un ob:eti0o
subordinado en el pro&eso, tpi&amente en sus tempranas etapas- %n el prin&ipio de un pro&eso de minera de datos, el
usuario a menudo no &ono&e, ni el ob:eti0o pre&iso del anHlisis, ni la naturale!a e/a&ta de los datos- Ba e/plora&i*n
ini&ial del anHlisis de datos puede ayudar a los usuarios a entender la naturale!a de los datos y )ormar hip*tesis
poten&iales de la in)orma&i*n o&ulta- Ba estadsti&a des&ripti0a simple y las t,&ni&as de 0isuali!a&i*n propor&ionan las
primeras ideas sobre los datos- Por e:emplo, la distribu&i*n de &lientes por edad y re#iones #eo#rH)i&as su#iere .ue
partes de un #rupo de &lientes ne&esita para ser diri#ida para )uturas estrate#ias de &omer&iali!a&i*n (mar8etin#)-
Ba des&rip&i*n y el resumen de datos tpi&amente o&urren en &ombina&i*n &on otros tipos de problemas de minera de
datos- Por e:emplo, la des&rip&i*n de datos puede &ondu&ir a la postula&i*n (presun&i*n) de se#mentos interesantes en
los datos- 3na 0e! .ue los se#mentos son identi)i&ados y de)inidos, una des&rip&i*n y un resumen de estos se#mentos
son Ktiles- %s a&onse:able lle0ar a &abo una des&rip&i*n y resumen de datos antes de .ue &ual.uier otro tipo de
problema de minera de dato sea espe&i)i&ado (diri#ido)- %n este do&umento, esto esta re)le:ado en el he&ho .ue la
des&rip&i*n y resumen de datos es una tarea en la )ase de &omprensi*n de datos-
%l resumen tambi,n :ue#a un papel importante en la presenta&i*n de los resultados )inales- Bos resultados de otros
tipos de problemas de minera de datos (por e:emplo, las des&rip&iones de &on&eptos o los modelos de predi&&i*n)
tambi,n pueden ser &onsiderados resumen de datos, pero sobre un ni0el &on&eptual mHs alto-
Mu&hos sistemas de in)orme, pa.uetes estadsti&os, 5B4P, y sistemas %'S pueden &ubrir la des&rip&i*n y resumen de
datos, pero ha&erlo usualmente no propor&iona al#unos m,todos para reali!ar modelado mHs a0an!ado- Si la
des&rip&i*n y resumen de datos son &onsiderados un tipo de problema independiente y nin#Kn modelado )uturo es
re.uerido, enton&es estas herramientas pueden ser apropiadas para reali!ar los &ompromisos de minera de datos-
2.2. Seg$ent!cin
Ba se#menta&i*n apunta a la separa&i*n de los datos en sub#rupos o &lase si#ni)i&ati0os e interesantes- odos los
miembros de un sub#rupo &omparten &ara&tersti&as &omunes- Por e:emplo, en el anHlisis de &esta de &ompras, uno
podra de)inir los se#mentos de &estas se#Kn los art&ulos .ue ellos &ontienen-
Ba se#menta&i*n puede ser reali!ada a mano o semi(automHti&amente- %l analista puede suponer &iertos sub#rupos
&omo rele0antes para la pre#unta de ne#o&io, basada sobre un &ono&imiento pre0io o sobre el resultado de la
des&rip&i*n y el resumen de datos- %n adi&i*n, hay tambi,n t,&ni&as automHti&as de a#rupamiento (&lusterin#) .ue
pueden des&ubrir las estru&turas antes insospe&hadas y o&ultas en datos .ue permite la se#menta&i*n-
Ba se#menta&i*n a 0e&es puede ser un ob:eti0o de minera de datos- %nton&es la dete&&i*n de se#mentos sera el
ob:eti0o prin&ipal de un proye&to de minera de datos- Por e:emplo, todas las dire&&iones en Hreas de &*di#o postal &on
la edad mas alta .ue el promedio y un in#reso podran ser sele&&ionadas para en0iar publi&idad para se#uro de &lni&a
de an&ianos-
Muy a menudo, sin embar#o, la se#menta&i*n es un paso ha&ia la solu&i*n de otros tipos de problema- %nton&es, el
ob:eti0o es de #uardar (mantener) el tama1o de los datos mane:ables o en&ontrar los sub&on:untos de datos
homo#,neos .ue son mHs )H&iles para anali!ar- pi&amente en #randes &on:untos de datos 0ariados a)e&tan el al&an&e
de &ada uno y obs&ure&e los patrones interesantes- %nton&es, la se#menta&i*n apropiada ha&e la tarea mHs )H&il- Por
e:emplo, anali!ar las dependen&ias entre art&ulos en millones de &estas de &ompras es muy di)&il- %sto es mu&ho mHs
)H&il (y mHs si#ni)i&ati0o, #eneralmente) para identi)i&ar dependen&ias en los se#mentos interesantes de &estas de
&ompras (por e:emplo, &estas de alto 0alor, &estas .ue &ontienen bienes de &on)ort, o &estas de un da o de un periodo
parti&ular-
Eota2 %n la literatura, hay al#o de ambi#"edad en el si#ni)i&ado de &iertos t,rminos- 4 0e&es llaman a la se#menta&i*n
a#rupamiento (&lusterin#) o &lasi)i&a&i*n (&lassi)i&ation)- %l Kltimo t,rmino es &on)uso por.ue al#unas personas lo usan
para re)erirse a la &rea&i*n de &lases, mientras .ue otros piensan en la &rea&i*n de modelos para prede&ir las &lases
&ono&idas para &asos antes no 0istos- %n este do&umento, restrin#imos el t,rmino de &lasi)i&a&i*n al Kltimo si#ni)i&ado
(0ea aba:o) y usar el t,rmino se#menta&i*n &on el anti#uo si#ni)i&ado, aun.ue las t,&ni&as de &lasi)i&a&i*n puedan ser
usadas para obtener des&rip&iones de los se#mentos des&ubiertos-
,&ni&as apropiadas2
,&ni&as de a#rupamiento (&lusterin#)
Redes Neuronales
7isuali!a&i*n
%:emplo2
3na empresa de 0enta de autos &on re#ularidad re&o#e in)orma&i*n sobre sus &lientes a&er&a de sus &ara&tersti&as
so&ioe&on*mi&as &omo el in#reso, la edad, el se/o, la pro)esi*n, et&- 3sando anHlisis de a#rupamiento, la empresa
puede di0idir a sus &lientes en sub#rupos mHs &omprensibles y anali!ar la estru&tura de &ada sub#rupo- %strate#ias de
&ontrol de &omer&iali!a&i*n (mar8etin#) espe&)i&as son desarrolladas para &ada #rupo separado-
2.*. Descripciones de concepto
Ba des&rip&i*n de &on&epto apunta a una des&rip&i*n &omprensible de &on&eptos o &lases- %l ob:eti0o no es para
&ompletar el desarrollo de modelos &on predi&&i*n de e/a&titud alta, sino para #anar ideas- Por e:emplo, una empresa
puede estar interesada en el estudio sobre sus &lientes mHs leales y desleales- De una des&rip&i*n de &on&epto de
estos &on&eptos (&lientes leales y desleales) la &ompa1a in)iere .ue podra estar he&ho para en&ontrar &lientes leales o
trans)ormar &lientes desleales a &lientes leales-
3na des&rip&i*n de &on&epto tiene una &one/i*n &er&ana tanto a la se#menta&i*n &omo a la &lasi)i&a&i*n- Ba
se#menta&i*n puede &ondu&ir a una enumera&i*n de ob:etos .ue pertene&en a un &on&epto o &lase sin propor&ionar
&ual.uier des&rip&i*n &omprensible- pi&amente la se#menta&i*n es lle0ada a &abo antes de .ue la des&rip&i*n de
&on&epto sea reali!ada- 4l#unas t,&ni&as (t,&ni&as de a#rupamiento &on&eptuales, por e:emplo (e:e&utan la
se#menta&i*n y des&rip&i*n de &on&epto al mismo tiempo-
Bas des&rip&iones de &on&epto tambi,n pueden ser usadas para ob:eti0os de &lasi)i&a&i*n- Por otra parte, al#unas
t,&ni&as de &lasi)i&a&i*n produ&en modelos de &lasi)i&a&i*n &omprensibles, .ue pueden enton&es ser &onsideradas
des&rip&iones de &on&epto- Ba distin&i*n importante es .ue la &lasi)i&a&i*n apunta a ser &ompleta en al#Kn sentido- %l
modelo de &lasi)i&a&i*n tiene .ue apli&arse a todos los &asos en la pobla&i*n sele&&ionada-
De otra manera, las des&rip&iones de &on&epto no tienen .ue ser &ompletas- %s su)i&iente si ellos des&riben las partes
importantes de los &on&eptos o &lases- %n el e:emplo men&ionado, puede ser su)i&iente &onse#uir las des&rip&iones de
&on&eptos de a.uellos &lientes .ue son &laramente leales-
,&ni&as apropiadas2
M,todos de indu&&i*n de re#las
4#rupamiento &on&eptual
%:emplo2
3sando datos sobre los &ompradores de &o&hes nue0os y una t,&ni&a de indu&&i*n de re#la, una empresa de &o&he
podra #enerar las re#las .ue des&riben sus &lientes leales y desleales- Deba:o son los e:emplos de las re#las
#eneradas2
Si SE9+ : $!c8o ' EDAD ; 01 entonces C.IE<7E : le!l
Si SE9+ : 8e$%r! ' EDAD ; 21 entonces C.IE<7E : le!l
Si PR+1ESI=< : gerente ' EDAD > 01 entonces C.IE<7E : desle!l
Si ES7AD+ CI-I. : soltero ' EDAD > 01 entonces C.IE<7E : desle!l
2.,. Cl!si&ic!cin
Ba &lasi)i&a&i*n asume .ue hay un &on:unto de ob:etos &ara&teri!ados por al#Kn atributo o ras#o .ue pertene&e a
di)erentes &lases- Ba eti.ueta de &lase es un 0alor (simb*li&o) dis&reto y es &ono&ido para &ada ob:eto- %l ob:eti0o es
para &onstruir los modelos de &lasi)i&a&i*n (a 0e&es llamados &lasi)i&adores), .ue asi#na la eti.ueta de &lase &orre&ta a
ob:etos antes no 0istos y sin eti.uetas-
Bos modelos de &lasi)i&a&i*n sobre todo son usados para el modelado predi&ti0o-
Bas eti.uetas de &lase pueden ser presentadas en el a0an&e (de)inida por el usuario, por e:emplo, o deri0adas de la
se#menta&i*n- Ba &lasi)i&a&i*n es uno de los tipos de problemas mHs importantes de minera de datos .ue o&urren en
una amplia #ama de apli&a&iones- Mu&hos problemas de minera de datos pueden ser trans)ormados a problemas de
&lasi)i&a&i*n- Por e:emplo, intentando #uardar &r,ditos para e0aluar el ries#o de a&reditar a un &liente nue0o- %sto
puede ser trans)ormado a un problema de &lasi)i&a&i*n para &rear dos &lases, &lientes buenos y &lientes malos- 3n
modelo de &lasi)i&a&i*n puede ser #enerado de los datos de &liente e/istentes de a&uerdo a su &omportamiento
&rediti&io- %ste modelo de &lasi)i&a&i*n puede enton&es ser usado para asi#nar a &lientes nue0os a una de las dos
&lases y a&eptarlo o re&ha!arlo-
Ba &lasi)i&a&i*n tiene &one/iones a &asi todos los otros tipos de problemas- Bos problemas de predi&&i*n pueden ser
trans)ormados a los problemas de &lasi)i&a&i*n por dis&reti!a&i*n de eti.uetas de &lase &ontinuas, por.ue las t,&ni&as
de dis&reti!a&i*n permiten trans)ormar ran#os &ontinuos en inter0alos dis&retos- %stos inter0alos dis&retos, mHs .ue los
0alores num,ri&os e/a&tos, son usados &omo eti.uetas de &lase, y de ah &ondu&en a un problema de &lasi)i&a&i*n-
4l#unas t,&ni&as de &lasi)i&a&i*n produ&en una &lase &omprensible o des&rip&iones de &on&epto- 6ay tambi,n una
&one/i*n al anHlisis de dependen&ia por.ue los modelos de &lasi)i&a&i*n tpi&amente usan (e/plotan) y a&laran las
dependen&ias entre atributos-
Ba se#menta&i*n puede tambi,n propor&ionar las eti.uetas de &lase o restrin#ir el &on:unto de datos para .ue buenos
modelos de &lasi)i&a&i*n puedan ser &onstruidos- %s Ktil anali!ar des0ia&iones antes de .ue un modelo de &lasi)i&a&i*n
sea &onstruido- Bas des0ia&iones y &ontin#en&ias (&osas )uera de lu#ar(outliers) pueden obs&ure&er el patr*n .ue
podra permitir un buen modelo de &lasi)i&a&i*n- De otro modo, un modelo de &lasi)i&a&i*n tambi,n puede ser usado
para identi)i&ar des0ia&iones y otros problemas &on los datos-
,&ni&as apropiadas2
4nHlisis de dis&riminante
M,todos de indu&&i*n de re#la
4prendi!a:e por Hrboles de De&isi*n
Redes neuronales
Ba K mHs &er&ana
Ra!onamiento basado en &aso
4l#oritmos #en,ti&os
%:emplo2
Bos ban&os #eneralmente tienen in)orma&i*n sobre el &omportamiento de pa#o de sus aspirantes de &r,dito-
Combinando esta in)orma&i*n )inan&iera &on otra in)orma&i*n sobre los &lientes, &omo el se/o, la edad, el in#reso, et&-,
es posible desarrollar un sistema para &lasi)i&ar a &lientes nue0os &omo &lientes buenos o malos (esto es, el ries#o de
&r,dito en la a&epta&i*n de un &liente es alto o ba:o)-
2.0. Prediccin
5tro tipo de problema importante .ue o&urre en una amplia #ama de usos es la predi&&i*n- Ba predi&&i*n es muy similar
a la &lasi)i&a&i*n-
Ba Kni&a di)eren&ia es .ue en la predi&&i*n el atributo ob:eti0o (la &lase) no es un atributo &ualitati0o dis&reto, pero es
uno &ontinuo-
%l ob:eti0o de la predi&&i*n esta en en&ontrar el 0alor num,ri&o del atributo ob:eti0o para ob:etos no 0istos- %n la
literatura, este tipo de problema es a 0e&es llamado re#resi*n- Si la predi&&i*n trata &on datos de serie tiempo, enton&es
a menudo lo llaman pronosti&a&i*n-
,&ni&as apropiadas2
4nHlisis de re#resi*n
^rboles de re#resi*n
Redes neuronales
Ba K mHs &er&ana
M,todos de la Ca:a(Jen8ins
4l#oritmos #en,ti&os
%:emplo2
%l r,dito anual de una empresa interna&ional esta &orrela&ionado &on otros atributos &omo la promo&i*n, la tasa de
&ambio, la tasa de in)la&i*n, et&- eniendo estos 0alores (o estima&iones &on)iables), la empresa puede prede&ir su
r,dito esperado durante el pr*/imo a1o-
2.5. Anlisis de dependenci!
%l anHlisis de dependen&ia &onsiste en en&ontrar un modelo .ue des&ribe dependen&ias si#ni)i&ati0as (o aso&ia&iones)
entre art&ulos de datos o a&onte&imientos- Bas dependen&ias pueden ser usadas para prede&ir el 0alor de unos datos
de art&ulo dada la in)orma&i*n sobre otros art&ulos de datos- 4un.ue las dependen&ias pueden ser usadas para el
modelado predi&ti0o, a.uellos son mas usados por su &omprensi*n- Bas dependen&ias pueden ser estri&tas o
probabilsti&as-
Bas aso&ia&iones son un &aso espe&ial de dependen&ias, .ue re&ientemente se han he&ho muy populares- Bas
aso&ia&iones des&riben las a)inidades de art&ulos de datos (esto es, art&ulos de datos o los a&onte&imientos .ue &on
)re&uen&ia o&urren :untos)- 3n tpi&o es&enario de apli&a&i*n para aso&ia&iones es el anHlisis de &estas .ue ha&en
&ompras- 4ll, una re#la &omo Ien el U? por &iento de todas las &ompras, la &er0e!a y &a&ahuetes han sido &omprados
:untosJ es un e:emplo tpi&o para una aso&ia&i*n-
Bos al#oritmos para dete&tar aso&ia&iones son muy rHpidos y produ&en mu&has aso&ia&iones- Sele&&ionar el mHs
interesante es un desa)o-
%l anHlisis de dependen&ia tiene &one/iones &er&anas a la predi&&i*n y a la &lasi)i&a&i*n, ya .ue las dependen&ias
impl&itamente son usadas para la )ormula&i*n de modelos predi&ti0os- 6ay tambi,n una &one/i*n a des&rip&iones de
&on&epto, .ue a menudo desta&an dependen&ias-
%n apli&a&iones, el anHlisis de dependen&ia a menudo &o(o&urre &on la se#menta&i*n- %n #randes &on:unto de datos,
las dependen&ias son raras 0e&es si#ni)i&ati0as por.ue mu&has in)luen&ias &ubren el uno al otro- %n tales &asos, es
a&onse:able reali!ar un anHlisis de dependen&ia sobre mHs se#mentos homo#,neos de datos-
%l modelo se&uen&ial es una &lase espe&ial de dependen&ia en las .ue el orden de a&onte&imientos es &onsiderado- %n
un anHlisis de &esta de &ompras, las aso&ia&iones des&riben dependen&ias entre art&ulos en un tiempo dado- %l patr*n
se&uen&ial des&ribe el modelo .ue ha&e &ompras de un &liente parti&ular o un #rupo de &lientes en el tiempo-
,&ni&as 4propiadas2
4nHlisis de &orrela&i*n
4nHlisis de re#resi*n
Re#las de aso&ia&i*n
Redes bayesianas
Pro#rama&i*n de l*#i&a indu&ti0a
,&ni&as de 0isuali!a&i*n
+!em#lo 1F
3sando el anHlisis de re#resi*n, un analista de ne#o&io ha en&ontrado .ue hay dependen&ias si#ni)i&ati0as entre las
0entas totales de un produ&to y tanto en su pre&io &omo en la &antidad de #astos de publi&idad- %ste &ono&imiento
permite al ne#o&io al&an!ar el ni0el deseado de las 0entas por &ambio del pre&io del produ&to yOo el #asto de publi&idad-
+!em#lo 2F
4pli&ando al#oritmos de re#la de aso&ia&i*n a datos sobre a&&esorios de &o&he, una empresa de &o&hes ha en&ontrado
.ue en el =V por &iento de &asos, si un CD player es ordenado, una transmisi*n automHti&a es ordenada tambi,n-
9asado en esta dependen&ia, la empresa de &o&he de&ide o)re&er estos a&&esorios &omo un pa.uete, .ue &ondu&e a la
redu&&i*n del &osto-

También podría gustarte