Está en la página 1de 82

RapidMiner: Tutorial online + Operadores

Copyright 2010 Leonardo M. Tito, Felipe Mullicundo. Se otorga permiso para copiar, distribuir y o modi!icar este documento ba"o los t#rminos de la Licencia de $ocumentaci%n Libre de &'(, )ersi%n 1.* o cual+uier otra ,ersi%n posterior publicada por la Free So!t-are Foundation. (na copia de la licencia se puede encontrar en el siguiente enlace. http. ---.gnu.org licenses !dl/1.*.html

FECHA 22 00 2010 12 10 2010

AUTOR/A Leonardo M. Tito, Felipe Mullicundo 1ng. 2ernabeu 3icardo $ario

VERSION 0.1 0.2

DETA

)eri%n 1nicial. 3e,isi%n general.

4ara ,er la traducci%n no o!icial de la Licencia de $ocumentaci%n Libre de &'(, seguir el siguiente enlace. http. stu!!.dane5no-.org g!dl6es.html

INDICE

1nstalaci%n. Tutorial de 3apidMiner 7.0



8"emplo 1. 9rbol de $ecisi%n. 8"emplo 2. 3eglas de :sociaci%n. 8"emplo *. Stac;ing. 8"emplo <. =/Medias. 8"emplo 7. )isuali>aci%n de S)M. 8"emplo ?. 3ellenado de ,alores !altantes. 8"emplo @. &enerador de ruido. 8"emplo 0. (ni%n de Con"untos de 8"emplos. 8"emplo A. )alidaci%n Cru>ada 'um#rica. 8"emplo 10. :prendi>a"e sensiti,o al costo y grB!ico 3CC. 8"emplo 11. :prendi>a"e de Costos :sim#tricos. 8"emplo 12. :prendi>a"e Sensible al Costo. 8"emplo 1*. :nBlisis de Componentes 4rincipales. 8"emplo 1<. Selecci%n For-ard. 8"emplo 17. Selecci%n Multiob"eti,os. 8"emplo 1?. )alidaci%n Drapper. 8"emplo 1@. E:&&:. 8"emplo 10. Con!iguraci%n atributos resultantes de E:&&:. 8"emplo 1A. &eneraci%n de CaracterFsticas $e!inidas por el (suario. 8"emplo 20. 4onderaci%n 8,oluti,a. 8"emplo 21. )isuali>aci%n del Con"unto de $atos y 4esos. 8"emplo 22. Cptimi>aci%n de 4arBmetros. 8"emplo 2*. Gabilitador de Cperadores. 8"emplo 2<. (mbral de 4onderaci%n. 8"emplo 27. 4rueba de Signi!icancia. 8"emplo 2?. CBlculos 2asados en &rupos. 1. $ata Trans!ormation H :ggregation H :ggregate 2. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H &eneration H &enerate :ttributes *. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H &eneration H &enerate 1$ <. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H &eneration H Cptimi>ation H Cptimi>e by &eneration IE:&&:J

:ne5o. $escripci%n de los Cperadores utili>ados en el Tutorial de 3M7


7. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H 4rincipal Component :nBlisis ?. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Cptimi>ation H Cptimi>e
Selection

@. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Cptimi>ation H Cptimi>e
Selection I8,olutionaryJ

0. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Select :ttributes A. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Select by Deights 10. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Dor; on Subset

11. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Trans!ormation H Singular )alue
$ecomposition

12. $ata Trans!ormation H $ata Cleansing H 3eplace Missing )alues 1*. $ata Trans!ormation H Filtering H Filter 85amples 1<. $ata Trans!ormation H 'ame and 3ole Modi!ication H 3ename 17. $ata Trans!ormation H 'ame and 3ole Modi!ication H 3ename by 3eplacing 1?. $ata Trans!ormation H 'ame and 3ole Modi!ication H Set 3ole 1@. $ata Trans!ormation H Set Cperations H :ppend 10. $ata Trans!ormation H Set Cperations H Koin 1A. $ata Trans!ormation H Sorting H Sort 20. $ata Trans!ormation H Type Con,ersion H $iscreti>ation H $iscreti>e by Fre+uency 21. $ata Trans!ormation H Type Con,ersion H $iscreti>ation H 'ominal to 2inominal 22. $ata Trans!ormation H )alue Modi!ication H 'umerical )alue Modi!ication H 'ormali>e 2*. 8,aluation H :ttributes H 4er!ormance I:ttribute CountJ 2<. 8,aluation H :ttributes H 4er!ormance ICFSJ 27. 8,aluation H 4er!ormance Measurement H Classi!ication and 3egression H 4er!ormance I2inominal Classi!icationJ 2?. 8,aluation H 4er!ormance Measurement H Classi!ication and 3egression H 4er!ormance IClassi!icationJ 2@. 8,aluation H 4er!ormance Measurement H Classi!ication and 3egression H 4er!ormance I3egressionJ 20. 8,aluation H 4er!ormance Measurement H 4er!ormance 2A. 8,aluation H 4er!ormance Measurement H 4er!ormance IMin/Ma5J *0. 8,aluation H 4er!ormance Measurement H 4er!ormance I(ser/2asedJ *1. 8,aluation H Signi!icance H :'C): *2. 8,aluation H Signi!icance H T/Test **. 8,aluation H )alidation H Split )alidation *<. 8,aluation H )alidation H L/)alidation *7. 8,aluation H )alidation H Drapper/L/)alidation *?. 85port H :ttributes H Drite Constructions *@. 85port H :ttributes H Drite Deights *0. 85port H Cther H Drite 4arameters *A. 1mport H :ttributes H 3ead Constructions <0. 1mport H :ttributes H 3ead Deights <1. 1mport H Cther H 3ead 4arameters <2. Modeling H :ssociation and 1tem Set Mining H Create :ssociation 3ules <*. Modeling H :ssociation and 1tem Set Mining H F4/&ro-th <<. Modeling H :ttribute Deighting H Cptimi>ation H Cptimi>e Deights I8,olutionaryJ <7. Modeling H :ttribute Deighting H Deight by Chi S+uared Statistic <?. Modeling H Classi!ication and 3egression H 2ayesian Modeling H 'ai,e 2ayes <@. Modeling H Classi!ication and 3egression H Function Fitting H Linear 3egression <0. Modeling H Classi!ication and 3egression H La>y Modeling H ;/'' <A. Modeling H Classi!ication and 3egression H Meta Modeling H MetaCost 70. Modeling H Classi!ication and 3egression H Meta Modeling H Stac;ing 71. Modeling H Classi!ication and 3egression H Support )ector Modeling H Support )ector Machine 72. Modeling H Classi!ication and 3egression H Support )ector Modeling H Support )ector Machine ILibS)MJ 7*. Modeling H Classi!ication and 3egression H Tree 1nduction H $ecision Tree 7<. Modeling H Clustering and Segmentation H ;/Means 77. Modeling H Model :pplication H :pply Model

7?. Modeling H Model :pplication H &roup Models 7@. Modeling H Model :pplication H Thresholds H :pply Threshold 70. Modeling H Model :pplication H Thresholds H Find Threshold 7A. Modeling H Model :pplication H (ngroup Models ?0. 4rocess Control H 2ranch H Select Subprocess ?1. 4rocess Control H Loop H Loop :ttributes ?2. 4rocess Control H Loop H Loop )alues ?*. 4rocess Control H 4arameter H Cptimi>e 4arameters I&ridJ ?<. 4rocess Control H Multiply ?7. 4rocess Control H 4arameter H Set 4arameters ??. 3epository :ccess H 3etrie,e ?@. 3epository :ccess H Store ?0. (tility H $ata &eneration H :dd 'oise ?A. (tility H $ata &eneration H &enerate $ata @0. (tility H Logging H Log @1. (tility H Macros H 85tract Macro @2. (tility H Macros H Set Macro @*. (tility H Miscellaneous H Free Memory @<. (tility H Miscellaneous H Materiali>e $ata @7. (tility H Subprocess

212L1C&3:FM:

Instala!i"n
Deb page de rapidminer. http. rapid/i.com inde5.phpNlangOen 4ara descargar rapid#iner !e http. source!orge.net pro"ects yale !iles

Icommunity

editionJ

ir

al

siguiente

lin;.

4ara Dindo-P. rapidminer/0.0.000500/install.e5e 4ara ambientes tipo (ni5. rapidminer/0.0.000.>ip

4ara ,er un manual online acerca de la instalaci%n de radipminer seguir el siguiente enlace. http. rapid/ i.com content ,ie- 1@ 211 lang,en 4ara e"ecutar rapidminer hay +ue seguir bBsicamente los pasos a continuaci%n.

:brir una consola o terminal. 4osicionarse sobre el home de rapidminer. 8"ecutar. $a%a &$ar li'/rapid#iner($ar

Tutorial de RapidMiner )(*


8ste tutorial muestra los conceptos bBsicos de 3apidMiner y las con!iguraciones de procesos simples +ue se pueden reali>ar. 8l usuario debe tener algQn conocimiento en el dominio de minerFa de datos y 8TL. Siempre +ue este tutorial haga re!erencia al RTutorial de 3apidMinerS, signi!ica la ,ersi%n impresa disponible en http. rapid/i.com. 8s con,eniente leer primero el capFtulo del Tutorial de 3apidMiner para una me"or moti,aci%n, pero tambi#n puede hacer el intento de comen>ar con el tutorial en lFnea sin leer la ,ersi%n impresa. 4or !a,or lea los te5tos cuidadosamente e intente por lo menos los pasos sugeridos. 4or !a,or obser,e. La mayor parte de 3apidMiner proporciona in!ormaci%n adicional si se detiene el puntero del rat%n algunos instantes sobre el elemento Itool tip te5tsJ. $e esta !orma tambi#n se describen todos los operadores y parBmetros. :l !inal de este tutorial se presenta un ane5o con las descripciones de los operadores utili>ados en el mismo y de los re!erenciados por #stos. : continuaci%n se presentarBn una serie de e"emplos, cada uno de los cuales re+uiere +ue se cree un nue,o documento. 4ara ello se debe seleccionar en la barra de menQ el icono 8sto abrirB un nue,o documento y nos mostrarB la siguiente ,entana. .

:+uF se puede seleccionar el lugar del repositorio en donde se guardarB el documento, asF como tambi#n el nombre +ue tendrB. C puede presionarse el bot%n RCancelS para comen>ar a traba"ar sin guardar el documento momentBneamente.

E$e#plo +: ,r'ol de De!isi"n(


8ste proceso comien>a con la carga de datos. $espu#s de !inali>ar el operador de entrada se reali>a un tFpico paso de aprendi>a"e. :+uF se utili>a una implementaci%n de un aprendi> de Brbol de decisi%n +ue tambi#n puede mane"ar ,alores num#ricos Isimilar al muy conocido algoritmo C<.7J. Cada operador puede re+uerir algunas entradas y entrega algunas salidas. 8stos tipos de entrada y salida se pasan entre los operadores. 8n este e"emplo el primer operador T1nputT no re+uiere ninguna entrada y entrega un con"unto de e"emplos como salida. 8ste con"unto de e"emplos es tomado por el aprendi>, el cual entrega la salida !inal. el modelo aprendido. $ebido a +ue este !lu"o de datos es lineal, el diseUo del proceso se denomina Rcadena de operadoresS. MBs adelante ,eremos procesos mBs so!isticados en la !orma de Brbol de operadores. 1. 8n el panel i>+uierdo seleccionar la pestaUa ROperatorsS. Luego seleccionar el operador RepositorA!!ess . Retrie%e y arrastrarlo a la >ona de traba"o. 2. 8n la pestaUa R/ara#etersS del panel derecho, utili>ar el na,egador a la derecha del parBmetro repository entry para locali>ar el archi,o Samples data &ol!.

8n esta imagen se muestran algunas de las ,istas disponibles en 3apidMiner. 4ara habilitar deshabilitar las ,istas, utili>ar la entrada del menQ Vie0 . S1o0 Vie0 y para restaurar la perspecti,a por de!ecto, seleccionar Vie0 . Restore De2ault /erpe!ti%e. *. 8n el panel i>+uierdo seleccionar el operador Modelin3 . Classi2i!ation and Re3ression . Tree Indu!tion . De!ision Tree y arrastrarlo a la >ona de traba"o.

<. Conectar la salida del operador Retrie%e a la entrada del operador De!ision Tree, haciendo clic i>+uierdo en el conector out Ioutput, salidaJ del primero y luego otro clic en el conector tra Itraining set, con"unto de entrenamientoJ del segundo. 7. $e la misma !orma, conectar la salida #od Imodel, modeloJ del operador De!ision Tree al puerto res de la >ona de traba"o.

?. 4resionar el icono Re"ecutarS en la barra de iconos de la parte superior del marco. 8l proceso deberFa comen>ar y luego de un corto tiempo el ,isor de mensa"es de la parte in!erior del marco muestra el mensa"e de +ue el proceso !inali>% correctamente. 8l marco principal cambia a la ,ista de T3esultadosT, +ue muestra el Brbol de decisi%n aprendido Iuna hip%tesis +ue en 3apidMiner se denomina ModeloJ. @. )ol,er al modo edici%n ya sea por medio de la entrada del menQ Vie0 . /erspe!ti%es . Desi3n, el icono de la barra de iconos, o presionando la tecla de !unci%n VF0W.

8n este e"emplo se construy% un Modelo 4redicti,o para saber si se deberFa "ugar o no al tenis, en base a los datos recogidos de e5periencias anteriores. 4ara ,er estos datos hacer doble clic sobre la tabla R&ol!S de la pestaUa R3epositoriesS de la derecha. :parece otra pestaUa entre las pestaUas R3esult C,er,ie-S y RTree I$ecision TreeJS de la ,ista de resultados, denominada R85ampleSet I Samples data &ol!JS. Seleccionar la opci%n Data View.

La primera columna es el 1denti!icador de Casos, la segunda es el :tributo Cb"eti,o y las restantes son los :tributos 4redictores. :hora se puede utili>ar este modelo para predecir si se deberFa "ugar o no al tenis. 4or e"., para la instancia. ICielo O Soleado, Temperatura O 02, Gumedad O A0, )entoso O )erdaderoJ la respuesta es 'C. 0. 3eempla>ar el aprendi> por otro es+uema de aprendi>a"e para tareas de clasi!icaci%n. Gacer clic derecho sobre el operador De!ision Tree y seleccionar Repla!e Operator . Modelin3 . Classi2i!ation and Re3ression . Rule Indu!tion . Rule Indu!tion. $espu#s de e"ecutar el proceso cambiado con este e"emplo, se presenta el 'ue,o modelo. IF IF S IF IF Cielo = Cubierto THEN S Temperatura 77.500 AND Ventoso = Falso AND Cielo = Lluvioso THEN Cielo = Lluvioso THEN No Humedad > 77.500 THEN No ELSE S

E$e#plo 4: Re3las de Aso!ia!i"n(


8ste proceso utili>a 2 importantes operadores de preprocesamiento. 4rimero el operador discreti>aci%n de !recuencias, +ue discreti>a atributos num#ricos colocando los ,alores en inter,alos de igual tamaUo. Segundo, el operador !iltro nominal a binominal crea para cada posible ,alor nominal de un atributo polinominal una nue,a caracterFstica binominal IbinariaJ +ue es ,erdadera si el e"emplo tiene el ,alor nominal particular. 8stos operadores de preprocesamiento son necesarios debido a +ue determinados es+uemas de aprendi>a"e no pueden mane"ar atributos de ciertos tipos de ,alores. 4or e"emplo, el muy e!iciente operador de minerFa de con"untos de Ftems !recuentes F4&ro-th utili>ado en esta con!iguraci%n de proceso solo puede mane"ar caracterFsticas binominales y no num#ricas ni polinominales. 8l siguiente operador es el operador de minerFa de con"untos de Ftems !recuentes F4&ro-th. 8ste operador calcula e!icientemente con"untos de ,alores de atributos +ue ocurren "untos con !recuencia. : partir de estos asF llamados con"untos de Ftems !recuentes se calculan la mayorFa de las reglas de con!ian>a con el generador de reglas de asociaci%n. 'ota. 4ara locali>ar mBs !Bcilmente un operador en el Brbol de operadores, se puede escribir el nombre del mismo en el cuadro XFilterY de la pestaUa RCperatorsS. 1. :gregar el operador Retrie%e en la >ona de traba"o y locali>ar el archi,o Samples data 1ris con el na,egador del parBmetro repository entry. 2. :gregar el operador Utilit- . Su'pro!ess. Cambiar el nombre del mismo a R4reprocesamientoS haciendo clic derecho y seleccionando R3enameS o bien presionando la tecla VF2W. *. Conectar la salida del operador Retrie%e a la entrada del operador /repro!esa#iento ISubprocessJ y luego doble clic sobre este Qltimo Iobser,ar +ue aparece un bot%n en la parte superior de este marco, al lado de R4rocessS, y +ue permite alternar entre el proceso y los subprocesosJ. 8n el panel Nested C1ain del subni,el, agregar los siguientes operadores. *.1 Data Trans2or#ation . T-pe Con%ersion . Dis!reti5ation . Dis!reti5e '- Fre6uen!-( Cambiar el nombre del mismo a R$iscreti>aci%n4orFrecuenciasS y el parBmetro number of bins Icantidad de inter,alosJ a 7, luego conectar la entrada in del panel a la entrada e7a Ie5ample set, con"unto de e"emplosJ de este operador. *.2 Data Trans2or#ation . T-pe Con%ersion . Dis!reti5ation . No#inal to 8ino#inal . Cambiar el nombre del mismo a R'ominal22inominalS, conectar la salida e7a del operador anterior a la entrada e7a de este operador, y luego la salida e7a de #ste al conector out del panel.

10

<. 8n el 4roceso principal, agregar 2 operadores mBs. <.1 Modelin3 . Asso!iation and Ite# Set Minin3 . F/&9ro0t1( Cambiar el parBmetro min support a 0.1, conectar la salida out del operador /repro!esa#iento a la entrada e7a de este operador y la salida e7a de #ste Qltimo al conector res Iresult, resultadoJ de la >ona de traba"o. <.2 Modelin3 . Asso!iation and Ite# Set Minin3 . Create Asso!iation Rules( Cambiar el nombre del mismo a R&enerador3eglas:sociaci%nS, conectar la salida 2re I!re+uent sets, con"untos !recuentesJ del operador F/&9ro0t1 a la entrada ite Iitem sets, con"untos de elementosJ de este operador y la salida rul Irules, reglasJ de #ste Qltimo a otro conector res de la >ona de traba"o.

7. 8"ecutar el proceso. 8l resultado se mostrarB en un ,isor de reglas donde se puede seleccionar la conclusi%n deseada en una lista de selecci%n en el lado i>+uierdo. Como para todas las otras tablas disponibles en 3apidMiner, se pueden ordenar las columnas haciendo clic en la cabecera de la columna. 4resionando CT3L durante estos clics permite la selecci%n de hasta * columnas para ordenar.

11

E$e#plo :: Sta!;in3(
3apidMiner soporta Meta :prendi>a"e incorporando uno o ,arios aprendices bBsicos como hi"os en un operador de meta aprendi>a"e padre. 8n este e"emplo se genera un con"unto de datos con el operador 85ampleSet&enerator y se aplica una ,ersi%n me"orada de Stac;ing sobre este con"unto de datos. 8l operador Stac;ing contiene < operadores internos, el primero es un aprendi> +ue debe aprender el modelo stac;ed de las predicciones de los otros < operadores hi"os Iaprendices bBsicosJ. Ctros es+uemas de meta aprendi>a"e como 2oosting o 2agging solo contienen un operador de apredi>a"e interno. 8n ambos casos los parBmetros de los es+uemas de aprendi>a"e internos son establecidos directamente por los operadores de aprendi>a"e bBsicos. 'o es necesario tratar con los di!erentes estilos de parBmetros para los operadores internos y los de meta aprendi>a"e. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre del mismo a R&eneradorCon"8"sS. 2. 8n la pestaUa R4arametersS seleccionar Rsimple polynomial classification de la lista desplegable del parBmetro target function y cambiar el ,alor del parBmetro number examples a 1000. *. :gregar el operador Modelin3 . Classi2i!ation and Re3ression . Meta Modelin3 . Sta!;in3 a la >ona de traba"o. <. Conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada tra del operador Sta!;in3 y la salida de #ste Qltimo al conector res de la >ona de traba"o. 7. Gacer doble clic sobre el operador Sta!;in3. 8n el panel 8ase earner del ni,el in!erior, agregar los siguientes operadores en paralelo, conectando la entrada y salida de los mismos a los puertos tra y 'as, respecti,amente. 7.1 Modelin3 . Classi2i!ation and Re3ression . Tree Indu!tion . De!ision Tree. 7.2 Modelin3 . Classi2i!ation and Re3ression . mismo a R)ecinosCercanosS y el parBmetro k a 7. a5- Modelin3 . ;&NN . Cambiar el nombre del

7.* Modelin3 . Classi2i!ation and Re3ression . Fun!tion Fittin3 . inear Re3ression.

12

8n el panel Sta!;in3 Model earner de la derecha, agregar el siguiente operador. 7.< Modelin3 . Classi2i!ation and Re3ression . 8a-esian Modelin3 . Nai%e 8a-es . Conectar la entrada y salida del mismo a los puertos sta i>+uierdo y derecho del panel, respecti,amente. ?. 8"ecutar el proceso y obser,ar el resultado.

E$e#plo <: =&Medias(


8n muchos casos, no se puede de!inir ningQn atributo ob"eti,o Ieti+uetaJ y los datos deben ser agrupados automBticamente. 8ste procedimiento se denomina TClusteringT. 3apidMiner soporta un amplio rango de es+uemas de clustering +ue se pueden utili>ar de la misma !orma +ue cual+uier otro es+uema de aprendi>a"e. 8sto incluye la combinaci%n con todos los operadores de preprocesamiento. 8n este e"emplo, se carga el muy conocido con"unto de datos 1ris Ila eti+ueta tambi#n se carga, pero s%lo se utili>a para ,isuali>aci%n y comparaci%n y no para construir los clustersJ. (no de los es+uemas mBs simples de clustering, denominado =Means, se aplica luego a este con"unto de datos. $espu#s se reali>a una reducci%n de dimensionalidad para +ue soporte me"or la ,isuali>aci%n del con"unto de datos en 2 dimensiones. S%lo reali>a el proceso y compara el resultado del clustering con la eti+ueta original Ipor e"., en la ,ista grB!ica del con"unto de e"emplosJ. Tambi#n se puede ,isuali>ar el modelo de cluster. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 1ris con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Modelin3 . Clusterin3 and Se3#entation . ;&Means . Cambiar el nombre del mismo a R=MediasS y el parBmetro k a 3. Conectar la salida del operador Retrie%e a la entrada e7a de este operador y la salida !lu Icluster modelJ de #ste Qltimo al conector res del panel.

13

*. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Trans2or#ation . Sin3ular Value De!o#position. Cambiar el nombre del mismo a RS)$3educci%nS. Conectar la salida !lu Iclustered setJ del operador =Medias I;/MeansJ a la entrada e7a de este operador y los * puertos de salida de #ste Qltimo, e7a Ie5ample set outputJ, ori IoriginalJ y pre Ipreprocessing modelJ, a conectores res del panel.

<. 8"ecutar el proceso y obser,ar el resultado.

E$e#plo ): Visuali5a!i"n de SVM(


8ste proceso muestra las posibilidades de ,isuali>aci%n para las MB+uinas de )ectores Soporte IS)MJ y otros modelos de grandes mBrgenes basados en nQcleos. 8l resultado de este proceso serB un modelo de S)M para el cual se puede cambiar a la ,ista grB!ica. Se proporcionan ,arias dimensiones para prop%sitos de gra!icaci%n incluyendo las eti+uetas del con"unto de entrenamiento, los ,alores al!a Imultiplicadores de LagrangeJ, la in!ormaci%n de si un e"emplo de entrenamiento es un ,ector soporte, los ,alores de la !unci%n IprediccionesJ para los e"emplos de entrenamiento y por supuesto los ,alores de los atributos para todos los

14

e"emplos de entrenamiento. 8stos datos "unto con el potente mecanismo gra!icador de 3apidMiner permiten di!erentes tipos de ,isuali>aciones de S)M. S%lo pruebe alguna de ellas. Sugerimos +ue por lo menos intente tra>ar los R,alores de la !unci%nS contra los ,alores Ral!aS en un diagrama de dispersi%n habitual. 8sto puede darle una buena pista de si la !unci%n de nQcleo utili>ada es apropiada para el con"unto de datos. Lo mismo se aplica para tra>ar los cuartiles de los ,alores de la !unci%n y las al!as coloreadas por la eti+ueta. (na caracterFstica !recuentemente deseada es un diagrama coloreado de la densidad de los ,alores de la !unci%n. 8sto se puede obtener en la ,ista grB!ica de los modelos de S)M cambiando el gra!icador a R$ensidadS, seleccionando dos atributos para los e"es 5 e y, Ratributo1S y Ratributo2S en este e"emplo, y estableciendo la R$ensidad de ColorS para la columna R,alor de la !unci%nS. 8sto conducirB al diagrama de densidad deseado. Si se con!igura el RColor de la 4untaS a R,ector soporteS o Ral!aS, tambi#n obtendrB in!ormaci%n sobre en +u# puntos estBn los ,ectores soporte. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre del mismo a R&eneradorCon"8"sS y los ,alores de los parBmetros target function a Rsum classi!icationS Iseleccionar de la lista desplegableJ, number examples a 200 y number of attributes a 2. 2. :gregar el operador Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine. Cambiar el nombre del mismo a R:prendi>KMyS)S y el parBmetro C a 10.0. Conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada tra de este operador y la salida #od ImodelJ de #ste Qltimo al puerto res.

*. 8"ecutar el proceso y obser,ar el resultado.

15

E$e#plo >: Rellenado de %alores 2altantes(


'ormalmente se emplea mucho tiempo de minerFa de datos para preprocesar los datos. 3apidMiner o!rece ,arios operadores para leer datos de muchas !uentes di!erentes y tambi#n operadores para procesar datos y !acilitar el aprendi>a"e. 8n muchas aplicaciones los datos contienen ,alores !altantes. (no de los operadores de preprocesamiento disponibles los sustituye con el promedio mFn mB5 del atributo. Ctros operadores tambi#n pueden mane"ar ,alores in!initos. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data Labor/'egotiations con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Data Trans2or#ation . Data Cleansin3 . Repla!e Missin3 Values a la >ona de traba"o. Cambiar el nombre del mismo a R4reprocesamientoS. Conectar la salida del operador Retrie%e a la entrada e7a Ie5ample set inputJ del operador /repro!esa#iento ?3eplace Missing )aluesJ y la salida e7a Ie5ample set outputJ de #ste Qltimo al puerto res. *. 8n el cuadro de la derecha I4arametersJ acti,ar la opci%n R85pert ModeS haciendo clic en el icono . 8ste modo tambi#n puede acti,arse desacti,arse presionando VF<W o en la barra de opciones superior con la opci%n R)ie- H 85pert ModeS. 8l modo e5perto I85pert ModeJ permite ,isuali>ar todos los atributos disponibles de cada operador. <. Seleccionar el operador /repro!esa#iento y hacer clic en el cuadro REdit ist?*@AS del parBmetro columns para editar la lista de parBmetros. 8n la ,entana del editor pulsar el bot%n R:dd 8ntryS. 8n la lista desplegable de la columna RattributeS especi!icar los atributos cuyos ,alores !altantes serBn reempla>ados. R-age/inc/1stS y R-age/inc/*rdS. 8n la lista desplegable de la columna Rreplace -ithS seleccionar la !unci%n +ue se utili>arB para determinar el reempla>o de los ,alores !altantes de estos atributos. RminimumS y Rma5imumS, respecti,amente.

16

<. Seleccionar el operador Retrie%e. La pestaUa R4arametersS de la derecha muestra los parBmetros de este operador. 8l operador R3etrie,eS s%lo tiene el parBmetro repository entry. 4resionar VF@W o hacer clic derecho en este operador y luego se seleccionar Breakpoint fter I J. Con esta acci%n se ha establecido un punto de interrupci%n, es decir, el proceso detendrB su e"ecuci%n despu#s de este operador. 7. 8"ecutar el proceso presionando el bot%n R4layS IVF11WJ. Como puede obser,arse el proceso comien>a y se detiene despu#s del punto de interrupci%n del operador R3etrie,eS. 8n este momento 3apidMiner muestra la salida del operador R3etrie,eS en la pestaUa 85ampleSet I3etrie,eJ. La columna RMissingsS indica la cantidad de ,alores !altantes de un campo, por e"., el campo RpensionS tiene 22 ,alores !altantes. Cambiar de !eta Data View a Data View para obser,ar los ,alores !altantes. 8n la tabla de datos se pueden encontrar algunos signos de interrogaci%n, +ue indican un ,alor !altante para una muestra I!ilaJ. 8l cuadro R)ie- FilterS en la es+uina superior derecha de la pestaUa permite !iltrar el con"unto de datos mediante ciertos criterios. 4robar algunos !iltros para ,er +u# muestras estBn completas y cuBles tienen ,alores !altantes. ?. )ol,er a la perspecti,a de diseUo Ibarra de menQ. )ie- 4erspecti,es $esignJ. 4ara sustituir los ,alores !altantes en los datos seleccionamos el operador /repo!esa#iento I3eplace Missing )aluesJ. $ebemos asegurarnos +ue el modo e5perto este habilitado. 8l parBmetro attribute filter type determina los atributos a los cuales se les aplicarB el preprocesador. 8l parBmetro "efault determina el ,alor con el +ue serB reempla>ado un ,alor !altante. Se pueden seleccionar ,arias opciones, por e"., el ,alor medio del atributo. Se pueden concatenar ,arios operadores de preprocesamiento para sustituir di!erentes atributos con di!erentes tipos de ,alores por de!ecto.

17

E$e#plo B: 9enerador de ruido(


8l 'oiseCperator se puede utili>ar para agregar ruido controlado o la caracterFstica de ruido al con"unto de datos. 8sto es especialmente Qtil para estimar la per!ormance de un preprocesamiento de caracterFsticas o la robuste> de un aprendi> especF!ico. 3apidMiner tambi#n proporciona muchos otros operadores de preprocesamiento incluyendo un !iltro de TF1$F, o!uscar, mane"ar series de ,alores y otros. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Utilit- . Data 9eneration . Add Noise a la >ona de traba"o. Cambiar el nombre del mismo a R&enerador3uidoS y los ,alores de los parBmetros ran"om attributes a * Icantidad de atributos aleatorios a agregarJ, offset a 7.0 Idespla>amiento agregado a los ,alores de cada atributo aleatorioJ y linear factor a 2.0 I!actor lineal multiplicado por los ,alores de cada atributo aleatorioJ.
18

*. Conectar la salida del operador Retrie%e a la entrada e7a Ie5ample set inputJ del operador 9eneradorRuido I:dd 'oiseJ y la salida e7a Ie5ample set outputJ de #ste Qltimo al puerto res.

<. 8"ecutar el proceso y obser,ar el resultado.

E$e#plo C: Uni"n de Con$untos de E$e#plos(


8l operador 85ampleSetKoin de este proceso construye la uni%n de dos con"untos dados de e"emplos. Cbser,e +ue los atributos con nombres iguales serBn renombrados durante el proceso de uni%n. Los con"untos de e"emplos deben proporcionar un atributo de 1d para determinar los e"emplos correspondientes. $espu#s de alcan>ar el punto de interrupci%n se pueden e5aminar los con"untos de e"emplos de entrada. $espu#s de reanudar el proceso, el resultado serB el con"unto de e"emplos unidos. 1. :gregar 2 operadores Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre de los mismos a R4ri&eneradorCon"8"sS y RSeg&eneradorCon"8"sS. 8stablecer el parBmetro target function I!unci%n ob"eti,oJ de ambos en Rsum classi!icationS y el parBmetro number of attributes Icantidad de atributosJ en # y 10 respecti,amente. 2. :gregar 2 operadores Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . 9eneration . 9enerate ID. Cambiar el nombre de los mismos a R4ri1d8ti+uetadorS y RSeg1d8ti+uetadorS. *. Conectar las salidas de los operadores /ri9eneradorCon$E$s I&enerate $ataJ y Se39eneradorCon$E$s I&enerate $ataJ a las entradas e7a Ie5ample set inputJ de los operadores /riIdEti6uetador I&enerate 1$J y Se3IdEti6uetador I&enerate 1$J, respecti,amente.
19

<. :gregar un operador Data Trans2or#ation . Set Operations . Doin. Cambiar el nombre del mismo a R(nirCon"8"sS y +uitar la tilde del parBmetro remo$e "ouble attributes I,isible en modo e5pertoJ. 7. Conectar las salidas e7a Ie5ample set outputJ de los operadores /ri9eneradorCon$E$s y Se39eneradorCon$E$s a las entradas ri3 IrightJ y le2 Ile!tJ del operador UnirCon$sE$s IKoinJ, respecti,amente, y la salida $oi I"oinJ de #ste Qltimo al puerto res. ?. Seleccionar el operador Se39eneradorCon$E$s y presionar F@ para establecer un punto de interrupci%n. @. 8"ecutar el proceso, obser,ador el resultado parcial y reanudarlo luego de la interrupci%n presionando nue,amente el bot%n play, +ue ahora es de color ,erde.

E$e#plo E: Valida!i"n Cru5ada Nu#Fri!a(


8n muchos casos el modelo aprendido no es de inter#s sino la e5actitud del modelo. (na posible soluci%n para estimar la precisi%n del modelo aprendido es aplicarlo a datos de prueba eti+uetados y calcular la cantidad de errores de predicci%n Iu otros criterios de per!ormanceJ. $ebido a +ue los datos eti+uetados son poco !recuentes, a menudo se usan otros en!o+ues para estimar la per!ormance de un es+uema de aprendi>a"e. 8ste proceso muestra la R,alidaci%n cru>adaS en 3apidMiner. La ,alidaci%n cru>ada di,ide los datos eti+uetados en con"untos de entrenamiento y de prueba. Los modelos se aprenden sobre los datos de entrenamiento y se aplican sobre los datos de prueba. Los errores de predicci%n se calculan y promedian para todos los subcon"untos. 8ste blo+ue de construcci%n se puede
20

utili>ar como operador interno para ,arios -rappers IcontenedoresJ como los operadores de generaci%n selecci%n de caracterFsticas. 8ste es el primer e"emplo de un proceso mBs comple"o. Los operadores construyen una estructura de Brbol. 4or ahora esto es su!iciente para aceptar +ue el operador de ,alidaci%n cru>ada re+uiere un con"unto de e"emplos como entrada y entrega un ,ector de ,alores de per!ormance como salida. :demBs gestiona la di,isi%n en e"emplos de entrenamiento y de prueba. Los e"emplos de entrenamiento se utili>an como entrada para el aprendi> de entrenamiento, el cual entrega un modelo. 8ste modelo y los e"emplos de prueba !orman la entrada de la cadena de aplicadores +ue entregan la per!ormance para este con"unto de prueba. Los resultados para todos los posibles con"untos de prueba son recogidos por el operador de ,alidaci%n cru>ada. Finalmente se calcula el promedio y se entrega como resultado. (na de las cosas mBs di!Fciles para el principiante de 3apidMiner es a menudo tener una idea del !lu"o de datos. La soluci%n es sorprendentemente simple. el !lu"o de datos se aseme"a a una bQs+ueda primero en pro!undidad a tra,#s de la estructura de Brbol. 4or e"emplo, despu#s de procesar el con"unto de entrenamiento con el primer hi"o de la ,alidaci%n cru>ada del modelo aprendido, se entrega al segundo hi"o Ila cadena de aplicadoresJ. 8sta idea bBsica de !lu"o de datos es siempre la misma para todos los procesos y pensar en este !lu"o serB muy con,eniente para el usuario e5perimentado. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a RL)alS y el ,alor del parBmetro sampling type Itipo de muestreoJ a R s%uffle" samplingS Imodo e5pertoJ. Conectar la salida del operador Retrie%e a la entrada tra ItrainingJ de este operador y la salida a%e Ia,eragable, promediableJ de #ste Qltimo al conector res IresultJ del panel.

*. Gacer doble clic sobre el operador GVal IL/)alidationJ. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. *.1 Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine ? i'SVM@. Cambiar el nombre del mismo a R8ntrenamientoS y los ,alores de los parBmetros s$m type a Repsilon&'V(S, kernel type a RpolyS y C a 1000.0. Conectar la entrada tra ItrainingJ y salida #od ImodelJ de este operador a los puertos tra y #od del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. *.2 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R4ruebaS y conectar las entradas #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. *.* E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@. Cambiar el nombre del mismo a R8,aluaci%nS y tildar las siguientes opciones IademBs de las +ue estBn tildadas por de!ectoJ. absolute error Ierror absolutoJ, relati$e error Ierror relati,oJ, normali)e" absolute error Ierror absoluto normali>adoJ, root relati$e s*uare" error IraF> cuadrada del error relati,o al

21

cuadradoJ, s*uare" error Ierror al cuadradoJ, y correlation Icorrelaci%nJ. Conectar la salida la' Ilabeled data, datos eti+uetadosJ del operador /rue'a I:pply ModelJ a la entrada la' de este operador y la salida per Iper!ormanceJ de #ste Qltimo al conector a%e Ia,eragable 1J del panel.

<. 8"ecutar el proceso. 8l resultado es una estimaci%n de la per!ormance del es+uema de aprendi>a"e sobre los datos de entrada.

7. Seleccionar el operador de e,aluaci%n y ele"ir otros criterios de per!ormance. 8l criterio principal se utili>a para las comparaciones de per!ormance, por e"emplo, en un -rapper. ?. Sustituir la ,alidaci%n cru>ada GVal por otros es+uemas de e,aluaci%n y e"ecutar el proceso con ellos. :lternati,amente, se puede ,eri!icar c%mo !uncionan otros aprendices sobre estos datos y sustituir el operador de entrenamiento.

E$e#plo +*: Aprendi5a$e sensiti%o al !osto - 3rH2i!o ROC(


(tili>amos los ,alores de con!ian>a entregados por el aprendi> empleado en este proceso Ipredicciones !le5ibles en lugar de clasi!icaciones rFgidasJ. Todos los aprendices de 3apidMiner entregan estos ,alores de con!ian>a, ademBs de los ,alores pronosticados. 8stos se pueden interpretar como una especie de garantFa del aprendi> de +ue la predicci%n rFgida IcrispJ correspondiente es en realidad la eti+ueta ,erdadera. 8n consecuencia, esto se denomina con!ian>a. 8n muchos escenarios de clasi!icaci%n binaria, un error de predicci%n e+ui,ocada no ocasiona los mismos costos para ambas clases. (n sistema de aprendi>a"e debe tomar en cuenta estos costos asim#tricos. Mediante el uso de las con!ian>as de predicci%n podemos con,ertir todos los aprendices de clasi!icaci%n en aprendices sensibles al costo. 4or lo tanto, a"ustamos el umbral de con!ian>a para hacer algunas predicciones Igeneralmente 0,7J. (n operador ThresholdFinder se puede utili>ar para determinar el me"or umbral con respecto a los pesos de la clase. 8l siguiente operador Threshold:pplier mapea las predicciones !le5ibles Icon!ian>asJ a clasi!icaciones rFgidas con respecto al ,alor del umbral determinado. 8l operador ThresholdFinder tambi#n puede producir una cur,a 3CC para ,arios umbrales. 8sta es una buena ,isuali>aci%n de la per!ormance de
22

un es+uema de aprendi>a"e. 8l proceso se detiene cada ,e> +ue se gra!ica la cur,a 3CC hasta +ue se pulsa el bot%n C; I7 ,ecesJ. 8l parBmetro s%ow+(,C+plot determina si el grB!ico 3CC se debe mostrar para todos. Se puede encontrar in!ormaci%n adicional sobre los operadores de ,alidaci%n utili>ados en este proceso en el correspondiente directorio de e"emplos y, por supuesto, en la re!erencia de operadores del tutorial de 3apidMiner. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre del mismo a R&eneradorCon"8"sS. 8stablecer los parBmetros target function I!unci%n ob"eti,oJ en Rrandom dots classi!icationS, number examples Icantidad de e"emplosJ en 700, number of attributes Icantidad de atributosJ en 2, attributes lower boun" IlFmite in!erior de los atributosJ en 0.0 y attributes upper boun" IlFmite superior de los atributosJ en 27.0. 2. :gregar el operador E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a RL)alS y el ,alor del parBmetro number of $ali"ations Icantidad de ,alidacionesJ en 7. Conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada tra ItrainingJ de este operador y la salida a%e Ia,eragable, promediableJ de este Qltimo al conector res IresultJ del panel.

*. Gacer doble clic sobre el operador GVal IL/)alidationJ. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. *.1 Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine ? i'SVM@. Cambiar el nombre del mismo a R:prendi>LibS)MS y el ,alor del parBmetro gamma a 1.0. Conectar la entrada tra ItrainingJ y salida #od ImodelJ de este operador a los puertos tra y #od del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. *.2 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. *.* Modelin3 . Model Appli!ation . T1res1olds . Find T1res1old . Cambiar el nombre del mismo a R2uscador(mbralS y tildar la opci%n s%ow roc plot Imostrar grB!ico 3CCJ, ademBs de la opci%n use example weig%ts Iutili>ar pesos de las muestrasJ, +ue estB seleccionada por de!ecto. Conectar la salida la' Ilabelled data, datos eti+uetadosJ del operador Apli!adorModelo I:pply ModelJ a la entrada e7a Ie5ample setJ de este operador. *.< Modelin3 . Model Appli!ation . T1res1olds . Appl- T1res1old. Cambiar el nombre del mismo a R:plicador(mbralS. Conectar las salidas e7a Ie5ample set, con"unto de e"emplosJ y t1r Ithreshold, umbralJ del operador 8us!adorU#'ral IFind ThresholdJ a la entradas e7a y t1r de este operador, respecti,amente.

23

*.7 E%aluation . /er2or#an!e Measure#ent . /er2or#an!e . Conectar la salida e7a Ie5ample setJ del operador Apli!arModelo a la entradas la' Ilabelled dataJ de este operador y la salida per de #ste Qltimo al conector a%e Ia,eragableJ del panel.

<. 8"ecutar el proceso y obser,ar el resultado.

E$e#plo ++: Aprendi5a$e de Costos Asi#Ftri!os(


8ste proceso muestra c%mo se puede obtener un umbral de un clasi!icador so!t I!le5ibleJ y aplicarlo a un con"unto independiente de prueba. 8l aprendi> utili>ado en este proceso reali>a predicciones !le5ibles Iso!tJ en lugar de clasi!icaciones rFgidas IcrispJ. Las con!ian>as de predicci%n entregadas por todos los aprendices de 3apidMiner +ue pueden mane"ar eti+uetas nominales Iclasi!icaci%nJ serBn utili>adas como predicciones !le5ibles.

24

8l operador ThresholdFinder se utili>a para determinar el me"or umbral con respecto a los pesos de la clase. 8n este caso, una clasi!icaci%n err%nea de la primera clase Inegati,oJ tendrB un costo 7 ,eces mayor +ue el otro error. Cbser,e +ue se debe e"ecutar un operador Model:pplier sobre el con"unto de prueba antes de +ue se pueda encontrar un umbral. $ebido a +ue este modelo debe ser aplicado de nue,o mBs tarde, el aplicador del modelo guarda el modelo de entrada. 8l 1CConsumer asegura +ue la predicci%n se reali>a sobre el con"unto de datos correcto. Los Qltimos pasos aplican el modelo y el umbral sobre el con"unto de datos en cuesti%n. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre del mismo a R&eneradorCon"8ntrenS y los parBmetros target function a Rpolynomial classi!icationS y number of attributes a 20. 2. :gregar el operador Modelin3 . Classi2i!ation and Re3ression . a5- Modelin3 . ;&NN . Cambiar el nombre del mismo a R)ecinosMBsCercanosI y el parBmetro k a 10. Conectar la salida del operador 9eneradorCon$Entren I&enerate $ataJ a la entrada tra Itraining setJ de este operador. *. :gregar otro operador Utilit- . Data 9eneration . 9enerate Data. Cambiar el nombre del mismo a R&eneradorCon"4ruebaS y los ,alores de los parBmetros target function a Rpolynomial classi!icationS y number of attributes en 20. <. :gregar el operador Modelin3 . Model Appli!ation . Appl- Model y cambiar el nombre del mismo a R4ruebaModeloI( Conectar la salida #od del operador Ve!inosMHsCer!anos I;/''J y la salida del operador 9eneradorCon$/rue'a I&enerate $ataJ a las entradas #od ImodelJ y unl Iunlabelled dataJ de este operador, respecti,amente. 7. :gregar el operador Modelin3 . Model Appli!ation . T1res1olds . Find T1res1old . Cambiar el nombre del mismo a R2uscador(mbralI y el parBmetro misclassification costs secon" a 2.0. Conectar la salida la' Ilabelled dataJ del operador /rue'aModelo I:pply ModelJ a la entrada e7a Ie5ample setJ de este operador. ?. :gregar otro operador Utilit- . Data 9eneration . 9enerate Data. Cambiar el nombre del mismo a R&eneradorCon":plicS y los ,alores de los parBmetros target function a Rpolynomial classi!icationS, number examples a 200 y number of attributes a 20. @. :gregar otro operador Modelin3 . Model Appli!ation . Appl- Model y cambiar el nombre del mismo a R:plicaci%nModeloI. Conectar la salida #od del operador /rue'aModelo y la salida del operador 9eneradorCon$Apli! I&enerate $ataJ a las entradas #od y unl de este operador, respecti,amente. 0. :gregar el operador Modelin3 . Model Appli!ation . T1res1olds . Appl- T1res1old - ! ambiar el nombre del mismo a R:plicador(mbralS. Conectar la salida t1r del operador 8us!adorU#'ral IFind ThresholdJ y la salida la' del operador Apli!a!i"nModelo I:pply ModelJ a la entradas y t1r y e7a de este operador, respecti,amente. A. :gregar el operador E%aluation . /er2or#an!e Measure#ent . /er2or#an!e. Conectar la salida e7a Ie5ample setJ del operador Apli!adorU#'ral I:pply ThresholdJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector res del panel.

25

4er!ormance)ector. accuracy. @<.00Z Con!usionMatri5. True. negati,e positi,e negati,e. 0? *7 positi,e. 1@ ?2 precision. @0.<0Z Ipositi,e class. positi,eJ Con!usionMatri5. True. negati,e positi,e negati,e. 0? *7 positi,e. 1@ ?2 recall. ?*.A2Z Ipositi,e class. positi,eJ Con!usionMatri5. True. negati,e positi,e negati,e. 0? *7 positi,e. 1@ ?2 :(C IoptimisticJ. 0.0<* Ipositi,e class. positi,eJ :(C. 0.@A@ Ipositi,e class. positi,eJ :(C IpessimisticJ. 0.@70 Ipositi,e class. positi,eJ

E$e#plo +4: Aprendi5a$e Sensi'le al Costo(


8ste proceso es otro e"emplo de aprendi>a"e sensible al costo, es decir, para el caso donde di!erentes errores de predicci%n causarFan di!erentes costos. :demBs del operador de preprocesamiento ThresholdFinder, +ue tambi#n es capa> de entregar grB!icos 3CC para 2 clases, hay otro operador +ue se puede utili>ar para aprendi>a"e sensible al costo.

26

8ste operador es parte del aprendi>, grupo Meta, y se denomina MetaCost. Se utili>a como cual+uier otro es+uema de meta/aprendi>a"e y debe contener otro operador de aprendi>a"e interno, en este caso se utili>a el aprendi> de Brbol de decisi%n. La matri> de costos utili>ada para el aprendi>a"e sensible al costo se puede de!inir mediante el editor de matrices Ien el operador MetaCost, presionar R-"it !atrix...S del parBmetro cost matrixJ. 8l !ormato bBsico del parBmetro cost matrix es J=11 =12 ... =1m, =21 =22 ... =2m, ... K =n1 ... =nmL, por e"emplo, para una matri> de costos de 252 de un problema de clasi!icaci%n binaria es J0 1 K 10 0L. 8ste e"emplo +uiere decir +ue tanto los costos para los errores de predicci%n de la primera clase como para los de la segunda son 10 ,eces mBs altos +ue los otros tipos de errores. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data . Cambiar el nombre del mismo a R&eneradorCon"8"sS y los ,alores de los parBmetros target function a Rpolynomial classi!icationS y number examples a *00. 2. :gregar el operador E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a R)alidaci%nI y el ,alor del parBmetro number of $ali"ations a 7. Conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada tra ItrainingJ de este operador y la salida a%e Ia,eragable 1J de este Qltimo al conector res del panel.

*. Gacer doble clic sobre el operador Valida!i"n IL/)alidationJ. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. *.1 Modelin3 . Classi2i!ation and Re3ression . Meta Modelin3 . MetaCost . Cambiar el nombre del mismo a RMetaCostoS y utili>ar el editor de matrices del parBmetro cost matrix para ingresar los ,alores de la matri> de costos X0 1[ 10 0Y. , Conectar la entrada tra y salida #od de este operador a los puertos tra y #od del panel, respecti,amente. 8n el panel Testin3 de la derecha, agregar los siguientes operadores. *.2 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. *.* :gregar el operador E%aluation . /er2or#an!e Measure#ent . /er2or#an!e. Conectar la salida la' del operador Apli!adorModelo I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector a%e del panel.

27

<. Gacer doble clic sobre el operador MetaCosto IMetaCostJ. 8n el panel in!erior, agregar el siguiente operador.

earnin3 /ro!ess del ni,el

<.1 Modelin3 . Classi2i!ation and Re3ression . Tree Indu!tion . De!ision Tree. Conectar la entrada tra y la salida #od del mismo a los puertos tra y #od del panel, respecti,amente.

3esultado. 4er!ormance)ector. accuracy. 0*.**Z \ / ?.70Z Imi;ro. 0*.**ZJ Con!usionMatri5. True. negati,e positi,e negati,e. 1<7 <A positi,e. 1 107 precision. AA.20Z \ / 1.?0Z Imi;ro. AA.0?ZJ Ipositi,e class. positi,eJ Con!usionMatri5. True. negati,e positi,e negati,e. 1<7 <A positi,e. 1 107 recall. ?0.20Z \ / 1*.00Z Imi;ro. ?0.10ZJ Ipositi,e class. positi,eJ Con!usionMatri5. True. negati,e positi,e negati,e. 1<7 <A positi,e. 1 107 :(C IoptimisticJ. 0.A07 \ / 0.007 Imi;ro. 0.A07J Ipositi,e class. positi,eJ :(C. 0.A@0 \ / 0.01* Imi;ro. 0.A@0J Ipositi,e class. positi,eJ :(C IpessimisticJ. 0.A@? \ / 0.01< Imi;ro. 0.A@?J Ipositi,e class. positi,eJ

E$e#plo +:: AnHlisis de Co#ponentes /rin!ipales(


8l cBlculo de componentes principales se usa con !recuencia como un paso de procesamiento de la trans!ormaci%n de caracterFsticas. 4uede reducir la dimensionalidad del con"unto de datos en cuesti%n, mientras se preser,an las ,arian>as mBs importantes de los datos. 8"ecutar el proceso y comprobar la salida en la ,ista grB!ica del con"unto de datos 1ris cargado y trans!ormado por este proceso. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 1ris con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Data Trans2or#ation . Value Modi2i!ation . Nu#eri!al Value Modi2i!ation . Nor#ali5e. Cambiar el nombre del mismo a R'ormali>aci%nS y conectar la salida del operador Retrie%e a la entrada e7a Ie5ample set inputJ de este operador. *. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . /rin!ipal Co#ponent Anal-sis. Cambiar el nombre del mismo a RComponentes 4rincipalesS y conectar la
28

salida e7a del operador Nor#ali5a!i"n I'ormali>eJ a la entrada e7a de este operador, y las salidas e7a y pre a sendos conectores res del panel.

3esultados.

E$e#plo +<: Sele!!i"n For0ard(


Las trans!ormaciones del espacio de atributos pueden !acilitar el aprendi>a"e de manera +ue simples es+uemas de aprendi>a"e puedan ser capaces de aprender !unciones comple"as. 8sta es la idea bBsica de la !unci%n ;ernel. 4ero incluso sin es+uemas de aprendi>a"e basados en ;ernel, la trans!ormaci%n del espacio de caracterFsticas, puede ser necesaria para alcan>ar buenos resultados de aprendi>a"e. 3apidMiner o!rece ,arios m#todos di!erentes de selecci%n, construcci%n, y e5tracci%n de caracterFsticas. 8ste proceso de selecci%n Ila muy conocida selecci%n !or-ardJ utili>a una ,alidaci%n cru>ada interna para la estimaci%n de la per!ormance. 8ste elemento sir,e como e,aluaci%n de la aptitud para todos los con"untos candidatos de caracterFsticas. $ebido a +ue se toma en cuenta la per!ormance de un determinado es+uema de aprendi>a"e, nos re!erimos a los procesos de este tipo como Ren!o+ues -rapperS. :demBs, el operador log del proceso gra!ica los resultados intermedios. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Opti#i5ation . Opti#i5e Sele!tion. Cambiar el nombre del mismo a RSCS y conectar la salida del operador Retrie%e a la entrada e7a de este operador, y las salidas e7a Ie5ample set outJ, 0ei I-eightsJ y per Iper!ormanceJ a conectores res del panel.

29

*. Gacer doble clic sobre el operador SC ICptimi>e SelectionJ. 8n el panel E%aluation /ro!ess del ni,el in!erior, agregar los siguientes operadores. *.1 E%aluation . Validation . G&Validation . Cambiar el nombre del mismo a RL)alidaci%nS y el parBmetro sampling type a Rshu!!led samplingS. Conectar la entrada e7a del panel a la entrada tra ItrainingJ de este operador. *.2 Utilit- . o33in3 . o3. Cambiar el nombre del mismo a RLog4rocesoS y conectar la salida a%e Ia,eragable 1J del operador GValida!i"n IL/)alidationJ a la entrada t1r Ithrough 1J de este operador y la salida Ithrough 1J del mismo, al conector per Iper!ormanceJ del panel. 8n el parBmetro log de este operador editar la lista de parBmetros para incluir los campos RgenerationS y Rper!ormanceS.

<. Gacer doble clic sobre el operador Valida!i"n IL/)alidationJ. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. <.1 Modelin3 . Classi2i!ation and Re3ression . a5- Modelin3 . ;&NN . Cambiar el nombre del mismo a R)ecinosCercanosS y el parBmetro k a 7. Conectar la entrada tra y salida #od de este operador a los puertos tra y #od del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. <.2 Modelin3 . Model Appli!ation . Appl- Model. Cambiar el nombre del mismo a R:plicadorS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. <.* E%aluation . /er2or#an!e Measure#ent . /er2or#an!e. Conectar la salida la' del operador Apli!ador I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector a%e del panel.

30

7. 8"ecutar el proceso y cambiar en la ,ista R3esultS, seleccionar la pestaUa RLogS. &ra!icar Rper!ormanceS contra RgenerationS del operador de selecci%n de caracterFsticas. ?. Seleccionar el operador de selecci%n de caracterFsticas en el panel del proceso principal. Cambiar el parBmetro selection "irection de R!or-ardS Iselecci%n hacia adelanteJ a Rbac;-ardS Ieliminaci%n hacia atrBsJ. 3einiciar el proceso. Todas las caracterFsticas serBn seleccionadas. @. Seleccionar el operador de selecci%n de caracterFsticas. Gacer clic derecho para abrir el menQ conte5tual y reempla>ar el operador por otro es+uema de selecci%n de caracterFsticas Ipor e"emplo un algoritmo gen#ticoJ. 0. Cbser,ar la lista del operador de registro del proceso. Cada ,e> +ue se aplica recoge los datos especi!icados. Consultar el Tutorial 3apidMiner para mBs e5plicaciones. $espu#s de cambiar el operador de selecci%n de caracterFsticas al en!o+ue de algoritmos gen#ticos, hay +ue especi!icar los ,alores correctos. (tili>ar el operador de registro de proceso para registrar los ,alores en lFnea.

E$e#plo +): Sele!!i"n Multio'$eti%os(


8ste es otro en!o+ue muy simple de selecci%n gen#tica de caracterFsticas. $ebido a otro es+uema de selecci%n, el operador de selecci%n de caracterFsticas no s%lo intenta ma5imi>ar la per!ormance entregada por el e,aluador del con"unto de caracterFsticas, sino +ue tambi#n intenta minimi>ar el nQmero de caracterFsticas. 8l resultado es un grB!ico de 4areto diagramado durante la optimi>aci%n. $espu#s de !inali>ada la optimi>aci%n, el usuario puede hacer doble clic en las soluciones %ptimas de 4areto y ,er +u# con"unto de caracterFsticas estB representado por un punto. 8l grB!ico de 4areto no s%lo brinda una me"or comprensi%n de la cantidad total de caracterFsticas necesarias, sino tambi#n la compensaci%n entre la cantidad de caracterFsticas y el rendimiento, y un ran;ing de caracterFsticas. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data . Cambiar el nombre del mismo a R&eneradorCon"8"sS y los ,alores de los parBmetros target function a Rsum classi!icationS, number examples a 200, y number of attributes a 10. 2. :gregar el operador Utilit- . Data 9eneration . Add Noise. Cambiar el nombre del mismo a R&enerador3uidoS y los ,alores de los parBmetros ran"om attributes a 10 y label noise a 0.0. Conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada e7a de este operador. *. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Opti#i5ation . Opti#i5e Sele!tion ?E%olutionar-@. Cambiar el nombre del mismo a R:lgoritmo&en#ticoS y los ,alores de los parBmetros population si)e ItamaUo de la poblaci%nJ a *0 y m.ximum number of generations a 17. Conectar la salida e7a del operador 9eneardorRuido I:dd 'oiseJ a la entrada e7a de este operador, y las salidas e7a Ie5ample set outJ, 0ei I-eightsJ y per Iper!ormanceJ a conectores res del panel.

31

<. Gacer doble clic sobre el operador Al3orit#o9enFti!o ICptimi>e Selection I8,olutionaryJJ. 8n el panel E%aluation /ro!ess del ni,el in!erior, agregar los siguientes operadores. <.1 E%aluation . Attri'utes . /er2or#an!e ?CFS@. Cambiar el nombre del mismo a R8,aluadorCon"CaractsCFSS y conectar la entrada e7a del panel a la entrada e7a de este operador. <.2 E%aluation . Attri'utes . /er2or#an!e ?Attri'ute Count@ y cambiar el nombre del mismo a RContador:tributosS. Conectar las salidas per y e7a del operador E%aluadorCon$Cara!tsCFS I4er!ormance ICFSJJ a las entradas per y e7a de este operador, respecti,amente, y la salida per de #ste Qltimo al conector per del panel.

E$e#plo +>: Valida!i"n Mrapper(


:sF como en el aprendi>a"e, tambi#n es posible +ue ocurra o,er!itting Isobrea"usteJ durante el preprocesamiento. 4ara estimar la per!ormance de generali>aci%n de un m#todo de preprocesamiento, 3apidMiner soporta ,arios operadores de ,alidaci%n para los pasos de preprocesamiento. La idea bBsica es la misma +ue para todos los otros operadores de ,alidaci%n con una ligera di!erencia. el primer operador interno debe producir un con"unto de e"emplos trans!ormado, el segundo debe producir un modelo de ese con"unto de datos trans!ormado y el tercer operador debe producir un ,ector de per!ormance de ese modelo sobre un con"unto de prueba apartado y trans!ormado de la misma !orma. 8ste es un proceso mBs comple"o +ue muestra la capacidad de 3apidMiner para construir procesos a partir de elementos ya conocidos. 8n este proceso, se utili>a una ,ariante especial de un operador de ,alidaci%n cru>ada para estimar la per!ormance de una trans!ormaci%n del espacio de caracterFsticas, es decir, la simple selecci%n de caracterFsticas !or-ard en este caso. 8l blo+ue de construcci%n completo de selecci%n de caracterFsticas es ahora el primer operador interno de un DrapperL)alidation +ue, al igual +ue la ,alidaci%n cru>ada normal, utili>a un subcon"unto para la trans!ormaci%n del espacio de caracterFsticas y el aprendi>a"e basado en el con"unto de caracterFsticas determinado. (na segunda cadena de aplicadores se utili>a para estimar la per!ormance sobre un con"unto de pruebas +ue no !ue utili>ado para el aprendi>a"e y la selecci%n de caracterFsticas. La per!ormance estimada y un ,ector de pesos de atributos se de,uel,en como resultado. Cbser,e el MinMa5Drapper despu#s del e,aluador de per!ormance interno. 8ste operador encapsula los criterios de per!ormance dados de tal manera +ue no s%lo los ,alores medios, sino tambi#n los ,alores mFnimos se calculan durante la ,alidaci%n cru>ada. :rbitrariamente las combinaciones lineales ponderadas de las medias mFnima y normal conducen a me"orar la capacidad de generali>aci%n. S%lo cambiar el
32

parBmetro weig%ting Iponderaci%nJ a 0/0 o desacti,ar el operador en el menQ conte5tual o eliminarlo del proceso para ,er el e!ecto. La per!ormance disminuye rBpidamente cuando se utili>a solamente la per!ormance media como criterio de selecci%n. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data . Cambiar el nombre del mismo a R&eneradorCon"8"sS y los ,alores de los parBmetros target function a RsumS, number examples a ?0, y number of attributes a *. 2. :gregar el operador Utilit- . Data 9eneration . Add Noise. Cambiar el nombre del mismo a R&enerador3uidoS y el ,alor del parBmetro ran"om attributes a *. Conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada e7a de este operador. *. :gregar el operador E%aluation . Validation . Mrapper&G&Validation y cambiar el nombre del mismo a R)alidaci%nLDrapperS. Conectar la salida e7a del operador 9eneradorRuido I:dd 'oiseJ a la entrada e7a de este operador, y las salidas per Iper!ormance ,ector outJ y att Iattribute -eights outJ de #ste Qltimo a los conectores res del panel.

<. Gacer doble clic sobre el operador Valida!i"nGMrapper IDrapper/L/)alidationJ. 8n el panel Attri'ute Mei31tin3 del ni,el in!erior, agregar el siguiente operador. <.1 :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Opti#i5ation . Opti#i5e Sele!tion. Cambiar el nombre del mismo a RSelecci%nCaracterFsticasS. Conectar la entrada 0ei I-eighting set sourceJ del panel a la entrada e7a de este operador y la salida 0ei I-eightsJ del mismo al conector att Iattribute -eights sin;J del panel. 8n el panel Model 8uildin3 central, agregar el siguiente operador. <.2 :gregar el operador Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine - !ambiar el nombre del mismo a R:prendi>S. Conectar la entrada tra del panel a la entrada tra de este operador y la salida #od del mismo al conector #od del panel. 8n el panel Model E%aluation de la derecha, agregar los siguientes operadores. <.* Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. <.< E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@ y cambiar el nombre del mismo a R8,aluaci%nDrapperS. ]uitar la tilde de la opci%n root mean s*uare" error y tildar la opci%n s*uare" error. Conectar la salida la' del operador Apli!adorModelo I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector per del panel.

33

7. Gacer doble clic sobre el operador Sele!!i"nCara!terNsti!as ICptimi>e SelectionJ del panel i>+uierdo. 8n el panel E%aluation /ro!ess del ni,el in!erior, agregar el siguiente operador. 7.1 E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a R)alidaci%nLFSS y el ,alor del parBmetro sampling type Itipo de muestreoJ a Rshu!!led samplingS. Conectar la entrada e7a del panel a la entrada tra de este operador y la salida a%e Ia,eragable 1J del mismo al conector per del panel

?. Gacer doble clic sobre el operador Valida!i"nGFS IL/)alidationJ anterior. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. ?.1 Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine - !ambiar el nombre del mismo a R:prendi>FSS. Conectar la entrada tra del panel a la entrada tra de este operador y las salidas #od y 0ei del mismo a los conectores #od y t1r del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. ?.2 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloFSS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. ?.* E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@ y cambiar el nombre del mismo a R8,aluaci%nFSS. ]uitar la tilde de la opci%n root mean s*uare" error y tildar la opci%n s*uare" error. Conectar la salida la' del operador Apli!adorModeloFS I:pply ModelJ a la entradas la' de este operador. ?.< E%aluation . /er2or#an!e Measure#ent . /er2or#an!e ?Min&Ma7@ y cambiar el nombre del mismo a RFSMinMa5DrapperI y el parBmetro m0nimum weig%ts a 0.7. Conectar la salida per del operador E%alua!i"nFS I4er!ormance I3egressionJJ a la entradas per de este operador y la salida per de #ste Qltimo al conector a%e Ia,eragable 1J del panel. Conectar ademBs el puerto t1r de este panel al conector a,e Ia,eragable 2J del mismo.

34

E$e#plo +B: OA99A(


:lgunas ,eces la selecci%n de caracterFsticas sola no es su!iciente. 8n estos casos se deben reali>ar otras trans!ormaciones del espacio de caracterFsticas. La generaci%n de nue,os atributos a partir de los atributos dados amplFa el espacio de caracterFsticas. Tal ,e> se pueda encontrar !Bcilmente una hip%tesis en el espacio ampliado de caracterFsticas. E:&&: IEet :nother &enerating &enetic :lgorithmJ es un -rapper hFbrido de selecci%n generaci%n de caracterFsticas. La estimaci%n de la per!ormance se hace con un elemento interno de ,alidaci%n cru>ada. 4or supuesto, otras !ormas de estimaci%n de la per!ormance tambi#n son posibles. La probabilidad de generaci%n de caracterFsticas depende de la probabilidad para la eliminaci%n de caracterFsticas. 8sto asegura +ue la longitud media de los con"untos de caracterFsticas se mantenga hasta +ue los con"untos de caracterFsticas mBs cortos o mBs largos demuestran ser me"ores. Cuando E:&&: termina la trans!ormaci%n, se construyeron nue,as caracterFsticas. 8n muchos casos, este con"unto %ptimo de caracterFsticas deberFa utili>arse sobre otros datos, tambi#n. 4or lo tanto, el con"unto %ptimo de atributos se escribe en un archi,o. 8n el siguiente e"emplo ,eremos c%mo se pueden utili>ar estos archi,os para trans!ormar nue,os datos en la representaci%n %ptima de aprendi>a"e. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . 9eneration . Opti#i5ation . Opti#i5e '- 9eneration ?OA99A@ . Cambiar el nombre del mismo a RE:&&:S y los ,alores de los parBmetros population si)e a 100, maximum number of generations a 10 y +uitar la tilde de use plus. Conectar la salida del operador Retrie%e a la entrada e7a de este operador. *. :gregar el operador E7port . Attri'utes . Mrite Constru!tions . Cambiar el nombre del mismo a R&rabadorConstruccionesS. Con el na,egador del parBmetro attibute constructions file locali>ar la ubicaci%n para un archi,o +ue se ,a a denominar yagga.att. Conectar la salida e7a del operador OA99A ICptimi>e by &enerationJ a la entrada inp de este operador y la salida t1r de este Qltimo al conector res del panel. <. :gregar el operador E7port . Attri'utes . Mrite Mei31ts. Cambiar el nombre del mismo a R&rabador4esosS. Con el na,egador del parBmetro attibute weig%ts file locali>ar la ubicaci%n para un archi,o +ue se ,a a denominar yagga.-gt. Conectar la salida att del operador OA99A a la entrada inp de este operador y la salida t1r de este Qltimo a otro conector res del panel.

7. Gacer doble clic sobre el operador OA99A. 8n el panel E%aluation /ro!ess del ni,el in!erior, agregar los siguientes operadores. 7.1 E%aluation . Validation . Split Validation y cambiar el nombre del mismo a R)alidaci%nSimpleS. Conectar la entrada e7a del panel a la entrada tra ItrainingJ de este operador.

35

7.2 Utilit- . o33in3 . o3. Cambiar el nombre del mismo a RLog4rocesoS. Conectar la salida a%e Ia,eragable 1J del operador Valida!i"nSi#ple ISplit )alidationJ a la entrada t1r Ithrough 1J de este operador y la salida Ithrough 1J del mismo, al conector per Iper!ormanceJ del panel. 8n el parBmetro log de este operador editar la lista de parBmetros para incluir los campos RgenerationS, Rper!ormanceS y RbestS.

?. Gacer doble clic sobre el operador Valida!i"nSi#ple. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. ?.1 Modelin3 . Classi2i!ation and Re3ression . Fun!tion Fittin3 . inear Re3ression y cambiar el nombre del mismo a R3egresi%n LinealS. Conectar la entrada tra y salida #od de este operador a los puertos tra y #od del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. ?.2 Modelin3 . Model Appli!ation . Appl- Model. Cambiar el nombre del mismo a R:plicadorS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. ?.* :gregar el operador E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@. Conectar la salida la' del operador Apli!ador I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector a%e del panel.

@. 8"ecutar el proceso. Se entrega como resultado el con"unto trans!ormado de e"emplos de entrada, la estimaci%n de la per!ormance, y un ,ector de pesos.

36

0. 1ntente agregar un operador log IregistroJ de proceso. $ebido a +ue E:&&: s%lo permite un operador interno, hay +ue agregar una cadena de un solo operador Idesde el grupo RcoreSJ a E:&&:. Gacer clic derecho sobre el operador de ,alidaci%n cru>ada y seleccionar cortar y pegar la ,alidaci%n cru>ada en la cadena agregada. :gregar un operador log de proceso en la cadena. :gregar los ,alores +ue desea gra!icar a la lista de parBmetros del operador log de proceso. Consultar el Tutorial 3apidMiner para mBs e5plicaciones.

(na cadena de un solo operador para combinar ,arios operadores. Corta un operador del Brbol de operadores. 4ega un operador pre,iamente cortado en la cadena de operadores seleccionada.

E$e#plo +C: Con2i3ura!i"n atri'utos resultantes de OA99A(


8n el proceso anterior se busc% un con"unto %ptimo de atributos Ipor !a,or, asegurarse de e"ecutar los procesos anteriores, antes de iniciar este procesoJ. 8ste con"unto %ptimo de atributos se carga y se aplica a otros datos de entrada. 8sto es necesario para aplicar un modelo aprendido a partir de datos con la misma representaci%n de entrada. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador I#port . Attri'utes . Read Constru!tions . Cambiar el nombre del mismo a RCargadorConstruc:tribS. Con el na,egador del parBmetro attibute constructions file locali>ar el archi,o yagga.att. Tildar la opci%n keep all. Conectar la salida del operador Retrie%e a la entrada e7a de este operador.

37

*. :gregar el operador I#port . Attri'utes . Read Mei31ts . Cambiar el nombre del mismo a RCargador4esos:tributosS. Con el na,egador del parBmetro attibute weig%ts file locali>ar el archi,o yagga.wgt. <. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Sele!t '- Mei31ts. Cambiar el nombre del mismo a RSelecci%n4esos:tributosS. Conectar la salida e7a del operador Car3adorConstru!Atri' I3ead ConstructionsJ y la salida out del operador Car3ador/esosAtri'utos I3ead DeightsJ a las entradas e7a y 0ei de este operador, respecti,amente. Tambi#n conectar la salida e7a de este operador al conector res del panel. 7. 8"ecutar el proceso. $espu#s de unos momentos, el con"unto de e"emplos de entrada utili>a la representaci%n %ptima de caracterFsticas +ue !ueron encontradas en el proceso anterior.

E$e#plo +E: 9enera!i"n de Cara!terNsti!as De2inidas por el Usuario(


8ste proceso carga datos num#ricos desde el archi,o y genera algunos atributos con el operador de generaci%n de caracterFsticas. La lista de parBmetros functions del operador de generaci%n debe ser editada para de!inir las !unciones +ue se deben generar. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . 9eneration . 9enerate Attri'utes. Cambiar el nombre del mismo a R&eneraci%nS. Conectar la salida del operador Retrie%e a la entrada e7a de este operador y la salida e7a de este Qltimo al conector res del panel. Con el editor del parBmetro function "escritions, agregar las siguientes !unciones.

38

*. 8"ecutar el proceso. (tili>ar puntos de interrupci%n para comprobar el paso de generaci%n. 8l parBmetro keep+all Imodo e5pertoJ de!ine si todos los atributos deben ser utili>ados para el con"unto de e"emplos resultante o s%lo los atributos recientemente generados.

<. 8ditar la lista de parBmetros functions y agregar algunas otras !unciones. Se pueden utili>ar la mayorFa de las !unciones matemBticas conocidas.

E$e#plo 4*: /ondera!i"n E%oluti%a(


8ste es otro proceso de e"emplo mBs comple"o. (tili>a una cadena de ,alidaci%n interna Ien este caso una ,alidaci%n simple en lugar de una ,alidaci%n cru>adaJ para estimar la per!ormance de un aprendi> con respecto a los pesos de los atributos. 8stos son adaptados con un en!o+ue de ponderaci%n e,oluti,a. Como se puede obser,ar, la estructura general del proceso es muy similar a los procesos de selecci%n y generaci%n de caracterFsticas. 8n todos los casos se utili>a una cadena de ,alidaci%n interna como blo+ue de construcci%n para estimar la per!ormance. 8l operador padre IT8,olutionaryDeightingT en este casoJ reali>a algunas operaciones sobre el con"unto de caracterFsticas +ue es e,aluado por el operador hi"o I,alidaci%n simpleJ. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data Deighting con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Modelin3 . Attri'ute Mei31tin3 . Opti#i5ation . Opti#i5e Mei31ts ?E%olutionar-@. Cambiar el nombre del mismo a R4onderaci%n8,oluti,aS y los parBmetros population si)e y maximum number of generations a 1 y 10, respecti,amente. Conectar la salida del operador Retrie%e a la entrada e7a de este operador, y las salidas e7a Ie5ample set outJ, 0ei I-eightsJ y per Iper!ormanceJ a conectores res del panel.
39

*. Gacer doble clic sobre el operador /ondera!i"nE%oluti%a ICptimi>e Deights I8,olutionaryJJ. 8n el panel E%aluation /ro!ess del ni,el in!erior, agregar los siguientes operadores. *.1 E%aluation . Validation . Split Validation . Cambiar el nombre del mismo a R)alidaci%nSimpleS. Conectar la entrada e7a del panel a la entrada tra ItrainingJ de este operador. *.2 Utilit- . o33in3 . o3. Cambiar el nombre del mismo a RLog4rocesoS y conectar la salida a%e Ia,eragable 1J del operador Valida!i"nSi#ple ISplit )alidationJ a la entrada t1r Ithrough 1J de este operador y la salida Ithrough 1J del mismo, al conector per Iper!ormanceJ del panel. 8n el parBmetro log de este operador editar la lista de parBmetros para incluir los campos R&eneraci%nS, RMe"or4er!S y R4er!ormanceS.

<. Gacer doble clic sobre el operador Valida!i"nSi#ple. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. <.1 Modelin3 . Classi2i!ation and Re3ression . a5- Modelin3 . ;&NN . Cambiar el nombre del mismo a R)ecinosCercanosS. Conectar la entrada tra y salida #od de este operador a los puertos tra y #od del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. <.2 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente.

40

<.* E%aluation . /er2or#an!e Measure#ent . /er2or#an!e. Conectar la salida la' del operador Apli!adorModelo I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector a%e del panel.

7. 8"ecutar el proceso. Cambiar a la ,ista R3esultS y utili>ar el gra!icador en lFnea. 4resionar el icono RstopS de la barra de iconos para detener el proceso. 8l operador actual !inali>arB su operaci%n en segundo plano y puede durar algQn tiempo hasta +ue el proceso sea detenido completamente. :un+ue puede cambiar el proceso actual y reiniciarlo, se e"ecutarB mBs lento hasta +ue el proceso anterior sea detenido completamente.

E$e#plo 4+: Visuali5a!i"n del Con$unto de Datos - /esos(


8n este proceso se carga un con"unto de datos y se aplica uno de los es+uemas de ponderaci%n de caracterFsticas disponible en 3apidMiner sobre este con"unto de datos. $espu#s de +ue el proceso ha terminado, cambiar a la ,ista grB!ica del con"unto de e"emplos, y obser,ar los gra!icadores de alta dimensionalidad disponibles, como el grB!ico paralelo, el grB!ico sur,ey, los grB!icos 3ad)i> o &rid)i>, matri> de histograma, matri> de cuartiles y las ,ariantes coloreadas de estos grB!icos. 'otarB +ue algunas de las columnas estBn marcadas con un color amarillento, por e"emplo, por un rectBngulo alrededor o directamente en el grB!ico. 8stas marcas amarillas indican el peso de los atributos correspondientes y el color es mBs intenso si el peso correspondiente es mayor. 8ste proceso demuestra la capacidad de 3apidMiner para presentar ,arios resultados mediante la combinaci%n de ellos. 4or supuesto, toda,Fa se puede tener una ,ista de la tabla de pesos o las di!erentes ,istas grB!icas de los pesos de los atributos. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data Sonar con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Modelin3 . Attri'ute Mei31tin3 . Mei31t '- C1i S6uared Statisti! . Cambiar el nombre del mismo a R4onderaci%nChiCuadrado I( Conectar la salida del operador Retrie%e a la entrada e7a de este operador y las salidas 0ei y e7a de este Qltimo a conectores res del panel.

41

E$e#plo 44: Opti#i5a!i"n de /arH#etros(


: menudo los di!erentes operadores tienen muchos parBmetros y no estB claro +u# ,alores de los parBmetros son los me"ores para la tarea de aprendi>a"e en cuesti%n. 8l operador de optimi>aci%n de parBmetros ayuda a encontrar un con"unto %ptimo de parBmetros para los operadores utili>ados. La ,alidaci%n cru>ada interna estima la per!ormance para cada con"unto de parBmetros. 8n este proceso se a!inan 2 parBmetros de la S)M. 8l resultado puede ser gra!icado en *$ Iutili>ando gnuplotJ o en modo de color. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 4olynomial con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. /ro!ess Control . /ara#eter . Opti#i5e /ara#eters ?9rid@ . Cambiar el nombre del mismo a RCptimi>aci%n4arBmetrosS. Conectar la salida del operador Retrie%e a la entradas inp Iinput 1J de este operador y la salida per de #ste Qltimo al conector res del panel. *. :gregar el operador Repositor- A!!ess . Store a la >ona de traba"o y la ruta 3apidMiner results 4arameter/set en el parBmetro repository entry. Cambiar el nombre del mismo a RCptimi>aci%n4arBmetrosS. Conectar la salida par del operador Opti#i5e /ara#eters ?9rid@ a la entradas inp IinputJ de este operador y la salida t1r IthroughJ de #ste Qltimo a otro conector res del panel.

<. Gacer doble clic sobre el operador Opti#i5a!i"n/arH#etros ICptimi>e 4arameters I&ridJJ. 8n el panel Opti#i5ation /ro!ess del ni,el in!erior mostrado, agregar los siguientes operadores. <.1 E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a R)alidaci%nS y el ,alor del parBmetro sampling type Itipo de muestreoJ a Rshu!!led samplingS. Conectar la entrada inp del panel a la entrada tra de este operador.

42

<.2 Utilit- . o33in3 . o3. Conectar la salida a%e Ia,eragable 1J del operador Valida!i"n IL/ )alidationJ a la entrada t1r Ithrough 1J de este operador y la salida Ithrough 1J del mismo, al conector per Iper!ormanceJ del panel.

7. Gacer doble clic sobre el operador Valida!i"n IL/)alidationJ. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. 7.1 Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine ? i'SVM@. Cambiar el nombre del mismo a R8ntrenamientoS y los ,alores de los parBmetros s$m type a Repsilon/S)3S, kernel type a RpolyS, "egree a 7 y C a 270.0. Conectar la entrada tra ItrainingJ y salida #od ImodelJ de este operador a los puertos tra y #od del panel, respecti,amente 8n el panel Testin3 de la derecha, agregar los siguientes operadores. 7.2 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R4ruebaS y conectar las entradas #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. 7.* E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@. Cambiar el nombre del mismo a R8,aluaci%n I y tildar las siguientes opciones IademBs root mean s*uare" error, tildada por de!ectoJ. absolute error Ierror absolutoJ y normali)e" absolute error Ierror absoluto normali>adoJ. Conectar la salida la' del operador /rue'a I:pply ModelJ a la entrada la' de este operador y la salida per de #ste Qltimo al conector a%e del panel.

?. Subir un ni,el. Seleccionar el operador o3 y editar la lista de parBmetros para incluir los campos RCS, RgradoS y RabsolutoS de la siguiente manera.

43

@. )ol,er al ni,el superior I4roceso 4rincipalJ, seleccionar el operador Opti#i5a!i"n/arH#etros y utili>ar el editor para seleccionar los parBmetros C y "egree del operador Entrena#iento ISupport )ector Machine ILibS)MJJ.

0. 8"ecutar el proceso. 8l resultado es el me"or con"unto de parBmetros y la per!ormance lograda con ese con"unto de parBmetros. A. 8ditar la lista de parBmetros del operador 4arameterCptimi>ation para encontrar otro con"unto de parBmetros.

E$e#plo 4:: Ha'ilitador de Operadores(


8ste meta/proceso muestra otra posibilidad de optimi>ar automBticamente el diseUo del proceso. 8l operador TCperator8nablerT se puede utili>ar para habilitar o deshabilitar uno de sus hi"os. 8ste se puede utili>ar "unto con uno de los operadores de optimi>aci%n de parBmetros para comprobar +u# operadores se deben emplear para obtener resultados %ptimos. 8sto es especialmente Qtil para determinar +u# operadores de preprocesamiento se deben usar para una combinaci%n particular de con"unto de datos/aprendi>. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data 3ipley/Set con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. /ro!ess Control . /ara#eter . Opti#i5e /ara#eters ?9rid@ . Cambiar el nombre del mismo a R&ridCptimi>aci%n4arBmetrosS. Conectar la salida del operador Retrie%e a la entradas inp Iinput 1J de este operador y las salidas per Iper!ormanceJ y par IparameterJ de #ste Qltimo conectores res del panel.

44

*. Gacer doble clic sobre el operador Opti#i5a!i"n/arH#etros ICptimi>e 4arameters I&ridJJ. 8n el panel Opti#i5ation /ro!ess del ni,el in!erior mostrado, agregar los siguientes operadores. *.1 /ro!ess Control . 8ran!1 . Sele!t Su'pro!ess. Cambiar el nombre del mismo a RCperadorGabilitadorS y el ,alor del parBmetro select w%ic% a 2. Conectar la entrada inp del panel a la entrada inp Iinput 1J de este operador. *.2 E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a RL)alidaci%nS y el ,alor del parBmetro number of $ali"ations a 7. Conectar la salida out Ioutput 1J del operador OperadorHa'ilitador ISelect SubprocessJ a la entrada tra de este operador. *.* Utilit- . o33in3 . o3. Conectar la salida a%e Ia,eragable 1J del operador GValida!i"n IL/ )alidationJ a la entrada t1r Ithrough 1J de este operador y la salida Ithrough 1J del mismo, al conector per Iper!ormanceJ del panel. 8n el parBmetro log de este operador editar la lista de parBmetros para incluir los campos Rhabilitar6normali>aci%nS y Rper!ormanceS.

<. Gacer doble clic sobre el operador OperadorHa'ilitador. 8n el panel Sele!tion + del ni,el in!erior mostrado, agregar el siguiente operador. <.1 Data Trans2or#ation . Value Modi2i!ation . Nu#eri!al Value Modi2i!ation . Nor#ali5e . Cambiar el nombre del mismo a R'ormali>aci%nS. Conectar la entrada inp del panel a la entrada e7a de este operador y la salida e7a de este Qltimo al conector out del panel. <.2 8n el panel Sele!tion 4 de la derecha s%lo conectar los puertos inp y out del mismo.

7. Subir un ni,el y hacer doble clic sobre el operador GValida!i"n. 8n el panel Trainin3 del ni,el in!erior mostrado, agregar el siguiente operador.
45

7.1 Modelin3 . Classi2i!ation and Re3ression . 8a-esian Modelin3 . Nai%e 8a-es . Conectar la entrada tra y salida #od del mismo a los puertos tra y #od del panel, respecti,amente. ?. 8n el panel Testin3 de la derecha, agregar los siguientes operadores. ?.1 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. ?.2 :gregar el operador E%aluation . /er2or#an!e Measure#ent . /er2or#an!e. Conectar la salida la' del operador Apli!adorModelo I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector a%e del panel.

@. )ol,er al ni,el superior I4roceso 4rincipalJ, seleccionar el operador 9ridOpti#i5a!i"n/arH#etros y utili>ar el editor para seleccionar el parBmetro select w%ic% del operador OperadorHa'ilitador ISelect SubprocessJ. 3esultado del &ridCptimi>aci%n4arBmetros I&ridJ.
Con"unto de 4arBmetros. 4er!ormance. 4er!ormance)ector X /////accuracy. 07.20Z \ / <.12Z Imi;ro. 07.20ZJ Con!usionMatri5. True. 0 1 0. 10< 1? 1. 21 10A /////precision. 0<.10Z \ / <.01Z Imi;ro. 0*.07ZJ Ipositi,e class. 1J Con!usionMatri5. True. 0 1 0. 10< 1? 1. 21 10A /////recall. 0@.20Z \ / 0.7<Z Imi;ro. 0@.20ZJ Ipositi,e class. 1J Con!usionMatri5. True. 0 1 0. 10< 1? 1. 21 10A /////:(C IoptimisticJ. 0.A*< \ / 0.02? Imi;ro. 0.A*<J Ipositi,e class. 1J /////:(C. 0.A*< \ / 0.02? Imi;ro. 0.A*<J Ipositi,e class. 1J /////:(C IpessimisticJ. 0.A*< \ / 0.02? Imi;ro. 0.A*<J Ipositi,e class. 1J Y CperadorGabilitador.select6-hich O1

E$e#plo 4<: U#'ral de /ondera!i"n(


8ste proceso intenta encontrar el me"or umbral de selecci%n para los pesos proporcionados por un aprendi> de S)M. Los pesos y el con"unto de e"emplos se pasan a un optimi>ador de parBmetros. 8l parBmetro
46

weig%t del operador de Selecci%n se ha optimi>ado con una grid search. La per!ormance de este umbral se e,alQa con el blo+ue de construcci%n de ,alidaci%n cru>ada. 4or !a,or consulte los meta/procesos de e"emplos anteriores para mBs detalles con respecto a los operadores de optimi>aci%n de parBmetros. 1. :gregar el operador Repositor- A!!ess . Retrie%e a la >ona de traba"o y Samples data Deighting con el na,egador del parBmetro repository entry. locali>ar el archi,o

2. :gregar el operador Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine. Cambiar el nombre del mismo a R4esos1nicialesS y +uitar la tilde de la opci%n scale. Conectar la salida del operador 3etrie,e a la entrada tra de este operador. *. /ro!ess Control . /ara#eter . Opti#i5e /ara#eters ?9rid@ . Cambiar el nombre del mismo a R&ridCptimi>aci%n4arBmetrosS. Conectar las salidas e7a y 0ei del operador /esosIni!iales ISupport )ector MachineJ a las entradas inp Iinput 1J e inp Iinput 2J de este operador, respecti,amente, y las salidas per Iper!ormanceJ, par IparameterJ y res Iresult 1J de #ste Qltimo conectores res del panel.

<. Gacer doble clic sobre el operador Opti#i5a!i"n/arH#etros ICptimi>e 4arameters I&ridJJ. 8n el panel Opti#i5ation /ro!ess del ni,el in!erior mostrado, agregar los siguientes operadores. <.1 Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Sele!t 'Mei31ts. Cambiar el nombre del mismo a RSelecci%nS y el parBmetro weig%t a 1.0. Conectar las entradas inp Iinput 1J e inp Iinput 2J del panel a las entradas e7a y 0ei de este operador, respecti,amente. <.2 E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a RL)alidaci%nS. Conectar la salida e7a del operador Sele!!i"n ISelect by DeightsJ a la entrada tra de este operador y la salida a%e Ia,eragable 1J de este Qltimo al conector per del panel.

7. Gacer doble clic sobre el operador GValida!i"n. 8n el panel Trainin3 del ni,el in!erior mostrado, agregar el siguiente operador. 7.1 Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine. Cambiar el nombre del mismo a RKMyS)M:prendi>S. Conectar la entrada tra del panel a la entrada tra de este operador y las salidas #od y 0ei del mismo a los conectores #od y t1r del panel, repecti,amente. ?. 8n el panel Testin3 de la derecha, agregar los siguientes operadores.

47

?.1 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar los puertos #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. ?.2 :gregar el operador E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Classi2i!ation@. Cambiar el nombre del mismo a R4er!ormanceClasi!icaci%nS, +uitar la tilde de la opci%n RaccuracyS y tildar la opci%n Rclassi!ication errorS. Conectar la salida la' del operador Apli!adorModelo I:pply ModelJ a la entradas la' de este operador y la salida per de #ste Qltimo al conector a%e Ia,eragable 2J del panel. Tambi#n conectar la entrada t1r Ithrough 1J del panel a la salida a%e Ia,eragable 2J del mismo.

@. )ol,er al ni,el superior I4roceso 4rincipalJ, seleccionar el operador 9ridOpti#i5a!i"n/arH#etros y utili>ar el editor IR8dit 4arameter Settings...SJ para seleccionar el parBmetro weig%t del operador Sele!!i"n ISelect by DeightsJ. 0. Cbser,ar los Fconos de ad,ertencia en la parte in!erior i>+uierda de algunos operadores. :l detener un instante el puntero del rat%n en la entrada tra del operador /esosIni!iales del proceso principal, 3apidMiner muestra +ue hay un error debido a +ue la S)M no puede mane"ar eti+uetas polinomiales. 8n la pestaUa 4roblems de la parte in!erior, hacer doble clic en la primera !ila, deba"o de la columna RFi5esS para seleccionar una de las < soluciones rBpidas disponibles IRCon,ert label to binominal.SJ.

3esultados.

48

E$e#plo 4): /rue'a de Si3ni2i!an!ia(


Muchos operadores de 3apidMiner se pueden utili>ar para estimar la per!ormance de un aprendi>, un paso de preprocesamiento, o un espacio de caracterFsticas sobre uno o ,arios con"untos de datos. 8l resultado de estos operadores de ,alidaci%n es un ,ector de per!ormance +ue recoge los ,alores de un con"unto de criterios de per!ormance. 4ara cada criterio se dan el ,alor medio y la des,iaci%n estBndar. La cuesti%n es ^c%mo se pueden comparar estos ,ectores de per!ormanceN Las pruebas de estadFsticas de signi!icancia como :'C): o pruebas t por pares, se pueden utili>ar para calcular la probabilidad de +ue los ,alores medios reales sean di!erentes. Suponemos +ue se han obtenido ,arios ,ectores de per!ormance y se desea compararlos. 8n este proceso se utili>a el mismo con"unto de datos para las ,alidaciones cru>adas Ide ahF el 1CMultiplierJ y para estimar la per!ormance de un es+uema de aprendi>a"e lineal y una 32F basada en S)M. 1. :gregar el operador Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre del mismo a R&eneradorCon"8"sS y los ,alores de los parBmetros target function a Rone ,ariable non linearS, number examples a 00, number of attributes a 1, attributes lower boun" a /<0.0 y attributes upper boun" a *0.0. 2. :gregar el operador /ro!ess Control . Multipl-. Cambiar el nombre del mismo a R8SMultiplicador61S y conectar la salida del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada de este operador.

49

*. :gregar un operador E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a RL)alidaci%nS y el parBmetro sampling type a Rshu!!led samplingS. Conectar la salida out Ioutput 1J del operador ESMultipli!adorP+ IMultiplyJ a la entrada tra de este operador. <. :gregar otro operador E%aluation . Validation . G&Validation. Cambiar el nombre del mismo a RL)alidaci%n I2JI y el parBmetro sampling type a Rshu!!led samplingS. Conectar la salida out Ioutput 2J del operador ESMultipli!adorP+ a la entrada tra de este operador. 7. :gregar el operador E%aluation . Si3ni2i!an!e . T&Test. Conectar la salida a%e Ia,eragable 1J del operador LValida!i"n ?G&Validation@ a la entrada per Iper!ormance 1J de este operador y la salida a%e Ia,eragable 1J del operador LValida!i"n ?4@ a la entrada per Iper!ormance 2J de este Qltimo. Tambi#n conectar la salida si3 Isigni!icanceJ de este operador al conector res del panel. ?. :gregar el operador E%aluation . Si3ni2i!an!e . ANOVA. Cambiar el nombre del mismo a R4rueba/ TS. Conectar las salidas per Iper!ormance 1J y per Iper!ormance 2J del operador T&Test a las entradas per Iper!ormance 1J y per Iper!ormance 2J de este operador, y las salidas si3 Isigni!icanceJ, per Iper!ormance 1J y per Iper!ormance 2J del mismo a conectores res del panel.

@. Gacer doble clic sobre el operador GValida!i"n. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. @.1 Modelin3 . Classi2i!ation and Re3ression . Support Ve!tor Modelin3 . Support Ve!tor Ma!1ine ? i'SVM@. Cambiar el nombre del mismo a RLibS)M:prendi>S y los ,alores de los parBmetros s$m type a Rnu/S)3S, kernel type a RpolyS y C a +****(*. Conectar la entrada tra ItrainingJ y salida #od ImodelJ de este operador a los puertos tra y #od del panel, respecti,amente 0. 8n el panel Testin3 de la derecha, agregar los siguientes operadores. 0.1 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModeloS y conectar las entradas #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. 0.2 E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@. Cambiar el nombre del mismo a R4er!ormance3egresi%nS, +uitar la tilde de la opci%n root mean s*uare" error y tildar la opci%n absolute error. Conectar la salida la' del operador Apli!adorModelo I:pply ModelJ a la entrada la' de este operador y la salida per Iper!ormanceJ de #ste Qltimo al conector a%e Ia,eragable 1J del panel.

50

A. Subir un ni,el I4roceso 4rincipalJ y hacer doble clic sobre el operador GValida!i"n ?4@. 8n el panel Trainin3 del ni,el in!erior, agregar el siguiente operador. A.1 Modelin3 . Classi2i!ation and Re3ression . Fun!tion Fittin3 . inear Re3ression . Cambiar el nombre del mismo a R3egresi%nLinealS y conectar la entrada tra ItrainingJ y salida #od ImodelJ del mismo a los puertos tra y #od del panel, respecti,amente. 10. 8n el panel Testin3 de la derecha, agregar los siguientes operadores. 10.1 Modelin3 . Model Appli!ation . Appl- Model . Cambiar el nombre del mismo a R:plicadorModelo I2JS y conectar las entradas #od y tes del panel a las entradas #od y unl de este operador, respecti,amente. 10.2 E%aluation . /er2or#an!e Measure#ent . Classi2i!ation and Re3ression . /er2or#an!e ?Re3ression@. Cambiar el nombre del mismo a R4er!ormance3egresi%n I2JS, +uitar la tilde de la opci%n root mean s*uare" error y tildar la opci%n absolute error. Conectar la salida la' del operador Apli!adorModelo ?4@ a la entrada la' de este operador y la salida per Iper!ormanceJ de #ste Qltimo al conector a%e Ia,eragable 1J del panel.

11. 8"ecutar el proceso y comparar los resultados. las probabilidades de una di!erencia signi!icati,a son iguales, por+ue s%lo se crearon 2 ,ectores de per!ormance. 8n este caso, la S)M es probablemente mBs adecuada para el con"unto de datos en cuesti%n debido a +ue los ,alores medios reales probablemente son di!erentes. 12. Cbser,ar +ue los ,ectores de per!ormance como todos los demBs ob"etos +ue se pueden pasar entre los operadores de 3apidMiner se pueden escribir en y cargar desde un archi,o.

51

E$e#plo 4>: CHl!ulos 8asados en 9rupos(


8ste proceso muestra un preprocesamiento mBs comple"o +ue demuestra algunas de las !uncionalidades de 8TL e5tendidas disponibles en 3apidMiner mediante el uso de conceptos tales como bucles o macros. La primera cadena de operadores s%lo encapsula una secuencia de operadores +ue producen datos en un !ormato especF!ico. 4osteriormente, el Value1terator itera sobre todos los ,alores posibles del atributo especi!icado, y almacena el ,alor actual en la macro 23loop+$alue4. 8sta macro se utili>a luego dentro del -xample5ilter seguido por una agregaci%n para calcular la media de otro atributo de acuerdo a los grupos de!inidos por el primero. Luego se utili>a otra de!inici%n de macro, 23current+a$erage4, para leer la media y posteriormente se la emplea en el ttributeConstruction. : continuaci%n, todos los con"untos de datos resultantes, uno por cada grupo, se !usionarBn al !inali>ar el bucle. 1. :gregar el operador Utilit- . Su'pro!ess a la >ona de traba"o. Cambiar el nombre del mismo a R&enerar$atosS. 2. :gregar el operador /ro!ess Control . oop . oop Values . Cambiar el nombre del mismo a R1terador)aloresS. Conectar la salida out del operador 9eneradorDatos ISubprocessJ a la entrada e7a de este operador. *. :gregar el operador Data Trans2or#ation . Set Operations . Append . Cambiar el nombre del mismo a RCombinarCon"8"sS. Conectar la salida out del operador IteradorValores ILoop )aluesJ a la entrada e7a de este operador y la salida #er Imerged setJ de este Qltimo al conector res del panel.

<. Gacer doble clic sobre el operador 9enerarDatos ISubprocessJ. 8n el panel Nested C1ain del ni,el in!erior, agregar los siguientes operadores. <.1 :gregar el operador Utilit- . Data 9eneration . 9enerate Data a la >ona de traba"o. Cambiar el nombre del mismo a R&eneradorCon"8"sS y los ,alores de los parBmetros target function a RsumS, number examples a 12, y number of attributes a 2.

52

<.2 :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Sele!t Attri'utes. Cambiar el nombre del mismo a RFiltro:tributosS. Conectar la salida out del operador 9eneradorCon$E$s I&enerate $ataJ a la entrada e7a de este operador y cambiar los ,alores de los parBmetros attribute filter type a Rregular6e5pressionS y regular expresion a RlabelS, este Qltimo con ayuda del editor de e5presiones regulares. :demBs tildar las opciones in$ert selection e inclu"e special attributes. <.* :gregar el operador Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . Sele!tion . Mor; on Su'set. Cambiar el nombre del mismo a R4re4rocSubCon":tribS. Conectar la salida e7a del operador FiltroAtri'utos ISelect :ttributesJ a la entrada e7a de este operador y cambiar los ,alores de los parBmetros attribute filetr type a Rregular6e5pressionS y regular expresion a Ratt1S, este Qltimo con ayuda del editor de e5presiones regulares. <.< :gregar el operador Data Trans2or#ation . Sortin3 . Sort. Cambiar el nombre del mismo a RCrdenarS. Conectar la salida e7a del operador /re/ro!Su'Con$Atri' IDor; on SubsetJ a la entrada e7a de este operador y la salida e7a de este Qltimo al conector out del panel. Seleccionar Ratt1S de la lista de ,alores para el parBmetro attribute name.

7. Gacer doble clic sobre el operador /re/ro!Su'Con$Atri'. 8n el panel Su'set /ro!ess del ni,el in!erior, agregar el siguiente operador. 7.1 Data Trans2or#ation . T-pe Con%ersion . Dis!reti5ation . Dis!reti5e '- Fre6uen!- . Cambiar el nombre del mismo a R$iscreti>aci%nFrecuenciasS. Conectar la entrada y salida e7a de este operador a los conectores de entrada y salida e7a del panel, respecti,amente. Cambiar los ,alores de los parBmetros number of bins a 2 y range name type Imodo e5pertoJ a RshortS.

?. )ol,er al proceso principal y hacer doble clic sobre el operador IteradorValores ILoop )aluesJ. 8n el panel Iteration del ni,el in!erior, agregar los siguientes operadores. ?.1 Data Trans2or#ation . Filterin3 . Filter E7a#ples . Cambiar el nombre del mismo a RFiltroMuestrasS. Conectar la entrada e7a del panel a la entrada e7a de este operador. Cambiar los ,alores de los parBmetros con"ition class a Rattribute6,alue6!ilterS, parameter string a Ratt1 O Z_loop6,alue`S. ?.2 Data Trans2or#ation . A33re3ation . A33re3ate . Cambiar el nombre del mismo a R:gregaci%nS. Conectar la entrada e7a del operador FiltroMuestras IFilter 85amplesJ a la entrada e7a de este operador. Con la ayuda del editor de lista I8dit ListJ del parBmetros aggregation attributes aUadir. 6 att2 6 a$erage 6. ?.* Utilit- . Ma!ros . E7tra!t Ma!ro. Cambiar el nombre del mismo a R$e!inici%nMacro$atosS. Conectar la salida e7a del operador A3re3a!i"n I:ggregateJ a la entrada e7a de este operador y asignar
53

,alores a los parBmetros macro O Rcurrent6a,erageS, macro type O Rdata ,alueS, attribute name O Ra,erageIatt2JS y example in"ex O 1. ?.< Data Trans2or#ation . Attri'ute Set Redu!tion and Trans2or#ation . 9eneration . 9enerate Attri'utes. Cambiar el nombre del mismo a RConstrucci%n:tributosS. Conectar la salida ori IoriginalJ del operador A3re3a!i"n I:ggregateJ a la entrada e7a de este operador y la salida e7a de este Qltimo al conector out del panel. Con la ayuda del editor de lista I8dit ListJ del parBmetro function "escriptions aUadir. 6 att2+a$s+a$g 6 abs7att2 & 23current+a$erage48 6

@. )ol,er al proceso principal y seleccionar el operador IteradorValores ILoop )aluesJ. Seleccionar Ratt1S de la lista de ,alores para el parBmetro attribute.

QFeli!ita!ionesR
Ga terminado el tutorial en lFnea de 3apidMiner. (sted deberFa ser capa> de reali>ar muchas de las posibles de!iniciones de procesos. :hora, usted conoce los blo+ues de construcci%n mBs importantes de las posibles de!iniciones de procesos de minerFa de datos. 4or supuesto, estos blo+ues de construcci%n se pueden anidar arbitrariamente en 3apidMiner siempre +ue sus tipos de entrada y salida sean adecuados. 4ara una re!erencia de todos los operadores, por !a,or consulte el Tutorial 3apidMiner. Tambi#n compruebe las con!iguraciones de los otros procesos de los e"emplos +ue se pueden encontrar en el directorio Sample de 3apidMiner. Gemos agregado muchos pasos de preprocesamiento conocidos y operadores de aprendi>a"e a 3apidMiner. Tambi#n se pueden mane"ar la mayorFa de los !ormatos de datos. Si usted necesita adaptar 3apidMiner deberFa leer el capFtulo del Tutorial de 3apidMiner +ue describe la creaci%n de operadores y el mecanismo de e5tensi%n. 3apidMiner se puede ampliar !Bcilmente. ]ue se di,iertaa

54

Ane7o: Des!rip!i"n de los Operadores utili5ados en el Tutorial de RM)


1. $ata Trans!ormation H :ggregation H A33re3ate
8ste operador crea un nue,o con"unto de e"emplos a partir del con"unto de e"emplos de entrada, mostrando los resultados de las !unciones de agregaci%n arbitrarias Icomo S(M, CC('T, etc. conocidas del S]LJ. :ntes de +ue los ,alores de las di!erentes !ilas sean agregadas en una nue,a !ila, las !ilas pueden ser agrupadas por los ,alores de uno o ,arios atributos Isimilar a la conocida clBusula group by del S]LJ. 8n este caso se crearB una nue,a lFnea por cada grupo. Tener en cuenta +ue se puede simular la conocida clBusula 9 V1:; del S]L mediante un operador adicional -xample5ilter a continuaci%n de #ste.

2. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H &eneration H 9enerate Attri'utes
8ste operador construye nue,os atributos a partir de los atributos del Con"unto de 8"emplos de entrada I-xample'etJ y constantes arbitrarias. Los nombres de los nue,os atributos y sus descripciones de construcci%n se de!inen en el parBmetro funtions. Los nombres de los atributos se pueden utili>ar como ,ariables en la descripci%n de construcciones. Cuando se e,alQan las descripciones sobre cada e"emplo durante la aplicaci%n de este operador, estas ,ariables serBn asignadas con los pesos de los atributos de los e"emplos. Tener en cuenta +ue hay algunas restricciones para los nombres de los atributos para permitir +ue este operador traba"e correctamente.

'o estBn permitidos los nombres de atributos +ue contienen par#ntesis. 'o estBn permitidos los nombres de atributos +ue contienen espacios en blanco. Tampoco estBn permitidos los nombres de atributos con nombres de !unci%n u operador. Las constantes estBndares I,er mBs adelanteJ se pueden utili>ar, los nombres de atributos con nombres como ReS o RpiS no se permiten.

Si estas condiciones no se cumplen, se deben cambiar los nombres de antemano, por e"emplo con el operador 3ename. :l cambiar ,arios atributos siguiendo un es+uema determinado, puede resultar Qtil el operador 3ename by 3eplacing. E7presiones soportadas Las siguientes operaciones estBn soportadas.
55

:dici%n. \ Sustracci%n. / Multiplicaci%n. b $i,isi%n. 4otencia. c M%dulo. Z Menor +ue. V Mayor +ue. W Menor o 1gual. VO Mayor o 1gual. WO 1gual. OO 'o 1gual. aO 'ot 2ooleano. a :nd 2ooleano. dd Cr 2ooleano. ee

Las siguientes funciones logar0tmicas y exponenciales estBn soportadas.


Logaritmo 'atural. lnI5J Logaritmo 2ase 10. logI5J Logaritmo $ualis I2ase 2J. ldI5J 85ponencial Iec5J. e5pI5J 4otencia. po-I5,yJ

Las siguientes funciones trigonom<tricas estBn soportadas.


Seno. sinI5J Coseno. cosI5J Tangente. tanI5J :rco Seno. asinI5J :rco Coseno. acosI5J :rco Tangente. atanI5J :rco Tangente Icon 2 parBmetrosJ. atan2I5,yJ Seno Giperb%lico. sinhI5J Coseno Giperb%lico. coshI5J Tangente Giperb%lica. tanhI5J Seno Giperb%lico 1n,erso. asinhI5J Coseno Giperb%lico 1n,erso. acoshI5J Tangente Giperb%lica 1n,ersa. atanhI5J

Las siguientes funciones esta"0sticas estBn soportadas.


3edondeo. roundI5J 3edondeo a p decimales. roundI5,pJ 4iso. !loorI5J Techo. ceilI5J Media. a,gI5,y,>...J MFnimo. minI5,y,>...J MB5imo. ma5I5,y,>...J

Las siguientes funciones miscel.neas estBn soportadas.

1!/Then/8lse. i!Icond, e,aluaci%n/,erdadero, e,aluaci%n/!alsoJ


56

)alor :bsoluto. absI5J 3aF> Cuadrada. s+rtI5J Signo Ide,uel,e el signo de un nQmeroJ. sgnI5J 'Qmero :leatorio Ientre 0 y 1J. randIJ M%dulo I5 Z yJ. modI5,yJ Suma de ; 'Qmeros. sumI5,y,>...J Coe!icientes 2inomiales. binomIn, iJ 'Qmero a Cadena. strI5J Cadena a 'Qmero. parseI5J Subcadena. cutI5, start, lenJ

Las siguientes funciones relaciona"as a procesos estBn soportadas.

3ecuperar el ,alor de un parBmetro. paramIToperatorT, TparameterTJ

Kunto a los atributos y las operaciones y !unciones antes mencionadas, este operador tambi#n soporta las constantes pi y e si esto se especi!ica por el parBmetro correspondiente R use stan"ar" constants Ipor de!ecto. trueJ. Tambi#n se pueden utili>ar cadenas en las !%rmulas Ipor e"emplo, en una !%rmula i!/ condicionalJ, pero los ,alores de cadena tienen +ue estar encerrados entre comillas dobles ITJ. E$e#plos a1\sinIa2ba*J i! Iatt1W7, att2batt*,/absIatt1JJ

*. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H &eneration H 9enerate ID


8ste operador agrega un 1$ de atributo al con"unto de e"emplos dado. Cada e"emplo es eti+uetado con un nQmero entero incremental. Si el con"unto de e"emplos ya contiene un id de atributo, el atributo anterior se elimina antes de agregar el nue,o.

<. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H &eneration H Cptimi>ation H Opti#i5e '- 9eneration ?OA99A@
E:&&: es el acr%nimo de Eet :nother &enerating &enetic :lgorithm. Su en!o+ue para generar nue,os atributos es di!erente al original. La Igeneraci%nJ mutaci%n puede hacer una de las siguientes cosas con di!erentes probabilidades.

4robabilidad p=>. :grega un atributo reci#n generado al ,ector de caracterFsticas. 4robabilidad p=>. :grega un atributo original escogido de !orma aleatoria al ,ector de caracterFsticas. 4robabilidad p=2. 8limina un atributo al a>ar del ,ector de caracterFsticas.

:sF se garanti>a +ue la longitud del ,ector de caracterFsticas pueda aumentar y disminuir. 8n promedio se mantendrB su longitud original, a menos +ue los indi,iduos mBs cortos o mBs largos resulten tener una
57

me"or aptitud. $ado +ue este operador no contiene algoritmos para e5traer caracterFsticas de series de ,alores, se limita solamente a con"untos de e"emplos con atributos indi,iduales. 4ara la e5tracci%n IautomBticaJ de caracterFsticas de series de ,alores, se deberFa utili>ar el complemento de serie de ,alores para 3apidMiner escrito por 1ngo Miers-a. 8stB disponible en http. rapid/i.com.

7. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H /rin!ipal Co#ponent AnHlisis
8ste operador reali>a un anBlisis de componentes principales I4C:J utili>ando la matri> de co,arian>a. 8l usuario puede especi!icar la cantidad de ,arian>a a cubrir en los datos originales al retener el me"or nQmero de componentes principales. 8l usuario tambi#n puede especi!icar manualmente el nQmero de componentes principales. 8l operador genera un Modelo 4C:. Con el operador !o"el pplier se pueden trans!ormar las caracterFsticas.

?. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Cptimi>ation H Opti#i5e Sele!tion
8ste operador reali>a los dos algoritmos deterministas greedy IcodiciososJ de selecci%n de caracterFsticas. selecci%n !or-ard Ihacia delanteJ y eliminaci%n bac;guard Ihacia atrBsJ. Sin embargo, se han aUadido algunas me"oras a los algoritmos estBndar, las +ue se describen a continuaci%n. Sele!!i"n For0ard
1. Crea una poblaci%n inicial con n indi,iduos donde n es la cantidad de atributos del con"unto de

e"emplos de entrada. Cada indi,iduo utili>arB e5actamente una de las caracterFsticas. 2. 8,alQa los atributos del con"unto y selecciona s%lo los k me"ores. 3. 4ara cada uno de los k atributos del con"unto reali>a. Si hay ? atributos no utili>ados, hace ? copias del con"unto de atributos y agrega e5actamente uno de los atributos anteriormente no utili>ados al con"unto de atributos. 4. Mientras me"ore la per!ormance en las Qltimas p iteraciones se ,ol,erB al paso 2. Eli#ina!i"n 8a!;0ard
1. Comien>a con un con"unto de atributos con todas las caracterFsticas. 2. 8,alQa todos atributos del con"unto y selecciona los k me"ores. 3. Si hay ? atributos utili>ados, hace ? copias del con"unto de atributos y elimina e5actamente uno de los

atributos utili>ados anteriormente del con"unto de atributos.


4. Mientras me"ore la per!ormance en las Qltimas p iteraciones se ,ol,erB al paso 2.

8l parBmetro k puede ser especi!icado por el parBmetro keep+best, el parBmetro p puede ser especi!icado por el parBmetro generations+wit%out+impro$al. 8stos parBmetros tienen ,alores por de!ecto 1, lo +ue signi!ica +ue se utili>an los algoritmos de selecci%n estBndar. (tili>ando otros ,alores aumenta el tiempo de e"ecuci%n, pero podrFa ayudar a e,itar e5tremos locales en la bQs+ueda del %ptimo global. Ctro parBmetro inusual es maximum+number+of+generations. 8ste parBmetro limita el nQmero de iteraciones a un mB5imo de selecciones deselecciones de caracterFsticas. 8n combinaci%n con
58

generations+wit%out+impro$al permite ,arios es+uemas de selecci%n di!erentes I+ue se describen para la selecci%n !or-ard, la eliminaci%n bac;-ard traba"a de !orma anBlogaJ.

maximum+number+of+generations O m y generations+wit%out+impro$al O p. Selecciona un mB5imo de m caracterFsticas. La selecci%n se detiene si no me"ora la per!ormance medida en las Qltimas p generaciones. maximum+number+of+generations O &1 y generations+wit%out+impro$al O p. Trata de seleccionar nue,as caracterFsticas hasta +ue no haya me"oras en la per!ormance medida en las Qltimas p generaciones. maximum+number+of+generations O m y generations+wit%out+impro$al O &1. Selecciona un mB5imo de m caracterFsticas. La selecci%n no se detiene hasta +ue todas las combinaciones con un mB5imo de m !ueron probadas. Sin embargo, el resultado podrFa contener menos caracterFsticas +ue #stas. maximum+number+of+generations O &1 y generations+wit%out+impro$al O &1. 4rueba todas las combinaciones de atributos I!uer>a bruta, esto podrFa tomar un tiempo muy largo y s%lo debe aplicarse a los pe+ueUos con"untos de atributosJ.

@. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Cptimi>ation H Opti#i5e Sele!tion ?E%olutionar-@
(n algoritmo gen#tico para la selecci%n de caracterFsticas Imutaci%n O conmutar entre habilitar y deshabilitar caracterFsticas, cru>a O intercambiar caracterFsticas utili>adasJ. La selecci%n se reali>a haciendo girar la ruleta. Los algoritmos gen#ticos son algoritmos de optimi>aci%n bQs+ueda de prop%sito general +ue son con,enientes en caso de poco o ningQn conocimiento del problema. (n algoritmo gen#tico !unciona de la siguiente manera.
1. &enera una poblaci%n inicial compuesta por population+si)e indi,iduos. Cada atributo se habilita

con una probabilidad p+initiali)e.


2. 4ara todos los indi,iduos de la poblaci%n.

3eali>an la mutaci%n, es decir, de!inen los atributos utili>ados o no utili>ados con probabilidad p+mutation y ,ice,ersa. o Seleccionan dos indi,iduos de la poblaci%n y reali>an la cru>a con probabilidad p+crosso$er. 8l tipo de cru>a se puede seleccionar mediante crosso$er+type. 3. 3eali>a la selecci%n, mapea todos los indi,iduos a secciones de una ruleta, cuyo tamaUo es proporcional a la aptitud del indi,iduo y e5trae population+si)e indi,iduos al a>ar, en !unci%n de sus probabilidades. <. Mientras me"ora la aptitud, ,uel,e al paso 2.
o

Si el con"unto de e"emplos contiene atributos de series de ,alores con blo+ues de nQmeros, todo el blo+ue serB habilitado o deshabilitado.

0. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Sele!t Attri'utes
8ste operador selecciona cuBles atributos de un Con?unto "e -?emplos deben mantenerse, y cuBles deben ser eliminados. 4or lo tanto, se pueden seleccionar di!erentes tipos de !iltros para el parBmetro attribute filter
59

type y s%lo se seleccionan los atributos +ue satis!acen este tipo de condici%n. 8l resto serB eliminado del Con?unto "e -?emplos. Gay un conmutador global para in,ertir el resultado, de modo +ue todos los atributos +ue han sido descartados inicialmente se mantendrBn y ,ice,ersa. 4ara in,ertir la decisi%n, utili>ar el parBmetro in$ert selection. 8stos tipos estBn disponibles.

all: Simplemente seleccionarB todos los atributos sin3le: 4ermite seleccionar un solo nombre de atributo. 8ste podrFa ser seleccionado de la lista del parBmetro attribute si se conocen los meta datos. su'set: 4ermite seleccionar ,arios atributos de una lista. 'o !uncionarB si los meta datos no estBn presentes. Cada atributo conocido se muestra en la lista y se podrFan seleccionar. re3ularPe7pression: 4ermite especi!icar una e5presi%n regular. Se seleccionarB cada atributo cuyo nombre se corresponde con esta e5presi%n. Las e5presiones regulares son una herramienta muy potente pero necesitan una e5plicaci%n detallada para los principiantes. 4or !a,or consultar uno de los ,arios tutoriales disponibles en 1nternet para una descripci%n mBs detallada. %aluePt-pe: Selecciona s%lo los atributos de un determinado tipo. Tener en cuenta +ue los tipos son "erBr+uicos. 4or e"emplo estBn los atributos denominados binominales, asF como los polinominales. 'lo!;Pt-pe: Similar a $alue+type, permite seleccionar los atributos en !unci%n de su tipo de blo+ue. noP#issin3P%alues: SeleccionarB todos los atributos +ue no contengan un ,alor !altante en todos los e"emplos. nu#eri!P%alueP2ilter: SeleccionarB los atributos probando si todos los ,alores de sus e"emplos se corresponden con esta condici%n o si no son num#ricos. La condici%n num#rica se podrFa especi!icar escribiendola. 4or e"emplo, la cadena de parBmetro R@ AS mantendrB todos los atributos nominales y todos los atributos num#ricos +ue tienen un ,alor mayor +ue ? en cada e"emplo. Se puede reali>ar una combinaci%n de condiciones. R@ A BB C 11S o RCD # 66 C 0S. 4ero BB y 66 no se deben me>clar.

A. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Sele!t '- Mei31ts
8ste operador selecciona todos los atributos +ue tienen un peso +ue satis!ace una determinada condici%n. 4or e"emplo, s%lo los atributos con un peso superior a min_weight deberFan ser seleccionados. 8ste operador tambi#n es capa> de seleccionar los k atributos con mayor peso.

10. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Selection H Mor; on Su'set
8ste operador se puede utili>ar para seleccionar un atributo Io un subcon"unto de atributosJ mediante la de!inici%n de una e5presi%n regular para el nombre del atributo y aplica sus operadores internos al subcon"unto resultante. Tener en cuenta +ue este operador tambi#n utili>arB los atributos especiales, lo +ue lo hace necesario para todos los pasos de preprocesamiento +ue se deben reali>ar sobre los atributos especiales Iy +ue normalmente no se reali>an sobre los atributos especialesJ. 8ste operador tambi#n es capa> de entregar los resultados adicionales del operador interno si asF lo desea.

60

4osteriormente, los atributos originales restantes son agregados al con"unto de e"emplos resultante si el parBmetro keep+subset+only se establece en false Ipor de!ectoJ. Cbser,e +ue este operador es muy potente y se puede utili>ar para crear nue,os es+uemas de preprocesamiento combinBndolo con otros operadores de preprocesamiento. Sin embargo, hay dos restricciones importantes Ientre algunas otrasJ. en primer lugar, debido a +ue el resultado interno se combinarB con el resto del con"unto de e"emplos de entrada, el nQmero de e"emplos Ipuntos de datosJ no se permite cambiar dentro del preprocesamiento del subcon"unto. 8n segundo lugar, los cambios de rol de los atributos no serBn entregados al e5terior debido a +ue internamente todos los atributos especiales serBn cambiados a regular para los operadores internos y los cambios de rol no se pueden entregar posteriormente.

11. $ata Trans!ormation H :ttribute Set 3eduction and Trans!ormation H Trans!ormation H Sin3ular Value De!o#position
M#todo de reducci%n de dimensionalidad basada en la $escomposici%n Singular de )alores IS)$J.

12. $ata Trans!ormation H $ata Cleansing H Repla!e Missin3 Values


Sustituye los ,alores !altantes en los e"emplos. Si un ,alor no estB presente, se reempla>a por una de las !unciones RminimumS, RmaximumS, Ra$erageS, y RnoneS, las +ue se aplican a los ,alores de los atributos +ue no !altan en el con"unto de e"emplos. RnoneS signi!ica +ue no se sustituye el ,alor. La !unci%n se puede seleccionar usando la lista del parBmetro columns. Si el nombre de un atributo aparece en esta lista como una cla,e, el ,alor se utili>a como el nombre de la !unci%n. Si el nombre del atributo no estB en la lista, se utili>a la !unci%n especi!icada por el parBmetro "efault. 4ara los atributos nominales se utili>a la moda para la media, es decir, el ,alor nominal +ue ocurre con mayor !recuencia en los datos. 4ara los atributos nominales y el tipo de reempla>o cero, se utili>a el primer ,alor nominal de!inido para este atributo. La reposici%n R,alorS indica +ue se debe utili>ar el parBmetro de!inido por el usuario para la sustituci%n.

1*. $ata Trans!ormation H Filtering H Filter E7a#ples


8ste operador toma un Con?unto "e -?emplos como entrada y de,uel,e un nue,o Con?unto "e -?emplos incluyendo s%lo los 8"emplos +ue cumplen con una condici%n. Se pueden aplicar !iltros arbitrarios especi!icando una implementaci%n de Con"ition y una cadena de parBmetro. Los usuarios pueden implementar sus propias condiciones escribiendo una subclase de la clase anterior e implementando un constructor de 2 argumentos +ue toma un Con?unto "e -?emplos y una cadena de parBmetro. 8sta cadena de parBmetro se especi!ica mediante el parBmetro parameter+string. 8n lugar de utili>ar una de las condiciones prede!inidas, los usuarios pueden de!inir sus propias implementaciones con el nombre de clase completamente adecuado. 4ara attribute+$alue+con"ition la cadena de parBmetro debe tener la !orma atri'uto op %alor, donde atri'uto es el nombre de un atributo, %alor es un ,alor +ue el atributo puede tomar y op es uno de los operadores l%gicos binarios similares a los conocidos de Ka,a, por e"emplo, mayor o igual +ue IWOJ. Cbser,ar +ue se puede de!inir un C3 l%gico de ,arias condiciones con ee y un :'$ l%gico de dos condiciones con dos ampers and IddJ / o simplemente aplicando ,arios operadores -xample5ilter en una
61

!ila. Tener en cuenta tambi#n +ue para los atributos nominales se puede de!inir una e5presi%n regular para el ,alor de posibles comprobaciones de igualdad y desigualdad. 4ara unknown+attributes la cadena de parBmetro debe estar ,acFa. 8ste !iltro elimina todos los e"emplos +ue contienen atributos con ,alores !altantes o ilegales. 4ara unknown+label la cadena de parBmetro tambi#n debe estar ,acFa. 8ste !iltro elimina todos los e"emplos con un ,alor de eti+ueta desconocido.

1<. $ata Trans!ormation H 'ame and 3ole Modi!ication H Rena#e


8ste operador se puede utili>ar para cambiar el nombre de un atributo de un Con"unto de 8"emplos de entrada. 4or !a,or, tener en cuenta +ue los nombres de atributos tienen +ue ser Qnicos. :un+ue sea renombrado, un atributo mantiene su rol. 4or e"emplo, si se cambia el nombre de un atributo Reti+uetaS con rol la'el a RcolorS, el atributo resultante RcolorS toda,Fa tendrB el rol la'el. 4ara cambiar un rol, consultar Set 3ole.

17. $ata Trans!ormation H 'ame and 3ole Modi!ication H Rena#e 'Repla!in3


8ste operador sustituye partes de los nombres de atributos Icomo espacios en blanco, par#ntesis u otros caracteres no deseadosJ por un reempla>o especi!icado. 8l parBmetro replace+w%at se puede de!inir como una e5presi%n regular Iconsultar el ane5o del tutorial de 3apidMiner para una descripci%nJ. 8l parBmetro replace+by se puede de!inir como una cadena arbitraria. Las cadenas ,acFas tambi#n estBn permitidas. La captura de grupos de la e5presi%n regular de!inida se puede acceder con E1, E2, E3 ...

1?. $ata Trans!ormation H 'ame and 3ole Modi!ication H Set Role


8ste operador se puede utili>ar para cambiar el rol de un atributo del Con?unto "e -?emplos de entrada. Si se desea cambiar el nombre del atributo se debe utili>ar el operador 3ename. 8l rol ob"eti,o indica si el atributo es un atributo regular Iutili>ado por los operadores de aprendi>a"eJ o un atributo especial Ipor e"emplo, un atributo label o i"J. Los siguientes tipos de atributos ob"eti,os son posibles.

re3ular: solo los atributos regulares se utili>an como ,ariables de entrada para las tareas de aprendi>a"e. id: el atributo i" para el con"unto de e"emplos. la'el: atributo ob"eti,o para el aprendi>a"e. predi!tion: atributo pronosticado, es decir, las predicciones de un es+uema de aprendi>a"e. !luster: indica la pertenencia a un grupo IclusterJ. 0ei31t: indica el peso del e"emplo. 'at!1: indica la pertenencia a un lote IbatchJ de e"emplos.

Los usuarios tambi#n pueden de!inir tipos de atributos propios simplemente usando el nombre deseado.

62

QTener en !uenta 6ue los roles tienen 6ue ser Sni!osR Si se asigna un rol no regular por segunda ,e>, harB +ue el primer atributo sea eliminado del Con?unto "e -?emplos. Si se desea conser,ar este atributo, hay +ue cambiar primero su rol.

1@. $ata Trans!ormation H Set Cperations H Append


8ste operador combina dos o mBs con"untos dados de e"emplos agregando todos los e"emplos en una tabla de e"emplos +ue contiene todas las !ilas de datos. Tener en cuenta +ue la nue,a tabla de e"emplos se construye en la memoria y por lo tanto este operador podrFa no ser aplicable a la !usi%n de enormes tablas de con"untos de datos de una base de datos. 8n ese caso se deberFan utili>ar otras herramientas de preprocesamiento con tablas agregadas, unidas y !usionadas en una sola tabla +ue luego es utili>ada por 3apidMiner. Todos los con"untos de e"emplos de entrada deben proporcionar la misma estructura de atributos. 8sto signi!ica +ue todos los con"untos de e"emplos deben tener la misma cantidad de atributos IespecialesJ y los mismos nombres de atributos. Si esto es cierto este operador simplemente combina todos los con"untos de e"emplos agregando todos los e"emplos de todas las tablas en un nue,o con"unto +ue luego se de,uel,e.

10. $ata Trans!ormation H Set Cperations H Doin


Construye la uni%n de dos con"untos de e"emplos utili>ando los atributos id de los con"untos, es decir, los dos con"untos e"emplos deben tener un atributo id donde el mismo id indica los mismos e"emplos. Si !altan e"emplos se lan>arB una e5cepci%n. 8l con"unto e"emplo resultante estarB compuesto por la misma cantidad de e"emplos, pero el con"unto de la uni%n o la lista de la uni%n IsegQn el a"uste del parBmetro los atributos dobles serBn eliminados o renombradosJ de ambos con"untos de caracterFsticas. 8n caso de eliminar los atributos duplicados los ,alores de los atributos deben ser los mismos para los e"emplos de ambos con"untos de e"emplos, de lo contrario se lan>arB una e5cepci%n. Tener en cuenta +ue este control para atributos dobles s%lo se aplicarB para los atributos regulares. Los atributos especiales del segundo con"unto de e"emplos de entrada +ue no e5isten en el primer con"unto de e"emplos simplemente serBn agregados. Si ya e5isten, simplemente son omitidos.

1A. $ata Trans!ormation H Sorting H Sort


8ste operador ordena el Con"unto de 8"emplos dado de acuerdo a un solo atributo especi!icado por el parBmetro attribute+name. Los e"emplos se clasi!ican segQn el orden natural de los ,alores de este atributo, ya sea en direcci%n de aumento o en disminuci%n, dependiendo de la con!iguraci%n de sorting "irection.

20. $ata Trans!ormation H Type Con,ersion H $iscreti>ation H Dis!reti5e 'Fre6uen!8ste operador discreti>a todos los atributos num#ricos del con"unto de datos en atributos nominales. 8sta discreti>aci%n se reali>a mediante inter,alos de igual !recuencia, es decir, los umbrales de todos los
63

inter,alos se seleccionan de !orma +ue todos los inter,alos contengan la misma cantidad de ,alores num#ricos. La cantidad de inter,alos se especi!ica mediante un parBmetro, o, de !orma alternati,a, se calcula la raF> cuadrada de la cantidad de e"emplos sin ,alores !altantes Icalculado para cada atributo simpleJ. Cmite todos los atributos especiales, incluyendo la eti+ueta. Cbser,e +ue es posible obtener inter,alos con di!erentes cantidades de e"emplos. 8sto puede ocurrir, si los ,alores de los atributos no son Qnicos, ya +ue el algoritmo no puede separar entre e"emplos con el mismo ,alor.

21. $ata Trans!ormation H Type Con,ersion H $iscreti>ation H No#inal to 8ino#inal


8ste operador mapea los ,alores de todos los ,alores nominales a atributos binarios. 4or e"emplo, si se trans!orma un atributo nominal con nombre RcostosS y posibles ,alores nominales Rba"oS, RmoderadoS y RaltoS, el resultado es un con"unto de * atributos binominales Rcostos O ba"oS, Rcostos O moderadoS, y Rcostos O altoS. S%lo uno de los ,alores de cada atributo es ,erdadero para un e"emplo concreto, los otros ,alores son !alsos.

22. $ata Trans!ormation H )alue Modi!ication H 'umerical )alue Modi!ication H Nor#ali5e


8ste operador reali>a una normali>aci%n. 8sto se puede hacer entre un ,alor mFnimo y mB5imo de!inido por el usuario o por una trans!ormaci%n >, es decir, media 0 y ,arian>a 1, o por una trans!ormaci%n proporcional a suma total de los atributos correspondientes.

2*. 8,aluation H :ttributes H /er2or#an!e ?Attri'ute Count@


$e,uel,e un ,ector de per!ormance +ue s%lo cuenta la cantidad de atributos utili>ados actualmente por el con"unto de e"emplos dado.

2<. 8,aluation H :ttributes H /er2or#an!e ?CFS@


CFS e,aluador de subcon"untos de atributos. 4ara obtener mBs in!ormaci%n, consultar. Gall, M. :. I1AA0J. Selecci%n de subcon"untos de caracterFsticas basado en la correlaci%n para :prendi>a"e :utomBtico. Tesis presentada en cumplimiento parcial de los re+uisitos del grado de $octor en Filoso!Fa de la (ni,ersidad de Dai;ato. 8ste operador crea un !iltro basado en la medida de per!ormance para un subcon"unto de caracterFsticas. Se e,alQa el ,alor de un subcon"unto de atributos, considerando la capacidad indi,idual de predicci%n de cada caracterFstica "unto con el grado de redundancia entre ellos. Se pre!ieren los subcon"untos de caracterFsticas +ue estBn altamente correlacionadas con la clase mientras tienen ba"a intercorrelaci%n. 8ste operador se puede aplicar sobre con"untos de datos num#ricos y nominales.

64

27. 8,aluation H 4er!ormance Measurement H Classi!ication and 3egression H /er2or#an!e ?8ino#inal Classi2i!ation@
8ste operador e,aluador de per!ormance se debe utili>ar para las tareas de clasi!icaci%n, es decir, en los casos donde el atributo label tiene un tipo de ,alor binominal. Ctras tareas de clasi!icaci%n polinominal, es decir, tareas con mBs de dos clases pueden ser mane"adas por el operador FolynominalClassificationFerformance-$aluator. 8ste operador espera un Con"unto de 8"emplos de prueba como entrada, cuyos elementos tienen tanto las eti+uetas ,erdaderas como las pronosticadas, y entrega como salida una lista de ,alores de per!ormance +ue se calculan de acuerdo a una lista de criterios de per!ormance. Si ya se dio un ,ector de per!ormance de entrada, este se utili>a para mantener los ,alores de per!ormance. Todos los criterios de per!ormance se pueden acti,ar utili>ando parBmetros booleanos. Sus ,alores pueden ser consultados por un operador FrocessGog usando los mismos nombres. 8l criterio principal se utili>a para las comparaciones y debe ser especi!icado s%lo para procesos donde se comparan los ,ectores de per!ormance, por e"emplo, selecci%n de caracterFsticas u otras con!iguraciones de procesos de meta optimi>aci%n. Si no se selecciona ningQn criterio principal, se asumirB +ue el criterio principal es el primer criterio del ,ector de per!ormance resultante. Los ,ectores de per!ormance resultantes usualmente se comparan con un comparador de per!ormance estBndar +ue s%lo compara los ,alores de aptitud del criterio principal. Se pueden especi!icar otras implementaciones de este comparador simple utili>ando el parBmetro comparator+class. 8sto puede ser Qtil por e"emplo, si se desea comparar ,ectores de per!ormance de acuerdo a la suma ponderada de los criterios indi,iduales. 4ara implementar su propio comparador, simplemente subclase de FerformanceComparator. Tener en cuenta +ue para la optimi>aci%n multi/ob"eti,os real se suele utili>ar otro es+uema de selecci%n en lugar de simplemente sustituir el comparador de per!ormance.

2?. 8,aluation H 4er!ormance Measurement H Classi!ication and 3egression H /er2or#an!e ?Classi2i!ation@


8ste operador e,aluador de per!ormance se debe utili>ar para tareas de clasi!icaci%n, es decir, en los casos donde el atributo eti+ueta tiene un tipo de ,alor Ipoli/Jnominal. 8ste operador espera un Con"unto de 8"emplos de prueba como entrada, +ue contiene un atributo con el rol label Ieti+uetaJ y otro con el rol pre"iction Ipredicci%nJ. Consultar el operador Set 3ole para mBs detalles. Sobre la base de estos dos atributos se calcula un )ector de 4er!ormance, +ue contiene los ,alores de los criterios de per!ormance. Si un )ector de 4er!ormance !ue alimentado en la entrada performance, sus ,alores se mantienen si no contienen nue,os criterios. $e lo contrario, los ,alores son promediados con los ,alores antiguos y los nue,os. Todos los criterios de per!ormance se pueden acti,ar utili>ando parBmetros booleanos. Sus ,alores pueden ser consultados por un operador FrocessGog usando los mismos nombres. 8l criterio principal se utili>a
65

para las comparaciones y debe ser especi!icado s%lo para procesos donde se comparan los ,ectores de per!ormance, por e"emplo, selecci%n de atributos u otras con!iguraciones de procesos de meta optimi>aci%n. Si no se selecciona ningQn criterio principal, se asumirB +ue el criterio principal es el primer criterio del ,ector de per!ormance resultante.

2@. 8,aluation H 4er!ormance Measurement H Classi!ication and 3egression H /er2or#an!e ?Re3ression@


8ste operador e,aluador de per!ormance se debe utili>ar para tareas de regresi%n, es decir, en los casos donde el atributo label Ieti+uetaJ tiene un tipo de ,alor num#rico. 8l operador espera un Con"unto de 8"emplos de prueba como entrada, cuyos elementos tienen las eti+uetas ,erdaderas y las pronosticadas, y entrega como salida una lista de ,alores de per!ormance +ue se calculan de acuerdo a una lista de criterios de per!ormance. Si ya se dio un ,ector de per!ormance de entrada, este se utili>a para mantener los ,alores de per!ormance. Todos los criterios de per!ormance se pueden acti,ar utili>ando parBmetros booleanos. Sus ,alores pueden ser consultados por un operador FrocessGog usando los mismos nombres. 8l criterio principal se utili>a para las comparaciones y debe ser especi!icado s%lo para procesos donde se comparan los ,ectores de per!ormance, por e"emplo, selecci%n de caracterFsticas u otras con!iguraciones de procesos de meta optimi>aci%n. Si no se selecciona ningQn criterio principal, se asumirB +ue el criterio principal es el primer criterio del ,ector de per!ormance resultante. Los ,ectores de per!ormance resultantes usualmente se comparan con un comparador de per!ormance estBndar +ue s%lo compara los ,alores de aptitud del criterio principal. Se pueden especi!icar otras implementaciones de este comparador simple utili>ando el parBmetro comparator+class. 8sto puede ser Qtil por e"emplo si se desea comparar ,ectores de per!ormance de acuerdo a la suma ponderada de los criterios indi,iduales. 4ara implementar su propio comparador, simplemente subclase de FerformanceComparator. Tener en cuenta +ue para la optimi>aci%n multi/ob"eti,os real se suele utili>ar otro es+uema de selecci%n en lugar de simplemente sustituir el comparador de per!ormance.

20. 8,aluation H 4er!ormance Measurement H /er2or#an!e


: di!erencia de los otros m#todos de e,aluaci%n de per!ormance, como por e"emplo 4er!ormance IClassi!icationJ, 4er!ormance I2inominal Classi!icationJ o 4er!ormance I3egressionJ, este operador se puede utili>ar para todo tipo de tareas de aprendi>a"e. $eterminarB automBticamente el tipo de tarea de aprendi>a"e y calcularB los criterios mBs comunes para este tipo. 4ara reali>ar cBlculos de per!ormance mBs so!isticados, debe utili>ar los operadores anteriormente mencionados. Si ninguno de ellos se adapta a sus necesidades, usted podrFa escribir su propia medida de per!ormance y calcularla con 4er!ormance I(ser/2asedJ.

8ste operador espera un Con"unto de 8"emplos de prueba como entrada, +ue contenga un atributo con el rol label Ieti+uetaJ y otro con el rol pre"iction Ipredicci%nJ. Consultar el operador Set 3ole para mBs detalles. Sobre la base de estos dos atributos se calcula un )ector de 4er!ormance, +ue contiene los ,alores de los criterios de per!ormance. Si un )ector de 4er!ormance !ue alimentado en la entrada performance, sus
66

,alores se mantienen si no contiene nue,os criterios. $e lo contrario, los ,alores son promediados con los ,alores antiguos y los nue,os Los siguientes criterios se destinan a tareas de clasi!icaci%n binominal.

:ccuracy. 4recision. 3ecall. :(C IoptimistaJ. :(C IneutralJ. :(C IpesimistaJ.

Los siguientes criterios se destinan a tareas de clasi!icaci%n polinominal.


:ccuracy. =appa statistic.

Los siguientes criterios se destinan a tareas de regresi%n.


3oot Mean S+uared 8rror I3aF> cuadrada del error cuadrBtico medioJ. Mean S+uared 8rror I8rror cuadrBtico medioJ.

2A. 8,aluation H 4er!ormance Measurement H /er2or#an!e ?Min&Ma7@


:socia un criterio Min/Ma5 I!in!axCriterionJ con cada criterio de per!ormance de tipo Medida de 4er!ormance. 8ste criterio utili>a la aptitud mFnima alcan>ada en lugar de la aptitud media o la ponderaci%n arbitraria de ambos. Tener en cuenta +ue los ,alores medios permanecen iguales y s%lo cambian los ,alores de aptitud.

*0. 8,aluation H 4er!ormance Measurement H /er2or#an!e ?User&8ased@


8ste operador e,aluador de per!ormance debe ser utili>ado para tareas de regresi%n, es decir, en los casos donde el atributo label tiene un tipo de ,alor num#rico. 8l operador espera una Con"unto de 8"emplos de prueba como entrada, cuyos elementos tienen tanto la eti+uetas ,erdaderas como las pronosticadas, y entrega como salida una lista de ,alores de per!ormance +ue se calculan de acuerdo a una lista de criterios de per!ormance. Si ya se dio un ,ector de per!ormance de entrada, #ste se utili>a para mantener los ,alores de per!ormance. Se pueden especi!icar implementaciones adicionales de!inidas por el usuario de los Criterios de 4er!ormance mediante la lista de parBmetros a""itional+performance+criteria. Cada par cla,e ,alor de esta lista deberB especi!icar un nombre de clase completamente cali!icado Icomo cla,eJ, y un parBmetro de cadena Icomo ,alorJ +ue se pasa al constructor. 4or !a,or, asegQrese de +ue los archi,os de clase se encuentren en la ruta de clases Ieste es el caso si las implementaciones son suministradas por un complementoJ y +ue implementen un constructor de un argumento tomando un parBmetro de cadena. Tambi#n hay +ue garanti>ar +ue estas clases e5tiendan las !e"i"as "e Ferformance puesto +ue el operador -$alua"or "e Ferformance s%lo admitirB estos criterios. Tener en cuenta +ue s%lo los tres primeros criterios

67

de!inidos por el usuario se pueden utili>ar como ,alores de registro IloggingJ con los nombres de Ruser1S, ... , Ruser*S. Los ,ectores de per!ormance resultantes usualmente se comparan con un comparador de per!ormance estBndar +ue s%lo compara los ,alores de aptitud del criterio principal. Se pueden especi!icar otras implementaciones de este simple comparador utili>ando el parBmetro comparator+class. 8sto puede ser Qtil por e"emplo si se desea comparar los ,ectores de per!ormance de acuerdo a la suma ponderada de los criterios indi,iduales. 4ara implementar su propio comparador, simplemente subclase de FerformanceComparator. Tener en cuenta +ue para la optimi>aci%n multi/ob"eti,o real se suele utili>ar otro es+uema de selecci%n en lugar de simplemente sustituir el comparador de per!ormance.

*1. 8,aluation H Signi!icance H ANOVA


$etermina si la hip%tesis nula Itodos los ,alores medios reales son igualesJ se cumple para los ,ectores de per!ormance de entrada. 8ste operador utili>a un en!o+ue :'alysis C! ):riances IanBlisis de ,arian>aJ para determinar la probabilidad de +ue la hip%tesis nula es incorrecta.

*2. 8,aluation H Signi!icance H T&Test


$etermina si la hip%tesis nula Itodos los ,alores medios reales son igualesJ se cumple para los ,ectores de per!ormance de entrada. 8ste operador utili>a una simple prueba t Ien paresJ para determinar la probabilidad de +ue la hip%tesis nula es incorrecta. $ado +ue una prueba t s%lo se puede aplicar a dos ,ectores de per!ormance esta prueba se aplicarB a todos los pares posibles. 8l resultado es una matri> de signi!icancia. Sin embargo, la prueba t de a pares puede introducir un error de tipo 1 mayor. Se recomienda aplicar una prueba de :'C): adicional para determinar si la hip%tesis nula es totalmente incorrecta.

**. 8,aluation H )alidation H Split Validation


(na Cadena de )alidaci%n (an"om'plit di,ide el con"unto de e"emplos en 2 con"untos, uno de prueba y otro de entrenamiento, y e,alQa el modelo. 8l primer operador interno debe aceptar un Con"unto de 8"emplos, mientras +ue el segundo debe aceptar un Con"unto de 8"emplos y la salida del primero I+ue en la mayorFa de los casos es un modeloJ y debe producir un )ector de 4er!ormance. 8ste operador de ,alidaci%n proporciona ,arios ,alores +ue se pueden registrar mediante un operador Log de proceso. Todos los operadores de estimaci%n de per!ormance de 3apidMiner !acilitan el acceso a los ,alores medios calculados durante la estimaci%n. $ebido a +ue el operador no puede asegurar los nombres de los criterios entregados, el operador Log de proceso puede acceder a los ,alores a tra,#s de nombres gen#ricos de ,alores.

per!ormance. el ,alor del criterio principal calculado por este operador de ,alidaci%n. per!ormance1. el ,alor del primer criterio del ,ector de per!ormance calculado. per!ormance2. el ,alor del segundo criterio del ,ector de per!ormance calculado. per!ormance*. el ,alor del tercer criterio del ,ector de per!ormance calculado. para el criterio principal, tambi#n se puede acceder a la ,arian>a y la des,iaci%n estBndar en su caso.
68

*<. 8,aluation H )alidation H G&Validation


X-Validation reali>a un proceso de ,alidaci%n cru>ada. La entrada -xample'et ' se di,ide en ,arios subcon"untos de ,alidaciones '+i. Los subprocesos internos se aplican ,arias ,eces en ,alidaciones usando '+i como con"unto de prueba Ientrada del subproceso HestingJ y ' I '+i como con"unto de entrenamiento Ientrada del subproceso HrainingJ. 8l subproceso Hraining debe de,ol,er un modelo, +ue suele ser entrenado con la entrada -xample'et. 8l subproceso Hraining debe de,ol,er un )ector de 4er!ormance. 8ste se suele generar aplicando el modelo y midiendo su per!ormance. Se pueden pasar ob"etos adicionales desde el subproceso Hraining al Hesting a tra,#s de los puertos. :l igual +ue los otros es+uemas de ,alidaci%n, la ,alidaci%n cru>ada de 3apidMiner puede utili>ar ,arios tipos de muestreo para construir los subcon"untos. Ginear sampling Imuestreo linealJ simplemente di,ide el con"unto de e"emplos en particiones sin cambiar el orden de los e"emplos. '%uffle" sampling Imuestreo me>cladoJ crea subcon"untos aleatorios a partir de los datos. 'tratifie" sampling Imuestreo estrati!icadoJ crea subcon"untos aleatorios y asegura +ue la distribuci%n de clases en los subcon"untos sea igual +ue en todo el con"unto de e"emplos. 4ara tener particiones aleatorias independientes del proceso anterior, se podrFa utili>ar una semilla aleatoria local. )er los parBmetros para mBs detalles. 8l operador de ,alidaci%n cru>ada proporciona ,arios ,alores +ue se pueden registrar por medio de un Log. 4or supuesto, se puede registrar la cantidad actual de iteraciones, lo +ue podrFa ser Qtil para los operadores FrocessGog encapsulados en una ,alidaci%n cru>ada. :demBs de esto, todos los operadores de estimaci%n de per!ormance de 3apidMiner !acilitan el acceso a los ,alores medios calculados durante la estimaci%n. $ebido a +ue el operador no puede asegurar los nombres de los criterios entregados, el operador FrocessGog puede acceder a los ,alores por medio de nombres gen#ricos de ,alores.

per!ormance. el ,alor del criterio principal calculado por este operador de ,alidaci%n. per!ormance1. el ,alor del primer criterio del ,ector de per!ormance calculado. per!ormance2. el ,alor del segundo criterio del ,ector de per!ormance calculado. per!ormance*. el ,alor del tercer criterio del ,ector de per!ormance calculado. para el criterio principal, tambi#n se puede acceder a la ,arian>a y la des,iaci%n estBndar en su caso.

*7. 8,aluation H )alidation H Mrapper&G&Validation


8ste operador e,alQa la per!ormance de los algoritmos de ponderaci%n y selecci%n de caracterFsticas. 8l primer subproceso contiene el algoritmo a e,aluar. 8ste debe de,ol,er un ,ector de pesos de atributos +ue luego se aplica sobre los datos de prueba. 8l mismo pliegue JVali"ation de los datos se utili>a para crear un nue,o modelo durante el segundo subproceso. 8ste modelo se e,alQa en el tercer subproceso, por lo +ue tiene +ue de,ol,er un ,ector de per!ormance. 8ste ,ector de per!ormance sir,e como un indicador de per!ormance para el algoritmo real. 8sta implementaci%n de una !et%o"Vali"ationC%ain !unciona de !orma similar a la JVali"ation.

*?. 85port H :ttributes H Mrite Constru!tions

69

8scribe todos los atributos de un con"unto de e"emplos en un archi,o. Cada lFnea contiene la descripci%n de la construcci%n de un atributo. 8ste archi,o se puede leer en otro proceso utili>ando el ,pera"or "e ;eneraciKn "e Caracter0sticas o el Carga"or "e Construcciones "e tributos.

*@. 85port H :ttributes H Mrite Mei31ts


8scribe los pesos de todos los atributos de un Con"unto de 8"emplos en un archi,o. 4or lo tanto es necesario un ob"eto ttributeLeig%ts I4esos de los :tributosJ en la entrada de este operador. Cada lFnea contiene el nombre de un atributo y su peso. 8ste archi,o se puede leer en otro proceso utili>ando el Carga"or "e Fesos "e tributos y el plica"or "e Fesos "e tributos.

*0. 85port H Cther H Mrite /ara#eters


8scribe un con"unto de parBmetros en un archi,o. 8ste se puede crear mediante uno de los operadores de optimi>aci%n de parBmetros, por e"emplo, un operador ,ptimi)e Farameters 7;ri"8. 8ste se puede aplicar luego a los operadores del proceso utili>ando un Farameter'etter.

*A. 1mport H :ttributes H Read Constru!tions


Carga un con"unto de atributos desde un archi,o y construye las caracterFsticas deseadas. Si keep+all es !also, los atributos originales se eliminan antes de crear los nue,os. 8sto tambi#n signi!ica +ue una selecci%n de caracterFsticas se lle,a a cabo s%lo si en el archi,o se dio un subcon"unto de las caracterFsticas originales.

<0. 1mport H :ttributes H Read Mei31ts


Lee los pesos de todos los atributos de un con"unto de e"emplos desde un archi,o y crea un nue,o ob"eto 1C ttributeLeig%ts. 8ste ob"eto se puede utili>ar para ampliar los ,alores de un con"unto de e"emplos con la ayuda del operador plica"or "e Fesos "e tributos.

<1. 1mport H Cther H Read /ara#eters


Lee un con"unto de parBmetros desde un archi,o +ue !ue escrito por un Cperador de Cptimi>aci%n de 4arBmetros. 8ste se puede aplicar luego a los operadores del proceso utili>ando un Farameter'etter.

<2. Modeling H :ssociation and 1tem Set Mining H Create Asso!iation Rules

70

8ste operador genera reglas de asociaci%n a partir de con"untos de elementos !recuentes. 8n 3apidMiner, el proceso de e5traer con"untos de elementos !recuentes se di,ide en 2 partes. en primer lugar, la generaci%n de con"untos de elementos !recuentes y en segundo lugar, la generaci%n de reglas de asociaci%n a partir de esos con"untos. 4ara generar con"untos de elementos !recuentes, se puede utili>ar, por e"emplo, el operador 5F&;rowt%. 8l resultado serB un con"unto de elementos !recuentes +ue se puede utili>ar como entrada para este operador.

<*. Modeling H :ssociation and 1tem Set Mining H F/&9ro0t1


8ste operador calcula todos los con"untos de elementos !recuentes de un con"unto de datos mediante la creaci%n de una estructura de datos 5FHree sobre la base de datos de transacciones. 8sta es una copia muy comprimida de los datos +ue en muchos casos cabe en la memoria principal, incluso para grandes bases de datos. Todo el con"unto de elementos !recuentes se deri,a de este F4Tree. (na ,enta"a importante de F4/ &ro-th comparado con :priori es +ue s%lo utili>a 2 escaneos de los datos y por lo tanto !recuentemente es aplicable incluso en grandes con"untos de datos. Cbser,e +ue el con"unto de datos dado s%lo puede contener atributos binominales, es decir, atributos nominales con s%lo 2 ,alores di!erentes. S%lo tiene +ue utili>ar los operadores de preprocesamiento para trans!ormar el con"unto de datos. Los operadores necesarios son los operadores de discreti>aci%n para cambiar los tipos de ,alores de los atributos num#ricos a nominales y el operador :ominal2Binominal para trans!ormar los atributos nominales en binominales binarios. Los con"untos de elementos !recuentes son e5traFdos de las entradas positi,as de la base de datos, es decir, de los ,alores nominales de!inidos como positi,os en la base de datos. Si se utili>a un archi,o de descripci%n de atributo I.amlJ para el operador -xample'ource este corresponde al segundo ,alor +ue se de!ine a tra,#s de los atributos de clase o eti+uetas de ,alor interno. Si sus datos no especi!ican las entradas positi,as correctamente, puede con!igurarlos utili>ando el parBmetro positi$e+$alue. f8sto s%lo !unciona si todos sus atributos contienen este ,alora 8ste operador tiene dos modos bBsicos de traba"o. encontrar al menos la cantidad especi!icada de con"untos de elementos con mayor soporte, sin tener en cuenta el min+support Ipor de!ectoJ o encontrar todos los con"untos de elementos con soporte mayor +ue min+support.

<<. Modeling H :ttribute Deighting H Cptimi>ation H Opti#i5e Mei31ts ?E%olutionar-@


8ste operador reali>a la ponderaci%n de caracterFsticas con un en!o+ue de estrategias e,oluti,as. La ,arian>a de la mutaci%n aditi,a gaussiana pueden ser adaptada por una regla 1 7.

<7. Modeling H :ttribute Deighting H Mei31t '- C1i S6uared Statisti!

71

8ste operador calcula la rele,ancia de una caracterFstica obteniendo para cada atributo del Con"unto de 8"emplos de entrada el ,alor de la estadFstica chi/cuadrado con respecto al atributo de clase.

<?. Modeling H Classi!ication and 3egression H 2ayesian Modeling H Nai%e 8a-es


:prendi> 'ai,e 2ayes.

<@. Modeling H Classi!ication and 3egression H Function Fitting H Re3ression

inear

8ste operador calcula un modelo de regresi%n lineal. (tili>a el criterio de :;ai;e para la selecci%n del modelo.

<0. Modeling H Classi!ication and 3egression H La>y Modeling H ;&NN


(na implementaci%n de los k ,ecinos mBs cercanos.

<A. Modeling H Classi!ication and 3egression H Meta Modeling H MetaCost


8ste operador utili>a una matri> de costos dada para obtener las predicciones de label segQn los costos de clasi!icaci%n. 8l m#todo usado por este operador es similar al MetaCost segQn lo descrito por 4edro $omingos.

70. Modeling H Classi!ication and 3egression H Meta Modeling H Sta!;in3


8sta clase utili>a n M1 aprendices internos y genera n modelos di!erentes utili>ando los n aprendices anteriores. Las predicciones de estos n modelos se toman para crear n caracterFsticas nue,as para el con"unto de e"emplos, +ue !inalmente se utili>a como entrada del primer aprendi> interno.

71. Modeling H Classi!ication and 3egression H Support )ector Modeling H Support Ve!tor Ma!1ine
8ste aprendi> utili>a la implementaci%n en Ka,a de la MB+uina de )ectores Soporte my'V! por Ste!an 3gping. 8ste m#todo de aprendi>a"e puede ser utili>ado para regresi%n y clasi!icaci%n y proporciona un algoritmo rBpido y buenos resultados para muchas tareas de aprendi>a"e.

72

72. Modeling H Classi!ication and 3egression H Support )ector Modeling H Support Ve!tor Ma!1ine ? i'SVM@
:plica el aprendi> libs,m por Chih/Chung Chang y Chih/Ken Lin. La S)M es un m#todo potente para clasi!icaci%n y regresi%n. 8ste operador soporta los tipos de S)M C&'VC y un nu&'VC para tareas de clasi!icaci%n, asF como epsilon&'V( y nu&'V( para tareas de regresi%n. :demBs one&class brinda la posibilidad de aprender a partir de s%lo una clase de e"emplos y luego probar si nue,os e"emplos coinciden con los conocidos. 8n comparaci%n con los otros aprendices de S)M, el libs,m tambi#n soporta aprendi>a"e interno multiclase y la estimaci%n de probabilidad basada en la escala de 4latt para ,alores de con!ian>a adecuados despu#s de aplicar el modelo aprendido sobre un con"unto de datos de clasi!icaci%n.

7*. Modeling H Classi!ication and 3egression H Tree 1nduction H De!ision Tree


8ste operador aprende Brboles de decisi%n, tanto de datos nominales como num#ricos. Los Brboles de decisi%n son potentes m#todos de clasi!icaci%n, +ue con !recuencia tambi#n se pueden entender !Bcilmente. 4ara clasi!icar un e"emplo, se recorre el Brbol desde arriba hacia aba"o. Cada nodo de un Brbol de decisi%n se eti+ueta con un atributo. 8l ,alor del e"emplo para este atributo determina cuBl de los arcos resultantes se toma. 4ara atributos nominales, hay un arco +ue sale por cada ,alor posible del atributo, y para atributos num#ricos los arcos salientes se eti+uetan con inter,alos dis"untos. 8ste aprendi> de Brbol de decisi%n !unciona de !orma similar a C<.7 de ]uinlan o C:3T. 8n t#rminos generales, el algoritmo de Brbol de inducci%n traba"a de la siguiente manera. Cuando se crea un nue,o nodo en un momento determinado, se elige un atributo para ma5imi>ar el poder discriminati,o de ese nodo con respecto a los e"emplos asignados al subBrbol particular. 8ste poder discriminati,o se mide por un criterio +ue puede ser seleccionado por el usuario Iobtener in!ormaci%n, tasa de ganancia, Fndice de &ini, etc.J 8l algoritmo se detiene en ,arios casos.

'ingQn atributo alcan>a un determinado umbral Iminimum+gainJ. Se alcan>a la pro!undidad mB5ima. Gay menos de un cierto nQmero de e"emplos Iminimal+si)e+for+splitJ en el subBrbol actual.

4or Qltimo, se poda el Brbol, es decir, se +uitan las ho"as +ue no aumentan el poder discriminati,o de todo el Brbol.

7<. Modeling H Clustering and Segmentation H ;&Means


8ste operador representa una implementaci%n de ;/medias. CrearB un atributo de cluster si toda,Fa no estB presente.

73

77. Modeling H Model :pplication H Appl- Model


8ste operador aplica un modelo a un Con"unto de 8"emplos. Los modelos suelen contener in!ormaci%n sobre los datos con los han sido entrenados. 8sta in!ormaci%n se puede utili>ar para predecir el ,alor de una eti+ueta posiblemente desconocida, reproducir algunas trans!ormaciones como durante el entrenamiento o reali>ar otros cambios. Todos los parBmetros necesarios se almacenan dentro del ob"eto modelo. 4or !a,or, prestar atenci%n al hecho de +ue la aplicaci%n de los modelos necesitarB los mismos atributos durante la aplicaci%n sobre un Con"unto de 8"emplos +ue cuando !ormaron parte del Con"unto de 8"emplos en #l !ueron entrenados. :lgunos cambios menores como la adici%n de atributos serFan posibles, pero podrFan causar gra,es errores de cBlculo. 4or !a,or, asegQrese de +ue la !antidad de atri'utosT el ordenT el tipo - el rol son consistentes durante el entrenamiento y la aplicaci%n. Si el modelo admite ,istas, es posible crear una ,ista en lugar de cambiar los datos subyacentes. 4ara indicar al operador pply !o"el +ue la haga, s%lo hay +ue habilitar el parBmetro create $iew. La trans!ormaci%n +ue normalmente serFa reali>ada directamente sobre los datos, en este caso serB calculada cada ,e> +ue se re+uiera un ,alor y el resultado se de,uel,e sin cambiar los datos. 4or !a,or, tener en cuenta +ue no todos los modelos soportan ,istas. Si se tiene +ue aplicar ,arios modelos en !ila, como por e"emplo cuando se tiene +ue aplicar algunos modelos de preprocesamiento antes de aplicar un modelo de predicci%n, entonces se podrFan agrupar los modelos. 8sto es posible utili>ando el operador &roup Models de !orma con,eniente.

7?. Modeling H Model :pplication H 9roup Models


8ste operador agrupa todos los modelos de entrada para !ormar un modelo agrupado IcombinadoJ. 8ste modelo se puede aplicar completamente sobre nue,os datos o escrito en un archi,o en otro momento. 8sto podrFa ser Qtil en los casos donde los modelos de preprocesamiento y predicci%n deben ser aplicados en !orma con"unta sobre datos nue,os y no ,istos. 8ste operador sustituye al agrupamiento automBtico de modelos conocidos de ,ersiones anteriores de 3apidMiner. 8l uso e5plFcito de este operador de agrupamiento le da al usuario mBs control sobre el procedimiento de agrupaci%n. (n modelo agrupado se puede desagrupar con el operador !o"elNngrouper. Tener en cuenta +ue los modelos de entrada se agregan en orden in,erso, es decir, el Qltimo modelo creado, +ue suele ser el primero al inicio del ob"eto 1C, se agregarB a la cola como el Qltimo modelo del modelo combinado del grupo.

7@. Modeling H Model :pplication H Thresholds H Appl- T1res1old


8ste operador aplica el umbral dado a un con"unto e"emplos y mapea una predicci%n so!t a ,alores crisp. Si la con!ian>a para la segunda clase Igeneralmente positi,a para 3apidMinerJ es mayor +ue el umbral dado, la predicci%n se establece a esta clase.

74

70. Modeling H Model :pplication H Thresholds H Find T1res1old


8ste operador encuentra el me"or umbral para la clasi!icaci%n crisp en base a los costos de!inidos por el usuario.

7A. Modeling H Model :pplication H Un3roup Models


8ste operador desagrupa un modelo pre,iamente agrupado I !o"el;rouperJ y entrega los modelos agrupados de la entrada. 8ste operador sustituye al agrupamiento automBtico de modelos conocido de ,ersiones anteriores de 3apidMiner. 8l uso e5plFcito de este operador de desagrupamiento le da al usuario mBs control sobre el procedimiento de desagrupaci%n. Los modelos simples se pueden agrupar con el operador !o"el;rouper.

?0. 4rocess Control H 2ranch H Sele!t Su'pro!ess


8ste operador se puede utili>ar para emplear un solo operador interno o una cadena de operadores. 8l parBmetro select+w%ic% permite de!inir +u# operador se debe utili>ar. Kunto con uno de los operadores de optimi>aci%n de parBmetros o iteraci%n, este operador se puede utili>ar para cambiar dinBmicamente la con!iguraci%n del proceso +ue pueda ser Qtil para probar di!erentes diseUos, por e"emplo, la ganancia mediante el uso de di!erentes pasos de preprocesamiento o cadenas o la calidad de determinado aprendi>.

?1. 4rocess Control H Loop H oop Attri'utes


8ste operador toma un con"unto de datos de entrada y le aplica sus operadores internos tantas ,eces como lo indica el nQmero de caracterFsticas de los datos de entrada. Los operadores internos pueden acceder al nombre actual de la caracterFstica mediante una macro, cuyo nombre se puede especi!icar a tra,#s del parBmetro iteration+macro. 8l usuario puede especi!icar con un parBmetro si este bucle debe iterar sobre todas las caracterFsticas o s%lo sobre las caracterFsticas con un tipo de ,alor especF!ico, es decir, s%lo sobre caracterFsticas num#ricas o sobre caracterFsticas nominales. Tambi#n se puede especi!icar una e5presi%n regular +ue se utili>a como !iltro, es decir, los operadores internos s%lo se aplican para nombres de caracterFsticas +ue coinciden con la e5presi%n de !iltro.

?2. 4rocess Control H Loop H oop Values


8n cada paso de iteraci%n, este meta operador e"ecuta su proceso interno para el Con"unto de 8"emplos de entrada. 8sto sucederB para cada ,alor posible de atributo de los atributos especi!icados si all estB seleccionada para el parBmetro $alues. Si se selecciona abo$e p, se reali>a una iteraci%n solamente para
75

a+uellos ,alores +ue presentan una tasa de ocurrencia de por lo menos p. 8sto puede ser Qtil, solamente si se deben considerar grandes subgrupos. Se puede acceder al ,alor actual del bucle con el nombre de la macro especi!icada.

?*. 4rocess Control H 4arameter H Opti#i5e /ara#eters ?9rid@


8ste operador encuentra los ,alores %ptimos para un con"unto de parBmetros mediante una bQs+ueda en red Igrid searchJ. 8l parBmetro parameters es una lista de pares de ,alores en cla,e donde las cla,es tienen la !orma nombre+opera"or.nombre+par.metro y el ,alor es una lista de ,alores separados por comas Ipor e"emplo. 10,17,20,27J o una de!inici%n de inter,alo en el !ormato Xinicio[ !in[ amplitud del pasoY Ipor e"emplo X10[ 27[ 7YJ. $e !orma alternati,a, se puede utili>ar un patr%n de ,alores de red IgridJ, por e"emplo. Xinicio[ !in[ no6steps[ escaleY, donde escale identi!ica el tipo del patr%n. 8l operador de,uel,e un Con"unto %ptimo de 4arBmetros +ue tambi#n se puede guardar en un archi,o con un ;raba"or "e Con?unto "e Far.metros. 8ste con"unto de parBmetros se puede leer en otro proceso utili>ando un Carga"or "e Con?unto "e Far.metros. 8l !ormato de archi,o del archi,o de con!iguraci%n de parBmetros es sencillo y se puede generar !Bcilmente mediante aplicaciones e5ternas. Cada lFnea tiene la !orma.

nombre6operator.nombre6parBmetro O ,alor

:demBs del con"unto de parBmetros, de,uel,e todos los resultados internos generados durante la e"ecuci%n +ue entreg% la me"or per!ormance. 4or !a,or consulte la secci%n Frocesos $an)a"os = n.lisis "e Far.metros y Ferformance para un e"emplo de aplicaci%n. Ctros es+uemas de optimi>aci%n de parBmetros como el Cperador de Cptimi>aci%n 8,oluti,a de 4arBmetros tambi#n pueden ser Qtiles si no se conocen totalmente los me"ores rangos y dependencias. Ctro operador +ue !unciona de !orma similar a este operador de optimi>aci%n parBmetros es el operador de 1teraci%n de 4arBmetros. : di!erencia del operador de optimi>aci%n, este operador simplemente recorre todas las combinaciones de parBmetros. 8sto podrFa ser especialmente Qtil para los !ines de gra!icaci%n.

?<. 4rocess Control H Multipl8sto operador copia su ob"eto de entrada a todos los puertos de salida conectados. Mientras mBs puertos estBn conectados, mBs copias se generan. Tener en cuenta +ue los ob"etos se copian por re!erencia, por lo tanto, los datos subyacentes de los Con"untos de 8"emplos nunca se copian Ia menos +ue utilice un operador !ateriali)e DataJ. 4or lo tanto, la copia de ob"etos no es costosa. :l copiar los Con"untos de 8"emplos s%lo se copian las re!erencias a los atributos. Cuando se modi!ican o agregan atributos a un Con"unto de 8"emplos, este cambio es in,isible para las otras copias. Sin embargo, si se modi!ican los datos en un hilo del !lu"o del proceso, tambi#n se modi!ica en las otras copias.

?7. 4rocess Control H 4arameter H Set /ara#eters

76

8stablece un con"unto de parBmetros. 8stos parBmetros se pueden generar por un ,pera"or "e ,ptimi)aciKn "e Far.metros o leer mediante un Carga"or "e Con?unto "e Far.metros. 8ste operador es Qtil, por e"emplo, en la siguiente situaci%n. Si se desea encontrar los me"ores parBmetros para un determinado es+uema de aprendi>a"e, por lo general tambi#n interesa el modelo generado con estos parBmetros. Mientras los primeros se pueden obtener !Bcilmente utili>ando un ,pera"or "e ,ptimi)aciKn "e Far.metros, el Qltimo no es posible por+ue el ,pera"or "e ,ptimi)aciKn "e Far.metros no de,uel,e los Cb"etos 1C generados en su interior, sino solamente un con"unto de parBmetros. 8sto se debe a +ue el operador de optimi>aci%n de parBmetros no sabe nada acerca de los modelos, sino s%lo sobre los ,ectores de per!ormance producidos en su interior. Los ,ectores de per!ormance no necesariamente re+uieren un modelo. 4ara resol,er este problema, se puede utili>ar un Farameter'etter. 4or lo general, un proceso con un Farameter'etter contiene por lo menos dos operadores del mismo tipo, usualmente un aprendi>. (n aprendi> puede ser un operador interno del ,pera"or "e ,ptimi)aciKn "e Far.metros y se puede denominar R:prendi>S, mientras +ue un segundo aprendi> del mismo tipo denominado R:prendi>CptimoS sigue la optimi>aci%n de parBmetros y debe utili>ar el con"unto %ptimo de parBmetros encontrados por la optimi>aci%n. 4ara hacer +ue el Farameter'etter estable>ca los parBmetros %ptimos del operador correcto, hay +ue especi!icar su nombre. Cada parBmetro de la lista de parBmetros name+map mapea el nombre de un operador +ue se utili>% durante la optimi>aci%n Ien este caso es el T:prendi>TJ a un operador +ue ahora debe utili>ar estos parBmetros Ien este caso es el R:prendi>CptimoSJ.

??. 3epository :ccess H Retrie%e


8ste operador se puede utili>ar para acceder a los repositorios presentados en 3apidMiner 7. 8ste deberFa sustituir a todos los accesos a archi,os, por+ue proporciona todo el procesamiento de los metadatos, lo +ue !acilita mucho el uso de 3apidMiner. : di!erencia del acceso a un archi,o sin procesar, #ste operador proporcionarB todos los metadatos de los datos, de modo +ue posibilita todas las trans!ormaciones de los metadatos. 8l Qnico parBmetro repository+entry re!erencia una entrada del repositorio +ue se de,ol,erB como salida de este operador. Las ubicaciones de los repositorios se resuel,en en relaci%n a la carpeta del repositorio +ue contiene al proceso actual. Las carpetas del repositorio estBn separadas mediante una barra inclinada I J, R..S hace re!erencia a la carpeta padre. (na barra inclinada inicial hace re!erencia a la carpeta raF> del repositorio +ue contiene al proceso actual. (na doble barra inclinada inicial se interpreta como una ruta absoluta +ue comien>a con el nombre de un repositorio.

RMis$atosS busca una entrada RMis$atosS en la misma carpeta +ue contiene el proceso actual. R.. entrada Mis$atosS busca una entrada RMis$atosS, ubicada en la carpeta RentradaS pr%5ima a la carpeta +ue contiene el proceso actual. R datos ModeloS busca una entrada RModeloS en la carpeta RdatosS de ni,el superior en el repositorio +ue contiene al proceso actual. R Samples data 1risS, busca el con"unto de datos R1risS en el repositorio RSamplesS.

?@. 3epository :ccess H Store


8ste operador almacena ,b?ectos 1, en un lugar de un repositorio.

77

?0. (tility H $ata &eneration H Add Noise


8ste operador agrega atributos aleatorios y ruido blanco a los datos. 'ue,os atributos aleatorios son simplemente completados con datos aleatorios +ue no estBn correlacionados en absoluto con el label Ila eti+uetaJ. :demBs, este operador puede agregar ruido al atributo label o a los atributos regulares. 8n el caso de un label num#rico, el label+noise dado es el porcenta"e del rango del label el +ue de!ine la des,iaci%n estBndar del ruido normalmente distribuido +ue se agrega al atributo label. 4ara las eti+uetas nominales el parBmetro label+noise de!ine la probabilidad de cambiar aleatoriamente el ,alor de la eti+ueta nominal. 8n el caso de agregar ruido a los atributos regulares. 8l parBmetro "efault+attribute+noise simplemente de!ine la des,iaci%n estBndar del ruido normalmente distribuido sin utili>ar el rango de ,alores de atributo. (sando la lista de parBmetros es posible establecer di!erentes ni,eles de ruido para di!erentes atributos. Sin embargo, esto no es posible al agregar ruido a los atributos nominales.

?A. (tility H $ata &eneration H 9enerate Data


&enera un con"unto aleatorio de e"emplos para prop%sitos de prueba. (tili>a una subclase de Harget5unction IFunci%n Cb"eti,oJ para crear los e"emplos a partir de los ,alores de los atributos. Las !unciones ob"eti,o posibles son. random, sum Ide todos los atributosJ, polynomial Ide los * primeros atributos, grado *J, non linear, sinus, sinus !re+uency Icomo sinus, pero con !recuencias en el argumentoJ, random classi!ication, sum classi!ication Icomo sum, pero positi,o para sum positi,o y negati,o para sum negati,oJ, interaction classi!ication Ipositi,o par x negati,o o positi,o y y negati,o )J, sinus classi!ication Ipositi,o para los ,alores positi,os del senoJ.

@0. (tility H Logging H o3


8ste operador registra datos casi arbitrarios. 8stos se pueden guardar en un archi,o +ue luego se puede leer, por e"emplo por gnuplot. 4or otra parte, los datos recogidos se pueden gra!icar mediante la &(1. 8sto es posible incluso en tiempo de e"ecuci%n del proceso Ies decir, gra!icaci%n en lFneaJ. Los parBmetros de la lista log se interpretan de la siguiente manera. 8l parBmetro key da el mismo nombre para el nombre de columna Ipor e"emplo, para su uso en el gra!icadorJ. 8l parBmetro $alue especi!ica de d%nde recuperar el ,alor. 8sto se e5plica me"or con un e"emplo.

Si el ,alor es operator.-$alua"or.$alue.absolute, el operador FrocessGog busca el operador con el nombre -$alua"or. Si este operador es un -$alua"or "e Ferformance, tiene un ,alor denominado absolute +ue da el error absoluto de la Qltima e,aluaci%n. 8ste ,alor se consulta mediante el operador FrocessGog. Si el ,alor es operator. pren"i)'V!.parameter.C, el operador FrocessGog busca el parBmetro C del operador denominado pren"i)'V!.

Cada ,e> +ue se aplica el operador FrocessGog, todos los ,alores y parBmetros especi!icados por la lista log se recogen y se almacenan en una !ila de datos. :l !inali>ar el proceso, el operador escribe las !ilas de datos recopiladas en un archi,o Isi se especi!icaJ. 8n el modo de &(1, 2$ o *$, se generan automBticamente los

78

grB!icos y se muestran en el ,isor de resultados. 4or !a,or consultar la secci%n Frocesos n.lisis "e Far.metros y Ferformance para un e"emplo de aplicaci%n.

$an)a"os =

@1. (tility H Macros H E7tra!t Ma!ro


8ste operador Ire/Jde!ine una macro para el proceso actual. Las macros serBn sustituidas en las cadenas de ,alores de los parBmetros por los ,alores de las macros, ,er mBs aba"o la secci%n Macros. : di!erencia del habitual operador Set Macro, este operador establece el ,alor de una sola macro a partir de las propiedades de un Con"unto de 8"emplos de entrada dado, por e"emplo, a partir de propiedades como la cantidad de e"emplos o atributos, o de un ,alor especF!ico de dato. 8l nombre de la macro se debe especi!icar en el parBmetro macro y la !orma de recuperar el ,alor desde el Con"unto de 8"emplos, se debe seleccionar de macro+type. Ma!ros (na macro de!inida se puede utili>ar luego en todos los operadores sucesi,os como ,alor de parBmetro para los parBmetros. (na macro entonces debe estar encerrada entre R27S y R8S. Gay ,arias macros prede!inidas.

UVpro!essPna#eW: se sustituye por el nombre del proceso Isin ruta de acceso y e5tensi%nJ . UVpro!essP2ileW: se sustituye por el nombre de archi,o del proceso Icon e5tensi%nJ. UVpro!essPpat1W: se sustituye por la ruta absoluta completa del archi,o del proceso.

:demBs de #stas el usuario puede de!inir arbitrariamente otras macros +ue serBn sustituFdas por cadenas arbitrarias durante la e"ecuci%n del proceso. Tener en cuenta +ue tambi#n e5isten algunas macros cortas, por e"emplo, 23a4 para el nQmero de ,eces +ue se aplic% el operador actual. Tener en cuenta ademBs +ue otros operadores como muchos de los operadores de bucle como Loop )alues o Loop :ttributes tambi#n agregan macros especF!icas.

@2. (tility H Macros H Set Ma!ro


I3eJde!ine macros para el proceso actual. Las macros serBn sustituFdas en las cadenas de ,alor de los parBmetros por los ,alores de la macro de!inida como parBmetro de este operador. : di!erencia del habitual Cperador de $e!inici%n de Macros, este operador s%lo soporta la de!inici%n de una sola macro, por lo +ue se puede utili>ar dentro de iteraciones de parBmetro. Gay +ue de!inir el nombre de la macro Isin encerrar entre corchetesJ y el ,alor de la macro. La macro de!inida luego se puede utili>ar en todos los operadores sucesi,os como ,alor del parBmetro. (na macro debe entonces estar encerrada por RM:C3C6ST:3TS y RM:C3C68'$S. Gay ,arias macros prede!inidas.

M:C3C6ST:3Tnombre6procesoM:C3C68'$. se sustituye por el nombre del proceso Isin ruta de acceso y e5tensi%nJ.

79

M:C3C6ST:3Tarchi,o6procesoM:C3C68'$. se sustituye por el nombre de archi,o del proceso Icon e5tensi%nJ. M:C3C6ST:3Truta6procesoM:C3C68'$. se sustituye por la ruta absoluta completa del archi,o del proceso.

:demBs de #stas el usuario puede de!inir arbitrariamente otras macros +ue serBn sustituFdas por cadenas arbitrarias durante la e"ecuci%n del proceso. Tener en cuenta +ue tambi#n e5isten algunas macros cortas, por e"emplo, ! C(,+'H (Ha! C(,+-:D para el nQmero de ,eces +ue se aplic% el operador actual. 4or !a,or, consultar la secci%n sobre macros en el tutorial de 3apidMiner. Tener en cuenta ademBs +ue otros operadores como el 5eature1terator tambi#n agregan macros especF!icas.

@*. (tility H Miscellaneous H Free Me#orLimpia los recursos de memoria no utili>ados. 4odrFa ser muy Qtil en combinaci%n con el operador !ateriali)eData1n!emory despu#s de grandes Brboles de preprocesamiento utili>ando gran cantidad de ,istas o copias de los datos. 1nternamente, este operador simplemente in,oca la recolecci%n de basura del lengua"e de programaci%n Ka,a subyacente.

@<. (tility H Miscellaneous H Materiali5e Data


Crea una copia reciente y limpia de los datos en la memoria. 4odrFa ser muy Qtil en combinaci%n con el operador !emoryCleanNp despu#s de grandes Brboles de preprocesamiento utili>ando gran cantidad de ,istas o copias de los datos.

@7. (tility H Su'pro!ess


(na cadena de un solo operador +ue puede tener una cantidad arbitraria de operadores internos. Los operadores son posteriormente aplicados y sus salidas se utili>an como entrada para el operador subsiguiente. La entrada de la cadena de operador se utili>a como entrada para el primer operador interno y la salida del Qltimo operador se utili>a como salida de la cadena de operador.

80

81

8I8 IO9RAFXA

3apidMiner online Tutorial. 3apidMiner 7.0. Di;i de 3apidMiner. http. rapid/i.com -i;i inde5.phpNtitleOMain64age.

82

También podría gustarte