Está en la página 1de 13

Seleccin de Caractersticas usando Algoritmos Genticos para Clasificacin

de Vinos Chilenos
S.A. Salah+, M.A. Duarte-Mermoud+* , N.H. Beltrn+, M.A. Bustos +, A.I. Pea-Neira++, E.A. Loyola ++,
and J.W. Jalocha ++
+
Depto. de Ing. Elctrica, Universidad de Chile
Av. Tupper 2007, Casilla 412-3, Santiago, Chile
++
Depto. de Agroindustria y Enologa, Universidad de Chile
Av. Santa Rosa 11315, Santia go, Chile
e-mail: mduartem@cec.uchile.cl

Resumen
En este trabajo se presentan los resultados de aplicar algoritmos genticos, para seleccionar las
caractersticas ms relevantes presentes en cromatogramas de compuestos polifenlicos obtenidos
mediante un HPLC-DAD, para el caso de muestras de vinos tintos chilenos Cabernet Sauvignon,
Carmenere y Merlot. De los 6751 puntos originales del cromatograma, el algoritmo gentico fue
capaz de seleccionar finalmente 29 de ellos, con los cuales se obtuvo un resultado superior, desde el
punto de vista de clasificacin, comparado con el caso en que se emplea la informacin completa.
El porcentaje de clasificacin correcta alcanzado con estas 29 caractersticas result ser 99,1%.
Palabras Claves: Procesamiento de seales, Algoritmos Genticos, Clasificacin de Vinos.

1.0 Introduccin
La industria del vino chileno ha experimentado un notable crecimiento en el ltimo tiempo, acorde
con la expansin del mercado de los vinos en el mundo entero. Chile export del orden de US $ 570
millones en el 2000, casi US $ 600 millones en el 2001 y se espera que en el 2002 esa cifra llegue a
650 millones de dlares, constituyndose en un sector importante en cuanto a exportaciones, de
acuerdo a cifras de Vias de Chile. Simultneamente, la industria vitivincola chilena ha tenido un
gran desarrollo en el ltimo tiempo incorporando nuevas tecnologas tanto en el proceso cosecha
como en el de vinificacin. Es as como el vino est siendo sometido a diversos controles de calidad,
para asegurar que el producto que se est ofreciendo corresponda realmente al que se est
entregando. Los mtodos de clasificacin de las variedades de las uvas con las que se elaboran los
vinos juegan un importante papel en este sentido.
Durante las dos ltimas dcadas ha habido un inters creciente en el empleo de tcnicas de
clasificacin de vinos que permitan clasificar tanto la variedad de los vinos como su lugar de
produccin (denominacin de origen). Dicha clasificacin se ha realizado procesando informacin
correspondiente a caractersticas fsicas (color, densidad, conductividad, etc.), qumicas (fenoles,
antocianos, aminocidos, etc. [19,20]) y organolpticas (aromas, sabores, etc. [21]). Esta
informacin ha sido procesada mediante una serie de tcnicas, entre las que se pueden citar mtodos
estadsticos (tales como anlisis discriminante, componentes principales, transformacin de Fisher,
etc. [17]), redes neuronales artificiales (perceptrones, RNA multicapas, RNA con funciones de base
radial, etc. [18]) y algoritmos genticos [12,13,14,15].
1

Por otra parte, la importancia del proceso de seleccin de caractersticas en cualquier problema de
clasificacin, se pone de manifiesto puesto que permite eliminar las caractersticas que puedan
inducir a error (caractersticas ruidosas), las caractersticas que no aporten mayor informacin
(caractersticas irrelevantes) o aquellas que incluyen la misma informacin que otras (caractersticas
redundantes) [1]. Este proceso tiene como ventaja la obtencin de una disminucin en los tiempos
de procesamiento de los datos, menor requerimiento en los espacios donde se almacena la
informacin, menor costo en la obtencin de los datos (la definicin de caractersticas especficas
permite desarrollar sensores especficos para obtenerlas) y lo ms importante es la seleccin de un
subconjunto de las caractersticas originales que aportan la mayor cantidad de informacin para un
problema en particular.
En este trabajo se presenta una metodologa para seleccionar las variables ms importantes para
fines de clasificacin de cepas de vinos, provenientes de la informacin obtenida de cromatogramas
de compuestos polifenlicos de muestras de vinos, obtenidos mediante un HPLC-DAD. En la
Seccin 2 de este trabajo se realiza una breve explicacin de los mtodos de seleccin de
caractersticas actualmente en uso. En la Seccin 3 se describe la informacin utilizada para este
estudio, indicando de manera general la forma de generar los datos. En la Seccin 4 se describe la
metodologa utilizada para realizar la seleccin de caractersticas y en la Seccin 5 se muestran los
resultados obtenidos. Finalmente en la Seccin 6 se presentan las principales conclusiones acerca de
este trabajo y las futuras lneas de desarrollo que se advierten.

2.0 Mtodos de Seleccin de Caractersticas


En general, en los procedimientos de seleccin de caractersticas se distinguen cuatro etapas
esenciales [2]:
1. Procedimiento de Seleccin: en esta etapa se determina el posible subconjuto de
caractersticas para realizar la representacin del problema
2. Funcin de Evaluacin: en esta etapa se evala el subconjunto de caractersticas escogidas
en el punto anterior.
3. Criterio de Detencin: se chequea si el subconjunto seleccionado satisface el criterio de
detencin de la bsqueda.
4. Procedimiento de Validacin: esta etapa se utiliza para verificar la calidad del subconjunto
de caractersticas que se determinaron.
El procedimiento general de seleccin de caractersticas se ilustra en la Figura 1.
Los mtodos de seleccin de caractersticas se clasifican desde el punto de vista de la manera en que
se determina el nuevo subconjunto a evaluar, lo que conduce a 3 clases mtodos [2].
1. Mtodos Completos. Estos mtodos examinan todas las posibles combinaciones de
caractersticas. Son muy costosos computacionalmente (espacio de bsqueda de orden O(2N)
para N caractersticas) pero se asegura encontrar el subconjunto ptimo de caractersticas.
Como ejemplos de estos mtodos se puede citar Branch and Bound[3] y Focus [4].
2. Mtodos Heursticos. Utilizan una metodologa de bsqueda de forma tal que no es
necesario evaluar todos los subconjuntos de caractersticas. Ello significa una mayor
velocidad del mtodo, ya que el espacio de bsqueda es menor que en los mtodos
2

anteriores. Estos mtodos no aseguran la obtencin del mejor sub-conjunto. A modo de


ejemplo es interesante citar en esta categora los mtodos Relief [5] y DTM [6].
3. Mtodos Aleatorios. Son aquellos mtodos que no tienen una forma especifica de definir el
subconjunto de caractersticas a analizar, sino que utilizan metodologas aleatorias. Con ello
se produce una bsqueda probabilstica en el espacio de caractersticas. El resultado obtenido
utilizando este tipo de mtodos depender del nmero de intentos, no asegurndose la
obtencin del ptimo. Pertenece a este grupo los mtodos presentados en LVW [7] y algunos
que utilizan algoritmos genticos [8].

Set Original de
Caractersticas

Subconjunto de
Caracterticas

Seleccin

Evaluacin

NO

Criterio de
Detencin

Validacin

SI

Subconjunto de
Caractersticas
Seleccionado

Figura 1.- Procedimiento general de seleccin de caractersticas.


Desde el punto de vista de la funcin de evaluacin, los procedimiento de seleccin de
caractersticas se pueden clasificar en 2 categoras [9].
1. Mtodos de filtraje. Estos son mtodos donde el procedimiento de seleccin es realizado en
forma independiente a la funcin de evaluacin (clasificacin). Se pueden distinguir 4
diferentes medidas: distancia, informacin, dependencia y consistencia. Como ejemplo de
estos mtodos tenemos Relief [5], DTM [6], POE&ACC [10] y Focus [4] respectivamente.
2. Mtodos dependientes (wrapped). En estos mtodos el algoritmo de seleccin utiliza como
medida la tasa de error del clasificador. Se obtienen generalmente mejores resultados que en
el caso anterior, pero trae consigo un costo computacional mucho mayor. En esta categora
se tienen mtodos como Oblivon [11].

3.0 Datos Experimentales


La informacin utilizada en este estudio corresponde a la contenida en los cromatogramas de
compuestos fenlicos de pequeo peso molecular de muestras de vinos tintos chilenos. Estos fueron
obtenidos mediante un anlisis por cromatografa lquida de alta eficacia (HPLC) acoplada a un
detector de fotodiodos alineados (DAD) [19]. El equipo es un cromatgrafo de lquidos MerckHitachi, modelo L-4200 UV-Vis Detector con bomba modelo L-600 y portacolumna Thermostat. La
columna utilizada correspondi a una Novapack C18 , de 300 mm de longitud y 3,9 mm de dimetro
3

interno. Para la separacin de los diferentes compuestos fenlicos en el equipo se utilizaron como
solventes: A: 98% H2 O, 2% cido actico; B: 78% H2 O, 20% acetonitrilo, 2% cido actico; C:
100% acetonitrilo. El gradiente utilizado fue: 0-55 min. 100% de A (flujo de 1 mL/min); 55-57 20%
de A y 80% de B (flujo de 1 mL/min); 57-90 min. 10% de A y 90% de B (flujo de 1,2 mL/min).
Cada cromatograma consta de 6751 puntos y cada peak presente corresponde a un compuesto
fenlico especfico. Estos compuestos han sido mayoritariamente estudiados e identificados por
qumicos y agrnomos que trabajan en esta rea [19,22,23].
Antes de procesar la informacin se procedi a normalizar la informacin contenida en los
cromatogramas, a objeto de evitar distorsiones, esto debido a que el tamao de los peaks depende de
la cantidad de vino que se inyecte al cromatgrafo. En algunos casos se inyectaron 20 ml y en otros
casos se inyectaron hasta 100 ml de muestra preparada. Esto trae como consecuencia que los peaks
(que corresponden a las concentraciones de cada componente) tengan diferentes magnitudes. Debido
a esto se rest a cada cromatografa el mnimo de cada una y luego se dividi por el valor del peak
ms grande, obtenindose luego los valores de las cromatografas entre 0 y 1, lo que permite
comparar los peaks de las diferentes cromatografas.
A modo de ejemplo, en la Figura 2 se muestra un cromatograma fenlico tipo para vinos chilenos de
la cepa Cabernet Sauvignon.
Cromatografia de Polifenoles para un vino Cabernet Sauvignon
1
0.9

Concentracion normalizada

0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

20

30

40
50
Tiempo [min]

60

70

80

90

Figura 2.- Cromatograma fenlico tipo normalizado de un vino chileno Cabernet Sauvignon.

Para la realizacin de este estudio se dispone de datos de vinos tintos de distintos valles y de
distintas cepas, los cuales se resumen en la Tabla 1.

Cepa
Carmenere
Cabernet Sauvignon
Merlot
Total

Muestras N
1-49
50-74
75-111

Cantidad de Muestras
49
25
37
111

Tabla 1.- Distribucin de las muestras empleadas en el estudio.

4.0 Descripcin de la Metodologa utilizada


Debido al alto numero de caractersticas que posee cada muestra, la bsqueda de las caractersticas
que contengan mayor informacin acerca del problema, se puede transformar en un proceso que
necesita demasiados clculos. A esto se debe agregar el problema introducido por el escaso nmero
de muestras existentes para realizar la clasificacin (lo que impide utilizar algunos clasificadores
debido a que el nmero de caractersticas por muestra es mayor que el nmero total de muestras).
Por esta razn en este estudio se opt por realizar esta bsqueda mediante una metodologa que
produzca un procesamiento en paralelo de las posibles soluciones a escoge r, utilizando para ello
algoritmos genticos.
Los algoritmos genticos [12] corresponden a una de las distintas tcnicas conocidas bajo el nombre
de computacin evolucionaria, que estn inspiradas en el concepto de la evolucin biolgica. La
idea principal es que cada individuo de una poblacin representa una posible solucin al problema
de optimizacin que se desea resolver y de acuerdo a la adaptacin de cada individuo al problema
presentado (medida dada por una funcin objetivo determinada), se producir la evolucin de la
poblacin. Con ello se generan nuevas posibles soluciones que correspondern al resultado de
procesos de recombinacin de los distintos individuos iniciales. Tambin se puede considerar la
introduccin de nuevas soluciones realizando mutaciones sobre los individuos existentes.
Existen diversas formas de aplicar los algoritmos genticos. Estas varan de acuerdo a los mtodos
de seleccin empleados (mtodos con los cuales se seleccionan los individuos que darn paso a la
siguiente generacin), donde destacan los mtodos de seleccin proporcional [13], seleccin por
torneo [14] y seleccin mediante ranking [15]. Tambin se puede utilizar distintas metodologas
crossover (proceso mediante el cual se crean dos nuevos individuos a partir de dos padres) y de
mutacin (modificacin aleatoria de individuos ya existentes).
Para determinar el mejor subconjunto de caractersticas, se escogi algoritmos genticos de nichos y
en particular los denominados Deterministic Crowding [16], los cuales permiten encontrar
mltiples soluciones. Esta ltima caracterstica puede ser particularmente atractiva en el problema
que aqu se est estudiando. En efecto, la obtencin de un subconjunto de caractersticas de los vinos
(que corresponde a un conjunto de compuestos fenlicos especficos), podra significar un grado de
dificultad mayor en su determinacin experimental que otro subconjunto de caractersticas diferente,
pero que otorgue un desempeo similar desde el punto de vista de clasificacin.

Para la utilizacin un algoritmo gentico se debe realizar una secuencia de pasos que se describe a
continuacin.
1. Codificacin de los individuos. Para realizar la codificacin de cada individuo, que
corresponde a un posible sub-conjunto de caractersticas, se ut ilizan tiras binarias de largo N,
donde N corresponde al nmero de caractersticas existentes para la descripcin del
problema ( Ver Figura 3). En el presente caso cada caracterstica corresponde a un punto del
cromatograma y N=6751. La existencia de un 1 en la posicin i indica que la caracterstica i
de la muestra debe ser considerada para realizar la clasificacin.
Car N1
1

...

Car N6571
0

Figura 3.- Ejemplo de un individuo a considerar.


Para comenzar el desarrollo del algoritmo se debe definir el nmero de individuos Ni que se
considerar en cada generacin. Esta determinacin tendr directa relacin con la cantidad
de cmputos que se deber realizar y con la convergencia del algoritmo a una solucin
ptima. Dado un mayor nmero de individuos, se realizar una mayor exploracin por cada
generacin, lo que necesita tambin un mayor nmero de cmputos. En el caso de un
algoritmo gentico que no fuese de nichos, este nmero Ni tambin tendr relacin con la
presin selectiva que se puede medir segn el nmero de generaciones que tarda el mejor
individuo de una poblacin en llenar de copias de s mismo toda la poblacin.
En el caso particular de la metodologa utilizada, luego de una serie de consideraciones y
ensayos se defini que el nmero de individuos sera Ni=150. Segn la funcin de
evaluacin que se considere, la cantidad de clculos para determinar el desempeo (fitness)
de cada individuo podra variar obtenindose un algoritmo que tarde un tiempo mayor o
menor en realizar los clculos por cada generacin.
Otro factor a considerar es la diversidad gentica que se introduce en la poblacin inicial.
Por ejemplo, si en un problema de seleccin con N=50 caractersticas se utilizan Ni=4
individuos que representen subconjuntos de a lo ms 10 caractersticas cada uno, en el mejor
de los casos (si es que los subconjuntos fuesen disjuntos) se estaran considerando en la
bsqueda 40 caractersticas (10 por cada individuo) y habran 10 caractersticas que no
estaran siendo consideradas en el espacio de bsqueda. Es por eso que mientras ms grande
sea la poblacin inicial se introducir una mayor diversidad gentica, puesto que en el mismo
ejemplo si se utilizasen 10 individuos en donde sus caractersticas fuesen elegidas de forma
aleatoria, existe una alta probabilidad que se estn considerando todas las caractersticas en
la bsqueda al menos en una oportunidad, siendo esta otra herramienta que se puede utilizar
para introducir esta diversidad es la mutacin.
Una vez definido el nmero de individuos Ni de la poblacin, se deben definir las
caractersticas de los individuos de la poblacin inicial. Esto se realiz en forma aleatoria,
procurando que cada individuo no incluyese un nmero de caractersticas mayor que 80 (Nc
= 80), debido a que se dispone de slo 111 muestras y al tener un nmero mayor de
caractersticas que de muestras no se puede utilizar el clasificador LDA (Linear Discriminant
Analysis) seleccionado para este estudio.
6

2. Funcin de adaptacin de cada individuo (Fitness). Para definir el desempeo o fitness


de cada individuo, dado que el objetivo es de seleccionar las caractersticas que aportan
mayor informacin para la clasificacin de los vinos, se utiliz el desempeo de un
clasificador LDA, que corresponde al clasificador lineal de Fisher [17]. Este clasificador
utiliza la Transformacin de Fisher, que corresponde a la transformacin lineal que
maximiza la distancia entre clases y minimiza la distancia de cada clase, y se consider
adems la metodologa leave-one-out, que consiste en disear el clasificador utilizando
todas las muestras menos una y posteriormente se evala la clasificacin de la muestra que
se excluy del diseo del clasificador. Este procedimiento se realiza excluyendo todas las
muestras y se calcula el error correspondiente al nmero de muestras mal clasificadas
dividido por el nmero de muestras totales. Esto ltimo se decidi debido a que no se
dispone de un nmero suficientemente grande de muestras, lo que hubiese permitido utilizar
diferentes conjuntos para el diseo del clasificador y un conjunto de prueba ms grande.
Esta metodologa corresponde a una metodologa del tipo wrapped, puesto que se utiliza
como medida de desempeo el porcentaje de clasificacin correcta del clasificador.
3. Seleccin de la poblacin de la siguiente generacin. Con el objeto de seleccionar la
poblacin de la siguiente generacin, se utiliz el denominado crowding determinstico.
Ello corresponde a realizar una seleccin aleatoria de dos padres (permitindose solamente
una vez la eleccin como padre de cada individuo, lo que permite que todos los individuos
de una generacin sean en algn momento considerados como padres para la generacin
siguiente) recombinndolos en forma discreta, es decir para cada variable de cada individuo
de la poblacin intermedia se escoge aleatoriamente con igual probabilidad la variable que
posee uno de los padres. La poblacin intermedia corresponde a una poblacin de individuos
que son posibles candidatos a ser considerados como parte de la generacin siguiente y
recibe este nombre puesto que se genera cada vez entre la generacin n y n+1.
Cada par de padres dar origen a dos individuos de la poblacin intermedia, los cuales se
evalan con respecto a aquel padre ms parecido (en distancia de Hamming sobre los
individuos [16]), escogindose para la prxima generacin los dos individuos de mejor
performance de cada una de las comparaciones entre padres e individuos de la poblacin
intermedia. Esto asegura que se mantengan los distintos posibles subconjuntos de
caractersticas que solucionan el problema, puesto que si existen individuos que consideran
una caracterstica similar (lo que implica que su distancia de Hamming sea menor) estos se
compararn entre si y no con un individuo que considere caractersticas extremadamente
diferentes.

5.0 Resultados Obtenidos


Aplicando la metodologa explicada en la Seccin 4 a la informacin descrita en la Seccin 3, se
obtuvo una serie de resultados que se presentan a continuacin.
Inicialmente se logr correr el algoritmo hasta un punto en el cual se obtena una clasificacin
correcta de un 89%, considerando solamente 64 de las 6571 caractersticas. A partir de ese momento
no se poda seguir ejecutando el algoritmo, debido a que se encontraban subconjuntos de
caractersticas en los cuales la matriz de correlacin de los datos no era invertible, lo que indicaba
que esas caractersticas eran linealmente dependientes. Para solucionar este problema, cada vez que
7

apareca un individuo que planteaba como potencial solucin una de ese estilo, simplemente se
eliminaba, puesto que no es de inters encontrar subconjuntos de caracterstica que estn
correlacionados entre s.
Posteriormente se obtuvo un resultado que consideraba tan solo 26 caractersticas, el cual entregaba
un porcentaje de clasificacin correcto de un 98,2%, lo que fue bastante alentador. Otra soluci n
posible encontrada gener un sub-conjunto de 32 caractersticas que tambin entreg un porcentaje
de clasificaciones correctas de 98,2%. Pero, debido al tamao de la poblacin utilizada (150) y al
gran tamao de los datos (6751), posiblemente no se haban considerado todas las opciones para la
bsqueda del ptimo o bien alguna opcin haba sido eliminada tempranamente. Por ello se defini
una nueva poblacin obtenida en forma aleatoria, en la cual se incluyeron los tres mejores
individuos de las simulaciones anteriores (mejores individuos obtenidos despus de 270
generaciones, ya que como se aprecia en la Figura 4 no se tenan mayores mejoras en los porcentajes
de clasificaciones correctas al aumentar el nmero de generaciones por sobre 270), los cuales eran
diferentes pero entregaban distintos resultados. Este mismo efecto podra haberse logrado si se
hubiera incluido mutacin en el algoritmo para aumentar la diversidad gentica, es decir incluir
nuevas posibles soluciones. Este proceso entreg como resultado dos posibles subconjuntos de
individuos que entregaban un 99.1% de clasificacin correcto, utilizando uno 29 caractersticas y el
otro subconjunto de 34 caractersticas.
En la Figura 4 se puede apreciar como la poblacin del algoritmo gentico va mejorando su
performance a medida que aumentan las generaciones. En la Figura 4 se muestran tres curvas; la
superior corresponde al porcentaje de clasificacin correcto del mejor individuo de cada generacin
(subconjunto de caractersticas utilizadas), la segunda corresponde al promedio de clasificacin
correctos de la poblacin completa, y la curva inferior corresponde al porcentaje de clasificacin
correcto del peor individuo de cada generacin.
Evolucion del Algoritmo Genetico
100

Porcentaje de clasificaciones correctas

90
80
70
60
50
40
30
20
Mejor individuo de la poblacion
Promedio de la poblacion
Peor individuo de la poblacion

10
0

50

100

150
Generacion

200

250

300

Figura 4.- Evolucin del porcentaje de clasificacin correcto en funcin de las generaciones.
8

Tal como se coment con anterioridad, la gracia de utilizar algoritmos genticos de nichos es la
posibilidad de encontrar ms de una solucin factible al problema de optimizacin planteado.
Luego de introducir los tres mejores individuos de las simulaciones anteriores en una nueva
poblacin, se obtuvo 2 nuevos conjuntos de caractersticas diferentes que entregaban un porcentaje
de clasificaciones correctas de un 99,1%. Este porcentaje de clasificacin correcta indica que slo
una de las 111 muestras fue mal clasificada cuando le fue presentada al calsificador. En la Figura 5
se muestra un posible sub-conjunto con 29 caractersticas que entrega este porcentaje de
clasificacin. Posteriormente en la Figura 6 se muestra otro posible sub-conjunto con 34
caractersticas que entrega el mismo porcentaje de clasificaciones correctas, en ambas figuras las
lneas verticales corresponden a las caractersticas seleccionadas en cada caso.
Caracteristicas seleccionadas (29 caracteristicas)
1
0.9

Concentracion normalizada

0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

20

30

40
50
Tiempo [min]

60

70

80

90

Figura 5.- 29 mejores caractersticas seleccionadas por el AG. para la muestra 50 y que entregan un
porcentaje de clasificaciones correctas de un 99,1%.

Caracteristicas seleccionadas (34 caracteristicas)


1
0.9

Concentracion normalizada

0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

20

30

40
50
Tiempo [min]

60

70

80

90

Figura 6.- 34 mejores caractersticas seleccionadas por el AG. para la muestra 50 y que entregan un
porcentaje de clasificaciones correctas de un 99,1%.
El caso mal clasificado que se obtiene utilizando la metodologa leave-one-out, ocurri cuando se
entren el clasificador con todas las muestras menos la muestra 53, que corresponde a un Cabernet
Sauvignon, y luego se intent clasificar esa muestra con el clasificador obtenindose como resultado
que sta era un vino Merlot. Esta situacin se representa en la Figura 7, en la cual se han graficado
las clases transformadas linealmente utilizando la transformacin de Fisher donde se aprecia
claramente al individuo mal clasificado.

10

Distribucion de los individuos despues de la transformacion de Fisher


4
3

Segunda componente de Fisher

Carmenere
Cabernet Sauvignon
Merlot
Individuo mal evaluado

1
0
-1
-2
-3
-4
-5
-6
-6

-4

-2
0
2
Primera componente de Fisher

Figura 7.- Situacin en la que se produce un problema de clasificacin.

6.0 Conclusiones
De los resultados obtenidos se aprecia que se puede escoger un conjunto pequeo de 29 ( 34)
caractersticas de la muestra inicial (0.4%) que sirve para discriminar adecuadamente (99.2%) las
clases de la muestra (1 error de clasificacin de las 111). Estas 29 caractersticas corresponden a 29
compuestos qumicos que contienen la mayor informacin que permiten diferenciar entre una cepa y
otra.
Otro punto interesante del estudio es que se pueden determinar distintos sub-conjuntos de
caractersticas que entregan el mismo porcentaje de clasificacin correcta, lo que permite dar cierta
flexibilidad en relacin a los componentes que aparecen como los ms importantes. Ello permite
entregar informacin a enlogos sobre los compuestos ms importantes que determinan a cada clase.
Del estudio surge la necesidad de contar con un mayor nmero de datos para poder generalizar los
resultados, utilizando este nuevo sub-conjunto como conjunto de prueba, para afirmar que los
componentes (caractersticas) determinadas a travs de esta metodologa son los que realmente
determinan un las clases de vinos estudiadas en este paper.
Una alternativa interesante es incorporar al procedimiento empleado una funcin objetivo que
penalice el nmero de caractersticas relevantes. Con ello no slo se considerara el porcentaje
correcto de clasificacin sino tambin el nmero ms pequeo posible de caractersticas que
cumplen con ese objetivo.
11

Agradecimientos
Los resultados obtenidos en este trabajo han sido financiados por CONICYT-Chile, a travs del
proyecto FONDEF D01-1016 Identificacin varietal de vinos chilenos mediante instrumentacin
inteligente

Bibliografa
[1] Blum A. L. and Langley P., Selection of relevant features and examples in machine learning
Artificial Intelligence, Vol. 97, Nos. 1-2, 1997, pp. 245-271.
[2] Dash M. and Liu H., Feature selection for classification Intelligent Data Analysis, Vol. 1,
1997, pp. 131-156.
[3] Narendra P. M. and Fukunaga K., A branch and bound algorithm for feature selection. IEEE
Transactions on Computers, Vol. 26, September 1977, pp. 917-922.
[4] Almuallin H. and Dietterich T. G., Learning with many irrelevant features. Proceedings of
Ninth National Conference on Artificial Intelligence, MIT Press, Cambridge, Massachusetts, 1992,
pp. 547-552.
[5] Kira K. and Rendell L. A., The feature selection problem: Traditional methods and a new
algorithm. Proceedings of Ninth National Conference on Artificial Intelligence, MIT Press,
Cambridge, Massachusetts, 1992, pp. 129-134.
[6] Cardie C., Using decision trees to improve case-based learning. Proceedings of Tenth
International Conference on Machine Learning, Morgan Kaufmann Prublishers, University of
Massachusetts, Amherst, June 1993, pp. 25-32.
[7] Liu H. and Setiono R., Feature selection and classification A probabilistic wrapper approach.
Procedings of Ninth International Conference on Industrial and Engineering Applications of AI and
ES, Fukuoka, Japan, June 1996, pp. 419-424.
[8] Vafaie, H. and Imam, I.F., "Feature selection methods: Genetic algorithm vs. greedy-like
search," Proceedings of the 3rd International Fuzzy Systems and Intelligent Control Conference,
Louisville, KY, March 1994.
[9] John G. H., Kohavi R. and Pfleger P., Irrelevant features and the subset selection problem.
Proceedings of the Eleventh International Conference on Machine Learning. New Brunswick,
Morgan Kaufmann, 1994, pp. 121-129.
[10] Mucciardi A. N. And Gose E.E., A comparison of seven techniques for choosing subsets of
pattern recognition, IEEE Transactions on Computers, Vol. 20, September 1971, pp.1023-1031.
[11] Langley P. and Sage S., Oblibious decision trees and abstract cases. Working Notes of the
AAAI94 Workshop on Case-Based Reasoning, Seattle, WA: AAAI Press, 1994, pp.113-117.
12

[12] Holland J.H., Adaptation in natural and artificial systems, MIT Press, Cambridge, Second
Edition, 1992.
[13] Goldberg D., Genetic algorithms in search, optimization, and machine learning. AddisonWesley, New York. 1989.
[14] Michalewicz Z., Genetic algorithms + Data structures = Evolution programs. Springer-Verlag,
New York, Third Edition. 1996.
[15] Mitchell M., An introduction to genetics algorithms. MIT Press, Cambridge. 1996.
[16] Mahfoud S.W., Niching methods for genetic algorithms. Ph.D. Thesis, University of Illinois at
Urbana-Champaign, Illinois Genetic Algorithms Laboratory (IlliGAL) Report No. 95001, May
1995.
[17] Fukunaga K., Introduction to statistical pattern recognition. Academic Press, San Diego,
Second Edition, 1990.
[18] Ripley B. D., Pattern recognition and neural networks. Cambridge University Press,
Cambridge, First Edition, 1996.
[19] Pea-Neira A.I., Hernndez T., Garca-Vallejo C., Estrella I. and Suarez J., A survey of
phenolic compounds in spanish wines of different geographical origins. Eur. Food. Res. Technol.,
Vol. 210, 2000, pp. 445-448.
[20] Marx R., Holbach B. and Otteneder H., Determination of nine characteristics anthocyanins in
wine by HPLC. Off. Int. Vigne Vin. Bulletin. Paris. August 2000.
[21] Flazy, C. Enologa: Fundamentos cientficos y tecnolgicos. Ed. Mundi Prensa. Madrid. 2000.
[22] Alamo V.S. Caracterizacin de la composicin fenlica de vinos comerciales Merlot y
Sauvignon Blanc de la vendimia 2002, provenientes de cinco valles de Chile. Memoria de Ingeniero
Agrnomo, Facultad de Ciencias Agronmicas, Universidad de Chile, 2002.
[23] Muoz L.P. Caracterizacin de la composicin fenlica de vinos comerciales Cabernet
Sauvignon y Chardonnay de la vendimia 2002, provenientes de cinco valles de Chile. Memoria de
Ingeniero Agrnomo, Facultad de Ciencias Agronmicas, Universidad de Chile, 2002.

13

También podría gustarte