Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Genetica de Clasificación de Vinos
Genetica de Clasificación de Vinos
de Vinos Chilenos
S.A. Salah+, M.A. Duarte-Mermoud+* , N.H. Beltrn+, M.A. Bustos +, A.I. Pea-Neira++, E.A. Loyola ++,
and J.W. Jalocha ++
+
Depto. de Ing. Elctrica, Universidad de Chile
Av. Tupper 2007, Casilla 412-3, Santiago, Chile
++
Depto. de Agroindustria y Enologa, Universidad de Chile
Av. Santa Rosa 11315, Santia go, Chile
e-mail: mduartem@cec.uchile.cl
Resumen
En este trabajo se presentan los resultados de aplicar algoritmos genticos, para seleccionar las
caractersticas ms relevantes presentes en cromatogramas de compuestos polifenlicos obtenidos
mediante un HPLC-DAD, para el caso de muestras de vinos tintos chilenos Cabernet Sauvignon,
Carmenere y Merlot. De los 6751 puntos originales del cromatograma, el algoritmo gentico fue
capaz de seleccionar finalmente 29 de ellos, con los cuales se obtuvo un resultado superior, desde el
punto de vista de clasificacin, comparado con el caso en que se emplea la informacin completa.
El porcentaje de clasificacin correcta alcanzado con estas 29 caractersticas result ser 99,1%.
Palabras Claves: Procesamiento de seales, Algoritmos Genticos, Clasificacin de Vinos.
1.0 Introduccin
La industria del vino chileno ha experimentado un notable crecimiento en el ltimo tiempo, acorde
con la expansin del mercado de los vinos en el mundo entero. Chile export del orden de US $ 570
millones en el 2000, casi US $ 600 millones en el 2001 y se espera que en el 2002 esa cifra llegue a
650 millones de dlares, constituyndose en un sector importante en cuanto a exportaciones, de
acuerdo a cifras de Vias de Chile. Simultneamente, la industria vitivincola chilena ha tenido un
gran desarrollo en el ltimo tiempo incorporando nuevas tecnologas tanto en el proceso cosecha
como en el de vinificacin. Es as como el vino est siendo sometido a diversos controles de calidad,
para asegurar que el producto que se est ofreciendo corresponda realmente al que se est
entregando. Los mtodos de clasificacin de las variedades de las uvas con las que se elaboran los
vinos juegan un importante papel en este sentido.
Durante las dos ltimas dcadas ha habido un inters creciente en el empleo de tcnicas de
clasificacin de vinos que permitan clasificar tanto la variedad de los vinos como su lugar de
produccin (denominacin de origen). Dicha clasificacin se ha realizado procesando informacin
correspondiente a caractersticas fsicas (color, densidad, conductividad, etc.), qumicas (fenoles,
antocianos, aminocidos, etc. [19,20]) y organolpticas (aromas, sabores, etc. [21]). Esta
informacin ha sido procesada mediante una serie de tcnicas, entre las que se pueden citar mtodos
estadsticos (tales como anlisis discriminante, componentes principales, transformacin de Fisher,
etc. [17]), redes neuronales artificiales (perceptrones, RNA multicapas, RNA con funciones de base
radial, etc. [18]) y algoritmos genticos [12,13,14,15].
1
Por otra parte, la importancia del proceso de seleccin de caractersticas en cualquier problema de
clasificacin, se pone de manifiesto puesto que permite eliminar las caractersticas que puedan
inducir a error (caractersticas ruidosas), las caractersticas que no aporten mayor informacin
(caractersticas irrelevantes) o aquellas que incluyen la misma informacin que otras (caractersticas
redundantes) [1]. Este proceso tiene como ventaja la obtencin de una disminucin en los tiempos
de procesamiento de los datos, menor requerimiento en los espacios donde se almacena la
informacin, menor costo en la obtencin de los datos (la definicin de caractersticas especficas
permite desarrollar sensores especficos para obtenerlas) y lo ms importante es la seleccin de un
subconjunto de las caractersticas originales que aportan la mayor cantidad de informacin para un
problema en particular.
En este trabajo se presenta una metodologa para seleccionar las variables ms importantes para
fines de clasificacin de cepas de vinos, provenientes de la informacin obtenida de cromatogramas
de compuestos polifenlicos de muestras de vinos, obtenidos mediante un HPLC-DAD. En la
Seccin 2 de este trabajo se realiza una breve explicacin de los mtodos de seleccin de
caractersticas actualmente en uso. En la Seccin 3 se describe la informacin utilizada para este
estudio, indicando de manera general la forma de generar los datos. En la Seccin 4 se describe la
metodologa utilizada para realizar la seleccin de caractersticas y en la Seccin 5 se muestran los
resultados obtenidos. Finalmente en la Seccin 6 se presentan las principales conclusiones acerca de
este trabajo y las futuras lneas de desarrollo que se advierten.
Set Original de
Caractersticas
Subconjunto de
Caracterticas
Seleccin
Evaluacin
NO
Criterio de
Detencin
Validacin
SI
Subconjunto de
Caractersticas
Seleccionado
interno. Para la separacin de los diferentes compuestos fenlicos en el equipo se utilizaron como
solventes: A: 98% H2 O, 2% cido actico; B: 78% H2 O, 20% acetonitrilo, 2% cido actico; C:
100% acetonitrilo. El gradiente utilizado fue: 0-55 min. 100% de A (flujo de 1 mL/min); 55-57 20%
de A y 80% de B (flujo de 1 mL/min); 57-90 min. 10% de A y 90% de B (flujo de 1,2 mL/min).
Cada cromatograma consta de 6751 puntos y cada peak presente corresponde a un compuesto
fenlico especfico. Estos compuestos han sido mayoritariamente estudiados e identificados por
qumicos y agrnomos que trabajan en esta rea [19,22,23].
Antes de procesar la informacin se procedi a normalizar la informacin contenida en los
cromatogramas, a objeto de evitar distorsiones, esto debido a que el tamao de los peaks depende de
la cantidad de vino que se inyecte al cromatgrafo. En algunos casos se inyectaron 20 ml y en otros
casos se inyectaron hasta 100 ml de muestra preparada. Esto trae como consecuencia que los peaks
(que corresponden a las concentraciones de cada componente) tengan diferentes magnitudes. Debido
a esto se rest a cada cromatografa el mnimo de cada una y luego se dividi por el valor del peak
ms grande, obtenindose luego los valores de las cromatografas entre 0 y 1, lo que permite
comparar los peaks de las diferentes cromatografas.
A modo de ejemplo, en la Figura 2 se muestra un cromatograma fenlico tipo para vinos chilenos de
la cepa Cabernet Sauvignon.
Cromatografia de Polifenoles para un vino Cabernet Sauvignon
1
0.9
Concentracion normalizada
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
20
30
40
50
Tiempo [min]
60
70
80
90
Figura 2.- Cromatograma fenlico tipo normalizado de un vino chileno Cabernet Sauvignon.
Para la realizacin de este estudio se dispone de datos de vinos tintos de distintos valles y de
distintas cepas, los cuales se resumen en la Tabla 1.
Cepa
Carmenere
Cabernet Sauvignon
Merlot
Total
Muestras N
1-49
50-74
75-111
Cantidad de Muestras
49
25
37
111
Para la utilizacin un algoritmo gentico se debe realizar una secuencia de pasos que se describe a
continuacin.
1. Codificacin de los individuos. Para realizar la codificacin de cada individuo, que
corresponde a un posible sub-conjunto de caractersticas, se ut ilizan tiras binarias de largo N,
donde N corresponde al nmero de caractersticas existentes para la descripcin del
problema ( Ver Figura 3). En el presente caso cada caracterstica corresponde a un punto del
cromatograma y N=6751. La existencia de un 1 en la posicin i indica que la caracterstica i
de la muestra debe ser considerada para realizar la clasificacin.
Car N1
1
...
Car N6571
0
apareca un individuo que planteaba como potencial solucin una de ese estilo, simplemente se
eliminaba, puesto que no es de inters encontrar subconjuntos de caracterstica que estn
correlacionados entre s.
Posteriormente se obtuvo un resultado que consideraba tan solo 26 caractersticas, el cual entregaba
un porcentaje de clasificacin correcto de un 98,2%, lo que fue bastante alentador. Otra soluci n
posible encontrada gener un sub-conjunto de 32 caractersticas que tambin entreg un porcentaje
de clasificaciones correctas de 98,2%. Pero, debido al tamao de la poblacin utilizada (150) y al
gran tamao de los datos (6751), posiblemente no se haban considerado todas las opciones para la
bsqueda del ptimo o bien alguna opcin haba sido eliminada tempranamente. Por ello se defini
una nueva poblacin obtenida en forma aleatoria, en la cual se incluyeron los tres mejores
individuos de las simulaciones anteriores (mejores individuos obtenidos despus de 270
generaciones, ya que como se aprecia en la Figura 4 no se tenan mayores mejoras en los porcentajes
de clasificaciones correctas al aumentar el nmero de generaciones por sobre 270), los cuales eran
diferentes pero entregaban distintos resultados. Este mismo efecto podra haberse logrado si se
hubiera incluido mutacin en el algoritmo para aumentar la diversidad gentica, es decir incluir
nuevas posibles soluciones. Este proceso entreg como resultado dos posibles subconjuntos de
individuos que entregaban un 99.1% de clasificacin correcto, utilizando uno 29 caractersticas y el
otro subconjunto de 34 caractersticas.
En la Figura 4 se puede apreciar como la poblacin del algoritmo gentico va mejorando su
performance a medida que aumentan las generaciones. En la Figura 4 se muestran tres curvas; la
superior corresponde al porcentaje de clasificacin correcto del mejor individuo de cada generacin
(subconjunto de caractersticas utilizadas), la segunda corresponde al promedio de clasificacin
correctos de la poblacin completa, y la curva inferior corresponde al porcentaje de clasificacin
correcto del peor individuo de cada generacin.
Evolucion del Algoritmo Genetico
100
90
80
70
60
50
40
30
20
Mejor individuo de la poblacion
Promedio de la poblacion
Peor individuo de la poblacion
10
0
50
100
150
Generacion
200
250
300
Figura 4.- Evolucin del porcentaje de clasificacin correcto en funcin de las generaciones.
8
Tal como se coment con anterioridad, la gracia de utilizar algoritmos genticos de nichos es la
posibilidad de encontrar ms de una solucin factible al problema de optimizacin planteado.
Luego de introducir los tres mejores individuos de las simulaciones anteriores en una nueva
poblacin, se obtuvo 2 nuevos conjuntos de caractersticas diferentes que entregaban un porcentaje
de clasificaciones correctas de un 99,1%. Este porcentaje de clasificacin correcta indica que slo
una de las 111 muestras fue mal clasificada cuando le fue presentada al calsificador. En la Figura 5
se muestra un posible sub-conjunto con 29 caractersticas que entrega este porcentaje de
clasificacin. Posteriormente en la Figura 6 se muestra otro posible sub-conjunto con 34
caractersticas que entrega el mismo porcentaje de clasificaciones correctas, en ambas figuras las
lneas verticales corresponden a las caractersticas seleccionadas en cada caso.
Caracteristicas seleccionadas (29 caracteristicas)
1
0.9
Concentracion normalizada
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
20
30
40
50
Tiempo [min]
60
70
80
90
Figura 5.- 29 mejores caractersticas seleccionadas por el AG. para la muestra 50 y que entregan un
porcentaje de clasificaciones correctas de un 99,1%.
Concentracion normalizada
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
20
30
40
50
Tiempo [min]
60
70
80
90
Figura 6.- 34 mejores caractersticas seleccionadas por el AG. para la muestra 50 y que entregan un
porcentaje de clasificaciones correctas de un 99,1%.
El caso mal clasificado que se obtiene utilizando la metodologa leave-one-out, ocurri cuando se
entren el clasificador con todas las muestras menos la muestra 53, que corresponde a un Cabernet
Sauvignon, y luego se intent clasificar esa muestra con el clasificador obtenindose como resultado
que sta era un vino Merlot. Esta situacin se representa en la Figura 7, en la cual se han graficado
las clases transformadas linealmente utilizando la transformacin de Fisher donde se aprecia
claramente al individuo mal clasificado.
10
Carmenere
Cabernet Sauvignon
Merlot
Individuo mal evaluado
1
0
-1
-2
-3
-4
-5
-6
-6
-4
-2
0
2
Primera componente de Fisher
6.0 Conclusiones
De los resultados obtenidos se aprecia que se puede escoger un conjunto pequeo de 29 ( 34)
caractersticas de la muestra inicial (0.4%) que sirve para discriminar adecuadamente (99.2%) las
clases de la muestra (1 error de clasificacin de las 111). Estas 29 caractersticas corresponden a 29
compuestos qumicos que contienen la mayor informacin que permiten diferenciar entre una cepa y
otra.
Otro punto interesante del estudio es que se pueden determinar distintos sub-conjuntos de
caractersticas que entregan el mismo porcentaje de clasificacin correcta, lo que permite dar cierta
flexibilidad en relacin a los componentes que aparecen como los ms importantes. Ello permite
entregar informacin a enlogos sobre los compuestos ms importantes que determinan a cada clase.
Del estudio surge la necesidad de contar con un mayor nmero de datos para poder generalizar los
resultados, utilizando este nuevo sub-conjunto como conjunto de prueba, para afirmar que los
componentes (caractersticas) determinadas a travs de esta metodologa son los que realmente
determinan un las clases de vinos estudiadas en este paper.
Una alternativa interesante es incorporar al procedimiento empleado una funcin objetivo que
penalice el nmero de caractersticas relevantes. Con ello no slo se considerara el porcentaje
correcto de clasificacin sino tambin el nmero ms pequeo posible de caractersticas que
cumplen con ese objetivo.
11
Agradecimientos
Los resultados obtenidos en este trabajo han sido financiados por CONICYT-Chile, a travs del
proyecto FONDEF D01-1016 Identificacin varietal de vinos chilenos mediante instrumentacin
inteligente
Bibliografa
[1] Blum A. L. and Langley P., Selection of relevant features and examples in machine learning
Artificial Intelligence, Vol. 97, Nos. 1-2, 1997, pp. 245-271.
[2] Dash M. and Liu H., Feature selection for classification Intelligent Data Analysis, Vol. 1,
1997, pp. 131-156.
[3] Narendra P. M. and Fukunaga K., A branch and bound algorithm for feature selection. IEEE
Transactions on Computers, Vol. 26, September 1977, pp. 917-922.
[4] Almuallin H. and Dietterich T. G., Learning with many irrelevant features. Proceedings of
Ninth National Conference on Artificial Intelligence, MIT Press, Cambridge, Massachusetts, 1992,
pp. 547-552.
[5] Kira K. and Rendell L. A., The feature selection problem: Traditional methods and a new
algorithm. Proceedings of Ninth National Conference on Artificial Intelligence, MIT Press,
Cambridge, Massachusetts, 1992, pp. 129-134.
[6] Cardie C., Using decision trees to improve case-based learning. Proceedings of Tenth
International Conference on Machine Learning, Morgan Kaufmann Prublishers, University of
Massachusetts, Amherst, June 1993, pp. 25-32.
[7] Liu H. and Setiono R., Feature selection and classification A probabilistic wrapper approach.
Procedings of Ninth International Conference on Industrial and Engineering Applications of AI and
ES, Fukuoka, Japan, June 1996, pp. 419-424.
[8] Vafaie, H. and Imam, I.F., "Feature selection methods: Genetic algorithm vs. greedy-like
search," Proceedings of the 3rd International Fuzzy Systems and Intelligent Control Conference,
Louisville, KY, March 1994.
[9] John G. H., Kohavi R. and Pfleger P., Irrelevant features and the subset selection problem.
Proceedings of the Eleventh International Conference on Machine Learning. New Brunswick,
Morgan Kaufmann, 1994, pp. 121-129.
[10] Mucciardi A. N. And Gose E.E., A comparison of seven techniques for choosing subsets of
pattern recognition, IEEE Transactions on Computers, Vol. 20, September 1971, pp.1023-1031.
[11] Langley P. and Sage S., Oblibious decision trees and abstract cases. Working Notes of the
AAAI94 Workshop on Case-Based Reasoning, Seattle, WA: AAAI Press, 1994, pp.113-117.
12
[12] Holland J.H., Adaptation in natural and artificial systems, MIT Press, Cambridge, Second
Edition, 1992.
[13] Goldberg D., Genetic algorithms in search, optimization, and machine learning. AddisonWesley, New York. 1989.
[14] Michalewicz Z., Genetic algorithms + Data structures = Evolution programs. Springer-Verlag,
New York, Third Edition. 1996.
[15] Mitchell M., An introduction to genetics algorithms. MIT Press, Cambridge. 1996.
[16] Mahfoud S.W., Niching methods for genetic algorithms. Ph.D. Thesis, University of Illinois at
Urbana-Champaign, Illinois Genetic Algorithms Laboratory (IlliGAL) Report No. 95001, May
1995.
[17] Fukunaga K., Introduction to statistical pattern recognition. Academic Press, San Diego,
Second Edition, 1990.
[18] Ripley B. D., Pattern recognition and neural networks. Cambridge University Press,
Cambridge, First Edition, 1996.
[19] Pea-Neira A.I., Hernndez T., Garca-Vallejo C., Estrella I. and Suarez J., A survey of
phenolic compounds in spanish wines of different geographical origins. Eur. Food. Res. Technol.,
Vol. 210, 2000, pp. 445-448.
[20] Marx R., Holbach B. and Otteneder H., Determination of nine characteristics anthocyanins in
wine by HPLC. Off. Int. Vigne Vin. Bulletin. Paris. August 2000.
[21] Flazy, C. Enologa: Fundamentos cientficos y tecnolgicos. Ed. Mundi Prensa. Madrid. 2000.
[22] Alamo V.S. Caracterizacin de la composicin fenlica de vinos comerciales Merlot y
Sauvignon Blanc de la vendimia 2002, provenientes de cinco valles de Chile. Memoria de Ingeniero
Agrnomo, Facultad de Ciencias Agronmicas, Universidad de Chile, 2002.
[23] Muoz L.P. Caracterizacin de la composicin fenlica de vinos comerciales Cabernet
Sauvignon y Chardonnay de la vendimia 2002, provenientes de cinco valles de Chile. Memoria de
Ingeniero Agrnomo, Facultad de Ciencias Agronmicas, Universidad de Chile, 2002.
13