Trabajo Seminario - Vladimir Caceres

TCNICAS DE MINERIA DE DATOS PARA LA AGRICULTURA SUSTENTABLE DATA MINING TECHNIQUES FOR SUSTAINABLE AGRICULTURE Caceres, V.
1 , De Mendiburu, F.2
INTRODUCCIN En este trabajo de investigacin se presentan algunas de las tcnicas ms utilizadas de minera de datos en el campo de la agricultura. Algunas de estas tcnicas, como el k-medias, el k vecino ms cercano, las redes neuronales artificiales y las mquinas de soporte de vectores soporte, se discuten y se realizan las aplicaciones en la agricultura de cada una de estas tcnicas La minera de datos en la agricultura es un campo de investigacin relativamente nuevo. Las tcnicas aplicadas eficientemente pueden ser desarrolladas y adaptadas para la solucin de complejos sistemas agrcolas, tanto en la similitud de colecciones y en la diferenciacin de grupos posibles, con el empleo de la minera de datos. Objetivo general Evaluar las tcnicas de minera de datos para la agrupacin y clasificacin del germoplasma de papas nativas en cuanto a morfologa y rendimiento. MARCO TERICO Minera De Datos Data Mining, es la extraccin de informacin oculta y predecible de las bases de datos, es una poderosa tecnologa nueva con gran potencial para ayudar a las instituciones a concentrarse en la informacin ms importante de sus Bases de Informacin. Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo tomar decisiones proactivas y conducidas por un conocimiento acabado de la informacin. Tcnicas de Minera De Datos Tcnicas de minera de datos para la agricultura se puede divide principalmente en dos grupos: la clasificacin y tcnicas de agrupamiento. Las tcnicas de clasificacin estn diseadas para clasificar muestras desconocidas utilizando la informacin proporcionada por un conjunto de muestras clasificadas. Este conjunto que normalmente se conoce como un conjunto de datos, porque en general, se utiliza para entrenar a la clasificacin tcnica de cmo llevar a cabo su clasificacin. Por ejemplo, en las redes neuronales y las mquinas de soporte de vectores se utiliza los conjuntos de datos para el ajuste de sus parmetros con el fin de resolver un problema de clasificacin. En otras palabras, estas dos tcnicas de clasificacin utilizan conjuntos de datos cuyas muestras de clasificacin son desconocidas y aprende de ellas. Otra clasificacin tcnica, el K-vecino ms cercano, no tiene ninguna fase de aprendizaje, ya que utiliza el conjunto de datos cada vez que se realiza una clasificacin. Por esta razn, el k vecino ms cercano se refiere generalmente como un clasificador perezoso. En el caso de un conjunto de datos que no est disponible y no hay ningn conocimiento previo sobre los datos para clasificarlos. En este caso, las tcnicas de agrupamiento pueden ser usadas para dividir un conjunto de muestras desconocidas en grupos. Una de las tcnicas de agrupamiento ms utilizado es el k-medias. Se aplica a muchos campos de investigacin y en un gran nmero de sus variantes. (Mucherino, 2009) El K-Medias (K-Means) El k-medias es una tcnica de minera de datos para el agrupamiento (Hartigan, 1975). Dado un conjunto de datos con la clasificacin desconocida, el objetivo es encontrar una particin del conjunto en el que datos similares se agrupan en el mismo grupo. La medida de similitud entre las muestras de datos se realiza utilizando una distancia adecuada: las muestras que estn cerca de cada uno de otros se
Fig. 1. Diagrama del Data Mining
consideran similares. El parmetro k en el algoritmo de k-medias juega un papel importante, ya que especifica el nmero de agrupaciones en las que los datos deben ser particionados. La idea detrs del algoritmo de k-medias es bastante simple. Dada una particin determinada de los datos en k grupos, los centros de los grupos pueden ser calculados como la media de todas las muestras que pertenecen a un grupo. El centro del cmulo, puede ser considerado como el representante de la agrupacin, porque el centro est muy cerca de todas las muestras en el clster, y por lo tanto, es similar a todos ellos. De ello se desprende que el cmulo contiene datos similares, si todas sus muestras estn ms cerca de su centro y no en el centro de algunos otros grupos. Por lo tanto, cuando las muestras pertenecientes a un grupo estn ms cerca del centro de un grupo diferente, el algoritmo de k-medias mueve las muestras de datos correspondientes de su grupo original para el nuevo clster. Un bosquejo del algoritmo k-means se muestra en la figura. 1. La figura 2 muestra una particin ptima en grupos de un conjunto de puntos en el espacio cartesiano. El algoritmo de k-medias se puede ver como un algoritmo de optimizacin, en la que la funcin f a minimizar es la suma de todos los cuadrados de las distancias entre cada muestra y el centro de su grupo. La funcin f no es convexa en general. El algoritmo de k-medias es un algoritmo de optimizacin local, ya que identifica una secuencia de particiones en grupos que tienen estrictos valores decrecientes de la funcin. Por lo tanto, la k-medias es capaz de encontrar uno solo de los mnimos locales de la funcin f, que puede o no corresponder a un mnimo global. Por esta razn, el k-medias algoritmo usualmente se realiza varias veces con diferentes particiones. La particin correspondiente al valor ms pequeo de la funcin f se considera ser la solucin ptima. Vale la pena notar que el algoritmo de k-medias pertenece a la categora de expectativa de maximizacin de algoritmos (EM), que son mtodos elegantes y de gran alcance para la bsqueda de soluciones de mxima verosimilitud para los modelos con variables latentes (Dempster et al. 1977).
Fig. 2. Una particin ptima en grupos de un conjunto de puntos en un espacio cartesiano: (a) los puntos no son asignado an a ningn grupo, (b) los puntos que pertenecen al mismo grupo estn marcados con el mismo smbolo
Fig. 3. Clasificacin de la fermentacin del vino mediante el algoritmo de K-medias con k = 5 y por la agrupacin de los clsters en 13 grupos. En este anlisis se utiliza el conjunto de datos A
Aplicaciones en la agricultura (Mucherino, 2010) En el campo de la agricultura, el algoritmo de k-medias se ha aplicado, por ejemplo, para: Pronstico de la contaminacin de la atmsfera Clasificaciones del suelo a travs de GPS basado en tecnologas Clasificacin de las regiones de la planta, el suelo y los residuos de inters con las imgenes de color La prediccin de problemas de la fermentacin del vino Clasificacin manzanas antes de su comercializacin Monitoreo de los cambios de calidad del agua Deteccin de malas hierbas en la agricultura de precisin El K Vecino ms Cercano (K Nearest Neighbor) El vecino ms cercano (k-NN) es una tcnica para la clasificacin (Cover y Hart 1967). Un conjunto
Fig. 1. Algoritmo de K-means
de datos es conocido, y se utiliza para clasificar las muestras de origen desconocido. El supuesto bsico en el algoritmo k-NN es que las muestras similares debe disponer de una clasificacin similar. Como en el enfoque de k-medias, las similitudes entre las muestras se miden con las funciones adecuadas a distancia. Un esquema de la k-NN algoritmo se da en la figura. 3. El parmetro k indica el nmero de muestras similares conocidas que se utilizan para asignar una clasificacin de una muestra desconocida. Dada una muestra desconocida, sus distancias de todas las muestras del conjunto de datos se calculan, y son los ms cercanos a las k muestras conocidas, y a continuacin la clasificacin ms frecuente entre las muestras vecinas conocidas es asignada a la muestra desconocida (ver fig. 4). El mtodo k-NN proporciona una regla de clasificacin muy simple, pero puede ser muy costoso de realizar. Para cada muestra desconocida, las distancias de todas las muestras conocidas deben ser calculadas, y este procedimiento puede tener un alto costo computacional. El mtodo k-NN utiliza la informacin del conjunto de datos, pero no as el extracto de cualquier norma o ley para realizar la clasificacin de datos. Ms bien, vuelve a utilizar toda la informacin cada vez que una muestra desconocida debe ser clasificada. Por esta razn, muchos han desarrollado las tcnicas con el objetivo de reducir el conjunto de datos para el nmero mnimo indispensable de muestras que mantiene intacta la calidad de la clasificacin realizada por el k-NN.
Fig. 6. Representacin grfica de k-NN para encontrar la mejor altura de un suelo blanco.
Aplicaciones en la agricultura Se ha aplicado, por ejemplo, para la simulacin de las precipitaciones diarias y otras variables climticas (Rajagopalan, 1999). Otra aplicacin interesante es la evaluacin de inventarios forestales y para la estimacin de variables forestales (Holmgren et al, 1998). En estas aplicaciones con imgenes de satlite se utiliza, con el objetivo mejorar la cartografa de la cubierta vegetal y el uso de la tierra, con pocas variables discretas.
REDES NEURONALES ARTIFICIALES (ARTIFICIAL NEURAL NETWORKS) Las redes neuronales artificiales (RNA) son sistemas inspirados en la investigacin sobre el cerebro humano (Hammerstrom 1993;. Nurnberger et al 2002). Son redes en las que cada nodo representa una neurona y cada enlace representa la forma que interactan las neuronas. Cada neurona realiza tareas muy simples, mientras que la red es capaz de realizar tareas ms complejas. La capacidad de una red neuronal para realizar una tarea dada depende su estructura. La especie ms utilizada de las RNA es el perceptrn multicapa, en el que las neuronas son organizadas en capas. La capa de entrada contiene neuronas que reciben la seal de entrada que alimenta a la red. Estas neuronas no se realizan ninguna tarea. Las neuronas en la capa de salida se activan, y el resultado que proporcionan se cuenta como la salida proporcionada por la red. Tambin hay capas ocultas entre la de entrada y salida de las capas. Cada neurona puede recibir seales de entrada de las neuronas pertenecientes a la capa anterior, y se puede enviar su salida a
Fig. 4. El algoritmo k-NN
Fig. 5. El punto marcado con el smbolo ? se clasifica de acuerdo a la clasificacin de su ms cercano vecinos: (a) k = 1 y el punto desconocido se clasifican como pertenecientes a la clase marcada por las plazas, (b) k = 4 y el punto desconocido se clasifican como pertenecientes a la clase marcada por las plazas
las neuronas que pertenecen a la capa sucesiva. La organizacin de las neuronas en las capas y sus interconexiones definen la estructura del perceptrn multicapa.
esta condicin, y solo uno de ellos es elegido como clasificador sobre la base del margen que crea entre las dos clases en estudio. Intuitivamente, cuanto mayor sea el margen de separacin, menos son las posibilidades de errores de clasificacin. En la Figura 6 se muestran los puntos en un sistema cartesiano, en ella se clasifican las dos clases diferentes. Se puede observar que la mejor separacin esta en el hiperplano de la figura. 6b.
Fig. 7. El esquema de un perceptrn multicapa. En este ejemplo, hay dos capas ocultas, y cada uno de que contiene un nmero diferente de neuronas
Aplicaciones en la agricultura (Mucherino, 2010), Las redes neuronales en el campo de la agricultura son, por ejemplo: Clasificacin de los huevos frtiles e infrtiles con la visin artificial La prediccin de la floracin y las fechas de vencimiento de la soja Deteccin de grietas en los huevos con la visin por ordenador Pronstico de las variables de los recursos hdricos Deteccin de la tos de cerdos en las granjas con sonidos grabados Clasificaciones de vinos con sensores de sabor a partir de pelculas ultrafinas Modelado del transporte de sedimentos MQUINAS DE SOPORTE DE VECTORES (SUPPORT VECTOR MACHINES) Las mquinas de soporte de vectores (SVM) son clasificadores binarios (Burges, 1998; Corts y Vapnik 1995; Vapnik 1998) capaz de clasificar las muestras de datos en dos clases disjuntas. La idea bsica detrs de esta tcnica proviene del caso simplificado en el que las dos clases consideradas son linealmente separables. En tal caso, un hiperplano es capaz de reunir todas las muestras por separado en dos clases. En realidad, en la mayora de los casos cuando se realiza est tcnica existe ms de un hiperplano que cumpla
Fig. 8. Puntos en un sistema cartesiano se separan en funcin de sus caractersticas y se asignan a dos diferentes clases: (a) hiperplanos posibles de separacin que no aprovechen el mximo margen entre las dos clases, (b) La separacin del hiperplano encontrado por el SVMs, proporciona el mximo margen
Fig. 9. Ejemplos de clasificadores lineales para las manzanas, (b) el clasificador obtenido mediante la aplicacin de SVM
Los SVMs pueden ser incluso utilizados para clasificar los datos que no son linealmente separables. El espacio de datos se transforma en un espacio de dimensiones superiores, donde las clases son linealmente separables. Por lo general, estas transformaciones no se adaptan a los particulares caso que se ocupan los SVMs. Las funciones de los ncleos son de uso general, que se aplican implcitamente en una transformacin adecuada en los espacios de datos. Aplicaciones en la agricultura (Mucherino, 2010), Otras aplicaciones de la SVMs en el campo de la agricultura son: Clasificacin de los cultivos Clasificacin de la leche por medio de una nariz electrnica
Deteccin de harinas de carne y hueso en los piensos compuestos Clasificacin de la propagacin de la salsa de la pizza Deteccin de las malas hierbas y el estrs de nitrgeno en el maz El anlisis de los escenarios de cambio climtico Reconocimiento de especies de aves
MATERIALES Y MTODOS Materiales El software y hardware utilizados en el presente trabajo fueron: Software:
Fig. 11. Funcin para la generacin de datos
Matlab v. 7.12 Microsoft Excel 2007 Microsoft Word 2007
Hardware:
01 Laptop HP Pavilion Core i3. Impresora Lasserjet HP 1006

Fig. 12. Vista de la generacin de matrices (X,Y)
Metodologa Para la obtencin de datos, estos se generaron para estimar las clasificaciones y agrupaciones del germoplasma de papas nativas en cuanto a morfologa y rendimiento. Con estos datos se procedi a desarrollar los algoritmos de k-means y el de k-NN para modelar los agrupamientos y clasificaciones de los datos correspondientes.
RESULTADOS Y DISCUCIN
Fig. 13. Determinacin de los centros de los clster
ALGORITMO DE K-MEANS
Fig. 10. Codificacin del algoritmo k-means
Fig. 14. Impresin de la clasificacin de datos
ALGORITMO DE K-NN
Fig. 15. Codificacin del algoritmo k-NN
Fig. 19. Generacin de los datos conocidos (200), tanto en sus coordenadas xtrain y ytrain respectivamente
Fig. 16. Generacin de los valores desconocidos (50 datos)
Fig. 20. Calculo de la clases ctrain para cada uno de los datos conocidos
Fig. 17. Generacin de las clases con k-means
Fig. 21. Impresin de los 200 datos conocidos en el software matlab
Fig. 18. Impresin de los datos desconocidos
Fig. 22. Calculo de las clases de los 50 datos desconocidos
Literatura citada Burges, C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining Knowl Discov 2(2):955974 Cortes, C. y Vapnik, V. (1995) Support vector networks. Mach Learning 20:273297 Cover, T., Hart, P. (1967). Nearest neighbor pattern classification. IEEE Trans Inf Theory 13(1):2127 Dempster, A., Laird N., Rubin R. (1977). Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soc B 39(1):138 Hammerstrom, D. (1993) Neural networks at work. IEEE Spectr: 2632 (June) Hartigan J. (1975) Clustering algorithms. John Wiles & Sons, New York Holmgren, P. y Thuresson, T. (1998). Satellite Remote Sensing for Forestry Planning: a Review, Scandinavian Journal of Forest Research 13 (1), 90110 Mucherino, A., Papajorgji, P., Pardalos, P. (2009). A survey of data mining techniques applied to agriculture.. Oper Res Int J. DOI 10.1007/s12351-009-0054-6 Mucherino, A., Papajorgji, P., Pardalos, P. (2010). Data mining in agriculture. Springer optimization and its applications. Vol 34. New York Nurnberger A, Pedrycz W, Kruse R (2002) Neural network approaches. In: Klosgen W, Zytkow JM (eds) Handbook of data mining and knowledge discovery. Oxford University Press Rajagopalan, B. y Lall, U. (1999). A k Nearest Neighbor Simulator for Daily Precipitation and Other Weather Variables, Water Resources Research 35 (10), 30893101 Vapnik, VN. (1998). Statistical learning theory Wiley, New York
Fig. 23. Determinacin de los valores de la funcin condese dentro del software matlab
Impresin de valores
Fig. 24. Impresin de las clases de los datos desconocidos
Conclusiones y recomendaciones Al finalizar el trabajo se llego a las siguientes conclusiones: Se pudo evaluar las tcnicas de minera de datos para la agrupacin y clasificacin del germoplasma de papas nativas en cuanto a morfologa y rendimiento. Se empleo al software matlab para la generacin, modelamiento y utilizacin de las tcnicas de minera de datos. Realizar ms investigaciones en redes neuronales artificiales que puedan ayudar a comprender los agroecosistemas de nuestras comunidades andinas de nuestro pas. Agradecimientos Al M.Sc. Felipe de Mendiburu y al Dr. Alberto Julca, por sus consejos e informacin para el estudio.
Universidad Nacional Agraria La Molina. Escuela de Postgrado. Maestra en Agricultura Sustentable. vladimiralex50@hotmail.com
2
Research Informatics Unit. Centro Internacional de la papa. Av. La Molina 1895. f.mendiburu@cgiar.org

Trabajo Seminario - Vladimir Caceres

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Seminario - Vladimir Caceres

Cargado por

Copyright:

Formatos disponibles

TCNICAS DE MINERIA DE DATOS PARA LA AGRICULTURA SUSTENTABLE DATA MINING TECHNIQUES FOR SUSTAINABLE AGRICULTURE Caceres, V.

Fig. 1. Diagrama del Data Mining

Fig. 1. Algoritmo de K-means

Fig. 4. El algoritmo k-NN

Fig. 11. Funcin para la generacin de datos

Matlab v. 7.12 Microsoft Excel 2007 Microsoft Word 2007

01 Laptop HP Pavilion Core i3. Impresora Lasserjet HP 1006

Fig. 10. Codificacin del algoritmo k-means

Fig. 14. Impresin de la clasificacin de datos

Fig. 15. Codificacin del algoritmo k-NN

Fig. 16. Generacin de los valores desconocidos (50 datos)

Fig. 17. Generacin de las clases con k-means

Fig. 21. Impresin de los 200 datos conocidos en el software matlab

Fig. 18. Impresin de los datos desconocidos

Fig. 22. Calculo de las clases de los 50 datos desconocidos

Fig. 24. Impresin de las clases de los datos desconocidos

También podría gustarte