Está en la página 1de 9

2014 XL Latin American Computing Conference (CLEI)

Automatic classification of physical defects in green


coffee beans using CGLCM and SVM
Cesar A. Beltran-Castano n
Rayner H. Montes Condori y Juan H. Chuctaya Humari
y Christian E. Portugal-Zambrano y Juan C. Gutierrez-Caceres Grupo de Reconocimiento de Patrones e IA Aplicada
Catedra Concytec en Tecnologas de la informacion
Escuela Profesional de Ingeniera de Sistemas
Av. Venezuela s/n, Universidad Nacional de San Agustn
Arequipa - Peru
Email: {ray.montes,juanherbert,christ.pz.cs,jcgutierrezc}@gmail.com
AbstractThis work is focused on the evaluation of physical
coffee beans through a model of automatic classification of
defects. The model uses a segmentation step that discriminates the
background from the coffee bean image with a follow contours
algorithm, then a CGLCM is introduced as features extractor and
a Support Vector Machine for the classification task, a database
of images has been collected with a total of 3367 images, the
classification process used twelve categories of defects, the results
of classification showed a accuracy of 86%. Finally a set of
conclusions and future works are presented.
Keywordscomputer vision; segmentation; feature extraction;
coffee bean

I.

I NTRODUCCI ON

Se denomina cafe a la bebida que se obtiene de los frutos y


semillas de la planta de cafe o cafeto (Coffea). Los granos del
cafe son uno de los principales productos de origen agrcola
que se comercializa en los mercados internacionales. Las
plantas de cafe son originarias de la antigua Etiopa. En Peru el
cafe se desarrolla en casi todas las regiones geograficas del
territorio.
Las etapas basicas de procesamiento de granos de cafe comienza en las plantaciones, luego es cosechado (6 a 8 meses
de madurez) para ser secado mediante tecnicas especiales
y artesanales (secado al sol). La etapa de secado brinda la
coloracion verde al grano, este posteriormente es clasificado
para eliminar impurezas y granos malos o deformes, tambien
es clasificado por tamano, se le aplica una etapa de pulido para
mejorar su aspecto y finalmente puesto en venta a usuarios
locales o globales.
La naturaleza de exportacion de los granos de cafe exigen un
control de calidad fsico y qumico (catacion), los laboratorios
de analisis de calidad deben asegurar la competencia tecnica
del personal que opera equipos especficos, ejecutan, evaluan
los resultados y firman los informes de ensayos. A nivel
mundial la SCAA (Specialty Coffe Asociation of America)
[1] es una entidad que se encarga de capacitar y regular las
calificaciones y programas de formacion para aseguramiento
de la calidad de exportacion de granos de cafe.
En el proceso de control de calidad fsico de granos de
cafe verde la SCAA describe un total de 16 defectos divididos
en 2 categoras de impacto en taza, la presencia de cada uno de
ellos influye directamente en el olor, sabor y consistencia de
una taza de cafe valorizando el cafe en un conjunto de puntos

Seccion de Ingeniera Informatica


Pontificia Universidad Catolica del Peru
Av. Universitaria 1801, San Miguel, Lima 32, Peru
Email: cbeltran@pucp.pe

de catacion que evaluan su nivel de calidad. El proceso de


evaluacion fsica para la determinacion de defectos en cafe se
determina por medio de una revision manual e individual de
cada grano en una muestra de cafe luego, se elabora un conteo
de todos lo granos por tipo de defecto clasificado, finalmente
se elabora un registro que se incluye en el informe final de
control de calidad de cafe.
Normalmente la tarea de evaluacion fsica es visualmente agotadora y saturada en tiempos de produccion de cafe, haciendo
la labor de los expertos propensa a errores o imprecisiones
producto de la fatiga laboral.
En la literatura se han hecho estudios de modelos computacionales, equipos de tecnologa y/o metodologas que intentan
aprovechar el beneficio de las tecnologas digitales para soportar las tareas de catadores especializados en los laboratorios de
control de calidad, tambien se han desarrollado productos de
software que asisten en la recoleccion de datos, sin embargo
una solucion dedicada al proceso de control de calidad fsico de
granos de cafe verde para la deteccion automatica de defectos
no ha sido investigada a profundidad.
En este trabajo se plantea un modelo de clasificacion automatica de defectos en granos de cafe verde mediante el
uso de tecnicas segmentacion, extraccion de caractersticas
y modelos de clasificacion de imagenes, en la Seccion II
presentamos los conceptos y trabajo previos necesarios para el
desarrollo del trabajo, en la Seccion III describimos el proceso
de control de calidad aplicado en la produccion industrial de
granos de cafe para exportacion, luego en la Seccion IV el
modelo de clasificacion de defectos automatico es desarrollado
en cuatro etapas. En la Seccion V las pruebas y resultados
correspondientes son presentados, finalmente en la Seccion VI
discutimos las conclusiones y trabajos futuros de este trabajo.
II.

C ONCEPTOS Y TRABAJOS PREVIOS

El tratamiento digital de imagenes de cafe ha permitido


realizar estudios para su analisis de caractersticas de forma,
color y en algunos casos densidad, [2] en su libro realiza un
conjunto de tecnicas de analisis de forma para la clasificacion
de objetos y alimentos, este trabajo plantea el uso de las formas
como un discriminante esencial en procesos de clasificacion,
por otro lado [3] plantea de modo similar el uso de color
como una herramienta para la segmentacion y clasificacion
presentando algunos avances y teoras.

c
978-1-4799-6130-6/14/$31.00 2014
IEEE

2014 XL Latin American Computing Conference (CLEI)

Azul-Verde

Azulador-Verde

Verde

Verdoso

Verde-Amarillento

Amarillo-Palido

Amarillento

Cafe

Figura 1. Escala de coloracion del cafe verde, los cafes sin tostar presentan una coloracion que va desde el color azul-verdoso hasta el amarillo palido
dependiendo del origen, proceso o tiempo de almacenamiento.

En el mismo ano [4] realiza un estudio para la elaboracion


de distintas formas de aplicar un tratamiento de secado y
mojado de cafe en base a estandares internacionales, tambien describe un conjunto de tecnicas de almacenamiento,
describiendolas como las mejores, este trabajo comienza a
introducir la necesidad de estudios que mejoren la produccion
y calidad de granos de cafe. Por otro lado [5] realiza un
estudio para la utilizacion de tecnicas de vision artificial en el
desarrollo de un sistema para la automatizacion de la cosecha
de cafe, compuesto de una etapa de adquisicion de imagenes,
un conjunto de algoritmos para segmentacion de frutos de
cafe maduros y verdes, finalmente implemento un algoritmo
para la caracterizacion y clasificacion de frutos de cafe basados
en las propiedades morfologicas y de color, orientando su
trabajo al pronostico y automatizacion de cosechas y deteccion
de enfermedades y plagas.
En [6] el autor presenta tres modelos diferentes de segmentacion utilizando tecnicas basados en crecimientos de regiones
a partir de semillas (Seeded Region Growing), sus modelos
fueron aplicados a imagenes de frutos de cafe en condiciones
controladas, sus resultados mostraron un buen desempeno para
la deteccion de bordes realizando un proceso de segmentacion robusto, este trabajo fue profundizado en [7] donde se
desarrollo un sistema de vision artificial para la clasificacion
de frutos de cafe en once categoras basadas en su estado de
madurez, extrajeron 208 caractersticas reduciendolas a 9 utilizando metodos de seleccion univariados y multivariados, para
la clasificacion utilizaron clasificadores bayesianos y redes
neuronales resultando en tiempos de clasificacion de 0.8ms.
Estos trabajos fueron expandiendo el estudio de tecnicas de
vision artificial y procesamiento de imagenes para el mejoramiento de la produccion y calidad de cafe, posteriormente [8]
realizo un estudio de analisis de imagenes para la clasificacion
de cafe de Etiopa, sin embargo utilizo muy poco criterios para
la evaluacion de resultados. [9] resalto que la presencia de
granos defectuosos deprecia la calidad de cafe para su consumo
a nivel mundial, entonces propuso un ordenamiento por color
para la clasificacion de granos defectuosos, por otro lado este
metodo no eres efectivo para granos cuyo defecto no se basaba

en color, utilizo la Transformada Rapida de Fourier para la


clasificacion.
Luego en [10] el autor realizo un trabajo para desarrollar un
sistema de ordenamiento automatico de granos de cafe utilizando procesamiento de imagenes y una red neuronal para
la identificacion de la calidad de cada grano, utilizo seis
parametros de calidad como longitud, a rea, permetro, a rea
defectuosa y grado de color rojo y verde, estos parametros
fueron utilizados como entrada en la red neuronal, sus resultados fueron prometedores sin embargo describa algunas
desventajas debido a que no poda caracterizar todos los tipos
de defectos con los parametros seleccionados.
Tiempo despues, [11] utilizo el estandar nacional de Indonesia
para la deteccion de defectos, utilizando seis clases, utilizo una
camara web para la adquisicion de imagenes digitales de
granos de cafe uniformemente iluminadas, luego realizo un
proceso de extraccion basada en textura y, estos valores fueron
utilizados como entrada a una red neuronal, posteriormente
concluyo que su modelo de clasificacion posea un mnimo de
variacion en la precision de 40 granos.
III.

C ONTROL DE CALIDAD DE CAF E

Es necesario detectar e identificar el tipo de defectos en


granos de cafe verde debido a su influencia en el sabor de
la bebida a preparar, la mejor calidad de grano de cafe verde
tostado posee un olor a rosa fresca, contrariamente un cafe de
baja calidad posee aroma a tierra humeda, en la Figura 1 se
presenta una escala de coloracion de cafe verde que depende
del nivel de tostado, proceso o tiempo de almacenamiento.
Los catadores especializados poseen un entrenamiento u nico
para la deteccion y caracterizacion de cada aroma de cafe en
una muestra de evaluacion, cada cafe posee un aroma particular
que lo caracteriza y tambien define su nivel de calidad, para
este trabajo consideramos que cuando se tenga dos defectos en
un mismo grano se debe de considerar el defecto que tenga un
mayor impacto en taza. La catacion es una tecnica profesional
para la evaluacion de cafe, el experto realiza una evaluacion
de cada grano presente en una muestra, realiza un conteo por
cada tipo de defecto presente y procede a evaluar el impacto

2014 XL Latin American Computing Conference (CLEI)

Cuadro I.

TABLA DE EQUIVALENCIAS DE LOS DEFECTOS PRESENTES


VERDE [1]
EN GRANOS DE CAF E

Defectos
Categora 1
6

Defectos
Totales
Equivalentes

Defectos
Categora 2

Defectos
Totales
Equivalentes

Grano Negro
Grano Agrio/Vinagre
Cereza Seca
Dano por Hongos
Materia Extrana
Grano Brocado Severo

1
1
1
1
1
5

Negro Parcial
Agrio Parcial
Pergamino
Flotador
Inmaduro
Averanado o Arrugado
Conchas
Partido/Molido/Cortado
Cascara o Pulpa Seca
Grano Brocado Leve

3
3
5
5
5
5
5
5
5
10

en taza de acuerdo a los valores mostrados en el Cuadro I,


en este se puede apreciar que si se tiene un grano clasificado
como Grano Negro, este pertenece a un defecto de categora I
y su equivalencia en taza es de un por grano, considerado de
alto impacto, tambien si se tiene tres granos clasificados como
Agrio Parcial, estos son de categora II y por lo tanto se tiene
un defecto equivalente, considerado de mediano impacto.
IV.

DEL TOTAL DE GRANOS DE CAF E POR TIPO


D ESCRIPCI ON

DE DEFECTO EN LA BASE DE DATOS DE IM AGENES


COLECTADA .

Cuadro II.

Nro
1
2
3
4
5
6
7
8
9
10
11
12
13

Alias

Total

Brocado Leve
Brocado Severo
Cereza Seca
Concha
Danho por Hongo
Flotador
Inmaduro
Marron,Agrio,Vinagre
Negro
Normal
Negro Parcial
Pergamino
Partido,Mordido,Cortado

BrocadoL
BrocadoS
CerSeca
Concha
DxHongo
Flotador
Inmaduro
MAVinagre
Negro
Normal
NParcial
Pergamino
PMCortado
TOTAL :

414
313
324
196
355
244
235
192
144
607
139
128
76
3367

la incidencia de luz utilizada, tambien tenemos las siguientes


consideraciones:

Consideramos que para detectar si un grano posee un


defecto se debe de analizar sus dos caras, sin embargo
el objetivo actual es detectar el defecto sin importar la
cara del grano, de este modo restringimos el alcance
del problema a detectar defectos visibles a la camara.

Por cada muestra de cafe se tienen varias imagenes,


resultando en un total de granos de diferentes tipos
por cada imagen.

La presencia de iluminacion controlada elimina sombras en los granos, sin embargo tambien influye en los
colores de los granos originando brillo.

La resolucion de la imagen debe brindar la capacidad


de poder distinguir y resaltar texturas y colores en cada
grano, buscando la maxima nitidez en la imagen, para
ello se utilizo una camara de 12 megapixeles.

DE DEFECTOS
M ODELO DE CLASIFICACI ON

En este trabajo se aborda el problema de clasificacion


automatica de defectos en granos de cafe verde a traves de
un conjunto de etapas, primero se hace una recoleccion de
imagenes de granos de cafe provenientes de una bandeja
disenada para la adquisicion de imagenes, luego se realiza un
proceso de segmentacion para obtencion de regiones de interes
que discriminen el fondo, aislando los granos de cafe, a seguir
se realiza un proceso de extraccion de caractersticas utilizando
un matriz de niveles de co-ocurrencia de tres colores, el
vector de caractersticas para cada grano es procesado con una
maquina de vectores soporte como metodo de clasificacion.

Nombre/Clase

En la Figura 2 se puede apreciar una imagen de una muestra


de granos de cafe tipo normal. En el Cuadro II se describe
el total de granos de cafe por tipo de defecto colectado en la
base de imagenes.
B. Segmentacion de granos de cafe
Es necesario para nuestro proceso de clasificacion de
defectos, aislar las zonas de interes en nuestra imagen, por
ello un proceso de segmentacion es necesario. Luego de
recolectar la base de imagenes, cada imagen es procesada
a una escala de grises para su posterior binarizacion con el
algoritmo de Otsu [12], luego se obtiene los contornos de cada
grano de cafe en la imagen binarizada utilizando la tecnica de
seguimiento de contornos [13].
Figura 2. Muestra de cafes tipo Normal, tomada con iluminacion controlada
por medio del prototipo de adquisicion de imagenes digitales del proyecto.

A. Recoleccion de base de imagenes


Para la obtencion de imagenes de granos de cafe verde se
elaboro un prototipo de adquisicion de imagenes que mantena
fija la distancia entre la camara y las muestras de cafe, tambien

En la Figura 3 se muestra la imagen resultante de aplicar


un algoritmo de umbralizacion con Otsu, posteriormente en
Figura 4 se presenta el resultado de aplicar un algoritmo
de seguimiento de contornos a la imagen previa, finalmente
en la Figura 5 se muestra los sectores de interes en la
imagen, cada sector representa un grano de cafe. Las imagenes
resultantes forman parte de la base de datos de imagenes de
cafe, adicionalmente estas fueron clasificadas por un experto
en control de calidad, asegurando su pertenencia a cada clase.

2014 XL Latin American Computing Conference (CLEI)

Cuadro III.

TAXONOMI A SOBRE ESPACIOS DE CARACTERI STICAS

EXTRAI DAS EN IM AGENES


[14].

Espacio
Bordes
Caractersticas
salientes

Figura 3.

Imagen resultante de un proceso de binarizacion con Otsu.

Caractersticas
Estadsticas

Caractersticas
de Alto Nivel

Figura 4. Resultado de aplicar un algoritmo de seguimiento de bordes la


imagen binarizada

Figura 5.

Imagen con segmentos de interes seleccionados.

C. Extraccion de caractersticas
Esta es una etapa importante para nuestro modelo de clasificacion de defectos, consiste en la representacion numerica de
un objeto en una escena de imagen a un numero entero o real,
en el Cuadro III se puede apreciar una taxonoma acerca del
espacio de caractersticas extradas en imagenes segun [14].
En este trabajo abordamos la extraccion de caractersticas
utilizando un matriz de co-ocurrencia de niveles de gris y
colores (CGLCM) [15].
1) Matriz de co-ocurrencia de niveles de gris: La matriz de
co-ocurrencia de niveles de gris o mas conocido como GLCM

Atributos
Estructura intrnseca menos sensible a ruidos. Incluyen contornos y
superficies.
Estructura
intrnseca
posicionamiento
preciso.
Incluyen
interseccion de lineas, esquinas,
puntos de alta curvatura.
Usa toda la informacion presente
en la imagen, buenos resultados
para transformaciones rgidas, soporte a sobre-posiciones. Incluyen
momentos invariantes, ejes principales, tecnicas como descomposicion singular del valor y centroides.
Utilizan relaciones y informaciones de alto nivel, buenos resultados para emparejamiento local y
impreciso. Incluyen caractersticas
estructurales y sinteticas y redes
semanticas. Pueden crear tecnicas
de firma para indexar imagenes

(por su significado en ingles Gray Level Co-ocurrence Matrix)


es una tecnica comun en el analisis estadstico de imagenes,
muy usado para caracterizar la textura presente en ellas, es
decir es un metodo de extraccion caractersticas estadsticas
de segundo orden o vector de histogramas. Fue propuesta en
1973 por Haralick [16], a pesar de ya haber pasado varias
decadas, su estudio y aplicacion no pierde vigencia [17], [18],
[19].
Una matriz GLCM consta de L filas y L columnas, siendo L
el numero de niveles de gris que tiene la subimagen F a ser
procesada. Por tal motivo esta subimagen es cuantizada de tal
forma que el numero de niveles de gris es reducida. Segun
[20] un buen valor para L es 16.
Generalmente multiples matrices GLCM son creadas sobre F ,
con el objetivo de mejorar la caracterizacion de una textura,
para lo cual se considera un conjunto combinaciones de
(x, y) o (d, ). Sin embargo tambien se debe tener en
cuenta el tiempo de ejecucion, lo cual hace imprescindible
encontrar un subconjunto ideal (x, y) o (d, ) que no sea
muy grande y que a su vez caracterize la textura contenida en
F apropiadamente. La Figura 6 muestra una buena eleccion
del conjunto de a ngulos u orientaciones = {0 , 1 , 2 , . . .}
y de distancias D = {d0 , d1 , d2 , . . .}. Otros a ngulos que
tambien podran haber sido incluidos son, 180 , 225 , etc, sin
embargo estos a ngulos no agregan mayor especificacion de la
textura debido a la relacion transpuesta que mantienen con los
a ngulos anteriores, adicionalmente muchos trabajos los usan
para generar GLCM simetricos.
2) Extraccion de caractersticas o medidas de textura del
GLCM: Haralick en [16] introdujo 14 caractersticas que se
pueden extraer de una matriz GLCM, en [20] se pueden ver
algunas otras mas. Sin embargo muchas de esas caractersticas
son redundantes, lo cual hace imprescindible que se haga una
seleccion previa de ellas, generalmente una buena eleccion esta
compuesta de 3 a 5 medidas. Algunas medidas relacionadas al
contraste son:

2014 XL Latin American Computing Conference (CLEI)

Promedio:

VII

135

90

45

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

bc

b
bc

j =

CON =

i,j=0

II

Disimilaridad (DIS): su formula esta dada por:


DIS =

i,j=0

III

Las medidas que expresan el nivel de orden y regularidad en


el cual estan los pxeles son:
Segundo Momento Angular(ASM) & Energia: sus
formulas estan dadas por:
ASM =

N
1
X

Pi,j 2

i,j=0

Energia =

ASM

ASM y Energia usan a Pi,j como peso.


Los valores de ASM y Energia se incrementan
proporcionalmente al grado de orden.
Probabilidad Maxima(MAX): su formula esta dada
por:
1
M AX = maxN
i,j=0 (Pi,j )

VII

VI

j2 =

Simplemente se toma al mayor valor Pi,j de


la ventana.
Entropia(ENT): su formula esta dada por:
EN T =

N
1
X

Pi,j ( ln Pi,j )

i,j=0

N
1
X

i,j=0

Mide el grado de caos


Alcanza su mayor valor cuando todos los
valores Pi,j son iguales.

Finalmente se tiene las medidas que utilizan estadstica descriptiva:

Pi,j (j j )

Desviacion Estandar

i , j

Correlacion:

IX

corr =

N
1
X

i,j=0

Homogeneidad (HOM): su formula esta dada por:


Pi,j
HOM =
1
+
(i j)2
i,j=0

i,j=0

Pi,j |i j|

N
1
X

IV

jPi,j

Varianza y Desviacion Estandar:


Varianza
N
1
X
2
i2 =
Pi,j (i i )

VIII

Pi,j (i j)2

N
1
X

N
1
X

i,j=0

Contraste (CON): su formula esta dada por:


N
1
X

iPi,j

i,j=0

Figura 6. Cuatro a ngulos = {0 , 45 , 90 , 135 } y 4 distancias D =


{1, 2, 3, 4}

N
1
X

i =

Pi,j

(i i )(j j )
q
(i2 )(j2 )

3) CGLCM - matriz de co-ocurrencia para imagenes RGB:


Es una tecnica de extraccion de caractersticas por textura y
color para imagenes [15], en realidad es una modificacion del
conocido Gray Level Co-ocurrence Matrix [16], difiere de su
predecesor en que esta trabaja en los 3 canales de una imagen
RGB y ademas:

El pixel referente y vecino pueden pertenecer a un


solo canal o a canales distintos.

En
total
se
consideran
9
relaciones
(RR, RG, RB, GR, GG, GB, BR, BG, BB),
por
cada relacion se crea una matriz de co-ocurrencia.

La Figura 7 muestra la relacion RR y RG muy similares


al GLCM distinguiendose en que el pxel referente y el
vecino pertenecen a distintos canales, lo cual brinda una mejor
informacion de la distribucion de pxeles en una imagen.
Canal R: Pixel Referente

Canal G: Pixel Vecino

i-1, j-1

i-1, j

i-1, j+1

i-1, j-1

i-1, j

i-1, j+1

i, j-1

i, j

i, j+1

i, j-1

i, j

i, j+1

i+1, j-1

i+1, j

i+1, j+1

i+1, j-1

i+1, j

i+1, j+1

Figura 7. Relacion R-G: El pixel referente se toma en el canal R, y los


pixeles referentes en el canal G.

2014 XL Latin American Computing Conference (CLEI)

D. Clasificacion de defectos fsicos


En un analisis de clasificacion se construyen modelos capaces de pronosticar la pertenencia de un objeto a una categora o
clase sobre la base de las caractersticas del objeto. Existen dos
aspectos particulares relacionados a la clasificacion [21], el primero es, dada una imagen de entrada, decidir si ella pertenece
a alguna clase especfica previamente definida. Esta categora
es usualmente conocida como clasificacion supervisada. El
segundo aspecto, no hay un conocimiento previo de las clases
por lo que su utiliza algun criterio de similitud. Esta es una
tarea compleja que generalmente requiere de un aprendizaje,
siendo conocido como clasificacion no supervisada.
1) Maquina de vectores soporte (SVM): Es un clasificador
lineal basado en el aprendizaje estadstico para resolver problemas de clasificacion de patrones [22]. Los clasificadores
lineales se caracterizan porque se conoce, a priori, las clases
a las que pertenecen los nuevos individuos. No se trata de una
agrupacion por similitudes, sino que se tiene las clases bien
definidas [23].
Dado un conjunto de ejemplos de entrenamiento (muestras)
podemos etiquetar las clases y entrenar un SVM para construir un modelo que prediga la clase de una nueva muestra.
Intuitivamente, un SVM es un modelo que representa a los
puntos de muestra en el espacio, separando las clases por un
espacio lo mas amplio posible. Cuando las nuevas muestras
se ponen en correspondencia en funcion de su proximidad,
pueden ser clasificadas a una u otra clase, dependiendo de la
proximidad a cada una.
Mas formalmente, la idea principal de SVM es construir
un hiperplano o conjuntos de hiperplanos en un espacio de
dimensionalidad muy alta como superficie de decision, de tal
forma que, el margen de separacion entre ejemplos positivos
y negativos sea el maximo [24]. Una buena separacion entre
las clases permitira una clasificacion correcta.
Matematicamente, se parte de un conjunto de datos de entrenamiento xi , yi con:

Figura 8.

Representacion grafica de una maquina de vectores soporte [22]

espacio de datos y Y = 1, +1. En este caso el conjunto de


datos T es linealmente separable por un clasificador, cuando
es posible separar los datos en funcion de sus clases -1 y +1
por un hiperplano [25].
3) SVM no lineales: Son una extension de las lineales.
En algunas situaciones los datos de entrenamiento no pueden
ser divididos por un hiperplano, es decir, los datos no son
linealmente separables. En la Figura 9 tenemos una muestra de
datos, representando dos clases, una por un crculo y otra por
un triangulo. En este caso una frontera circular sera la forma
de separar las clases. Para solucionar este problema de datos
no linealmente separables por una recta, el conjunto de entrada
en un espacio original es mapeado para un nuevo espacio de
mayor dimension, denominado espacio de caractersticas. El

i = 1, ..., l, yi {1, 1} y xi Rd
Entonces existe un hiperplano, como el de la Figura 8 que
separa los datos de etiquetas positivas y negativas, tales que:
xi + b 1 i
xi + b 1 i

para yi = 1;
para yi = 1 i i

Donde es la normal al hiperplano y i son las variables


introducidas por los errores de clasificacion en calidad de
violaciones del hiperplano, de manera que i sera la cota del
error de clasificacion. Una manera directa
de anadir el coste
2
a la funcion objetivo es minimizar k2 k + Ci , siendo C
la constante elegida correspondiente al inverso del valor de la
penalizacion de los errores. As, se tiene un caso de optimizacion convexa cuyo problema de optimizacion cuadratica es
el numero de vectores de soporte. En general, SVM puede ser
clasificada de dos formas: lineales y no lineales.
2) SVM lineales: Las SVM lineales son utilizadas para
definir fronteras de separacion de datos que pertenecen a
dos clases, lidiando con los datos linealmente separables.
Considera un conjunto de entrenamiento T con n muestras
de datos xi X y sus respectivas clases yi Y , siendo X el

Figura 9.

Calculo de la distancia d entre los hiperplanos H1 y H2 [26]

mapeo de los datos lineales para no lineales pueden ser


muy complejo debido a la gran dimensionalidad del espacio
de caractersticas . De esta forma, para realizar el calculo de
productos escalares (xi ) (xj ) entre los datos en el espacio
de caractersticas son utilizadas las funciones kernels.
Finalmente cabe destacar que los resultados obtenidos por los
diferentes kernels seran distintos segun el problema que se
quiera resolver, en ese sentido es necesario realizar pruebas
empricas utilizando uno u otro kernel para solucionar nuestro
problema, por otro lado tambien cada kernel tiene sus propios
parametros.
V.

P RUEBAS Y RESULTADOS

En esta Seccion detallamos el conjunto de imagenes utilizado para la realizacion de pruebas del modelo de clasificacion,
luego utilizamos el extractor de caractersticas CGLCM y lue-

2014 XL Latin American Computing Conference (CLEI)

Cuadro IV.

RESULTANTE PARA LA COMBINACI ON


C ONTRASTE , E NERGI A , E NTROPI A SOBRE LA BASE DE DATOS IRREGULAR
M ATRIZ DE CONFUSI ON

Clase

Cuadro V.

BRL BRS CER CON HON FLO INM MAV NEP NEG NOR PMC PER

BrocadoL

310

12

20

BrocadoS

18

CerSeca

Concha
DxHongo

57

237

292

12

17

13

33

27

78

352

31

Flotador

144

79

Inmaduro

33

14

151

26

MAVinagre

153

NParcial

24

90

Negro

11

124

Normal

44

18

26

12

496

PMCortado

23

20

Pergamino

126

RESULTANTE PARA LA COMBINACI ON


C ONTRASTE , E NERGI A , E NTROPI A SOBRE LA BASE DE DATOS REGULAR .
M ATRIZ DE CONFUSI ON

Clase

BRL

BRS

CER

CON

HON

FLO

INM

MAV

NEP

NEG

NOR

PER

BrocadoL
BrocadoS

108

114

CerSeca

113

Concha

106

DxHongo

120

Flotador

10

104

Inmaduro

12

93

MAVinagre

10

103

NParcial

116

Negro

123

Normal

17

10

85

Pergamino

126

go las caractersticas extradas son ingresadas a una maquina


de vectores soporte con kernel RBF.

El metodo de extraccion de caractersticas utilizado es


el CGLCM.

A. Base de imagenes

Nuestra base de imagenes corresponde a los granos de


cafe segmentados correctamente y clasificados por un especialista de control de calidad de cafe certificado. Para este trabajo
se describen 2 bases de datos:

Utilizamos SVM como metodo de clasificacion, utilizando un kernel RBF con C = 10, = 0.4 y
 = 0.00001, el resultado de estos parametros es
producto de varias configuraciones.

El metodo de validacion sera realizado por medio de


una validacion cruzada donde kf old = 10.

Base de imagenes irregular: Posee un total de 3367


imagenes, con un conjunto distinto para cada clase.
La cantidad total para cada clase se puede apreciar en
el Cuadro II
Base de imagenes regular: Posee un total de 1512
imagenes, distribuidas en 12 clases excluyendo la
clase PMCortado, este conjunto tiene 126 imagenes
por cada clase.

Tambien para la validacion de resultados de clasificacion se


describen las siguientes tecnicas:

B. Pruebas utilizando base de datos irregular


En este trabajo se empleo 4 tipos de descriptores, realizando dos tipos de combinaciones de la siguiente manera :
1)
2)

Primera combinacion : Contraste, energia, correlacion.


Segunda combinacion : Contraste, energia, entropia.

Se utilizaron distintos niveles L de cuantizacion en el


CGLCM (L = 16, 32, 48, 64) y un total de 4 orientaciones
= {0 , 45 , 90 , 135 }. Fueron analizados los resultados por

2014 XL Latin American Computing Conference (CLEI)

cada combinacion y se obtuvo la mejor tasa de clasificacion


con un 76.42 % para la combinacion (2) , con un nivel de
cuantizacion L = 32, en el Cuadro IV se describe la matriz
de confusion resultante y el cuadro Cuadro VI se presenta los
resultados de precision, recall y F-measure.
Cuadro VI.

R ESULTADOS DE P RECISION , R ECALL Y F-M EASURE PARA


EN EL C UADRO IV
LA MATRIZ DE CONFUSI ON
Clase

Recall

Precision

F-measure

BrocadoL

74.88

68.58

71.59

BrocadoS

76.01

64.40

69.73

CerSeca

90.12

89.02

89.57

Concha

39.80

29.93

34.16

DxHongo

99.50

96.97

98.22

Flotador

59.31

76.19

66.70

Inmaduro

64.59

75.88

69.78

MAVinagre

80.19

81.38

80.78

NParcial

64.75

72.58

68.44

Negro

86.11

87.94

87.02

Normal

81.88

68.89

74.82

PMCortado

26.74

57.14

36.43

Pergamino

98.44

99.21

98.82

ses no balanceadas mencionado anteriormente. Por tal motivo


abordaremos esas clases en la siguiente subseccion.
C. Pruebas utilizando base de datos regular
Para este conjunto de imagenes se repite el modelo de
combinaciones ejecutado con la base de datos irregular y
como resultado se obtiene una tasa de e xito de 86 % para
la combinacion (2) (Contraste, Energa, Entropa) y nivel de
cuantizacion L = 32 y superando los resultados del modelo
anterior. En el Cuadro V se describe la matriz de confusion
resultante y en el Cuadro VII se presenta los resultados
precision, recall y F-measure respectivos.
Cuadro VII.

R ESULTADOS DE P RECISION , R ECALL Y F-M EASURE


EN EL C UADRO V
PARA LA MATRIZ DE CONFUSI ON

El cuadro VI muestra resultados muy buenos para algunas


clases (por ejemplo Pergamino y DxHongo) y resultados poco
alentadores para otras clases (como PMCortado y Concha).
Esto puede deberse a varios factores:

La clase Pergamino tiene un color amarillento caracterstico y una textura bien diferenciada, y la clase
DxHongo tambien presenta en conjunto un color y
textura muy diferente de las otras clases.
Problema de clases no balanceadas, es decir algunas
clases tienen muchos ejemplares, como es el caso de
la clase Normal (607 imagenes) mientras que otras
clases tienen muy pocas, caso de la clase PMCortado
(76 imagenes). Esto puede conllevar a que el clasificador tenga preferencia por la clase que tenga mas
ejemplares y no tome en cuenta sus caractersticas.
Este problema esta bien documentado en la literatura,
para mayor entendimiento y posibles soluciones ver
[27], [28], [29].
En terminos de textura y color la clase PMCortado
es muy parecida a la clase BrocadoS, por ese motivo
existe poca discriminacion entre ambas (ver tabla IV).
Eso tambien explica porque medida Recall de la clase
PMCortado es notoriamente menor que su Precision.
La clase Concha se confunde con varias clases, debido
a que en la base de datos estos ejemplares son muy
parecidos a la clase Normal en terminos de textura
y color, sin embargo ademas algunos de ellos tienen
otros defectos. Un enfoque que podra clasificar de
mejor manera este tipo de defecto sera utilizando
caractersticas de forma.
En conclusion las clases PMCortado y Concha pueden
ser mejor diferenciados por su forma que por la textura
y color.

Existen tambien otras clases con baja taza de clasificacion,


sin embargo esto podra deberse al mismo problema de las cla-

Clase

Precision

Recall

F-measure

BrocadoL

73.47

85.71

79.12

BrocadoS

86.36

90.48

88.37

CerSeca

92.62

89.68

91.13

Concha

78.52

84.13

81.23

DxHongo

94.49

95.24

94.86

Flotador

86.67

82.54

84.55

Inmaduro

72.09

73.81

72.94

MAVinagre

83.74

81.75

82.73

NParcial

99.15

92.06

95.47

Negro

96.85

97.62

97.23

Normal

80.19

67.46

73.28

Pergamino

99.21

100.00

99.60

En el cuadro VII se muestra en general una mejora en la


discriminacion de clases con respecto al cuadro VI, lo cual
ayuda a probar lo importante de tener un banco de imagenes,
con clases con un numero similar de ejemplares para la fase
de entrenamiento.
Las clases que notablemente mejoraron fueron las que
llevan el nombre de Negro y NParcial, con porcentajes de
clasificacion casi perfectas. En el caso de NParcial en el
cuadro VI se confunda mucho con la clase BrocadoS (que
tambien mejoro notablemente), posiblemente debido a que esta
u ltima tenia muchos mas ejemplares (problema de clases no
balanceadas), y una textura, si bien no igual, algo parecida.
De igual forma las clases Concha, BrocadoL y Flotador
mejoraron bastante, sin embargo aun falta mejorar un poco
mas para llegar al porcentaje deseado.
Las clases que han mejorado levemente con respecto
al cuadro anterior fueron: Inmaduro, CerSeca, MAVinagre
y Perganimo. La clase normal bajo ligeramente y lo que
sorprendio un poco fue la cada en la taza de clasificacion
de la clase DxHongo.
VI.

C ONCLUSIONES Y T RABAJOS FUTUROS

Nuestro trabajo describe la aplicacion de un extractor


conocido como matrices de co-ocurrencia en escala de grises
y colores (CGLCM) junto a un clasificador de maquina de
vectores soporte (SVM) como un modelo prometedor para
la clasificacion de defectos fsicos en granos de cafe verde.
Las tasas de clasificacion resultantes nos demuestran que
utilizando un conjunto de imagenes similar para cada clase los

2014 XL Latin American Computing Conference (CLEI)

resultados son prometedores sin embargo no se considero la


clase PMCortado para esta prueba, debido a su variacion en
forma mas no en textura.
El proceso de recoleccion de imagenes digitales de granos de
cafe verde estuvo fuertemente influenciado por el prototipo
de adquisicion de imagenes, en consecuencia un diseno especializado de maquina esta siendo desarrollado. Tambien para
este tipo de imagenes se elimino manualmente algunos granos
segmentados en conjunto, debido a la falta de un separador y/o
bandeja especial que mantenga una separacion entre granos.
En este trabajo se logro clasificar un conjunto de defectos
mayor a los estudiados a la literatura en donde solo buscaban
clasificar por color, aqu se realizo un estudio para la evaluacion de granos que poseen caractersticas particulares en
textura y forma.
Los resultados descritos muestran que el modelo presentado
puede ser utilizado en aplicaciones reales de laboratorios de
control de calidad de granos de cafe verde, sin embargo se
propone como trabajo futuro el desarrollo de un modelo de
clasificacion por etapas en donde caractersticas de granos
por forma, luego por color y finalmente por textura, en ese
orden, sean seleccionadas; de este modo creemos que la tasa
de clasificacion superara la resultante en este trabajo.
AGRADECIMIENTOS
Los autores quisieran agradecer a CECOVASA (Central
de Cooperativas Agrarias Cafetaleras de los Valles de Sandia)
quienes brindaron el soporte y conocimiento necesario para el
desarrollo de la investigacion. Este trabajo ha sido parcialmente
subvencionado por los Fondos para la Innovacion, Ciencia
y Tecnologa (FINCyT-Peru) mediante contrato 087-FINCyTFIDECOM-PIPEA-2011 en convenio con la empresa y la
Universidad Nacional de San Agustn.
R EFERENCIAS
[1] Website, Specialty coffe asociation of america, Setiembre 2012.
[Online]. Available: http://www.scaa.org/
[2] L. da Fontoura Costa and R. Cesar, Shape analysis and classification:
theory and practice. CRC, 2001.
[3] H. Cheng, X. Jiang, Y. Sun, and J. Wang, Color image segmentation:
advances and prospects, Pattern recognition, vol. 34, no. 12, pp. 2259
2281, 2001.
[4] P. Hicks, Postharvest processing and quality assurance for speciality/organic coffee products, The first Asian regional round-table on
sustainable, organic and speciality coffee production, processing and
marketing, pp. 2628, 2001.
[5] N. Montes, G. Osorio, F. Prieto, and F. Angulo, La vision artificial
aplicada al proceso de produccion del cafe, Dyna, vol. 133, pp. 41
49, 2001.
[6] S. Means, Segmentacion de frutos de cafe mediante metodos de
crecimiento de regiones, Rev. Fac. Nal. Agr. Medelln vol, vol. 59,
no. 1, 2006.
[7] Z. Sandoval and F. Prieto Ortiz, Caracterizacion de cafe cereza
empleando tecnicas de vision artificial, Rev. Fac. Nal. Agr. Medelln,
pp. 41054127, 2007.
[8] M. Habtamu, Image analysis for ethiopian coffee classification, 2008.
[9] A. Francaa, A. Craigb, and L. Oliveiraa, Separation between high and
low quality coffees by ftir-atr, 2009.
[10] U. Ahmad, K. Seminar, D. Soedibyo, and I. Subrata, The development
of automatic coffee sorting system based on image processing and
artificial neural network, 2010.
[11] F. Faridah, Gea O. F. Parikesit, Coffee bean grade determination based
on image parameter, TELKOMNIKA (Telecommunication, Computing,
Electronics and Control), vol. 9, pp. 547 554, 2011.

[12]
[13]
[14]
[15]
[16]
[17]

[18]

[19]

[20]
[21]

[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]

N. Otsu, A threshold selection method from gray-level histograms,


Systems, Man and Cybernetics, IEEE Transactions on, vol. 9, no. 1,
pp. 6266, Jan 1979.
S. Suzuki et al., Topological structural analysis of digitized binary
images by border following, Computer Vision, Graphics, and Image
Processing, vol. 30, no. 1, pp. 3246, 1985.
L. Brown, A survey of image registration techniques, Computing
Surveys, vol. 24, pp. 116, 1992.
and R. Hudec, Novel method for color textures features
M. BENCO
extraction based on glcm, Radioengineering, vol. 4, no. 16, pp. 6467,
2007.
R. M. Haralick, K. Shanmugam, and I. Dinstein, Textural features
for image classification, IEEE Transactions on Systems, Man, and
Cybernetics, vol. 3, no. 6, pp. 610621, Nov. 1973.
E. Vimina and K. Poulose Jacob, Image retrieval using colour and
texture features of regions of interest, in Information Retrieval &
Knowledge Management (CAMP), 2012 International Conference on.
IEEE, 2012, pp. 240243.
X. Sun, J. Wang, R. Chen, M. F. She, and L. Kong, Multi-scale local
pattern co-occurrence matrix for textural image classification, in Neural
Networks (IJCNN), The 2012 International Joint Conference on. IEEE,
2012, pp. 17.
M. YousefHussien, K. Garvin, D. Dalecki, E. Saber, and M. Helguera, Three-dimensional volume analysis of vasculature in engineered
tissues, in IS&T/SPIE Electronic Imaging. International Society for
Optics and Photonics, 2013, pp. 86 540C86 540C.
F. Albregtsen et al., Statistical texture measures computed from gray
level coocurrence matrices, Image Processing Laboratory, Department
of Informatics, University of Oslo, 1995.
M. Tuceryan and A. K. Jain, Handbook of pattern recognition &
computer vision, in Handbook of pattern recognition & computer
vision, C. H. Chen, L. F. Pau, and P. S. P. Wang, Eds. River Edge, NJ,
USA: World Scientific Publishing Co., Inc., 1998, ch. Texture analysis,
pp. 235276.
S. Haykin, Neural Networks: A Comprehensive Foundation, 2nd ed.
Upper Saddle River, NJ, USA: Prentice Hall PTR, 1998.
R. Barr, J. Haas, and R. R., Jist: An efficient approach to simulation
using virtual machines, in Software: Practice and Experience, 2003.
A. Ben-Hur, D. Horn, H. Siegelmann, and V. Vapnik, Support vector
clustering, Machine Learning Research, vol. 2, pp. 125137, 2000.
B. Scholkopf and A. J. Smola, Learning with Kernels: Support Vector
Machines, Regularization, Optimization, and Beyond. Cambridge, MA,
USA: MIT Press, 2001.
K. Muller, S. Mika, G. Ratsch, K. Tsuda, and B. Scholkopf, An
introduction to kernel-based learning algorithms, Neural Networks,
IEEE Transactions on, vol. 12, no. 2, pp. 181201, 2001.
F. Provost, Machine learning from imbalanced data sets 101, in
Proceedings of the AAAI2000 workshop on imbalanced data sets, 2000,
pp. 13.
H. He and E. A. Garcia, Learning from imbalanced data, Knowledge
and Data Engineering, IEEE Transactions on, vol. 21, no. 9, pp. 1263
1284, 2009.
A. Ben-Hur and J. Weston, A users guide to support vector machines,
in Data mining techniques for the life sciences. Springer, 2010, pp.
223239.

También podría gustarte