Clasificacion de Defectos Fisicos de Granos de Cafe Verde

2014 XL Latin American Computing Conference (CLEI)
Automatic classification of physical defects in green

coffee beans using CGLCM and SVM
Cesar A. Beltran-Castano n
Rayner H. Montes Condori y Juan H. Chuctaya Humari
y Christian E. Portugal-Zambrano y Juan C. Gutierrez-Caceres Grupo de Reconocimiento de Patrones e IA Aplicada
Catedra Concytec en Tecnologas de la informacion
Escuela Profesional de Ingeniera de Sistemas
Av. Venezuela s/n, Universidad Nacional de San Agustn
Arequipa - Peru
Email: {ray.montes,juanherbert,christ.pz.cs,jcgutierrezc}@gmail.com
AbstractThis work is focused on the evaluation of physical
coffee beans through a model of automatic classification of
defects. The model uses a segmentation step that discriminates the
background from the coffee bean image with a follow contours
algorithm, then a CGLCM is introduced as features extractor and
a Support Vector Machine for the classification task, a database
of images has been collected with a total of 3367 images, the
classification process used twelve categories of defects, the results
of classification showed a accuracy of 86%. Finally a set of
conclusions and future works are presented.
Keywordscomputer vision; segmentation; feature extraction;
coffee bean
I.
I NTRODUCCI ON
Se denomina cafe a la bebida que se obtiene de los frutos y

semillas de la planta de cafe o cafeto (Coffea). Los granos del
cafe son uno de los principales productos de origen agrcola
que se comercializa en los mercados internacionales. Las
plantas de cafe son originarias de la antigua Etiopa. En Peru el
cafe se desarrolla en casi todas las regiones geograficas del
territorio.
Las etapas basicas de procesamiento de granos de cafe comienza en las plantaciones, luego es cosechado (6 a 8 meses
de madurez) para ser secado mediante tecnicas especiales
y artesanales (secado al sol). La etapa de secado brinda la
coloracion verde al grano, este posteriormente es clasificado
para eliminar impurezas y granos malos o deformes, tambien
es clasificado por tamano, se le aplica una etapa de pulido para
mejorar su aspecto y finalmente puesto en venta a usuarios
locales o globales.
La naturaleza de exportacion de los granos de cafe exigen un
control de calidad fsico y qumico (catacion), los laboratorios
de analisis de calidad deben asegurar la competencia tecnica
del personal que opera equipos especficos, ejecutan, evaluan
los resultados y firman los informes de ensayos. A nivel
mundial la SCAA (Specialty Coffe Asociation of America)
[1] es una entidad que se encarga de capacitar y regular las
calificaciones y programas de formacion para aseguramiento
de la calidad de exportacion de granos de cafe.
En el proceso de control de calidad fsico de granos de
cafe verde la SCAA describe un total de 16 defectos divididos
en 2 categoras de impacto en taza, la presencia de cada uno de
ellos influye directamente en el olor, sabor y consistencia de
una taza de cafe valorizando el cafe en un conjunto de puntos
Seccion de Ingeniera Informatica

Pontificia Universidad Catolica del Peru
Av. Universitaria 1801, San Miguel, Lima 32, Peru
Email: cbeltran@pucp.pe
de catacion que evaluan su nivel de calidad. El proceso de

evaluacion fsica para la determinacion de defectos en cafe se
determina por medio de una revision manual e individual de
cada grano en una muestra de cafe luego, se elabora un conteo
de todos lo granos por tipo de defecto clasificado, finalmente
se elabora un registro que se incluye en el informe final de
control de calidad de cafe.
Normalmente la tarea de evaluacion fsica es visualmente agotadora y saturada en tiempos de produccion de cafe, haciendo
la labor de los expertos propensa a errores o imprecisiones
producto de la fatiga laboral.
En la literatura se han hecho estudios de modelos computacionales, equipos de tecnologa y/o metodologas que intentan
aprovechar el beneficio de las tecnologas digitales para soportar las tareas de catadores especializados en los laboratorios de
control de calidad, tambien se han desarrollado productos de
software que asisten en la recoleccion de datos, sin embargo
una solucion dedicada al proceso de control de calidad fsico de
granos de cafe verde para la deteccion automatica de defectos
no ha sido investigada a profundidad.
En este trabajo se plantea un modelo de clasificacion automatica de defectos en granos de cafe verde mediante el
uso de tecnicas segmentacion, extraccion de caractersticas
y modelos de clasificacion de imagenes, en la Seccion II
presentamos los conceptos y trabajo previos necesarios para el
desarrollo del trabajo, en la Seccion III describimos el proceso
de control de calidad aplicado en la produccion industrial de
granos de cafe para exportacion, luego en la Seccion IV el
modelo de clasificacion de defectos automatico es desarrollado
en cuatro etapas. En la Seccion V las pruebas y resultados
correspondientes son presentados, finalmente en la Seccion VI
discutimos las conclusiones y trabajos futuros de este trabajo.
II.
C ONCEPTOS Y TRABAJOS PREVIOS
El tratamiento digital de imagenes de cafe ha permitido

realizar estudios para su analisis de caractersticas de forma,
color y en algunos casos densidad, [2] en su libro realiza un
conjunto de tecnicas de analisis de forma para la clasificacion
de objetos y alimentos, este trabajo plantea el uso de las formas
como un discriminante esencial en procesos de clasificacion,
por otro lado [3] plantea de modo similar el uso de color
como una herramienta para la segmentacion y clasificacion
presentando algunos avances y teoras.
c
978-1-4799-6130-6/14/$31.00 2014
IEEE
Azul-Verde
Azulador-Verde
Verde
Verdoso
Verde-Amarillento
Amarillo-Palido
Amarillento
Cafe
Figura 1. Escala de coloracion del cafe verde, los cafes sin tostar presentan una coloracion que va desde el color azul-verdoso hasta el amarillo palido
dependiendo del origen, proceso o tiempo de almacenamiento.
En el mismo ano [4] realiza un estudio para la elaboracion

de distintas formas de aplicar un tratamiento de secado y
mojado de cafe en base a estandares internacionales, tambien describe un conjunto de tecnicas de almacenamiento,
describiendolas como las mejores, este trabajo comienza a
introducir la necesidad de estudios que mejoren la produccion
y calidad de granos de cafe. Por otro lado [5] realiza un
estudio para la utilizacion de tecnicas de vision artificial en el
desarrollo de un sistema para la automatizacion de la cosecha
de cafe, compuesto de una etapa de adquisicion de imagenes,
un conjunto de algoritmos para segmentacion de frutos de
cafe maduros y verdes, finalmente implemento un algoritmo
para la caracterizacion y clasificacion de frutos de cafe basados
en las propiedades morfologicas y de color, orientando su
trabajo al pronostico y automatizacion de cosechas y deteccion
de enfermedades y plagas.
En [6] el autor presenta tres modelos diferentes de segmentacion utilizando tecnicas basados en crecimientos de regiones
a partir de semillas (Seeded Region Growing), sus modelos
fueron aplicados a imagenes de frutos de cafe en condiciones
controladas, sus resultados mostraron un buen desempeno para
la deteccion de bordes realizando un proceso de segmentacion robusto, este trabajo fue profundizado en [7] donde se
desarrollo un sistema de vision artificial para la clasificacion
de frutos de cafe en once categoras basadas en su estado de
madurez, extrajeron 208 caractersticas reduciendolas a 9 utilizando metodos de seleccion univariados y multivariados, para
la clasificacion utilizaron clasificadores bayesianos y redes
neuronales resultando en tiempos de clasificacion de 0.8ms.
Estos trabajos fueron expandiendo el estudio de tecnicas de
vision artificial y procesamiento de imagenes para el mejoramiento de la produccion y calidad de cafe, posteriormente [8]
realizo un estudio de analisis de imagenes para la clasificacion
de cafe de Etiopa, sin embargo utilizo muy poco criterios para
la evaluacion de resultados. [9] resalto que la presencia de
granos defectuosos deprecia la calidad de cafe para su consumo
a nivel mundial, entonces propuso un ordenamiento por color
para la clasificacion de granos defectuosos, por otro lado este
metodo no eres efectivo para granos cuyo defecto no se basaba
en color, utilizo la Transformada Rapida de Fourier para la

clasificacion.
Luego en [10] el autor realizo un trabajo para desarrollar un
sistema de ordenamiento automatico de granos de cafe utilizando procesamiento de imagenes y una red neuronal para
la identificacion de la calidad de cada grano, utilizo seis
parametros de calidad como longitud, a rea, permetro, a rea
defectuosa y grado de color rojo y verde, estos parametros
fueron utilizados como entrada en la red neuronal, sus resultados fueron prometedores sin embargo describa algunas
desventajas debido a que no poda caracterizar todos los tipos
de defectos con los parametros seleccionados.
Tiempo despues, [11] utilizo el estandar nacional de Indonesia
para la deteccion de defectos, utilizando seis clases, utilizo una
camara web para la adquisicion de imagenes digitales de
granos de cafe uniformemente iluminadas, luego realizo un
proceso de extraccion basada en textura y, estos valores fueron
utilizados como entrada a una red neuronal, posteriormente
concluyo que su modelo de clasificacion posea un mnimo de
variacion en la precision de 40 granos.
III.
C ONTROL DE CALIDAD DE CAF E
Es necesario detectar e identificar el tipo de defectos en

granos de cafe verde debido a su influencia en el sabor de
la bebida a preparar, la mejor calidad de grano de cafe verde
tostado posee un olor a rosa fresca, contrariamente un cafe de
baja calidad posee aroma a tierra humeda, en la Figura 1 se
presenta una escala de coloracion de cafe verde que depende
del nivel de tostado, proceso o tiempo de almacenamiento.
Los catadores especializados poseen un entrenamiento u nico
para la deteccion y caracterizacion de cada aroma de cafe en
una muestra de evaluacion, cada cafe posee un aroma particular
que lo caracteriza y tambien define su nivel de calidad, para
este trabajo consideramos que cuando se tenga dos defectos en
un mismo grano se debe de considerar el defecto que tenga un
mayor impacto en taza. La catacion es una tecnica profesional
para la evaluacion de cafe, el experto realiza una evaluacion
de cada grano presente en una muestra, realiza un conteo por
cada tipo de defecto presente y procede a evaluar el impacto
Cuadro I.
TABLA DE EQUIVALENCIAS DE LOS DEFECTOS PRESENTES

VERDE [1]
EN GRANOS DE CAF E
Defectos
Categora 1
6
Defectos
Totales
Equivalentes
Defectos
Categora 2
Defectos
Totales
Equivalentes
Grano Negro
Grano Agrio/Vinagre
Cereza Seca
Dano por Hongos
Materia Extrana
Grano Brocado Severo
1
1
1
1
1
5
Negro Parcial
Agrio Parcial
Pergamino
Flotador
Inmaduro
Averanado o Arrugado
Conchas
Partido/Molido/Cortado
Cascara o Pulpa Seca
Grano Brocado Leve
3
3
5
5
5
5
5
5
5
10
en taza de acuerdo a los valores mostrados en el Cuadro I,

en este se puede apreciar que si se tiene un grano clasificado
como Grano Negro, este pertenece a un defecto de categora I
y su equivalencia en taza es de un por grano, considerado de
alto impacto, tambien si se tiene tres granos clasificados como
Agrio Parcial, estos son de categora II y por lo tanto se tiene
un defecto equivalente, considerado de mediano impacto.
IV.
DEL TOTAL DE GRANOS DE CAF E POR TIPO

D ESCRIPCI ON
DE DEFECTO EN LA BASE DE DATOS DE IM AGENES

COLECTADA .
Cuadro II.
Nro
1
2
3
4
5
6
7
8
9
10
11
12
13
Alias
Total
Brocado Leve
Brocado Severo
Cereza Seca
Concha
Danho por Hongo
Flotador
Inmaduro
Marron,Agrio,Vinagre
Negro
Normal
Negro Parcial
Pergamino
Partido,Mordido,Cortado
BrocadoL
BrocadoS
CerSeca
Concha
DxHongo
Flotador
Inmaduro
MAVinagre
Negro
Normal
NParcial
Pergamino
PMCortado
TOTAL :
414
313
324
196
355
244
235
192
144
607
139
128
76
3367
la incidencia de luz utilizada, tambien tenemos las siguientes

consideraciones:
Consideramos que para detectar si un grano posee un

defecto se debe de analizar sus dos caras, sin embargo
el objetivo actual es detectar el defecto sin importar la
cara del grano, de este modo restringimos el alcance
del problema a detectar defectos visibles a la camara.
Por cada muestra de cafe se tienen varias imagenes,

resultando en un total de granos de diferentes tipos
por cada imagen.
La presencia de iluminacion controlada elimina sombras en los granos, sin embargo tambien influye en los
colores de los granos originando brillo.
La resolucion de la imagen debe brindar la capacidad

de poder distinguir y resaltar texturas y colores en cada
grano, buscando la maxima nitidez en la imagen, para
ello se utilizo una camara de 12 megapixeles.
DE DEFECTOS
M ODELO DE CLASIFICACI ON
En este trabajo se aborda el problema de clasificacion

automatica de defectos en granos de cafe verde a traves de
un conjunto de etapas, primero se hace una recoleccion de
imagenes de granos de cafe provenientes de una bandeja
disenada para la adquisicion de imagenes, luego se realiza un
proceso de segmentacion para obtencion de regiones de interes
que discriminen el fondo, aislando los granos de cafe, a seguir
se realiza un proceso de extraccion de caractersticas utilizando
un matriz de niveles de co-ocurrencia de tres colores, el
vector de caractersticas para cada grano es procesado con una
maquina de vectores soporte como metodo de clasificacion.
Nombre/Clase
En la Figura 2 se puede apreciar una imagen de una muestra

de granos de cafe tipo normal. En el Cuadro II se describe
el total de granos de cafe por tipo de defecto colectado en la
base de imagenes.
B. Segmentacion de granos de cafe
Es necesario para nuestro proceso de clasificacion de
defectos, aislar las zonas de interes en nuestra imagen, por
ello un proceso de segmentacion es necesario. Luego de
recolectar la base de imagenes, cada imagen es procesada
a una escala de grises para su posterior binarizacion con el
algoritmo de Otsu [12], luego se obtiene los contornos de cada
grano de cafe en la imagen binarizada utilizando la tecnica de
seguimiento de contornos [13].
Figura 2. Muestra de cafes tipo Normal, tomada con iluminacion controlada
por medio del prototipo de adquisicion de imagenes digitales del proyecto.
A. Recoleccion de base de imagenes

Para la obtencion de imagenes de granos de cafe verde se
elaboro un prototipo de adquisicion de imagenes que mantena
fija la distancia entre la camara y las muestras de cafe, tambien
En la Figura 3 se muestra la imagen resultante de aplicar

un algoritmo de umbralizacion con Otsu, posteriormente en
Figura 4 se presenta el resultado de aplicar un algoritmo
de seguimiento de contornos a la imagen previa, finalmente
en la Figura 5 se muestra los sectores de interes en la
imagen, cada sector representa un grano de cafe. Las imagenes
resultantes forman parte de la base de datos de imagenes de
cafe, adicionalmente estas fueron clasificadas por un experto
en control de calidad, asegurando su pertenencia a cada clase.
Cuadro III.
TAXONOMI A SOBRE ESPACIOS DE CARACTERI STICAS
EXTRAI DAS EN IM AGENES

[14].
Espacio
Bordes
Caractersticas
salientes
Figura 3.
Imagen resultante de un proceso de binarizacion con Otsu.
Caractersticas
Estadsticas
Caractersticas
de Alto Nivel
Figura 4. Resultado de aplicar un algoritmo de seguimiento de bordes la

imagen binarizada
Figura 5.
Imagen con segmentos de interes seleccionados.
C. Extraccion de caractersticas
Esta es una etapa importante para nuestro modelo de clasificacion de defectos, consiste en la representacion numerica de
un objeto en una escena de imagen a un numero entero o real,
en el Cuadro III se puede apreciar una taxonoma acerca del
espacio de caractersticas extradas en imagenes segun [14].
En este trabajo abordamos la extraccion de caractersticas
utilizando un matriz de co-ocurrencia de niveles de gris y
colores (CGLCM) [15].
1) Matriz de co-ocurrencia de niveles de gris: La matriz de
co-ocurrencia de niveles de gris o mas conocido como GLCM
Atributos
Estructura intrnseca menos sensible a ruidos. Incluyen contornos y
superficies.
Estructura
intrnseca
posicionamiento
preciso.
Incluyen
interseccion de lineas, esquinas,
puntos de alta curvatura.
Usa toda la informacion presente
en la imagen, buenos resultados
para transformaciones rgidas, soporte a sobre-posiciones. Incluyen
momentos invariantes, ejes principales, tecnicas como descomposicion singular del valor y centroides.
Utilizan relaciones y informaciones de alto nivel, buenos resultados para emparejamiento local y
impreciso. Incluyen caractersticas
estructurales y sinteticas y redes
semanticas. Pueden crear tecnicas
de firma para indexar imagenes
(por su significado en ingles Gray Level Co-ocurrence Matrix)

es una tecnica comun en el analisis estadstico de imagenes,
muy usado para caracterizar la textura presente en ellas, es
decir es un metodo de extraccion caractersticas estadsticas
de segundo orden o vector de histogramas. Fue propuesta en
1973 por Haralick [16], a pesar de ya haber pasado varias
decadas, su estudio y aplicacion no pierde vigencia [17], [18],
[19].
Una matriz GLCM consta de L filas y L columnas, siendo L
el numero de niveles de gris que tiene la subimagen F a ser
procesada. Por tal motivo esta subimagen es cuantizada de tal
forma que el numero de niveles de gris es reducida. Segun
[20] un buen valor para L es 16.
Generalmente multiples matrices GLCM son creadas sobre F ,
con el objetivo de mejorar la caracterizacion de una textura,
para lo cual se considera un conjunto combinaciones de
(x, y) o (d, ). Sin embargo tambien se debe tener en
cuenta el tiempo de ejecucion, lo cual hace imprescindible
encontrar un subconjunto ideal (x, y) o (d, ) que no sea
muy grande y que a su vez caracterize la textura contenida en
F apropiadamente. La Figura 6 muestra una buena eleccion
del conjunto de a ngulos u orientaciones = {0 , 1 , 2 , . . .}
y de distancias D = {d0 , d1 , d2 , . . .}. Otros a ngulos que
tambien podran haber sido incluidos son, 180 , 225 , etc, sin
embargo estos a ngulos no agregan mayor especificacion de la
textura debido a la relacion transpuesta que mantienen con los
a ngulos anteriores, adicionalmente muchos trabajos los usan
para generar GLCM simetricos.
2) Extraccion de caractersticas o medidas de textura del
GLCM: Haralick en [16] introdujo 14 caractersticas que se
pueden extraer de una matriz GLCM, en [20] se pueden ver
algunas otras mas. Sin embargo muchas de esas caractersticas
son redundantes, lo cual hace imprescindible que se haga una
seleccion previa de ellas, generalmente una buena eleccion esta
compuesta de 3 a 5 medidas. Algunas medidas relacionadas al
contraste son:
Promedio:
VII
135
90
45
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc
b
bc
j =
CON =
i,j=0
II
Disimilaridad (DIS): su formula esta dada por:

DIS =
i,j=0
III
Las medidas que expresan el nivel de orden y regularidad en

el cual estan los pxeles son:
Segundo Momento Angular(ASM) & Energia: sus
formulas estan dadas por:
ASM =
N
1
X
Pi,j 2
i,j=0
Energia =
ASM
ASM y Energia usan a Pi,j como peso.

Los valores de ASM y Energia se incrementan
proporcionalmente al grado de orden.
Probabilidad Maxima(MAX): su formula esta dada
por:
1
M AX = maxN
i,j=0 (Pi,j )
VII
VI
j2 =
Simplemente se toma al mayor valor Pi,j de

la ventana.
Entropia(ENT): su formula esta dada por:
EN T =
N
1
X
Pi,j ( ln Pi,j )
i,j=0
N
1
X
i,j=0
Mide el grado de caos

Alcanza su mayor valor cuando todos los
valores Pi,j son iguales.
Finalmente se tiene las medidas que utilizan estadstica descriptiva:
Pi,j (j j )
Desviacion Estandar
i , j
Correlacion:
IX
corr =
N
1
X
i,j=0
Homogeneidad (HOM): su formula esta dada por:

Pi,j
HOM =
1
+
(i j)2
i,j=0
i,j=0
Pi,j |i j|
N
1
X
IV
jPi,j
Varianza y Desviacion Estandar:

Varianza
N
1
X
2
i2 =
Pi,j (i i )
VIII
Pi,j (i j)2
N
1
X
N
1
X
i,j=0
Contraste (CON): su formula esta dada por:

N
1
X
iPi,j
i,j=0
Figura 6. Cuatro a ngulos = {0 , 45 , 90 , 135 } y 4 distancias D =

{1, 2, 3, 4}
N
1
X
i =
Pi,j
(i i )(j j )
q
(i2 )(j2 )
3) CGLCM - matriz de co-ocurrencia para imagenes RGB:

Es una tecnica de extraccion de caractersticas por textura y
color para imagenes [15], en realidad es una modificacion del
conocido Gray Level Co-ocurrence Matrix [16], difiere de su
predecesor en que esta trabaja en los 3 canales de una imagen
RGB y ademas:
El pixel referente y vecino pueden pertenecer a un

solo canal o a canales distintos.
En
total
se
consideran
9
relaciones
(RR, RG, RB, GR, GG, GB, BR, BG, BB),
por
cada relacion se crea una matriz de co-ocurrencia.
La Figura 7 muestra la relacion RR y RG muy similares

al GLCM distinguiendose en que el pxel referente y el
vecino pertenecen a distintos canales, lo cual brinda una mejor
informacion de la distribucion de pxeles en una imagen.
Canal R: Pixel Referente
Canal G: Pixel Vecino
i-1, j-1
i-1, j
i-1, j+1
i-1, j-1
i-1, j
i-1, j+1
i, j-1
i, j
i, j+1
i, j-1
i, j
i, j+1
i+1, j-1
i+1, j
i+1, j+1
i+1, j-1
i+1, j
i+1, j+1
Figura 7. Relacion R-G: El pixel referente se toma en el canal R, y los

pixeles referentes en el canal G.
D. Clasificacion de defectos fsicos

En un analisis de clasificacion se construyen modelos capaces de pronosticar la pertenencia de un objeto a una categora o
clase sobre la base de las caractersticas del objeto. Existen dos
aspectos particulares relacionados a la clasificacion [21], el primero es, dada una imagen de entrada, decidir si ella pertenece
a alguna clase especfica previamente definida. Esta categora
es usualmente conocida como clasificacion supervisada. El
segundo aspecto, no hay un conocimiento previo de las clases
por lo que su utiliza algun criterio de similitud. Esta es una
tarea compleja que generalmente requiere de un aprendizaje,
siendo conocido como clasificacion no supervisada.
1) Maquina de vectores soporte (SVM): Es un clasificador
lineal basado en el aprendizaje estadstico para resolver problemas de clasificacion de patrones [22]. Los clasificadores
lineales se caracterizan porque se conoce, a priori, las clases
a las que pertenecen los nuevos individuos. No se trata de una
agrupacion por similitudes, sino que se tiene las clases bien
definidas [23].
Dado un conjunto de ejemplos de entrenamiento (muestras)
podemos etiquetar las clases y entrenar un SVM para construir un modelo que prediga la clase de una nueva muestra.
Intuitivamente, un SVM es un modelo que representa a los
puntos de muestra en el espacio, separando las clases por un
espacio lo mas amplio posible. Cuando las nuevas muestras
se ponen en correspondencia en funcion de su proximidad,
pueden ser clasificadas a una u otra clase, dependiendo de la
proximidad a cada una.
Mas formalmente, la idea principal de SVM es construir
un hiperplano o conjuntos de hiperplanos en un espacio de
dimensionalidad muy alta como superficie de decision, de tal
forma que, el margen de separacion entre ejemplos positivos
y negativos sea el maximo [24]. Una buena separacion entre
las clases permitira una clasificacion correcta.
Matematicamente, se parte de un conjunto de datos de entrenamiento xi , yi con:
Figura 8.
Representacion grafica de una maquina de vectores soporte [22]
espacio de datos y Y = 1, +1. En este caso el conjunto de

datos T es linealmente separable por un clasificador, cuando
es posible separar los datos en funcion de sus clases -1 y +1
por un hiperplano [25].
3) SVM no lineales: Son una extension de las lineales.
En algunas situaciones los datos de entrenamiento no pueden
ser divididos por un hiperplano, es decir, los datos no son
linealmente separables. En la Figura 9 tenemos una muestra de
datos, representando dos clases, una por un crculo y otra por
un triangulo. En este caso una frontera circular sera la forma
de separar las clases. Para solucionar este problema de datos
no linealmente separables por una recta, el conjunto de entrada
en un espacio original es mapeado para un nuevo espacio de
mayor dimension, denominado espacio de caractersticas. El
i = 1, ..., l, yi {1, 1} y xi Rd
Entonces existe un hiperplano, como el de la Figura 8 que
separa los datos de etiquetas positivas y negativas, tales que:
xi + b 1 i
xi + b 1 i
para yi = 1;
para yi = 1 i i
Donde es la normal al hiperplano y i son las variables

introducidas por los errores de clasificacion en calidad de
violaciones del hiperplano, de manera que i sera la cota del
error de clasificacion. Una manera directa
de anadir el coste
2
a la funcion objetivo es minimizar k2 k + Ci , siendo C
la constante elegida correspondiente al inverso del valor de la
penalizacion de los errores. As, se tiene un caso de optimizacion convexa cuyo problema de optimizacion cuadratica es
el numero de vectores de soporte. En general, SVM puede ser
clasificada de dos formas: lineales y no lineales.
2) SVM lineales: Las SVM lineales son utilizadas para
definir fronteras de separacion de datos que pertenecen a
dos clases, lidiando con los datos linealmente separables.
Considera un conjunto de entrenamiento T con n muestras
de datos xi X y sus respectivas clases yi Y , siendo X el
Figura 9.
Calculo de la distancia d entre los hiperplanos H1 y H2 [26]
mapeo de los datos lineales para no lineales pueden ser

muy complejo debido a la gran dimensionalidad del espacio
de caractersticas . De esta forma, para realizar el calculo de
productos escalares (xi ) (xj ) entre los datos en el espacio
de caractersticas son utilizadas las funciones kernels.
Finalmente cabe destacar que los resultados obtenidos por los
diferentes kernels seran distintos segun el problema que se
quiera resolver, en ese sentido es necesario realizar pruebas
empricas utilizando uno u otro kernel para solucionar nuestro
problema, por otro lado tambien cada kernel tiene sus propios
parametros.
V.
P RUEBAS Y RESULTADOS
En esta Seccion detallamos el conjunto de imagenes utilizado para la realizacion de pruebas del modelo de clasificacion,
luego utilizamos el extractor de caractersticas CGLCM y lue-
Cuadro IV.
RESULTANTE PARA LA COMBINACI ON

C ONTRASTE , E NERGI A , E NTROPI A SOBRE LA BASE DE DATOS IRREGULAR
M ATRIZ DE CONFUSI ON
Clase
Cuadro V.
BRL BRS CER CON HON FLO INM MAV NEP NEG NOR PMC PER
BrocadoL
310
12
20
BrocadoS
18
CerSeca
Concha
DxHongo
57
237
292
12
17
13
33
27
78
352
31
Flotador
144
79
Inmaduro
33
14
151
26
MAVinagre
153
NParcial
24
90
Negro
11
124
Normal
44
18
26
12
496
PMCortado
23
20
Pergamino
126
RESULTANTE PARA LA COMBINACI ON

C ONTRASTE , E NERGI A , E NTROPI A SOBRE LA BASE DE DATOS REGULAR .
M ATRIZ DE CONFUSI ON
Clase
BRL
BRS
CER
CON
HON
FLO
INM
MAV
NEP
NEG
NOR
PER
BrocadoL
BrocadoS
108
114
CerSeca
113
Concha
106
DxHongo
120
Flotador
10
104
Inmaduro
12
93
MAVinagre
10
103
NParcial
116
Negro
123
Normal
17
10
85
Pergamino
126
go las caractersticas extradas son ingresadas a una maquina

de vectores soporte con kernel RBF.
El metodo de extraccion de caractersticas utilizado es

el CGLCM.
A. Base de imagenes
Nuestra base de imagenes corresponde a los granos de

cafe segmentados correctamente y clasificados por un especialista de control de calidad de cafe certificado. Para este trabajo
se describen 2 bases de datos:
Utilizamos SVM como metodo de clasificacion, utilizando un kernel RBF con C = 10, = 0.4 y
= 0.00001, el resultado de estos parametros es
producto de varias configuraciones.
El metodo de validacion sera realizado por medio de

una validacion cruzada donde kf old = 10.
Base de imagenes irregular: Posee un total de 3367

imagenes, con un conjunto distinto para cada clase.
La cantidad total para cada clase se puede apreciar en
el Cuadro II
Base de imagenes regular: Posee un total de 1512
imagenes, distribuidas en 12 clases excluyendo la
clase PMCortado, este conjunto tiene 126 imagenes
por cada clase.
Tambien para la validacion de resultados de clasificacion se

describen las siguientes tecnicas:
B. Pruebas utilizando base de datos irregular

En este trabajo se empleo 4 tipos de descriptores, realizando dos tipos de combinaciones de la siguiente manera :
1)
2)
Primera combinacion : Contraste, energia, correlacion.

Segunda combinacion : Contraste, energia, entropia.
Se utilizaron distintos niveles L de cuantizacion en el

CGLCM (L = 16, 32, 48, 64) y un total de 4 orientaciones
= {0 , 45 , 90 , 135 }. Fueron analizados los resultados por
cada combinacion y se obtuvo la mejor tasa de clasificacion

con un 76.42 % para la combinacion (2) , con un nivel de
cuantizacion L = 32, en el Cuadro IV se describe la matriz
de confusion resultante y el cuadro Cuadro VI se presenta los
resultados de precision, recall y F-measure.
Cuadro VI.
R ESULTADOS DE P RECISION , R ECALL Y F-M EASURE PARA

EN EL C UADRO IV
LA MATRIZ DE CONFUSI ON
Clase
Recall
Precision
F-measure
BrocadoL
74.88
68.58
71.59
BrocadoS
76.01
64.40
69.73
CerSeca
90.12
89.02
89.57
Concha
39.80
29.93
34.16
DxHongo
99.50
96.97
98.22
Flotador
59.31
76.19
66.70
Inmaduro
64.59
75.88
69.78
MAVinagre
80.19
81.38
80.78
NParcial
64.75
72.58
68.44
Negro
86.11
87.94
87.02
Normal
81.88
68.89
74.82
PMCortado
26.74
57.14
36.43
Pergamino
98.44
99.21
98.82
ses no balanceadas mencionado anteriormente. Por tal motivo

abordaremos esas clases en la siguiente subseccion.
C. Pruebas utilizando base de datos regular
Para este conjunto de imagenes se repite el modelo de
combinaciones ejecutado con la base de datos irregular y
como resultado se obtiene una tasa de e xito de 86 % para
la combinacion (2) (Contraste, Energa, Entropa) y nivel de
cuantizacion L = 32 y superando los resultados del modelo
anterior. En el Cuadro V se describe la matriz de confusion
resultante y en el Cuadro VII se presenta los resultados
precision, recall y F-measure respectivos.
Cuadro VII.
R ESULTADOS DE P RECISION , R ECALL Y F-M EASURE

EN EL C UADRO V
PARA LA MATRIZ DE CONFUSI ON
El cuadro VI muestra resultados muy buenos para algunas

clases (por ejemplo Pergamino y DxHongo) y resultados poco
alentadores para otras clases (como PMCortado y Concha).
Esto puede deberse a varios factores:
La clase Pergamino tiene un color amarillento caracterstico y una textura bien diferenciada, y la clase
DxHongo tambien presenta en conjunto un color y
textura muy diferente de las otras clases.
Problema de clases no balanceadas, es decir algunas
clases tienen muchos ejemplares, como es el caso de
la clase Normal (607 imagenes) mientras que otras
clases tienen muy pocas, caso de la clase PMCortado
(76 imagenes). Esto puede conllevar a que el clasificador tenga preferencia por la clase que tenga mas
ejemplares y no tome en cuenta sus caractersticas.
Este problema esta bien documentado en la literatura,
para mayor entendimiento y posibles soluciones ver
[27], [28], [29].
En terminos de textura y color la clase PMCortado
es muy parecida a la clase BrocadoS, por ese motivo
existe poca discriminacion entre ambas (ver tabla IV).
Eso tambien explica porque medida Recall de la clase
PMCortado es notoriamente menor que su Precision.
La clase Concha se confunde con varias clases, debido
a que en la base de datos estos ejemplares son muy
parecidos a la clase Normal en terminos de textura
y color, sin embargo ademas algunos de ellos tienen
otros defectos. Un enfoque que podra clasificar de
mejor manera este tipo de defecto sera utilizando
caractersticas de forma.
En conclusion las clases PMCortado y Concha pueden
ser mejor diferenciados por su forma que por la textura
y color.
Existen tambien otras clases con baja taza de clasificacion,

sin embargo esto podra deberse al mismo problema de las cla-
Clase
Precision
Recall
F-measure
BrocadoL
73.47
85.71
79.12
BrocadoS
86.36
90.48
88.37
CerSeca
92.62
89.68
91.13
Concha
78.52
84.13
81.23
DxHongo
94.49
95.24
94.86
Flotador
86.67
82.54
84.55
Inmaduro
72.09
73.81
72.94
MAVinagre
83.74
81.75
82.73
NParcial
99.15
92.06
95.47
Negro
96.85
97.62
97.23
Normal
80.19
67.46
73.28
Pergamino
99.21
100.00
99.60
En el cuadro VII se muestra en general una mejora en la

discriminacion de clases con respecto al cuadro VI, lo cual
ayuda a probar lo importante de tener un banco de imagenes,
con clases con un numero similar de ejemplares para la fase
de entrenamiento.
Las clases que notablemente mejoraron fueron las que
llevan el nombre de Negro y NParcial, con porcentajes de
clasificacion casi perfectas. En el caso de NParcial en el
cuadro VI se confunda mucho con la clase BrocadoS (que
tambien mejoro notablemente), posiblemente debido a que esta
u ltima tenia muchos mas ejemplares (problema de clases no
balanceadas), y una textura, si bien no igual, algo parecida.
De igual forma las clases Concha, BrocadoL y Flotador
mejoraron bastante, sin embargo aun falta mejorar un poco
mas para llegar al porcentaje deseado.
Las clases que han mejorado levemente con respecto
al cuadro anterior fueron: Inmaduro, CerSeca, MAVinagre
y Perganimo. La clase normal bajo ligeramente y lo que
sorprendio un poco fue la cada en la taza de clasificacion
de la clase DxHongo.
VI.
C ONCLUSIONES Y T RABAJOS FUTUROS
Nuestro trabajo describe la aplicacion de un extractor

conocido como matrices de co-ocurrencia en escala de grises
y colores (CGLCM) junto a un clasificador de maquina de
vectores soporte (SVM) como un modelo prometedor para
la clasificacion de defectos fsicos en granos de cafe verde.
Las tasas de clasificacion resultantes nos demuestran que
utilizando un conjunto de imagenes similar para cada clase los
resultados son prometedores sin embargo no se considero la

clase PMCortado para esta prueba, debido a su variacion en
forma mas no en textura.
El proceso de recoleccion de imagenes digitales de granos de
cafe verde estuvo fuertemente influenciado por el prototipo
de adquisicion de imagenes, en consecuencia un diseno especializado de maquina esta siendo desarrollado. Tambien para
este tipo de imagenes se elimino manualmente algunos granos
segmentados en conjunto, debido a la falta de un separador y/o
bandeja especial que mantenga una separacion entre granos.
En este trabajo se logro clasificar un conjunto de defectos
mayor a los estudiados a la literatura en donde solo buscaban
clasificar por color, aqu se realizo un estudio para la evaluacion de granos que poseen caractersticas particulares en
textura y forma.
Los resultados descritos muestran que el modelo presentado
puede ser utilizado en aplicaciones reales de laboratorios de
control de calidad de granos de cafe verde, sin embargo se
propone como trabajo futuro el desarrollo de un modelo de
clasificacion por etapas en donde caractersticas de granos
por forma, luego por color y finalmente por textura, en ese
orden, sean seleccionadas; de este modo creemos que la tasa
de clasificacion superara la resultante en este trabajo.
AGRADECIMIENTOS
Los autores quisieran agradecer a CECOVASA (Central
de Cooperativas Agrarias Cafetaleras de los Valles de Sandia)
quienes brindaron el soporte y conocimiento necesario para el
desarrollo de la investigacion. Este trabajo ha sido parcialmente
subvencionado por los Fondos para la Innovacion, Ciencia
y Tecnologa (FINCyT-Peru) mediante contrato 087-FINCyTFIDECOM-PIPEA-2011 en convenio con la empresa y la
Universidad Nacional de San Agustn.
R EFERENCIAS
[1] Website, Specialty coffe asociation of america, Setiembre 2012.
[Online]. Available: http://www.scaa.org/
[2] L. da Fontoura Costa and R. Cesar, Shape analysis and classification:
theory and practice. CRC, 2001.
[3] H. Cheng, X. Jiang, Y. Sun, and J. Wang, Color image segmentation:
advances and prospects, Pattern recognition, vol. 34, no. 12, pp. 2259
2281, 2001.
[4] P. Hicks, Postharvest processing and quality assurance for speciality/organic coffee products, The first Asian regional round-table on
sustainable, organic and speciality coffee production, processing and
marketing, pp. 2628, 2001.
[5] N. Montes, G. Osorio, F. Prieto, and F. Angulo, La vision artificial
aplicada al proceso de produccion del cafe, Dyna, vol. 133, pp. 41
49, 2001.
[6] S. Means, Segmentacion de frutos de cafe mediante metodos de
crecimiento de regiones, Rev. Fac. Nal. Agr. Medelln vol, vol. 59,
no. 1, 2006.
[7] Z. Sandoval and F. Prieto Ortiz, Caracterizacion de cafe cereza
empleando tecnicas de vision artificial, Rev. Fac. Nal. Agr. Medelln,
pp. 41054127, 2007.
[8] M. Habtamu, Image analysis for ethiopian coffee classification, 2008.
[9] A. Francaa, A. Craigb, and L. Oliveiraa, Separation between high and
low quality coffees by ftir-atr, 2009.
[10] U. Ahmad, K. Seminar, D. Soedibyo, and I. Subrata, The development
of automatic coffee sorting system based on image processing and
artificial neural network, 2010.
[11] F. Faridah, Gea O. F. Parikesit, Coffee bean grade determination based
on image parameter, TELKOMNIKA (Telecommunication, Computing,
Electronics and Control), vol. 9, pp. 547 554, 2011.
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]
N. Otsu, A threshold selection method from gray-level histograms,

Systems, Man and Cybernetics, IEEE Transactions on, vol. 9, no. 1,
pp. 6266, Jan 1979.
S. Suzuki et al., Topological structural analysis of digitized binary
images by border following, Computer Vision, Graphics, and Image
Processing, vol. 30, no. 1, pp. 3246, 1985.
L. Brown, A survey of image registration techniques, Computing
Surveys, vol. 24, pp. 116, 1992.
and R. Hudec, Novel method for color textures features
M. BENCO
extraction based on glcm, Radioengineering, vol. 4, no. 16, pp. 6467,
2007.
R. M. Haralick, K. Shanmugam, and I. Dinstein, Textural features
for image classification, IEEE Transactions on Systems, Man, and
Cybernetics, vol. 3, no. 6, pp. 610621, Nov. 1973.
E. Vimina and K. Poulose Jacob, Image retrieval using colour and
texture features of regions of interest, in Information Retrieval &
Knowledge Management (CAMP), 2012 International Conference on.
IEEE, 2012, pp. 240243.
X. Sun, J. Wang, R. Chen, M. F. She, and L. Kong, Multi-scale local
pattern co-occurrence matrix for textural image classification, in Neural
Networks (IJCNN), The 2012 International Joint Conference on. IEEE,
2012, pp. 17.
M. YousefHussien, K. Garvin, D. Dalecki, E. Saber, and M. Helguera, Three-dimensional volume analysis of vasculature in engineered
tissues, in IS&T/SPIE Electronic Imaging. International Society for
Optics and Photonics, 2013, pp. 86 540C86 540C.
F. Albregtsen et al., Statistical texture measures computed from gray
level coocurrence matrices, Image Processing Laboratory, Department
of Informatics, University of Oslo, 1995.
M. Tuceryan and A. K. Jain, Handbook of pattern recognition &
computer vision, in Handbook of pattern recognition & computer
vision, C. H. Chen, L. F. Pau, and P. S. P. Wang, Eds. River Edge, NJ,
USA: World Scientific Publishing Co., Inc., 1998, ch. Texture analysis,
pp. 235276.
S. Haykin, Neural Networks: A Comprehensive Foundation, 2nd ed.
Upper Saddle River, NJ, USA: Prentice Hall PTR, 1998.
R. Barr, J. Haas, and R. R., Jist: An efficient approach to simulation
using virtual machines, in Software: Practice and Experience, 2003.
A. Ben-Hur, D. Horn, H. Siegelmann, and V. Vapnik, Support vector
clustering, Machine Learning Research, vol. 2, pp. 125137, 2000.
B. Scholkopf and A. J. Smola, Learning with Kernels: Support Vector
Machines, Regularization, Optimization, and Beyond. Cambridge, MA,
USA: MIT Press, 2001.
K. Muller, S. Mika, G. Ratsch, K. Tsuda, and B. Scholkopf, An
introduction to kernel-based learning algorithms, Neural Networks,
IEEE Transactions on, vol. 12, no. 2, pp. 181201, 2001.
F. Provost, Machine learning from imbalanced data sets 101, in
Proceedings of the AAAI2000 workshop on imbalanced data sets, 2000,
pp. 13.
H. He and E. A. Garcia, Learning from imbalanced data, Knowledge
and Data Engineering, IEEE Transactions on, vol. 21, no. 9, pp. 1263
1284, 2009.
A. Ben-Hur and J. Weston, A users guide to support vector machines,
in Data mining techniques for the life sciences. Springer, 2010, pp.
223239.

Clasificacion de Defectos Fisicos de Granos de Cafe Verde

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clasificacion de Defectos Fisicos de Granos de Cafe Verde

Cargado por

Copyright:

Formatos disponibles

2014 XL Latin American Computing Conference (CLEI)

Automatic classification of physical defects in green

Se denomina cafe a la bebida que se obtiene de los frutos y

Seccion de Ingeniera Informatica

de catacion que evaluan su nivel de calidad. El proceso de

C ONCEPTOS Y TRABAJOS PREVIOS

El tratamiento digital de imagenes de cafe ha permitido

2014 XL Latin American Computing Conference (CLEI)

En el mismo ano [4] realiza un estudio para la elaboracion

en color, utilizo la Transformada Rapida de Fourier para la

C ONTROL DE CALIDAD DE CAF E

Es necesario detectar e identificar el tipo de defectos en

2014 XL Latin American Computing Conference (CLEI)

TABLA DE EQUIVALENCIAS DE LOS DEFECTOS PRESENTES

en taza de acuerdo a los valores mostrados en el Cuadro I,

DEL TOTAL DE GRANOS DE CAF E POR TIPO

DE DEFECTO EN LA BASE DE DATOS DE IM AGENES

la incidencia de luz utilizada, tambien tenemos las siguientes

Consideramos que para detectar si un grano posee un

Por cada muestra de cafe se tienen varias imagenes,

La resolucion de la imagen debe brindar la capacidad

En este trabajo se aborda el problema de clasificacion

En la Figura 2 se puede apreciar una imagen de una muestra

A. Recoleccion de base de imagenes

En la Figura 3 se muestra la imagen resultante de aplicar

2014 XL Latin American Computing Conference (CLEI)

TAXONOMI A SOBRE ESPACIOS DE CARACTERI STICAS

EXTRAI DAS EN IM AGENES

Imagen resultante de un proceso de binarizacion con Otsu.

Figura 4. Resultado de aplicar un algoritmo de seguimiento de bordes la

Imagen con segmentos de interes seleccionados.

(por su significado en ingles Gray Level Co-ocurrence Matrix)

2014 XL Latin American Computing Conference (CLEI)

Disimilaridad (DIS): su formula esta dada por:

Las medidas que expresan el nivel de orden y regularidad en

ASM y Energia usan a Pi,j como peso.

Simplemente se toma al mayor valor Pi,j de

Mide el grado de caos

Finalmente se tiene las medidas que utilizan estadstica descriptiva:

Homogeneidad (HOM): su formula esta dada por:

Varianza y Desviacion Estandar:

Contraste (CON): su formula esta dada por:

Figura 6. Cuatro a ngulos = {0 , 45 , 90 , 135 } y 4 distancias D =

3) CGLCM - matriz de co-ocurrencia para imagenes RGB:

El pixel referente y vecino pueden pertenecer a un

La Figura 7 muestra la relacion RR y RG muy similares

Canal G: Pixel Vecino

Figura 7. Relacion R-G: El pixel referente se toma en el canal R, y los

2014 XL Latin American Computing Conference (CLEI)

D. Clasificacion de defectos fsicos

Representacion grafica de una maquina de vectores soporte [22]

espacio de datos y Y = 1, +1. En este caso el conjunto de

Donde es la normal al hiperplano y i son las variables

Calculo de la distancia d entre los hiperplanos H1 y H2 [26]

mapeo de los datos lineales para no lineales pueden ser

2014 XL Latin American Computing Conference (CLEI)

RESULTANTE PARA LA COMBINACI ON

RESULTANTE PARA LA COMBINACI ON

go las caractersticas extradas son ingresadas a una maquina

El metodo de extraccion de caractersticas utilizado es

Nuestra base de imagenes corresponde a los granos de

El metodo de validacion sera realizado por medio de

Base de imagenes irregular: Posee un total de 3367

Tambien para la validacion de resultados de clasificacion se