Está en la página 1de 5

Revista Colombiana de Fsica, Vol. 42, No. 2 de 2010.

Sistema de Identificacin de Lenguaje de Seas usando Redes


Neuronales Artificiales
Identification System of the Sign Language Using Artificial Neural Networks
L. Vargas * a, L. Barba a, L. Mattos a
a
Grupo de ptica e Informtica, Universidad Popular del Cesar. Valledupar, Colombia.

Recibido 15.03.10; Aceptado 25.05.10; Publicado en lnea 17.01.11.

Resumen
Se presenta un sistema ptico de reconocimiento de patrones de imgenes usando redes neuronales para la identificacin
del lenguaje de seas empleado por personas sordomudas y con dificultad en el habla para su comunicacin. El sistema
parte de imgenes almacenadas que muestran la simbologa especfica usada en este tipo de lenguaje y con las cuales se
entrena una red neuronal multicapa con un algoritmo de retropropagacin. Inicialmente se preprocesan las imgenes con
objeto de adaptarlas y mejorar de cierta forma la capacidad de la red para discriminar los patrones, incluyendo dentro de
este proceso de filtrado algoritmos de reduccin y eliminacin de ruido as como de deteccin de bordes. El sistema es
evaluado usando las seas propias del lenguaje que no incluyen movimiento en su representacin y es comparado con otro
mtodo de reconocimiento que usa un correlador digital.

Palabras clave: Lenguaje de Seas, Procesamiento de Imgenes, Red Neuronal.

Abstract
This work presents an image pattern recognition system using neural network for the identification of sign language used
by deaf people to communicate. The system has several stored images that show the specific symbology in this kind of
language, which are employed to teach a multilayer neural network using a backpropagation algorithm. Initially, the
images are processed to adapt them and to improve the network ability for discrimination, including in this process
algorithms for filtering, reducing and eliminating noise as well as edge detection. The system is evaluated using the
signals of sign language that do not include movement in their representation and it is compared with other method of
recognition that uses a digital correlator.

Keywords: Sign Language, Image Processing, Neural Network.


PACS: 51.70.+f, 78.20.-e, 41.50.+h, 42.30.-d, 42.30.Sy.

2010 Revista Colombiana de Fsica. Todos los derechos reservados.

1. Introduccin cenamiento requerida. En la actualidad existen diversos


algoritmos que nos permiten llevar a cabo estos procesos,
El procesamiento digital de imgenes es una de las ac- sin embargo muchos de ellos se diferencian entre s por la
tividades que involucra ms dificultades debido a la gran eficiencia, factibilidad, desempeo y dificultad en el mo-
cantidad de informacin que puede contener una imagen. mento de implementarlos. Los algoritmos de redes neuro-
Por tanto, para la implementacin de estos sistemas se nales constituyen una buena opcin gracias a las mltiples
tienen en cuenta caractersticas importantes como la rapi- ventajas que ofrecen.
dez de procesamiento y la cantidad de elementos de alma-

* vargas.lorena@yahoo.com
L. Vargas, L. Barba: Sistema de Identificacin de Lenguaje de Seas usando Redes Neuronales Artificiales

Por otro lado, los lenguajes de seas son el medio que


las personas sordomudas utilizan para interactuar entre
ellas. Existe una dificultad para comunicarse con el resto
de personas debido a que hay un porcentaje muy pequeo
de la poblacin que conoce las caractersticas de dicho
lenguaje.
El reconocimiento de gestos de mano es importante pa-
ra la comunicacin entre personas que tienen deterioro en
su sistema auditivo, pero puede ser usado tambin para
desarrollar interfaces de comunicacin humano compu-
tador [1]. Fig.1: Modelo de una Neurona Artificial.
Trabajos computacionales han sido desarrollados para
elaborar sistemas artificiales de reconocimiento de patro- En el diseo se us una red neuronal multicapa con un
nes para la simbologa propia del lenguaje [2], [3]; algunos algoritmo de entrenamiento de retropropagacin. La es-
de ellos usan redes neuronales artificiales [4], [5], [6], tructura de la red est conformada por una capa de entrada,
otros se basan en modelos de Markov [7], y tambin se ha una capa intermedia y una capa de salida; esto se puede
empleado induccin recursiva [8]. observar usando una notacin grfica simplificada en la
El propsito de este trabajo es hacer la implementacin fig. 2. En las capas de entrada e intermedia se usaron 5
de un sistema de reconocimiento e interpretacin del len- neuronas con funciones de activacin tangente hiperblica,
guaje de seas empleado por personas con deficiencia en el y en la capa de salida slo se emplea una neurona con
habla para su comunicacin. Aqu se aprovechan las capa- funcin de activacin lineal.
cidades y la eficiencia de los algoritmos de redes neurona- Para el diseo de la arquitectura de la red neuronal se
les y se toman como parmetros de entrada, en una primera evalu cmo afecta la variacin de la cantidad de neuronas
etapa, las imgenes que representan las seas del abeceda- en la capa intermedia al aprendizaje de la red. Adems, se
rio del lenguaje. estudi el grado de generalizacin y memorizacin de las
El resto del artculo es organizado como sigue. En la imgenes del lenguaje a seas a travs de pruebas de ensa-
seccin 2, se explica el diseo de la red utilizada; en la yo y error para distintas cantidades de neuronas en las
seccin 3 se ilustran un poco las caractersticas del lengua- distintas capas de la red neuronal.
je de seas; en las secciones 4 y 5 se muestran los resulta- Se pudo determinar que en 5 neuronas en la capa in-
dos obtenidos del sistema y las conclusiones respectiva- termedia se alcanza un mximo de generalizacin (99%).
mente. Por lo tanto, la red neuronal evaluada con menos neuronas
en la capa intermedia present un incremento en el error y
2. Diseo de la Red Neuronal su porcentaje de generalizacin fue menor. Por otra parte,
superar el nmero de neuronas de la capa intermedia no es
necesario, ya que se estara requiriendo mayor tiempo de
Una neurona artificial de una red neuronal se modela
procesamiento debido a la mayor cantidad de pesos que
bsicamente con la estructura que se muestra en la fig. 1,
debera actualizar para obtener un resultado similar.
en la cual se puede observar un conjunto de elementos que
interactan entre s para generar una salida a partir de un
vector de entrada descrito por la variable x. El conjunto de 2.1 Etapa de Entrenamiento
pesos sinpticos almacenan la informacin de aprendizaje En la etapa de entrenamiento se utiliza un algoritmo de
de la neurona, y la funcin de activacin limita la salida de retropropagacin, el cual se trata de un esquema supervisa-
la neurona a un rango especfico de valores [9]. do que modifica los pesos en direccin opuesta al gradiente
Matemticamente la salida de la neurona puede ser de la funcin de error para minimizar el error cuadrtico
descrita como: medio de todos los patrones con los que se entrena la red.
Este tipo de algoritmo trata de construir modelos que pre-
p
dicen los valores deseados.
y k = ( wki .xi + w0 ) , (1)
i =1

o,
yk = (vk ) , (2)

donde w0, es un valor umbral.

223
Rev.Col.Fs., Vol.42, No.2 de 2010.

Fig.2: Red Neuronal Multicapa Empleada.

Un algoritmo basado en el gradiente toma un vector de ya sea conformado por otros individuos sordos o por cual-
pesos inicial, calcula la funcin de error y su gradiente, y quier persona que conozca la lengua de signos empleada.
luego obtiene un nuevo vector de pesos modificando el Mientras que con el lenguaje oral la comunicacin se esta-
vector de pesos inicial en direccin opuesta al gradiente de blece en un canal vocal-auditivo, el lenguaje de seas lo
la funcin de error, el cual por lo general es cuadrtico. Por hace por un canal gesto-viso-espacial.
consiguiente, la calidad del algoritmo de optimizacin
a)
empleado por la red fue el gradiente descendente; as el
error est disponible en la red retropropagacin. Este se
repite hasta que el error se encuentra en los lmites estable-
cidos [9].
Por tanto, por definicin los pesos se actualizan a travs
de la expresin:
w m+1 =w m + .( m ) , (3)

donde es la rata de aprendizaje de la red, y el gra-


diente de la funcin de error respecto a wm .
En el algoritmo de retropropagacin se usa el error
cuadrtico, el cual se puede calcular a partir de una salida b)
deseada d m como:

(e m ) 2 = ( d m w m . x m ) 2 . (4)

Por tanto, a partir de este error se obtiene el gradiente:

m = 2 .e m ' ( v m ). x m . (5)

Reemplazando en (3), se obtiene:

w m+1 =w m + 2. . ' (v m ).x m . (6)

Este proceso se realiza para todas las neuronas de cada


capa de la red. Fig.3: a) Smbolos del abecedario entrenados (ideales) b)
Smbolos del abecedario reconocidos (capturados con baja
iluminacin).
3. Caractersticas del Lenguaje de Seas

La lengua de seas, o lengua de signos, es una lengua El conjunto de smbolos que conforman el lenguaje in-
natural de expresin y configuracin gesto-espacial y per- cluye seas estticas y seas con movimiento, as como
cepcin visual, gracias a la cual las personas sordas pueden seas para el abecedario. En este trabajo se emplean las
establecer un canal de comunicacin con su entorno social, imgenes que representan las seas del abecedario, y espe-

224
L. Vargas, L. Barba: Sistema de Identificacin de Lenguaje de Seas usando Redes Neuronales Artificiales

cficamente aquellas que no tienen movimiento para su Los resultados se analizan tomando como referencia
representacin, como una primera etapa del proyecto. En varias configuraciones de la red neuronal, es decir se modi-
total son 23 imgenes; la fig. 3 muestra el conjunto de fica el nmero de neuronas de cada capa y el nmero de
imgenes usadas para el entrenamiento de la red neuronal. capas internas. Eventualmente se analiza el aprendizaje de
la red con diferente cantidad de patrones de entrenamiento.
4. Resultados En el entrenamiento se asignaron valores deseados para
las imgenes de entrada, con separaciones entre ellas de
Para evaluar el desempeo de los algoritmos imple- 0.2 en el rango de -2.2 para la imagen que representa el
mentados se utilizaron imgenes fijas de 120 x 150 pixeles smbolo A hasta 2.4 para la imagen que representa el
en escala de grises con cada pixel codificado entre 0 (color smbolo Y.
negro) y 255 (color blanco). La programacin y las simu-
La fig. 5 muestra el resultado utilizando la red con la
laciones realizadas se trabajaron con MATLAB para eva-
configuracin mostrada en la fig. 2. La red se entren con
luar el comportamiento de la red. Como se mencion
las imgenes de los smbolos del abecedario mostradas en
anteriormente los pesos son cargados y almacenados pre- la fig. 3a), que en total fueron 23.
viamente.
El proceso inicial, una vez se ha almacenado en memo-
ria la imagen de entrada, est dado por una etapa de binari-
zacin y de deteccin de bordes. La fig. 4 ilustra el resulta-
do de aplicar estos algoritmos. Para la extraccin de bordes
se probaron varios algoritmos y el que mejor resultados
mostr fue el algoritmo de segunda derivada, que utiliza el
operador Laplaciano definido en [11] como:
G ( x, y ) = 4 I ( x, y) I ( x 1, y ) I ( x + 1, y ) I ( x, y 1) I ( x, y + 1) (7)
Debido a que la entrada a la red neuronal debe ser un
vector, cada imagen de prueba debe ser transformada para
su posterior anlisis. Esto se hace tomando cada fila de la
imagen y ordenndola una seguida de la otra para formar
el vector de prueba de entrada a la red.

Fig. 5: Resultado de la Simulacin.

Se puede apreciar que existe una relacin muy estrecha


entre la seal de referencia (lnea azul) y los resultados
obtenidos (lnea naranja) cuando se trat de identificar los
patrones entrenados previamente. Esta lnea de referencia
presenta los valores deseados con que se entren la red
para la imagen de entrada.
La red pudo identificar 22 de los 23 patrones cuando se
utiliz el segundo conjunto de imgenes mostrado en la
fig. 3b), con un desempeo promedio de 99% (ver lnea
verde, fig. 5). Tal como se indica en la grfica hubo confu-
sin para la red con el smbolo S, el cual lo identific
como T.
Fig. 4: a) Imagen original, b) Imagen en escala de grises, c)
Bordes de la imagen, d) Imagen con bajo contraste, e) Imagen de Anlogamente se emplea un correlador digital de trans-
bajo contraste a escala de grises, f) Bordes de la imagen de bajo formada conjunta y el porcentaje de desempeo obtenido
contraste. en la identificacin del segundo conjunto de imgenes fue
muy bajo. Esto se debe principalmente a la dificultad que
tiene el correlador para discriminar patrones que tienen
Teniendo en cuenta que las imgenes de entrada tienen
cierto grado de rotacin y traslacin con respecto a la posi-
un tamao de 120 x 150 pixeles, se obtienen vectores de
cin original. El tipo de correlador usado se describe en
entrada de 18000 elementos, asimismo cada neurona de la
[11].
capa de entrada debe tener 18000 pesos ms un umbral.

225
Rev.Col.Fs., Vol.42, No.2 de 2010.

Referencias

[1] L.Rabiner and B.Juang. Fundamentals of Speech Rec-


ognition. TsingHua University Publishing Company.
[2] Garcia, I., Gmez, J.,Casanova, E., Hand Gesture
Recognition for deaf people Intergacing, 18th Inter-
national Conference on Pattern Recognition, Procced-
ings, IEEE Computer Society, vol.2, pp. 100-104,
08/2006.
[3] Roncacio, C., Gmez, J., Casanova, J., Hand Gesture
Fig. 6: Correlacin entre la imagen del smbolo A en las fig.3a) Translation into sound using computer vision and
y 3b). speech synthesis, 23rd ISPE International Conference
on CAD/CAM Robotics and Factories of the Future.
Colombia, pp 838-844, 2007.
En la fig. 6 se muestra el resultado de aplicar la corre-
lacin para comparar la imagen del smbolo A de la fig. [4] S.S.Fels and G.Hinton, GloveTalk: A neural network
3a) (conjunto de patrones ideales de entrenamiento) y la interface between a DataDlove and a speech synthe-
imagen que representa el mismo smbolo del segundo sizer, IEEE Transactions on Neural Networks,
conjunto de patrones de prueba de la fig. 3b). 4(1993): 2-8.
[5] S.Sidney Fels, Glove TalkII: Mapping hand gestures
5. Conclusiones y Trabajos Futuros to speech using neural networks-An approach to build-
ing adaptive interfaces, PhD thesis, Computer Sci-
Las redes neuronales constituyen una de las herramien- ence Department, University of Toronto, 1994.
tas ms poderosas en los sistemas de identificacin y reco- [6] Kouichi Murakami and Hitomi Taguchi, Gesture rec-
nocimiento de patrones. El sistema presenta un desempeo ognition using recurrent neural networks, In CHI91
bastante bueno para identificar las imgenes de las seas Conference Proceedings, 1991, pages 237-242.
sin movimiento del abecedario del lenguaje.
[7] Kirsti Grobel and Marcell Assan,_Isolated sign lan-
Se muestra la primera etapa de un sistema que puede guage recognition using hidden Markov models, In
ser de mucha utilidad para que las personas sordomudas o Proceedings of the International Conference of Sys-
con discapacidad en el habla puedan comunicarse con el tem, Man and Cybernetics,1996,pages 162-167.
resto que no conocen o no manejan el lenguaje.
[8] Meide Zhao and Quek FKH and Xindong Wu,
Como trabajo futuro se planea desarrollar un algoritmo _RIEVL: recursive induction learning in hand gesture
que detecte automticamente la regin de inters en la recognition__IEEE Transactions on Pattern Analysis
imagen antes de iniciar el proceso de entrenamiento y & Machine Intelligence, Vol.20, No.11, Nov. 1998,
recuperacin de la red. Adicionalmente, incluir en el sis- pp.1174-85.
tema un proceso de aprendizaje para las seas que incluyen
movimiento, as como probar el sistema actual con imge- [9] Theodoridis S., Koutroumbas K. Pattern Recognition,
nes tomadas en distintas posiciones dado que cada vez que San Diego: USA, ELSEVIER 2003, 710 p. ISBN:0-
se captura una muestra con una cmara, esta nunca va a 12-685875-6.
quedar en la misma posicin anterior, por consiguiente [10] Pajares Gonzalo, de La Cruz Jose, Visin por compu-
siempre se van a tener imgenes relativamente diferentes. tador Imgenes digitales y aplicaciones, Alfaomega,
pages 47-56, 2004 (in spanish).
[11] Goodman, J.W., Introduction to Fourier optics,
McGraw Hill, New York, 1968.

226

También podría gustarte