Está en la página 1de 4

Sistema Prototipo para Reconocimiento de

Letras Moviles del Lenguaje de Senas


Ecuatoriano
Alex Godoy

Pedro Tenezaca

Escuela de Ingeniera en Electronica y Telecomunicaciones


Universidad de Cuenca
Cuenca, Ecuador
alex.godoym@ucuenca.ec

Escuela de Informatica
Universida de Cuenca
Cuenca, Ecuador
pedro.tenezaca@ucuenca.ec

I.

O BJETIVOS

Reforzar los conocimientos adquiridos en la


materia de Redes Neuronales mediante una
aplicacion practica.
Capturar, procesar y clasificar imagenes desde
una camara IP.
II.

DEL PROYECTO
D ESCRIPCI ON

El prototipo final de este proyecto busca


procesar y clasificar las letras moviles del lenguaje
de senas ecuatoriano J,Z; dado que la J tienen en
su posicion inicial bastante similitud con la letra I,
entonces se decidio incluirla en las letras objetivo
de este proyecto. Las senas son capturadas con
una camara de un dispositivo movil para obtener
las imagenes que seran binarizadas y procesadas
para ingresar como entradas a la red entrenada.
La aplicacion fue creada en matlab y se comunica
con la camara del dispositivo movil mediante la
aplicacion IP Webcam.
La Fig.2 muestra un esquema general de los
pasos a seguir para la clasificacion de una senal
utilizado en este proyecto.

Cada paso se define como:


Las imagenes que se obtienen de la camara
del dispositivo se leen en matlab, para esto
se especifica la direccion IP y el puerto de
conexion del dispositivo movil.
Las imagenes se binarizan y se obtienen las
propiedades de estas imagenes.
Se recorta la seccion de interes, y se visualiza
la imagen original junto con la seccion de
interes que se obtiene.
La seccion de interes es la entrada para la
red neuronal (previamente entrenada) y obtenemos una salida en tiempo real de la red.

III.
III-A.

Hardware

Para el proyecto se usa un dispositivo movil


Android con camara y la app IP Webcam instalada
utilizado en un proyecto anterior [1]. Esto solo
se usa para adquirir las imagenes de la mano en
tiempo real, pero se puede usar cualquier camara
web o IP para lograr el mismo objetivo.

III-B.

Figura 1. Esquema para la calsificacion de una senal usado en


este proyecto.

I MPLEMENTACI ON

Software

El software consiste en dos app la IP Webcam en


el dispositivo movil y Matlab para el procesamiento
y clasificacion de la imagen. En Matlab no se
utilizaron paquetes adicionales a los integrados,
y se desarrollo una interfaz grafica como la que
observamos en la Fig.2.// En la interfaz se ingresa
la direccion IP y puerto utilizado por la aplicacion
en el dispositivo movil, y damos click en Iniciar
Reconocimiento para comenzar la transmision del
video y clasificacion.

Figura 5. Arquitectura de red neuronal multicapa con dos capas


ocultas creado con Neural Network Toolbox de Matlab.

Figura 2. Interfaz de la aplicacion de Matlab.

Cada 15 frames la aplicacion captura la imagen,


clasifica y nos muestra el resultado, tenemos la
opcion de capturar la imagen en cualquier instante
para observar el patron de entrada a la red neuronal
de clasificacion con e boton Capturar Imagen, ver
Fig.3.

La red utilizada cuenta con una capa de


entrada de 2880 neuronas, dos capas ocultas
de 100 neuronas cada una y una capa de
salida de 7 neuronas. La eleccion de las capas
ocultas y el numero de neuronas en cada una
fue empricamente despues de realizar varios
entrenamientos y clasificaciones con diferentes
cantidades de neuronas y caps. La capa de entrada
corresponde a las columnas tomadas de una en una,
y colocadas en forma de vector de las imagenes
de tamano 48x64 pxeles, mientras que las capa
de salida corresponde a cada una de las posibles
posiciones de la mano, la letra J la dividimos en
3 posiciones (J1, J2, J3), mientras que la Z en
4 posiciones (Z1, Z2, Z3, Z4), la I es la misma
posicion que J1.

Figura 3. Interfaz de la aplicacion de Matlab en uso.

III-C.

Arquitectura de red.

El clasificador de las imagenes consiste en una


red neuronal multicapa con una arquitectura como
la Fig.4 generado con Neural Network Toolbox
(NNT) incluido en Matlab.

III-D.

Figura 4. Arquitectura de red neuronal multicapa con dos capas


ocultas.

Para el entrenamiento se utilizo una base de 20


imagenes de cada posicion de la mano tomadas
durante el transcurso de la elaboracion del proyecto,
esto se hizo porque al momento de obtener la
imagen es posible recortar solo la mano. El error
en el entrenamiento que se obtiene es relativamente
bajo, por lo que nos ofrece buenos resultados en
situaciones controladas como se pudo obtener en
[Auquilla and Palacio][2].

Entrenamiento de la red

Figura 8. Codigo para identificar la mano.

En las Fig.9 y Fig.10 muestran la salida de


Matlab, en la imagen original, y otra en blanco y
negro.

Figura 6. Datos que se obtienen despues de la generacion de


la red con NNT de Matlab.

Figura 9. Ejemplo salida con imagen original.

Figura 7. Grafica de la evolucion de los errores de evaluacion


y entrenamiento con cada e poca.

IV.

C LASIFICACI ON

Para la clasificacion de la posicion de la mano


se usa la imagen recortada de la mano en cada
captura de pantalla de la camara del dispositvo
movil. Para recortar la mano se usa una funcion
incluida en matlab (greytresh) que usa el algortimo
de Otsu para identificar una seccion de pxeles que
contienen el valor RGB que corresponden al rango
de colores de la mano humana, su codigo en matlab
se encuentra en la Fig. 8.

Figura 10. Ejemplo de imagen en blanco y negro.

La Fig.11 muestra la imagen de la mano recortada que servira de entrada para la red neuronal de
clasificacion.

Otro metodo en estudio es el de redes neuronales


convolucionales para el reconocimiento y procesamiento de imagenes, este metodo necesita bastantes
imagenes para crear el conjunto de entrenamiento
y recien se esta creando la librera en matlab por
lo que sera interesante ver los resultados de este
metodo.
AGRADECMIENTOS
R EFERENCIAS
R EFERENCIAS
[1] D. Auquilla, D. Merchan, J. Pacheco, and D. Sinchi, Sistema prototipo de reconocimiento de lenguaje de senas,
Escuela de Electronica y Telecomunicaciones, Universidad
de Cuenca, Tech. Rep., 2015.
[2] D. Auquilla and K. Palacio, Sistema prototipo de reconocimiento de lenguaje de senas ecuatoriano, Escuela de
Electronica y Telecomunicaciones, Universidad de Cuenca,
Tech. Rep., 2015.

Figura 11. Imagen de mano recortada.

V.

R ESULTADOS Y OBSERVACIONES

El sistema es completamente automatico y trabaja en tiempo real al recibir video de un celular


a traves de la aplicacion IPWebcam. La ventaja
del sistema se basa en la facilidad de uso. El
usuario no necesita vestir un guante, ni tampoco
necesita un fondo uniforme, ya que clasifica y
reconoce la mano en base al rango de colores de
la piel, debemos en cuenta el brillo que reciben
las imagenes. En el estudio las imagenes estaticas
son reconocidas correctamente, sin embargo, aun se
necesita mejorar el procesamiento del conjunto de
patrones que forman una letra movil, debido al error
que tiene la red entrenada para letras similiares.//
El enfoque utilizado para el reconocimiento de las
imagenes fue de tomar una imagen cada 15 frames
(2 imagenes por segundo) para identificar la letra
en ese momento en todos las letras objetivo del proyecto. La letra i se reconoce en el 90 %, pero en las
otras posiciones de las letras (J2,J3,Z1,Z2,Z3,Z4) se
confunden bastante por su similitud en una imagen
a blanco y negro. Sobre todo las posiciones J2 con
Z3 y J3 con Z4.
VI.

C ONCLUSIONES

El enfoque utilizado no entrega los resultados


esperados, sobre todo por el error en los tiempos
de captura de la camara y procesamiento de la
imagen debido a que no todas las personas realizan las senas a a misma velocidad. En futuros
trabajos se piensa en un enfoque de extraccion de
caractersticas de la posicion del dedo en relacion al
centro de la mano, lo que ofrece mejores resultados.

También podría gustarte