Traductor en Tiempo Real

Fundamentos de investigacin.
Instituto Tecnolgico Superior de la Sierra Negra de Ajalpan.
INGENIERIA EN SISTEMAS COMPUTACIONALES.
MATERIA: FUNDAMENTOS DE INVESTIGACION.
ING. MARCO ANTONIO ISIDRO ABRIL.
INVESTIGACIN: TRADUCTOR EN TIEMPO REAL. ALUMNO: DONATO DE JESS MENDOZA ORDAZ.
SEMESTRE Y GRUPO: 1 A
Donato de Jess Mendoza Ordaz
ITSSNA
INDICE
Agradecimientos..................................................................................5 El porque del desarrollo del sotware..................................................6 Prologo7 Capitulo 1
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan........
Lengua de seas................................................................................8 Origen de las lenguas de seas........................................................8 Clasificacin de las lenguas de seas.............................................9 Malentendidos y mitos sobre las lenguas de seas.......................10 Lingstica..........................................................................................11 Variacin dialectal..............................................................................12 Fonologa de las lenguas de seas..................................................13 Sintaxis...............................................................................................14 Capitulo 2
Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana.................
Reconocimiento ptico de caracteres....15 Binarizacin..15 Fragmentacin o segmentacin de la imagen..15 Adelgazamiento de las componentes.16 Comparacin con patrones................................................................16 Aplicaciones.16
ITSSNA
Capitulo 3
Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito...........................
Reconocimiento de texto manuscrito...17 Reconocimiento de matrculas...17 Indexacin en bases de datos...17 Reconocimiento de datos estructurados con ROC Zonal.....18 Conversor texto-voz..18 Requisitos de los conversores CTV/TTS..18 Fases de la conversin texto-voz...18 Capitulo 4
La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware.
Sntesis de habla.....19 Tecnologas de sntesis.....19 Sntesis concatenativa...19 Sntesis por seleccin de unidades....20 Sntesis de difonos.20 Sntesis especfica para un dominio...21 Sntesis de formantes21 Desafos de la normalizacin de texto...22 Desafos de los sistemas Texto a fonema....22 Problemas de la voz sinttica..23
ITSSNA
Capitulo 5
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen.........................
Lenguaje de seas...........................................................................24 Visin artificial..................................................................................24 Software para visin artificial...........................................................25 Descripcin del traductor de seales ............................................25 de manos mediante visin artificial.................................................25 Deteccin del objeto de inters.......................................................25 Paso a escala de grises y mejoramiento de contraste.................25 Proceso de Binarizacin...................................................................26
ITSSNA
AGRADECIMIENTOS
En este proyecto agradesco principalmente a mis padres y mi familia por el gran apoyo que me han brindado a lo largo de estos aos para poder lograr todo esto que he podido alcanzar. Agradezco tanto su apoyo economico pero principalmente el apoyo moral que me brindaron y siguen brindandome para seguir adelante. A mis compaeros y maestros les doy las gracias por su apoyo y por su paciencia a lo largo de estos aos ya que sin ellos y su apoyo no habia podido alcanzar esta gran meta.
ITSSNA
EL PORQUE DEL DESARROLLO DE ESTE SOFTWARE
Desde aos antiguos la comunicacion ha sido parte fundamental en la vida de los seres humanos. La comunicacion ha sido la base fundamental en nuestro desarrollo ya que gracias a ella hemos alcanzado lo que hasta el momento hemos podido conseguir. Partiendo de este principio y analizando las distintas problematicas de la comunicacion observe el problema que existe entre las personas que carecen del habla y del sentido auditivo, asi como la dificultad que hay para comunicarse con ellos. Tomando este problema surgio la idea de desarrollar un software con el cual podamos, mediante una camara, detectar las diferentes seales que las personas sordomudas ocupan para comunicarse y codificarlas para asi traducirlas a texto y voz. El objetivo de este proyecto es contribuir con el desarrollo tanto moral como en lo personal de estas personas ya que se pretende reducir la dificultad de comunicacion en el problema ya antes mencionado.
ITSSNA
Prologo.
El objetivo del presente proyecto es desarrollar un sistema que reconozca las seales de manos usadas por personas con discapacidad y traducirlas a texto y audio. El reconocimiento de las seas se realiza mediante tcnicas de visin artificial, usando una cmara web y el software. Este proyecto consiste en un sistema que traduce de lenguaje de seas a lenguaje de texto usando visin artificial, para permitir que personas con discapacidad auditiva y/o visual que manejan el lenguaje de seas puedan comunicarse con el resto de personas que no manejan este lenguaje. Para personas que no conocen este lenguaje el proyecto ofrece la opcin de un entrenador, para que aprendan cada uno de los smbolos de este lenguaje y adquieran la habilidad necesaria para utilizar la aplicacin. El sistema adquiere la imagen que luego pasa por un procesamiento digital de imgenes y por ltimo se realiza la traduccin. En el procesamiento digital de imgenes se aplicaron algunos filtros y operaciones morfolgicas para resaltar las caractersticas de la imagen y eliminar informacin innecesaria como ruido. Tambin se eliminaron objetos extraos en la imagen mediante un recortado del rea de inters. Se elaboraron bases de datos, para llevar a cabo la comparacin con la imagen recortada y de esta manera asignar la clase correspondiente a cada imagen. Con la clase asignada se forma el texto que se muestra en forma escrita en la pantalla o a su vez se puede enviar a un documento de Word, adems es posible reproducir en audio el texto formado con la ayuda de la herramienta texto a voz de distintos programas.
ITSSNA
Marco terico. Lengua de seas
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan. La lengua de seas, o lengua de signos, es una lengua natural de expresin y configuracin gesto-espacial y percepcin visual (o incluso tctil por ciertas personas con sordoceguera), gracias a la cual las personas sordas pueden establecer un canal de comunicacin con su entorno social, ya sea conformado por otros individuos sordos o por cualquier persona que conozca la lengua de seas empleada. Mientras que con el lenguaje oral la comunicacin se establece en un canal vocal-auditivo, el lenguaje de seas lo hace por un canal gesto-visoespacial. Una curiosidad de esta lengua es que a cada persona se le asigna un signo propio y caracterstico para no tener que deletrear su nombre en signos.
Origen de las lenguas de seas

Aun cuando hoy en da las lenguas de seas se utilizan casi exclusivamente entre personas con sordera, su origen es tan antiguo como el de las lenguas orales o incluso ms, en la historia de la Humanidad, y tambin han sido y siguen siendo empleadas por comunidades de oyentes. De hecho, los amerindios de la regin de las Grandes Llanuras de Amrica Norte, usaban una lengua de seas para hacerse entender entre etnias que hablaban lenguas muy diferentes con fonologas extremadamente diversas. El sistema estuvo en uso hasta mucho despus de la conquista europea. Otro caso, tambin amerindio, se dio en la isla de Manhattan, donde viva una tribu nica en la que un gran nmero de sus integrantes eran sordos, debido a la herencia de desarrollo de un gen dominante, y que se comunicaban con una lengua gestual. Un caso similar se desarroll en la isla de Martha's Vineyard al sur del estado de Massachusetts, donde debido al gran nmero de sordos se emple una lengua de seas que era de uso general tambin entre oyentes, hasta principios del siglo XX. Pese a esto, no existen referencias documentales sobre estas lenguas antes del siglo XVII. Los datos que se poseen tratan, sobre todo, de sistemas y mtodos educativos para personas sordas. En el siglo XVI Jernimo Cardano, mdico de Padua, en la Italia nortea, proclam que las personas sordas podran hacerse entender por combinaciones escritas de smbolos asocindolos con las cosas a que ellos se referan. En el ao 1620 Juan de Pablo Bonet publica su Reduccin de las letras y Arte para ensear hablar los Mudos, considerado como el primer tratado moderno de Fontica y Logopedia, en el que se propona un mtodo de enseanza oral de los sordos mediante el uso de seas alfabticas configuradas unimanualmente, divulgando as en toda Europa, y despus en todo el mundo, el alfabeto manual, til para mejorar la comunicacin de los sordos y mudos. En 1817 Gallaudet fund la primera escuela de la nacin para las personas sordas, en Hartford, Connecticut, y Clerc se convirti en el
ITSSNA
primer maestro sordo de lengua de seas de los Estados Unidos. Pronto las escuelas para las personas sordas empezaron a aparecer en varios estados. Entre ellos la Escuela de Nueva York que abri sus puertas en 1818. En 1820 otra escuela se abri en Pennsylvania, y un total de veintids escuelas se haban establecido a lo largo de los Estados Unidos por el ao 1863. En esta obra (entre las pginas 130 y 131) aparece un abecedario ilustrado mediante grabados calcogrficos de los signos de las manos que representan las letras del alfabeto latino. Del tratado sobre Reduccin de las letras y Arte para ensear a hablar los Mudos se hicieron traducciones a las principales lenguas de cultura. Sobre la base del alfabeto divulgado por Bonet, Charles-Michel de l'pe publica el siglo XVIII su alfabeto, que bsicamente es el que ha llegado hasta la actualidad, siendo conocido internacionalmente como alfabeto manual espaol.
Clasificacin de las lenguas de seas

Las lenguas de seas modernas, al igual que las lenguas orales, estn sujetas al proceso universal de cambio lingstico que hace que evolucionen con el tiempo y eventualmente una misma lengua puede evolucionar en lugares diferentes hacia variedades diferentes. De hecho, muchas de las lenguas modernas de seas pueden ser clasificadas en familias:
Lenguas originadas en la antigua lengua de seas de Kent, usada durante el siglo XVII, que dio lugar a la lengua de seas usada en Martha's Vineyard (Massachusetts) y que influy de manera importante en la lengua de seas americana (ASL). Lenguas originadas en la antigua lengua de seas francesa. Estas lenguas se remontan a las formas estandarizadas de lenguas de seas usadas en Espaa, Italia y Francia desde el siglo XVIII en la educacin de los sordos. En concreto, la antigua lengua de seas francesa se desarroll en el rea de Pars, gracias a los esfuerzos del abad Charles Michel de l'pe en su escuela de sordos. En tiempos modernos esta lengua ha dado lugar a otras varias, como la lengua de seas americana (ASL), la lengua de seas mexicana (LSM), la moderna lengua de seas francesa (LSF), la lengua de seas italiana (LIS), la lengua de seas de Irlanda (IRSL) y las lenguas de seas ibricas (que muestran similitudes con la antigua lengua de seas francesa, pues no en vano los educadores espaoles de sordos del siglo XIX se formaron en el Instituto Nacional de Sordomudos de Pars), derivndose a dos o tres lenguas diferentes con cierta inteligibilidad mutua, la lengua de seas espaola (LSE), la lengua de seas catalana (LSC) y la lengua de seas valenciana(LSCV). Lenguas originadas en la lengua de seas britnica (BSL), que se diversific durante el siglo XIX dando lugar a la lengua de seas australiana (Auslan), la lengua de seas de Nueva Zelanda (NZSL) y la lengua de seas de Irlanda del Norte (NIRSL). Lenguas originadas en la lengua de seas alemana (DGS), que se considera relacionada con la lengua de seas de la Suiza alemana (DSGS),
ITSSNA
la lengua de seas austraca (GS) y probablemente la lengua de seas israel (ISL). Concepcin metodolgica para la preparacin en la LSC como segunda lengua En la actualidad se establecen intercambios cientfico-tcnicos y culturales entre distintas comunidades lingsticas, crece cada vez ms la necesidad de aprender una segunda lengua; y en particular se redimensiona su valor al tratarse de un idioma viso gestual; la LSC que utilizan las personas con discapacidad auditiva constituye su primera lengua y se considera su lengua natural, la que aprenden en su entorno lingstico sin restricciones. Es necesario que todas las personas involucradas en su educacin la dominen para poder interactuar con ellas y de este modo contribuir a la formacin de su personalidad. La enseanza de las segundas lenguas, en su recorrido por el siglo XX, ha ido incrementando su inters por el aprendizaje de la comunicacin oral hasta ocupar un lugar preponderante en la actualidad. Sin embargo, ha surgido con gran fuerza en los ltimos 30 aos el estudio de otras lenguas de carcter minoritario, donde se emplea el canal de comunicacin viso gestual, que exige de una didctica particular. En ambas su valor formativo est dado por sus potencialidades educativas, instructivas y desarrolladoras.
Malentendidos y mitos sobre las lenguas de seas

El escaso conocimiento de este tipo de lenguas ha conducido a que comnmente se asuman ciertas ideas preconcebidas sobre ellas, que se han demostrado como errneas:
Las lenguas de seas no son autnticamente lenguas, sino cdigos mnemotcnicos para designar objetos y conceptos. Falso. Las lenguas de seas son lenguas naturales que tienen estructuras gramaticales perfectamente definidas. De hecho, existen personas, incluso oyentes, cuya lengua materna es una lengua de seas. El proceso de adquisicin lingstica estudiado en nios que tienen por lengua materna una lengua de seas sigue etapas totalmente anlogas a la adquisicin de las lenguas orales (balbuceo, etapa de una palabra). Adems, los procesos de analoga morfolgica, la elipsis, los cambios "fonolgicos" o la asimilacin tambin se dan de idntica forma en las lenguas de seas. La lengua de seas espaola, la lengua de seas francesa o la lengua de seas britnica, son maneras de codificar el espaol, el francs o el ingls mediante signos gestuales. Falso. A veces la lengua de seas de ciertos pases y la lengua oral ms usada en esos mismos pases difieren gramaticalmente en muy diversos parmetros, como la posicin del ncleo sintctico o el orden sintctico de los constituyentes. Algunas versiones de este malentendido, es que las lenguas de seas tienen alguna clase de dependencia de las lenguas orales, por ejemplo, que utilizan bsicamente un deletreo de las palabras de una lengua oral mediante smbolos gestuales.
ITSSNA
10
Todas las lenguas de seas son parecidas. Falso. Las lenguas de seas difieren entre s, tanto en el lxico (conjunto de seas o signos gestuales) como en la gramtica, tanto como difieren entre s las lenguas orales. En las lenguas de seas se utiliza el alfabeto manual o dactilolgico, generalmente para los nombres propios o tcnicos, si bien es slo una ms de las numerosas herramientas que poseen. Antiguamente, el uso de la dactilologa en las lenguas de seas era una evidencia presupuesta de que slo eran una pobre o simplificada versin de las lenguas orales, lo que tambin es falso. En general, las lenguas de seas son independientes de las lenguas orales y siguen su propia lnea de desarrollo. Por ltimo, un rea que tiene ms de una lengua oral puede tener una misma lengua de seas, pese a que haya diferentes lenguas orales. Este es el caso de Canad, los EE.UU., y Mxico, donde la Lengua de Seas Americana convive con las lenguas orales inglesa, espaola, y francesa. Inversamente de igual modo, en una zona donde existe lengua oral que puede servir de lengua franca, pueden convivir varias lenguas de seas, como es el caso de Espaa, donde conviven la Lengua de seas espaola (LSE), la lengua de signes catalana(LSC), y la Lengua de seas valenciana (LSCV).
Lingstica
El estudio cientfico de las lenguas de seas, ha revelado que poseen todas las propiedades y complejidades propias de cualquier lengua natural oral. A pesar de la generalizada y errnea concepcin de que son "lenguas artificiales". En concreto se han encontrado los siguientes hechos relativos a las lenguas de seas que proporcionan los lingsticos necesarios para clasificarlas como lenguas naturales:
Poseen una fonologa abstracta, llamada en este caso querologa, analizable en trminos formales en rasgos de posicin, orientacin, configuracin, en un modo anlogo a como son analizados los fonemas de las lenguas. Adems la realizacin de cada signo est sujeto al mismo tipo de variedad que los sonidos de las lenguas orales (variacin dialectal, asimilacin, cambio lingstico). Poseen una sintaxis que obedece los mismos principios generales que las otras lenguas naturales, y tienen algunos mecanismos de formacin de palabra productivos que permiten afirmar la existencia de procesos morfolgicos. La adquisicin de una lengua de seas por parte de bebs (sordos u oyentes) sigue un proceso paralelo a la adquisicin de una lengua oral por parte de un nio oyente. Existen comunidades estables de hablantes, cuya lengua presenta tanto variaciones dialectales, modismos propios de cada comunidad, y est sujeto al mismo tipo de cambio lingstico universalmente detectado en todas las lenguas naturales (las lenguas artificiales carecen de estas caractersticas). Las lenguas de seas, al igual que las orales, se organizan por unidades elementales sin significado propio (lexemas).
ITSSNA
11
Histricamente, el primero en analizar las lenguas de seas en trminos lingsticos fue el jesuita espaol, padre de la Lingstica Comparada, Abate Lorenzo Hervs y Panduro (1735-1809). En su obra, editada en Madrid en 1795, Escuela Espaola de Sordomudos o Arte para ensearles a escribir y hablar el idioma espaol, es decir, dos siglos antes de que William C. Stokoe hiciera lo propio con la Lengua de Seas Estadounidense (ASL). Las lenguas de seas no son simple mmica, ni tampoco una reproduccin visual de alguna versin simplificada de ninguna lengua oral. Tienen gramtica compleja, creativa y productiva como la de cualquier otra lengua natural. Una prueba ms de la diferencia entre las lenguas orales y las lenguas de seas es el hecho de que estas ltimas explotan nicamente los disparos del medio visual. La lengua oral es auditiva y, consecuentemente, lineal. Slo se puede emitir o recibir un sonido a la vez, mientras que la lengua de seas es visual y, por lo tanto, se puede referir un espacio entero al mismo tiempo. En consecuencia, la informacin puede fluir mediante varios "canales" y expresarse simultneamente. Otra caracterstica que ha significado una diferenciacin entre la lengua de seas y las lenguas orales es la dificultad de ser escrita, pues se trata de una lengua tradicionalmente grafa, ya que, normalmente, las lenguas de seas no se han escrito. Entre otros motivos ha contribuido, el que la mayora de las personas sordas leen y escriben en la lengua oral de su pas. Pese a esto, ha habido propuestas para desarrollar sistemas de transcripcin de las lenguas de seas, provenientes sobre todo del mundo acadmico, pero la mayora de ellas tiene deficiencias para captar todas las caractersticas comunicativas que se utilizan en las lenguas de seas (especialmente los elementos no-manuales y posicionales). Sin embargo, existen varios sistemas de representacin de las seas mediante signos textuales (glosas, signo-escritura alfabtica.) O bien, icnicos (HamNoSys, Sign Writing). Este ltimo sistema -creado por Valerie Sutton alrededor de 1974- permite la escritura de todas las lenguas de seas del mundo de una forma bastante sencilla de aprender, adems de ser, quizs, el ms completo y flexible, pues ya se utiliza en varios pases e idiomas con buenos resultados. Por tal motivo permite describir de forma bastante precisa -aunque no perfecta-, los elementos no manuales y posicionales, dotando a las personas sordas de la posibilidad de acceder a diccionarios, libros, diarios o revistas con sus contenidos expresados en la correspondiente lengua de seas, con lo cual stas reciben la posibilidad de ser, tambin, lenguas escritas.
Variacin dialectal
De igual manera a como sucede con el lenguaje oral, no hay necesariamente una lengua de seas para cada pas, y an menos es una lengua universal, sino que hay variadas lenguas de seas diferentes en el mundo, ubicadas regionalmente. Existen al menos unas cincuenta lenguas prcticamente ininteligibles entre s, y numerosos dialectos, algunos de los cuales coexisten dentro de una misma ciudad.
ITSSNA
12
Adems, existe un Sistema de Seas Internacional (SSI), que se puede considerar como un sistema de comunicacin formado por seas propias, consensuadas, procedentes de las diferentes lenguas. Actualmente, est en discusin si se trata de una lengua o un piyin (pidgin), trmino con el que se le ha vinculado en los ltimos aos. En rigor, esto no es as, sino que, coincidiendo con un cambio en la direccin de la Federacin Mundial de Sordos (WFD-FMS), los nuevos dirigentes pretendieron sustituir al anterior Gestuno. Sistemas ambos que son equivalentes al esperanto en la lengua oral, discutido cuando nos referimos tanto al Sistema de Seas Internacional, como al caso del Gestuno, lenguas que, como el Esperanto, son de creacin artificial o convencional y de uso minoritario y desconocido por la mayora de las personas sordas. El SSI es utilizado por personas que no comparten una lengua de seas comn y que necesitan comunicarse sin la intermediacin de un intrprete (aunque en conferencias internacionales s es comn el uso de estos intrpretes).
"Fonologa" de las lenguas de seas

El conjunto de unidades simblicas mnimas o fonemas de la mayora de lenguas de seas puede analizarse en trminos de siete parmetros formativos bsicos: 1. Configuracin. Forma que adquiere la mano al realizar un signo. 2. Orientacin de la mano: palma hacia arriba, hacia abajo, hacia el signante. 3. Lugar de articulacin. Lugar del cuerpo donde se realiza el signo: boca, frente, pecho, hombro. 4. Movimiento. Movimiento de las manos al realizar un signo: giratorio, recto, vaivn, quebrado. 5. Punto de contacto. Parte de la mano dominante (derecha si eres diestro, izquierda si eres zurdo) que toca otra parte del cuerpo: yemas de los dedos, palma de la mano, dorso de los dedos. 6. Plano. Es donde se realiza el signo, segn la distancia que lo separa del cuerpo, siendo el Plano 1 en contacto con el cuerpo, y el Plano 4 el lugar ms alejado (los brazos estirados hacia delante). 7. Componente no manual. Es la informacin que se transmite a travs del cuerpo: Expresin facial, componentes hablados y componentes orales, movimientos del tronco y hombros. (Como ejemplo; al expresar futuro nos inclinamos ligeramente hacia delante, y al expresar pasado, hacia atrs). 1. Mecanismo de corriente, que indica cul es el mecanismo de generacin de la corriente de aire: pulmonar, eyectivo, inyectivo, 2. Modo de articulacin, que divide a los sonidos en oclusivos, fricativos, aproximantes o voclicos. 3. Punto de articulacin, segn cuales sean las dos partes del tracto vocal que estn ms cercanas en el momento de la articulacin. 4. Coarticulacin, cuando un sonido presenta varias fases en el modo o en el punto de articulacin a lo largo de su articulacin. 5. Sonoridad.
ITSSNA
13
Sintaxis
Muchas lenguas de seas tienden a ser lenguas analticas con poca morfologa. Esto, sin embargo, puede ser ms una consecuencia del origen histrico de las mismas que una caracterstica necesaria o preferente de las lenguas de seas. En la mayora de lenguas de seas por ejemplo, los procesos morfolgicos son ms usados en los procesos de formacin de palabras: derivacin y composicin y son evidentes en la estructura de buena parte del lxico.
Historia de la conversin de voz

Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana. El Papa Silvestre II (1003), Alberto Magno (1198-1280) y Roger Bacon (1214-1294) crearon ejemplos tempranos de 'cabezas parlantes'. En 1779, el cientfico dans Christian Gottlieb Kratzenstein, que trabajaba en esa poca en la Academia Rusa de las Ciencias, construy modelos del tracto vocal que podra producir las cinco vocales largas (a, e, i, o, u). Wolfgang von Kempelen de Viena, Austria, describi en su obra Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("mecanismo del habla humana con descripcin de su mquina parlante", J.B. Degen, Wien) una mquina accionada con un fuelle. Esta mquina tena, adems, modelos de la lengua y los labios, para producir consonantes, as como vocales. En 1837 Charles Wheatstone produjo una 'mquina parlante' basada en el diseo de von Kempelen, y en 1857 M. Faber construy la mquina 'Euphonia'. El diseo de Wheatstone fue resucitado en 1923 por Paget. En los aos 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refin este dispositivo y creo VODER, que exhibi en la Exposicin Universal de Nueva York de 1939. Los primeros sintetizadores de voz sonaban muy robticos y eran a menudo inteligibles a duras penas. Sin embargo, la calidad del habla sintetizada ha mejorado en gran medida, y el resultado de los sistemas de sntesis contemporneos es, en ocasiones, indistinguible del habla humana real. A pesar del xito de los sintetizadores puramente electrnicos, sigue investigndose en sintetizadores mecnicos para su uso en robots humanoides. Incluso el mejor sintetizador electrnico est limitado por la calidad del transductor que produce el sonido, as que en un robot un sintetizador mecnico podra ser capaz de producir un sonido ms natural que un altavoz pequeo. El primer sistema de sntesis computarizado fue creado a final de la dcada de 1950 y el primer sistema completo texto a voz se finaliz en 1968. Desde entonces se han producido muchos avances en las tecnologas usadas para sintetizar voz.
ITSSNA
14
Reconocimiento ptico de caracteres
El Reconocimiento ptico de Caracteres (ROC), o reconocimiento de caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos, as podremos interactuar con estos mediante un programa de edicin de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma espaol, utilizando el acrnico a partir del ingls OCR. En los ltimos aos la digitalizacin de la informacin (textos, imgenes, sonido, etc.) ha devenido un punto de inters para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de informacin escrita, tipogrfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introduccin de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.
Binarizacin
La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el nmero de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirn en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y smbolos que contiene la imagen. A partir de aqu podemos aislar las partes de la imagen que contienen texto (ms transiciones entre blanco y negro).
Fragmentacin o segmentacin de la imagen

Este es el proceso ms costoso y necesario para el posterior reconocimiento de caracteres. La segmentacin de una imagen implica la deteccin mediante procedimientos de etiquetado determinista o estocstico de los contornos o regiones de la imagen, basndose en la informacin de intensidad o informacin espacial. Permite la descomposicin de un texto en diferentes entidades lgicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento.
ITSSNA
15
No existe un mtodo genrico para llevar a cabo esta segmentacin de la imagen que sea lo suficientemente eficaz para el anlisis de un texto. Aunque, las tcnicas ms utilizadas son variaciones de los mtodos basados en proyecciones lineales. Una de las tcnicas ms clsicas y simples para imgenes de niveles de grises consiste en la determinacin de los modos o agrupamientos (clster) a partir del histograma, de tal forma que permitan una clasificacin o umbralizacin de los pixeles en regiones homogneas.
Adelgazamiento de las componentes

Una vez aisladas las componentes conexas de la imagen, se les tendr que aplicar un proceso de adelgazamiento para cada una de ellas. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipologa. La eliminacin de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen contine teniendo las mismas proporciones que la original y as conseguir que no quede deforme. Se tiene que hacer un barrido en paralelo, es decir, sealar los pxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificacin y reconocimiento, simplificando la forma de las componentes.
Comparacin con patrones

En esta etapa se comparan los caracteres obtenidos anteriormente con unos tericos (patrones) almacenados en una base de datos. El buen funcionamiento del ROC se basa en gran medida a una buena definicin de esta etapa. Existen diferentes mtodos para llevar a cabo la comparacin. Uno de ellos es el Mtodo de Proyeccin, en el cual se obtienen proyecciones verticales y horizontales del carcter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la mxima coincidencia. Existen otros mtodos como por ejemplo: Mtodos geomtricos o estadsticos, Mtodos estructurales, Mtodos Neuro-mimticos, Mtodos Markovianos o Mtodos de Zadeh.
Aplicaciones
Desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC.
ITSSNA
16
Reconocimiento de texto manuscrito
Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo. En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lxico- este puede ir aumentndose segn necesidades. Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin.
Reconocimiento de matrculas
Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrcula de un vehculo con condiciones de iluminacin, perspectiva y entorno variables. En la etapa de segmentacin, se buscan texturas similares a la de una matrcula y se asla el rea rectangular que forma la matrcula. Finalmente, se aplica un proceso de clasificacin mltiple sobre el conjunto de pxeles pertenecientes a la matrcula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrcula. Si aparece algn error, es corregido.
Indexacin en bases de datos

Con el gran aumento de informacin publicada que ha tenido lugar en los ltimos aos, cada vez son ms los mtodos que se utilizan para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imgenes. Una de las formas ms corrientes de buscar imgenes es a partir de metadato introducida manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imgenes mediante el texto que aparecen en ellas, como el buscador DIRS(Document Image Retrieval
ITSSNA
17
System) que, mediante un algoritmo de Reconocimiento ptico de Caracteres, extrae el texto que aparece en la imagen y lo utiliza como metadato que podr ser utilizado en las bsquedas. Esta tecnologa proporciona una posibilidad en la bsqueda de imgenes y demuestra que el ROC an puede dar mucho de s.
Reconocimiento de datos estructurados con ROC Zonal

Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semi estructurados (facturas, nminas, albaranes, plizas, justificantes bancarios, etc.), catalogando automticamente los documentos con los metadatos obtenidos y archivndolos en formato digital de forma indexada para facilitar su posterior bsqueda. Tiene el inconveniente de que es necesario disear previamente las plantillas, pero con una buena configuracin se ahorra mucho tiempo en el proceso de digitalizacin.
Conversor texto-voz
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son sistemas que permiten la conversin de textos en voz sinttica. Los conversores de texto-voz son conocidos en el ingls tambin con las siglas CTV o por las siglas en ingls TTS (Text to speech).
Requisitos de los conversores CTV/TTS

1. Debe producir una voz sinttica (artificial) que resulte natural y sea inteligible. 2. La sntesis del habla ha de ser completamente automtica, sin que se tenga que introducir ningn tipo de reajuste manual en ninguna parte del proceso. 3. El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no puede estar amaado en ningn sentido.
Fases de la conversin texto-voz
En la primera fase se realiza una representacin lingstica simblica, para ello se siguen tres procesos consecutivos: 1. Normalizacin del texto. Se convierte la totalidad del texto a una forma textual convencional. Esto afecta principalmente a las cifras, abreviaturas, etc. A la normalizacin del texto tambin se la denomina pre procesado o tokenizacin.
ITSSNA
18
2. Conversin fontica. Una vez normalizado el texto se asignan transcripciones fonticas a cada palabra. El proceso de convertir las transcripciones fonticas en palabras se denomina conversin texto-fonema (TTP en sus siglas en ingls de text-to-phoneme) o conversin grafema-fonema (GTP en sus siglas en ingls de grapheme-to-phoneme). 3. Divisin prosdica. Se divide el texto en unidades prosdicas, tales como unidades sintagmticas, proposiciones y frases.
En la segunda fase, la que forma el sintetizador propiamente dicho, toma como entrada la representacin lingstica simblica y la transforma en voz sinttica.
Sntesis de habla
La voz sinttica es una voz artificial (no pregrabada), generada mediante un proceso de sintetizacin del habla. La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir voz a partir de texto lo hacen a partir de representacin lingstica simblica en habla. La calidad de una voz sinttica vendr dada por:

Su inteligibilidad: con qu facilidad/dificultad es entendida? Su naturalidad: en qu medida se asemeja a la voz real de un humano?
Tecnologas de sntesis
Las dos caractersticas utilizadas para describir la calidad de un sintetizador de voz son la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a hasta qu punto suena como la voz de una persona real. La inteligibilidad de un sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador ideal debe de ser a la vez natural e inteligible, y cada tecnologa intentan conseguir el mximo de ambas. Algunas de las tecnologas son mejores en naturalidad o en inteligibilidad y las metas de la sntesis determinan a menudo qu aproximacin debe seguirse. Hay dos tecnologas principales usadas para generar habla sinttica: sntesis concatenativa y sntesis de formantes.
Sntesis concatenativa
La sntesis concatenativa se basa en la concatenacin de segmentos de voz grabados. Generalmente, la sntesis concatenativa produce los resultados ms
ITSSNA
19
naturales. Sin embargo, las diferencias entre la variacin natural del habla y las tcnicas automatizadas de segmentacin de formas de onda resultan en defectos audibles, que conllevan una prdida de naturalidad.
Hay tres tipos bsicos de sntesis concatenativa.

Sntesis por seleccin de unidades
La sntesis por seleccin de unidades utiliza una base de datos de voz grabada (ms de una hora de habla grabada). Durante la creacin de la base de datos, el habla se segmenta en algunas o todas de las siguientes unidades: fonemas, slabas, palabras, frases y oraciones. Normalmente, la divisin en segmentos se realiza usando un reconocedor de voz modificado para forzar su alineamiento con un texto conocido. Despus se corrige manualmente, usando representaciones como la forma de onda y el espectrograma. Se crea un ndice de las unidades en la base de datos basada en parmetros acsticos de la segmentacin como la frecuencia fundamental, el pitch, la duracin, la posicin en la slaba y los fonemas vecinos. En tiempo de ejecucin, el objetivo deseado se crea determinando la mejor cadena de candidatos de la base de datos (seleccin de unidades). Este proceso se logra tpicamente usando un rbol de decisin especialmente ponderado. La seleccin de unidades da la mxima naturalidad debido al hecho de que no aplica mucho procesamiento digital de seales al habla grabada, lo que a menudo hace que el sonido grabado suene menos natural, aunque algunos sistemas usan un poco de procesado de seal en la concatenacin para suavizar las formas de onda. De hecho, la salida de la mejor seleccin de unidades es a menudo indistinguible de la voz humana real, especialmente en contextos en los que el sistema ha sido adaptado. Por ejemplo, un sistema de sntesis de voz para dar informaciones de vuelos puede ganar en naturalidad si la base de datos fue construida a base grabaciones de informaciones de vuelos, pues ser ms probable que aparezcan unidades apropiadas e incluso cadenas enteras en la base de datos. Sin embargo, la mxima naturalidad a menudo requiere que la base de datos sea muy amplia, llegando en algunos sistemas a los gigabytes de datos grabados.
Sntesis de difonos
La sntesis de difonos usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos depende de la fono tctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. En la sntesis de difonos, la base de datos contiene un slo ejemplo de cada difono. En tiempo de ejecucin, la prosodia de una oracin se sobre impone a estas unidades mnimas mediante procesamiento digital de seales, como codificacin lineal predictiva, PSOLA o MBROLA.
ITSSNA
20
La calidad del habla resultante es generalmente peor que la obtenida mediante seleccin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes. La sntesis difonos adolece de los defectos de la sntesis concatenativa y suena robtica como la sntesis de formantes, y tiene pocas ventajas respecto a estas tcnicas aparte del pequeo tamao de la base de datos, as que su uso en aplicaciones comerciales experimenta un declive, aunque contina usndose en investigacin porque hay unas cuantas implementaciones libres.
Sntesis especfica para un dominio

La sntesis especfica para un dominio concatena palabras y frases grabadas para crear salidas completas. Se usa en aplicaciones donde la variedad de textos que el sistema puede producir est limitada a un particular dominio, como anuncios de salidas de trenes o informacin meteorolgica. Esta tecnologa es muy sencilla de implementar, y se ha usado comercialmente durante largo tiempo: es la tecnologa usada por aparatos como relojes y calculadoras parlantes. La naturalidad de estos sistemas puede ser muy grande, porque la variedad de oraciones est limitada y corresponde a la entonacin y la prosodia de las grabaciones originales. Sin embargo, al estar limitados a unas ciertas frases y palabras de la base de datos, no son de propsito general y slo pueden sintetizar la combinacin de palabras y frases para los que fueron diseados.
Sntesis de formantes
La sntesis de formantes no usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial. Este mtodo se conoce tambin como sntesis basada en reglas pero algunos aducen que muchos sistemas concatenativos usan componentes basados en reglas para algunas partes de sus sistemas, como el front-end, as que el trmino no es suficientemente especfico. Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial, y la salida nunca se podra confundir con la voz humana. Sin embargo, la naturalidad mxima no es siempre la meta de un sintetizador de voz, y estos sistemas tienen algunas ventajas sobre los sistemas concatenativos. La sntesis de formantes puede ser muy inteligible, incluso a altas velocidades, evitando los defectos acsticos que pueden aparecer con frecuencia en los sistemas concatenativos. La sntesis de voz de alta velocidad es a menudo usada por los discapacitados visuales para utilizar computadores con fluidez. Por otra parte, los sintetizadores de formantes son a menudo programas ms pequeos que los sistemas concatenativos porque no necesitan una base de datos de muestras de voz grabada. De esta forma, pueden usarse en sistemas embebidos,
ITSSNA
21
donde la memoria y la capacidad de proceso son a menudo exiguas. Por ltimo, dado que los sistemas basados en formantes tienen un control total sobre todos los aspectos del habla producida, pueden incorporar una amplia variedad de tipos de entonaciones, que no slo comprendan preguntas y enunciaciones.
Desafos de la normalizacin de texto

El proceso de normalizar texto es pocas veces simple. Los textos estn llenos de homgrafos, nmeros y abreviaturas que tienen que ser transformados en una representacin fontica. Por supuesto, en lenguas donde la correspondencia entre el texto escrito y su equivalente fontico es poca (ingls) o ninguna (mandarn), la creacin de estos sistemas se complica. Muchos sistemas de texto a voz no generan representaciones semnticas de los textos de entradas, pues los sistemas para hacerlo no son fiables o computacionalmente efectivos. Como resultado, se usan varias tcnicas heursticas para estimar la manera correcta de desambiguar homgrafos, como buscar palabras vecinas y usar estadsticas sobre la frecuencia de aparicin de las palabras. Decidir cmo convertir nmeros en palabras es otro problema que tienen que solucionar los sintetizadores de voz. Es un desafo bastante simple programar un sistema que convierta nmeros en palabras, como por ejemplo transformar 1325 en "mil trescientos veinticinco". Sin embargo, los nmeros aparecen en diferentes contextos, y 1325 puede ser un ordinal, "uno tres dos cinco" si son los ltimos dgitos de un DNI o "trece veinticinco" si es un nmero de telfono. A menudo un sistema de sntesis de voz puede inferir cmo expandir un nmero en funcin de las palabras o nmeros vecinos y la puntuacin, y algunos sistemas proporcionan un sistema para especificar el tipo de contexto si es ambiguo. De la misma forma, abreviaturas como "etc." se pueden transformar fcilmente en "etctera", pero a menudo las abreviaturas pueden ser ambiguas. Por ejemplo la abreviatura "am" puede ser "ante meridiam" en el ejemplo: "El vuelo aterrizar a las 11 am" o puede ser "modulacin de amplitud" o simplemente "a eme" en el ejemplo "Nos puede encontrar en la sintona 1425 am". Los sistemas con front end inteligentes pueden hacer estimaciones adecuadas acerca de cmo tratar abreviaturas ambiguas, mientras que otros pueden hacer lo mismo en todos los casos, dando resultados en ocasiones cmicos.
Desafos de los sistemas Texto a fonema

Los sintetizadores de voz usan dos aproximaciones bsicas al problema de determinar la pronunciacin de una palabra basndose en su pronunciacin, un proceso que a menudo recibe el nombre de conversin texto a fonema o grafema
ITSSNA
22
a fonema, dado que fonema es el trmino usado por los lingistas para describir sonidos distintivos en una lengua. La aproximacin ms simple a este problema es la basada en diccionario, donde se almacena en el programa un gran diccionario que contiene todas las palabras de la lengua y su correcta pronunciacin. Determinar la pronunciacin correcta de cada palabra consiste en buscar cada palabra en el diccionario y reemplazar el texto con la pronunciacin especificada en el diccionario. La otra aproximacin para convertir texto en fonemas es la aproximacin basada en reglas, donde dichas reglas para la pronunciacin de las palabras se aplican a palabras para extraer sus pronunciaciones basadas en su forma escrita. Cada aproximacin tiene ventajas y desventajas. La tcnica basada en diccionarios tiene como ventajas ser rpida y precisa, pero falla completamente si una palabra dada no aparece en el diccionario, y a medida que crece el diccionario crecen los requerimientos de memoria del sistema de sntesis. Por otra parte, la tcnica basada en reglas funciona con cualquier entrada, pero la complejidad de las reglas crece sustancialmente a medida que se van teniendo en cuenta ortografas y pronunciaciones irregulares. Como resultado, casi cualquier sintetizador de voz usa una combinacin de las dos tcnicas. Algunos idiomas, como el espaol, tienen un sistema de escritura muy regular y la prediccin de la pronunciacin de palabras basada en deletreos es casi siempre correcta. Los sistemas de sntesis de voz para este tipo de lenguajes generalmente usan un enfoque basado en reglas como el enfoque central para la conversin texto-fonema y auxilindose de diccionarios pequeos para algunas palabras de origen extranjero cuya pronunciacin no se deduce de la escritura. En otros como el ingls, dado que se trata de sistemas muy irregulares en su escritura, el enfoque se basa principalmente en diccionarios y slo para palabras no usuales se basa en reglas.
Problemas de la voz sinttica
Rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico. Los CTV (Conversores de Texto-Voz) producen voz, generalmente, voz de hombre. Hay varias razones que pueden explicar este hecho:
Una explicacin sociolgica obvia es que, hasta hace relativamente poco, las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos. La voz masculina ofrece mejor calidad sonora que la femenina. Esto se debe a que la frecuencia fundamental (primer armnico) de la mujer es bastante ms alta que la de hombre.
ITSSNA
23
La forma de onda en la voz de mujer tiene un componente de oscilacin no peridica, que viene dado por una mayor frecuencia en la aspiracin, que resulta ms notable que la del hombre. Este componente de la excitacin global es difcil de modelar adecuadamente.
En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable, sin embargo, siguen sin alcanzar la calidad ofrecida por un sintetizador de similares caractersticas que emplee voz masculina.
Lenguaje de seas
El lenguaje de seas, lenguaje dactilolgico o lengua de signos es una forma de expresar caracteres, palabras o frases mediante signos usando principalmente las manos con el fin de comunicarse sin la necesidad de un sistema de signos vocales. Existen varios tipos de lenguaje de signos, varan dependiendo del pas, estado, provincia e incluso cuidad, por lo que no existe un lenguaje de seas universal. Pases como: Venezuela, Mxico, Espaa, Estados Unidos, Argentina, Per, Ecuador y otros tienen su propio lenguaje de seas. Ecuador menciona la lengua de seas ecuatoriana en el artculo 53 de la Constitucin Poltica de 1998.
Visin artificial
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen. Un sistema de visin artificial consta de los siguientes elementos: Iluminacin: Consta de todos los dispositivos (lmparas, lser, LEDs, etc.) que sirven como fuente de luz, y a travs de los cuales se va a tener una iluminacin lo ms uniforme posible. De este subsistema depende en gran parte la adecuada adquisicin de la imagen. Captacin: En este subsistema se encuentran los transductores que convierten la radiacin luminosa reflejada en seales elctricas, por ejemplo las cmaras CCD. Sistema de Adquisicin: En este subsistema se transforma las seales elctricas que provienen de las cmaras en seales de video, esto se realiza por medio de tarjetas de adquisicin colocadas en el computador.
ITSSNA
24
Procesamiento: Consta de uno o varios computadores en los cuales se analiza la imagen captada por el subsistema de adquisicin. Con la ayuda de algunos algoritmos es posible obtener la informacin ms relevante, la cual nos permite posteriormente adecuarla a una aplicacin especfica. Perifricos: Aqu se ubican todos los equipos o dispositivos que reciben la informacin del computador y cumplen la funcin de actuadores dentro del proceso o aplicacin.
Software para visin artificial

Existe una gran cantidad de software que permiten realizar aplicaciones de visin artificial como por ejemplo: Matlab, Labview, Opencv, VisualBasic, etc. Para la realizacin de este proyecto se utiliz el software de Labview con los toolkits de visin artificial, porque permite realizar aplicaciones de forma simple gracias a su programacin grafica amigable con el usuario. Adems se adapta fcilmente al hardware (cmaras USB), que se est utilizando y posee una aplicacin dedicada al reconocimiento de imgenes, que es el objetivo de este proyecto.
Descripcin del traductor de seales de manos mediante visin artificial

El sistema de traduccin est divido en varios procesos, estos procesos se concatenan consecutivamente para lograr cumplir con el objetivo del proyecto. Para reducir el tiempo de ejecucin del programa se redujo el procesamiento de la imagen, para esto la toma de la imagen se la realizo en un ambiente donde el objeto de inters (mano) contraste con el resto de la imagen.
Deteccin del objeto de inters

Esta etapa tiene como finalidad ejecutar la aplicacin siempre y cuando exista un objeto sobre el rea que est captando la cmara. Este anlisis se lo realizo utilizando el histograma de la imagen, se clculo la media de los valores de los pixeles, estos valores se comparan con los del rea de trabajo y se supervisa constantemente hasta que se produce el cambio en estos valores, lo que indica que existe objeto sobre el rea de trabajo, dando paso a la siguiente etapa de la aplicacin.
Paso a escala de grises y mejoramiento de contraste

Una vez detectado el objeto de inters, se pasa la imagen a escala de grises porque la aplicacin no requiere de un anlisis del color, pero s de su forma. Con esto se tiene una imagen de menor tamao para su posterior proceso de
ITSSNA
25
segmentacin. Se realiza un contraste a la imagen con la finalidad de eliminar el ruido existente y resaltar la forma del objeto dentro de la imagen
Proceso de Binarizacin
Este proceso tiene como objetivo convertir la imagen en escala de grises a una imagen binaria, donde los pixeles tengan dos valores, ya sea 1L o 0L. Este consiste en escoger un umbral basado en los valores de los pixeles que se observa en el histograma, el umbral se debe escoger para que el objeto de inters este dentro de la imagen. Una vez escogido este umbral la imagen resultante es una donde solo existen dos valores de color. Blanco y Negro. Para eliminar el ruido existente en la imagen binaria se realiza operaciones morfolgicas como son erosin (1), dilatacin (2), filtros en el dominio de la frecuencia y filtros basados en morfologa de los objetos con los cuales se elimina objetos innecesarios dentro de la imagen.
ITSSNA
26

Traductor en Tiempo Real

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Traductor en Tiempo Real

Cargado por

Copyright:

Formatos disponibles

Fundamentos de investigacin.

Instituto Tecnolgico Superior de la Sierra Negra de Ajalpan.

INGENIERIA EN SISTEMAS COMPUTACIONALES.

MATERIA: FUNDAMENTOS DE INVESTIGACION.

ING. MARCO ANTONIO ISIDRO ABRIL.

INVESTIGACIN: TRADUCTOR EN TIEMPO REAL. ALUMNO: DONATO DE JESS MENDOZA ORDAZ.

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Origen de las lenguas de seas

Donato de Jess Mendoza Ordaz

Clasificacin de las lenguas de seas

Donato de Jess Mendoza Ordaz

Malentendidos y mitos sobre las lenguas de seas

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

"Fonologa" de las lenguas de seas

Donato de Jess Mendoza Ordaz

Historia de la conversin de voz

Donato de Jess Mendoza Ordaz

Fragmentacin o segmentacin de la imagen

Donato de Jess Mendoza Ordaz

Adelgazamiento de las componentes

Comparacin con patrones

Donato de Jess Mendoza Ordaz

Indexacin en bases de datos

Donato de Jess Mendoza Ordaz

Reconocimiento de datos estructurados con ROC Zonal

Requisitos de los conversores CTV/TTS

Fases de la conversin texto-voz

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Hay tres tipos bsicos de sntesis concatenativa.

Donato de Jess Mendoza Ordaz

Sntesis especfica para un dominio

Donato de Jess Mendoza Ordaz

Desafos de la normalizacin de texto

Desafos de los sistemas Texto a fonema

Donato de Jess Mendoza Ordaz

Problemas de la voz sinttica

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

Software para visin artificial

Descripcin del traductor de seales de manos mediante visin artificial

Deteccin del objeto de inters

Paso a escala de grises y mejoramiento de contraste

Donato de Jess Mendoza Ordaz

Donato de Jess Mendoza Ordaz

También podría gustarte