Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Traductor en Tiempo Real
Traductor en Tiempo Real
SEMESTRE Y GRUPO: 1 A
ITSSNA
Fundamentos de investigacin.
INDICE
Agradecimientos..................................................................................5 El porque del desarrollo del sotware..................................................6 Prologo7 Capitulo 1
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan........
Lengua de seas................................................................................8 Origen de las lenguas de seas........................................................8 Clasificacin de las lenguas de seas.............................................9 Malentendidos y mitos sobre las lenguas de seas.......................10 Lingstica..........................................................................................11 Variacin dialectal..............................................................................12 Fonologa de las lenguas de seas..................................................13 Sintaxis...............................................................................................14 Capitulo 2
Mucho antes del desarrollo del procesado de seal moderno, los investigadores de la voz intentaron crear mquinas que produjesen habla humana.................
Reconocimiento ptico de caracteres....15 Binarizacin..15 Fragmentacin o segmentacin de la imagen..15 Adelgazamiento de las componentes.16 Comparacin con patrones................................................................16 Aplicaciones.16
ITSSNA
Fundamentos de investigacin.
Capitulo 3
Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito...........................
Reconocimiento de texto manuscrito...17 Reconocimiento de matrculas...17 Indexacin en bases de datos...17 Reconocimiento de datos estructurados con ROC Zonal.....18 Conversor texto-voz..18 Requisitos de los conversores CTV/TTS..18 Fases de la conversin texto-voz...18 Capitulo 4
La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware.
Sntesis de habla.....19 Tecnologas de sntesis.....19 Sntesis concatenativa...19 Sntesis por seleccin de unidades....20 Sntesis de difonos.20 Sntesis especfica para un dominio...21 Sntesis de formantes21 Desafos de la normalizacin de texto...22 Desafos de los sistemas Texto a fonema....22 Problemas de la voz sinttica..23
ITSSNA
Fundamentos de investigacin.
Capitulo 5
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen.........................
Lenguaje de seas...........................................................................24 Visin artificial..................................................................................24 Software para visin artificial...........................................................25 Descripcin del traductor de seales ............................................25 de manos mediante visin artificial.................................................25 Deteccin del objeto de inters.......................................................25 Paso a escala de grises y mejoramiento de contraste.................25 Proceso de Binarizacin...................................................................26
ITSSNA
Fundamentos de investigacin.
AGRADECIMIENTOS
En este proyecto agradesco principalmente a mis padres y mi familia por el gran apoyo que me han brindado a lo largo de estos aos para poder lograr todo esto que he podido alcanzar. Agradezco tanto su apoyo economico pero principalmente el apoyo moral que me brindaron y siguen brindandome para seguir adelante. A mis compaeros y maestros les doy las gracias por su apoyo y por su paciencia a lo largo de estos aos ya que sin ellos y su apoyo no habia podido alcanzar esta gran meta.
ITSSNA
Fundamentos de investigacin.
EL PORQUE DEL DESARROLLO DE ESTE SOFTWARE
Desde aos antiguos la comunicacion ha sido parte fundamental en la vida de los seres humanos. La comunicacion ha sido la base fundamental en nuestro desarrollo ya que gracias a ella hemos alcanzado lo que hasta el momento hemos podido conseguir. Partiendo de este principio y analizando las distintas problematicas de la comunicacion observe el problema que existe entre las personas que carecen del habla y del sentido auditivo, asi como la dificultad que hay para comunicarse con ellos. Tomando este problema surgio la idea de desarrollar un software con el cual podamos, mediante una camara, detectar las diferentes seales que las personas sordomudas ocupan para comunicarse y codificarlas para asi traducirlas a texto y voz. El objetivo de este proyecto es contribuir con el desarrollo tanto moral como en lo personal de estas personas ya que se pretende reducir la dificultad de comunicacion en el problema ya antes mencionado.
ITSSNA
Fundamentos de investigacin.
Prologo.
El objetivo del presente proyecto es desarrollar un sistema que reconozca las seales de manos usadas por personas con discapacidad y traducirlas a texto y audio. El reconocimiento de las seas se realiza mediante tcnicas de visin artificial, usando una cmara web y el software. Este proyecto consiste en un sistema que traduce de lenguaje de seas a lenguaje de texto usando visin artificial, para permitir que personas con discapacidad auditiva y/o visual que manejan el lenguaje de seas puedan comunicarse con el resto de personas que no manejan este lenguaje. Para personas que no conocen este lenguaje el proyecto ofrece la opcin de un entrenador, para que aprendan cada uno de los smbolos de este lenguaje y adquieran la habilidad necesaria para utilizar la aplicacin. El sistema adquiere la imagen que luego pasa por un procesamiento digital de imgenes y por ltimo se realiza la traduccin. En el procesamiento digital de imgenes se aplicaron algunos filtros y operaciones morfolgicas para resaltar las caractersticas de la imagen y eliminar informacin innecesaria como ruido. Tambin se eliminaron objetos extraos en la imagen mediante un recortado del rea de inters. Se elaboraron bases de datos, para llevar a cabo la comparacin con la imagen recortada y de esta manera asignar la clase correspondiente a cada imagen. Con la clase asignada se forma el texto que se muestra en forma escrita en la pantalla o a su vez se puede enviar a un documento de Word, adems es posible reproducir en audio el texto formado con la ayuda de la herramienta texto a voz de distintos programas.
ITSSNA
Fundamentos de investigacin.
Marco terico. Lengua de seas
Las lenguas de seas son lenguas naturales de produccin gestual y percepcin visual que tienen estructuras gramaticales perfectamente definidas y distintas de las lenguas orales con las que cohabitan. La lengua de seas, o lengua de signos, es una lengua natural de expresin y configuracin gesto-espacial y percepcin visual (o incluso tctil por ciertas personas con sordoceguera), gracias a la cual las personas sordas pueden establecer un canal de comunicacin con su entorno social, ya sea conformado por otros individuos sordos o por cualquier persona que conozca la lengua de seas empleada. Mientras que con el lenguaje oral la comunicacin se establece en un canal vocal-auditivo, el lenguaje de seas lo hace por un canal gesto-visoespacial. Una curiosidad de esta lengua es que a cada persona se le asigna un signo propio y caracterstico para no tener que deletrear su nombre en signos.
ITSSNA
Fundamentos de investigacin.
primer maestro sordo de lengua de seas de los Estados Unidos. Pronto las escuelas para las personas sordas empezaron a aparecer en varios estados. Entre ellos la Escuela de Nueva York que abri sus puertas en 1818. En 1820 otra escuela se abri en Pennsylvania, y un total de veintids escuelas se haban establecido a lo largo de los Estados Unidos por el ao 1863. En esta obra (entre las pginas 130 y 131) aparece un abecedario ilustrado mediante grabados calcogrficos de los signos de las manos que representan las letras del alfabeto latino. Del tratado sobre Reduccin de las letras y Arte para ensear a hablar los Mudos se hicieron traducciones a las principales lenguas de cultura. Sobre la base del alfabeto divulgado por Bonet, Charles-Michel de l'pe publica el siglo XVIII su alfabeto, que bsicamente es el que ha llegado hasta la actualidad, siendo conocido internacionalmente como alfabeto manual espaol.
Lenguas originadas en la antigua lengua de seas de Kent, usada durante el siglo XVII, que dio lugar a la lengua de seas usada en Martha's Vineyard (Massachusetts) y que influy de manera importante en la lengua de seas americana (ASL). Lenguas originadas en la antigua lengua de seas francesa. Estas lenguas se remontan a las formas estandarizadas de lenguas de seas usadas en Espaa, Italia y Francia desde el siglo XVIII en la educacin de los sordos. En concreto, la antigua lengua de seas francesa se desarroll en el rea de Pars, gracias a los esfuerzos del abad Charles Michel de l'pe en su escuela de sordos. En tiempos modernos esta lengua ha dado lugar a otras varias, como la lengua de seas americana (ASL), la lengua de seas mexicana (LSM), la moderna lengua de seas francesa (LSF), la lengua de seas italiana (LIS), la lengua de seas de Irlanda (IRSL) y las lenguas de seas ibricas (que muestran similitudes con la antigua lengua de seas francesa, pues no en vano los educadores espaoles de sordos del siglo XIX se formaron en el Instituto Nacional de Sordomudos de Pars), derivndose a dos o tres lenguas diferentes con cierta inteligibilidad mutua, la lengua de seas espaola (LSE), la lengua de seas catalana (LSC) y la lengua de seas valenciana(LSCV). Lenguas originadas en la lengua de seas britnica (BSL), que se diversific durante el siglo XIX dando lugar a la lengua de seas australiana (Auslan), la lengua de seas de Nueva Zelanda (NZSL) y la lengua de seas de Irlanda del Norte (NIRSL). Lenguas originadas en la lengua de seas alemana (DGS), que se considera relacionada con la lengua de seas de la Suiza alemana (DSGS),
ITSSNA
Fundamentos de investigacin.
la lengua de seas austraca (GS) y probablemente la lengua de seas israel (ISL). Concepcin metodolgica para la preparacin en la LSC como segunda lengua En la actualidad se establecen intercambios cientfico-tcnicos y culturales entre distintas comunidades lingsticas, crece cada vez ms la necesidad de aprender una segunda lengua; y en particular se redimensiona su valor al tratarse de un idioma viso gestual; la LSC que utilizan las personas con discapacidad auditiva constituye su primera lengua y se considera su lengua natural, la que aprenden en su entorno lingstico sin restricciones. Es necesario que todas las personas involucradas en su educacin la dominen para poder interactuar con ellas y de este modo contribuir a la formacin de su personalidad. La enseanza de las segundas lenguas, en su recorrido por el siglo XX, ha ido incrementando su inters por el aprendizaje de la comunicacin oral hasta ocupar un lugar preponderante en la actualidad. Sin embargo, ha surgido con gran fuerza en los ltimos 30 aos el estudio de otras lenguas de carcter minoritario, donde se emplea el canal de comunicacin viso gestual, que exige de una didctica particular. En ambas su valor formativo est dado por sus potencialidades educativas, instructivas y desarrolladoras.
Las lenguas de seas no son autnticamente lenguas, sino cdigos mnemotcnicos para designar objetos y conceptos. Falso. Las lenguas de seas son lenguas naturales que tienen estructuras gramaticales perfectamente definidas. De hecho, existen personas, incluso oyentes, cuya lengua materna es una lengua de seas. El proceso de adquisicin lingstica estudiado en nios que tienen por lengua materna una lengua de seas sigue etapas totalmente anlogas a la adquisicin de las lenguas orales (balbuceo, etapa de una palabra). Adems, los procesos de analoga morfolgica, la elipsis, los cambios "fonolgicos" o la asimilacin tambin se dan de idntica forma en las lenguas de seas. La lengua de seas espaola, la lengua de seas francesa o la lengua de seas britnica, son maneras de codificar el espaol, el francs o el ingls mediante signos gestuales. Falso. A veces la lengua de seas de ciertos pases y la lengua oral ms usada en esos mismos pases difieren gramaticalmente en muy diversos parmetros, como la posicin del ncleo sintctico o el orden sintctico de los constituyentes. Algunas versiones de este malentendido, es que las lenguas de seas tienen alguna clase de dependencia de las lenguas orales, por ejemplo, que utilizan bsicamente un deletreo de las palabras de una lengua oral mediante smbolos gestuales.
ITSSNA
10
Fundamentos de investigacin.
Todas las lenguas de seas son parecidas. Falso. Las lenguas de seas difieren entre s, tanto en el lxico (conjunto de seas o signos gestuales) como en la gramtica, tanto como difieren entre s las lenguas orales. En las lenguas de seas se utiliza el alfabeto manual o dactilolgico, generalmente para los nombres propios o tcnicos, si bien es slo una ms de las numerosas herramientas que poseen. Antiguamente, el uso de la dactilologa en las lenguas de seas era una evidencia presupuesta de que slo eran una pobre o simplificada versin de las lenguas orales, lo que tambin es falso. En general, las lenguas de seas son independientes de las lenguas orales y siguen su propia lnea de desarrollo. Por ltimo, un rea que tiene ms de una lengua oral puede tener una misma lengua de seas, pese a que haya diferentes lenguas orales. Este es el caso de Canad, los EE.UU., y Mxico, donde la Lengua de Seas Americana convive con las lenguas orales inglesa, espaola, y francesa. Inversamente de igual modo, en una zona donde existe lengua oral que puede servir de lengua franca, pueden convivir varias lenguas de seas, como es el caso de Espaa, donde conviven la Lengua de seas espaola (LSE), la lengua de signes catalana(LSC), y la Lengua de seas valenciana (LSCV).
Lingstica
El estudio cientfico de las lenguas de seas, ha revelado que poseen todas las propiedades y complejidades propias de cualquier lengua natural oral. A pesar de la generalizada y errnea concepcin de que son "lenguas artificiales". En concreto se han encontrado los siguientes hechos relativos a las lenguas de seas que proporcionan los lingsticos necesarios para clasificarlas como lenguas naturales:
Poseen una fonologa abstracta, llamada en este caso querologa, analizable en trminos formales en rasgos de posicin, orientacin, configuracin, en un modo anlogo a como son analizados los fonemas de las lenguas. Adems la realizacin de cada signo est sujeto al mismo tipo de variedad que los sonidos de las lenguas orales (variacin dialectal, asimilacin, cambio lingstico). Poseen una sintaxis que obedece los mismos principios generales que las otras lenguas naturales, y tienen algunos mecanismos de formacin de palabra productivos que permiten afirmar la existencia de procesos morfolgicos. La adquisicin de una lengua de seas por parte de bebs (sordos u oyentes) sigue un proceso paralelo a la adquisicin de una lengua oral por parte de un nio oyente. Existen comunidades estables de hablantes, cuya lengua presenta tanto variaciones dialectales, modismos propios de cada comunidad, y est sujeto al mismo tipo de cambio lingstico universalmente detectado en todas las lenguas naturales (las lenguas artificiales carecen de estas caractersticas). Las lenguas de seas, al igual que las orales, se organizan por unidades elementales sin significado propio (lexemas).
ITSSNA
11
Fundamentos de investigacin.
Histricamente, el primero en analizar las lenguas de seas en trminos lingsticos fue el jesuita espaol, padre de la Lingstica Comparada, Abate Lorenzo Hervs y Panduro (1735-1809). En su obra, editada en Madrid en 1795, Escuela Espaola de Sordomudos o Arte para ensearles a escribir y hablar el idioma espaol, es decir, dos siglos antes de que William C. Stokoe hiciera lo propio con la Lengua de Seas Estadounidense (ASL). Las lenguas de seas no son simple mmica, ni tampoco una reproduccin visual de alguna versin simplificada de ninguna lengua oral. Tienen gramtica compleja, creativa y productiva como la de cualquier otra lengua natural. Una prueba ms de la diferencia entre las lenguas orales y las lenguas de seas es el hecho de que estas ltimas explotan nicamente los disparos del medio visual. La lengua oral es auditiva y, consecuentemente, lineal. Slo se puede emitir o recibir un sonido a la vez, mientras que la lengua de seas es visual y, por lo tanto, se puede referir un espacio entero al mismo tiempo. En consecuencia, la informacin puede fluir mediante varios "canales" y expresarse simultneamente. Otra caracterstica que ha significado una diferenciacin entre la lengua de seas y las lenguas orales es la dificultad de ser escrita, pues se trata de una lengua tradicionalmente grafa, ya que, normalmente, las lenguas de seas no se han escrito. Entre otros motivos ha contribuido, el que la mayora de las personas sordas leen y escriben en la lengua oral de su pas. Pese a esto, ha habido propuestas para desarrollar sistemas de transcripcin de las lenguas de seas, provenientes sobre todo del mundo acadmico, pero la mayora de ellas tiene deficiencias para captar todas las caractersticas comunicativas que se utilizan en las lenguas de seas (especialmente los elementos no-manuales y posicionales). Sin embargo, existen varios sistemas de representacin de las seas mediante signos textuales (glosas, signo-escritura alfabtica.) O bien, icnicos (HamNoSys, Sign Writing). Este ltimo sistema -creado por Valerie Sutton alrededor de 1974- permite la escritura de todas las lenguas de seas del mundo de una forma bastante sencilla de aprender, adems de ser, quizs, el ms completo y flexible, pues ya se utiliza en varios pases e idiomas con buenos resultados. Por tal motivo permite describir de forma bastante precisa -aunque no perfecta-, los elementos no manuales y posicionales, dotando a las personas sordas de la posibilidad de acceder a diccionarios, libros, diarios o revistas con sus contenidos expresados en la correspondiente lengua de seas, con lo cual stas reciben la posibilidad de ser, tambin, lenguas escritas.
Variacin dialectal
De igual manera a como sucede con el lenguaje oral, no hay necesariamente una lengua de seas para cada pas, y an menos es una lengua universal, sino que hay variadas lenguas de seas diferentes en el mundo, ubicadas regionalmente. Existen al menos unas cincuenta lenguas prcticamente ininteligibles entre s, y numerosos dialectos, algunos de los cuales coexisten dentro de una misma ciudad.
ITSSNA
12
Fundamentos de investigacin.
Adems, existe un Sistema de Seas Internacional (SSI), que se puede considerar como un sistema de comunicacin formado por seas propias, consensuadas, procedentes de las diferentes lenguas. Actualmente, est en discusin si se trata de una lengua o un piyin (pidgin), trmino con el que se le ha vinculado en los ltimos aos. En rigor, esto no es as, sino que, coincidiendo con un cambio en la direccin de la Federacin Mundial de Sordos (WFD-FMS), los nuevos dirigentes pretendieron sustituir al anterior Gestuno. Sistemas ambos que son equivalentes al esperanto en la lengua oral, discutido cuando nos referimos tanto al Sistema de Seas Internacional, como al caso del Gestuno, lenguas que, como el Esperanto, son de creacin artificial o convencional y de uso minoritario y desconocido por la mayora de las personas sordas. El SSI es utilizado por personas que no comparten una lengua de seas comn y que necesitan comunicarse sin la intermediacin de un intrprete (aunque en conferencias internacionales s es comn el uso de estos intrpretes).
ITSSNA
13
Fundamentos de investigacin.
Sintaxis
Muchas lenguas de seas tienden a ser lenguas analticas con poca morfologa. Esto, sin embargo, puede ser ms una consecuencia del origen histrico de las mismas que una caracterstica necesaria o preferente de las lenguas de seas. En la mayora de lenguas de seas por ejemplo, los procesos morfolgicos son ms usados en los procesos de formacin de palabras: derivacin y composicin y son evidentes en la estructura de buena parte del lxico.
ITSSNA
14
Fundamentos de investigacin.
Reconocimiento ptico de caracteres
El Reconocimiento ptico de Caracteres (ROC), o reconocimiento de caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos, as podremos interactuar con estos mediante un programa de edicin de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma espaol, utilizando el acrnico a partir del ingls OCR. En los ltimos aos la digitalizacin de la informacin (textos, imgenes, sonido, etc.) ha devenido un punto de inters para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de informacin escrita, tipogrfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introduccin de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.
Binarizacin
La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el nmero de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirn en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y smbolos que contiene la imagen. A partir de aqu podemos aislar las partes de la imagen que contienen texto (ms transiciones entre blanco y negro).
ITSSNA
15
Fundamentos de investigacin.
No existe un mtodo genrico para llevar a cabo esta segmentacin de la imagen que sea lo suficientemente eficaz para el anlisis de un texto. Aunque, las tcnicas ms utilizadas son variaciones de los mtodos basados en proyecciones lineales. Una de las tcnicas ms clsicas y simples para imgenes de niveles de grises consiste en la determinacin de los modos o agrupamientos (clster) a partir del histograma, de tal forma que permitan una clasificacin o umbralizacin de los pixeles en regiones homogneas.
Aplicaciones
Desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC.
ITSSNA
16
Fundamentos de investigacin.
Reconocimiento de texto manuscrito
Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo. En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lxico- este puede ir aumentndose segn necesidades. Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin.
Reconocimiento de matrculas
Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrcula de un vehculo con condiciones de iluminacin, perspectiva y entorno variables. En la etapa de segmentacin, se buscan texturas similares a la de una matrcula y se asla el rea rectangular que forma la matrcula. Finalmente, se aplica un proceso de clasificacin mltiple sobre el conjunto de pxeles pertenecientes a la matrcula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrcula. Si aparece algn error, es corregido.
ITSSNA
17
Fundamentos de investigacin.
System) que, mediante un algoritmo de Reconocimiento ptico de Caracteres, extrae el texto que aparece en la imagen y lo utiliza como metadato que podr ser utilizado en las bsquedas. Esta tecnologa proporciona una posibilidad en la bsqueda de imgenes y demuestra que el ROC an puede dar mucho de s.
Conversor texto-voz
La conversin texto-voz es la generacin de redes inalmbricas por medios automticos de una voz artificial que genera idntico sonido al producir por una persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son sistemas que permiten la conversin de textos en voz sinttica. Los conversores de texto-voz son conocidos en el ingls tambin con las siglas CTV o por las siglas en ingls TTS (Text to speech).
En la primera fase se realiza una representacin lingstica simblica, para ello se siguen tres procesos consecutivos: 1. Normalizacin del texto. Se convierte la totalidad del texto a una forma textual convencional. Esto afecta principalmente a las cifras, abreviaturas, etc. A la normalizacin del texto tambin se la denomina pre procesado o tokenizacin.
ITSSNA
18
Fundamentos de investigacin.
2. Conversin fontica. Una vez normalizado el texto se asignan transcripciones fonticas a cada palabra. El proceso de convertir las transcripciones fonticas en palabras se denomina conversin texto-fonema (TTP en sus siglas en ingls de text-to-phoneme) o conversin grafema-fonema (GTP en sus siglas en ingls de grapheme-to-phoneme). 3. Divisin prosdica. Se divide el texto en unidades prosdicas, tales como unidades sintagmticas, proposiciones y frases.
En la segunda fase, la que forma el sintetizador propiamente dicho, toma como entrada la representacin lingstica simblica y la transforma en voz sinttica.
Sntesis de habla
La voz sinttica es una voz artificial (no pregrabada), generada mediante un proceso de sintetizacin del habla. La sntesis de habla es la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir voz a partir de texto lo hacen a partir de representacin lingstica simblica en habla. La calidad de una voz sinttica vendr dada por:
Su inteligibilidad: con qu facilidad/dificultad es entendida? Su naturalidad: en qu medida se asemeja a la voz real de un humano?
Tecnologas de sntesis
Las dos caractersticas utilizadas para describir la calidad de un sintetizador de voz son la naturalidad e inteligibilidad. La naturalidad de un sintetizador de voz se refiere a hasta qu punto suena como la voz de una persona real. La inteligibilidad de un sintetizador se refiere a la facilidad de la salida de poder ser entendida. El sintetizador ideal debe de ser a la vez natural e inteligible, y cada tecnologa intentan conseguir el mximo de ambas. Algunas de las tecnologas son mejores en naturalidad o en inteligibilidad y las metas de la sntesis determinan a menudo qu aproximacin debe seguirse. Hay dos tecnologas principales usadas para generar habla sinttica: sntesis concatenativa y sntesis de formantes.
Sntesis concatenativa
La sntesis concatenativa se basa en la concatenacin de segmentos de voz grabados. Generalmente, la sntesis concatenativa produce los resultados ms
ITSSNA
19
Fundamentos de investigacin.
naturales. Sin embargo, las diferencias entre la variacin natural del habla y las tcnicas automatizadas de segmentacin de formas de onda resultan en defectos audibles, que conllevan una prdida de naturalidad.
Sntesis de difonos
La sntesis de difonos usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos depende de la fono tctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. En la sntesis de difonos, la base de datos contiene un slo ejemplo de cada difono. En tiempo de ejecucin, la prosodia de una oracin se sobre impone a estas unidades mnimas mediante procesamiento digital de seales, como codificacin lineal predictiva, PSOLA o MBROLA.
ITSSNA
20
Fundamentos de investigacin.
La calidad del habla resultante es generalmente peor que la obtenida mediante seleccin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes. La sntesis difonos adolece de los defectos de la sntesis concatenativa y suena robtica como la sntesis de formantes, y tiene pocas ventajas respecto a estas tcnicas aparte del pequeo tamao de la base de datos, as que su uso en aplicaciones comerciales experimenta un declive, aunque contina usndose en investigacin porque hay unas cuantas implementaciones libres.
Sntesis de formantes
La sntesis de formantes no usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial. Este mtodo se conoce tambin como sntesis basada en reglas pero algunos aducen que muchos sistemas concatenativos usan componentes basados en reglas para algunas partes de sus sistemas, como el front-end, as que el trmino no es suficientemente especfico. Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial, y la salida nunca se podra confundir con la voz humana. Sin embargo, la naturalidad mxima no es siempre la meta de un sintetizador de voz, y estos sistemas tienen algunas ventajas sobre los sistemas concatenativos. La sntesis de formantes puede ser muy inteligible, incluso a altas velocidades, evitando los defectos acsticos que pueden aparecer con frecuencia en los sistemas concatenativos. La sntesis de voz de alta velocidad es a menudo usada por los discapacitados visuales para utilizar computadores con fluidez. Por otra parte, los sintetizadores de formantes son a menudo programas ms pequeos que los sistemas concatenativos porque no necesitan una base de datos de muestras de voz grabada. De esta forma, pueden usarse en sistemas embebidos,
ITSSNA
21
Fundamentos de investigacin.
donde la memoria y la capacidad de proceso son a menudo exiguas. Por ltimo, dado que los sistemas basados en formantes tienen un control total sobre todos los aspectos del habla producida, pueden incorporar una amplia variedad de tipos de entonaciones, que no slo comprendan preguntas y enunciaciones.
ITSSNA
22
Fundamentos de investigacin.
a fonema, dado que fonema es el trmino usado por los lingistas para describir sonidos distintivos en una lengua. La aproximacin ms simple a este problema es la basada en diccionario, donde se almacena en el programa un gran diccionario que contiene todas las palabras de la lengua y su correcta pronunciacin. Determinar la pronunciacin correcta de cada palabra consiste en buscar cada palabra en el diccionario y reemplazar el texto con la pronunciacin especificada en el diccionario. La otra aproximacin para convertir texto en fonemas es la aproximacin basada en reglas, donde dichas reglas para la pronunciacin de las palabras se aplican a palabras para extraer sus pronunciaciones basadas en su forma escrita. Cada aproximacin tiene ventajas y desventajas. La tcnica basada en diccionarios tiene como ventajas ser rpida y precisa, pero falla completamente si una palabra dada no aparece en el diccionario, y a medida que crece el diccionario crecen los requerimientos de memoria del sistema de sntesis. Por otra parte, la tcnica basada en reglas funciona con cualquier entrada, pero la complejidad de las reglas crece sustancialmente a medida que se van teniendo en cuenta ortografas y pronunciaciones irregulares. Como resultado, casi cualquier sintetizador de voz usa una combinacin de las dos tcnicas. Algunos idiomas, como el espaol, tienen un sistema de escritura muy regular y la prediccin de la pronunciacin de palabras basada en deletreos es casi siempre correcta. Los sistemas de sntesis de voz para este tipo de lenguajes generalmente usan un enfoque basado en reglas como el enfoque central para la conversin texto-fonema y auxilindose de diccionarios pequeos para algunas palabras de origen extranjero cuya pronunciacin no se deduce de la escritura. En otros como el ingls, dado que se trata de sistemas muy irregulares en su escritura, el enfoque se basa principalmente en diccionarios y slo para palabras no usuales se basa en reglas.
Rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico. Los CTV (Conversores de Texto-Voz) producen voz, generalmente, voz de hombre. Hay varias razones que pueden explicar este hecho:
Una explicacin sociolgica obvia es que, hasta hace relativamente poco, las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos. La voz masculina ofrece mejor calidad sonora que la femenina. Esto se debe a que la frecuencia fundamental (primer armnico) de la mujer es bastante ms alta que la de hombre.
ITSSNA
23
Fundamentos de investigacin.
La forma de onda en la voz de mujer tiene un componente de oscilacin no peridica, que viene dado por una mayor frecuencia en la aspiracin, que resulta ms notable que la del hombre. Este componente de la excitacin global es difcil de modelar adecuadamente.
En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable, sin embargo, siguen sin alcanzar la calidad ofrecida por un sintetizador de similares caractersticas que emplee voz masculina.
Lenguaje de seas
El lenguaje de seas, lenguaje dactilolgico o lengua de signos es una forma de expresar caracteres, palabras o frases mediante signos usando principalmente las manos con el fin de comunicarse sin la necesidad de un sistema de signos vocales. Existen varios tipos de lenguaje de signos, varan dependiendo del pas, estado, provincia e incluso cuidad, por lo que no existe un lenguaje de seas universal. Pases como: Venezuela, Mxico, Espaa, Estados Unidos, Argentina, Per, Ecuador y otros tienen su propio lenguaje de seas. Ecuador menciona la lengua de seas ecuatoriana en el artculo 53 de la Constitucin Poltica de 1998.
Visin artificial
La visin artificial se desarrolla como una rama del estudio de la inteligencia artificial. La visin artificial tiene como propsito programar un computador para que pueda interpretar la informacin que contiene una imagen. Un sistema de visin artificial consta de los siguientes elementos: Iluminacin: Consta de todos los dispositivos (lmparas, lser, LEDs, etc.) que sirven como fuente de luz, y a travs de los cuales se va a tener una iluminacin lo ms uniforme posible. De este subsistema depende en gran parte la adecuada adquisicin de la imagen. Captacin: En este subsistema se encuentran los transductores que convierten la radiacin luminosa reflejada en seales elctricas, por ejemplo las cmaras CCD. Sistema de Adquisicin: En este subsistema se transforma las seales elctricas que provienen de las cmaras en seales de video, esto se realiza por medio de tarjetas de adquisicin colocadas en el computador.
ITSSNA
24
Fundamentos de investigacin.
Procesamiento: Consta de uno o varios computadores en los cuales se analiza la imagen captada por el subsistema de adquisicin. Con la ayuda de algunos algoritmos es posible obtener la informacin ms relevante, la cual nos permite posteriormente adecuarla a una aplicacin especfica. Perifricos: Aqu se ubican todos los equipos o dispositivos que reciben la informacin del computador y cumplen la funcin de actuadores dentro del proceso o aplicacin.
ITSSNA
25
Fundamentos de investigacin.
segmentacin. Se realiza un contraste a la imagen con la finalidad de eliminar el ruido existente y resaltar la forma del objeto dentro de la imagen
Proceso de Binarizacin
Este proceso tiene como objetivo convertir la imagen en escala de grises a una imagen binaria, donde los pixeles tengan dos valores, ya sea 1L o 0L. Este consiste en escoger un umbral basado en los valores de los pixeles que se observa en el histograma, el umbral se debe escoger para que el objeto de inters este dentro de la imagen. Una vez escogido este umbral la imagen resultante es una donde solo existen dos valores de color. Blanco y Negro. Para eliminar el ruido existente en la imagen binaria se realiza operaciones morfolgicas como son erosin (1), dilatacin (2), filtros en el dominio de la frecuencia y filtros basados en morfologa de los objetos con los cuales se elimina objetos innecesarios dentro de la imagen.
ITSSNA
26