Capitulo 1

5
CAPTULO 1
INTRODUCCIN

1.1 Antecedentes

No es novedad que el desarrollo de las aplicaciones Web vaya evolucionando en el
mundo empresarial y su forma de hacer negocios por todo el mundo, sin embargo para
poder llevar acabo estos grandes avances es necesario incluso en la actualidad ir
creando nuevas tecnologas. Pero esta evolucin de tecnologas es particular de cada
empresa, lo que produce una incompatibilidad entre tecnologas de diferentes empresas.
Por esto, que se crearon compaas encargadas de la creacin de nuevas
especificaciones o estndares, en las cuales las empresas creadoras de tecnologas deben
de basarse.

Una empresa pionera en la creacin de estos estndares es la W3C (World Wide
Web); organizacin que ha creado especificaciones como lo son: [W3C,1994].
HTML
Es el estndar diseado para estructurar textos en el formato de pginas
Web.
HTTP
Es el protocolo de la Web, es decir, es el sistema por el cual se envan y
reciben las peticiones para poder acceder al contenido de pginas Web.
XHTML
Es un estndar que al igual que HTML pretende conseguir que todas las
pginas Web sean compatibles en cualquier navegador.
6
CSS
Sirve para especificar el tipo de diseo de las pginas Web, es decir, una
misma pgina Web puede ser vista con diferentes diseos en una PC que en
un Celular.
El W3C y otras, trabajan en conjunto para poder desarrollar aplicaciones Web.
La organizacin W3C, es entendido por las industrias y la Web, como un
estndar a utilizar en toda la Web, donde cada uno de los estndares creados por el
grupo es una especificacin estable implementada y revisada por el grupo W3C.
Desde hace algunos aos esta organizacin ha estado evolucionando en la
creacin de nuevos estndares que han llamado la atencin de las empresas, ya que,
estos estndares se han elaborado para fomentar el surgimiento de aplicaciones basadas
en el reconocimiento de voz.
Tim Berners-Lee (2004), Director del W3C menciona: "Con el desarrollo de la
Infraestructura del Interfaz del Habla del W3C, incluyendo VozXML 2.0 y SRGS,
ahora somos capaces de integrar y beneficiarnos de los puntos fuertes de ambos grupos
la fuerza e impacto de la investigacin industrial y la amplitud de las pruebas y
desarrollo de productos, y la extensibilidad y apertura de soluciones tcnicas que son
consistentes con los principios tcnicos de la Web y pueden escalarse en
consecuentemente."
Con la creacin de estas aplicaciones se busca remplazar las clsicas interfaces
graficas que slo reciben y entregan informacin al usuario por texto, cambindolas por
interfaces graficas basadas en el reconocimiento de voz para que puedan interactuar con
el usuario recibiendo y entregando informacin. [Lleida, 2000 ]

7
Un ejemplo del uso de estas aplicaciones son los telfonos, que sirven como entrada
y salida de informacin para el usuario. Las interfaces basadas en el reconocimiento de
voz son cada vez ms utilizadas por la gran evolucin en los dispositivos telefnicos.
[Lleida, 2000 ].
La forma de hacer que diferentes mecanismos de acceso a la informacin como los
telfonos, realicen distintas tareas, por ejemplo el tener acceso a los servicios Web
mediante la voz o texto, dependiendo del gusto o bien de las capacidades fsicas del
usuario satisfactoriamente, es necesario utilizar distintos estndares para su
construccin. Entre ellos tenemos VXML, SGRS, SSML y CCXML.

VoiceXML.
Lenguaje de marcado creado para el desarrollo de aplicaciones basadas en voz
sintetizada, audio digital, as como tonos duales multifrecuencia como los
teclados de tonos, grabadores de voz y la telefona, es decir, est diseado para
crear dilogos de audio y encargarse del control de la interaccin con el
usuario.[W3C, 1995]
Explic Dave Raggett (2004), Lder de Actividad de Navegacin de Voz del
W3C : "VoiceXML tiene el poder de cambiar la forma en que se desarrolla la
informacin que se emitir por telfono y los servicios de atencin a clientes. No
tendremos que utilizar nunca ms el pulsar 'uno' para esto o 'dos' para aquello.
En vez de eso, podremos realizar selecciones y proporcionar informacin
mediante voz, adems, VoiceXML, crea oportunidades para personas con
discapacidades visuales o para aquellos que necesitan acceso Web mientras
tienen ocupados sus ojos y manos en otras cosas, como obtener indicaciones
mientras se conduce."
8
Lenguaje de etiquetado de sntesis del habla (SSML).
La especificacin de la W3C SSML (Speech Synthesis Markup
Language), es un grupo de especificaciones de marcas para complementar a
XML que asiste la generacin de voz sinttica en la Web, tambin controla
aspectos de salida de voz como lo son el volumen y el tono.
[Lapuente,2007]

Control de llamadas para navegadores de voz (CCXML)
Da el soporte necesario para poder tener el control de llamadas telefnicas
mediante VoiceXML o bien otros sistemas de dilogo.

La interaccin de estos estndares entre si hacen posible el desarrollo de una gran
variedad de aplicaciones, como por ejemplo: las operadoras automticas en empresas de
televisin por cable, telfonos y bancos, entre otros; operadoras que interactan con el
usuario pidindole cierta informacin por voz y teclado del telfono para dirigirlos
hacia el departamento o persona con quien se quieren comunicar.

Especificacin de la gramtica para el reconocimiento del habla (SRGS).
La gramtica de especificacin SGRS (Speech Grammar Recognizer
Specification), define una sintaxis para representar gramticas que son
utilizadas en el reconocimiento de voz, mediante las cuales se puede
especificar palabras o un conjunto de palabras para ser reconocidas por algn
reconocedor de voz. Adems de abarcar las entradas de voz SGRS tiene el
poder de cubrir las entradas DTMF, entradas que son muy valiosas en
ambientes donde existe ruido o el contexto social hace que el habla sea
9
difcil de reconocer. Esta gramtica de especificacin se puede tambin
dirigir hacia aplicaciones de reconocimiento de escritura en las que mediante
un conjunto de palabras, las entradas del usuario sean limitadas.
Segn Tim Berners-Lee (2004), director del W3C: "Terminar VoiceXML y
SRGS marcan un hito apasionante en la convergencia de las tecnologas de
telecomunicaciones y del Internet. Histricamente, existan lagunas tcnicas y culturales
entre la forma en que los sistemas basados en voz y los basados en Internet, haban
evolucionado, de forma que la informacin slo estaba disponible para uno de ellos, los
sistemas de voz o va Internet. Con el desarrollo de la Infraestructura del Interfaz del
Habla (Speech Interface Framework) del W3C, incluyendo VoiceXML y SRGS, ahora
somos capaces de integrar y beneficiarnos de los puntos fuertes de ambos grupos -la
fuerza e impacto de la investigacin industrial y la amplitud de las pruebas y desarrollo
de productos, la extensibilidad y apertura de soluciones tcnicas que son consistentes
con los principios tcnicos de la Web y pueden escalarse, consecuentemente."
Es decir, anteriormente slo existan aplicaciones independientes de
reconocimiento de voz, como sistemas de dictado y redes neuronales, o bien
aplicaciones Web. Debido a la construccin de estndares como VoiceXML y SGRS,
en la actualidad es posible realizar bsquedas de informacin en la Web mediente voz,
adems, utilizar cualquier telfono para poder acceder a la informacin o servicios de
Internet.

10
1.2 Anlisis del Problema
En el desarrollo de este tipo de aplicaciones basadas en el reconocimiento de la voz para
la creacin de portales de informacin, uno de los requerimientos ms comunes para los
corporativos, ha sido la creacin de gramticas para el reconocimiento de vocabularios
alfanumricos, como lo son:
Nmeros de identificacin. (RFC, IMSS, CURP, IFE).
Nmeros de telfono.
Tarjetas de crdito.
Placas de autos.
Frecuentemente se requiere que estas aplicaciones sean desarrolladas en un
contexto bilinge o multilinge, es decir, se necesita que las gramticas sean
implementadas con la facilidad para trabajar con ms de un idioma.
Otro de los requerimientos es la restriccin de la cobertura del vocabulario, esto
es, la lista de las secuencias predefinidas de los nmeros que solamente van a poder ser
reconocidos, por ejemplo los nmeros de clientes que se encuentran almacenados en
una base de datos.
En el desarrollo de estas aplicaciones el reconocimiento de voz de una serie de
letras y nmeros no es una tarea trivial, esto debido a las similitudes y alta variabilidad
que hay al expresarlos oralmente, as como la complicacin que existe al intentar
recuperar una serie de nmeros en distintas combinaciones. Un ejemplo sencillo sera
un nmero telefnico y todas las distintas formas de decirlo.
Ejemplo.
Se tiene el telfono: 26-30-11-30 y slo se requiere sea reconocido en decenas y
unidades, esto es:
Algunas distintas formas de decirlo seran:
11
Veintisis Treinta Once Treinta.
Veintisis Treinta Uno Uno Tres Cero
Dos Seis Tres Cero Once Tres Cero
Dos Seis Treinta Uno Uno Treinta
Las formas no aceptadas seran:
Doscientos sesenta y tres- cero- ciento trece cero
Veintisis- trescientos uno- ciento treinta
Es por lo anterior, que se propone llevar acabo el desarrollo de una aplicacin
web para generar automticamente gramticas que permitan el reconocimiento de
cadenas alfa-numricas para reconocedores de voz, limitando las distintas formas de
decir la cadena de nmeros, como se puede ver en el ejemplo anterior, a las ms
comunes. Esta herramienta deber estar accesible va Internet.

1.3 Objetivo General

Implementar una aplicacin basada en web para generar automticamente gramticas
para contextos alfa-numricos de forma sencilla, de alto nivel y con una interfaz grfica,
a partir de un lenguaje de especificacin para secuencias alfanumricas, con apoyo de
XML y Voice XML. Esto debido a que ambas son herramientas que se adaptan para el
desarrollo de aplicaciones hacia el procesamiento del lenguaje natural, puesto que,
permiten distinguir la estructura y definir con precisin las oraciones de un lenguaje.
Se propondr y documentar un lenguaje para la especificacin de secuencias
alfanumricas, adems de implementar un intrprete del lenguaje propuesto que
produzca como resultado una gramtica en formato SRGS en XML que sea capaz de
reconocer las secuencias especificadas en uno o ms idiomas.
12

1.3.1Objetivos Especficos

Propuesta y documentacin del lenguaje de especificaciones simples para
contextos alfa-numricos.
Ejemplo.
Requerimiento: Se necesita la creacin de una gramtica que reconozca
nmeros de placa. El lenguaje por medio de ciertas restricciones reconocer que
las posibles combinaciones que se desean reconocer son las siguientes:
(L una letra y N un nmero).
1.- L-L-L NNNN.
2.-L-L NNNN.
3.-L- NN-NN.
Implementacin de un intrprete del lenguaje que toma como entrada una
expresin del lenguaje de especificacin generando como resultado una
gramtica hecha en SRGS XML.
Diseo de la interfaz para la generacin automtica de gramticas SRGS XML.
En el diseo de la interfaz se consideraran tcnicas de interaccin humano-
computadora para facilitar la navegacin en esta y evitar en la mayor cantidad
posible confusiones al usuario.
Construccin del la aplicacin Web en el lenguaje de programacin orientado a
objetos J AVA, J AVA-SCRIPT y J SP. Esta interfaz tendr como objetivo
principal facilitar al usuario la construccin de su gramtica para la aplicacin
que desee. Adems de ser lo mas amigable posible para que el usuario tenga la
capacidad de utilizarla sin leer informacin acerca de las funciones de la
interfaz.

13
A continuacin se muestra de manera abstracta el diagrama de la aplicacin:

Figura 1.1 Diagrama General de la Aplicacin.

1.4 Alcances y limitaciones

a) El lenguaje de especificacin desarrollado, deber ser simple y flexible para permitir
la especificacin de los contextos alfanumricos ms utilizados, como lo son nmeros
telefnicos, placas de automviles, nmeros de identificacin, nmeros de tarjetas de
crdito, etc.

Especificacin
de secuencias
Texto
Reconocido
Gramtica
String Intrprete
Generacin de
Grmaticas
SGRS
Reconocedor
de voz
Interfaz Analizador o
Parser
Segmento que
abarca el
proyecto.
14
b) La implementacin de la aplicacin grfica ser lo suficientemente amigable,
con la finalidad de que los usuarios puedan definir secuencias alfanumricas sin
necesidad de ser expertos en el reconocimiento de voz, es decir, no es necesario que
sean altamente conocedores del lenguaje de marcado VoiceXML para poder crear una
gramtica de una secuencia alfanumrica que pueda ser reconocida por algn
reconocedor de voz. Tanto el lenguaje de especificacin como la aplicacin web
debern evaluarse en los siguientes idiomas: ingls-de EEUU y espaol. Adems de
estar diseados de forma modular y estar documentados apropiadamente para que en el
futuro cualquier desarrollador de aplicaciones basadas en reconocimiento de voz pueda
agregar generadores para otros idiomas.

c) Presentar la documentacin del lenguaje para la especificacin de secuencias
numricas y una aplicacin web programada en el lenguaje de programacin orientado
a objetos J AVA, la cual, por medio de un intrprete ser capaz de generar una gramtica
GRXML para el reconocimiento de cadenas alfa-numricas mediante voz.

Las limitaciones del lenguaje de especificacin y el intrprete sern que los
grupos de nmeros no podrn ser ms grandes que secuencias de 4 dgitos, lo cual, es
considerado suficiente para la mayora de los casos reales.

15
1.5 Justificacin

El proyecto desarrollado ser til para guiar a los reconocedores de voz a travs de
gramticas que describen las respuestas que se esperan del usuario, a travs de la
especificacin de las palabras o frases que la gramtica requiera, para llevar acabo el
reconocimiento mediante voz de las mismas.

Tambin uno de los avances que se espera con la realizacin del proyecto es
poder modificar la forma en que se desarrollan los servicios de informacin que son
emitidos por telfono, es decir, tener la posibilidad de realizar selecciones y
proporcionar informacin mediante voz reconociendo cadenas alfanumricas va
telefnica, para de esta forma dejar atrs el uso en la seleccin de informacin de tonos.

Adems de proporcionar un ambiente agradable al usuario del tipo desarrollador
mediante una interfaz grfica que le de el poder de elegir algunas de las gramticas
existentes o bien crear una gramtica SRGS nueva a travs de restricciones para
conseguir ser reconocida por algn reconocedor de voz, lo anterior logrndolo sin tener
que aprender o ser experto en el formato de las gramtica SRGS XML.

Capitulo 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 1

Cargado por

Copyright:

Formatos disponibles

5

También podría gustarte