Capitulo 3 Palabra y Vocabulario

Elementos para el funcionamiento del Reconocimiento de Voz.
Un reconocedor es relativamente sencillo si solo tiene que el reconocedor palabras aisladas, sin embargo es más
complejo si debe reconocer las palabras de una frase, pero introduciendo una pausa entre cada palabra, el sistema
más complicado es aquel que debe de funcionar reconociendo habla continua o forma natural del habla.
Para que cualquier tipo de reconocedor pueda funcionar necesita de los siguientes elementos básicos:
Vocabulario
Gramática
Idioma
VOCABULARIO: Es el número de palabras diferentes que debe reconocer el sistema. Mientras más grande el número
de palabras diferentes más difícil es el reconocedor, debido a que con mayor probabilidad puede que aparezcan
palabras parecidas entre si.
GRAMATICA: Es el conjunto de reglas que limita el número de combinaciones permitidas de las palabras del
vocabulario. Una gramática ayuda a mejorar la tasa de reconocimiento a través de la eliminación de ambigüedades,
además, de aumentar la rapidez y precisión del proceso de reconocimiento al limitar el número de palabras en una
determinada fase del reconocimiento, es decir el diseño adecuado de las reglas y la interfaz optimiza el
reconocimiento.
Por ejemplo: si una aplicación debe reconocer un número de teléfono, la gramática para este ejemplo se dice que el
vocabulario son los números del 0 al 9 y debe reconocer un conjunto de 7 dígitos, de manera que si el sistema
reconoce más o menos, quiere decir que existe algún error.
IDIOMA: Indica al reconocedor bajo que idioma se va a trabajar, es necesario, ya que en cada idioma cambia la
forma de pronunciación y significado de las palabra, y por lo tanto influye en la construcción de la gramática y
vocabulario del reconocedor.
Diagrama General del Reconocedor de Voz
Dificultades
Los sistemas de Reconocimiento de voz brindan muchas ventajas, como la introducción de datos a una base de
datos o bien a un procesador de texto de forma rápida y como consecuencia de esto, se evita el uso de dispositivos
de entrada como el mouse y el teclado.
Sin embargo existen muchas dificultades en el proceso de reconocimiento de voz, una de estas dificultades es el
ruido que se capta junto con la señal de voz debido a que fuentes externas como: televisor, radio, conversaciones de
otra gente y otros ruidos ajenos a la señal de voz, que se encuentran cerca del micrófono.
Otra de las dificultades es el sonido del habla emitido por cada usuario, es decir cada persona tiene distintas formas
de hablar, de hacer sonar los distintos acentos, velocidad del habla, de respiración y gran variedad dialéctica de
hablar el idioma.
CAPITULO 3: REPRESENTACION DEL VOCABULARIO

Uno de los objetivos de la tecnología de reconocimiento de voz es permitir a los usuarios usar las palabras
necesarias para comunicarse con el sistema y decirle que quieren hacer. Esto se traduce en grandes requerimientos
y vocabularios extensos y expandibles.
En la practica el vocabulario que demandan las aplicaciones varían desde unas pocas palabras hasta miles de
palabras. Muchas aplicaciones requieren 50 o menos palabras, pero los desarrolladores realizan sistemas capaces de
procesar cantidades mayores superiores de vocabulario.
A pesar de que los fonemas son los segmentos de sonido básico de una lengua, la mayoría de los sistemas de
reconocimiento comerciales usa palabras, en lugar de fonemas.
Las tecnologías dominantes utilizadas para representar palabras en el vocabulario, tanto grandes como pequeñas
son:
Plantillas
Modelos de Ocultos de Markov
Secuencia de fonemas
Secuencia de silabas
Cada tecnología describe en términos de cómo se define el concepto de la palabra y la forma en que aborda la
variabilidad del habla.
Que es una palabra?
Se puede decir que para los humanos las palabras habladas son un conjunto de sonidos que llevan un significado
inherente. Lo mismo sucede cuando agrupamos palabras en frases porque son cosas que ya se conocen por la
experiencia, gracias a estos conocimientos se puede evitar confundir palabras en función al tiempo y otros factores
más.
Los sistemas de reconocimiento de voz son como las personas que escuchan “Frases”. Los recursos primarios para
obtener información es convertir ese flujo de palabras ó sonidos hablados en palabras simples o conjunto de
palabras. Durante el proceso de reconocimiento, estas palabras son comparadas con los modelos de
almacenamiento de sistemas de reconocimiento, para obtener información.
Los métodos de representación más utilizados son: Plantillas, Modelos Ocultos de Markov, Secuencia de Fonemas y
Secuencia de Sílabas.
Todos los métodos de representación de palaras deben abordar la variabilidad en que las palabras son habladas.
La variabilidad surge a raíz de varias causas, una de las causas es la coarticulación y también la diferencia entre los
oradores(SPEAKERS).
Cada orador tiene diferente forma de vocalizar las palabras, por el tamaño de la boca, lengua, dientes, etc.
También se diferencian en la forma en la que se pronuncian los fonemas y las palabras. Algunos patrones de
pronunciación varían de acuerdo a la edad, región, sexo.
La variación no solo se da entre distintos oradores, sino también en un orador varía su modo de hablar en función al
volumen y velocidad de las palabras.
Las plantillas tratan de emparejar la palabra hablada con un modelo que lo representa.
Una plantilla es una secuencia de vectores, los cuales contienen un conjunto de valores para los parámetros usados
en un sistema, para representar el habla.
La representación es simple, sencilla y fácil de generar.
En los primeros sistemas usaban plantillas, cada plantilla representaba un ejemplo(llamado una Ficha) de una
palabra producida por el orador. 10 señales habladas son almacenadas en diez plantillas y cada plantilla no se
puede modificar.
El resultado de las variaciones de los oradores eran capturadas y guardadas en un conjunto de plantillas para cada
palabra en el vocabulario de la aplicación.
Este es un enfoque simple a las funciones de variabilidad en vocabularios pequeños que contienen palabras
altamente diferenciadas.
Este enfoque para vocabularios grandes de un centenar de palabras se convierte inaceptablemente ya que consume
mucho tiempo y propenso a errores.
Modelos Ocultos de Markov (HMM)

En la mayoría de sistemas de procesamiento estocástico diseñadas para reconocimiento de voz, una palabra es
representada por un modelo Oculto de Markov.
HMM son diseñados para capturar y representar patrones de variación.
Un modelo de Markov consiste en una secuencia finita de estados conectados entre si, por posibilidades de
transición.
HMM se pueden estructurar en una variedad de formas. La arquitectura de HMM más común encontrada en RV es
la Izquierda-Derecha y es bidireccional.
Los HMM son rápidos, eficientes y exactos.
Una de las críticas de HMM es que los estados de un HMM son funcionalmente independientes.
Modelos de Fonemas
La investigación del enfoque Acústico-Fonético en RV, observa las palabras como secuencia de fonemas.
Unidades fonéticas tienen la ventaja de un modelo-económico porque la mayoría de los idiomas tiene solo 50 o
menos fonemas.
Si el vocabulario crece no producirá el incremento lineal en el almacenamiento en las computadoras comparado con
otra metodología.
El hecho de que los fonemas son elementos básicos en el lenguaje humano hace más fácil crear aplicaciones de un
lenguaje a otro e incrementar el vocabulario de un lenguaje a otro.
Hay muchas maneras de crear modelos fonéticos dependiendo de las reglas lingüísticas, se necesita desarrollar un
vocabulario grande con RNs y modelo estocástico.
SUB-PALABRAS
Los modelos de sub-palabras son cada vez más importantes a medida que crece el RV, aun así se hace muy difícil
de reconocer todos los modelos de palabras.
Este problema surge en sistemas que definen sus palabras en términos de elementos fonéticos como otra unidad
de sub-palabras.
Estas sub-palabras se trataron de representar con fonemas, sílabas y semi-sílabas, sin embargo se encontró que
los trifones son la mejor forma de representar ya que son más robusto y factibles de desarrollar.
Triphone no es un fonema, a pesar que algunos vendedores se refieren a los triphones como fonemas rodeados por
información contextual.
Generalmente los triphones son representados por HMM, los cuales contienen 3 estados representando la:
La transición del fonema anterior
El fonema
La transición del fonema al fonema siguiente,
` Diseño de Vocabulario
Una de las metas de RV es que se pueda comunicar con un sistema de reconocimiento usando cualquier
vocabulario.
Diseño amplio de Vocabulario
Sistemas de amplio vocabulario usa sub-palabras para definir las palabras en el vocabulario, esto es necesario
porque el tiempo, costo y esfuerzo de los modelos de desarrollo para 10.000 o mas palabras es demasiado.
El desafío para los desarrolladores es crear vocabulario que tengan palabras de uso frecuente como ser los dígitos o
días de la semana.
Buscar la eficiencia
Todos los sistemas de reconocimiento deben abordar la cuestión de identificar en forma precisa la entrada en un
cierto tiempo y que sea aceptable.
En sistemas con vocabulario reducido se puede realizar búsqueda lineal, pero para vocabulario mayores a 1000
palabras ya no es posible. Para dar solución a este problema consiste en utilizar una gramática para restringir las
opciones disponibles de palabras en cualquier momento.
Y otra técnica seria organizar el vocabulario en un árbol.
En la tecnología una palabra se define en términos de su representación acústica.

Para el buen funcionamiento de una aplicación, otras dos facetas del concepto de una palabra son tan importantes.
Ellos son los:
Identificador de palabra
Traducción
Identificador de palabra
Un identificador es la etiqueta o nombre único asignado a una palabra. Se utiliza para distinguir esa palabra de todas
las otras palabras en el léxico.
Para facilitar el diseño y uso para los desarrolladores de aplicaciones, sistemas comerciales emplean grafémica o
representación impresa de una palabra como su identificador.
En los sistemas de palabra hablada. Por Ejemplo: "uno", se identifican con letras de uno o por el dígito 1. El uso de la
ortografía permite la diferenciación entre homófonos, como "uno" y "un".
Algunos sistemas distinguen entre mayúsculas y minúsculas. En estos sistemas el identificador de “uno” se refiere a
una palabra diferente que el identificador de “un” aunque la entrada que habla es el mismo.
Traducción
Traducción se refiere a la conversión de una entrada reconocida en una forma que otros componentes de la
aplicación puedan utilizar.
Su forma y contenido están definidos por el software y/o hardware que recibe la entrada reconocida. Si una palabra
hablada se convierte en una serie de pulsaciones de teclado, Como por ejemplo: los tonos marcados en un teléfono,
varios párrafos de texto o cualquier otra representación, depende por completo de los requisitos de la aplicación.
Traducción vs. Significado.
En los sistemas de reconocimiento de voz comerciales de hoy en día, las palabras no tienen sentido como en una
comunicación humana. La traducción asignada a una palabra en una simple conversión de una representación digital
a otra.
Algunos diseñadores de sistemas reconocen el valor potencial del significado del nivel de la palabra (llamado
semántica léxica) para aumentar la precisión del reconocimiento.
Los significados de las palabras podría, Por ejemplo, ser usado para seleccionar entre los candidatos palabras con
patrones similares de acústica.
Pueden ser utilizados para reducir el espacio de búsqueda, limitando el número de opciones de palabras válidas.
Ellos podrían ayudar a detectar los errores del habla y manejar una auto-corrección, y podrían usarse para que un
sistema se comporte como un ser humano.
Las técnicas de semántica léxica están siendo probadas en sistemas de investigación oscilan entre categoría simple,
tales como Nombres de ciudades, y las estructuras semánticas complejas definidas por las teorías lingüísticas.
Múltiples traducciones
No hay ambigüedades en reconocimiento de voz. Un patrón de voz simple puede tener una traducción en cualquier
lugar de una aplicación. No se permite la ambigüedad. Esto es necesario para asegurar un rápido y preciso
procesamiento.
Muchos productos de reconocimiento permiten más de una traducción de la misma palabra en una aplicación. Por
ejemplo: La palabra "uno“ puede ser usado para generar el dígito 1, o en otro caso para generar los caracteres u n
o.
En cada caso la traducción debe ser clara y no ambigua.
Variantes de palabras
Un diccionario estándar con una entrada de la palabra "reconocer“, podría incluir la siguiente información:
PASADO : reconocida,
FUTURO: reconocerá,
PRESENTE: reconoce.
ADJETIVO: reconocibles,
ADBERVIO: reconocible.
Un Diccionario en reconocimiento de voz, requiere entradas separadas para cada palabra. Esta restricción es
coherente con el enfoque acústico de los vocabularios de reconocimiento de voz y está diseñada para reducir al
mínimo la complejidad del proceso de reconocimiento. En consecuencia, cuando el proveedor de un sistema de
reconocimiento informa de un vocabulario enorme por ejemplo: 40.000 palabras, significa que el sistema contiene
40.000 identificadores de palabras individuales, algunos de los cuales es probable que sean variantes.
Vocabulario de diseño
Antes de 1990 sistemas de reconocimiento voz comerciales ofrecían una de las dos opciones de diseño vocabulario:
Proveedor - construido léxicos ( Vendor-built lexicons).
Diseñador de aplicaciones crean con nivel de palabra de vocabulario
Desde entonces las opciones se han ampliado para incluir:
Proveedor construido léxicos
Diseñador de aplicaciones crean con nivel de palabra de vocabulario
Diseñador de aplicaciones crean con subpalabras de nivel de vocabulario.
Usuario final crea su vocabulario.
Extracción de vocabulario automático de vocabulario.
Una combinación de las alternativas anteriores.
Proveedor - construido léxicos ( Vendor-built lexicons)
El proveedor integrado de lenguajes son sistemas de vocabularios que han sido construidos por el proveedor.
Aplicaciones con software incluido y sistemas con modelos a menudo contienen y sistemas de modelos de usuarios
con habla independiente contienen un proveedor integrado de lenguajes (Vendor-Built Lexicons), el cual toma una
variedad de formas, los más comunes son:
Diccionarios
Vocabularios de aplicación especificas

Diccionarios
Los diccionarios son usualmente encontrados en amplios sistemas de vocabulario y sirven como un recurso de copia
de seguridad.
El diccionario de un sistema de reconocimiento con un amplio vocabulario es algunas veces llamado vocabulario
completo del sistema.
El tamaño del diccionario está limitado por el desarrollador del vocabulario y por algunas restricciones del
dispositivo de almacenamiento en el que el diccionario reside.
El diccionario completo de un sistema comercial almacena más de 100.000 palabras individuales, cada una de ellas
está representada como una secuencia de fonemas, trifones (secuencia de tres fonemas) u otras unidades que
forman la base del reconocimiento para los sistemas.
Los diccionarios deben ser diseñados para que puedan cubrir adecuadamente las aplicaciones.
La selección de un vocabulario inicial por un diccionario generalmente consiste de palabras y frases consideradas
necesarias para la operación del reconocimiento y por el rango esperado de las aplicaciones. Ellas pueden incluir
palabras de control de reconocimiento y un vocabulario común, tales como dígitos y días de la semana.
Los artículos de un vocabulario adicional pueden ser reunidos desde bases de datos y otras fuentes en línea. Tales
palabras son escaneadas por errores ortográficos y evaluados en base a las métricas como frecuencia de aparición.
Vocabularios de aplicación especifica
Los vocabularios de las aplicaciones “turnkey”, tales como una interfaz de voz para un producto específico como
Excel proporcionan al proveedor integrado de lenguajes estar sintonizado con las funciones de esa aplicación.
Un sistema turnkey con un vocabulario de tamaño moderado tal como un discurso de interfaces para Microsoft
Windows, el vocabulario de una aplicación vinculada representa todo el vocabulario del sistema.
El vocabulario incorporado reduce el tiempo de desarrollo de la aplicación al mismo tiempo manteniendo un alto
nivel de calidad del diseño del vocabulario.
En los sistemas de grandes vocabularios con diccionarios integrados, el vocabulario de una aplicación específica
representa el subconjunto del vocabulario total del sistema. Estos pueden ser llamados vocabulario residente de la
aplicación.
El tamaño y genero del vocabulario residente varia generalmente con el sistema de reconocimiento y la aplicación.
Algunos desarrolladores ofrecen varias opciones como una forma de satisfacer los requerimientos de vocabularios
de sus clientes.
Creación de vocabulario por aplicaciones desarrolladoras
La creación de vocabulario de aplicaciones diseñadoras requiere de las aplicaciones desarrolladoras para identificar
el vocabulario necesario para una aplicación y para definir el sistema de reconocimiento de voz. Poco o nada
siempre se suministra vocabulario. En cambio los productos contienen reconocimiento de vocabulario y
herramientas de desarrollo. Mas sistemas de reconocimiento de habla dependiente requieren la creación de
vocabulario de aplicaciones diseñadoras; y un creciente número de pequeños vocabularios proporcionan a los
sistemas de habla independiente aplicaciones desarrolladoras con herramientas desarrolladoras también.
Los proveedores que utilizan modelos de sub-palabras han creado un nuevo vocabulario con artículos de sí mismos.
La mayoría de los sistemas permiten aplicaciones desarrolladas que requieren nuevo vocabulario, pero el desarrollo
de sub-palabras es realizado por el proveedor.
SPEECH SYSTEMS INC. Fue una de las primeras que permitía a las aplicaciones desarrollada añadir palabras a sus
propios diccionarios. Ellos proporcionaron una función para convertir la ortografía de una nueva palabra a su
representación fonética.
BBN´s HARK, Philips Dictation Systems Developers Toolkit y Corona´s Toolkit son ejemplos de otros sistemas
comerciales basados en sub-palabras que permiten a los desarrolladores generar un nuevo diccionario básico para
escribir una ortografía fonética. Ya que la complejidad de la ortografía fonética puede ser confusa, los proveedores
están comenzando a implementar otras formas de obtener la pronunciación, como concatenando piezas existentes
de sub-palabras que contienen el mismo patrón de sonido.
Creación de vocabulario por usuarios finales
El desarrollo de vocabulario del usuario final es una técnica importante para la personalización de una aplicación. La
inclusión de estas herramientas que reflejan una toma de conciencia de los usuarios finales que tienen
requerimientos únicos e individuales.
Una segunda razón para incorporar herramientas de desarrollo de vocabulario para usuarios finales es que la gran
mayoría de los errores de reconocimiento son el resultado de vocabulario perdido. Ya que la mayoría de los sistemas
no posee capacidades de rechazo de falta de vocabulario, ellos generan un reconocimiento para intentar encontrar
una coincidencia entre las palabras del vocabulario existente.
No es posible predecir todas las palabras que serán necesarias por cada usuario. De hecho la entrada del vocabulario
es bastante común en los sistemas de dictado, haciendo de las herramientas de creación de vocabulario para el
usuario final un requerimiento para sistemas de gran vocabulario.
El modo en que los usuarios finales pueden añadir vocabulario varía con el sistema. A pesar de que son sistemas de
sub-palabras fundamentalmente, la mayoría del vocabulario del usuario final está ingresado por modelos de nivel
palabra de habla dependiente.
Los proveedores están comenzando a permitir a los usuarios añadir palabras al vocabulario residente, pero en
muchos casos aun son representaciones de nivel de palabra que deben ser entrenadas por cada usuario. Estos
enfoques representan limitaciones en las capacidades de estos sistemas porque la tendencia en generar modelos de
habla independiente para vocabulario añadido del usuario.
Algunas pequeñas aplicaciones de llave en mano altamente estructuradas esperan crear nuevas palabras de usuario
como parte de la operación del sistema.
Sistema de marcado de telefonía celular son los mejores ejemplos en estos sistemas. La construcción de vocabulario
limitado de usuario final está comenzando a aparecer en interfaces de voz para Windows también.
Los proveedores se dan cuenta que satisfacer las necesidades de los usuarios finales es fundamental para la
tecnología de reconocimiento de voz. Por consiguiente, como los sistemas de reconocimiento crecen en poder y
flexibilidad el rol del desarrollo del vocabulario del usuario final aumentara.
Extracción automática de vocabulario
La extracción automática de vocabulario algunas veces llamada optimización de vocabulario implica la extracción
automática de vocabulario desde archivos en línea o sistemas. Esto representa el primer paso hacia el vocabulario
de crecimiento automático.
La importancia de la extracción automática de vocabulario por aplicaciones desarrolladas es que transfiere el

proceso de especificación y definición desde el sistema de reconocimiento del desarrollador hacia el vocabulario de
la aplicación.
El desarrollador ya no necesita buscar a través de la aplicación para identificar el vocabulario necesario y luego
definir el vocabulario y sus traducciones para el sistema. Para aplicaciones de vocabulario pequeño, el vocabulario
de extracción automática simplifica y acorta el proceso de desarrollo.
Este enfoque puede ser solamente usado por aplicaciones que utilicen sistemas informáticos en línea como las
interfaces de voz para los programas informáticos.
Los proveedores de reconocimiento de vocabulario amplio están recurriendo a la extracción automática de

vocabulario para proporcionar un grado de personalización al diccionario. Han comenzado a ofrecer herramientas
para explorar el vocabulario de documentos similares que serán generadas por el usuario de la aplicación.
El sistema dragón fue el primer proveedor de un sistema de dictado con este tipo de extracción automática de
vocabulario.
La extracción automática de vocabulario representa otra manera en que los proveedores de sistemas de
reconocimiento están intentando resolver las necesidades de sus usuarios. Este es un enfoque que crecerá en
importancia y disponibilidad.
Problemas especiales de vocabulario
Problemas especiales de vocabulario son los siguientes:
Vocabulario activo.
Palabras confusas.
El alfabeto.
Números.
Vocabulario activo
El vocabulario activo de un sistema es el conjunto de palabras que permite o espera que se le hable en un momento
dado. Esto constituye las palabras candidatas que el sistema evaluara y será el punto de entrada del reconocimiento.
El vocabulario activo es rara vez equivalente al amplio vocabulario de un sistema o aplicación, pero en los sistemas
de amplio vocabulario puede algunas veces ser prácticamente equivalente al vocabulario residente. El concepto de
vocabulario activo está vinculado al uso de gramáticas y será analizado con más detalle en el capítulo 4.
Palabras confusas
Las palabras confusas son palabras que suenan igual para el sistema de reconocimiento. Cuando se usa en el mismo
vocabulario activo tales palabras probablemente incremente los errores de reconocimiento. En general, palabras de
una sola silaba son más confusas que palabras largas porque contienen menos información acústica que ayude al
sistema. Desafortunadamente las 200 palabras más utilizadas en ingles son palabras de una silaba. Entre ellas son
palabras de enlace como “a” y “the” cuya acústica similar puede reportar más del 50% de los errores del sistema de
reconocimiento.
Una técnica común para mejorar la precisión del reconocimiento de posibles palabras confusas es incluir un umbral
de similitud de coincidencia de patrones entre la entrada y los modelos almacenados. Si la mejor coincidencia
encontrada por el reconocedor no alcanza el umbral, el sistema puede solicitar la repetición o validación del usuario.
Otra técnica para palabras confusas es el cross-train. Es una función que es proporcionada por algunos sistemas
comerciales de reconocimiento. Implica la extracción de patrones acústicos de las palabras. Este proceso acentúa las
diferencias entre las palabras y minimiza las similitudes
Siempre que sea posible las palabras confusas deben evitarse. Esto no es siempre posible, especialmente en
sistemas con amplio vocabulario y cuando palabras confusas que constituyen un grupo natural de palabras.
El Alfabeto
Los nombres de las letras del alfabeto constituyen el conjunto más problemáticos de las palabras confundibles en
inglés. Un grupo de nombres de letras el más problemático para reconocedores y seres humanos tiene un nombre
especial: el conjunto-e (E-set). El conjunto-e se refiere a nombres de letras que terminan con el fonema iy
(incluyendo ¨b, c, d¨ y ¨g¨). Otros dos grupos de nombres de letras confundibles en Ingles Americano pueden ser
etiquetados el conjunto-a (a-set) (incluyendo ä¨ y ¨h¨) y el conjunto eh (eh-set), que incluye ¨m, n, s¨ y ¨f¨.
Porque la capacidad de escribir palabras es una faceta importante de muchas aplicaciones, una gran cantidad de
atención se ha prestado a la creación de herramientas para manejar la ortografía. El hecho de que solo algunos
reconocedores comerciales han implementado la ortografía alfabética es una indicación del nivel de dificultad
involucrado. Algunos vendedores todavía recomiendan a sus usuarios substituir el alfabeto militar (älpha, bravo,
Charlie…¨) o un conjunto de palabras altamente distinguibles.
Números
Muchos sistemas de reconocimiento requieren que los números se hablen como una lista de un solo digito. Cuando
usamos este sistema un usuario tendría que introducir el número 1445 como üno cuatro cuatro cinco¨. Este es un
producto de la necesidad para sistemas de reconocimiento de voz para el procesamiento riguroso de una traduccion
por palabra. Si la traducción de ¨thousand¨ es ‘000’ Cuando un orador dice öne thousand¨ el sistema respondería
con ‘1000’ Si el orador dice öne thousand four¨ el sistema respondería con ‘10004’.
Esta limitación comenzó a desaparecer a principios de los años 1990’s cuando el aumento de la velocidad y el poder
del hardware de la computadora hiso mas fácil incluir macros para realizar análisis estructurales más complejos.
Un desarrollador de aplicaciones puede crear un algoritmo de números naturales que acepta las secuencias
reconocidas por el producto de reconocimiento y los analizan. El desarrollo y prueba de procesos debería ser similar
a sus requerimientos para crear entradas alfabéticas.
Evaluando requerimientos de vocabulario de una aplicación
Una evaluación del vocabulario que necesita una aplicación debería incluir las siguientes consideraciones:
Una estimación del tamaño del vocabulario.
Cuidadoso ajuste del vocabulario de la aplicación.
Una determinación con respecto a cómo el vocabulario de la aplicación crecerá.
Tamaño del Vocabulario
A pesar de la fascinación con un vocabulario ilimitado, muchas aplicaciones tienen vocabularios pequeños. Por
ejemplo, la marcación de un teléfono para un automóvil, requiere menos que veinte palabras y la mayoría de las
aplicaciones fabricadas usan menos de cien palabras. Incluso el vocabulario requerido para la aplicación de dictado
no es infinito. El informe de generador de radiología original desarrollado por Kurzeweil AI, por ejemplo, requería
solo 500 palabras.
Coincidencia de un producto de reconocimiento a las necesidades de vocabulario
Sistemas de gran vocabulario son muy atractivos, pero ellos están diseñados para aplicaciones de dictado y puede
ser apropiado para la entrada de datos con menos vocabulario de un equipo de control de aplicaciones.
Si el vocabulario de la aplicación es grande y muy variable puede haber un alto factor de ramificación. Si este es el
caso, un sistema de reconocimiento debería ser evaluado en términos de cuan sensible este es a un gran número de
opciones.
Si la aplicación requiere conmutación entre los sub vocabularios o entre reconocedor base y un vocabulario
especializado, el tiempo requerido para cambiar de un sub vocabulario a otro debería ser evaluado.
Si un sistema en construcción con un diccionario es apropiado, esto es importante verificar que coincida con su
vocabulario que necesite la aplicación. Si las diferencias son extensas, el reconocedor no puede ser apropiado para
la aplicación. Si el reconocedor no se ajusta al requerimiento de vocabulario de la aplicación, el desarrollador de la
aplicación puede que necesite crear un nuevo vocabulario para la aplicación.
El crecimiento del vocabulario
Se tiene una gran variedad de métodos de diseño de vocabulario. Estos métodos se aplican a la ampliación de un
vocabulario existente también. Una cuestión importante a resolver es, si los usuarios finales tendrán que añadir el
vocabulario a la aplicación. Si es probable tendrá que añadir el vocabulario, el promotor debe determinar la forma
en que se llevará a cabo.
Si el vocabulario se desarrolla a través de la incorporación de vocabulario suministrado por el vendedor o creados

por el desarrollador de aplicaciones, los usuarios deben ser consciente del nuevo elemento añadido y puede ser
necesario proporcionar muestras habladas del nuevo elemento añadido antes de que puedan ser utilizados.

Capitulo 3 Palabra y Vocabulario

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 3 Palabra y Vocabulario

Cargado por

Copyright:

Formatos disponibles

Elementos para el funcionamiento del Reconocimiento de Voz.

Diagrama General del Reconocedor de Voz

CAPITULO 3: REPRESENTACION DEL VOCABULARIO

Modelos de Ocultos de Markov

Que es una palabra?

La representación es simple, sencilla y fácil de generar.

Modelos Ocultos de Markov (HMM)

HMM son diseñados para capturar y representar patrones de variación.

Los HMM son rápidos, eficientes y exactos.

La transición del fonema anterior

La transición del fonema al fonema siguiente,

Diseño amplio de Vocabulario

Y otra técnica seria organizar el vocabulario en un árbol.

En la tecnología una palabra se define en términos de su representación acústica.

Traducción vs. Significado.

En cada caso la traducción debe ser clara y no ambigua.

Proveedor - construido léxicos ( Vendor-built lexicons).

Diseñador de aplicaciones crean con nivel de palabra de vocabulario

Desde entonces las opciones se han ampliado para incluir:

Proveedor construido léxicos

Diseñador de aplicaciones crean con nivel de palabra de vocabulario

Diseñador de aplicaciones crean con subpalabras de nivel de vocabulario.

Usuario final crea su vocabulario.

Extracción de vocabulario automático de vocabulario.

Una combinación de las alternativas anteriores.

Proveedor - construido léxicos ( Vendor-built lexicons)

Vocabularios de aplicación especificas

Vocabularios de aplicación especifica

Creación de vocabulario por aplicaciones desarrolladoras

Creación de vocabulario por usuarios finales

Extracción automática de vocabulario

La importancia de la extracción automática de vocabulario por aplicaciones desarrolladas es que transfiere el

Los proveedores de reconocimiento de vocabulario amplio están recurriendo a la extracción automática de

Problemas especiales de vocabulario

Problemas especiales de vocabulario son los siguientes:

Evaluando requerimientos de vocabulario de una aplicación

Una estimación del tamaño del vocabulario.

Cuidadoso ajuste del vocabulario de la aplicación.

Una determinación con respecto a cómo el vocabulario de la aplicación crecerá.

Tamaño del Vocabulario

Coincidencia de un producto de reconocimiento a las necesidades de vocabulario

El crecimiento del vocabulario

Si el vocabulario se desarrolla a través de la incorporación de vocabulario suministrado por el vendedor o creados

También podría gustarte