ALN Diapositivas Nadia

ALN
modelos acusticos
reconocimiento de voz
Nadia Yaretzi Mendoza Hernandez

Introducción
Lorem ipsum dolor sit amet, consectetur
adipiscing elit, sed do eiusmod tempor
incididunt ut labore et dolore magna aliqua. Ut
enim ad minim veniam, quis nostrud
exercitation ullamco laboris nisi ut aliquip ex ea
commodo consequat.
1. reconocimiento de voz
El reconocimiento de voz o reconocimiento del habla es

una rama de la inteligencia artificial cuya finalidad es
posibilitar la comunicación entre humanos y sistemas
informáticos.
Un sistema de reconocimiento de voz tiene la capacidad de
detectar y entender las palabras que un ser humano emite
de forma natural.
Existen sistemas de reconocimientos de voz más o menos
sofisticados, habiendo aquellos que entienden las palabras
de manera fácil, y otros con más dificultades para
comprender el habla de los humanos.
4. aplicaciones
Sistemas de coche: Para controlar algunas

Ámbito telefónico: Permite ejecutar órdenes
operaciones dentro del coche. Como, por
mediante el habla en una conversación
ejemplo, activar el GPS, realizar una llamada,
telefónica a un agente no humano, en lugar
o reproducir una canción.
de pulsar botones físicos o táctiles.
Dictado de voz: El dictado de voz es un
Dispositivos móviles: Puede utilizarse,
sistema que escribe automáticamente todo lo
también, en dispositivos de tamaño reducido
que dictamos. Es la aplicación más común en
y móvil (relojes inteligentes, teléfonos
el reconocimiento de voz.
móviles, acelerómetros, etc.) para emitir
Control por comandos: Consta de una serie
órdenes y evitar manipularlos en situaciones
de órdenes para controlar el ordenador. La
incómodas.
cantidad de comandos que identifica es baja.
5. funcionamiento
Para funcionar correctamente, el software de reconocimiento de voz que se ejecuta en los ordenadores
requiere que el audio analógico se convierta en señales digitales, un proceso conocido como conversión
analógico-digital. Para que un ordenador pueda descifrar con precisión una señal, debe disponer de una base
de datos digital de vocabulario, palabras y sílabas, así como de un sistema de comparación de estos datos con
las señales digitales. Estos patrones de habla se almacenan en el disco duro del ordenador y se cargan en la
memoria cada vez que se ejecuta el software de reconocimiento de voz. Además, un comparador coteja estos
patrones almacenados con la información proporcionada por el conversor analógico-digital, acción conocida
como reconocimiento de patrones.
El tamaño y el alcance del vocabulario efectivo de un programa de reconocimiento de voz depende de la
capacidad de la memoria de acceso aleatorio (memoria RAM) del ordenador en el que se ejecuta el software.
Por ejemplo, un programa de reconocimiento de voz funciona mucho más rápido si todo el vocabulario puede
cargarse en la memoria RAM. En comparación, buscar en el disco la coincidencia entre palabras es un proceso
tedioso y que requiere más tiempo. Además, la velocidad de procesamiento juega un papel importante ya que
afecta la rapidez con la que un ordenador puede buscar estas coincidencias en la memoria RAM.
6. ventajas y desventajas
ventajas desventajas
La principal ventaja del software de reconocimiento de voz es la Por otro lado, los programas de reconocimiento de voz tienen
comodidad que puede proporcionar a los consumidores. Por ejemplo, algunas limitaciones. Aunque los softwares y sus
con la ayuda de un asistente virtual de inteligencia artificial como funcionalidades evolucionan y mejoran constantemente,
Siri, un usuario puede conducir su automóvil, hacer una llamada todos estos sistemas son, sin duda, propensos a cometer
telefónica y activar la alarma inteligente de su casa, todo al mismo errores. Por ejemplo, muchos de los programas de
tiempo. Mientras que los sistemas de reconocimiento de voz reconocimiento de voz más conocidos tienen dificultades para
originales, lanzados durante la década de 1970 para ser utilizados en diferenciar entre palabras que suenan de forma similar, como
ordenadores, sólo podían captar unas mil palabras, los softwares en inglés “hear” y “here”. Además, el ruido de fondo puede
actuales pueden captar prácticamente cualquier palabra o frase producir una entrada falsa y causar confusión. Por tanto, los
imaginable en inglés. Para ello, los modernos programas utilizan programas de reconocimiento de voz deben utilizarse en un
sofisticados algoritmos que transforman rápidamente las palabras de entorno silencioso y sin interferencias, lo que limita algunas
un discurso en texto escrito. de sus aplicaciones.
3. Acquisition
La adquisición de datos en el
reconocimiento de voz es un
proceso fundamental para capturar
la información necesaria y
convertirla en texto o comandos
entendibles por una computadora
o sistema de procesamiento de
voz.
1. pasos de la adquisicion
1. Grabación de voz: El primer paso consiste en capturar la voz del hablante. Esto se logra mediante
un micrófono o un dispositivo de grabación de audio. La calidad del micrófono puede influir en la
precisión de la adquisición de datos, por lo que es recomendable utilizar un micrófono de buena
calidad.
2. Preprocesamiento: Antes de que los datos de voz puedan ser utilizados para el reconocimiento, a
menudo se aplican técnicas de preprocesamiento para mejorar la calidad de la señal y eliminar el
ruido no deseado. Esto puede incluir filtrado de ruido, normalización de volumen, eliminación de
pausas o silencios, entre otros.
3. Segmentación: La señal de voz se divide en segmentos más pequeños, como palabras o fonemas.
Esto permite un análisis más detallado y facilita el reconocimiento de los patrones de voz.
1. pasos de la adquisicion
4. Extracción de características: A partir de cada segmento de voz, se extraen características
relevantes que ayudarán al reconocimiento del habla. Estas características pueden incluir la energía
de la señal, la frecuencia fundamental, los coeficientes cepstrales de frecuencia (MFCC), entre
otros.
5. Creación de un modelo acústico: Se utiliza un algoritmo de aprendizaje automático, como los
modelos ocultos de Markov (HMM) o las redes neuronales, para entrenar un modelo acústico.
Este modelo se entrena utilizando datos de voz etiquetados, donde se conoce la transcripción
correcta de cada segmento de voz. El modelo aprende a asociar las características extraídas con las
transcripciones correspondientes.
6. Decodificación: Una vez que el modelo acústico ha sido entrenado, se utiliza para decodificar la
señal de voz en texto. El modelo asigna probabilidades a las diferentes transcripciones posibles y
selecciona la más probable en función de las características de la señal de entrada.
muestreo
El muestreo es el proceso de seleccionar un

conjunto de individuos de una población con
el fin de estudiarlos y poder caracterizar el
total de la población. La idea es bastante
simple. Imagina que queremos saber algo de
un universo o población, por ejemplo, qué
porcentaje de los habitantes de México
fuma habitualmente.
4. La extracción de características se utiliza en
el procesamiento de imágenes y el
reconocimiento de patrones. Se parte de un
conjunto de datos existente, del que se
derivan características y valores. Estos no
deben existir más de una vez, pero deben ser
informativos. Además, existen los
extraccion de rasgos denominados pasos de generalización y
aprendizaje, a partir de los cuales
se producen derivaciones e interpretaciones
más concretas. Por regla general, la
extracción de características está relacionada
con la reducción de dimensiones.
modelos
acusticos
El modelo acústico es una parte
fundamental del reconocimiento
automático del habla (ASR, por sus siglas
en inglés). Es un componente que se
encarga de mapear la señal de voz a una
representación lingüística, como fonemas o
unidades de sonido, y es una parte clave en
el proceso de transcribir la voz en texto.
caracteristicas
Un fonema es una unidad básica del sistema de sonido de un lenguaje.

Se trata de un concepto abstracto que representa un sonido distintivo
en un idioma particular.
En el contexto de un modelo acústico en el reconocimiento automático
del habla (ASR, por sus siglas en inglés), el término "emparejar" se refiere
a alinear la secuencia de características acústicas extraídas de una señal
de voz con las unidades lingüísticas correspondientes, como los fonemas
o las unidades de sonido.
El estilo del habla se refiere a las variaciones y características distintivas
en la forma en que una persona se expresa verbalmente. Está
influenciado por diversos factores, como el contexto social, la situación
comunicativa, el nivel de formalidad, la relación entre los interlocutores y
las normas culturales.
caracteristicas
La pronunciación textual se refiere a la representación fonética de las palabras

utilizando símbolos y convenciones para indicar cómo se pronuncian. Es una
forma de escribir las palabras de manera que refleje la pronunciación exacta,
independientemente de la ortografía convencional
El tamaño del vocabulario se refiere a la cantidad total de palabras que una persona
conoce y utiliza activamente en su habla o escritura. El tamaño del vocabulario varía
ampliamente entre los individuos y está influenciado por diversos factores, como la
exposición lingüística, la educación, los intereses personales y el entorno cultural.
En el contexto de los modelos acústicos en el reconocimiento automático del habla

(ASR, por sus siglas en inglés), el término "post-editor" se refiere a una etapa
posterior al proceso de reconocimiento de voz, donde se realiza una revisión y
edición manual de la transcripción generada por el modelo acústico.
4. caracteristicas
legabiliidad claridad
La "legibilidad" en el contexto de un
La "claridad" en el contexto de
modelo acústico se refiere a la
capacidad del modelo para producir un modelo acústico se refiere a
una salida de transcripción de voz la capacidad del modelo para
que sea clara, comprensible y producir una salida de
coherente. La legibilidad es un transcripción de voz que sea
aspecto importante en el fácil de entender y percibir
reconocimiento automático del habla para los oyentes. La claridad es
(ASR, por sus siglas en inglés), ya un aspecto importante en el
que determina la utilidad y la calidad reconocimiento automático del
de la transcripción generada. habla
Muchas
Gracias

ALN Diapositivas Nadia

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ALN Diapositivas Nadia

Cargado por

Copyright:

Formatos disponibles

ALN

Nadia Yaretzi Mendoza Hernandez

El reconocimiento de voz o reconocimiento del habla es

Sistemas de coche: Para controlar algunas

El muestreo es el proceso de seleccionar un

Un fonema es una unidad básica del sistema de sonido de un lenguaje.

La pronunciación textual se refiere a la representación fonética de las palabras

En el contexto de los modelos acústicos en el reconocimiento automático del habla

También podría gustarte