Documentos de Académico
Documentos de Profesional
Documentos de Cultura
modelos acusticos
reconocimiento de voz
ventajas desventajas
La principal ventaja del software de reconocimiento de voz es la Por otro lado, los programas de reconocimiento de voz tienen
comodidad que puede proporcionar a los consumidores. Por ejemplo, algunas limitaciones. Aunque los softwares y sus
con la ayuda de un asistente virtual de inteligencia artificial como funcionalidades evolucionan y mejoran constantemente,
Siri, un usuario puede conducir su automóvil, hacer una llamada todos estos sistemas son, sin duda, propensos a cometer
telefónica y activar la alarma inteligente de su casa, todo al mismo errores. Por ejemplo, muchos de los programas de
tiempo. Mientras que los sistemas de reconocimiento de voz reconocimiento de voz más conocidos tienen dificultades para
originales, lanzados durante la década de 1970 para ser utilizados en diferenciar entre palabras que suenan de forma similar, como
ordenadores, sólo podían captar unas mil palabras, los softwares en inglés “hear” y “here”. Además, el ruido de fondo puede
actuales pueden captar prácticamente cualquier palabra o frase producir una entrada falsa y causar confusión. Por tanto, los
imaginable en inglés. Para ello, los modernos programas utilizan programas de reconocimiento de voz deben utilizarse en un
sofisticados algoritmos que transforman rápidamente las palabras de entorno silencioso y sin interferencias, lo que limita algunas
un discurso en texto escrito. de sus aplicaciones.
3. Acquisition
La adquisición de datos en el
reconocimiento de voz es un
proceso fundamental para capturar
la información necesaria y
convertirla en texto o comandos
entendibles por una computadora
o sistema de procesamiento de
voz.
1. pasos de la adquisicion
1. Grabación de voz: El primer paso consiste en capturar la voz del hablante. Esto se logra mediante
un micrófono o un dispositivo de grabación de audio. La calidad del micrófono puede influir en la
precisión de la adquisición de datos, por lo que es recomendable utilizar un micrófono de buena
calidad.
2. Preprocesamiento: Antes de que los datos de voz puedan ser utilizados para el reconocimiento, a
menudo se aplican técnicas de preprocesamiento para mejorar la calidad de la señal y eliminar el
ruido no deseado. Esto puede incluir filtrado de ruido, normalización de volumen, eliminación de
pausas o silencios, entre otros.
3. Segmentación: La señal de voz se divide en segmentos más pequeños, como palabras o fonemas.
Esto permite un análisis más detallado y facilita el reconocimiento de los patrones de voz.
1. pasos de la adquisicion
4. Extracción de características: A partir de cada segmento de voz, se extraen características
relevantes que ayudarán al reconocimiento del habla. Estas características pueden incluir la energía
de la señal, la frecuencia fundamental, los coeficientes cepstrales de frecuencia (MFCC), entre
otros.
5. Creación de un modelo acústico: Se utiliza un algoritmo de aprendizaje automático, como los
modelos ocultos de Markov (HMM) o las redes neuronales, para entrenar un modelo acústico.
Este modelo se entrena utilizando datos de voz etiquetados, donde se conoce la transcripción
correcta de cada segmento de voz. El modelo aprende a asociar las características extraídas con las
transcripciones correspondientes.
6. Decodificación: Una vez que el modelo acústico ha sido entrenado, se utiliza para decodificar la
señal de voz en texto. El modelo asigna probabilidades a las diferentes transcripciones posibles y
selecciona la más probable en función de las características de la señal de entrada.
muestreo
legabiliidad claridad
La "legibilidad" en el contexto de un
La "claridad" en el contexto de
modelo acústico se refiere a la
capacidad del modelo para producir un modelo acústico se refiere a
una salida de transcripción de voz la capacidad del modelo para
que sea clara, comprensible y producir una salida de
coherente. La legibilidad es un transcripción de voz que sea
aspecto importante en el fácil de entender y percibir
reconocimiento automático del habla para los oyentes. La claridad es
(ASR, por sus siglas en inglés), ya un aspecto importante en el
que determina la utilidad y la calidad reconocimiento automático del
de la transcripción generada. habla
Muchas
Gracias