Está en la página 1de 6

Fundamentos de

Voz sobre IP y
Calidad de Servicio

UNICAES
Ciclo I – 2023
Ingeniería en Telecomunicaciones y Redes
Ing. Rafael Vega
Procesamiento de la voz
El desarrollo de la electrónica y la tecnología de los
ordenadores está causando un crecimiento enorme
del uso de máquinas para procesar información. En la
mayoría de los casos esta información proviene de un
ser humano y finalmente también es usada por un
ser humano.
Por tanto, son necesarios métodos efectivos de
transferencia de información entre hombres y
máquinas en ambas direcciones. El habla es el medio
más espontáneo y natural de comunicación entre los
hombres.
Una comunicación oral hombre-máquina debe
reproducir el modelo que rige en el proceso de
comunicación cotidiana entre humanos. Debemos,
por tanto, facultar al ordenador para hablar y
entender lo que se le dice. La capacidad de
entendimiento constituye hoy en día un horizonte
lejano.
Los orígenes del reconocimiento automático del
habla hemos de buscarlos en la aparición de las
primeras versiones del espectrógrafo en la década
1930-40, que permitieron vislumbrar por vez
primera la posibilidad de realización de dispositivos
automáticos capaces de reconocer la voz humana.
Poco después, Davis, Bidulph y Balashek
(laboratorios Bell, 1952) idearon el primer sistema,
totalmente electrónico, capaz de discriminar con
cierta precisión los dígitos ingleses pronunciados de
forma aislada por un mismo locutor
Concretamente, en 1971 el Departamento de
Defensa de los EE.UU. lanza el mayor proyecto
conocido de la historia del reconocimiento del
habla, el ARPA-SUR (Advanced Research Projects
Agency - Speech Understanding System)
¿Qué es el procesamiento de la voz?
El Procesamiento de Voz (Speech Processing) Es el estudio de
las señales de voz y de todos aquellos métodos para procesar
estas señales. Se le denomina digital ya que las señales de
voz son llevadas a una computadora para su análisis y
procesamiento. El procesamiento de voz es un caso especial
del Procesamiento Digital de Señales que se aplica a las
señales de voz.
Está ampliamente ligado al Procesamiento del Lenguaje
Natural (Natural Language Processing, NLP) puesto que sus
entradas o sus salidas pueden provenir o destinarse a
aplicaciones de NLP. Las señales son normalmente
procesadas a partir de una representación digital; por eso el
procesado de voz puede verse como la intersección del
procesado digital de señal y el procesamiento de lenguaje
natural.
El procesado de voz se puede dividir en las siguientes
categorías:
• Reconocimiento de voz, que trata el análisis del
contenido lingüístico de una señal de voz.
• Reconocimiento de locutores, que tiene como
objetivo identificar al hablante.
• Mejora de la señal de voz, por ejemplo reducción de
ruido.
• Codificación de voz para compresión de datos y
transmisión de la voz. Véase también telecomunicación.
• Análisis de voz con propósitos médicos, para el análisis
de disfunciones vocales.
• Síntesis de voz: la síntesis artificial del habla, lo que
habitualmente significa habla generada por computador.
Tarea de investigación:

- Investigar sobre softwares o aplicaciones que se utilicen en


la modulación o procesamiento de la voz ya sea para usos en
telefonía o usos comerciales, inteligencia artificial.

También podría gustarte