Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN Nº 1
El sonido puede ser definido como la descodificación que efectúa nuestro cerebro de las
vibraciones percibidas a través de los órganos de audición. Cada partícula se mueve
longitudinalmente, mientras que las ondas de comprensión se mueven progresivamente, de
esta manera el oído humano experimenta momentos de alta y baja presión que afectan el
tímpano, dando la sensación del sonido.
El sonido lingüístico que llega a nuestros oídos es una onda compuesta, es decir, el
resultado de la adición de varias ondas simples o tonos puros. Este método de análisis se
conoce como análisis de Fourier, un matemático francés que demostró en 1822, que toda
onda que repite periódicamente su perfil se puede descomponer en un número limitado de
sinusoides que tengan su amplitud, su frecuencia y su fase diferentes.
La impresión auditiva que percibimos de la frecuencia fundamental es lo que se denomina
tonía, tono o altura tonal. Desde lo lingüístico, la función contrastiva de la frecuencia
fundamental a nivel de palabra se denomina tono, y las lenguas, lenguas tonales; a nivel de
oración se denomina entonación. El número, audibilidad y conformación de los armónicos
da como resultado el timbre de un sonido. Cuando los armónicos de mayor amplitud son
bajos, el timbre es grave, mientras que, si estos son superiores, el timbre es agudo.
En el caso de la producción de los sonidos del lenguaje desde el punto de vista acústico, la
frecuencia del formante es expresión de la vibración del resonador. Los sonidos vocálicos
del lenguaje humano están compuestos, por lo menos, de dos formantes que son
responsables del timbre particular de cada tipo vocálico. Estos formantes son atribuidos a
los dos principales resonadores del aparato fonador: la faringe y la boca.
En los últimos años han surgido nuevas interfaces humano-computadora que combinan
tecnologías del lenguaje para permitir el acceso y transferencia de información a través del
habla. Las más involucradas son el reconocimiento de voz y la síntesis de voz.
Historia: El reconocimiento de voz inició en el año 1870 con Alexander Graham Bell, pues
este quería desarrollar un dispositivo que facilitara la palabra visible para personas que no
escucharan. Esta investigación falló, pero dio paso al desarrollo del teléfono.
Fue hasta el año 1950 que se hizo el primer intento para crear la primera máquina de
reconocimiento de voz. En 1952, el primer sistema de reconocimiento de voz fue
desarrollado sobre una computadora analógica que reconocía dígitos del cero al nueve. Más
tarde se creó otro sistema que reconocía consonantes y vocales.
En los años 60, los investigadores comenzaron a comprender la complejidad del desarrollo
de estos sistemas de reconocimiento de voz, entonces empezaron a realizar aplicaciones
con vocabularios pequeños, dependientes del locutor y con palabras de flujo discreto
(forma que hablan los locutores). En los años 70 se desarrolló el primer sistema de
reconocimiento de voz comercial, al igual que mejoraron las aplicaciones de estos sistemas
y comenzaron más investigaciones sobre el habla continúa usando vocabularios más
extensos. En los años 80, el reconocimiento de voz se favoreció por tres factores: el
crecimiento de computadoras personales, el apoyo de ARPA y los costos reducidos de
aplicaciones comerciales. Para los años 90, los costos de las aplicaciones de reconocimiento
de voz continuaron decreciendo y los vocabularios extensos comenzaron a ser normales.
También, comenzaron a ser más comunes las aplicaciones independientes del locutor y de
flujo continuo (no hay pausas significantes).
Características acústicas:
Vocales: se generan cuando el aire pasa por los pulmones a la laringe y después a la
boca, no existe ninguna obstrucción audible en ninguna de las vocales.
Diptongos: cuando el locutor reduce la duración del conjunto formado por dos
vocales y las pronuncia de una sola vez.
/ay/, /oy/
/y/ i extrema
/w/ u extrema
Labial: /f/
Alveolar: /s/
Velar: /hx/
Stops u oclusivos: son producidos por un cierre total y después una salida repentina
de aire.
Flaps y trill: son producidos cuando la lengua cierra por un momento corto el tracto
vocal.
/r/, /rr/
Africativos: empiezan como un oclusivo y terminan como un fricativo.
/ch/
Nasales: se producen cuando se cierra el tracto vocal mientras que baja el volumen
del habla, dejando pasar el aire por la nariz.
Labial: /m/
Palatar: /ny/
Alveolar: /n/
Velar: /ng/
Es el proceso de transformar el texto a sonido (TtS). Nos sirve para la creación de voz
artificial, pues dadas las palabras escritas, el sintetizador se encarga de pronunciarlas.
Arquitectura de un sistema de texto a voz:
Proceso de síntesis:
- Articulaciones.
- Formantes.
- Concatenativos.