Resumen - Fonética Acústica y Reconocimiento de Voz

UNIVERSIDAD DEL VALLE
Escuela de Ciencias del Lenguaje

Curso: Fonología y Morfología
Profesor: Luis Emilio Mora Cortés
Tema: Fonética Acústica y Reconocimiento de voz
ESTUDIANTE: Ashley Natalia Bornhorst Torres CÓDIGO: 2122266
RESUMEN Nº 1
Texto 1: Fonética Acústica y programas de reconocimiento de voz. Iniciación a la Fonética

acústica. Punto 4: Fonética Acústica pg. 7-13.
El sonido es un conjunto de vibraciones que producen ondas sonoras y se propagan por un
medio elástico, como el aire. Estas ondas se desplazan por comprensión, que es el empuje
o presión sobre la masa de aire, y por rarefacción, que hace referencia a la vuelta de esta
comprensión por el movimiento hacia el interior. El desplazamiento de las ondas sonoras en
el aire se propaga a una velocidad de 30 metros por segundos.
El sonido puede ser definido como la descodificación que efectúa nuestro cerebro de las
vibraciones percibidas a través de los órganos de audición. Cada partícula se mueve
longitudinalmente, mientras que las ondas de comprensión se mueven progresivamente, de
esta manera el oído humano experimenta momentos de alta y baja presión que afectan el
tímpano, dando la sensación del sonido.
La relación entre el número de ciclos (trayecto recorrido) y el tiempo transcurrido es la

Frecuencia de la onda. Esta se suele representar como 1000 ciclos por segundo, 1000
Hertzios o 1 kilohertzio. La amplitud es la distancia recorrida desde la posición de reposo
hasta el punto máximo de alejamiento por la partícula de aire en vibración. Cuanto mayor
sea la potencia, mayor será la amplitud. Un aumento de la amplitud de la onda corresponde
siempre a un crecimiento de la intensidad del sonido. Esta intensidad es la energía que
llega en un momento dado a un punto, es decir, la potencia acústica que se transmite a
través de una superficie. Se mide en watios por centímetros al cuadrado, aunque
generalmente se utiliza la unidad decibelio, que expresa una relación de intensidad. No es
una unidad de medida fija sino relativa y permite establecer la intensidad de un sonido por
relación a otro sonido que se toma como referencia.
El sonido lingüístico que llega a nuestros oídos es una onda compuesta, es decir, el
resultado de la adición de varias ondas simples o tonos puros. Este método de análisis se
conoce como análisis de Fourier, un matemático francés que demostró en 1822, que toda
onda que repite periódicamente su perfil se puede descomponer en un número limitado de
sinusoides que tengan su amplitud, su frecuencia y su fase diferentes.
La impresión auditiva que percibimos de la frecuencia fundamental es lo que se denomina
tonía, tono o altura tonal. Desde lo lingüístico, la función contrastiva de la frecuencia
fundamental a nivel de palabra se denomina tono, y las lenguas, lenguas tonales; a nivel de
oración se denomina entonación. El número, audibilidad y conformación de los armónicos
da como resultado el timbre de un sonido. Cuando los armónicos de mayor amplitud son
bajos, el timbre es grave, mientras que, si estos son superiores, el timbre es agudo.
En el caso de la producción de los sonidos del lenguaje desde el punto de vista acústico, la
frecuencia del formante es expresión de la vibración del resonador. Los sonidos vocálicos
del lenguaje humano están compuestos, por lo menos, de dos formantes que son
responsables del timbre particular de cada tipo vocálico. Estos formantes son atribuidos a
los dos principales resonadores del aparato fonador: la faringe y la boca.
Texto 2: Sistemas de Reconocimiento y Síntesis de voz.
En los últimos años han surgido nuevas interfaces humano-computadora que combinan
tecnologías del lenguaje para permitir el acceso y transferencia de información a través del
habla. Las más involucradas son el reconocimiento de voz y la síntesis de voz.
SISTEMAS DE RECONOCIMIENTO DE VOZ
Es el proceso de transformar una señal o secuencia de palabras a texto. Se clasifican en

reconocedor de propósito específico (dominio restringido) y reconocedor de propósito
general (dominio general).
Historia: El reconocimiento de voz inició en el año 1870 con Alexander Graham Bell, pues
este quería desarrollar un dispositivo que facilitara la palabra visible para personas que no
escucharan. Esta investigación falló, pero dio paso al desarrollo del teléfono.
Fue hasta el año 1950 que se hizo el primer intento para crear la primera máquina de
reconocimiento de voz. En 1952, el primer sistema de reconocimiento de voz fue
desarrollado sobre una computadora analógica que reconocía dígitos del cero al nueve. Más
tarde se creó otro sistema que reconocía consonantes y vocales.
En los años 60, los investigadores comenzaron a comprender la complejidad del desarrollo
de estos sistemas de reconocimiento de voz, entonces empezaron a realizar aplicaciones
con vocabularios pequeños, dependientes del locutor y con palabras de flujo discreto
(forma que hablan los locutores). En los años 70 se desarrolló el primer sistema de
reconocimiento de voz comercial, al igual que mejoraron las aplicaciones de estos sistemas
y comenzaron más investigaciones sobre el habla continúa usando vocabularios más
extensos. En los años 80, el reconocimiento de voz se favoreció por tres factores: el
crecimiento de computadoras personales, el apoyo de ARPA y los costos reducidos de
aplicaciones comerciales. Para los años 90, los costos de las aplicaciones de reconocimiento
de voz continuaron decreciendo y los vocabularios extensos comenzaron a ser normales.
También, comenzaron a ser más comunes las aplicaciones independientes del locutor y de
flujo continuo (no hay pausas significantes).
Características acústicas:
 Vocales: se generan cuando el aire pasa por los pulmones a la laringe y después a la
boca, no existe ninguna obstrucción audible en ninguna de las vocales.
Anterior: /iy/, /ey/

Central: /aa/
Posterior: /ow/, /uw/
 Diptongos: cuando el locutor reduce la duración del conjunto formado por dos
vocales y las pronuncia de una sola vez.
/ay/, /oy/
 Semivocales: se producen como las vocales y los diptongos, pero la lengua en

posición muy extrema.
/y/ i extrema
/w/ u extrema
 Fricativas: son producidos por un cierre parcial de la boca.
Labial: /f/
Alveolar: /s/
Velar: /hx/
 Stops u oclusivos: son producidos por un cierre total y después una salida repentina
de aire.
Labial: /b/ y /p/

Alveolar: /d/ y /t/
Velar: /g/ y /k/
 Flaps y trill: son producidos cuando la lengua cierra por un momento corto el tracto
vocal.
/r/, /rr/
 Africativos: empiezan como un oclusivo y terminan como un fricativo.
/ch/
 Nasales: se producen cuando se cierra el tracto vocal mientras que baja el volumen
del habla, dejando pasar el aire por la nariz.
Labial: /m/
Palatar: /ny/
Alveolar: /n/
Velar: /ng/
Arquitectura de un sistema de reconocimiento de voz:
Señal de voz → Extractor de características → Clasificador → Palabras → Procesamiento

del lenguaje natural → Representación semántica → Acción.
Tipos de sistemas de reconocimiento de voz:
a. Dependencia vs. independencia del locutor.

b. Palabras aisladas vs. habla continua.
c. Tamaño del vocabulario.
d. Variabilidad y ruido.
Aplicaciones del reconocimiento de voz:
 CONMAT (Sistema de conmutador automático).

 INFOUDLA.
 Ejecución de comandos.
 Dictado automático.
 Llenado de formas.
 Acceso a información de base de datos.
 Directorio telefónico automático.
 Servicios financieros por teléfono.
 Llamadas por cobrar automáticas.
SISTEMAS DE SÍNTESIS DE VOZ
Es el proceso de transformar el texto a sonido (TtS). Nos sirve para la creación de voz
artificial, pues dadas las palabras escritas, el sintetizador se encarga de pronunciarlas.
Arquitectura de un sistema de texto a voz:
Texto → Fonemas, Prosodia → Voz.
Procesamiento del Lenguaje Natural:

- Analiza el texto.
- Texto a fonemas.
- Generador prosódico.
Proceso de síntesis:
- Articulaciones.
- Formantes.
- Concatenativos.
Bloque de pensamiento del Lenguaje Natural:
Texto → Analizador de texto → Pausas entre frases → Generador prosódico → Fonemas +

Prosodia.
Texto → Analizador de texto → Texto libre de ruido → Fonemas → Generador prosódico

→ Fonemas + Prosodia.
Bloque del proceso de síntesis:
 Sintetizadores articulatorios: mecanismos fisiológicos de producción de voz y

generación de sonidos en el aparato vocal.
 Sintetizadores paramétrica: señales armónicas.
 Síntesis concatenativa: concatenación de segmentos de voz (fonemas, sílabas,

palabras).

Resumen - Fonética Acústica y Reconocimiento de Voz

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen - Fonética Acústica y Reconocimiento de Voz

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DEL VALLE

Escuela de Ciencias del Lenguaje

ESTUDIANTE: Ashley Natalia Bornhorst Torres CÓDIGO: 2122266

Texto 1: Fonética Acústica y programas de reconocimiento de voz. Iniciación a la Fonética

La relación entre el número de ciclos (trayecto recorrido) y el tiempo transcurrido es la

Texto 2: Sistemas de Reconocimiento y Síntesis de voz.

SISTEMAS DE RECONOCIMIENTO DE VOZ

Es el proceso de transformar una señal o secuencia de palabras a texto. Se clasifican en

Anterior: /iy/, /ey/

 Semivocales: se producen como las vocales y los diptongos, pero la lengua en

 Fricativas: son producidos por un cierre parcial de la boca.

Labial: /b/ y /p/

Arquitectura de un sistema de reconocimiento de voz:

Señal de voz → Extractor de características → Clasificador → Palabras → Procesamiento

Tipos de sistemas de reconocimiento de voz:

a. Dependencia vs. independencia del locutor.

Aplicaciones del reconocimiento de voz:

 CONMAT (Sistema de conmutador automático).

SISTEMAS DE SÍNTESIS DE VOZ

Texto → Fonemas, Prosodia → Voz.

Procesamiento del Lenguaje Natural:

Bloque de pensamiento del Lenguaje Natural:

Texto → Analizador de texto → Pausas entre frases → Generador prosódico → Fonemas +

Texto → Analizador de texto → Texto libre de ruido → Fonemas → Generador prosódico

Bloque del proceso de síntesis:

 Sintetizadores articulatorios: mecanismos fisiológicos de producción de voz y

 Sintetizadores paramétrica: señales armónicas.

 Síntesis concatenativa: concatenación de segmentos de voz (fonemas, sílabas,

También podría gustarte