Está en la página 1de 12

Hola Alumnos :

Espero que estén todos bien y cuidándose, esperando que todo vuelva a la normalidad,
en algún momento nos podremos ver las caras.
Les comento lo siguiente, fui editando con el programa forense cada uno de los conceptos
que estamos incorporando.
Sonograma
Armónicos
Ceptrum
Formantes
Picos de formantes -promedios de picos formantes
En estos videos va mi voz describiendo el contenido y explicando cada componente
grafico de la señal de voz. Lo que explico hay que tomarlo como contenido de la materia
de conocimiento obligatorio , hagan de cuenta que están en clase y toman apuntes de lo
que digo.
Esto complementa y da sentido a todo lo anterior que venimos ya viendo hasta acá.
IMPORTANTE
Los videos están confeccionados con una muestra indubitada para que puedan ver todos
los formantes, acostumbrarse a ellos sobre todo en el espectrograma de banda ancha F1-
F2-F3-F4.
Esta calidad es la que se debe obtener cuando depende de uno la obtención de un
audio indubitado. Puede ser que un archivo sea indubitado, ej la grabación de una
audiencia indagatoria o testimonial en la cual se grabara con micrófono pero
generalmente en las salas de audiencia se genera un fenómeno llamado Reverberación,
que se explica en términos sencillos cuando la voz (seria el rebote de la voz en superficies
no absorbentes como son las paredes sin telas de cortinas que absorban las
amplificaciones naturales de la voz (piensen en un estudio de grabación cuantos paneles
de absorción tienen para evitar durante la grabación d varios instrumentos musicales y
voz, este fenómeno). [ pero en términos de descripción del fenómeno reverberante
decimos los siguiente : El tiempo de reverberación (TR), es un parámetro que se utiliza
para cuantificar cuanto tiempo transcurre entre que se interrumpe la emisión de un sonido y
la recepción de sus reflexiones. A los fines periciales, en la actualidad un registro acústico
puede tener como máximo de 400 milisegundos (ms). Este parámetro, cuando no es
exageradamente superior a este valor, podría ser atenuado mediante procesos de filtrado,
cuya optimización del resultado será evaluado en la etapa de análisis espectrográfico. Pero
para que tengan una idea de un un valor optimo de Reverberancia es no mayor a 200 ms.

Otro aspecto a tener en cuenta en una señal de voz aunque sea indubitada pero
fue provista es la necesidad de evaluar el Clipping o saturación de la señal,: si el micrófono
está muy cerca de la fuente (micrófono – boca) la amplitud de la señal de voz es por demás
intensa y genera un efecto de distorsión armónica.
Esta situación también deberá evaluarse en caso de recibir un material
supuestamente adecuado como un indubitado con calidad microfónica(grabado con
micrófono) pero que puede no haber sido tenido en cuenta todos estos aspectos para darle la
aptitud técnica correspondiente por lo tanto :

Se denomina Clipping o saturación al recorte brusco que se produce en una señal


cuando su amplitud es mayor que la soportada por alguno de los componentes de la cadena
de audio. Un ejemplo típico es el de un grabador de mano que recibe una voz en un nivel de
intensidad muy alto y/o a una distancia muy corta. El resultado es una distorsión en el audio
que no solo limita la amplitud, sino que también modifica el contenido armónico de la señal
original, agregando armónicas impares que dificultan tanto la inteligibilidad como la
visualización de formantes en el espectrograma.

Entonces, por más que un archivo tenga la duración (tiempo) neta necesaria, si
parte de esa duración resulta inutilizable por un porcentaje alto de saturación, no será
posible relevar el número necesario de muestras de las distintas vocales. Por lo tanto, un
archivo con un nivel alto de Clipping, no será apto para cotejo, dado que no podrá ser
optimizado a los fines identificatorios, mediante procesos de filtrado, porque aun aplicando
filtro para Clipping si el valor de saturación es muy alto la resultante del filtrado le genera
perdida de calidad armónica y de formantes al momento del análisis espectrográfico de
manera manual.
.
Demas esta aclarar que todo archivo cuestionado deberá ser sometido a todos los controles
técnicos necesarios para saber si reúne las condiciones técnicas para ser sometido a pericia
de voz (esto lo vemos un poquito más adelante cuando entremos en el armado de un
informe pericial.
Pero para generalizar…. Todo archivo provisto (no grabado por ustedes), deberá ser
sometido a estudio técnico para determinar su aptitud para cotejo, aunque cumpla la
función de indubitado.

EN EL ARCHIVO DE AUDIO INDUBITADO OBTENIDO MEDIANTE UNA


TOMA DE CUERPO DE VOZ, O también llamado, PLANA DE VOZ, no se advierten
estas posibles carencias técnicas dado que fue grabado en AMBIENTE
SONOAMORTIGUADO, CONTROLANDO DISTANCIA DEL MICROFONO, CON
MICROFONO CAROIDE UNIDIRECCIONAL Y CONTROLANDO DE MANERA
PERMANENTE DURANTE TODO EL PROCEDIMIENTO DE OBTENICION
INDUBITADA DE LA RELACION DE AMPLITUD DE VOZ, EN TIEMPO REAL
( PARA GRABAR VOZ INDUBITADA SE PUEDE GRABAR VOZ CON UN
PROGRAMA DE COD ABIERTO AUDACUTY POR EJE .. VASTA QUE LES
PERMITA VER LA CONFIGURACION DEL SONOGRAMA EN TIEMPO REAL,
PARA IR CALIBRANDO LA AMPLITUD, A FIN DE NO SATURAR (CLIPPING) O
DE TENER UN VOLUMEN DE VOZ INFRESANDO MUY BAJO QUE NO DEJE VER
MAS TARDE LOS ARMONICOS SUPERIORES PORQUE TAMPOCO SE VERAN
LOS FORMANTES, YA QUE ES UNA CONSECUENCIA DIRECTA.

NOTA: para ir cerrando estos conceptos tenemos este contenido teórico mas lo expresado
en los videos, que es para estudio, para ir cumplimentando los puntos

2-4 Resonancia vocal (armónicos -formantes)

2-5 Formas de graficacion de los distintos parámetros de voz y componentes del habla
2-6 Programas de uso forense y no forense para la medición de los parámetros de voz.

OTRO TEMA .

Voy adelantando adjuntos en texto.

Uno relacionado a la descripción de método de análisis automático y otro manual de comparación


de voz.

COMPARACIÓN AUTOMÁTICA de tono y


formantes (falta video ilustrativo de estos contenidos.. próximamente..)
Este plugin realiza la identificación automática de locutores basándose en los siguientes
métodos:
1) Método de estadísticas del tono.
2) Método de espectro de formantes (EF).
3) Método de variabilidad total (TotV).
4) Método de fusión.
La identificación de locutores basada en los tres primeros métodos incluye dos etapas
principales: la creación
de los modelos de voz y la comparación de ellos para sacar la conclusión.
El último método combina los tres primeros y por eso da los resultados más precisos. Los
modelos creados
con el método de fusión contienen los datos obtenidos por los tres métodos de
identificación y se guardan en
un solo archivo.
El resultado de la identificación obtenido por el método de la fusión es un promedio de los
resultados de los
tres otros métodos. Si utiliza el método de la fusión, no se van a calcular los valores de FR
y FA (falso rechazo -falta aceptación)
Método de estadísticas del tono
Este método usa dieciséis diferentes características del tono fundamental de voz, tales
como: el valor medio
del tono fundamental, sus valores máximo y mínimo, la mediana, el porcentaje de los
intervalos con tono
creciente, la dispersión de logaritmo del tono, la asimetría de logaritmo del tono, el exceso
de logaritmo del
tono y otros parámetros.
El valor de la equiprobable tasa de error igual (en inglés Equal Error Rate, EER) para el
método de
estadísticas del tono depende de la duración de los fragmentos de voz en comparación y
puede llegar al valor
de aprox. 18-19%.
La ventaja principal de este método es la alta velocidad de comparación de los indicios y,
por consecuencia, la
alta velocidad de búsqueda o de verificación de personalidad.
No obstante, este método depende en gran medida del estado emocional y psicológico del
locutor en el
momento de pronunciación, lo que permite utilizarlo sólo como un método adicional.
La creación del modelo de voz de un locutor se realiza del modo siguiente.
La extracción del tono fundamental se hace con ayuda del análisis espectral de la señal de
una grabación
audio. El fundamento del método es el algoritmo que se basa en el análisis de armónicas del
tono en el
espectro de una señal. El algoritmo pretende superar los problemas que provocan la
supresión de la parte del
espectro de la señal en un canal.
Por ejemplo, en el canal telefónico en la banda de frecuencias desde 0 hasta 300 Hz no hay
ninguna señal; sin
embargo, en este mismo rango suele haber un valor del tono.
En este caso el algoritmo de extracción del tono
permite solucionar la tarea al considerar las armónicas de frecuencia del tono fundamental
dentro de la banda
de frecuencias desde 0,3 hasta 3,4 kHz.
Este tipo de la identificación es bastante estable desde el punto de vista de la relación
señal/ruido. En caso de
que el nivel de armónicas del tono fundamental sobrepasa el nivel del ruido al menos por
unos decibelios, el
algoritmo permite determinar la frecuencia buscada por medio de los métodos especiales de
“agudizamiento”
de las armónicas del tono.
Método de fusión
Con el método de fusión se saca la conclusión final que se basa en los resultados de
identificación realizada
mediante uno o más métodos mencionados arriba.
El resultado de identificación realizada por este método es la pseudoprobabilidad P, el valor
que muestra el
porcentaje de probabilidad del hecho que los locutores de la grabación 1 y la grabación 2
son la misma
persona; 0% significa que los locutores son positivamente diferentes, mientras que 100%
muestra que los
locutores cuya voz está grabada en los dos archivos audio son en efecto la misma persona

Método automático de comparación de formantes


Este método se basa en el concepto de que cada persona tiene su tracto vocal de geometría
única y, por lo
tanto, tiene diferentes características espectrales de voz. La diferencia de las características
espectrales se
manifiesta más claro en la orientación de frecuencia y la posición recíproca de los
formantes. Además, este
método se basa en la extracción y comparación de las posiciones y la dinámica de tres o
más formantes.
El uso del método de espectro de formantes asegura el valor de EER hasta 6-7%. En casos
particulares, este
valor depende de la duración y la calidad de los fragmentos de voz en comparación.
El método de espectro de formantes es relativamente resistente al ruido de banda ancha, tal
como el ruido
aleatorio o el interior, así como a las diferencias de las señales que se deben a las
diferencias de canales.

Imagen de comparador automático global (tono – formantes curvas gausseanas )


METODO DE COMPARACION DE FORMANTES AUTOMATICA
METODO DE COMPARACION MANUAL DE FORMANTES

METODO DE MACHEO DE FORMANTES

El método de “matcheo” de formantes es robusto para la identificación de locutores. Aquí


se describe e ilustra en casos prácticos tal como se utiliza en acústica forense. Este consiste en un
método basado en el análisis espectral que difiere del análisis tradicional en el hecho de que
presupone la comparación de eventos articulatorios similares entre dos grabaciones en oposición
a los mismos dos fonemas. Buscando diferencias y similitudes en el movimiento de los órganos
productores del habla reflejados en las altas frecuencias del tracto y la dinámica hacen de este
método especialmente robusto en situaciones de audio ruidoso, diferentes idiomas y muestras de
corta duración.

El método muestra alta confiabilidad cuando es utilizado manualmente por expertos de la


identificación forense de locutores. Su aplicación automática arroja un 1,2% EER para muestras de
voz texto dependientes de 3 sg de duración. Un método similar es utilizado en los sistemas
automáticos de identificación sobre los canales telefónicos (texto y lenguaje independientes,
diferentes canales de comunicación) donde muestra una confiabilidad de 16% EER cuando las dos
muestras de habla dúbita e indúbita son de 16 sg de duración y un 8% EER para 96 sg.

1. Introducción

La identificación forense de locutores difiere del reconocimiento habitual de hablantes [19-


21]. Las grabaciones de voz usualmente son muy cortos (menos de 3 sg); la calidad es muy baja, la
situación de habla es diferente, etc. Esto significa que en la mayoría de los casos, la aplicación de
las rutinas de identificación automáticas queda fuera de la cuestión. En cambio, la investigación
asistida por computadora de espectros de voz y el análisis lingüístico llevado a cabo por expertos
es lo que hoy se utiliza para resolver estos casos.
En Rusia [5], desde el inicio en el año 1949, con el análisis espectral de voces, a la
actualidad con el análisis espectrografico en tiempo real, se ha mantenido una de las etapas
fundamentales de la toma de decisiones para la identidad de locutores [1,2,6-8,18,19,22]. Ambas
búsquedas y prácticas demostraron que los picos de resonancia máxima (formantes) se
correlacionan directamente con la anatomía, las dimensiones y estructura geométricas del aparato
fonador, y con las propiedades acústico/mecánicas de los tejidos vivos.

Algunas de las habilidades del habla y sus propiedades anatómicas de las que pueden ser
controladas y otras no (por ejemplo, de carácter automático) determinan la conducta y posición
de las formantes [9]. De acuerdo con las características comparadas, se pueden clasificar los
métodos de la siguiente manera:

1. Comparación integral de las propiedades del habla como un todo [23]

2. Comparación de formantes de sonidos con fonética similar y combinación en contextos


comparables. A veces este método es conocido como microanálisis [7,8,12]

3. Comparación de formantes en eventos articulatorios similares [1,2,17]

4. Comparación espectral de estructuras de igual dinámica articulatoria.

5. Comparación espectral de estructuras armónicas del timbre laríngeo de la voz para


eventos prosódicos similares.

6. Comparación de espectro y la dinámica dentro de un lapso temporal de tono voz para


fases comparables de apertura y cierre de cuerdas vocales en el cotejo de habla. [18]

Cada método tiene sus propias ventajas e imponen requerimientos para el análisis de la
señal. En las prácticas habituales se los suelen combinar. El método que aquí se presenta
corresponde al de orden 3 de la clasificación ut supra.

El método sugiere la comparación indirecta de las geometrías de los tractos vocales para la
articulación de eventos acústicos similares que se realiza a través de la comparación de
formantes [1, 2 , 10 , 17] Las silabas a comparar se buscan para articulaciones fonéticas iguales
(igual posición de 2da y 3ra formantes). Para estas porciones de señal en que coinciden el
espectro de la resonancia de las altas frecuencias de las estructuras incontrolables del habla
junto con las formantes de baja frecuencia significa que coinciden la geometría y el tamaño
anatómico y la configuración de dichas estructuras. Teniendo suficientes coincidencias para
articulación de diferentes sonidos (es posible decir que coincidencias accidentales tienen una
probabilidad muy baja) se determina la identidad o la diferencia de tamaños y la sutil
estructura geométrica de los tractos vocales de los locutores comparados.

2. Método

El método usado se detalla a continuación, tanto como las breves discusiones e


ilustraciones.

1. Análisis general de grabaciones, eligiendo los fragmentos de habla para comparar. La


normalización lineal de la amplitud es necesaria. Un sampleo de la muestra del rango
de 10 a 11 KHz es usualmente suficiente a las tareas identificatorias.
2. Optimización de las representaciones visuales y numéricas de los espectros dinámicos
a la máxima precisión y exactitud de los tractos de formantes y en correspondencia
con la teoría (acústica y fonética) y la experiencia. Usualmente un experto elige el tipo
adecuado de: espectro (análisis de FFT o bien LPC), precisión y orden del modelo de
espectro, escala espectral, amplitud y ejes temporales, rango de frecuencias, tipo y
largo de ventana, análisis dentro un periodo del pitch de la voz o el promedio entre
varios periodos, normalización de la señal y smoothing, tipo de visualización y
características, etc.

El procedimiento típico para mejorar la visualización es la estabilización de la respuesta de la


frecuencia media de una grabación (para un registro entero o de apartes, en los casos mas
complicados). Por ejemplo, hacer estabilizar la frecuencia de muestreo y estandarizarla con la
ayuda de un filtro inverso (hecho con el SIS o con el Sound Cleaner Premium). Este procedimiento
usualmente compensa la influencia de la respuesta de la frecuencia para el canal de grabación y el
equipamiento.

3. Escuchar y hacer vista preliminar de los espectrogramas, buscar de manera provisoria


fragmentos de habla en el espectro con una expresión donde sea interpretada
fácilmente las formantes con la presencia de las cuatro y quizás formantes más altas.
Usualmente la unidad mínima es una sílaba. La parte de más baja calidad de la
grabación es lo primero que hay que analizar. El análisis de la forma de las formantes.
Clarificar el comportamiento típico de las formantes en distintas situaciones
articulatorias para determinar correctamente la pista o camino de las formantes de un
locutor en fragmentos del audio con ruido. Obtener la estructura del espectro para la
voz de la mayoría de los tipos de articulación de fonemas opuestos (A – I – U – E – O)
Hacer la distinción entre máximos picos del espectro que son las formantes del habla y
las características estables del canal de grabación. Conseguir la forma típicas de las
formantes en situaciones articulatorias similares y elegir la mas típica, repitiendo el
espectro de las formantes.

4. Elegir fragmentos de señal típicos en donde la evolución dinámica de las formantes –


de no menos de la 4ta- este claramente vista y sean determinadas sin ambigüedad, lo
que significa que los picos máximos de energía de un espectro se pueden interpretar
como formantes, que cada aparición/desaparición de los picos se interpreten sin
ambigüedad como tales. Es necesario probar que son efectivamente las formantes las
que están siendo medidas, y no una característica del canal o del ambiente. La
estructura de la formante debe ser carcteristicas del locutor, que es ser capaz de
verificar al hablante en diferentes fragmentos de su propia voz.

5. Usar los fragmentos básicos de la primer grabación, buscar en la segunda grabación


los correspondientes fragmentos de la señal de habla, que tengan “match” o
correspondencia en la 1er, 2da y 3er formante con presencia de 4ta o 5ta. Estos
fragmentos en los que las formantes coinciden deben ser interpretados SIN
ambigüedad como estructuras de formantes y coincidir en 3 formantes con la
presencia de 4-5 formante. La calidad de la fonética de los sonidos pronunciados en
ese momento no es importante. El método supone tomar iguales instantes
articulatorios (configuraciones del tracto vocal) en contextos liberados de la fonética y
no necesariamente igual pronunciados.
La comparación puede ser hecha para fragmentos con la desaparición de las
formantes si los espectros de picos máximos vecinos permiten sin ambigüedad
interpolar valores de las formantes que faltan.

La comparación de las estructuras es llevada a cabo por un experto ya sea linkeando


dos ventanas de espectrogramas dinámicos con la ayuda de la sincronización
horizontal, ó comparando marcos de espectros acumulados que ya han sido
investigados, o comparando promedios de fragmentos estacionarios del
espectrograma. Comparar la 4ta – 5ta y superiores formantes para los match
elegidos. En cada caso: tomar una decisión en su coincidencia o en su diferencia. El
resultado de la comparación es la conclusión acerca de la coincidencia/no
coincidencia de un especifico tipo de estructura formante. Si para un tipo particular de
estructura entre 2 fragmentos comparados hay coincidencia en las 3 primeras
formantes y diferencia en la 4ta, entonces se toma como plantilla una estructura
espectral de 4 picos y se busca exhaustivamente en una segunda grabación su
correspondencia con el vector de formante. Solo si este está ausente, la conclusión
será que hay una estructura de formante bastante diferente.

6. Determinar la precisión real de las mediciones de las formantes que se toman.


Estimando la probabilidad de coincidencia aleatoria o la diferencia obtenida en los
fragmentos matcheados o concordantes en los primeros 3 formantes. Estimar el
número necesario de coincidencias o no coincidencias de las estructuras formantes
comparadas para tomar la decisión.

7. Buscar el número necesario de pares de articulaciones independientes de fragmentos


macheados o comparados. Usualmente es suficiente encontrar entre 5 a 8 tipos de
vectores de formantes con una precisión del 5% entre las formantes medidas.
Habitualmente, 18 a 20 sonidos específicos son suficientes.

8. Evaluar que posibilidad hay de factores que favorezcan a que el tracto vocal haya
cambiado de geometría y el grado en que éstos influyen en la estructura de formantes
(objetos en el tracto vocal, hinchazón de los órganos articulatorios, enfermedad,
traumas, estado y posiciones particulares del locutor, rapidez del sonido no habitual
en el ambiente acústico, diferencias en la grabación de las cintas en cassettes o
compresión de la señal, etc.) Si los fragmentos que son comparables en 3 formantes
son suficientes en número y de articulaciones diferentes e independientes, coinciden
(o difieren) en las frecuencias altas de las formantes, entonces la decisión se puede
tomar en este tipo de análisis. La probabilidad estimada de tomar una decisión
habitualmente está configurada no más abajo de un error en 100 millones de
decisiones (aproximadamente, una coincidencia de pares entre 14000 locutores)

Atención aparte hay que prestarle a las diferencias en la comparación de grabaciones


debido a diferentes grados de la voz nasal.

Es importante recordar que aparte de la geometría del tracto vocal, otros factores
también influyen en la posición de las formantes. Particularmente, cualquier escape de
aire en el tracto vocal puede causar variación en el valor de las formantes. [11] Por
eso, una apertura lenta de la cavidad nasal con las mismas posiciones de otros órganos
articulatorios cambia el numero de las formantes y una gradual (con un incremente
gradual de la apertura de la cavidad nasal) aparición de resonancias nasales y un
simultaneo desplazamiento o hasta una desaparición de las resonancias bucales. Las
figuras para ilustrar esto fueron tomadas de [4]

Las figuras representan la intensidad del espectro medido para las vocales rusas /E/ y /U/ en
una gradual apertura de la cavidad nasal desde una pronunciación netamente bucal (parte
superior de las figuras) hasta la máxima pronunciación nasal (parte inferior de las imágenes).
Es posible ver que en el incremento de la nasalidad, que aparece un nuevo pico máximo de
espectro: para la /E/ en el orden de los 700-1200 Hz y 24010-2700 Hz, y para la /U/ en el
rango de los 500-1000 Hz y 2600-3200 Hz. Algunas formantes “bucales” se han corrido,
decrecido su amplitud, algunas desaparecido. Por ejemplo, las primeras 4 formantes in esta
figura han cambiado su valor de entre 100 a 300 Hz con diferentes grados de nasalidad.

Cuando se están analizando formantes de habla real, el experto necesita conocer los más
pequeños detalles acerca de esto y otros fenómenos articulatorios y cómo influye en el
comportamiento de las formantes.

3. Resultados y conclusión
Cuando los idiomas (dialectos?) de los locutores difieren entre las voces el dubito y el
indúbito, el experto de audio se debe considerar las diferencias entre lenguas o modismos.
La situación es habitualmente real en el caso de la gente bilingüe.

Algunos métodos establecidos de la identificación de locutores no son directamente


aplicables al habla multiidiomatica. Por ejemplo, cuando se comparan formantes o
estructuras rítmicas de silabas fonéticamente iguales, tomadas de grabaciones en diferentes
idiomas o dialectos, hay una diferencia básica entre uno y esas mismas características del
habla de un locutor. Entonces, el método de identificacion de locutores basado en la
coparacion espectrografica de estructuras de identicos fonemas impone una especial
restricción en la selección de los fragamentos a comparar.

El método descripto de indepedencia del lenguaje, universal y simple en situaciones de


habla de idiomas diferentes. Su uso ha mostrado efectividad en identificación de audio
forense real a lo largo de los años.

La misma evaluación formal fue aplicada. La base de datos utilizada para testear es la
siguiente: los extractos de micrófono grabados de 16 locutores rusos, frases fijas, 5 sesiones
diferentes de 5 frases rusas diferentes (duración de 3-5 segundos), y durante una de las
sesiones 3 frases en inglés, con un intervalo entre las sesiones de no menos de 2 semanas.
Los locutores que fueron rusos nativos, y que han estudiado inglés no menos de 8 años.
Todas las elocuciones en inglés fueron lo suficiente inteligible como para ser juzgadas por
nativos ingleses con un grado de acento ruso desde débil hasta muy fuerte. Las grabaciones
fueron hechas a 16 bits, 11025 Hz.

La comparación de locutores fue realizada comparando el habla en Inglés con la rusa de las
5 sesiones de los mismos locutores y una sesión en ruso para cualquier otro locutor de la
base de datos. El número total de comparaciones “igual-igual” es de 80 y 240 las
comparaciones de “igual-extraño”. En cada par comparado el experto rastreo 18 espectros
básicos de sonidos de habla para 3 formantes coincidentes cualquieras de las 4 formantes
bajas del habla. En estos fragmentos las formantes deben ser seguras y típicas del tracto
para las diferentes vocales del triangulo fonético, para ambas grabaciones.

Particularmente, los sonidos /A/, /E/, /I/, /O/ y /U/ rusas son representadas (sus 1er y 2do
formantes deben caer en los valores típicos para el lenguaje ruso [13-16]. La coincidencia de
las formantes por cada dos grabaciones comparadas fue determinada por expertos con la
precisión necesaria con la ayuda de dos cursores horizontales movidos simultáneamente
sobre el eje de la frecuencia en dos ventanas de espectrogramas linkeadas. La búsqueda de
coincidencia de los fragmentos fue realizada simétricamente en dos grabaciones: fijando las
formantes en la primer grabación y buscando las mismas formantes en la segunda y
viceversa. Luego para cada grupo de fragmentos básicos, la 4ta y 5ta formante fueron
analizadas. Para cada clase de sonido, se represento, las diferencias que pudiere haber en
las formantes representadas, o si las estructuras coincidían muy bien, o si no había
fragmentos comparables por cada uno de los grupos de sonido en las grabaciones.

Cuando este método es usado por expertos con experiencia por unas varios cientos de
análisis de identificaciones reales ninguna decisión equivocada fue reportada. Un simple,
casi automática variación del método fue probada [10] en habla clara, pura: para 100
locutores, con las mismas frases de 3-5 segundos de duración, 15 sesiones cada 6 meses.

1.2% de equivocaciones fue encontrado en el EER de falsa aceptación y falso rechazo . 8% de


equívocos fue capturado en las conversaciones telefónicas de la base de datos (audio
ruidoso, líneas GSM incluidas) [24] Las muestras de voz en las que los errores se
encontraron se los hizo analizar además por expertos. La mayoría de los errores fueron
debidos la mala detección automática de las formantes. En la determinación manual de
estas estructuras es posible sortear estos errores. Cuando el método se usa adecuadamente
por un experto con experiencia, es válido para la situación de idiomas diferentes.

Seguidamente, la identidad/diferencia de la decisión hecha o imposibilitada de hacer es


acordado.

Los locutores que se dijeron ser distintos fue en los casos e no menor a 3 estructuras
espectrales esencialmente diferentes que fueron encontradas y no hubo coincidencias para
3 grupos de sonidos diferentes. Se dijeron ser los mismos si en no menos de 15
coincidencias espectrales, una de las detectas era esencialmente diferente, y para la cual
había similitud espectral en la segunda grabación.

En los datos investigados, los resultados que fueron recogidos son:

- Comparación Igual-igual: 70 decisiones buenas, 9 rechazadas, 1 error

- Decisión igual-extraña: 207 buenas decisiones, 27 rechazos, 6 errores

Luego fue llevado a cabo una revisión independiente de los datos de voz de cada uno de los
equívocos. Se determino que era posible eliminarlos con un análisis más cuidadoso y
prolongado de los errores llevados a cabo por un experto.

Los resultados listados anteriormente muestran que el método de coincidencia o matcheo


de formantes permite una decisión de confianza aun en los casos de idiomas diferentes. El
único requisito necesario es un sistema fonológico cerrado y una muestra representativa de
habla. Se ha visto que sin lugar a dudas solo una compleja exanimación del buen grado de
experticia con la combinación de herramientas y métodos aurales, lingüísticos e
instrumentales hacen a la confianza y seguridad de la decisión presentada a las Cortes.

4. Conclusión

El método basado en la coincidencia o matcheo de formantes se basa en la comparación


de las formantes en eventos articulatorios similares en contraposición al análisis fonético
en contextos de habla similares. Este método suma al audio forense una herramienta más
para los procedimientos de identificación. Siendo relativamente sencilla y formal la
implementación rápidamente se aplicó a la identificación automática de locutores como
en el caso del sistema para identificacion de hablantes sobre canales telefónicos Trawl [25]

También podría gustarte