Está en la página 1de 2

1.

Introducción

El presente documento informa sobre una evaluación del Batvox 3.1 de reconocimiento como
parte del número especial virtual de Speech COMMUNICATION: Evaluación multi-la- boratoria
de los sistemas de comparación de voz forense en condiciones que reflejan las de un caso
forense real (FORENSIC_EVAL_01). Aunque la 3.1 no es la versión más reciente de Batvox,
algunos laboratorios forenses la siguen utilizando para el trabajo de casos. Por lo tanto, nos
interesaba evaluar su rendimiento en condiciones de trabajo de casos. Una evaluación de la
versión más reciente de Batvox, la versión 4.1, fue reportada en van der Vloed (2016).

Los protocolos y datos de entrenamiento y pruebas para FORENSIC_EVAL_01 se describen en


Morrison y Enzinger (2016). Nos interesó la effect de la cantidad de datos de entrenamiento
sobre el rendimiento de Batvox 3.1. Por lo tanto, probamos Batvox 3.1 utilizando conjuntos de
datos de diferentes tamaños seleccionados aleatoriamente de FORENSIC_EVAL_01: una
grabación de condición de orador conocido y una regrabación de condición de orador
cuestionado de cada uno de los 25, 50, 75 y 100 oradores.

5. 5. Debate y conclusión

Hay que tener cuidado de no interpretar en exceso los detalles de los resultados comunicados,
ya que cada conjunto de datos de capacitación se extrajo al azar de una sola muestra de 105
oradores, y los detalles de los resultados pueden deberse a estos extractos aleatorios
particulares de esta muestra concreta. También hay que tener en cuenta que los conjuntos de
datos de capacitación fueron sorteos aleatorios y no fueron conjuntos seleccionados por el
algoritmo incorporado en Batvox 3.1; sin embargo, las grabaciones de capacitación se
preseleccionaron y procesaron para reflect la misma población y condiciones pertinentes que
en los datos de la prueba. Teniendo en cuenta estas advertencias, sigue pareciendo razonable
dibujar las siguientes con- clusiones.

Cuando se entrenó utilizando datos de sólo 25 altavoces, el rendimiento de Batvox 3.1 fue
particularmente deficiente, ya que el rendimiento medio fue peor que el de un sistema que no
proporcionaba información y que siempre producía una relación de probabilidad de 1,
independientemente de la entrada. El rendimiento era sustancialmente mejor cuando se
utilizaban los datos de 50 oradores para la capacitación, y seguía mejorando a medida que el
número de oradores de la capacitación aumentaba a 75 y 100. Por consiguiente, los datos de
25 oradores parecen ser inadecuados para el entrenamiento, por lo que recomendamos
utilizar más, pero no hay una asíntota evidente en el rendimiento entre 50 y 100 oradores, por
lo que sobre la base de estos resultados no podemos sugerir un número de oradores de
entrenamiento más allá del cual no valdría la pena añadir más oradores.

Una observación importante es que, incluso cuando se utilizaron los datos de 100 oradores
para el entrenamiento, hubo un sesgo sustancial en la producción del sistema: los valores de la
razón de probabilidad producidos por el sistema parecen ser con-sistencialmente demasiado
bajos (véanse los gráficos de Tippett). El sesgo es sorprendente, dado que los datos de
capacitación y de prueba se extrajeron del mismo conjunto de datos más amplio, y puede
sugerir un defecto en el diseño del sistema. El sesgo puede deberse al uso de un
procedimiento de degradación dentro de la fuente para el que el grado de desplazamiento y
escalado parece ser arbitrario. El sesgo observado puede ser suficiente para justificar una
recomendación de que no se utilice Batvox 3.1 para el trabajo de casos.

Los resultados de las pruebas de una versión más reciente de Batvox (versión 4.1) sobre los
mismos datos de prueba fueron reportados anteriormente en van der Vloed (2016). El
rendimiento de Batvox 4.1 fue sustancialmente mejor que el de Batvox 3.1. La versión 4.1 es
un sistema de análisis discriminante lineal probabilístico de vectores de identidad (PLDA del
vector i), en lugar de un sistema GMM-UBM, y no incluye el procedimiento de degradación
dentro de la fuente. Probando la Microsoft Research Identity Toolbox (Sadjadi et al., 2013) con
los mismos datos, Silva y Medina (2017) también encontraron que un sistema PLDA del vector i
superaba al sistema GMM-UBM. Por lo tanto, esto lleva a recomendar de nuevo que se utilice
Batvox 4.1 en lugar de Batvox 3.1, o más ampliamente que se utilicen los sistemas PLDA del
vector i en lugar de los sistemas GMM-UBM.

Otra razón para desalentar el uso continuado de Batvox 3.1 es que era difícil para ejecutar las
pruebas FORENSIC_EVAL_01 y por lo tanto sería difícil para ejecutar validaciones empíricas de
Batvox 3.1 en las condiciones de otros casos. El software se bloqueó cuando intentamos usar el
modo por lotes para ejecutar comparaciones entre las grabaciones de hablantes conocidos y
las 61 grabaciones de condiciones de hablantes cuestionados del conjunto de pruebas.
Tuvimos que dividir manualmente la tarea para ejecutar no más de dos grabaciones en
condiciones de hablante cuestionado en cada lote.

También podría gustarte