Está en la página 1de 6

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/316171868

Protocolo de recolección y procesamiento de muestras de voz para creación de


una población referencial del español colombiano

Article · August 2017

CITATIONS READS

0 505

1 author:

Andres Vargas
Fiscalia General de la Nación
4 PUBLICATIONS   0 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Forensic Experiments View project

Forensic Voice Database View project

All content following this page was uploaded by Andres Vargas on 17 April 2017.

The user has requested enhancement of the downloaded file.


Protocolo de recolección y procesamiento de
muestras de voz para creación de una población
referencial del español colombiano.
Andrés G. Vargas D.*
Grupo Acústica, Dirección Nacional del Cuerpo Técnico de Investigación
Bogotá D.C., Colombia
andres.vargas@fiscalia.gov.co

Resumen—Este protocolo surge de la necesidad de crear una 2. El locutor indubitado no es el mismo dubitado
población de referencia para ser utilizada en pruebas de (hipótesis de la defensa).
funcionamiento de diversos sistemas de reconocimiento
automático y semi-automático de locutor, utilizando como base los Para establecer estos LR existen dos métodos (Método Directo
diferentes dialectos de las regiones colombianas.
y Método de Puntuación), que requieren tres elementos básicos
Palabras clave— Base de datos de Voz, Comparación de para poder realizar el cálculo, como se ejemplifica en la Fig. 1.
Locutor, Dialectos, Audio Forense.

Abstract— This protocol arises from the need to create a


reference population to be used in functional tests of various
automatic and semi-automatic speaker recognition systems,
based on the different dialects of the Colombian regions.

Keywords— Voice Database, Speaker Comparison,


Dialects, Forensic Audio.

I. INTRODUCCIÓN
En la actualidad, los estudios de Identificación de Hablante
que se llevan a cabo en la Fiscalía General de la Nación
involucran estudios es tres aspectos:
• Perceptual – Auditivo. Figura 1. Cadena de procesamiento para el cálculo de LR por el método
• Lingüístico. directo (Drygajlo & Haraksim, 2017)
• Acústico.
Denominados en su conjunto como: “método combinado”, los Estos elementos indispensables para el cálculo son:
cuales son “considerados por la comunidad forense de • Base de datos del locutor dubitado: Consiste en las
vanguardia, como la alternativa metodológica de mayor grabaciones allegadas a los grupos de acústica, de
fiabilidad.” (Castillo, Cruz, Escobar, & Medina, 2011). personas de las que las autoridades tienen un
sospechoso, para ser analizados y establecer si a partir
Para complementar este método se han desarrollado sistemas de de estos audios puede realizarse un cotejo de voces.
identificación automáticos y semi-automáticos como • Grabación del locutor indubitado: Es la grabación del
BATVOX (Agnitio), IKAR Lab (Speech Technology Center) o sospechoso indicado por las autoridades, de la que se
VOCALISE (Oxford Wave Research), los cuales expresan sus tiene plena seguridad de su identidad, para ser
resultados en índices de verosimilitud, comúnmente conocidos comparado contra las grabaciones anteriormente
como LR (Likelihood Ratio), es decir, una medida estadística de mencionadas.
confianza en el resultado, que compara las posibilidades de dos • Base de datos de población relevante: Es la población
teorías: referencial que se va a utilizar para comprobar la
tipicidad de las características extraídas del locutor
1. El locutor indubitado es el mismo dubitado (hipótesis indubitado.
del acusador).

* A. Vargas labora en el Grupo Acústica, Dirección Nacional del CTI, Nivel


Central, Bogotá D.C. (e-mail:andres.vargas @fiscalia.gov.co)
Con estos elementos se calcula el LR como se muestra en (1): • Superdialecto.
• Dialecto.
𝑝𝑝(𝐸𝐸|𝐻𝐻𝑎𝑎 ) • Subdialecto.
𝐿𝐿𝐿𝐿 =
𝑝𝑝(𝐸𝐸|𝐻𝐻𝑑𝑑 ) (1) • Habla regional.

Donde E es la Evidencia Forense Observada (todas las Para Colombia fueron establecidos dos superdialectos, el
grabaciones con las que se cuentan, tanto dubitadas como Costeño y el Andino, que se subdividen como se muestra en la
indubitadas), Ha es la hipótesis del acusador y Hd es la hipótesis Tabla I:
de la defensa. En la Fig. 2 se muestra una situación en la cual TABLA I
se obtuvo una puntuación E=25, y el resultado de la división DIVISIÓN DIALECTAL SEGÚN PROPUESTA DEL DEPARTAMENTO DE
DIALECTOLOGÍA DEL INSTITUTO CARO Y CUERVO
entre la probabilidad de Ha y la probabilidad de Hd para la
Super- Léxicos
puntuación de la Evidencia Forense Observada es de 13.25, es Dialectos Subidialectos
dialectos Regionales
decir, es 13.25 veces más probable que la teoría del acusador
sea la teoría correcta. Cartagenero Bolívar
Samario Cesar
Costeño
Guajiro Guajiro
Atlántico
Costeño Córdoba
Atlántico Interior
Sucre
Costeño Pacífico Norte
Pacífico Pacífico Sur
Antioqueño- Antioqueño
caldense Caldense
Andino
Valluno
Occidental Caucano-valluno
Caucano
Andino-sureño Nariñense
Nortesantan-
Santandereano dereano
Figura 2. Ejemplo de LR por el método de puntuación (Drygajlo & Haraksim, Santandereano
Andino
2017)
Andino Cundinamar-
Oriental Cundiboyacense qués
Por lo anteriormente expuesto se evidencia la necesidad de Boyacense
tener una población referencial que permita establecer
Tolimense- Tolimense
resultados estadísticos de una manera precisa, que pueda
evaluar la tipicidad de las características del habla de las huilense Huilense
diferentes regiones de Colombia. Araucano
Llanero norte
Llanero Casanareño
II. ELABORACIÓN DEL PROTOCOLO
Llanero sur
Para la elaboración del protocolo y el diseño de su modelo
de clasificación se tomaron en cuenta casos de base de datos
con fines forenses de México (López E. & Solórzano S., 2016), Teniendo en cuenta esta división, y contando con las ciudades
España (Ramos, González R., González D., & Lucena M, en donde se encuentran Subdirecciones Seccionales,
2008), Francia (Ajili, Bonastre, Kahn, Rossato, & Bernard, Subdirecciones y Unidades del Cuerpo Técnico de
2016), Holanda (Vloed, Bouten, & Leeuwen, 2014) y Australia Investigación se decidió hacer la recolección de las muestras
(Morrison, Rose, & Zhang, 2012). en 27 ciudades de 22 departamentos, que cubren las zonas
dialectales anteriormente mencionadas, las cuales se pueden
A. División Dialectal observar en la Tabla II.
TABLA II
LUGARES DE RECOLECCIÓN DE LAS MUESTRAS DE VOZ
Como primera tarea a la hora de organizar los datos que van Departamento Ciudad
a ser recolectados se debe establecer hasta que nivel se van a Antioquia Medellín
agrupar los diferentes estilos de español que se hablan en Atlántico Barranquilla
Colombia. Para esta organización se van a utilizar 4 niveles de Bolívar Cartagena
subdivisión, que se establecen de la siguiente manera (Mora M.,
Boyacá Tunja
Lozano R., Ramírez C., Espejo O., & Duarte H., 2004):
Caldas Manizales
Cauca Popayán
Cesar Valledupar Como se ilustra en la Fig. 3, la respuesta en frecuencia de estos
Chocó Quibdó micrófonos es adecuada para la grabación de voz en un entorno
Córdoba Montería forense, ya que en el rango de emisión de la voz hablada (100 Hz
Cundinamarca Bogotá – 4000 Hz) no presentan atenuaciones significativas, y en la parte
Guajira Riohacha superior del rango presentan una ganancia que permite
Huila Neiva contrarrestar el efecto de un nivel de presión menor en los
Magdalena Santa Marta armónicos superiores de la voz.
Meta Villavicencio
Barbacoas
Nariño Pasto
Tumaco
Norte de Santander Cúcuta
Putumayo Puerto Asís
Quindío Armenia
Risaralda Pereira
Santander Bucaramanga
Tolima Ibagué
Buenaventura
Valle del Cauca Cali Figura 3. Respuesta en Frecuencia del Micrófono Shure SM-58
Cartago
Para la sección de lectura se utilizarán diversos textos que permitan
B. Recolección de las muestras
obtener una muestra de por lo menos un minuto de habla continua,
como por ejemplo la fábula “El viento norte y el Sol”, atribuida a
La recolección de las muestras en estas ciudades se realizará de
Esopo y tradicionalmente utilizada por la Asociación Fonética
manera que se obtengan muestras de cuatro grupos específicos en
Internacional (IPA por sus siglas en ingles), los textos
dos condiciones de canal de grabación para cada lugar. Los grupos
fonéticamente balanceados desarrollados para la base de datos
de cada ciudad se muestran en la Tabla III.
AHUMADA (Ortega G., González R., & Marrero A., 2000) y para
TABLA III la evaluación de calidad vocal en personas bilingües (Bruyninckx,
AGRUPACIÓN DE POBLACIÓN DE MUESTRA POR GÉNERO Y EDAD Hargmegnies, Llisterri, & Poch-Olivé, 2004), entre otros.
Género
Hombre Mujer
Edad En la parte de habla espontánea se tendrá un grupo de 50 preguntas
18-30 Años 35 muestras 35 muestras de diversos temas, entre las cuales se escogerán al azar entre 5 y 10
31-60 Años 35 muestras 35 muestras preguntas, que permitirán al muestradante expresar su punto de
vista, y debe cumplir también el requisito de por lo menos un
En la recolección, además, se buscara recolectar dos estilos de minuto de habla sin contar pausas ni intervenciones adicionales a
habla, habla espontánea y lectura, y se utilizarán 2 canales distintos la del locutor principal.
de grabación: C. Procesamiento de Señal
• Grabación Directa (Microfónica 44.1 kHz, 16 bit, mono).
La señal debe ser procesada con el fin de eliminar los
• Grabación Telefónica (Interceptación de Línea Celular).
espacios entre las emisiones del hablante, que contienen
silencios o ruido de fondo, con el fin de en el archivo de audio
Para esta última, dependiendo de los recursos tecnológicos de los
final permanezca únicamente la grabación de las intervenciones
que disponga el grupo encargado de una ciudad determinada, se
del muestradante. Esto se logra estableciendo un umbral de
puede tomar una alternativa, y es realizar una recodificación de la
amplitud a partir del cual se determina que la señal es útil, como
grabación realizada en formato Adaptative Multi-Rate (AMR), con
se muestra en la Fig. 4.
un bit rate igual o superior a 7.4 kbps, correspondiente a lo
establecido en el estándar TIA/EIA IS-641, ya que a partir de esta
tasa de transmisión de datos se alcanza una calidad de habla
adecuada para comunicaciones.

Para la grabación de la muestra microfónica se utilizarán


micrófonos Shure SM-58 o micrófonos con respuesta en
frecuencia similar, diseñados para grabación de voz, que son parte
de las herramientas utilizadas en el laboratorio como parte de los
Laboratorios Computarizados de Habla CSL4500 con los cuales se
realiza el análisis con el método combinado. Figura 4. Funcionamiento de un algoritmo VAD (Ramírez, Gorriz, & Segura,
2007) español predeterminados (Español de España) vs los
modelos creados a partir de la base de datos (Español
Esto se llevará a cabo utilizando un algoritmo de Detección de de Colombia)
Actividad de Voz (VAD por sus siglas en inglés), como el • Diferencia en el porcentaje de Falso Rechazo y Falsa
“Sound File Cutter Upper” utilizado por Morrison et al. (2012), Aceptación de estos sistemas utilizando ambos
cuyo resultado deberá ser supervisado para asegurar la calidad modelos.
del mismo. • Diferencia de tiempo de entrega de resultados
D. Organización del modelo de base de datos utilizando los diferentes modelos.
Para el diseño de las tablas de se utilizará un modelo de • Pruebas ciegas, en donde los peritos que van a realizar
organización similar al presentado por López E. & Solórzano la Identificaciones de Locutor, no sabrán qué modelo
(2016). La clasificación se dará utilizando los diferentes se está utilizando como referencia.
parámetros establecidos en la División Dialectal y en la
Recolección de muestras, a los cuales se les asignará un III. CONCLUSIONES
identificador único, que se encuentra consignado en la Tabla Este protocolo surgió de la necesidad de una herramienta de
IV. evaluación de sistemas de identificación forense de locutor,
TABLA IV pero puede ser utilizado también para caracterizaciones
IDENTIFICADORES DE LA BASE DE DATOS lingüísticas de diversas variantes del español.
Identificador Cantidad
Igual al número de Con la implementación de este proyecto se espera recolectar
Identificación asignada muestras recolectadas entre 3400 y 3780 muestras de voz, lo que la posicionaría como
Género 2 la base de datos inicial para un proyecto forense con el mayor
Grupo de edad 2 número de muestras recolectadas.
Tipo de Habla 2
Canal de grabación 2 Con este protocolo se da el primer paso hacia la construcción
de una base de datos de voz mucho más amplia, que pueda
Ciudad 27
servir para agilizar los procesos de los grupos de acústica de la
Subdialecto / Habla Regional 21
Fiscalía General de la Nación.
Esto nos indica que de cada participante en las tomas de muestra
de voz, existirán cuatro archivos diferentes, que serán IV. REFERENCIAS
nombrados con la estructura de clasificación
“id.asignada__génerogrupoedad__tipohabla_canalgrabación Ajili, M., Bonastre, J.-F., Kahn, J., Rossato, S., & Bernard, G.
__subdialectohablaregional__ciudad.wav”, como se (2016). FABIOLE, a Speech Database For Forensic
Speaker Comparison. 10th Edition of its Language
ejemplifica a continuación:
Resources and Evaluation Conference (LREC 2016).
Bruyninckx, M., Hargmegnies, B., Llisterri, J., & Poch-Olivé,
Características del sujeto:
D. (2004). Language-induced voice quality
• Id. Asignada: 0001. variability in bilinguals. Journal of Phonetics(22),
• Género / Grupo de edad: Femenino / 18 a 30 años. (id: 19-31.
2) Castillo, K., Cruz, N., Escobar, M., & Medina, E. (2011).
• Tipo de habla: Lectura y espontánea. (id: 1 y 2) Fundamentos de la identificación vocal de hablantes
• Canal de grabación: Directa y Telefónica. (id: 1 y 2) del español de Chile: Una mirada fonoaudiológica.
• Subdialecto/Habla Regional: Pacífico Sur. (id: 6) Santiago, Chile.
• Ciudad: Tumaco. (id: 17) Drygajlo, A., & Haraksim, R. (2017). Biometric Evidence in
Forensic Automatic Speaker Recognition. En
Los archivos resultantes de las grabaciones de este hablante en Handbook of Biometrics for Forensic Science (págs.
particular se almacenarían de la siguiente manera: 221-239). Springer International Publishing.
López E., F., & Solórzano S., J. (2016). Propuesta de
0001_2_1_1_6_17.wav (lectura – vía directa),
Clasificación de un banco de voces con fines de
0001_2_2_1_6_17.wav (habla espontánea – vía directa),
identificación forense.
0001_2_1_2_6_17.wav (lectura – vía telefónica), Mora M., S., Lozano R., M., Ramírez C., R., Espejo O., M., &
0001_2_2_2_6_17.wav (habla espontánea – vía telefónica). Duarte H., G. (2004). Caracterización Léxica de los
Dialéctos del Español de Colombia según el "ALEC".
E. Evaluación de la efectividad de la base de datos Bogotá D.C.: Instituto Caro y Cuervo.
Morrison, G. S., Rose, P., & Zhang, C. (2012). Protocol for
Para la evaluación del rendimiento se tendrán en cuenta
the collection of databases of recordings for forensic-
factores como:
voice-comparison research and practice. Australian
• Diferencia del grado de confianza entregado por los Journal of Forensic Sciences, 44:2, 155-167.
sistemas de comparación automática y semi- Ortega G., J., González R., J., & Marrero A., V. (2000).
automática de locutores al utilizar los modelos de AHUMADA: A large speech corpus in Spanish for
speaker characterizaion and identification. Speech
Communication (31), 255-264.
Ramírez, J., Gorriz, J., & Segura, J. C. (2007). Voice Activity
Detection. Fundamentals and Speech. En Robust
Speech Recognition and Understanding (págs. 1-22).
Ramos, D., González R., J., González D., J., & Lucena M, J.
(2008). Adressing database mismatch in forensic
speaker recognition with Ahumada III: a public real-
casework database in Spanish. 9th Annual
Conference of the International Speech
Communication Association.
Telecommunications Industry Association (TIA). (1 de Junio
de 1998). TDMA Cellular/PCS - Radio Interface
Enhanced Full-Rate Voice Codec. TIA/EIA/IS-641.
Vloed, D. v., Bouten, J., & Leeuwen, D. v. (2014). NFI-
FRITS: A forensic speaker recognition database and
some first experiments. Joensuu, Finland: The
Speaker and Language Recognition Workshop.

View publication stats

También podría gustarte