Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Espero que estén todos bien y cuidándose, esperando que todo vuelva a la normalidad,
en algún momento nos podremos ver las caras.
Les comento lo siguiente, fui editando con el programa forense cada uno de los conceptos
que estamos incorporando.
Sonograma
Armónicos
Ceptrum
Formantes
Picos de formantes -promedios de picos formantes
En estos videos va mi voz describiendo el contenido y explicando cada componente
grafico de la señal de voz. Lo que explico hay que tomarlo como contenido de la materia
de conocimiento obligatorio , hagan de cuenta que están en clase y toman apuntes de lo
que digo.
Esto complementa y da sentido a todo lo anterior que venimos ya viendo hasta acá.
IMPORTANTE
Los videos están confeccionados con una muestra indubitada para que puedan ver todos
los formantes, acostumbrarse a ellos sobre todo en el espectrograma de banda ancha F1-
F2-F3-F4.
Esta calidad es la que se debe obtener cuando depende de uno la obtención de un
audio indubitado. Puede ser que un archivo sea indubitado, ej la grabación de una
audiencia indagatoria o testimonial en la cual se grabara con micrófono pero
generalmente en las salas de audiencia se genera un fenómeno llamado Reverberación,
que se explica en términos sencillos cuando la voz (seria el rebote de la voz en superficies
no absorbentes como son las paredes sin telas de cortinas que absorban las
amplificaciones naturales de la voz (piensen en un estudio de grabación cuantos paneles
de absorción tienen para evitar durante la grabación d varios instrumentos musicales y
voz, este fenómeno). [ pero en términos de descripción del fenómeno reverberante
decimos los siguiente : El tiempo de reverberación (TR), es un parámetro que se utiliza
para cuantificar cuanto tiempo transcurre entre que se interrumpe la emisión de un sonido y
la recepción de sus reflexiones. A los fines periciales, en la actualidad un registro acústico
puede tener como máximo de 400 milisegundos (ms). Este parámetro, cuando no es
exageradamente superior a este valor, podría ser atenuado mediante procesos de filtrado,
cuya optimización del resultado será evaluado en la etapa de análisis espectrográfico. Pero
para que tengan una idea de un un valor optimo de Reverberancia es no mayor a 200 ms.
Otro aspecto a tener en cuenta en una señal de voz aunque sea indubitada pero
fue provista es la necesidad de evaluar el Clipping o saturación de la señal,: si el micrófono
está muy cerca de la fuente (micrófono – boca) la amplitud de la señal de voz es por demás
intensa y genera un efecto de distorsión armónica.
Esta situación también deberá evaluarse en caso de recibir un material
supuestamente adecuado como un indubitado con calidad microfónica(grabado con
micrófono) pero que puede no haber sido tenido en cuenta todos estos aspectos para darle la
aptitud técnica correspondiente por lo tanto :
Entonces, por más que un archivo tenga la duración (tiempo) neta necesaria, si
parte de esa duración resulta inutilizable por un porcentaje alto de saturación, no será
posible relevar el número necesario de muestras de las distintas vocales. Por lo tanto, un
archivo con un nivel alto de Clipping, no será apto para cotejo, dado que no podrá ser
optimizado a los fines identificatorios, mediante procesos de filtrado, porque aun aplicando
filtro para Clipping si el valor de saturación es muy alto la resultante del filtrado le genera
perdida de calidad armónica y de formantes al momento del análisis espectrográfico de
manera manual.
.
Demas esta aclarar que todo archivo cuestionado deberá ser sometido a todos los controles
técnicos necesarios para saber si reúne las condiciones técnicas para ser sometido a pericia
de voz (esto lo vemos un poquito más adelante cuando entremos en el armado de un
informe pericial.
Pero para generalizar…. Todo archivo provisto (no grabado por ustedes), deberá ser
sometido a estudio técnico para determinar su aptitud para cotejo, aunque cumpla la
función de indubitado.
NOTA: para ir cerrando estos conceptos tenemos este contenido teórico mas lo expresado
en los videos, que es para estudio, para ir cumplimentando los puntos
2-5 Formas de graficacion de los distintos parámetros de voz y componentes del habla
2-6 Programas de uso forense y no forense para la medición de los parámetros de voz.
OTRO TEMA .
1. Introducción
Algunas de las habilidades del habla y sus propiedades anatómicas de las que pueden ser
controladas y otras no (por ejemplo, de carácter automático) determinan la conducta y posición
de las formantes [9]. De acuerdo con las características comparadas, se pueden clasificar los
métodos de la siguiente manera:
Cada método tiene sus propias ventajas e imponen requerimientos para el análisis de la
señal. En las prácticas habituales se los suelen combinar. El método que aquí se presenta
corresponde al de orden 3 de la clasificación ut supra.
El método sugiere la comparación indirecta de las geometrías de los tractos vocales para la
articulación de eventos acústicos similares que se realiza a través de la comparación de
formantes [1, 2 , 10 , 17] Las silabas a comparar se buscan para articulaciones fonéticas iguales
(igual posición de 2da y 3ra formantes). Para estas porciones de señal en que coinciden el
espectro de la resonancia de las altas frecuencias de las estructuras incontrolables del habla
junto con las formantes de baja frecuencia significa que coinciden la geometría y el tamaño
anatómico y la configuración de dichas estructuras. Teniendo suficientes coincidencias para
articulación de diferentes sonidos (es posible decir que coincidencias accidentales tienen una
probabilidad muy baja) se determina la identidad o la diferencia de tamaños y la sutil
estructura geométrica de los tractos vocales de los locutores comparados.
2. Método
8. Evaluar que posibilidad hay de factores que favorezcan a que el tracto vocal haya
cambiado de geometría y el grado en que éstos influyen en la estructura de formantes
(objetos en el tracto vocal, hinchazón de los órganos articulatorios, enfermedad,
traumas, estado y posiciones particulares del locutor, rapidez del sonido no habitual
en el ambiente acústico, diferencias en la grabación de las cintas en cassettes o
compresión de la señal, etc.) Si los fragmentos que son comparables en 3 formantes
son suficientes en número y de articulaciones diferentes e independientes, coinciden
(o difieren) en las frecuencias altas de las formantes, entonces la decisión se puede
tomar en este tipo de análisis. La probabilidad estimada de tomar una decisión
habitualmente está configurada no más abajo de un error en 100 millones de
decisiones (aproximadamente, una coincidencia de pares entre 14000 locutores)
Es importante recordar que aparte de la geometría del tracto vocal, otros factores
también influyen en la posición de las formantes. Particularmente, cualquier escape de
aire en el tracto vocal puede causar variación en el valor de las formantes. [11] Por
eso, una apertura lenta de la cavidad nasal con las mismas posiciones de otros órganos
articulatorios cambia el numero de las formantes y una gradual (con un incremente
gradual de la apertura de la cavidad nasal) aparición de resonancias nasales y un
simultaneo desplazamiento o hasta una desaparición de las resonancias bucales. Las
figuras para ilustrar esto fueron tomadas de [4]
Las figuras representan la intensidad del espectro medido para las vocales rusas /E/ y /U/ en
una gradual apertura de la cavidad nasal desde una pronunciación netamente bucal (parte
superior de las figuras) hasta la máxima pronunciación nasal (parte inferior de las imágenes).
Es posible ver que en el incremento de la nasalidad, que aparece un nuevo pico máximo de
espectro: para la /E/ en el orden de los 700-1200 Hz y 24010-2700 Hz, y para la /U/ en el
rango de los 500-1000 Hz y 2600-3200 Hz. Algunas formantes “bucales” se han corrido,
decrecido su amplitud, algunas desaparecido. Por ejemplo, las primeras 4 formantes in esta
figura han cambiado su valor de entre 100 a 300 Hz con diferentes grados de nasalidad.
Cuando se están analizando formantes de habla real, el experto necesita conocer los más
pequeños detalles acerca de esto y otros fenómenos articulatorios y cómo influye en el
comportamiento de las formantes.
3. Resultados y conclusión
Cuando los idiomas (dialectos?) de los locutores difieren entre las voces el dubito y el
indúbito, el experto de audio se debe considerar las diferencias entre lenguas o modismos.
La situación es habitualmente real en el caso de la gente bilingüe.
La misma evaluación formal fue aplicada. La base de datos utilizada para testear es la
siguiente: los extractos de micrófono grabados de 16 locutores rusos, frases fijas, 5 sesiones
diferentes de 5 frases rusas diferentes (duración de 3-5 segundos), y durante una de las
sesiones 3 frases en inglés, con un intervalo entre las sesiones de no menos de 2 semanas.
Los locutores que fueron rusos nativos, y que han estudiado inglés no menos de 8 años.
Todas las elocuciones en inglés fueron lo suficiente inteligible como para ser juzgadas por
nativos ingleses con un grado de acento ruso desde débil hasta muy fuerte. Las grabaciones
fueron hechas a 16 bits, 11025 Hz.
La comparación de locutores fue realizada comparando el habla en Inglés con la rusa de las
5 sesiones de los mismos locutores y una sesión en ruso para cualquier otro locutor de la
base de datos. El número total de comparaciones “igual-igual” es de 80 y 240 las
comparaciones de “igual-extraño”. En cada par comparado el experto rastreo 18 espectros
básicos de sonidos de habla para 3 formantes coincidentes cualquieras de las 4 formantes
bajas del habla. En estos fragmentos las formantes deben ser seguras y típicas del tracto
para las diferentes vocales del triangulo fonético, para ambas grabaciones.
Particularmente, los sonidos /A/, /E/, /I/, /O/ y /U/ rusas son representadas (sus 1er y 2do
formantes deben caer en los valores típicos para el lenguaje ruso [13-16]. La coincidencia de
las formantes por cada dos grabaciones comparadas fue determinada por expertos con la
precisión necesaria con la ayuda de dos cursores horizontales movidos simultáneamente
sobre el eje de la frecuencia en dos ventanas de espectrogramas linkeadas. La búsqueda de
coincidencia de los fragmentos fue realizada simétricamente en dos grabaciones: fijando las
formantes en la primer grabación y buscando las mismas formantes en la segunda y
viceversa. Luego para cada grupo de fragmentos básicos, la 4ta y 5ta formante fueron
analizadas. Para cada clase de sonido, se represento, las diferencias que pudiere haber en
las formantes representadas, o si las estructuras coincidían muy bien, o si no había
fragmentos comparables por cada uno de los grupos de sonido en las grabaciones.
Cuando este método es usado por expertos con experiencia por unas varios cientos de
análisis de identificaciones reales ninguna decisión equivocada fue reportada. Un simple,
casi automática variación del método fue probada [10] en habla clara, pura: para 100
locutores, con las mismas frases de 3-5 segundos de duración, 15 sesiones cada 6 meses.
Los locutores que se dijeron ser distintos fue en los casos e no menor a 3 estructuras
espectrales esencialmente diferentes que fueron encontradas y no hubo coincidencias para
3 grupos de sonidos diferentes. Se dijeron ser los mismos si en no menos de 15
coincidencias espectrales, una de las detectas era esencialmente diferente, y para la cual
había similitud espectral en la segunda grabación.
Luego fue llevado a cabo una revisión independiente de los datos de voz de cada uno de los
equívocos. Se determino que era posible eliminarlos con un análisis más cuidadoso y
prolongado de los errores llevados a cabo por un experto.
4. Conclusión