RESUMEN - Acustica Forense

Audio perdido 🙂
Cajas de resonancia pequeñas → Frecuencias más agudas

Cajas de resonancias más grandes → Frecuencias más graves
Sin embargo se pueden pisar unos con otros (personas trans), por eso es tan difícil determinar
género en una pericia (estadística pero no categórica).
Espectrograma: Amplitud en función de la frecuencia.
La capacidad de identificar una voz está basado principalmente en el fenómeno de resonancia.

Cada vez que yo acomodo el tracto vocal para formar alguna vocal, y hago pasar la respiración,
como todo vibra me da la frecuencia fundamental (lo que yo veo son armónicos - energías que
están relacionadas con los múltiplos de la frecuencia fundamental-).
Por cada configuración del tracto vocal tengo ciertas partes que resuenan y otras que no, estos
son los llamados picos de resonancia que me dan los formantes (4, 5 o 6).
APTITUD TÉCNICA DE UN ARCHIVO

DE AUDIO
Modelo matemático
El estudio de voz es un estudio multidisciplinario. La hace un físico/ingeniero especializado en

sonido, la fonoaudióloga puede tener una idea. La aptitud técnica se hace para ver si va a poder
ser peritable o no.
La onda original, la que emitimos, tiene 20.000 hz de información. Es una señal

mecánica-analógica. Cuando uno lo graba (no en un medio analógico), todo ocupa bytes/bits.
Si yo quiero transportar información, trato de que quede la idea original del fenómeno físico pero
que ocupe la menor cantidad de bites posibles (sacándole la información de las ondas más altas).
A mayor recorte de la información de voz, menor capacidad de ver formantes. A medida que voy
poniendo más bites, mejor es la idea del fenómeno físico pero obviamente pesa más.
El nivel de cuantificación es cuántos niveles de información voy a poner para poder modelar la
estructura del fenómeno original.
Reconocimiento automático (con un reconocedor automático)

Reconocimiento aural (con un fonoaudiólogo experto en voces)
Método objetivo (tiene más peso)
Archivos de interés - circunscripción: Se llama a la autoridad y se pide que haga una
circunscripción para solo analizar los audios más importantes. Esto se deja por escrito.
Código hash: Es un código de autenticación y una función criptográfica, es decir, un algoritmo

matemático que transforma cualquier bloque arbitrario de datos en una nueva serie de caracteres
con una longitud fija. Independientemente de la longitud de los datos de entrada, el valor hash de
salida tendrá siempre la misma longitud. Existen varios formatos, con distintos niveles de
encriptación, como MD5 (32 caracteres), SHA-1, SHA-256 (64 caracteres), SHA-512.
Como perito, tengo que dejar bien claro con que audios trabaje, para eso nos sirve el código
Hash, permite trabajar la autenticidad del archivo con el que se trabaja. El código de identificación
depende del archivo y no del software o formato que se esté trabajando.
Además, en la pericia tengo que poner las características y el formato de audio de cada uno de
los archivos, para eso uso un programa llamado mediainfo. Cuanto pesa, cuantos segundos tiene,
en que formato está y cuantos canales tiene (a 1 canal significa que no está en estero, que es lo
que necesito. Si tengo dos lo convierto en uno).
Otra característica que nos da el mediainfo es que tipo de codec de audio usa: el PCM es una
compresión de audio sin pérdida de información, sin embargo el ADPCM o el ACC para trabajar
cercenaron automáticamente información.
Hay un teorema informático de Nyguist Shanon que dice que a 8.000 hz queda registrada la mitad
de la información. Osea que si tengo 8.000 hz, voy a poder ver hasta los 4.000.
Para poder peritar el audio necesito que esté en mono, así que lo paso. Por las dudas, la
frecuencia la vamos a remuestrear a 11.025 hz como mínimo porque de esta manera puedo ver
hasta los 5 mil hz. Si había más información la muestra y sino aparece como una banda ancha
blanca que no muestra nada.
Circunscripción de voces de interés: No se peritan archivos de audio, se peritan voces, por lo que
hago esta parte. En el caso del SIS, tiene una función automática de la separación de voces.
Analizar el corte de la señal para un archivo → Audacity
Procesamiento digital de la señal del habla: Espectrogramas

- Filtros
- Espectro FFT
- CEPSTRUM: O pitch. Es un tipo de espectrograma que me permite ver la curva melódica,
el inicio, cuerpo y filatura/final de las palabras. (carpeta)
- Espectrograma LPC
Mediante un espectrograma de banda estrecha o angosta, se observan las variaciones en las
distintas frecuencias emitidas de modo que se aprecian paquetes de información (armónicos) que
caracterizan un registro sonoro. Los armónicos son los parámetros que generan un timbre
característico (F0) de una fuente de sonido incluida. Algunos armónicos son puestos en relieve
por el tracto vocal, dichas agrupaciones de armónicos reciben el nombre de formantes del habla
cuya visualización es óptima con un espectrograma de banda ancha.
No todos los programas tienen para visualizar el espectrograma de banda ancha. En el Audacity
no puedo, pero si veo armónicos en la parte alta, puedo estimar que va a haber formantes.
El software hace un análisis automático de la calidad de la señal pero el perito debe confirmar
todos los valores obtenidos del proceso visualmente. Además debo revisar los siguientes valores:
Relación señal-ruido o SNR: Compara el nivel de una señal dada con la interferencia de ruido del
sistema, y mientras mayor sea esta relación expresada en deciBelio (dB), más nítido será el
sonido de interes. Para que un archivo de audio con voces sea útil a fines identificatorios, la SNR
debe superar los 10 dB a favor de la voz en la zona de las altas frecuencias del espectro dado.
Proporción del ruido de fondo con las voces, la voz tiene que superar el ruido de fondo en 10 dB.
Hay softwares que lo miden.
Clipping: O saturación de la señal. Es el recorte brusco que se produce en una señal cuando su
amplitud es mayor que la soportada por alguno de los componentes de la cadena de audio. Es
una distorsión en el audio que no solo limita la amplitud, sino que también modifica el contenido
armónico de la señal original, agregando armónicas impares que dificultan la inteligibilidad y la
visualización de formantes. Un archivo con alto nivel de clipping no será apto para cotejo, dado
que no podrá ser optimizado por procesos de filtrado.
Auralmente es cuando grita y se descarta.
Tiempo de reverberación (TR): Es un parámetro que se utiliza para cuantificar cuánto tiempo
transcurre entre que se interrumpe la emisión de un sonido y la recepción de sus reflexiones
(eco). A los fines periciales, un registro puede tener como máximo de 400 milisegundos (ms). Este
parámetro puede ser atenuado mediante procesos de filtrado cuya optimización será evaluado en
la etapa de análisis espectrográfico.
No lo puedo medir, lo mide el programa IKARLAB. Auralmente escucho como si hablaran dentro
de una lata.
- Tiempo neto de cada voz 14 segundos de habla continua
- Calidad de visualización de la información para todos
- Finalizacion de analisis tecnico
En la pericia:
ELEMENTOS DE ANÁLISIS
Elementos del habla:
- Segmentales: vocales y consonantes (fonemas)
- Suprasegmentales: como la entonación, la acentuación y el ritmo
- Contemporaneidad (menos de 7 o 10 años)
- Estados emocionales y físicos: gritos, borracheras, llantos, etc
Los parámetros segmentales se extraen de los fonemas presentes en las grabaciones, por lo que
la riqueza fonética es una condición deseable para los tres métodos
- En los métodos semiautomáticos los elige el perito, se seleccionan manualmente y se
cuantifican
- En los automáticos es de esperar que la condición de duración mínima incluya los
fonemas más frecuentes (n, s, k, e, a, o)
- En la evaluación perceptual se analizan los correlatos acústicos de los atributos
perceptuales que resultaron más discriminatorios
Elementos técnicos en un audio de voz:

1. Tiempo: 5-7 segundos solo automático, de 14 o más objetivo y 50 o más el aural.
2. SNR: Mínimo 10 dB a favor de la voz
3. Reverberación y clipping
4. Espectrograma: Frecuencia de más de 3000 Hz
5. Espectrograma de banda estrecha: Visualización de armónicos y F0.
Los armónicos nos tienen que dar una chance de tener formantes. Los armónicos tienen
una gradualidad, normalmente se ven más intensos la primera y segunda formante que las
de arriba (más oscuras). Esto es por el principio de Nyguist Shanon
6. Espectrograma de banda ancha: Visualización de F1, F2 y al menos F3 para cada sonido
vocálico
Además de evaluar la inteligibilidad, la obtención del código Hash y las características del audio.
Por cada fonema, específico la palabra y la palabra que le sigue: “La A de amplitud anterior a la
palabra oscura”, no indico segundos ni tiempo porque si otra persona hace el recorte de voces
distinto le va a dar otra cosa. Aunque si quiero, puedo entregar con el material todos los archivos
que yo hice (con código de seguridad hash).
Para las pericias tengo que agarrar TODAS las palabras que tengan A (ejemplo), sacarles F2 y F3
(hago click donde estan los puntitos y me da un número que paso a la planilla de cálculo) y con
todas saco el promedio y la desviación estándar (son fórmulas). Con el promedio miro si la
variabilidad está dentro del 5%.
COTEJO: ???
MÉTODO DE IDENTIFICACIÓN.
COTEJOS
- Cotejo entre una voz dubitada y una indubitada
- Cotejo entre dos voces dubitadas
- Cotejo entre una voz dubita/indubita contra el banco de voces (Analisis automatico)
- Presencia de una misma voz en varias conversaciones
Formantes del habla: Propiedades constantes y estables del tracto vocal del locutor. Picos de
mayor resonancia natural del tracto vocal de cada individuo. Son determinadas por la anatomía
craneofacial y poco sensibles a los cambios a voluntad por partes del hablante e independientes
del idioma
No todos los fonemas tienen formantes:
- Solo las vocales, N, M, Q, tienen punto de anclaje de la lengua en el paladar o la boca
- Fricativas: S, F, CH, no tienen formantes, lo que se ve en el espectrograma es como una
nube
- Explosivas: P, T, K, tienen como característica el tiempo de explosion.
Aptitud del material:

- Cantidad de material: 14 segundos de habla continua
- RSN: +10 dB
- Tiempo de reverberación: Menor a 400 ms
- Cepstrum continuo: En los 14 segundos de habla continua
- Permitir la visualización correcta y estabilización de la tercera y cuarta formante del habla
Patente S. Koval (2015)

STC - SIS II (paquete IKAR LAB)
Equipamiento IKAR Lab II+:
- STC SIS v.7.1.2
- STC SIS II v2.3.249
- SOUND CLEANER v 6.10C
- SOUND CLEANER II v1.02.799
- EdiTracker
- VoiceNet Operator
- GNOME
ANALISIS AUDITIVO-PERCEPTUAL
La evaluación perceptual auditiva es la herramienta más antigua y con mayor uso para determinar
la similitud entre las voces. Antes las pericias se hacían solo con esta instancia. Es subjetivo
porque analizan el timbre de la voz.
El timbre es considerado el principal atributo de la voz que puede identificar o diferenciar a dos
hablantes. Ha sido definido por los estándares ANSI/ASA como un atributo multidimensional de la
sensación auditiva que permite al oyente determinar si dos emisiones de habla son de diferente o
mismo origen, cuando no se considera la percepción de sonoridad y altura tonal.
Métodos perceptuales: Sobresalen cuando sobre la evidencia otros métodos no son aplicables.
FALTA
Un profesional tiene:
- Un buen nivel de audición
- Oído entrenado (oído musical), es una destreza necesaria para poder discriminar
pequeñas variaciones de sonoridad, altura tonal y timbre, poder percibirlas y analizarlas
con el máximo de precisión
- Una agudeza y discriminacion auditiva
- Sensibilidad entrenada
- Sólida experiencia en las variantes dialectales de la región
- Poseer la habilidad de reconocer:
- Cambios en la resonancia (oral, nasal, faríngea)
- Variaciones en la prosodia (son variaciones en la curva melódica/en la presión)
- Alteraciones en la coordinación fonorespiratoria y en fonética/fonología (variaciones
en el punto y modo de articulación, sustitución y/u omisión de fonemas)
La variabilidad de la voz viene determinada por una combinación de las características fisiológicas
del hablante y fenómenos lingüísticos y paralingüísticos.
Así por una parte los hablantes muestran diferencias en las propiedades acústicas de sus
producciones lingüísticas como cualidad de voz, frecuencia fundamental, estructura espectral y
patrones de duración e intensidad de las consonantes y vocales.
Por otra parte, los hablantes toman decisiones conscientes o inconscientes acerca del uso y
elecciones en todos los niveles lingüísticos. Además, también eligen en ámbitos no estrictamente
lingüísticos, como las pautas de respiración, la velocidad de articulación y ritmo, y el uso de
pausas y sonidos no léxicos (como los que indican falta de fluidez en el habla, una confirmación,
un canal de retorno, una respuesta o además pausas llenas)
Los sonidos no léxicos son muy frecuentes en el habla espontánea, una vez cada cinco
segundos.
Estudio de las pausas:

- Silenciosas
- De turno: De puntos suspensivos
- Fonológicas: De respeto de comas, puntos, etc.
- De respiración
- Llenas (estrategias para llenar el silencio)
- Alargamiento de los sonidos vocálicos o consonánticos que se hallan al final de la
palabra (eeeee…)
- Sonido dubitativo (no léxico)
- Utilización de elementos léxicos como muletillas (viste, dale, etc.)
Variaciones linguisticas:
- Diacrónicas: vocablos antiguos, grupos de edades (cronolectos)
- Idiolectales: lenguaje propio del sujeto situacion (estilo). Grupos cerrados (ecolecto)
- Sociolectales: grupo etnico (etnlecto) o de clases: económico, educativo, profesional
(tecnolecto). Forma de hablar de hombres y mujeres (sexolecto)
- Dialectales: por región/país (lengua), zona geográfica (geolectos)
Fuentes naturales de la variabilidad:

- Causas fisiológicas: estructuras anatómicas, dinámica durante el habla, por enfermedad y
por la edad
- Causas cognitivas
- Factores lingüísticos. Relación fonología-fonética
- Factores paralingüísticos: Intención. Estilo
- Factores extralingüísticos: Estado emocional
- Grabación y transmisión: Canales. Agregado de ruido y limitación de ancho de banda.
Registro, transmision, reproduccion, conversación, comprensión
- Variabilidad intrínseca (estado emocional, salud)

- Variabilidad extrínseca (micrófono, ruido de fondo, equipos de grabación, distorsiones)
- Condiciones desiguales (idioma, importantes diferencias en las fechas de grabación)
Debidas al hablante:
- Emociones
- Estados inducidos por agentes externos
- Comportamientos intencionales
- Estados de salud
- Ambiental
- Envejecimiento del hablante
- Variabilidad intra-hablante (de una persona)
Debidas al sistema:
- Electromecanica
- Canal telefónico
- Sistema de grabación o almacenamiento
- Tipo de micrófono
- Ambiental (ruido, música, otros hablantes, acústica, reverberación, distancia al micrófono,
etc)
- Señal: Duration, digitalización, calidad de la grabación, codificación, compresión, etc
Según Hollien, la identificación forense de locutores es un proceso que no pretende identificar un

individuo en base a su discurso cuando NO se conoce su identidad y, por tanto, podría pertenecer
a una población relativamente amplia.
Se trata de un asunto difícil de resolver, pues existen múltiples distorsiones del sistema y del
hablante como que las muestras de voz no suelen ser contemporáneas, los hablantes son poco
cooperativos y el equipo profesional normalmente no dispone de los suficientes recursos.
Ventajas del sistema auditivo perceptual:
- Las voces únicas o aquellas con fuertes características idiosincrásicas, pueden
identificarse con niveles muy altos de precisión
- Las muestras de habla más grandes, y las de mejor calidad, permiten identificaciones
auditivas y perceptivas más precisas
- Los acentos y dialectos pueden utilizarse con ventajas en el proceso; la presencia de
idiomas extranjeros generalmente no puede
Desventajas del sistema auditivo perceptual:
- Las distorsiones del sistema o del canal pueden degradar la precisión
- La degradación de las expresiones del hablante (especialmente disfrazadas) tenderá a
perjudicar el proceso de identificación
- Los hablantes que suenan igual pueden confundirse entre sí
Comparacion de parametros auditivos:
- Intensidad: alta o baja
- Articulación: FALTA
- Resonancia: nasal, oral o faríngea
- Tono: FALTA
IDENTIFICACIÓN AUTOMÁTICA
¿Cómo funcionan los módulos de identificación según el país en el que esté?
En Argentina sabiendo que trabajan más que nada con coeficientes relacionados a la primera y
segunda formante, hablamos de reconocimiento automático. Siempre tiene que haber un perito
que evalúe la posibilidad de hacer con automático un descarte de sospechosos y luego hacer un
análisis objetivo de la voz.
Niveles de análisis de voz:

1. Método de evaluación perceptual/aural
2. Método objetivo o match de formantes que trabaja con los picos de resonancia máxima
que se generan en el tracto vocal.
3. Método Automático
Se puede hacer en cualquiera de los casos, en función de las herramientas que tengo. Pero el
protocolo si o si nos obliga a cumplir con los principios de Daubert:
- El método utilizado debe ser conocido en su totalidad. Se debe tener acceso público.
- Debe darse información sobre los márgenes de error del método. No es solamente el 5%
que se habló de una muestra homogénea, también, por ejemplo, el método automático
que márgenes de error trabaja, el análisis objetivo de formantes (cuando haces la
desviación estándar de cada formante del habla por cada locutor en cada uno de los
audios analizados), etc.
- Deben indicarse las bases de datos utilizadas en los metodos automaticos y
semiautomaticos: Universal UBM, de referencia, del sospechoso y de calibración
- El método debe estar validado con una base de datos de la institución que valida. Por
ejemplo, en el de match de formantes, presento la patente de Koval; en el método
perceptual/aural lo valida Hollien Rose 2002
Características de las formantes vocálicas:
- La U suele tener la tercera y cuarta formantes muy débiles. Parecida a la O

- La i tiene la primera muy baja y la segunda y tercera muy altas.
- La E tiene una estructura similar a la i, pero más baja tercera y cuarta y un poco más alta
la primera
- La A, son más vale parejas en escalonamiento
- La O tienen primera y segunda más juntas y bajas en relación a tercera y cuarta que
tambien estan juntas pero mas arriba
Para realizar el análisis automático es importante tener una base de datos. Tipos de bases de
datos:
1. Base de datos universal (UBM): Son voces de NN que registran grupos, por sexo, por
edad, por patologias, por regiones, por idiomas, etc.
2. Base de datos relevante de la región
3. Base de datos del “sospechoso”: Cuando vos estas haciendo la variabilidad intrahabalnte
de los audios del imputado o del dubito, es una pequeña base de datos de esa voz en
particular.
4. Base de datos de calibración: Cuando en un software haces algo, sabes que en otro es
equivalente a tantos Hz. Vos calibras sabiendo que tu voz es la misma en dos canales
distintos y cuánta es su diferencia. Bajo qué calibración los dos me dan lo mismo.
5. Base de datos de evaluación: Para ver si lo que estás haciendo funciona, trabajas con
voces conocidas. Cargas tu voz a ver si da positivo y funciona bien.
La base de datos que utilice va a depender de la pericia que tenga que hacer. Por ejemplo, si
tengo que trabajar con chinos voy a utilizar la UBM, sí trabajo con Argentinos la que debería usar
es relevante de la región.
1. Obtención de la señal
2. Preprocesamiento de la señal (Consultar protocolos institucionales o recomendados)
a. Formato de audio, conversión y digitalización (WAV, MP3, OGG, etc)
b. Diarización: Separación de los hablantes si hay más de uno.
c. Eliminación de pausas (VAD)
d. Eliminación de ruidos extraños y distorsiones
e. Eliminación de pausas llenas. Esto se documenta en el libro de laboratorio y se
guarda el original para una eventual revisión
f. Refuerzo del audio (filtros). Depende del método y si legalmente se puede
considerar una manipulación. También debe quedar registrado cualquier cambio
3. Extracción de atributos: (Esto lo hace el reconocedor automático) Saca características de
la señal del audio y de la voz.
a. A partir de la base de datos de referencia y la UBM
b. Utilizar las grabaciones de la evidencia y las dubitas con las voces limpias
c. Sistemas semiautomáticos: Que pueden cotejar formantes, anchos de banda,
velocidad y aceleración
d. Sistemas automáticos: Que usan los MFCC (coeficientes centrales de frecuencia
en meps?), y parámetros de velocidad (cuántos fonemas genera la persona en una
determinada cantidad de tiempo) y aceleración
¿Cómo funciona un reconocedor automático?

- Se establecen las características espectrales
- Se genera un patrón de esas características. Esto es lo que forma parte de la base de datos
contenidas en los reconocedores automáticos.
- Le meto otro audio. Reconoce las características espectrales
- Realiza un cotejo
- El que más se parece, me arroja un match positivo pero me indica en que es diferente.
4. Moldeado del hablante. Hay dos formas

a. En la identificación forense dependiente del texto se usan los modelos basados
HMM (modelos ocultos de Markov), también se ha utilizado DTW (alineamiento
dinámico temporal). El primero es un modelo matemático estático con el que se
representa un fenómeno aleatorio dependiente del tiempo (proceso estocástico)
para el que se cumple la “propiedad de Markov” de modo que la probabilidad
condicional sobre el estado presente, futuro y pasado del sistema son
independientes.
característica de ciertos procesos estocasticos por lo que “carecen de memoria” →
la distribución de probabilidad del valor futuro de la magnitud aleatoria, depende
únicamente de su valor presente
El objetivo es determinar parámetros desconocidos a partir de los parámetros
observables. Se utiliza en reconocimiento de patrones. Es considerado un Red
Bayesiana (representa un conjunto de variables aleatorios y sus dependencias
condicionales)
BÁSICAMENTE, para que se habilite o reconozca, tengo que decir las mismas
palabras que están en el sistema.
b. En la identificación forense independiente del texto se usa un modelo basado en
GMM (modelos de mezclas Gaussianas), también se ha utilizado VQ (cuantización
vectorial). El primero es un modelo matemático probabilístico en el que se
considera que las observaciones siguen una distribución probabilística formada por
la combinación de múltiples distribuciones normales.
BÁSICAMENTE, lo importa lo que digo, se saca un cotejo de estructuras más
pequeñas de modo que lo que saques sean características más grandes.
c. Sistema clásico de identificación automática UBM-GMM
Cotejo automático VOICENET-FONOTECA PFA: El voicenotes es un sistema de software

diseñado para la identificación automática rápida de locutores. La arquitectura se basa en la
extracción de parámetros (i-vectores) de la voz. Es una base de datos judicializada y registrada en
el registro de las personas.
Se selecciona la voz del imputado, se aclaran unos datos, si conocemos el origen de la grabación,
etc. Una vez que le doy ok, le digo contra que cotejarlo. Después arroja los candidatos, desde
mayor probabilidad a menor probabilidad.
Comparación automática en el IKAR LAB II: La identificación automática de locutores del módulo
VoiceNet Operator se basa en los siguientes métodos:
1. Método estadísticas del tono: Relacionado con la frecuencia fundamental
2. Método de espectro de formantes (EF)
3. Método de variabilidad total (TotV)
4. Método de fusión: La suma de las probabilidades de los métodos anteriores.
Los tres primeros métodos incluyen dos etapas principales: la creación de los modelos de voz y la
comparación de ellos para sacar la conclusión. El último método combina los tres primeros da los
resultados más precisos.
SIS II: Primero le digo que compare un audio con otro y me aparecen todos los métodos.
Finalmente me dice, resumen.
FORENSIA (software creado por el conicet)
FORENSIA de BLACKVOX (Mejor interpretación del resultado por parte del tribunal. La
muestra dubitada e indubita proviene de un mismo locutor)
Todos los reconocedores automáticos son cajas negras. Osea que la gente que los opera no sabe
cómo opera el sistema en sí. En abogacía se considera que de un 70% para arriba estás tratando
de un match positivo de concordancia entre locutores.
Hasta 2003 los peritos consideran que la voz era única para cada hablante, se hablaban de
categóricos como en el caso de las huellas dactilares. ES o no ES.
En 2005 hay un cambio de paradigma, se empieza a tomar a la voz como un rasgo biométrico
dinámico. El perito en el ámbito judicial no decide. Compara voces y determina su
correspondencia mediante índices de verosimilitud (LR)
- Se deben lograr niveles de confiabilidad semejantes al ADN con ensayos
estandarizados con base empírica y probabilística
- Se plantea el uso de la relación de verosimilitud: LR
- Se inician las competencias NIST 1996: Pone a competir a distintos software a ver
cual es el mejor.
El Likehood Ratio (LR) es la probabilidad de la evidencia si el sospechoso es quien la generó
sobre la probabilidad de la evidencia si cualquier otro es quien la generó, es decir, el cociente de
dos probabilidades condicionales con dos hipótesis mutuamente excluyentes.
De acá viene la importancia de tener una base de datos de referencia.
La probabilidad directa es el ejemplo de la moneda (50%). La probabilidad condicional es la

probabilidad de un evento SI se cumple la condición, no se puede transponer
Similitud vs tipicidad:
- Cuán similar es la voz de la evidencia, se determina como la probabilidad condicional de
los rasgos de la evidencia dados los rasgos del sospechoso.
- Cuan típica es la voz de la evidencia se determina mediante la probabilidad condicional de
los rasgos de la evidencia dado los rasgos de la población.
Su relación se denomina cociente de verosimilitudes.
El LLR: Se le saca el logaritmo al LR. Para que te de un número entero y los números se puedan
entender un poco mejor. Por ejemplo si te da -4, es muy distinto; con 0 no puedo emitir opinión;
con +4 hay mucha más certeza.
TODO ESTO ES NUEVO, NO SE DE DONDE SALIO
Conclusión del peritaje:
El resultado va a ser probabilístico, en escalas verbales, no categórico y definición de LR.
La expresión correcta sería: “El resultado de la pericia de voz indica que es 10000 veces más
probable que la evidencia provenga del Sr/Sra X o del mismo/a hablante que provenga de
cualquier otra”
Problemas con reconocedores automáticos:

- Problemas cuando cambia la cavidad bucal? No se
- No reconoce bien imitadores
- Sirve para descartar sospechosos pero se necesita de un especialista para que chequee
bien todo.
INTEGRIDAD DEL AUDIO

Determinar la existencia de manipulación. No está vinculado con la acústica de identificación de
voces, sino más relacionado al sonido/ambiente.
Normalmente, el juez suele preguntar si el audio es original. Este término está mal utilizado, la
manera correcta de pedir la pericia sería descubrir si hubo manipulación digital del audio y nada
más. Un audio original es muy difícil de conseguir, solo se si es original si en el momento de
grabación hay un escribano o fiscal que lo certifique.
El magistrado lo debería pedir siempre y si no lo pide, lo tomo como auténtico si o si.
Si me piden la originalidad puedo poner:
1. Dado que no se puede determinar la originalidad, se procede a determinar si el audio es
íntegro.
2. O llamamos y le decimos al juez que me pida si es manipulado o no
La autenticación de audio es la confirmación de la autenticidad de una grabación en términos de

ser un reflejo verdadero e íntegro de los eventos o representación de los hechos. En términos
legales, un documento auténtico es un documento que es exactamente lo que dice ser.
Procesalmente, la parte que desea incluir la grabación de audio como prueba es responsable de
probar la autenticidad de la grabación. Deben demostrar que el audio grabado no ha sido
alterado, editado o comprometido tecnológicamente de ninguna manera desde el momento de su
producción.
Se debe determinar si se realizó alguna edición, si se trata de un duplicado y si la grabadora se
detuvo y comenzó de nuevo en cualquier momento durante la grabación de audio, es decir, si la
grabación está completa, inalterada y es consistente con las circunstancias declaradas de su
creación.
Podemos suponer la autenticidad de la evidencia cuestionada a menos que se demuestre lo
contrario. Para verificar la integridad de audio se debe verificar:
- La “originalidad” de la información registrada: Cuanto se ajusta a lo que pudo haber
sucedido en una situación real.
- Si el archivo se ha alterado de alguna manera
- Si el archivo contiene alguna discontinuidad
- Si coincide o no con un sistema de registro específico
- Si fue registrada según lo declarado
La Audio Engineering Society (AES) define una grabación integra como una grabación que se
realiza simultáneamente con los eventos acústicos que afirma grabar, y utilizando los mismos
métodos y equipos que afirma la parte responsable de la producción de grabación; una grabación
libre de artefactos, alteraciones, adiciones, eliminaciones o ediciones inexplicables.
Grabación original: cualquier soporte de grabación o parte del mismo que contenga, de forma
permanente, los sucesos acústicos capturados por un sensor y registrados en tiempo real,
justamente en los instantes en que la señal acústica se iba produciendo. Se necesitan
testigos/escribanos y que in situ el fenómeno sea registrado. Ejemplo: TCV.
Grabación íntegra: cualquier soporte de grabación o parte del mismo que contenga,
permanentemente y de forma continua, los sucesos acústicos capturados por un sensor y
grabador y que no manifiestan tener cambios en relación a lo sucedido en una situación real. Esto
es lo que buscamos.
Grabación precisa: cualquier soporte de grabación o parte del mismo que contenga,
permanentemente, los sucesos acústicos capturados por un sensor y grabador, desviándose
ligeramente o dentro de los límites de tolerancia de un estándar tecnológico. Por lo tanto, cuando
estas desviaciones exceden dichos límites, son considerados indicios de ediciones o
manipulaciones digitales.
Grabación auténtica: grabación que merece ser considerada verosímil a juicio de la Autoridad
Judicial. Se trata de un concepto que está fuera del alcance de un experto forense porque su
naturaleza es decisoria y sobre una cualidad de algo sobre la que sólo la autoridad judicial puede
pronunciarse.
Posibles formas de manipulación:

- Recortes, reemplazo o empalmes: Buscan omitir información, cambiar el sentido de una
conversación, etc.
- Adición de ruido o señales externas: Para deteriorar la señal de voz o dar un falso
escenario
Posibles orígenes de los efectos: Situaciones que pueden originar efectos de tipo de corte en un
audio. Vamos a tener que analizar a qué se debió lo que encontremos en el audio.
- Interrupción de la señal (desconexion de cable o pérdida de señal):Una de las cosas que
hacemos cuando tenemos que evaluar la integridad del audio es si encontramos una
frecuencia de este tipo (sonido de los tubos de luz o la frecuencia del ancho de banda
telefónica) lo que hacemos es rastrear la continuidad de esa frecuencia. Si el audio no fue
manipulado, la continuidad de esa fase va a dar indicio de que no hubo manipulación.
50-60Hz → Busco fase continua y me da un indicio de que el fondo no tuvo ningún tipo de
corte.
- Interferencia de radiofrecuencia (nextel o radio)
- Errores de escritura de disco o de saturación del buffer (al hacer la transducción)
- Pausas manuales
- Grabación automática operada por voz: El fondo acústico de la operadora es totalmente
diferente al de la conversación, ahí puedo distinguir.
- Edición interna realizada en el dispositivo
- Procesamiento de postproducción
El propósito del examen de integridad es proporcionar posibles explicaciones para cualquier
anomalía identificada en la grabación, como discontinuidades en la señal grabada. Además, el
examen puede proporcionar información adicional o reforzar alguna información reclamada sobre
la grabación, el sistema de grabación y el entorno en el que se realizó la grabación. Técnicas de
estudio de integridad/precisión:
1. Técnicas básicas: Con cualquier software de edición de sonido.
a. Análisis perceptual
i. Variación del ruido de fondo
ii. Sonidos transitorios de cualquier naturaleza
iii. Pérdidas de audio
iv. Cambios en la calidad del audio
v. Habla o características de voz antinaturales (cambios repentinos, no
naturales o inusuales en la voz o ritmo, o cambios abruptos e inesperados
en el tema de conversación)
vi. Calidad acústica del entorno de grabación
vii. Artefactos producidos por el sistema de registro
viii. Zumbidos, tonos o cualquier forma de ruido generado electrónicamente
ix. Artefactos de compresión digital y características de ancho de banda que
son inconsistentes con la grabadora supuestamente utilizada para grabar la
conversación.
b. Análisis de la forma de onda: Para este tipo de análisis sirve mucho, lo que
tenemos que hacer es mucho zoom para que se vea bien la forma y poder
identificar:
i. Pérdidas y transitorios
ii. Componentes de continuidad
iii. Recortes y picos
iv. Segmentos de amplitud cero
v. Posibles ediciones o discontinuidades
c. Análisis espectrográfico
i. Aliasing
ii. Frecuencia de muestreo
iii. Sonidos de fondo (Para realizar la relación señal-ruido)
iv. Características covolucionales y de transmisión
v. Componentes de frecuencia de la línea eléctrica
2. Técnicas avanzadas: Con softwares especializados en la autenticación de audios
a. Análisis de metadatos: Ese cuadrito que hacíamos en Audacity y después
levantaba el mediainfo.
b. Análisis de la variación de la frecuencia de la red eléctrica: La continuidad de la

frecuencia de los tubos de luz entre los 50-60 Hz.
c. Continuidad de fase: Internacionalmente están catalogadas distintas octavas para
analizar. Lleva mucho tiempo.
d. Residuos: Cosas que quedaron debido a la edición del audio.
e. Detección de múltiples compresiones/cambios de formato
f. MP3 frame offset: Supuestamente hay un artículo. Cuando comprimimos a MP3 se
hace de una manera muy particular, donde se van armando como cuadros de
ventanas. Cuando alguien lo edita esas ventanas se desordenan y es posible
identificar la manipulación.
g. Análisis de ruido del ambiente
h. Análisis del sistema de grabación: Cuando antes mandaban en cassette las cosas,
casa cassetera tiene una frecuencia propia de reproducción. Eso se podía sacar y
utilizarlo para hacer un análisis de continuidad.
i. Análisis de los patrones de reverberación: Vinculado al análisis de sonido
ambiente.
3. Software de autenticación: Como por ejemplo el Matlab o IKAR Lab - Edittraker. Nos da
un análisis de continuidad de fase, una detección de cambios en las características del
ruido de fondo, seguimiento de señales discretas a lo largo de una grabación y la
detección de digitalización previa o artefactos de aliasing, etc.
a. Edittracker: Software ruso. Permite
i. Detección de posibles huellas de procesamiento digital
ii. Deteccion rasgos de manipulación por el desplazamiento de fase de
armónicos: Hay fases de octavas que están cortadas o distintas octavas
están cortadas en los mismos puntos.
iii. Análisis de ruido de fondo
iv. Explorar una señal grabada para descubrir los indicios de procesamiento
digital
v. Explorar una señal grabada mediante los métodos del análisis espectral de
precisión para descubrir las armónicas estacionarias en la señal
(interferencias de red, etc)
vi. Explorar una señal grabada para descubrir los indicios del montaje
mediante los metodos del analisis de precisión de los valores de fase de las
frecuencias estacionarias
vii. Explorar una señal grabada para descubrir los indicios del montaje
mediante los métodos que se basan en el análisis de los espectros y la
detección de las alteraciones en la dinámica de los ruidos de fondo en ellos
viii. Ejecutar la investigación auditiva-lingüística de una señal grabada
marcando los puntos que inspiran recelo respecto a su autenticidad con las
marcas especiales cada una de las cuales contiene el indicio de su posible
alteración
ix. Representar los resultados del análisis de las grabaciones de sonido de
forma visual en los oscilogramas de señales
x. Representar los resultados del análisis instrumental y auditivo en forma de
las conclusiones
MEJORA DE SONIDO
- Reducir el ruido (a veces solo se busca para transcribir lo que dicen)
- Reducir la reverberación
- Mejorar la inteligibilidad y calidad de las señales acústicas y grabaciones de voz
Hay que tener cuidado para que no sean tildadas de manipulaciones. Se informa todas las
características “malas” y mostrar tu audio modificado para que se evalúen los cambios de los
valores. Además hay que comunicar todos los parámetros que cambiamos para que quede el
audio como esta.
Los resultados son en general, limitados respecto a las expectativas de esta tarea. Es un proceso
por el cual se busca aislar, realzar o clarificar el mensaje contenido dentro de un audio. Para ello,
se utilizan herramientas destinadas al procesamiento de audio digital (ecualizadores,
compresores, filtros, etc)
EL AUDIO FORENSE DISTINTO DE PRODUCCION MUSICAL, MASTERING (ciencias de la
grabación en general). Tiene que quedar la señal original de algún modo.
Todo proceso de mejora está asociado a una modificación sustancial del audio original con el que
se trabaja. El punto hasta el cual puede procesarse un audio debe ser criteriosamente objetivo y
no excederse.
LA INFORMACIÓN QUE NO ESTÁ PRESENTE EN LA EVIDENCIA NO PUEDE SER CREADA
DE FORMA ARBITRARIA.
Puede ser efectivo cuando:

- El ruido interferente es de naturaleza estacionaria y restringido en frecuencia (un motor,
zumbido eléctrico, tubo de luz, etc.) → hay filtros específicos que ya vienen programados
para sacar por ejemplo, el ruido de calle, el ruido de escuela, etc.
- La señal de interés carece únicamente de nivel → Lo que mejoro es la amplitud de la onda
para escucharla mejor. Normalizar las voces: Ponerlas al mismo volumen teniendo en
cuenta la más alta.
Es menos efectivo cuando:
- El ruido interferente es de banda ancha o se sitúa en el espectro del habla (música,
personas hablando, viento fuerte)
- El entorno acústico es adverso (mucha reverberación, lejanía al micrófono, etc)
Software de mejora de audio:
- Audacity: Tiene un montón de herramientas y puede reducir o eliminar el ruido. Además
saca el perfil de ruido.
- Rx Izotope: Es más completo e intuitivo
- Sound Cleaner II: Viene con el paquete de los rusos.
- SIS 1: Solo abre formato WAV.
Funciones básicas que debería tener un software para mejorar la calidad de audio:
1. Abrir archivos de audio y pistas de audio de vídeos de diferentes formatos.
2. Reducir el ruido y compensar distorsiones diferentes como: ruido estacionario y el aditivo
lentamente variable de componentes múltiples de banda estrecha (poliarmonicos) y ancha
(para eso esta el ecualizador); distorsiones de respuesta de frecuencia lentamente
variables (respuesta de frecuencia lentamente variables -respuesta de frecuencia variable
de canal de grabacion/transmision de sonido); reverberaciones; ruido de impulso; ruido
GSM de teléfono móvil; señales de tonos duales de multifrecuencia (DTMF); diferencias
notables de nivel de señal; restauración de forma de onda de señal grabada con
sobrecarga de amplitud; ruidos aditivos de cualquier tipo en la señal de audio de dos
canales
3. Organizar los módulos de reducción de ruido y arreglar los filtros en secuencias
4. Guardar la secuencia de los filtros y sus ajustes en un archivo para volver a usarlos
5. Ajustar los filtros manualmente revisando el oscilograma y el espectro instantáneo antes y
después del procesamiento
6. Cambiar el tempo de reproducción sin pérdidas de calidad
7. Reproducir continuamente la señal entera, el fragmento seleccionado o el desde la
posición del cursor
8. Realizar transcripciones de grabaciones mediante el editor de texto incorporado que
vincula el texto con los fragmentos de grabación
9. Guardar historial del procesamiento en el proyecto de modo automático
10. Crear los reportes completos en el formato de HTML de todos los procesos realizados. El
reporte incluye la siguiente información: organización, información sobre el archivo, el
nombre del usuario, las imágenes de las señales de entrada y las de salida y sus
espectros, detalles sobre los filtros usados y sus ajustes, los cambios realizados y las
transcripciones de la grabación.
11. Guardar los ajustes del procesamiento para volver a usarlos
ACÚSTICA DE DISPAROS
SUPUESTAMENTE NO LO TOMA VAMOOO
Es la disciplina que estudia las características acústicas, tanto temporales como espectrales,
asociadas a la detonación de propelentes de hasta 50 g mediante el uso de armas de fuego.
A través de procesamiento y análisis de una o varias señales que contengan sonidos de disparos,
se pretende obtener información de relevancia de un hecho como la ubicación relativa del disparo,
tipo de arma utilizada, rango de escucha proyectado o un estudio sobre la cantidad y el orden de
una sucesión de disparos.
De la grabación eventual o deliberada de un disparo es posible extraer información acerca del
hecho. Actualmente no existe información en el país ni base de datos a nivel regional que registre
las características acústicas de diferentes armas de fuego.
Fundamentación:
- Nuevas tecnologías
- Otras evidencias
- Se pueden dar respuesta a nuevos interrogantes
- Sonidos registrados con smartphones o torres de vigilancia
- Datos registrados como secundarios pueden convertirse en elementos de relevancia
Áreas de estudio:
- Identificación del tipo de arma: Se extraen características acústicas de la señal
(autocorrelación, MFCC -coeficiente cepstrales de Mel-, HMM -modelos ocultos de
Markov- y coeficientes coseno de Fourier). Se necesita de conformación de base de datos
y establecer parámetros y líneas base (threshol). Se pueden hallar correlación entre
distintas armas de fuego, e incluso determinar si se trata de un arma de fuego o un simple
sonido impulsivo
- Estimación de la posición/orientación del disparador:Se pueden hallar distancias
correspondientes a posibles objetos analizando el tiempo de arribo de las reflexiones de
una grabación.
Para poder determinar la orientación de un disparo es necesario conocer su patrón de

radiación polar.
- Determinación de cantidad y orden de disparos:

- Estimación del rango de escucha/percepción de un disparo: Propagación acústica de un
disparo al aire libre. Se analiza el nivel de presión sonora y distribución energética de la
fuente, el nivel de ruido existente en el receptor y la propagación en el medio.
- Habrá instancias en las cuales el perito acústico podrá corroborar o refutar evidencia
física, testimonios o testigos “oyentes” basado en el análisis cualitativo de señales sonoras
que sean aportadas como evidencia
Características de la señal:
- Acción mecánica del disparo
- Explosion en la boca del disparo (muzzle blast): Es un sonido impulsivo con gran cantidad
de energía, ataque muy rápido y muy corta duración (menos de 2 mseg)
- Sonido de proyectil (para V>Vs: velocidad del sonido en el aire 340 m/s)
- Caída del cartucho al suelo
- Información inherente a la grabación de un disparo:
- Nivel de presión sonora (energia del evento sonoro)
- Distancia temporal entre reflexiones
- Distribución del espectro en frecuencia
Limitaciones de mediciones con smartphones:

- Saturación del micrófono (clipping)
- Compresión/limitación del algoritmo de conversión
- Necesidad de varias unidades sincronizadas
Instrumental y personal requeridos:

- Sonómetro (⅓ octava, impulse, logger, A)
- Microfonos de medicion (rta. plana, apareados)
- Armas y municiones de interés
- Mecanico armero/criminalistico
- Ingeniero de sonido/acústica
- Auxiliares (técnicos en sonido/informática)
- Todo personal idóneo que pueda colaborar
Reglamentación y normativa:
- ISO 17201 - noise from shooting ranges
- ISO 9613 - attenuation of sound during propagation outdoors
- ISO 1996 - description, measurement and assessment of environmental noise
- IRAM 4062 (arg) - ruidos molestos al vecindario
Proyectos en curso: Desarrollo de software, módulos

- Estimación de NPS (noise power spectrum) de Muzzle blast (ISO 17201-2)
- Patrón polar de radiación acústica
- Cálculo básico de propagación acústica en campo libre (ISO 9613)
- Cálculo de niveles de exposición sonora (ISO 17201-3)
- Estimación de NPS del sonido del proyectil (ISO 17201-4)
- Calculo de velocidad de Mach
- Base de datos de sonidos de armas de fuego
- Identificación de sonido de disparo
Ingreso al sistema: masa propelente, velocidad del disparo, masa del proyectil
Estimación teórica: energía química, gaseosa y acústica
Proyección internacional y futuros trabajos:

- Conformación de una base de datos regional
- Unificación de criterios y metodologías
- Intercambio de información
El estudio de la acústica de disparos abre un abanico de posibilidades para obtener información a

raíz de medidas de pruebas que anteriormente hubieran sido descartadas. Es una disciplina
moderna que se encuentra en constante proceso de I+D.Tiene alcances limitados en función de
los parámetros disponibles y el tipo de requerimiento pericial.
TOMA DE CUERPO DE VOZ (TCV)

Obtención del material indubitado. Son pedidas por el magistrado.
Normativas que lo regulan:
- Codificación de datos biométricos ISO/IEC 19794. La norma es un conjunto de
especificaciones sobre la definición de los formatos de los datos de las distintas técnicas
biométricas. Cada parte recoge la forma de codificar un determinado parámetro. El grupo
de trabajo responsable es el subcomité 37 y en él, el grupo de trabajo WG3.
- En argentina, el “Protocolo para las pericias forenses de voz”
Consentimiento entrevista/datos personales → ACTA

Charla informativa, lectura, simulación y repetición. Son estrategias para obtener un habla natural,
idealmente en un estado emocional comparable con la muestra dubitada.

RESUMEN - Acustica Forense

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RESUMEN - Acustica Forense

Cargado por

Copyright:

Formatos disponibles

Audio perdido 🙂

Cajas de resonancia pequeñas → Frecuencias más agudas

Espectrograma: Amplitud en función de la frecuencia.

La capacidad de identificar una voz está basado principalmente en el fenómeno de resonancia.

APTITUD TÉCNICA DE UN ARCHIVO

El estudio de voz es un estudio multidisciplinario. La hace un físico/ingeniero especializado en

La onda original, la que emitimos, tiene 20.000 hz de información. Es una señal

Reconocimiento automático (con un reconocedor automático)

Código hash: Es un código de autenticación y una función criptográfica, es decir, un algoritmo

Analizar el corte de la señal para un archivo → Audacity

Procesamiento digital de la señal del habla: Espectrogramas

Elementos técnicos en un audio de voz:

Aptitud del material:

Patente S. Koval (2015)

Estudio de las pausas:

Fuentes naturales de la variabilidad:

- Variabilidad intrínseca (estado emocional, salud)

Según Hollien, la identificación forense de locutores es un proceso que no pretende identificar un

Niveles de análisis de voz:

- La U suele tener la tercera y cuarta formantes muy débiles. Parecida a la O

¿Cómo funciona un reconocedor automático?

4. Moldeado del hablante. Hay dos formas

Cotejo automático VOICENET-FONOTECA PFA: El voicenotes es un sistema de software

La probabilidad directa es el ejemplo de la moneda (50%). La probabilidad condicional es la

Problemas con reconocedores automáticos:

INTEGRIDAD DEL AUDIO

La autenticación de audio es la confirmación de la autenticidad de una grabación en términos de

Posibles formas de manipulación:

b. Análisis de la variación de la frecuencia de la red eléctrica: La continuidad de la

Puede ser efectivo cuando:

Para poder determinar la orientación de un disparo es necesario conocer su patrón de

- Determinación de cantidad y orden de disparos:

Limitaciones de mediciones con smartphones:

Instrumental y personal requeridos:

Proyectos en curso: Desarrollo de software, módulos

Proyección internacional y futuros trabajos:

El estudio de la acústica de disparos abre un abanico de posibilidades para obtener información a

TOMA DE CUERPO DE VOZ (TCV)

Consentimiento entrevista/datos personales → ACTA

También podría gustarte