Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Si yo quiero transportar información, trato de que quede la idea original del fenómeno físico pero
que ocupe la menor cantidad de bites posibles (sacándole la información de las ondas más altas).
A mayor recorte de la información de voz, menor capacidad de ver formantes. A medida que voy
poniendo más bites, mejor es la idea del fenómeno físico pero obviamente pesa más.
El nivel de cuantificación es cuántos niveles de información voy a poner para poder modelar la
estructura del fenómeno original.
Además, en la pericia tengo que poner las características y el formato de audio de cada uno de
los archivos, para eso uso un programa llamado mediainfo. Cuanto pesa, cuantos segundos tiene,
en que formato está y cuantos canales tiene (a 1 canal significa que no está en estero, que es lo
que necesito. Si tengo dos lo convierto en uno).
Otra característica que nos da el mediainfo es que tipo de codec de audio usa: el PCM es una
compresión de audio sin pérdida de información, sin embargo el ADPCM o el ACC para trabajar
cercenaron automáticamente información.
Hay un teorema informático de Nyguist Shanon que dice que a 8.000 hz queda registrada la mitad
de la información. Osea que si tengo 8.000 hz, voy a poder ver hasta los 4.000.
Para poder peritar el audio necesito que esté en mono, así que lo paso. Por las dudas, la
frecuencia la vamos a remuestrear a 11.025 hz como mínimo porque de esta manera puedo ver
hasta los 5 mil hz. Si había más información la muestra y sino aparece como una banda ancha
blanca que no muestra nada.
Circunscripción de voces de interés: No se peritan archivos de audio, se peritan voces, por lo que
hago esta parte. En el caso del SIS, tiene una función automática de la separación de voces.
No todos los programas tienen para visualizar el espectrograma de banda ancha. En el Audacity
no puedo, pero si veo armónicos en la parte alta, puedo estimar que va a haber formantes.
El software hace un análisis automático de la calidad de la señal pero el perito debe confirmar
todos los valores obtenidos del proceso visualmente. Además debo revisar los siguientes valores:
Relación señal-ruido o SNR: Compara el nivel de una señal dada con la interferencia de ruido del
sistema, y mientras mayor sea esta relación expresada en deciBelio (dB), más nítido será el
sonido de interes. Para que un archivo de audio con voces sea útil a fines identificatorios, la SNR
debe superar los 10 dB a favor de la voz en la zona de las altas frecuencias del espectro dado.
Proporción del ruido de fondo con las voces, la voz tiene que superar el ruido de fondo en 10 dB.
Hay softwares que lo miden.
Clipping: O saturación de la señal. Es el recorte brusco que se produce en una señal cuando su
amplitud es mayor que la soportada por alguno de los componentes de la cadena de audio. Es
una distorsión en el audio que no solo limita la amplitud, sino que también modifica el contenido
armónico de la señal original, agregando armónicas impares que dificultan la inteligibilidad y la
visualización de formantes. Un archivo con alto nivel de clipping no será apto para cotejo, dado
que no podrá ser optimizado por procesos de filtrado.
Auralmente es cuando grita y se descarta.
Tiempo de reverberación (TR): Es un parámetro que se utiliza para cuantificar cuánto tiempo
transcurre entre que se interrumpe la emisión de un sonido y la recepción de sus reflexiones
(eco). A los fines periciales, un registro puede tener como máximo de 400 milisegundos (ms). Este
parámetro puede ser atenuado mediante procesos de filtrado cuya optimización será evaluado en
la etapa de análisis espectrográfico.
No lo puedo medir, lo mide el programa IKARLAB. Auralmente escucho como si hablaran dentro
de una lata.
- Tiempo neto de cada voz 14 segundos de habla continua
- Calidad de visualización de la información para todos
- Finalizacion de analisis tecnico
En la pericia:
ELEMENTOS DE ANÁLISIS
Elementos del habla:
- Segmentales: vocales y consonantes (fonemas)
- Suprasegmentales: como la entonación, la acentuación y el ritmo
- Contemporaneidad (menos de 7 o 10 años)
- Estados emocionales y físicos: gritos, borracheras, llantos, etc
Los parámetros segmentales se extraen de los fonemas presentes en las grabaciones, por lo que
la riqueza fonética es una condición deseable para los tres métodos
- En los métodos semiautomáticos los elige el perito, se seleccionan manualmente y se
cuantifican
- En los automáticos es de esperar que la condición de duración mínima incluya los
fonemas más frecuentes (n, s, k, e, a, o)
- En la evaluación perceptual se analizan los correlatos acústicos de los atributos
perceptuales que resultaron más discriminatorios
Por cada fonema, específico la palabra y la palabra que le sigue: “La A de amplitud anterior a la
palabra oscura”, no indico segundos ni tiempo porque si otra persona hace el recorte de voces
distinto le va a dar otra cosa. Aunque si quiero, puedo entregar con el material todos los archivos
que yo hice (con código de seguridad hash).
Para las pericias tengo que agarrar TODAS las palabras que tengan A (ejemplo), sacarles F2 y F3
(hago click donde estan los puntitos y me da un número que paso a la planilla de cálculo) y con
todas saco el promedio y la desviación estándar (son fórmulas). Con el promedio miro si la
variabilidad está dentro del 5%.
COTEJO: ???
MÉTODO DE IDENTIFICACIÓN.
COTEJOS
- Cotejo entre una voz dubitada y una indubitada
- Cotejo entre dos voces dubitadas
- Cotejo entre una voz dubita/indubita contra el banco de voces (Analisis automatico)
- Presencia de una misma voz en varias conversaciones
Formantes del habla: Propiedades constantes y estables del tracto vocal del locutor. Picos de
mayor resonancia natural del tracto vocal de cada individuo. Son determinadas por la anatomía
craneofacial y poco sensibles a los cambios a voluntad por partes del hablante e independientes
del idioma
No todos los fonemas tienen formantes:
- Solo las vocales, N, M, Q, tienen punto de anclaje de la lengua en el paladar o la boca
- Fricativas: S, F, CH, no tienen formantes, lo que se ve en el espectrograma es como una
nube
- Explosivas: P, T, K, tienen como característica el tiempo de explosion.
ANALISIS AUDITIVO-PERCEPTUAL
La evaluación perceptual auditiva es la herramienta más antigua y con mayor uso para determinar
la similitud entre las voces. Antes las pericias se hacían solo con esta instancia. Es subjetivo
porque analizan el timbre de la voz.
El timbre es considerado el principal atributo de la voz que puede identificar o diferenciar a dos
hablantes. Ha sido definido por los estándares ANSI/ASA como un atributo multidimensional de la
sensación auditiva que permite al oyente determinar si dos emisiones de habla son de diferente o
mismo origen, cuando no se considera la percepción de sonoridad y altura tonal.
Métodos perceptuales: Sobresalen cuando sobre la evidencia otros métodos no son aplicables.
FALTA
Un profesional tiene:
- Un buen nivel de audición
- Oído entrenado (oído musical), es una destreza necesaria para poder discriminar
pequeñas variaciones de sonoridad, altura tonal y timbre, poder percibirlas y analizarlas
con el máximo de precisión
- Una agudeza y discriminacion auditiva
- Sensibilidad entrenada
- Sólida experiencia en las variantes dialectales de la región
- Poseer la habilidad de reconocer:
- Cambios en la resonancia (oral, nasal, faríngea)
- Variaciones en la prosodia (son variaciones en la curva melódica/en la presión)
- Alteraciones en la coordinación fonorespiratoria y en fonética/fonología (variaciones
en el punto y modo de articulación, sustitución y/u omisión de fonemas)
La variabilidad de la voz viene determinada por una combinación de las características fisiológicas
del hablante y fenómenos lingüísticos y paralingüísticos.
Así por una parte los hablantes muestran diferencias en las propiedades acústicas de sus
producciones lingüísticas como cualidad de voz, frecuencia fundamental, estructura espectral y
patrones de duración e intensidad de las consonantes y vocales.
Por otra parte, los hablantes toman decisiones conscientes o inconscientes acerca del uso y
elecciones en todos los niveles lingüísticos. Además, también eligen en ámbitos no estrictamente
lingüísticos, como las pautas de respiración, la velocidad de articulación y ritmo, y el uso de
pausas y sonidos no léxicos (como los que indican falta de fluidez en el habla, una confirmación,
un canal de retorno, una respuesta o además pausas llenas)
Los sonidos no léxicos son muy frecuentes en el habla espontánea, una vez cada cinco
segundos.
Variaciones linguisticas:
- Diacrónicas: vocablos antiguos, grupos de edades (cronolectos)
- Idiolectales: lenguaje propio del sujeto situacion (estilo). Grupos cerrados (ecolecto)
- Sociolectales: grupo etnico (etnlecto) o de clases: económico, educativo, profesional
(tecnolecto). Forma de hablar de hombres y mujeres (sexolecto)
- Dialectales: por región/país (lengua), zona geográfica (geolectos)
Para realizar el análisis automático es importante tener una base de datos. Tipos de bases de
datos:
1. Base de datos universal (UBM): Son voces de NN que registran grupos, por sexo, por
edad, por patologias, por regiones, por idiomas, etc.
2. Base de datos relevante de la región
3. Base de datos del “sospechoso”: Cuando vos estas haciendo la variabilidad intrahabalnte
de los audios del imputado o del dubito, es una pequeña base de datos de esa voz en
particular.
4. Base de datos de calibración: Cuando en un software haces algo, sabes que en otro es
equivalente a tantos Hz. Vos calibras sabiendo que tu voz es la misma en dos canales
distintos y cuánta es su diferencia. Bajo qué calibración los dos me dan lo mismo.
5. Base de datos de evaluación: Para ver si lo que estás haciendo funciona, trabajas con
voces conocidas. Cargas tu voz a ver si da positivo y funciona bien.
La base de datos que utilice va a depender de la pericia que tenga que hacer. Por ejemplo, si
tengo que trabajar con chinos voy a utilizar la UBM, sí trabajo con Argentinos la que debería usar
es relevante de la región.
1. Obtención de la señal
2. Preprocesamiento de la señal (Consultar protocolos institucionales o recomendados)
a. Formato de audio, conversión y digitalización (WAV, MP3, OGG, etc)
b. Diarización: Separación de los hablantes si hay más de uno.
c. Eliminación de pausas (VAD)
d. Eliminación de ruidos extraños y distorsiones
e. Eliminación de pausas llenas. Esto se documenta en el libro de laboratorio y se
guarda el original para una eventual revisión
f. Refuerzo del audio (filtros). Depende del método y si legalmente se puede
considerar una manipulación. También debe quedar registrado cualquier cambio
3. Extracción de atributos: (Esto lo hace el reconocedor automático) Saca características de
la señal del audio y de la voz.
a. A partir de la base de datos de referencia y la UBM
b. Utilizar las grabaciones de la evidencia y las dubitas con las voces limpias
c. Sistemas semiautomáticos: Que pueden cotejar formantes, anchos de banda,
velocidad y aceleración
d. Sistemas automáticos: Que usan los MFCC (coeficientes centrales de frecuencia
en meps?), y parámetros de velocidad (cuántos fonemas genera la persona en una
determinada cantidad de tiempo) y aceleración
Comparación automática en el IKAR LAB II: La identificación automática de locutores del módulo
VoiceNet Operator se basa en los siguientes métodos:
1. Método estadísticas del tono: Relacionado con la frecuencia fundamental
2. Método de espectro de formantes (EF)
3. Método de variabilidad total (TotV)
4. Método de fusión: La suma de las probabilidades de los métodos anteriores.
Los tres primeros métodos incluyen dos etapas principales: la creación de los modelos de voz y la
comparación de ellos para sacar la conclusión. El último método combina los tres primeros da los
resultados más precisos.
SIS II: Primero le digo que compare un audio con otro y me aparecen todos los métodos.
Finalmente me dice, resumen.
FORENSIA (software creado por el conicet)
FORENSIA de BLACKVOX (Mejor interpretación del resultado por parte del tribunal. La
muestra dubitada e indubita proviene de un mismo locutor)
Todos los reconocedores automáticos son cajas negras. Osea que la gente que los opera no sabe
cómo opera el sistema en sí. En abogacía se considera que de un 70% para arriba estás tratando
de un match positivo de concordancia entre locutores.
Hasta 2003 los peritos consideran que la voz era única para cada hablante, se hablaban de
categóricos como en el caso de las huellas dactilares. ES o no ES.
En 2005 hay un cambio de paradigma, se empieza a tomar a la voz como un rasgo biométrico
dinámico. El perito en el ámbito judicial no decide. Compara voces y determina su
correspondencia mediante índices de verosimilitud (LR)
- Se deben lograr niveles de confiabilidad semejantes al ADN con ensayos
estandarizados con base empírica y probabilística
- Se plantea el uso de la relación de verosimilitud: LR
- Se inician las competencias NIST 1996: Pone a competir a distintos software a ver
cual es el mejor.
El Likehood Ratio (LR) es la probabilidad de la evidencia si el sospechoso es quien la generó
sobre la probabilidad de la evidencia si cualquier otro es quien la generó, es decir, el cociente de
dos probabilidades condicionales con dos hipótesis mutuamente excluyentes.
De acá viene la importancia de tener una base de datos de referencia.
Similitud vs tipicidad:
- Cuán similar es la voz de la evidencia, se determina como la probabilidad condicional de
los rasgos de la evidencia dados los rasgos del sospechoso.
- Cuan típica es la voz de la evidencia se determina mediante la probabilidad condicional de
los rasgos de la evidencia dado los rasgos de la población.
Su relación se denomina cociente de verosimilitudes.
El LLR: Se le saca el logaritmo al LR. Para que te de un número entero y los números se puedan
entender un poco mejor. Por ejemplo si te da -4, es muy distinto; con 0 no puedo emitir opinión;
con +4 hay mucha más certeza.
TODO ESTO ES NUEVO, NO SE DE DONDE SALIO
Conclusión del peritaje:
El resultado va a ser probabilístico, en escalas verbales, no categórico y definición de LR.
La expresión correcta sería: “El resultado de la pericia de voz indica que es 10000 veces más
probable que la evidencia provenga del Sr/Sra X o del mismo/a hablante que provenga de
cualquier otra”
Normalmente, el juez suele preguntar si el audio es original. Este término está mal utilizado, la
manera correcta de pedir la pericia sería descubrir si hubo manipulación digital del audio y nada
más. Un audio original es muy difícil de conseguir, solo se si es original si en el momento de
grabación hay un escribano o fiscal que lo certifique.
El magistrado lo debería pedir siempre y si no lo pide, lo tomo como auténtico si o si.
Si me piden la originalidad puedo poner:
1. Dado que no se puede determinar la originalidad, se procede a determinar si el audio es
íntegro.
2. O llamamos y le decimos al juez que me pida si es manipulado o no
La Audio Engineering Society (AES) define una grabación integra como una grabación que se
realiza simultáneamente con los eventos acústicos que afirma grabar, y utilizando los mismos
métodos y equipos que afirma la parte responsable de la producción de grabación; una grabación
libre de artefactos, alteraciones, adiciones, eliminaciones o ediciones inexplicables.
Grabación original: cualquier soporte de grabación o parte del mismo que contenga, de forma
permanente, los sucesos acústicos capturados por un sensor y registrados en tiempo real,
justamente en los instantes en que la señal acústica se iba produciendo. Se necesitan
testigos/escribanos y que in situ el fenómeno sea registrado. Ejemplo: TCV.
Grabación íntegra: cualquier soporte de grabación o parte del mismo que contenga,
permanentemente y de forma continua, los sucesos acústicos capturados por un sensor y
grabador y que no manifiestan tener cambios en relación a lo sucedido en una situación real. Esto
es lo que buscamos.
Grabación precisa: cualquier soporte de grabación o parte del mismo que contenga,
permanentemente, los sucesos acústicos capturados por un sensor y grabador, desviándose
ligeramente o dentro de los límites de tolerancia de un estándar tecnológico. Por lo tanto, cuando
estas desviaciones exceden dichos límites, son considerados indicios de ediciones o
manipulaciones digitales.
Grabación auténtica: grabación que merece ser considerada verosímil a juicio de la Autoridad
Judicial. Se trata de un concepto que está fuera del alcance de un experto forense porque su
naturaleza es decisoria y sobre una cualidad de algo sobre la que sólo la autoridad judicial puede
pronunciarse.
MEJORA DE SONIDO
- Reducir el ruido (a veces solo se busca para transcribir lo que dicen)
- Reducir la reverberación
- Mejorar la inteligibilidad y calidad de las señales acústicas y grabaciones de voz
Hay que tener cuidado para que no sean tildadas de manipulaciones. Se informa todas las
características “malas” y mostrar tu audio modificado para que se evalúen los cambios de los
valores. Además hay que comunicar todos los parámetros que cambiamos para que quede el
audio como esta.
Los resultados son en general, limitados respecto a las expectativas de esta tarea. Es un proceso
por el cual se busca aislar, realzar o clarificar el mensaje contenido dentro de un audio. Para ello,
se utilizan herramientas destinadas al procesamiento de audio digital (ecualizadores,
compresores, filtros, etc)
EL AUDIO FORENSE DISTINTO DE PRODUCCION MUSICAL, MASTERING (ciencias de la
grabación en general). Tiene que quedar la señal original de algún modo.
Todo proceso de mejora está asociado a una modificación sustancial del audio original con el que
se trabaja. El punto hasta el cual puede procesarse un audio debe ser criteriosamente objetivo y
no excederse.
LA INFORMACIÓN QUE NO ESTÁ PRESENTE EN LA EVIDENCIA NO PUEDE SER CREADA
DE FORMA ARBITRARIA.
ACÚSTICA DE DISPAROS
SUPUESTAMENTE NO LO TOMA VAMOOO
Es la disciplina que estudia las características acústicas, tanto temporales como espectrales,
asociadas a la detonación de propelentes de hasta 50 g mediante el uso de armas de fuego.
A través de procesamiento y análisis de una o varias señales que contengan sonidos de disparos,
se pretende obtener información de relevancia de un hecho como la ubicación relativa del disparo,
tipo de arma utilizada, rango de escucha proyectado o un estudio sobre la cantidad y el orden de
una sucesión de disparos.
De la grabación eventual o deliberada de un disparo es posible extraer información acerca del
hecho. Actualmente no existe información en el país ni base de datos a nivel regional que registre
las características acústicas de diferentes armas de fuego.
Fundamentación:
- Nuevas tecnologías
- Otras evidencias
- Se pueden dar respuesta a nuevos interrogantes
- Sonidos registrados con smartphones o torres de vigilancia
- Datos registrados como secundarios pueden convertirse en elementos de relevancia
Áreas de estudio:
- Identificación del tipo de arma: Se extraen características acústicas de la señal
(autocorrelación, MFCC -coeficiente cepstrales de Mel-, HMM -modelos ocultos de
Markov- y coeficientes coseno de Fourier). Se necesita de conformación de base de datos
y establecer parámetros y líneas base (threshol). Se pueden hallar correlación entre
distintas armas de fuego, e incluso determinar si se trata de un arma de fuego o un simple
sonido impulsivo
- Estimación de la posición/orientación del disparador:Se pueden hallar distancias
correspondientes a posibles objetos analizando el tiempo de arribo de las reflexiones de
una grabación.
Características de la señal:
- Acción mecánica del disparo
- Explosion en la boca del disparo (muzzle blast): Es un sonido impulsivo con gran cantidad
de energía, ataque muy rápido y muy corta duración (menos de 2 mseg)
- Sonido de proyectil (para V>Vs: velocidad del sonido en el aire 340 m/s)
- Caída del cartucho al suelo
- Información inherente a la grabación de un disparo:
- Nivel de presión sonora (energia del evento sonoro)
- Distancia temporal entre reflexiones
- Distribución del espectro en frecuencia
Reglamentación y normativa:
- ISO 17201 - noise from shooting ranges
- ISO 9613 - attenuation of sound during propagation outdoors
- ISO 1996 - description, measurement and assessment of environmental noise
- IRAM 4062 (arg) - ruidos molestos al vecindario
Ingreso al sistema: masa propelente, velocidad del disparo, masa del proyectil
Estimación teórica: energía química, gaseosa y acústica