Está en la página 1de 8

An alisis de Representaci on y Filtrado de Se nales para el Reconocimiento Geogr aco de Aves

Diego Fabi an Collazos Huertas C od: 809016


Profesor: Andr es Marino Alvarez Meza Universidad Nacional de Colombia Manizales - Caldas

20 de enero de 2014
Resumen Con el n de aplicar los conceptos b asicos de la asignatura, se plantea un proyecto basado en el an alisis de series de tiempo (Sonido del ave), con el n de reconocer geogr acamente el lugar de origen de una de especie de ave determinada (Chingolo Com un), predominante en las regiones Norte, Oriental, y Suroriental de Am erica del Sur..

1.

Motivaci on

La variaci on geogr aca del canto dentro de una determinada especie es relativamente com un en aves canoras. Se han propuesto diferentes hip otesis para explicar estas diferencias intraespec cas. [Nottebohm (1969)] sugiri o que poblaciones adaptadas a distintos h abitats habr an desarrollado distintos cantos que funcionar an como marcadores de estas poblaciones y de esta forma podr an actuar como mecanismos de aislamiento reproductivo. De acuerdo a esta hip otesis, las variantes del canto ser an arbitrarias y no presentar an asociaci on alguna con la estructura del h abitat. Existen pocos estudios en los que se haya intentado relacionar las propiedades f sicas del canto con la estructura del h abitat. Estos estudios muestran que las aves que habitan ambientes cerrados utilizan menores frecuencias y un ancho de banda mas reducido que especies que utilizan ambientes mas abiertos [Hunter & Krebs 1979 Wasserman 1979, Shy 1983].

2.

Planteamiento del Problema

La especie Chingolo Com un es un ave que habita en Centro Am erica y Sur am erica, principalmente en pa ses como Colombia, Brasil, Argentina

y sur de Uruguay, esta especie es particularmente apropiada para esta nalidad ya que presenta un sistema complejo de dialectos que var an con la estructura del h abitat. En esta especie los dialectos est an denidos de acuerdo a la tasa de producci on de notas en la parte nal del canto o trino. Debido a las dicultades presentadas a la hora de reconocer el lugar de origen del ave ya que las caracter sticas de su h abitat en los diferentes pa ses son similares (Argentina, Brasil, Colombia), se pretende analizar el canto (Tiempo y Frecuencia) y elaborar un esquema de predicci on, en el cual se modele un sistema o ptimo de representaci on de caracter sticas basado en An alisis de Componentes Principales PCA, MFCCs y clasicaci on por medio de SVM que determine con alto nivel de exactitud el lugar de origen del esp ecimen.

3.
3.1.

Materiales y M etodos
Kernel PCA

Kenel PCA es la aplicaci on de PCA en un espacio de caracter sticas Kernel denido, por medio de una representaci on Dual. Se ha demostrado c omo en proyecciones en el espacio de caracter sticas, los vectores propios se pueden calcular a trav es de una doble representaci on calculado a partir de los vectores propios y valores propios de la matriz Kernel. Se utiliza Uk para denotar el subespacio generado por los primeros k vectores propios en el espacio de caracter sticas. podemos calcular el vector de proyecci on k-dimensional de datos nuevos en este subespacio como:
n

PUk ((X )) = ( uj (X ))k j =1 = (


i=1

j i k(xi, x))k j =1 ,

(1)

Donde: j = j
1/2

vj

(2)

es dada en t erminos de su valor y vector propio correspondiente de la matriz Kernel. La ecuaci on 1 es la base de Kernel PCA.CITAR

3.2.

MFCC

Los Mel Frequency Cepstral Coecients (coecientes cepstrales en las frecuencias de Mel) son coecientes para la representaci on del habla basados en la percepci on auditiva humana. Se derivan de la Transformada de Fourier (FT) o de la Transformada de coseno discreta (DCT). La diferencia b asica entre FT o la DCT y MFCC es que en MFCC las bandas de frecuencia est an situadas logar tmicamente (seg un la escala Mel), que modela la respuesta auditiva humana m as apropiadamente que las bandas espaciadas linealmente de FT o DCT. Esto permite un procesado de datos m as eciente, por ejemplo, en compresi on de audio. MFCCs se calculan com unmente de la siguiente forma:

1. Se toma la transformada de Fourier de (un estracto de la ventana de) una se nal. 2. Mapear la energ a del espectro obtenido de la escala mel, usando una funci on ventana triangular. 3. Calcular el logaritmo de la energ a de cada frecuencia mel. 4. Tomar la transformada de coseno discreta de la lista de mel log powers, como si fuera una se nal. 5. Los MFCCs son las amplitudes del espectro resultante.

3.3.

SVM Multiclase

Para un problema multiclase dado, M denotar a el n umero de clases y Wi , i = 1, ..., M . Para la clasicaci on binaria nos referiremos a las dos clases como positivo y negativo; un clasicador binario ser a asumido para producir una funci on de salida que da valores relativamente grandes para los ejemplos de la clase positiva y valores relativamente peque nos para los ejemplos que pertenecen a la clase negativa. WTA-SVM: Se construyen M clasicadores binarios. MWV-SVM: Este m etodo contruye un clasicador binario por cada par de clases distintas, as M (M 1)/2 clasicadores son construidos. Acoplamiento por Parejas: Es una estrategia de acoplamiento por parejas para combinar las salidas probabil sticas de todos los clasicadores binarios uno-contra-uno para obtener estimaciones de las probabilidades posterior pi = P rob(W i|x), i = 1, ..., M . Luego la estrategia de PWC asigna el ejemplo considerado a la clase con el mayor pi. CITAR

4.

Marco Experimental

El esquema general del sistema de predicci on propuesto se presenta a trav es de un diagrama de ujo basado en tres componentes principales: la base de datos, la caracterizaci on (Espacio de representaci on), y la clasicaci on.

Dataset Argentina.wav

Feature Extraction Modeling

Classification Training

Brasil.wav Representation Colombia.wav Testing

Figura 1: Esquema de Predicci on Propuesto

4.1.

Base de Datos

Con el n de describir la metodolog a propuesta para el an alisis del canto del ave Chingolo Com un, se tienen como base de Datos un total de 188 grabaciones (.WAV) del canto de las aves registradas en tres pa ses de Sur am erica: Argentina 69 grabaciones, Brasil 44 y Colombia 75. Las cuales se encuentran almacenadas y fueron suministradas por http://www.xenocanto.org/.

4.2.
4.2.1.

Caracterizaci on
Pre-procesamiento de la Serie de Tiempo

El procesamiento de la base de datos suministrada por Xeno-cantoperteneciente a la especie c hingolo com un, se llev o a cabo con el n de digitalizar los datos y facilitar as su representaci on en un espacio de caracter sticas para su posterior clasicaci on. 1. Convertir el formato de la muestras de audio de .MP3 a .WAV para la totalidad de la base de datos. 2. Cargar las muestras (archivos de audio) monof onicas al algoritmo de programaci on para su an alisis como serie de tiempo. 3. Se obtiene la frecuencia de muestreo para la totalidad de las muestras como fs = 44100 Hz. 4. Cada una de las muestras es ltrada utilizando un ltro FIR pasabanda (Respuesta de Impulso Finita) con un ancho de banda entre las bandas de parada de 3000 Hz y un ancho de banda de la banda de transici on de 1000 Hz. De esta forma se garantiza la captura de una gran parte de la informaci on de la muestra ya que se ha demostrado que el canto del ave c hingolo com unposee componentes entre los 3000 Hz y 6000 Hz. 5. Posteriormente se ejecuta un detector de inicio en las muestras ya ltradas, con el n de determinar los inicios aproximados en el archivo

de audio. Se emplea el MIR toolbox y al funci on mironsets como detector de inicios con una conguraci on de detector de picos ajustado a cada una de las muestras. 6. Luego del detector de inicios cada uno de los audios o muestras es segmentado en Frames, cada uno con un tama no de frame de 1,5 f s segundos, conociendo de ante mano que el canto del ave tiene un promedio de duraci on de 1,5 segundos. El audio segmentado corresponde al frame generado desde el primer INICIO detectado con una duraci on del tama no del frame. 7. Cada uno de los audios segmentados es almacenado para su posterior representaci on.

4.2.2.

Extracci on de Caracter sticas

Para la caracterizaci on de cada uno de los registros (Grabaciones), se utilizan dos conjuntos de caracter sticas estad sticas: i) 11 caracter sticas denotadas como {X1 , ..., X11 }, que se estiman de la se nal en el dominio del tiempo; y ii) 13 caracter sticas {X1 , ..., X13 } , que son estimadas en el dominio de la frecuencia. Ambos conjuntos son mostrados en la Figura 2.

Figura 2: Caracter sticas Extra das

4.2.3.

Extracci on de MFCCs

Los (MFCC) son calculados a partir de de la se nal de voz, la muestra a F S (Hz ). La se nal de voz se pre-enfatiz o primero usando un ltro de primer orden FIR con coecientes de pre- enfasis ALP HA. La se nal de voz pre-enfatizada se somete a la transformada de Fourier de tiempo corto an alisis con duraciones de trama de T W (M S ) T W = 25ms, cambios de marco de T S (M S ) T S = 10ms y la funci on de ventana de an alisis. Esto es seguido por el c alculo espectro de magnitud seguido de dise no de ltros con ltros triangulares M M = 20 espaciados uniformemente en la escala mel entre l mites de frecuencia superior dadas en R(Hz ) y menor. El banco de ltros se aplica a los valores de espectro de magnitud para producir energ as de banco de ltros (FBES) (M por trama). FBES comprimidas Log son entonces descorrelacionadas utilizando la transformada discreta del coseno para producir coecientes cepstral. El paso nal se

aplica levantador sinusoidal para producir MFCCs levantados que coinciden estrechamente los producidos por HTK. Luego de generar los coecientes (los primeros 20) de cada una de las muestras divididas en tramas, es decir, un coeciente por trama, se realiza un promedio Aritm etico del coeciente entre las tramas; como funci on de costo de la extracci on. CITAR

Figura 3: Caracterizaci on MFCC

4.3.

Clasicaci on

La clasicaci on de cada una de las series de tiempo representadas mediante caracter sticas estad sticas en el dominio del tiempo y la frecuencia, as como las muestras representadas por MFCCs, se llevo a cabo mediante la implementaci on de M aquinas de Soporte Vectorial o SVM multiclase (One vs all) como clasicador. Se lleva a cabo un esquema de Validaci on Cruzada (Cross-validation) de 10 folds, utilizando un Kernel Gaussiano. El par ametro de regularizaci on C y el Sigma son sintonizados mediante una b usqueda heur stica en malla de 1 a 1000 con un paso de 1 unidad. Para este caso las funciones de costo utilizadas fueron la Media o Promedio del Error de Clasicaci on, su Desviaci on Estandar y el Porcentaje de Vectores de Soporte utilizados.

5.
5.1.
Clases

Resultados y Discusi on
Caracter sticas Estad sticas
C Sigma Multiclase % Media de Error % V.Soporte 40.316 42.341 45.018

Argentina Brazil Colombia

950-1000

38.7415 7.42

Cuadro 1: Resultados Clasicador Multiclase

Clases Argentina Colombia

Sigma

Biclase % Media de Error % V.Soporte 38.152 38.222

400 -450

1.5

23.9341 8.14

Cuadro 2: Resultados Clasicador Biclase

5.2.
Clases

Caracterizaci on por MFCC


C Sigma Multiclase % Media de Error % V.Soporte 57.688 59.869 58.452

Argentina Brazil Colombia

235

1.9

47.3918 9.72

Cuadro 3: Resultados Clasicador Multiclase

6.

Conclusiones y Trabajo Futuro

Clases Argentina Colombia

Sigma

Biclase % Media de Error % V.Soporte 47.844 47.921

850

2.5

26.3553 8.2319

Cuadro 4: Resultados Clasicador Biclase

Referencias
[1] Autor, T tulo, Revista/Editor, (a no)