DocsTec 4895

1
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY
APLICACIÓN Y COMPARACIÓN DE METODOLOGÍAS DE LA

INTELIGENCIA ARTIFICIAL Y LA ESTADÍSTICA PARA EL
RECONOCIMIENTO ACÚSTICO DE AVES
TESIS QUE PARA OPTAR EL GRADO DE

MAESTRO EN CIENCIAS COMPUTACIONALES
PRESENTA
ERIKA VILCHES GONZÁLEZ
Asesor: Dr. EDGAR EMMANUEL VALLEJO CLEMENTE

Asesor Externo: Dr. CHARLES TAYLOR
Comité de tesis: Dra. MARÍA DE LOS ÁNGELES JUNCO REY

Dr. MIGUEL GONZÁLEZ MENDOZA
Atizapán de Zaragoza, Edo. Méx., Agosto de 2006.

2
3
RECONOCIMIENTOS
Esta investigación fue financiada parcialmente por la National Science Foundation (NSF)
de los Estados Unidos bajo la beca número 0410438 en el marco de la colaboración que realiza el
ITESM-CEM con UCLA en el proyecto “Sensor Arrays for Acoustic Monitoring of Bird
Behavior and Diversity”. Asimismo, se contó con el apoyo de CONACYT en la forma de
financiamiento FAPPI para la realización de los estudios de maestría.
4
RESUMEN
CAMPUS ESTADO DE MÉXICO
Autor: Erika Vilches González
Nombre de la Tesis: Aplicación y Comparación de Metodologías de la Inteligencia Artificial y

la Estadística para el Reconocimiento Acústico de Aves
Fecha: Agosto 2006 Número de Páginas: 85
Asesor: Dr. Edgar Emmanuel Vallejo Clemente

Asesor Externo: Dr. Charles Taylor
En este trabajo, se explora la aplicación de técnicas de la Inteligencia Artificial y la

Estadistica al problema del reconocimiento acústico de especies de aves basado solamente en su
canto, y se contrastan esos resultados con los obtenidos mediante el enfoque tradicional de los
Modelos Ocultos de Markov y de las Redes Neuronales. Trabajos previos han demostrado que
son requeridas grandes cantidades de atributos espectrales y temporales para representar la
estructura del canto de las aves. En este trabajo, utilizando un enfoque de Minería de Datos, se
redujeron las características obtenidas del canto de las aves para posteriormente utilizar sus
técnicas de clasificación para diferenciar especies de aves. Más específicamente, se implementó
J4.8, un algoritmo de árboles de decisión para extraer los atributos más significativos y Naive-
Bayes, un clasificador probabilístico, se aplicó sobre el conjunto de datos reducidos por J4.8.
Esto se realizó para comparar la eficiencia en la clasificación con el conjunto de datos reducido
contra el conjunto de datos completo. Posteriormente, el algoritmo de reglas de asociación se
aplicó al conjunto de datos reducido para encontrar relaciones naturales entre los atributos.
Finalmente, la eficiencia de los algoritmos de minería de datos fue comparada contra la de los
Modelos Ocultos de Markov y la de las Redes Neuronales, probando que los resultados obtenidos
mediante la Minería de Datos tienen una mayor exactitud y simplicidad.
Palabras Clave: Cantos de aves, Minería de Datos, Modelos Ocultos de Markov, Redes
Neuronales, Reconocimiento de Especies, Extracción de Características.
5
ABSTRACT
CAMPUS ESTADO DE MÉXICO
Author: Erika Vilches González
Name of the Thesis: Application and Comparison of Artificial Intelligence and Statistics
Methodologies for Acoustic Bird Species Recognition
Date: August 2006 Number of Pages: 85
Supervisor: Dr. Edgar Emmanuel Vallejo Clemente

External Supervisor: Dr. Charles Taylor
In this work, we explore the application of Artificial Intelligence and Statistics techniques
to the problem of acoustic recognition of bird species based on their song production and contrast
these results with the traditional approaches based on Hidden Markov Models and Neural
Networks. Previous work has shown that large collections of spectral and temporal attributes are
needed in order to represent the structure of bird songs. First, with the data mining approach, we
reduced the features extracted from the bird songs and used its classification techniques to
discriminate among bird species. More specifically, J4.8, a decision tree algorithm was
implemented in order to extract the most significant attributes. Naïve-Bayes, a probabilistic
classifier, was applied over the resulting J4.8 reduced attribute data set. This was done in order to
compare the efficiency of the reduced attribute data results against those obtained from the
complete attribute data set. Next, the association rules algorithm was applied to the reduced
attribute data set in order to find natural relationships between the attributes. Finally the
efficiency of data mining classification algorithms was compared against those of HMM’s and
Neural Networks, proving that the data mining results yielded higher accuracy and simplicity.
Keywords: Data mining, Hidden Markov Models, Neural Networks, Bird Song, Species
Recognition, Feature Extraction.
6
CONTENIDO:
1 Introducción..........................................................................................................................11
1.1 Generalidades.................................................................................................................11
1.2 Planteamiento del problema ..........................................................................................15
1.3 Objetivos.........................................................................................................................17
1.4 Contribuciones esperadas ..............................................................................................17
1.4 Organización del documento .........................................................................................18
2 Marco teórico ........................................................................................................................20
2.1 Trabajos previos.............................................................................................................20
2.2 El canto de las aves........................................................................................................24
2.2.1 Producción de sonido...............................................................................................24
2.2.2 Comunicación de aves .............................................................................................26
2.2.3 Etapas de desarrollo de la canción..........................................................................27
3 Modelo propuesto .................................................................................................................30
3.1 Adquisición y pre-procesamiento de datos....................................................................31
3.1.1 Cantos de aves .........................................................................................................31
3.1.2 Pre-procesamiento de la señal.................................................................................31
3.2 Extracción de características .........................................................................................32
3.2.1 Definiciones..............................................................................................................33
3.2.2 Características extraídas – interpretación y posible importancia .........................37
3.3 Validación cruzada (“Crossvalidation”) ........................................................................39
3.4 Minería de Datos ............................................................................................................39
3.4.1 Cuantización ............................................................................................................40
3.4.2 ID3............................................................................................................................42
3.4.3 J4.8 ...........................................................................................................................43
3.4.4 Naive-Bayes..............................................................................................................43
3.4.5 Reglas de Asociación ...............................................................................................44
3.5 Redes Neuronales ...........................................................................................................45
3.5.1 Retropropagación del Error ...................................................................................46
3.5.2 Funciones de Base Radial (RBF).............................................................................47
3.6 Modelos Ocultos de Markov ..........................................................................................48
4 Experimentos y resultados obtenidos...................................................................................53
4.1 Adquisición y pre-procesamiento de datos....................................................................53
4.1.1 Cantos de aves .........................................................................................................53
4.1.2 Pre-procesamiento de la señal.................................................................................53
4.2 Extracción de características .........................................................................................54
4.3 Validación cruzada (“Crossvalidation”) ........................................................................55
4.4 Modelos Ocultos de Markov ..........................................................................................55
4.5 Minería de Datos ............................................................................................................57
4.5.1 Cuantización ............................................................................................................57
7
4.5.2 J4.8, ID3 Y Naive-Bayes ..........................................................................................57

4.5.3 Reglas de Asociación ...............................................................................................59
4.6 Redes Neuronales ...........................................................................................................61
4.7 Tiempo de ejecución.......................................................................................................70
5 Conclusiones y trabajo a futuro ...........................................................................................72
Bibliografía ..............................................................................................................................75
Apéndice A ...............................................................................................................................81
8
LISTA DE FIGURAS:
Fig. 1 Micronodo de un arreglo de sensores (Original en colores). [63] .....................................12

Fig. 2 Arquitectura típica de un sistema de monitoreo ambiental (Original en colores). [63]......13
Fig. 3 Taraba major (Original en colores). [27] .......................................................................16
Fig. 4 Cercomacra tyrannina (Original en colores). [65]..........................................................16
Fig. 5 Thamnophilus doliatus (Original en colores). [32]...........................................................16
Fig. 6 División en sub-objetivos - diagrama de bloques (Original en colores)............................17
Fig. 7 El Syrinx, órgano vocal de un ave (Original en colores). [58]..........................................24
Fig. 8 El Syrinx (caja de voz del ave) contra la laringe (la caja de voz del humano) (Original en
colores). [64] .............................................................................................................................25
Fig. 9 Espectrograma de las canciones originales de los tutores y de las canciones plásticas del
ave joven [50]............................................................................................................................28
Fig. 10 Espectrograma de la canción original del tutor y de la canción cristalizada del ave joven
[50]............................................................................................................................................28
Fig. 11 Software Raven (Original en colores). [54]...................................................................38
Fig. 12 Software Sound Ruler (Original en colores). [60] ..........................................................38
Fig. 13 Ejemplo de cuantización sobre cuatro atributos de una muestra de canto [67]................41
Fig. 14 Conversión de datos originales a datos cuantizados (Original en colores). [67]..............42
Fig. 15 Red Neuronal tipo Retropropagación del Error de tres capas (de entrada, escondida y de
salida) [23]................................................................................................................................46
Fig. 16 Red Neuronal tipo Funciónes de Base Radial. [18].......................................................48
Fig. 17 Espectrograma del Taraba major (Original en colores). ................................................54
Fig. 18 Espectrograma del Cercomacra tyrannina (Original en colores)....................................54
Fig. 19 Espectrograma del Thamnophilus doliatus (Original en colores). ..................................54
Fig. 20 Gráfica de porcentajes de eficiencia para HMM’s sobre el conjunto de prueba (Original
en colores) .................................................................................................................................56
Fig. 21 Gráfica de porcentajes de eficiencia para Minería de Datos sobre el conjunto de prueba
(Original en colores) ..................................................................................................................58
Fig. 22 Gráfica de porcentajes de eficiencia por especie de J4.8 (Original en colores) ...............59
Fig. 23 Gráfica de desempeño (error cuadrático medio) en el conjunto de entrenamiento y de
prueba de la Red Neuronal de Retropropagación del Error con gradiente descendiente y momento
Fig. 24 Gráfica del gradiente de la Red Neuronal de Retropropagación del Error con gradiente
descendiente y momento (Original en colores)...........................................................................63
Fig. 25 Clasificación de Retropropagación del Error con gradiente descendiente y momento
Fig. 26 Desempeño en la clasificación Retropropagación del Error con Levenberg-Marquardt
sobre los conjuntos de entrenamiento y prueba (Original en colores)..........................................66
Fig. 27 Gráfica del gradiente de la Red Neuronal de Retropropagación del Error con Levenberg-
Marquardt (Original en colores).................................................................................................66
9
Fig. 28 Clasificación Retropropagación del Error con Levenberg-Marquardt (Original en

colores)......................................................................................................................................67
Fig. 29 Clasificación de las Funciónes de Base Radial con extensión de 0.001 (Original en
colores)......................................................................................................................................68
Fig. 30 Eficiencia de las Redes Neuronales por especie y eficiencia global (Original en colores)
..................................................................................................................................................69
Fig. 31 Resumen de eficiencia de todos los métodos utilizados (Original en colores) ..............70
Fig. 32 Tiempo total en segundos de los algoritmos utilizados (Original en colores) ...............71
10
LISTA DE TABLAS:
Tabla 1 Filtro pasa-bajos y pasa-altos por especie ......................................................................54

Tabla 2 Resultados de reglas de asociación ................................................................................59
Tabla A3 Datos "crudos" ...........................................................................................................81
Tabla A4 Datos resumidos .........................................................................................................83
11
1 INTRODUCCIÓN
1 Introducción
1.1 GENERALIDADES
1.1 Generalidades
Las observaciones de plantas y animales se encuentran en el corazón de la Ecología para

el estudio del comportamiento de los animales. Sin embargo, un observador humano está
frecuentemente limitado en lo que puede ver o escuchar. En ocasiones, es demasiado lo que
ocurre en un momento de forma que es imposible para un observador humano separar y poner en
orden toda esa información. A veces los cantos de las aves son tan similares que las especies o
individuos no pueden ser diferenciados, ni siquiera por los especialistas. En otras ocasiones,
suceden tan pocas cosas que se requieren de largos periodos de observación para captar eventos
poco frecuentes pero importantes, como es el caso de aves poco abundantes en hábitats de difícil
acceso [64].
El reconocimiento de la especie a la que pertenece un canto de ave se ha realizado hasta la

fecha principalmente por expertos ornitólogos quienes mediante su oído, experiencia y apoyados
eventualmente en la visualización, reconocen a un ave por su canto. En el caso del
reconocimiento de individuos, éste se realiza comúnmente mediante el marcado de las aves con
pequeñas bandas de color en sus patas con el fin de que la simple visualización del ave nos
permita reconocer individuos específicos.
Es por lo anterior que el desarrollo de herramientas tanto de “hardware” como de

“software” para la automatización del análisis del comportamiento acústico del canto de las aves
para la diferenciación de especies e individuos será de enorme ayuda para los estudios de
ecología, biodiversidad y comportamiento, ya que podremos conocer qué especies de aves están
presentes en algún hábitat y lograr un mejor entendimiento de su compotamiento.
12
En el caso de las herramientas de hardware que se están desarrollando para este fin
encontramos los arreglos de sensores [24, 63], los cuales proveen información sobre las
condiciones ambientales localizadas en algún hábitat en la escala de organismos individuales. Los
nodos de un arreglo de sensores, es decir los sensores individuales, pueden ser micronodos o
macronodos. Los micronodos (Figura 1) que se instalan en las áreas de interés, son de tamaño
pequeño y están alimentados por medio de una batería integrada, se componen además por un
microcontrolador de bajo consumo de energía capaz de ejecutar unos pocos MIPS (millones de
instrucciones por segundo), unos cuantos “kilobytes” en RAM, sensores para monitorear la luz
del sol, humedad, presión y temperatura, un cono que protege al sensor y un transmisor
inalámbrico. Los elementos de percepción del entorno (sensores) se encuentran de dos posibles
formas, ya sea una sonda conectada a una tarjeta de adquisición de señal de propósito general o
integrados en la tarjeta del microcontrolador junto con el transmisor inalámbrico. Los
macronodos o macrosensores tradicionales ofrecen por lo menos diez veces la capacidad de un
micronodo en términos de memoria, procesamiento y ancho de banda de comunicación. En el
caso de los nodos utilizados para la clasificación de aves e individuos se requiere que éstos sean
macronodos, para que puedan correr sin dificultades el algoritmo que requerirá esta aplicación.
Fig. 1 Micronodo de un arreglo de sensores (Original en colores). [63]
Los componentes principales que requiere una típica aplicación para el monitoreo
ambiental [63] se muestran en la Figura 2. Las muestras se originan en los nodos (sensores),
colocados en pequeñas áreas diversas del hábitat de interés. Por lo general, cada pequeña área
está separada del resto por una gran distancia. La información, la cual se obtiene de cada área, va
a través de la red de tránsito a un centro de datos, que además de almacenar información de los
sensores, almacena información de la red de verificación.
13
Fig. 2 Arquitectura típica de un sistema de monitoreo ambiental (Original en colores). [63]
Por medio de los arreglos de sensores [24, 63] , los algoritmos y los filtros apropiados se
podrá saber, por ejemplo, si la diversidad de una especie está correlacionada con la diversidad de
la vegetación, o si la diversidad es mayor o menor en relación con lugares más lejanos o más
cercanos al sitio de estudio. En un futuro, cuando el proyecto [64] se complete, se podrá filtrar,
ordenar y clasificar la salida de un solo sensor para la identificación de vocalistas específicos,
analizar las variaciones en las canciones o llamadas a través del tiempo y correlacionar estas
variaciones con el sonido total del ambiente (biótico y abiótico). Múltiples sensores podrán
rastrear vocalistas específicos en el espacio y tiempo, y así grabar sus movimientos, localizar a
quien pertenece cada territorio, calcular las densidades de las especies y dilucidar respuestas e
interacciones intra e ínter especie.
Para el proyecto del cual forma parte este trabajo, el objetivo de los arreglos de sensores
consiste en introducir en un ambiente natural un cierto número de pequeños sensores para
adquirir información de sus alrededores. La tecnología de arreglos de sensores distribuidos nos
permitirá en un futuro detectar eventos poco comunes que ocurran en un cierto ambiente, tales
como la presencia de especies en peligro de extinción, sus interacciones sociales y comunicación,
sin la intervención humana, y permitirán plantear y verificar hipótesis que de otro modo sería
impráctico y/o imposible realizar.
Para poder explotar el potencial completo de los arreglos de sensores distribuidos para
esta tarea específica, debemos enfrentar problemas computacionales complejos. Los cantos de las
aves, cuando son convertidos al dominio de la frecuencia mediante las transformadas de Fourier,
producen grandes cantidades de datos que requieren procesamiento y discriminación; las
relaciones implícitas deben ser encontradas, la información debe ser ordenada y limpiada. Es aquí
donde las técnicas de minería de datos pueden emplearse tanto para a reducir la complejidad y el
costo computacional de estos análisis como para realizar la clasificación de especies de aves, lo
que nos permitiría incorporar estas tecnologías de procesamiento en plataformas restringidas en
14
cuanto al uso de poder de procesamiento y energía, tales como lo son los nodos en un arreglo de
sensores.
Actualmente existen algunas herramientas para el reconocimiento de individuos que han

tenido altos grados de eficacia, sin embargo, éstas se enfocan al reconocimiento de voz en
humanos. El mejor método computacional que se conoce para este fin son los Modelos Ocultos
de Markov o HMM (por sus siglas en inglés), mismo que se ha probado en este proyecto para el
reconocimiento de individuos en aves aún cuando en algunos casos específicos no son apropiados
para plataformas con restricciones como lo son las redes de sensores distribuidos que serán
utilizados en este proyecto. Dentro de los casos en los cuales los HMM no representarían una
solución óptima para este problema por no cumplir con el requerimiento de un bajo costo
computacional, podemos mencionar a aquellos en los que la secuencia a analizar es muy larga y/o
en aquellos en donde el número de clases es alto, ya que en ambos casos el trellis que se genera
adquiere dimensiones importantes y por lo tanto, el calcular la solución resulta costoso. Un trellis
es una máquina probabilista de estados finitos que captura tanto la estructura de estados como las
dependencias temporales de una cadena de Markov. La eficiencia de este método es comparada
en este trabajo contra la de otros algoritmos de la Inteligencia Artificial y la Estadística que se
pensó podrían llegar a ser más eficientes para este problema, como son los de Minería de Datos
(ID3 [72], J4.8 [72] y Naive-Bayes [72] trabajando tanto de manera independiente como de
manera conjunta y Reglas de Asociación [72]), Redes Neuronales (Retropropagación del Error
(FFBP) [56, 23] y Funciones de Base Radial (RBF) [56, 23]). El objetivo de esta comparación fue
identificar el algoritmo que clasifica con la mayor eficiencia tanto las bases de entrenamiento
como las de prueba. La extracción de características sobre las cuales se ejecutan los algoritmos
anteriormente mencionados se realiza gráficamente con la ayuda de los paquetes de software
Raven [54] y Sound Ruler [60], que mediante la Transformada Rápida de Fourier [42] nos
permiten realizar este proceso.
La hipótesis del presente trabajo consiste en que la minería de datos nos puede llevar a
obtener una mejor eficiencia en la clasificación acústica de especies de aves que los enfoques
tradicionales para este tipo de problemas, como las Redes Neuronales o los Modelos Ocultos de
Markov, a un costo computacional razonable para un dispositivo con recursos computacionales
limitados, como un nodo en un arreglo de sensores. Para validar dicha hipótesis, se analizó la
eficiencia en la clasificación y el costo computacional de cada uno de los algoritmos
anteriormente mencionados, encontrado en el equilibrio entre estas dos variables a la solución
óptima para este problema.
Como se menciona en el siguiente capítulo, algunas de estas técnicas ya han sido

anteriormente estudiadas en diversos contextos y utilizando diversas especies, como son los
HMM y las Redes Neuronales, sin embargo, en esos trabajos los resultados de dichos algoritmos
no han sido lo suficientemente eficientes como para considerarlos una solución óptima, hallazgo
que es corroborado por los resultados experimentales obtenidos en este trabajo. La importancia
de este estudio radica principalmente en el análisis de la eficiencia de dichos algoritmos con las
especies objeto de este estudio y en la exploración de caminos distintos para la solución a este
problema por medio de la Minería de Datos, buscando una solución que sea confiable y que a su
vez, pueda ser implementada en plataformas con limitaciones en el uso de recursos
computacionales.
15
1.2 PLANEAMIENTO DEL PROBLEMA

1.2 Planteamiento del problema
Uno de los objetivos del proyecto “Sensor Arrays for Acoustic Monitoring of Bird
Behavior and Diversity” es el de lograr la identificación automatizada de especies de aves por
medio de la información obtenida mediante arreglos de sensores, localizados en la reserva
ecológica de Montes Azules, Chiapas, seleccionada por tener una rica diversidad de especies de
aves en una selva tropical. El utilizar una reserva ecológica como lugar para el desarrollo de
nuestro trabajo nos permitirá realizar pruebas en un lugar alejado de la civilización, facilitando la
correcta medición de parámetros de las especies e individuos en su ambiente natural sin que estas
mediciones y experimentaciones se encuentren intervenidas por factores externos como el
humano.
El reconocimiento se delimita a tres especies presentes en esta reserva ecológica: "Taraba

major", "Cercomacra tyrannina" y "Thamnophilus doliatus". En pruebas preliminares, los cantos
que se estudiaron fueron adquiridos mediante un pedido especial al Cornell Lab of Onithology -
Macaulay Library [19] solicitando todas las muestras que existen de cada una de las especies que
son objeto de estudio de este trabajo con el fin de tener una base extensa, completa y suficiente
para los entrenamientos y pruebas que se requerirán. En el caso del Cercomacra tyrannina se
obtuvieron 118 grabaciones, Thamnophilus doliatus 102 grabaciones y Taraba major 93
grabaciones. Cada grabación cuenta con varias llamadas o muestras de una misma ave.
La razón principal por la cual se seleccionaron estas especies es que son aves territoriales
abundantes en Montes Azules, Chiapas, la reserva ecológica en donde la red de arreglos de
sensores se instalará en el futuro cercano. El hecho de que sean aves territoriales ayuda a su
localización, facilitando así el reconocimiento. Asimismo, fueron seleccionadas porque estas
especies de aves tropicales no aprenden canciones y en consecuencia su repertorio es limitado, lo
que hace el trabajo de reconocimiento acústico más sencillo.
Para realizar el reconocimiento se utilizaron diversas técnicas de la inteligencia artificial,

de tal forma que la comparación entre ellas nos permitió distinguir claramente a la que
proporciona el mejor equilibrio entre el bajo consumo de recursos computacionales y la eficiencia
en el reconocimiento en bases de aprendizaje y prueba. Es importante destacar que el bajo
consumo de recursos es de suma importancia para este problema ya que el reconocimiento de
especies e individuos se realizará en arreglos de sensores, los cuales son equipos de bajo poder de
procesamiento y con altos requerimientos de conservación de energía. Es poco recomendable
cambiar las baterías de estos equipos constantemente debido al esfuerzo que conlleva el cambio
de batería y la intrusión al hábitat que representa. Es por esta razón que se debe realizar el menor
número posible de operaciones en el procesamiento para el reconocimiento, asimismo se debe
transmitir la menor cantidad de información posible para maximizar el ahorro de energía, todo lo
anterior sin sacrificar la eficiencia en el reconocimiento.
16
Fig. 3 Taraba major Fig. 4 Cercomacra tyrannina

(Original en colores). [27] (Original en colores). [65]
Fig. 5 Thamnophilus doliatus

(Original en colores). [32]
Los sensores que se utilizarán en el arreglo son construidos por el UCLA Center for
Embedded Networked Sensing (CENS) [24]. Algunos de ellos se encuentran cableados a
computadoras presentes en el campo donde se trabaja, otros se comunican por medio de redes
inalámbricas.
El reconocimiento logrado podría ser utilizado entre otras cosas para resolver problemas
del mundo real que de otra forma no podrían ser resueltos y que representan problemas
significativos para la ecología. Se permitirá el planteamiento de hipótesis tales como si los
individuos de las especies que se desplazan vocalizan para mantener la distancia de separación
individual mínima, o si las especies que utilizan rangos de frecuencias similares cantarán en
tiempos diferentes para minimizar la interferencia acústica, éstas entre otras hipótesis. Otra
utilidad a futuro dentro del proyecto de UCLA es la extensión del conocimiento que se tiene
actualmente sobre las interacciones de las aves, ya que existen especies de las que no se conoce
aún el significado de algunas de sus vocalizaciones y su estructura social. En el futuro, la
utilización de algoritmos para el reconocimiento de eventos combinados con algoritmos para el
17
reconocimiento de individuos y algoritmos de localización proporcionarán los medios para

conocer el significado de estas vocalizaciones a partir de sus contextos sociales.
1.3 OBJETIVOS
1.3 Objetivos
Para alcanzar el objetivo de este trabajo, es decir, identificar al mejor algoritmo de la

inteligencia artificial o la estadística para obtener una clasificación confiable de especies de aves,
el problema se ha dividido en una colección de sub-objetivos específicos, cada uno de los cuales
desarrolla una de las técnicas propuestas de modo que al finalizar éstos se realice la comparación
de eficiencia para determinar al algoritmo óptimo, tal como se muestra en el diagrama de bloques
de sub-objetivos en la figura 6.
Fig. 6 División en sub-objetivos - diagrama de bloques (Original en colores).
1.4 CONTRIBUCIONES ESPERADAS

1.4 Contribuciones esperadas
En el presente trabajo se propone la utilización de técnicas de minería de datos, los

árboles de decisión, para obtener un conjunto de reglas que nos conduzca a una clasificación de
especies eficiente y que a su vez nos permita reducir la complejidad computacional requerida en
la clasificación. La reducción de complejidad computacional se da por medio de la reducción de
atributos requeridos para realizar la clasificación que se produce mediante la utilización de los
árboles de decisión (atributo que no aporta nada a la clasificación, no es considerado en el árbol).
18
Se explora también la utilización de otros algoritmos de la minería de datos, como las

Reglas de Asociación y Naive-Bayes. En el caso de Naive-Bayes, se explora su utilización tanto
de manera independiente como en combinación con los árboles de decisión. Se espera que la
reducción de atributos obtenida secundariamente con los árboles de decisión beneficie a Naive-
Bayes mediante la eliminación de los atributos que no aparecen en el árbol del conjunto que se le
alimenta, esto debido a la disminución de dependencia entre atributos del conjunto.
En el caso de las Reglas de Asociación, se espera encontrar relaciones o reglas que

identifiquen atributos con un alto grado de dependencia estadística. La utilidad de la
identificación de este tipo de atributos radica en que en un futuro se podrían seleccionar como
candidatos a eliminación del conjunto de datos que se alimenta a Naive-Bayes, para tratar de
mejorar así su eficiencia.
El objetivo es comprobar si tal como se espera, estas técnicas son superiores en eficiencia
a los enfoques tradicionales y clásicos, tales como los Modelos Ocultos de Markov y las Redes
Neuronales, mismos que también son analizados. Asimismo, se espera identificar al algoritmo
que proporcione un equilibrio óptimo entre eficiencia y costo computacional con el fin de realizar
análisis en campo mediante la implementación del mismo en los nodos de las redes de sensores
que se utilizarán en el futuro cercano.
1.4 ORGANIZACIÓN DEL DOCUMENTO

1.4 Organización del documento
Este trabajo se encuentra organizado de la siguiente forma:
Capítulo 1 – Introducción. En este capítulo se analizan las generalidades, se realiza el

planteamiento del problema, se describen las especies objeto de este estudio, las razones por las
que fueron seleccionadas, se mencionan los objetivos del trabajo y las contribuciones esperadas
por el mismo.
Capítulo 2 - Marco Teórico. En este capítulo se mencionan y analizan los trabajos previos
y la mecánica del canto de las aves, cómo es que producen sonido y cómo se comunican tanto
mediante señales acústicas como con señales no acústicas. Finalmente, se explora la evolución de
la canción de un ave que aprende canciones desde que nace hasta la edad adulta.
Capítulo 3 – Modelo Propuesto. En este capítulo se especifican los algoritmos que se

propone utilizar en este trabajo, se describe el conjunto de datos a utilizar y el objetivo de la
reducción de la dimensionalidad mediante la combinación de algoritmos de Minería de Datos.
Capítulo 4 – Experimentos Realizados. En este capítulo se especifican los detalles de los

experimentos que se realizaron en este trabajo, desde la adquisición y el pre-procesamiento de los
datos, el proceso de extracción de características, los detalles de la utilización de la Minería de
Datos, las Redes Neuronales y los Modelos Ocultos de Markov.
19
Capítulo 5 – Resultados Obtenidos, Análisis y Discusión. En este capítulo se analizan y

se comparan los resultados obtenidos mediante los experimentos realizados descritos en el
capítulo 4. Se presentan gráficas de barras para poder comparar visualmente la eficiencia de los
algoritmos para este problema.
Capítulo 6 – Conclusiones y Trabajo a Futuro. En este capítulo se selecciona al mejor

algoritmo para resolver este problema considerando el requerimiento de equilibrio entre
eficiencia y costo computacional. Se presentan las opciones de trabajo a futuro que quedan
pendientes en este trabajo y se contratan los resultados encontrados con los que se presentaron en
el marco teórico.
20
2 MARCO TEORICO
2 Marco teórico
Este trabajo surge a partir de la identificación de la necesidad del desarrollo de

herramientas que automaticen el proceso de reconocimiento de especies de aves e individuos. Es
importante mencionar que no existen cláusulas de confidencialidad con respecto al tema o al
desarrollo del presente proyecto.
La automatización del proceso de reconocimiento es particularmente importante debido a

que es de mucha utilidad dentro del proyecto "Sensor Arrays for Acoustic Monitoring of Bird
Behavior and Diversity" [64] que desarrolla la University of California, Los Angeles (UCLA),
liderado por el Dr. Charles Taylor y financiado por National Science Foundation [64] bajo la
beca número 0410438 en el cual colabora el ITESM-CEM. En este proyecto se utilizan arreglos
de sensores para la observación y el análisis de la diversidad y el comportamiento de las aves. La
atención se enfoca a los sensores y sus habilidades, más específicamente a su adaptabilidad y
robustez. La relación de los sensores y las aves en este proyecto consiste en la creencia de que las
aves proporcionan una plataforma conveniente para el desarrollo y prueba de las capacidades de
los arreglos de sensores.
2.1 TRABAJOS PREVIOS

2.1 Trabajos previos
Pocos estudios se han realizado sobre el reconocimiento automatizado de especies de

aves. En el trabajo de Korgan [38], uno de los estudios más extensos al respecto, podemos ver un
estudio comparativo de eficiencia entre el uso del algoritmo Dynamic Time Warping o DTW
contra los Modelos Ocultos de Markov. En este estudio se encuentra que dependiendo de la
calidad de las grabaciones y la complejidad de la canción, las técnicas basadas en DTW en
ocasiones dan resultados mucho más satisfactorios que los HMM’s. Bajo condiciones difíciles
21
como grabaciones ruidosas o la presencia de llamadas confusas de corta duración DTW requiere
la selección cuidadosa de patrones que pueden requerir el conocimiento de expertos para poder
mantener su buen desempeño. Dado que los HMM’s están entrenados, se puede alcanzar un
desempeño equivalente o mejor basándose solamente en la segmentación y marcado de las
vocalizaciones componentes, aunque con muchos más ejemplos de entrenamiento que las
plantillas de DTW. Se encontró que una de las debilidades en el desempeño de los HMM’s
consiste en la mala clasificación de las llamadas de corta duración o unidades de canción con
estructura más variable, como algunas llamadas y sílabas. La investigación sobre HMM’s fue
realizada con el paquete HTK utilizando el algoritmo de Baum-Welch para el entrenamiento y el
algoritmo de Viterbi para el reconocimiento; la investigación sobre DTW fue realizada
desarrollando el sistema basado en DWT “Long Continuous Song Recognition” (LCSR). La
desventaja de ambas técnicas es la falta de un método para encontrar las características
discriminativas a partir de las señales dadas, en ambos casos, se extrae el total de datos
disponibles de la señal y se crea un modelo clasificador a partir del conjunto completo de ellos, a
diferencia de técnicas como el Análisis en Componentes Principales o los Árboles de Decisión,
que nos permiten seleccionar únicamente los atributos más representativos de un conjunto de
datos sobre los cuales se ejecutará un algoritmo clasificador. El resultado o eficiencia obtenida
con ambas metodologías fue en general bueno, sin embargo, aún no lo suficientemente confiable
como para considerarlo para el trabajo diario de laboratorio, con lo cual se descarta también
cualquier posibilidad de poder utilizarlo para el reconocimiento en tiempo real. Los autores
sugieren que extraer más información biológicamente significativa de las canciones podría
mejorar el desempeño considerablemente.
En otro trabajo, Wilde [71] de la Tulane University utilizó también los Modelos Ocultos
de Markov para resolver este problema utilizando a HTK como plataforma, llamando sus
funciones desde un programa en C. Ellos utilizaron cuantización sobre sus archivos en formato
wav de la base de entrenamiento para que pudieran ser consultados por el algoritmo de Viterbi.
Asimismo, al momento de crear la gramática en la forma Backus-Naur o BNF que requiere HTK
para funcionar, utilizaron únicamente los nombres de las aves a clasificar como gramática.
Utilizaron tres distintas configuraciones cada una de ellas con tres pruebas, la primera con 10
muestras de cada pájaro o individuo para el conjunto de entrenamiento y 10 muestras para el
conjunto de prueba, en la segunda se incrementa el tamaño del conjunto de prueba y se mantiene
el tamaño del conjunto de entrenamiento, y finalmente en la tercera se incrementa el tamaño del
conjunto de entrenamiento mientras que se decrementa el tamaño del conjunto de prueba.
En la primer configuración se utilizaron 5 especies de aves y se obtuvo una eficiencia

promedio de 87.4% en la primer prueba, 59.3% en la segunda 50.8% en la tercera. En la segunda
configuración se eliminaron los pájaros que tenían llamadas cercanamente relacionadas como por
ejemplo el keel-billed toucan y el toco toucan (se eliminó por completo al toco toucan) para
mejorar los resultados, obteniendo un resultado promedio en la primera prueba de 87.7%, en la
segunda de 70% y en la tercera de 72%. En la tercer configuración lo que se hizo fue escoger
únicamente muestras de buena calidad, con mucha claridad (sin sonido del ambiente, sin sonido
de aves vecinas, etc), distintivas y representativas. Devolvieron a ambos tipos de tucanes en esta
configuración y eliminaron a una especie desconocida, porque las grabaciones eran de baja
calidad. Los resultados que se obtuvieron en la primer prueba fueron en promedio 94.6%, en la
segunda 67.2% y en la tercera de 62.5%. Se cree que la discrepancia en esta ultima prueba fue
por incluir a los dos tipos de tucanes. Posteriormente se intento comparar dos aves disimilares y
dos aves similares. Como se esperaba, el modelo obtuvo un 100% de eficiencia con las dos aves
disimilares (keel-billed toucan y termminck fruit dove) pero solo se tuvo un 85% de eficiencia
22
con las dos aves similares (keel-billed toucan y toco toucan). Este modelo, aunque resultó
altamente confiable para la clasificación de aves (individuos) de especies disimilares tuvo poca
confiabilidad en aves de especies similares, por lo cual sería de poca utilidad para clasificar un
mayor número de individuos (considerando que a mayor número de individuos, mayor número de
especies y mayor probabilidad de tener especies similares en el conjunto a clasificar), esto limita
su utilización en una implementación en línea, donde generalmente se requiere clasificar un
número considerable de especies.
En el trabajo de Bard [6] se utiliza el software Syrinx [62] para procesar con 257
canciones de 25 machos y 5 hembras de la especie Hylophylax naevioides u Hormiguero
Moteado y se trabaja con el software SPSS [61] para realizar el análisis estadístico. Se realizó un
filtrado de las canciones para eliminar el ruido ambiental. En dicho trabajo se estudia la variación
individual en la canción, se trata de saber si los pájaros de esa especie pueden distinguir entre un
vecino y un extraño y presuponen que para realizar una distinción de este tipo, se utilizan
características de la señal. Para determinar qué variables son las más importantes en la distinción
de individuos se utilizó el análisis discriminante, el resultado arrojó que cuatro características
temporales y de frecuencia revelan diferencias significativas entre individuos: la frecuencia
central en kiloHertz, el rango de frecuencias, la duración de la canción, y la velocidad de la
canción. Las características temporales de las canciones variaron significativamente entre sexos,
no así las características de frecuencia. Para probar la generalidad de la clasificación, se
estimaron las tasas de error por medio de la validación cruzada. El análisis discriminante con
validación cruzada reveló que el 73% de los individuos machos y 94% de las hembras fueron
correctamente clasificados al individuo que produjo la canción. La identificación de sexos
realizada en este trabajo por medio del análisis en la variación en las características temporales de
las canciones entre sexos es una aportación interesante, sin embargo, esto solo se probó en una
sola especie, sería realmente interesante comprobar si esta característica mantiene su eficiencia de
clasificación con otras especies. También es importante destacar el desequilibrado número de
machos contra hembras utilizado (25 machos contra solo 5 hembras), mismo que pudiese estar
afectando el porcentaje de eficiencia en el reconocimiento de individuos.
En el trabajo de Kwan [39] se hace una investigación para localizar a las especies de aves
que más frecuentemente se estrellan contra los aviones poniendo en peligro al avión, el objetivo
es encontrar la forma de disminuir el número de estos accidentes. En la investigación se detalla el
desarrollo de un sistema de clasificación de aves utilizando HMM’s y un Modelo de Mezcla
Gaussiana (GMM, del inglés Gaussian Mixture Model). En este sistema, primero se realiza el
pre-procesamiento del sonido: que todas las muestras tengan la misma frecuencia de muestreo
("sampling rate”), que todas las muestras estén contenidas en bloques de datos y aplicación de la
transformada discreta de Fourier. Posteriormente, realizan un Análisis en Componentes
Principales y una Cuantización Vectorial, cuyos resultados alimentan a los Modelos Ocultos de
Markov. Con esta configuración, se obtienen resultados razonablemente buenos para 4 especies,
con 5 muestras de cada especie. En el caso de GMM, primero realizan el pre-procesamiento para
la extracción de características y posteriormente aplican los modelos GMM para clasificar a las
distintas aves. El reconocimiento en un ambiente ruidoso con GMM es ligeramente deficiente, sin
embargo, cuando se hace junto con “beamforming” para reducir el ruido ambiental mejora
considerablemente. Finalmente, se obtuvieron mejores resultados con GMM que con HMM, y
también se concluyó que GMM es más adecuado para una implementación en tiempo real.
En el trabajo de Härmä [30] se trabajan las canciones a nivel de sílabas, que son los
bloques elementales de la canción de un ave. En ese trabajo se prueba que tan bien se pueden
23
reconocer las especies de aves comparando representaciones sinusoidales simples de sílabas

aisladas. Con este método se obtienen resultados de regulares a buenos para conjuntos limitados
de especies de aves (14 especies por ejemplo). El modelado sinuisoidal es propuesto como una
línea de referencia para la clasificación en este problema, ya que es una metodología simple y de
baja complejidad, sin ningún procesamiento inteligente o conciencia del contexto. La idea del
modelado sinusoidal consiste en aproximar clases de sílabas de las canciones como breves pulsos
sinusoidales de amplitud y frecuencia variables.
En el trabajo de Nelson [51] se estudia la capacidad discriminativa de 14 distintas

características del canto en el Field Sparrow (Spizella pusilla) y el Chirping Sparrow (Spizella
passerina) contra otras 11 especies de aves. En ese trabajo se encuentra que las características
tienen diferentes capacidades de clasificación en el contexto de diferentes especies. Se utiliza el
análisis discriminante canónico para determinar y seleccionar las características que maximicen
la exactitud del reconocimiento resultante. En ambas especies la frecuencia máxima de una nota
fue una de las dos características menos variables entre canciones de co-específicos y la
característica más adecuada para clasificar canciones en un análisis discriminante canónico.
Asimismo, se demuestra que las características no variables no proveen las claves de
reconocimiento más importantes, contradiciendo algunas suposiciones comunes en la literatura
publicada.
En el trabajo de Anderson [3] se trabaja con Dynamic Time Warping o DTW. Este
algoritmo compara una señal de entrada con un conjunto de plantillas predefinidas
representativas de las categorías escogidas por el investigador. Compara directamente los
espectrogramas de la señal e identifica a los componentes y sus fronteras, permitiendo así la
identificación de un amplio rango de señales y componentes de las señales. En ese trabajo se
aplicó este algoritmo a cantos de dos especies, Indigo Bunting (Passerina cyanea) y Zebra Finch
(Taeniopygua guttata). Cuando se aplicó sobre vocalizaciones recolectadas en un ambiente con
bajo desorden y ruido ambiental, el clasificador identificó sílabas en canciones y llamadas
estereotipadas con alrededor del 97% de eficiencia. Las sílabas recolectadas con esta misma
excelente calidad de grabación pero más variables y de amplitud menor de la canción plástica del
Indigo Bunting son identificadas con aproximadamente el 84% de eficiencia.
En el trabajo de McIlraith [43] se trabaja con Redes Neuronales de Retropropagación del

Error y estadística multivariable. Se trabajo con 6 especies comunes en Manitoba, Canada. Las
canciones fueron representadas con parámetros temporales y espectrales de la señal. La
dimensionalidad del espacio de características se redujo escogiendo características para la
clasificación mediante su capacidad discriminativa. Para la clasificación de las canciones se
utilizaron Redes Neuronales. Se hicieron pruebas con distintas configuraciones de Redes
Neuronales de Retropropagación del Error y con Análisis Discriminante Cuadrático, en
promedio, con las redes neuronales se obtuvo una eficiencia de alrededor del 85% y con el
análisis discriminante cuadrático alrededor del 90%.
Resumiendo, estos trabajos se utilizan los algoritmos DTW, HMM, análisis discriminante
cuadrático, GMM, Modelado Sinusoidal y Redes Neuronales de Retropropagación del Error. El
uso de estos algoritmos proporcionó en general una baja eficiencia, el más destacado fue DTW
con 97% en un ambiente con perturbación y ruido ambiental bajos, utilizando llamadas y
canciones estereotipadas solamente entre dos especies, que al utilizar grabaciones igualmente
limpias pero con silabas más variables disminuye al 84%. En general, el costo computacional de
entrenamiento de éstos algoritmos para conjuntos de datos de gran tamaño, con muchas especies
24
a clasificar y con un número grande de atributos es relativamente alto, lo que complica su

utilización en un ambiente “en línea” y su implementación en plataformas con restricciones en el
uso de recursos, como lo son los arreglos de sensores.
2.2 EL CANTO DE LAS AVES

2.2 El canto de las aves
2.2.1 PRODUCCIÓN DE SONIDO
2.2.1 Producción de sonido

En muchos casos, el estímulo auditivo más importante para las aves son los sonidos de
otras aves, incluyendo rivales territoriales y familia o miembros de la parvada. Subyacente a toda
la actividad vocal de las aves se encuentra el Syrinx, un órgano único de los pájaros. El syrinx se
localiza en la primer ramificación principal de la traquea, donde los dos tubos bronquiales más
grandes convergen.
Fig. 7 El Syrinx, órgano vocal de un ave (Original en colores). [58]
Existen paralelos generales entre el syrinx en las aves y la laringe en los mamíferos. Por
ejemplo, ambos producen sonido cuando el aire es forzado a través de la traquea, causando que
las membranas delgadas vibren. En el caso de los mamíferos, estos utilizan dos delgados pliegues
en la laringe (cuerdas vocales) para producir el sonido. Pequeños músculos controlan la tensión
en las cuerdas vocales y de esta forma el tiempo y tono de los sonidos. Las cavidades en la
garganta, boca y nariz en ocasiones resuenan y modifican así la naturaleza de los sonidos que se
emiten de la boca del animal. Sin embargo, el syrinx es un mecanismo generador de sonido
mucho más elaborado. Es altamente eficiente, crea sonido a partir de casi todo el aire que pasa a
través de él. La laringe humana, en comparación, utiliza solamente alrededor del 2% del aire
exhalado. Las aves también cuentan con una laringe, sin embargo ésta no incluye cuerdas vocales
como en el caso de los humanos.
25
Fig. 8 El Syrinx (caja de voz del ave) contra la laringe (la caja de voz del humano) (Original en colores). [64]
Debido a que el syrinx se extiende a lo largo de dos tubos bronquiales separados, cada uno
equipado con membranas productoras de sonido y conexiones neuronales separadas, los pájaros
son capaces de producir dos sonidos separados al mismo tiempo. Los pájaros cantores son
capaces inclusive de cantar con un lado de su syrinx mientras que toman pequeñas y rápidas
respiraciones a través del otro lado durante las pausas de las canciones.
La modulación inigualable y variedad del canto de las aves se ha ligado con la compleja
musculatura del syrinx, que dependiendo de la especie puede tener hasta 12 pares de pequeños
músculos que controlan la tensión de las 2 o 4 membranas del syrinx. Las cigüeñas, los buitres
del nuevo mundo y otras especies que no son capaces de utilizar sus músculos syringeales están
extremadamente limitadas en el rango de vocalizaciones que pueden hacer. La complejidad de los
músculos syringeales es una característica importante que distingue a las dos principales sub-
órdenes, los oscinos y los suboscinos, dentro del orden de los Passeriformes, los paserinos o
pájaros cantores (la palabra “oscino” se deriva del Latín canere, que significa cantar). Los
suboscinos son similares a los no-paserinos en que tienen una musculatura syringeal menos
compleja que los pájaros cantores oscinos.
Sin embargo, la complejidad de las canciones de las distintas especies no está

completamente relacionada con la complejidad del syrinx. Algunas familias de oscinos, tal como
la Corvidae (de urracas y cuervos), no son conocidas por ser grandes cantantes a pesar de sus
complejos syrinx. No obstante, los córvidos pueden producir una impresionante variedad de
sonidos, aún cuando muchos de ellos no son musicales para el oído humano.
Los oscinos y suboscinos difieren de otras formas, por ejemplo, los oscinos generalmente
necesitan aprender sus canciones, mientras que en los suboscinos las canciones son innatas.
Posiblemente, el aspecto más interesante del sistema nervioso central de las aves es su rol en el
control del canto. Mientras la mayoría de los pájaros son capaces de vocalizar, la canción es una
actividad compleja que frecuentemente debe ser aprendida por los pájaros jóvenes, especialmente
en los paserinos oscinos. Formas de vocalizaciones aprendidas también ocurren en pericos y
colibríes, los pericos son capaces inclusive de imitar el habla humana.
El aprendizaje implica que la actividad cerebral debe ser compleja en el control de la

canción. Este control es asociado con dos “centros de control de canciones” en el cerebro de las
26
aves. Si las ligas entre estos centros y el syrinx son interrumpidas, un ave es incapaz de producir
una canción normal [58].
2.2.2 COMUNICACIÓN DE AVES
2.2.2 Comunicación de aves

Las aves tienen muchos comportamientos que se asume son predominantemente para el
propósito de la comunicación o señalización. Los ecologistas estudiosos del mismo definen una
“señal” como un comportamiento que ha evolucionado para alterar el comportamiento del
receptor en forma que beneficie al remitente del mismo. Una “exposición” es una señal
ritualizada que tiene como propósito transmitir un determinado mensaje.
Los pájaros se comunican para satisfacer distintas necesidades informativas, como por
ejemplo, los machos para hacer sentir su valor como parejas a las hembras, las presas para hacer
saber a sus depredadores que ya los detectaron y que por lo tanto lo más probable es que logren
escapar, los individuos para conservar su territorio señalizando a otros su dominancia sobre él,
dentro de las parvadas para indicar hacia donde van o si hay alguna situación de peligro.
En la comunicación pasiva encontramos los patrones de plumaje, que pueden indicar por
ejemplo, la edad y el sexo de un ave. Cuando los patrones de plumaje tienen una forma o color
llamativos, pueden ser lo más efectivo para la señalización, como por ejemplo cuando tienen
patrones geométricos, manchas de color aisladas, patrones repetidos, etc. Ligeras diferencias de
pájaro a pájaro en el patrón de plumaje pueden ayudar también en el reconocimiento visual de
individuos. La apariencia del plumaje y la forma en que se está presentando forman en conjunto
la “señal”.
Un elemento clave de muchos comportamientos de exposición es el movimiento o

postura. La mayoría de estos movimientos de exposición son innatos, altamente estereotipados y
muy distintivos, al grado que los ornitólogos han llegado a utilizarlos para planear relaciones
entre las especies, bajo la suposición de que las especies con exposiciones similares están
cercanamente relacionadas.
Otro tipo de exposiciones son aquellas que utilizan sonido e involucran tanto a la voz
como a sonidos no vocales para la comunicación. Las canciones son generalmente vocalizaciones
largas y complejas, producidas de manera espontánea por los machos. En algunas pocas especies,
las hembras también cantan y en algunas de ellas inclusive forman duetos. Las canciones
producidas por hembras suelen ser más sencillas que las producidas por machos. La mayoría de
las especies canta solamente en ciertas épocas del año. Las llamadas de aves son por lo general
cortas y simples, pero en ocasiones pueden llegar a ser complejas y ser confundidas con
canciones simples, especialmente cuando están conectadas una serie de llamadas. Las llamadas
normalmente ocurren en un contexto específico y tienen una determinada función; son
producidas por ambos sexos a lo largo de todo el año. Las canciones y llamadas en las
exposiciones vocales tienen sus raíces en notas de llamadas, pero dentro de los paserinos oscinos
han alcanzado un extraordinario nivel de desarrollo. Las llamadas se definen como
vocalizaciones cortas y estereotipadas que son innatas, mientras que las canciones son más
complejas y frecuentemente deben ser aprendidas. Los pájaros pueden tener una docena o más de
27
distintas categorías de llamada, que utilizarían en circunstancias ecológicas específicas: las

llamadas de alarma significan peligro, las llamadas de contacto se utilizan para localizar a otros
individuos, las llamadas de vuelo mantienen a la parvada junta, etc. Algunas aves tienen más de
una llamada para una categoría y algunas otras utilizan llamadas muy similares para expresar
significados totalmente distintos.
Los paserinos oscinos frecuentemente aprenden a reconocer las vocalizaciones de cada

individuo de sus vecinos territoriales. Las aves utilizan distintas características para reconocer las
canciones de otros miembros de su especie, como pueden ser el tono y el patrón, el número de
sílabas repetidas en una canción, etc. Estos datos provienen de suposiciones hechas por los
ornitólogos a partir de la observación. Asimismo, es muy común que no todas las aves de una
especie suenen igual, por ejemplo, las aves de una misma especie pueden sonar diferente si
pertenecen a lugares geográficamente muy distantes uno de otro. Este tipo de variaciones ocurren
también en una escala geográfica pequeña, un ejemplo de esto es que en muchas especies, los
machos que tienen territorios cercanos unos de otros adoptan las canciones de su vecino y si ese
conjunto de canciones sobrevive en el territorio por un largo tiempo, se dice que los pájaros
tienen un “dialecto” distinto y una “vecindad de canciones” particular. El dialecto se convierte en
una característica cultural que es transmitida a través de las generaciones de machos de una
determinada área. Un ave cuyo territorio queda en la frontera de dos dialectos puede convertirse
en “bilingüe”, es decir, ser capaz de cantar un tipo de canción de ambos dialectos.
Las canciones de las aves se ven afectadas por distintos factores. En el caso de aves de
matorrales densos éstas tienden a tener cantos de alto volumen y baja frecuencia, mientras que las
aves que viven en ambientes con un sonido ambiental de baja frecuencia tal como el de los rios y
cascadas utilizan cantos fuertes y tañidos para poder ser escuchados. Las canciones complejas y
zumbantes son en mayor medida utilizadas por aves que viven en las praderas, donde las
vocalizaciones simples y sostenidas tienden a ser distorsionadas por el viendo y los cambios en la
temperatura del aire [58].
2.2.3 ETAPAS DE DESARROLLO DE LA CANCIÓN
2.2.3 Etapas de desarrollo de la canción

El desarrollo normal de la canción se lleva a cabo a partir de una serie de etapas. En la
primera etapa, el macho joven memoriza las canciones de uno o más pájaros adultos. En muchas
especies, los machos son más sensibles a memorizar canciones en los primeros meses de vida, la
llamada “fase sensitiva”. La producción vocal inicia durante o poco después de la fase sensitiva
cuando el macho comienza a cantar una vocalización no estructurada y frecuentemente
incoherente y de bajo volumen llamada sub-canción. La sub-canción ha sido comparada con el
balbuceo en bebés humanos. Las aves por lo general cantan sub-canciones a lo largo de su primer
otoño e invierno. Conforme los días del invierno van terminando e iniciando los primeros de la
primavera, la sub-canción se va convirtiendo en la canción plástica, en la cual las primeras
evidencias de imitaciones a los tutores aparecen en la canción del macho. En la canción plástica,
las imitaciones están frecuentemente incompletas, o son híbridos compuestos de partes de
canciones de los diferentes tutores. También puede ocurrir la “sobreproducción”, es decir, cantar
más imitaciones de las que aparecerán al final en su canción cristalizada. Todos estos casos
podemos apreciarlos en el espectrograma de la Figura 9, donde un ave joven imita a tres tutores.
28
Poco más de un mes después, el ave joven aparece cantando su única canción cristalizada
en el espectrograma de la Figura 10, donde la primera canción es una reproducción de la canción
que el ave ha cristalizado y la segunda canción es su respuesta con su interpretación de la canción
correspondiente, 3 segundos más tarde. Ha dejado de cantar sus imitaciones de los tutores 2 y 3, y
mantendrá su imitación del tutor 1 como su canción cristalizada. Este es un ejemplo de desgaste
selectivo de canciones del repertorio de canciones plásticas sobre-producido, guiado por escuchar
las canciones de otro pájaro. Esta pérdida selectiva de canciones puede llevar a los dialectos
vocales, en los cuales los machos de la vecindad cantan canciones muy similares que difieren de
las canciones en otros lugares [50].
Los espectrogramas son utilizados en la ornitología para identificar los sonidos y analizar
los cantos de las aves. Son el resultado de calcular el espectro de frecuencias en ventanas de una
señal compuesta, una gráfica bidimensional de la energía del contenido de la frecuencia de una
señal conforme va cambiando a través del tiempo.
Fig. 9 Espectrograma de las canciones originales de los tutores y de las canciones plásticas del ave joven [50]
Fig. 10 Espectrograma de la canción original del tutor y de la canción cristalizada del ave joven [50]
En el trabajo de Okanoya [52] se comparó la sintaxis de las canciones de machos de la

especie Isabelita o Gorrión del Japón domesticados durante 240 años en Japón contra aquella de
los machos silvestres en el sureste de Asia. En el caso de las aves domesticadas se encontró que
tienen canciones con sintaxis mucho más complejas de las de las aves silvestres. Se sabe que el
cambio en el orden de las notas de una canción no altera el significado de la misma (como podría
29
ser en el caso de los humanos, donde el cambio del orden de las palabras si altera el significado
de la oración), sin embargo, a través del estudio realizado en dicho trabajo se comprobó que las
hembras prefieren a los machos de canciones complejas que a aquellos de canciones sencillas (se
tomaron muestras de estradiol sérico y se observó la cantidad material para hacer nidos que se
transportó para realizar esta afirmación). De acuerdo a Okanoya [52], las canciones de aves se
dividen en dos tipos, el primer tipo es cuando nota en una canción es seguida por otra nota en la
misma canción de forma determinista, o el orden de las notas de la canción es fijo en cada
canción de un ave con repertorios múltiples, esto se identifica como canciones lineales. El
segundo tipo de canciones es cuando se introducen algunas variaciones en el orden de las notas
de las canciones, a este tipo de canciones se les llama no deterministas. En el caso de las
Isabelitas o Gorriones del Japón, Okanoya [52] identificó que sus canciones son caracterizadas
por una sintaxis de estados finitos, es decir, que tienen una forma de sintaxis simple en donde un
número finito de estados se encuentran interconectados por medio de flechas y donde se produce
una cadena de letras cuando ocurren las transiciones. En estas aves, de 2 a 5 notas se agrupan
juntas y cada uno de esos bloques se emite en una transición de estado determinada de forma que
el patrón de producción de bloques sigue una sintaxis de estado finito. Una sintaxis de estado
finito puede ser expresada como un modelo de Markov de transiciones nota a nota, en el cual las
probabilidades de transición de ciertas combinaciones de notas son altas, mientras que entre
algunas otras notas son bajas. Estudios gramaticales de este tipo se están realizando en el ITESM
CEM para las especies que nos ocupan de manera paralela a este trabajo dentro del proyecto del
Dr. Taylor [64] para UCLA, los resultados de dichos estudios y su importancia en la clasificación
de estas especies de aves los podremos ver en un futuro cercano.
30
3 MODELO PROPUESTO
3 Modelo propuesto
En los intentos por automatizar el análisis de la vocalización de las aves, el filtrado por
especies y el reconocimiento de individuos realizados hasta la fecha se han explorado distintas
técnicas. Éstas incluyen en orden histórico aproximadamente al análisis estadístico multivariable
de las propiedades de las canciones [16], correlaciones cruzadas del espectro [16, 43], redes
neuronales artificiales con y sin retropropagación [4, 43], dynamic time warping [3, 38] y mapas
auto-organizables de Kohonen [59]. Más recientemente, estos esfuerzos se han beneficiado de la
explosión de conocimiento sobre el reconocimiento del habla humana, con los Modelos Ocultos
de Markov [38, 69] y el modelado sinusoidal de sílabas [30]. No es ninguna sorpresa que de
acuerdo a la bibliografía estudiada, los últimos métodos funcionen mucho mejor que los
anteriores cuando los ambientes son ruidosos. Es de esperarse que una mayor adopción de los
métodos de la lingüística computacional y el reconocimiento del habla humana contribuyan al
avance en esta área.
El conjunto de datos que se utilizará está conformado por muestras de cantos de las
siguientes tres especies:
• Taraba major – Batará Grande

• Cercomacra tyrannina – Hormiguero Tirano
• Thamnophilus doliatus – Batará Barreteado
Las muestras de cada especie son procesadas para extraer las características de la señal, 71
atributos, que representan en su conjunto el total de la información contenida en el canto de un
ave. Los conjuntos de datos resultantes serán unidos en un solo conjunto, divididos en conjuntos
de entrenamiento y de prueba, sobre los cuales serán ejecutados los algoritmos a estudiar.
Dentro del estudio de los algoritmos que podrían resolver este problema, consideramos el
algoritmo que como ya se ha mencionado ha proporcionado recientemente los mejores resultados
en el reconocimiento de voz en humanos, los Modelos Ocultos de Markov [22]. Adicionalmente,
se comprobó la eficiencia de los algoritmos de Minería de Datos ID3 [72] con Cuantización [42]
y opcionalmente con Naive-Bayes [72] y J4.8 [72] en combinación opcional con Naive-Bayes
[72], Naive-Bayes [72] por si solo y Reglas de Asociación [6], así como las Redes Neuronales de
Retropropagación del Error con Gradiente Descendiente y Momento y con Levenberg-Marquardt
31
[56, 23] y Funciones de Base Radial [56, 23]. Dentro del trabajo a futuro se tiene contemplada
tanto la utilización de SVM, ya que se sabe que en ocasiones llegan a ser más eficientes que las
RBF, como la utilización de DTW, cuya eficiencia con patrones bien seleccionados es por lo
general muy satisfactoria.
Un punto importante desarrollado dentro de este trabajo es la combinación de los

algoritmos ID3 [72] (con datos cuantizados [42]) y J4.8 [72] con Naive-Bayes [72] con el
objetivo de obtener un conjunto de reglas que nos permitan una clasificación eficiente y su
consecuente reducción de dimensionalidad y procesamiento sin pérdida de eficiencia significativa
en la predicción, misma que hasta donde sabemos no ha sido explorada en la minería de datos. Lo
más cercano al enfoque que a dicho respecto se presenta en este trabajo es la utilización de los
mismos algoritmos de Minería de Datos pero en forma paralela e independiente y la presentación
de sus respectivos resultados [5]. El presente estudio no se realizó con datos en tiempo real en
campo, sin embargo en un futuro cercano, cerca de la mitad del proyecto de UCLA [64], se
espera ejecutar estos algoritmos en tiempo real sobre arreglos de sensores inalámbricos en
campo.
3.1 ADQUISICIÓN Y PRE-PROCESAMIENTO DE DATOS

3.1 Adquisición y pre-procesamiento de datos
3.1.1 CANTOS DE AVES

3.1.1 Cantos de aves
Se sabe que las canciones de aves son, por lo general, más musicales y complejas que las
llamadas. Son producidas comúnmente por los machos y están asociadas con la reproducción.
“Las llamadas tienden a ser más cortas, simples y a ser producidas por ambos sexos a través del
año. A diferencia de las canciones, las llamadas son menos espontáneas y por lo general ocurren
en contextos particulares” [14]. Las aves por lo general utilizan las llamadas para comunicar
cosas a otras aves y entre miembros de una parvada o familia.
3.1.2 PRE-PROCESAMIENTO DE LA SEÑAL

3.1.2 Pre-procesamiento de la señal
El pre-procesamiento de la señal es un proceso con gran influencia sobre los resultados de
los algoritmos de clasificación. Se sabe que las grabaciones de campo pueden ser
extremadamente ruidosas, especialmente cuando se graban en selvas tropicales. En estos tipos de
hábitats, la vegetación es muy densa, causando reverberaciones en el sonido. También se debe
considerar que existen muchas especies de aves distintas interactuando, y una gran cantidad de
otros animales, produciendo sonidos discordantes. El clima es también un factor crucial, la lluvia
y el viento pueden causar interferencia significativa en la mayoría de las frecuencias acústicas.
Todos estos factores pueden limitar la calidad del sonido de las grabaciones, haciendo del
reconocimiento automático de especies un proceso más complicado y que requiere la
introducción de diferentes técnicas de filtrado para obtener resultados adecuados.
32
El filtrado es un proceso a través del cual algunas frecuencias de una señal acústica son
eliminadas para prevenir su interferencia en la señal que se está estudiando [70]. El filtrado se
puede llevar a cabo a nivel de hardware o a nivel de software. La mayoría de las veces, es fácil
eliminar sonidos no deseados de las grabaciones utilizando filtros de software, ya que estos
ocurren a frecuencias mayores o menores que el canto de las aves que estamos estudiando.
Un filtro pasa-altos, es aquel que permite el paso a todas las frecuencias que queden por
encima de su umbral, mientras que un filtro pasa-bajos es aquel que permite el paso a todas
aquellas frecuencias que se encuentren por debajo de su umbral. Cuando se utilizan combinados y
en serie los filtros pasa-bajos junto con los pasa-altos como en este problema, se dice que se
construye un filtro pasa-banda, donde habrá un rango de frecuencias que ambos dejarán pasar
(idealmente para este problema, el rango en que canta cada una de las especies de aves
estudiadas).
3.2 EXTRACCIÓN DE CARACTERÍSTICAS

3.2 Extracción de características
El software Sound Ruler nos permite ver el oscilograma y espectrograma de la señal. En
el oscilograma podemos localizar cada llamada dentro de una grabación y cada pulso dentro de
una llamada. El proceso llevado a cabo por Sound Ruler para la extracción de características es
casi automático, sin embargo, para que esto funcione se debe indicar manualmente el inicio y el
final de la primera llamada, así como el inicio de la segunda llamada, además de que se requiere
configurar manualmente los mejores ajustes para encontrar las llamadas específicas de cada
especie (los valores óptimos para cada especie son encontrados mediante ensayos de prueba y
error). Los ajustes que deben ser configurados son: suavización, resolución, pico de amplitud +/-
determinada proporción, espacio máximo de silencio entre pulsos en milisegundos y el tiempo
extra desplegado alrededor de la llamada reconocida. Una vez que este proceso se ha hecho,
comienza la fase de reconocimiento automático. Aún cuando mediante el ajuste de dichos
parámetros el reconocimiento es bastante apropiado, este software aún comete algunos errores de
reconocimiento que deben ser corregidos manualmente. Es importante mencionar que estos
ajustes deben ser configurados individualmente para cada especie, debido a que Sound Ruler fue
diseñado originalmente para analizar llamadas de ranas.
Una vez que cada llamada es reconocida correctamente dentro de una grabación, debemos
analizar que cada pulso dentro de cada llamada este siendo analizado también correctamente.
Para hacer esto, debemos ir a la lista de llamadas reconocidas, seleccionar la llamada que
queremos analizar y verificar el oscilograma desplegado para esa llamada, en caso de que haya
uno o más pulsos faltantes en el reconocimiento, debemos añadirlos manualmente.
Los resultados del análisis pulso por pulso son guardados como archivos separados por
comas o “csv” (por sus siglas en inglés). Estos archivos contienen los 71 atributos presentes en
cada pulso de las muestras procesadas, representando en su conjunto el total de la información
contenida en un sonido, en este caso el canto de un ave.
33
3.2.1 DEFINICIONES
3.2.1 Definiciones
Para realizar la descripción de los parámetros que se utilizaron en este trabajo es necesario
definir algunos términos físicos y matemáticos que ayudarán a comprender los términos extraídos
del programa Sound Ruler [60].
El sonido es una clase de energía mecánica generada a partir de la vibración de un

elemento flexible, y que se transporta a través de un medio mecánico, como es el aire (medio
gaseoso), el agua (medio líquido) o la madera (medio sólido).
Definición 1. Periodo. Es el número de revoluciones n que una partícula realiza en un intervalo

de tiempo, es decir, la cantidad de veces que parte de un punto inicial, da un giro, y regresa al
mismo punto en un intervalo de tiempo definido. El periodo está expresado en segundos.
Definición 2. Frecuencia. Se define como el inverso del periodo, y está expresado en Hertz (Hz):
1
f = (1)
P
Definición 3. Límite de banda. Es la frecuencia máxima de un sonido en un intervalo de tiempo

dado f bl .
Sin pérdida de generalidad una señal analógica puede estar representada como x ( t ) ,
entendiéndose con esto que, dicha señal se puede representar matemáticamente como una
función, y en donde t es la variable independiente de dicha función.
!
Definición 4. Sea x ( t ) una señal con un límite de banda de f bl Hz . Entonces la frecuencia f ny ,
definida como 2 f bl = f ny Hz , se le conoce como frecuencia de muestreo de Nyquist de la señal
x ( t ) . [17]
!
Para digitalizar el sonido es necesario considerar el teorema de muestreo de Nyquist, el
cual se menciona a continuación:
!
Teorema 1. Teorema de Muestreo de Nyquist: Sea x ( t ) una señal con una frecuencia de Nyquist
de f ny Hz , entonces esta señal puede ser únicamente reconstruida a partir de sus valores de
muestreo si la frecuencia de muestreo es mayor que la frecuencia de Nyquist de la señal. Esto es,
la frecuencia de muestreo satisface f ny < !
fs
Lo que nos quiere dar a entender el teorema de Nyquist es que para reconstruir cualquier
señal de sonido, que al final de cuentas es una señal analógica, se puede expresar digitalmente,
por lo que una señal expresada en el tiempo t1 , x ( t1 ) quedaría expresada ahora como x[n] , donde
n es la n-ésima muestra de la señal x .
Definición 5. Señal periódica. Una señal x ( t ) es periódica si existe una constante T0 >0 tal que:
!
!
34
( )
x t + T =x ( t ) Para toda t
0
(2)
Por medio de la teoría de la aproximación, cualquier señal periódica puede estar

representada por medio de una serie de Fourier, esto es, una suma de ondas senoidales y
!
cosenoidales de diferente frecuencia y con diferente amplitud. De tal manera que a partir de
cualquier señal periódica (por ejemplo una señal de sonido), se puede realizar un análisis y
representar esa señal (analógica o digital) por medio de una serie de ondas sinusoidales (una onda
cosenoidal se obtiene a partir de una onda senoidal agregándole una fase de 90 grados).
Expresado matemáticamente se tiene:
# # 2$
x(t ) = a + " a cos(mw t ) + " sin( mw t ), w =
0 m 0 0 0 T
m =1 m =1 0
1 t0 + T 0
a = ! x(t )dt
0 T
0 t0
(3)
2 t0 + T 0
a = ! x(t ) cos(mw0 t )dt m = 1,2,3,...
m T
0 t0
2 t0 + T 0
b = ! x(t ) sin( mw0 t )dt m = 1,2,3,...
m T
0 t0
Donde w0 se le conoce como la frecuencia fundamental.
De manera alternativa, las series de Fourier se pueden representar por medio de la expresión:
1 &
x(t ) = + % cos(m't + ( ) m = impar
2 m =1 m
donde (4)
#$ ' , m = 3,7,11,...
( ="
m ! 0, m = 1,5,9,...
Donde θm son los coeficientes de fase y Am son los coeficientes de amplitud. [53]
Para cuestiones prácticas, la sumatoria normalmente se restringe solo a algunos términos,

sacrificando precisión. Existen diferentes metodologías que permiten encontrar cada uno de los
coeficientes y constantes, los cuales implican un análisis normalmente extenso para señales
definidas en el tiempo o analógicas x ( t ) . Para representar una señal periódica digital por medio
de series de Fourier, se utiliza la transformada rápida de Fourier o FFT en inglés. A partir de este
algoritmo es posible obtener el espectro de frecuencias. El espectro de frecuencias es una gráfica
en donde se pueden observar las diferentes frecuencias que conforman un determinado archivo de
sonido. !
35
Definición 6. Valor cuadrático medio. El valor cuadrático medio de una variable x ( t ) se define
como:
1 T /2 2
% 2 = l lim ! x (t )dt ! (5)
x T $ #T "T /2
La raíz cuadrada positiva del valor cuadrático medio es conocida como el valor de la raíz
cuadrática media, o valor RMS en inglés.
Definición 7. Decibel. El decibel (dB) se define como:
& salida de potencia #

xdB = 10 log$$ !! (6)
% entrada de potencia "
Donde el logaritmo es base 10 (ver ref. 10). Muchas veces la salida de potencia de un
sistema se puede interpretar como la intensidad sonora, y la intensidad de potencia se interpreta
como la intensidad de referencia.
De acuerdo con Kinsler [37] es costumbre describir los niveles sonoros a las presiones e
intensidades conocidas. Una razón para esto es la gama tan amplia de presiones e intensidades
sonoras que se encuentran en un medio acústico, las intensidades acústicas van desde
W W
aproximadamente 10 !12 2 a 10 2 . El uso de escalas logarítmicas comprime la gama de
m m
números requeridos para describir este gran intervalo de intensidades. Una segunda razón es que
las personas juzgan la sonoridad relativa de dos sonidos por la razón de sus intensidades por
medio de un comportamiento logarítmico.
La frecuencia natural más baja de un sistema vibrante se llama la fundamental, y las

frecuencias más altas sobretonos. Los sobretonos para una cuerda que se encuentra sujeta a
soportes rígidos se conocen como armónicos. Para una cuerda rígida cuya longitud es L , y si se
le hace vibrar, se observa que solo puede vibrar a una cierta frecuencia definida como:
w nc
f = n = (7)
n 2! 2 L
w
Donde c es una constante igual a , donde k es el número de onda y n =1,2,3,...
k
Precisamente, para n=1 tendremos la frecuencia del primer armónico de la cuerda; para n=2
tendremos la segunda armónica, etcétera.
Cada archivo de sonido digitalizado “wav” contiene principalmente dos parámetros:

tiempo y amplitud, es decir, el archivo está expresado en el dominio del tiempo. A partir del
algoritmo de la Transformada Rápida de Fourier [42] se puede tomar la información en el
dominio del tiempo y pasarla al dominio de la frecuencia. De esta manera, se obtiene el espectro
de frecuencias, la información que se requiere para el presente trabajo.
36
Sintetizando todos los conceptos anteriores, tenemos que: el sonido es una onda de
presión, en la cual las moléculas del medio (aire o agua) se mueven diminutas distancias para
crear presiones altas y bajas rápidamente alternantes. Estos cambios en la presión se traducen con
un micrófono en cambios en el voltaje eléctrico. La amplitud de los cambios en la presión
determina la intensidad (o sensación de volumen) del sonido. La tasa de los cambios (ciclos por
segundo o Hertz, abreviado Hz) es la frecuencia del sonido. La frecuencia del sonido determina
nuestra sensación de la nota del mismo.
Un sonido que consiste de un cambio sinusoidal de presión a una frecuencia constante es

un tono puro. Un silbido claro es un ejemplo de ello. La frecuencia de un tono cambia
frecuentemente (llamado modulación de la frecuencia). Muchas canciones de aves consisten en
tonos puros que cambian rápidamente su frecuencia. En su mayor parte no estamos concientes de
los complicados cambios en la frecuencia de las canciones de las aves, pero un espectrógrafo
puede desplegar esos cambios para que podamos estudiarlos cuando nos sea conveniente.
Un espectrógrafo es un instrumento o una pieza de software, en nuestro caso Sound Ruler,

que despliega la frecuencia del sonido como una función del tiempo. Esta visualización es
llamada espectrograma o monograma. Un silbido puro aparece así como una línea horizontal en
una frecuencia particular (la cual, como recordamos determina nuestra sensación de la nota).
Muchas canciones de aves aparecen como una serie de líneas que se extienden hacia arriba y/o
hacia abajo, en ocasiones en intervalos de tiempo extremadamente cortos. Sin embargo, una
inspección cuidadosa del espectrograma revela que solamente una frecuencia está presente en un
instante cualquiera.
Muchos sonidos no contienen solamente una frecuencia a la vez. Es bastante difícil

producir un sonido así, un ejemplo de esto es el sonido blanco (todas las frecuencias presentes al
mismo tiempo).
Cualquier onda puede ser descompuesta en una serie de componentes sinusoidales de

frecuencia, cada uno con amplitudes apropiadas. Este proceso matemático es llamado
Transformada de Fourier. Un teorema fundamental dice que una onda puede ser convertida en un
conjunto único de componentes de frecuencia y viceversa. Un espectrógrafo hace esta
transformación por nosotros, descompone una onda compleja en sus componentes de frecuencia
simultáneos. Un espectrógrafo lleva a cabo esta operación de forma repetida, en pequeños
intervalos sucesivos de tiempo. De esta manera, un espectrograma despliega los componentes de
la frecuencia presentes en cada pequeño intervalo de tiempo. La duración del intervalo de tiempo
para el análisis es llamado periodo de análisis.
Si los pulsos de sonido se encuentran separados por intervalos más largos que el periodo
de análisis, el espectrograma despliega esos pulsos separados por espacios (periodos de análisis
sin sonido). En contraste, si los pulsos de sonido se encuentran separados por intervalos más
cortos que el periodo de análisis, entonces el espectrograma despliega bandas horizontales
continuas, los componentes de la frecuencia de un sonido pulsado. Un espectrógrafo
normalmente nos permite escoger la duración del periodo de análisis, de forma que podamos
cambiar la apariencia de los pulsos de sonido.
Nuestros oídos llevan a cabo una operación similar en el análisis de componentes de

frecuencia del sonido. La cóclea es un mecanismo mecánico para separar los componentes de
37
frecuencia de los sonidos. Estos componentes de frecuencia determinan nuestras sensaciones de

las notas. La cóclea, como el espectrógrafo, analiza el sonido en pequeños intervalos de tiempo,
alrededor de 1/20 a 1/50 de segundo (0.02 a 0.05 segundos o 20 a 50 milisegundos). [31]
Un sonido que consiste de pulsos separados por intervalos de más de 20 a 50

milisegundos se percibe como una serie de pulsos distintos. En contraste, un sonido que
conformado de pulsos repetidos más frecuentemente que cada 20 milisegundos es percibido
como un sonido continuo con un timbre específico determinado por sus componentes de
frecuencia.
Se puede pensar en un espectrograma como el resultado de los siguientes pasos:
1. La computadora digitaliza la onda continua de un sonido en una serie de números

(44100 números por segundo) que indican la amplitud de la onda en momentos en
el tiempo igualmente espaciados.
2. El software (Sound Ruler, Raven o Adobe Audition en este caso) calcula la
Transformada de Fourier de esta onda (el algoritmo exacto es llamado
Transformada Rápida de Fourier o FFT). Una FFT convierte la serie de números
representando a la onda en una serie de números representando los componentes
de la frecuencia.
3. El software calcula repetidamente las FFTs en breves intervalos sucesivos de
tiempo. La duración de estos intervalos, como se explicó anteriormente, es
llamada el periodo de análisis y se fija escogiendo la longitud de la FFT. La
longitud de la FFT (también llamada tamaño de la ventana) es simplemente el
número de puntos convertidos en componentes de la frecuencia. Mientras más
puntos, mayor es el periodo de análisis. [31, 17]
Los coeficientes que se pueden obtener de Sound Ruler [60] a partir del archivo de sonido
se dividen en: archivo, sección y llamada. Estos coeficientes desde el punto de vista auditivo
están divididos en tres categorías: amplitud, donde se determina el pico máximo de un
determinado segmento de la señal y los valores a diferentes intervalos de tiempo de este pico
máximo; energía, determinados a partir del valor de la raíz cuadrática media de la señal;
frecuencia, donde se obtienen las frecuencias fundamentales, armónicas y potencia de señal
dadas en Hertz.
El usuario de Sound Ruler [60] puede seleccionar un determinado intervalo del archivo de
sonido indicando así que es una llamada y a partir de este intervalo se determina el pico máximo
y otros valores máximos de amplitud expresados en un determinado porcentaje a partir de este
punto máximo.
3.2.2 CARACTERÍSTICAS EXTRAIDAS – INTEPRETACIÓN Y POSIBLE

IMPORTANCIA
3.2.2 Características extraídas – interpretación y posible importancia
En el Apéndice A se pueden observar dos tablas de características o atributos que permite
obtener Sound Ruler y sus significados detallados así como su importancia para la clasificación
de especies de aves. Cada una de las tablas presenta los datos con un formato distinto, la primera
tabla presenta los datos sin procesamiento, medidos directamente de la señal y sin ningún tipo de
análisis previo. La segunda tabla presenta los datos en formato "Summary" o resumen, con datos
38
obtenidos mediante un pre-procesamiento de la información original o "Raw". Ambos formatos

son producidos en forma automática por el programa Sound Ruler [60]
Fig. 11 Software Raven (Original en colores). [54]
Fig. 12 Software Sound Ruler (Original en colores). [60]

39
3.3 VALIDACIÓN CRUZADA (“CROSSVALIDATION”)

3.3 Validación cruzada (“Crossvalidation”)
Para la realización de validación cruzada se utilizó el “holdout method”, que consiste en

partir una base de datos en un conjunto de entrenamiento y otro de prueba. Una vez realizadas las
particiones, se debe garantizar su estratificación. La estratificación es el proceso mediante el cual
se asegura que la división de los conjuntos de datos se hizo de forma “equitativa”, manteniendo
una misma proporción de instancias de cada clase en los conjuntos de entrenamiento y de prueba.
3.4 MINERÍA DE DATOS

3.4 Minería de Datos
Cuando se trabaja con cantos de aves, desafortunadamente tenemos que manejar

información que está representada como datos crudos o raw. Esta información puede contener
registros valiosos que pueden estar escondidos a simple vista. Debemos aplicar distintas
herramientas computacionales para extraer la información que requerimos a partir de datos
crudos. Uno de los enfoques que se tomaron fue el de aplicar distintas técnicas de Minería de
Datos para obtener la información más relevante a partir de la información cruda. “La minería de
datos es la extracción de información implícita, previamente ignorada y potencialmente útil a
partir de datos” [72]. Una vez que la información importante es extraída, podemos utilizar
solamente la información importante para alimentar a los algoritmos de clasificación en los nodos
de los arreglos de sensores para reconocer a las diferentes especies de aves basados en su
producción de llamadas y canciones.
Durante el desarrollo de este trabajo, se estudiaron distintos algoritmos de Minería de

Datos y algunos de ellos fueron considerados y aplicados a los datos obtenidos de las muestras de
cantos de aves. Los algoritmos seleccionados fueron los árboles de decisión ID3 y J4.8, el
clasificador probabilística Naive-Bayes, cuantización de vectores y reglas de asociación.
La razón de la selección de los árboles de decisión es que estos algoritmos nos permiten al
mismo tiempo reducir la dimensionalidad la base, eliminar la redundancia en los datos del
conjunto y obtener las reglas que clasifican correctamente a las instancias de la misma. Esto
sucede porque al generarse el árbol de decisión, en cada nodo que se genera, se va evaluando
mediante la entropía la utilidad en la clasificación de cada atributo de la base y si un determinado
atributo no aporta nada valioso a la clasificación, jamás es elegido como nodo. Así, sobreviven
como nodos del árbol solamente aquellos atributos que nos sirven para diferenciar entre las clases
y el árbol en si mismo representa un conjunto de reglas que nos permiten clasificar las instancias
y que pueden implementarse fácilmente en cualquier dispositivo, como podría ser un arreglo de
sensores. Los árboles de decisión ID3 nos sirven para clasificar atributos nominales, mientras que
los árboles de decisión J4.8 nos permiten clasificar atributos numéricos. [72]
El algoritmo Naive-Bayes fue elegido por su habilidad para indicar el porcentaje de

pertenencia de una instancia clasificada a cada una de las posibles clases y por su afinidad con los
conjuntos de datos no redundantes e independientes, tales como el que asumimos se produce
40
después de la reducción con la ejecución de los algoritmos de árboles de decisión. Asimismo,

Naive-Bayes fue seleccionado ya que su eficiencia en la literatura ha probado ser muy cercana a
la de los árboles de decisión y las redes neuronales, aún a pesar de asumir independencia
estadística entre los datos. Esta simplicidad le ayuda a tener una gran velocidad para conjuntos de
datos de gran tamaño, con una alta eficiencia a pesar de lo simple de sus suposiciones. [72]
La cuantización vectorial fue elegida para convertir nuestro conjunto de datos original de
datos numéricos a datos nominales, lo cual es un requerimiento para ejecutar los algoritmos ID3
y reglas de asociación. La utilización de esta combinación de algoritmos nos permite comparar la
clasificación del conjunto de datos completos contra la del conjunto de datos reducidos para
seleccionar la mejor y también nos permite poder reducir el poder de procesamiento requerido
para su uso en arreglos de sensores. [56]
Por otra parte, las reglas de asociación fueron elegidas para ver las relaciones naturales
entre los atributos que componen los cantos de las aves. El uso de este algoritmo encuentra
asociaciones interesantes y/o relaciones de correlación entre grandes conjuntos de datos. Las
reglas de asociación nos muestran condiciones de valores de atributos cuya frecuencia esta
correlacionada en un conjunto de datos dado. En el trabajo a futuro, con el uso de este algoritmo
podremos encontrar por ejemplo las dependencias restantes entre los atributos reducidos y
podremos eliminarlas para mejorar la eficiencia del algoritmo de Naive-Bayes. [72]
Naive-Bayes, como mencionamos, supone que existe una independencia máxima entre los
atributos a analizar, por lo que hubo que tomar en consideración hacer algunas modificaciones
para procesar nuestros datos dado que se podía deducir que había dependencia entre ellos, la
razón de esto es que gran parte de los atributos a clasificar fueron obtenidos a partir de la FFT, lo
que nos da cierto número de atributos derivados. Además, si un atributo no existe en algún caso,
o tiene un valor de cero, existe la necesidad de compensarlo para que la probabilidad total no se
invalide a causa de un simple parámetro sin valor.
3.4.1 CUANTIZACIÓN
3.4.1 Cuantización
El algoritmo de Cuantización Vectorial fue implementado porque los algoritmos de ID3 y
de reglas de asociación carecen de soporte para atributos numéricos. La cuantización [56] es un
proceso mediante el cual es posible la conversión de datos numéricos a datos nominales.
El proceso de cuantización calcula dos vectores intermedios, a los cuales para este
ejemplo les daremos los nombres de “partition” y “codebook”. El vector “partition” está
ordenado y contiene los valores mínimos y máximos del vector original más valores intermedios
calculados a partir de la suma de un factor de incremento al valor mínimo del vector y así
sucesivamente hasta alcanzar el valor máximo del vector. El factor de incremento es calculado de
la siguiente forma:
max(vector ) ! min(vector )
FactorDeIncremento = (8)
2bits !1 ! 1
El vector “codebook”está también ordenado e incluye valores desde cero hasta 2bits !1 en
incrementos de 1. El tamaño del vector “partition”es un elemento menor que el tamaño del vector
41
“codebook”. Finalmente, tomamos cada valor del vector original y verificamos en que intervalo
del vector “partition”cae y lo mapeamos con el valor correspondiente del vector “codebook”para
esa posición. La forma más fácil de pasar estos valores cuantizados a valores nominales es crear
un conjunto de caracteres equivalentes cada uno a cada valor del vector “codebook”, de forma
que puedan ser directamente mapeados. Para aclarar este concepto, veamos el siguiente ejemplo,
donde se tiene el siguiente “codebook”para una cuantización a 3 bits: [0, 1, 2, 3, 4, 5, 6, 7] y se
mapea directamente con el siguiente vector de caracteres: [‘0’, ‘1’, ‘2’, ‘3’ ‘4’, ‘5’, ‘6’, ‘7’].
Como podemos ver, las “etiquetas” contenidas en el ultimo vector son equivalentes a los valores
en el vector “codebook”. De esta forma, es posible obtener representaciones nominales a partir de
los valores numéricos para cualquier conjunto de cantidades, haciendo posible correr sobre ellas
algoritmos exclusivos para datos nominales, tales como ID3 o reglas de asociación. En este
problema, se selecciónó experimentalmente cuantizar a 3 bits, 8 valores, porque se encontró que
éste es un valor lo suficientemente alto como para permitir la adecuada interpretación de las
reglas obtenidas mediante los árboles de decisión de la minería de datos, mientras que a su vez es
un valor lo suficientemente bajo como para evitar un incremento innecesario en el poder de
procesamiento requerido para obtener dichas reglas.
En la Figura 13 podemos apreciar un gráfico con un ejemplo paso a paso del proceso de
cuantización reseñado para un determinado vector y su vector cuantizado resultante. En la figura
14, podemos apreciar una gráfica comparativa entre un vector completo de una señal de canto ave
con valores de 0 a 5000 aproximadamente contra un vector con esa misma señal cuantizada con
valores de 0 a 6. Se puede apreciar claramente que la relación entre los valores originales de los
atributos es preservada en el conjunto cuantizado, aun cuando se puede apreciar también un poco
de pérdida de información.
La complejidad temporal de la cuantización es de O(np), donde n es el número de

instancias en el conjunto de entrenamiento o elementos en el vector y p es el número de atributos
de la base (la operación debe repetirse tantas veces como atributos haya en la base). Esta
complejidad deberá sumarse a aquella de los algoritmos que utilizan la cuantización como
requisito previo, es decir, ID3 y Reglas de Asociación. En nuestro caso, se utilizaron 17,762
instancias para el conjunto de prueba, con 71 atributos, lo que indica que la cuantización tiene un
costo de O(17,762 x 71) = O(1’261,102).
Fig. 13 Ejemplo de cuantización sobre cuatro atributos de una muestra de canto [67]
42
Fig. 14 Conversión de datos originales a datos cuantizados (Original en colores). [67]
3.4.2 ID3
3.4.2 ID3
Una vez que se han convertido los conjuntos de datos completos de las especies a datos
cuantizados, se puede proeder a procesar la información con un algoritmo de árboles de decisión.
“Los algoritmos de árboles de decisión utilizan árboles binarios completos que representan las
comparaciones entre los elementos que son realizadas por un algoritmo particular de
ordenamiento que opera sobre una entrada de un tamaño dado.” [72].
ID3 es un algoritmo de árboles de decisión que toma todos los atributos no utilizados y
cuenta su entropía con respecto a las muestras de prueba a ser utilizadas. La entropía se define
como:
Entropía ( p1, p 2,... pn) = ! in = 1 " pi log pi [72] (9)

2
pinst
Donde pi = y la ganancia de información es:
p
Ganancia( P, xP) = Entropía ( P) ! Entropía ( x | P) [72] (10)

43
El algoritmo calcula la clase y la entropía del atributo y calcula la ganancia del sistema.
Posteriormente, compara las entropías muestra y escoge la que proporcione la máxima ganancia
de información, es decir, la menor entropía para que sea el siguiente nodo central. Cuando el
árbol es completado, los nodos resultantes serán los atributos más significativos utilizados para
clasificar las distintas instancias en sus respectivas especies de aves (las hojas de los árboles).
La complejidad temporal del algoritmo ID3 es O(np) para atributos nominales, donde n es
el número de instancias en el conjunto de entrenamiento y p es el número de atributos
predictivos. Esta complejidad, sumada con la de la cuantización realizada previamente, nos da
una complejidad temporal final de O(2np). En nuestro caso, se utilizaron 17,762 instancias para
el conjunto de prueba, con 71 atributos, lo que indica que ID3 tiene un costo de O(2 x 17,762 x
71) = O(2’522,204). [33]
3.4.3 J4.8
3.4.3 J4.8
El algoritmo J4.8 es una extensión del algoritmo ID3. Resuelve algunas deficiencias que
tiene el algoritmo ID3 original. Algunas de las mejoras consisten en que J4.8 evita el sobre-
entrenamiento, utiliza un enfoque de eliminación de sub-árboles con reducción de errores basado
en la consideración de que cada nodo del árbol es un candidato a ser podado reduciendo de esta
forma el error, poda post-regla para encontrar hipótesis de alta precisión y manejo de atributos
numéricos. Las dos mayores ventajas por las que se seleccionó el uso de este algoritmo son el
ahorro de costo computacional (generado por un árbol más pequeño y por lo tanto un conjunto de
atributos más pequeño) y el manejo nativo de atributos numéricos.
La complejidad temporal del algoritmo J4.8 es O(m n log n), donde m es el número de
atributos y n es el número de instancias de entrenamiento. En nuestro caso, se utilizaron 17,762
instancias para el conjunto de prueba, con 71 atributos, lo que indica que J4.8 tiene un costo de
O(71 x 17,762 x log 17,762) = O(5’359,042). [33, 40]
3.4.4 NAIVE-BAYES
3.4.4 Naive-Bayes
Se decidió introducir el uso del algoritmo de Naive-Bayes como un clasificador final
debido a las desventajas que los árboles de decisión plantean. Una de estas desventajas es que son
inestables, pequeñas variaciones en los datos de entrenamiento pueden resultar en diferentes
selecciones de atributos en cada punto de selección dentro del árbol. El efecto puede ser
significativo dado que las selecciones de atributos afectan a todos los sub-árboles descendientes.
Otra desventaja importante de los árboles de decisión es que los árboles creados a partir de
conjuntos de datos numéricos pueden ser muy complejos ya que las particiones de atributos para
datos numéricos son binarias. Es un método estadístico basado en la regla de Bayes que de
manera simplista (“naive”) asume independencia. La regla de Bayes dice que si se tiene una
hipótesis I y una evidencia E, entonces:
Pr[E | H ]Pr[H ]
Pr[H | E ]= (11)
Pr[E ]
44
Los valores numéricos son manejados por este algoritmo asumiendo que tienen una
distribución de probabilidad normal o Gaussiana:
(x # µ)2
#
f ( x)=
1
e 2! 2 (12)
2"!
La media y la desviación estándar son calculadas para cada clase y cada atributo
numérico.
“Sabemos que es únicamente válido multiplicar probabilidades cuando los eventos son
independientes. La suposición de que los atributos son independientes en la vida real es
ciertamente simplista”. [72]
La complejidad temporal del algoritmo Naive-Bayes es O(np), donde n es el número de

instancias en el conjunto de entrenamiento y p es el número de atributos predictivos. En nuestro
caso, se utilizaron 17,762 instancias para el conjunto de prueba, con 71 atributos, lo que indica
que Naive-Bayes tiene un costo de O(17,762 x 71) = O(1’261,102). [33]
3.4.5 REGLAS DE ASOCIACIÓN

3.4.5 Reglas de Asociación
Las reglas de asociación proveen información sobre relaciones entre atributos en la forma
de enunciados “si-entonces”. Estas reglas son calculadas a partir de los datos y a diferencia de las
reglas si-entonces de la lógica, las reglas de asociación son de naturaleza probabilística. Además
del antecedente (la parte “si”) y el consecuente (la parte “entonces”), una regla de asociación
tiene dos números que expresan el grado de incertidumbre de una regla.
A continuación, se detallará cada uno de los aspectos tomados en cuenta para la

evaluación y selección de reglas útiles para este problema.
El soporte es la proporción de instancias para las cuales la regla (Z) predice

correctamente, también se le conoce como cobertura. Matemáticamente se representa así:
soporte(Z ) = P(Z ) (13)
La confianza es la proporción de ejemplos cubiertos por la premisa (X) que también son
cubiertos por el consecuente (Y), es decir la precisión de la regla. Matemáticamente se representa
de la siguiente forma:
soporte(X " Y ) P(X ! Y )

confianza (X " Y ) = = = P(Y | X ) (14)
soporte(X ) P(X )
El “lift”, también llamado interés, se determina dividiendo la confianza entre el soporte.

El “lift” mide cuantas veces más frecuentemente ocurren X y Y juntos que las esperadas si fueran
estadísticamente independientes. Matemáticamente se representa así:
45
confianza (X # Y ) confianza (Y # X ) P(X " Y )

lift (X # Y ) = lift (Y # X ) = = = (15)
soporte(Y ) soporte(X ) P(X )! P(Y )
El “leverage” es la proporción de ejemplos adicionales cubiertos por ambos, X y Y, por

encima de los esperados si X y Y fueran estadísticamente independientes. Mide la diferencia de X
y Y apareciendo juntos en el conjunto y qué se esperaría si X y Y fueran estadísticamente
dependientes. Matemáticamente, se representa de la siguiente forma:
leverage(X $ Y ) = P(X # Y )" (P(X )! P(Y )) (16)
La convicción es una medida de implicación porque es direccional, es máxima para

implicaciones perfectas y 1 cuando los elementos relevantes son completamente no relacionados.
Fue desarrollada como una alternativa a la confianza, ya que se ha encontrado que ésta no captura
la dirección de las asociaciones de manera adecuada. La convicción compara la probabilidad de
que X aparezca sin Y si fuesen dependientes con la frecuencia real de la aparición de X sin Y. En
ese sentido es similar al “lift”, sin embargo, es distinto al “lift” en que es una medida dirigida
dado que también utiliza la información de la ausencia del consecuente o Y. Matemáticamente, la
convicción se representa de la siguiente forma: [28]
1 $ soporte(Y ) P(X )" P(¬Y )

conviction(X # Y ) = = (17)
1 $ confianza (X # Y ) P(X ! ¬Y )
La complejidad temporal del algoritmo Reglas de Asociación es O(n m 2m), donde n es el

número de transacciones o muestras y m es el número de elementos o atributos distintos. En
nuestro caso, se utilizaron 17,762 transacciones, con 71 atributos distintos, lo que indica que las
Reglas de Asociación tienen un costo de O(17,762 x 71 x 271) = O(2.9776 x 1027). [20]
3.5 REDES NEURONALES

3.5 Redes Neuronales
Una red neuronal de una sola capa (perceptrón simple) tiene limitaciones con respecto al
tipo de funciones que puede aprender, solamente puede ser utilizada para aprender funciones
linealmente separables. A partir de la necesidad de aprender funciones no linealmente separables
es que surge la necesidad de tener redes neuronales (de más de una capa). El entrenamiento de las
redes neuronales y sus capas es mucho más complicado que realizar el entrenamiento de una sola
neurona. Este entrenamiento puede ser supervisado, no supervisado o por refuerzo. Para el
presente trabajo, se utilizaron dos tipos de redes neuronales, ambas con entrenamiento
supervisado: Retropropagación del Error y Funciones de Base Radial; ambas se explicarán a
continuación. [56]
La razón por la cual se seleccionó la utilización de las redes neuronales es porque son un
algoritmo clásico de la inteligencia artificial que ha demostrado un desempeño competitivo y que
nos permitiría tener un marco inicial de referencia con que comparar la eficiencia de los distintos
algoritmos propuestos en este trabajo, mismos que se espera tengan un desempeño superior, tanto
por los datos de referencia obtenidos en los trabajos previos como por el hecho de que los
46
algoritmos seleccionados tienen características que los hacen óptimos para solucionar este
problema. Al momento de la elección del algoritmo, se tomó en cuenta que la utilidad de una red
neuronal reside en el hecho de que pueden ser utilizadas para inferir funciones o patrones a partir
de observaciones, lo cual es particularmente útil en problemas como el que se estudia en este
trabajo, donde la complejidad de la información hace que el diseño a mano de dicha función o
patrón sea impráctico. Las redes de Retropropagación del Error se seleccionaron por representar
el algoritmo más básico del aprendizaje supervisado con redes neuronales (sin considerar al
perceptrón simple), y por lo tanto, una buena base de referencia para partir. Las redes de
Funciones de Base Radial se seleccionaron por ser una técnica poderosa de interpolación en
espacios multidimensionales y por su característica de no sufrir de mínimos locales.
3.5.1 RETROPROPAGACIÓN DEL ERROR

3.5.1 Retropropagación del Error
Este tipo de red recibe señales externas y simplemente las propaga a través de todas las
capas para obtener la salida de la red neuronal. No existen conexiones de retroalimentación a las
capas anteriores.
Fig. 15 Red Neuronal tipo Retropropagación del Error de tres capas (de entrada, escondida y de salida) [23]
Se seleccionó la utilización de este tipo de red neuronal junto con la optimización

gradiente descendiente [56, 23] ya que esta combinación conforma uno de los algoritmos de
47
aprendizaje más populares y comúnmente utilizados (desarrollado por Werbos desde 1974). La
popularidad de este algoritmo se debe principalmente a que es capaz de actuar como un
aproximador universal de funciones. Por lo tanto, la utilización de este algoritmo nos da la
ventaja de tener un parámetro de comparación para el resto de los algoritmos a probar, es decir,
es un punto de partida inicial a partir del cual se debe buscar obtener mejores resultados con
respecto a nuestro objetivo. Como medida de error, se utilizó el error cuadrático medio. Posterior
a la obtención de resultados correspondientes a esta combinación, se buscó obtener resultados
mediante el algoritmo de Levenberg-Marquardt [56, 23], el cual se seleccionó por ser el método
más rápido para entrenar matrices de Retropropagación del Error de tamaño moderado. Su
velocidad se debe a que realiza sus operaciones sin tener que calcular la matriz hessiana (ésta se
aproxima mediante la multiplicación de la matriz jacobiana, que contiene las primeras derivadas
del error de la red con respecto a los pesos y umbrales, por su transpuesta).
La complejidad temporal de las Redes Neuronales de Retropropagación del Error es O(ab

+ bc + 2abie + 3bcie + cie + 2), donde a es el número de neuronas en la capa de entrada, es
decir, el numero de atributos a clasificar, b es el número de neuronas en la capa oculta, c es el
número de neuronas de la capa de salida, i es el numero de instancias de entrenamiento y e es el
número de épocas. En nuestro caso, se debieron utilizaron 71 entradas, 10 neuronas en la capa
oculta, 3 neuronas en la capa de salida, 15,000 épocas y 17,762 instancias de entrenamiento lo
que tiene un costo de O((71 x 10) + (10 x 3) + (2 x 71 x 10 x 17,762 x 15,000) + (3 x 10 x 3 x
17,762 x 15,000) + 2) = O(710 + 30 + 3.7833x1011 + 2.3978x1010+ 2) = O(4.0230x1011). Sin
embargo, debido a las limitaciones en los recursos computacionales disponibles, fue necesario
recortar la base de 17,762 instancias de prueba a 900, modificando la complejidad de la
Retropropagación del Error con Gradiente Descendiente de la siguiente forma: O((71 x 10) + (10
x 3) + (2 x 71 x 10 x 900 x 15,000) + (3 x 10 x 3 x 900 x 15,000) + 2) = O(710 + 30 +
1.917x1010 + 1.2158x109+ 2) = O(2.0385x1010). Para el caso de Levenberg-Marquardt, debido a
la gran cantidad de memoria que se requiere para invertir la matriz Jacobiana en cada
actualización de pesos y el tiempo que esto implica, además de recortar la base de entrenamiento
a 900 elementos, se detuvo manualmente el entrenamiento en 400 épocas, lo que nos da una
complejidad de O((71 x 10) + (10 x 3) + (2 x 71 x 10 x 900 x 400) + (3 x 10 x 3 x 900 x 400) +
2) = O(710 + 30 + 511’200,000 + 32’400,000+ 2) = O(543’600,742).
3.5.2 FUNCIONES DE BASE RADIAL (RBF)

3.5.2 Funciones de Base Radial (RBF)
Las redes RBF poseen una función gaussiana estática para conseguir la no linealidad en
los elementos de procesamiento (neuronas) de la capa oculta. Esta función responde solamente a
una pequeña región del espacio de entrada donde se encuentra centrada. La clave para una
implementación exitosa de este tipo de redes consiste en encontrar centros adecuados para las
funciones gaussianas, lo cual se puede hacer mediante un aprendizaje supervisado. Las redes
RBF por lo general requieren más neuronas que las redes de retropropagación del error, pero casi
siempre pueden ser diseñadas en una fracción del tiempo que lleva entrenar una de estas últimas.
Este tipo de redes trabajan mejor cuando se dispone de muchos vectores de entrada.
48
Fig. 16 Red Neuronal tipo Funciónes de Base Radial. [18]
Para este problema en específico se ha seleccionado la variante de las redes neuronales

probabilísticas o PNN ya que éstas cuentan con un diseño más eficiente en comparación con las
redes de regresión generalizada o GRNN. En el caso de las GRNN, se produce una red con tantas
neuronas ocultas como vectores de entrada haya y es por esta razón que no se obtiene una
solución aceptable cuando se tienen muchos vectores de entrada, como es el caso de la base de
datos para este problema. A diferencia de las GRNN, las PNN generan la arquitectura de la red
neurona por neurona deteniéndose en el momento en que la sumatoria del error cuadrático caiga
por debajo de la meta o se haya alcanzado un número máximo de neuronas.
Dentro del trabajo a futuro se encuentra el explorar las Support Vector Machines o SVM
para este problema, ya que de acuerdo a la literatura, en ocasiones llegan a ser más eficientes que
las RBF para problemas de clasificación [23, 18, 55].
La complejidad temporal de las Funciones de Base Radial es O(n3), donde n es el número

de instancias de entrenamiento. En nuestro caso, se utilizaron 17,762 instancias de entrenamiento,
lo que indica que las Funciones de Base Radial tienen un costo de O(17,7623) = O(5.6037 x 1012).
[36, 55]
3.6 MODELOS OCULTOS DE MARKOV

3.6 Modelos Ocultos de Markov
Un Modelo Oculto de Markov o HMM se define y representa como un autómata

estocástico de estado finito el cual se asume está construido a partir de un conjunto finito de
estados posibles cada uno de los cuales está asociado con una distribución específica de
probabilidad. Cada transición de estado genera un caracter del alfabeto del proceso. Nos interesa
conocer la probabilidad de un estado dado y sabemos que ésta depende directamente de la
historia anterior al estado cuya probabilidad deseamos conocer. La teoría base de los HMM’s fue
publicada en una serie de artículos clásicos escritos por Baum y sus colegas [7, 8, 9, 10,11].
Seleccionamos este algoritmo porque se ha convertido en uno de los métodos estadísticos más
importantes para el modelado de señales de habla humana y trabajos previos han confirmado
buenos resultados para el reconocimiento de cantos de aves. Sus principios han sido exitosamente
49
utilizados en reconocimiento automático del habla, síntesis del habla, modelado estadístico del
lenguaje, etiquetado de partes del habla, entendimiento del lenguaje hablado y traducción de
máquinas [13, 15, 21, 25, 26, 34, 41, 57].
Una cadena de Markov modela una clase de procesos aleatorios que incorporan una
cantidad mínima de memoria, es decir, no carecen completamente de memoria. En la cadena de
Markov, cada estado corresponde a un evento determinísticamente observable. Una extensión
natural de las cadenas de Markov introducen un proceso no determinístico que genera símbolos
de observación de salida en cualquier estado dado. De esa manera, la observación es una función
probabilística del estado. Este nuevo modelo es conocido como Modelo Oculto de Markov, que
puede ser visto como un proceso estocástico doblemente incorporado con un proceso estocástico
subyacente (la secuencia de estados) no directamente observable. El proceso subyacente puede
ser solamente probabilísticamente asociado con otro proceso estocástico observable produciendo
la secuencia de características que podemos observar. Un Modelo Oculto de Markov es
básicamente una cadena de Markov donde la observación de salida es una variable aleatoria X
generada de acuerdo a una función probabilística de salida asociada con cada estado. Hablando
formalmente, un Modelo Oculto de Markov se define como:
• O ={o , o ,..., o } - Un alfabeto de observación de salida. Los símbolos de observación

1 2 M
corresponden a la salida física del sistema que está siendo modelado.
• ! ={1,2,..., N } - Un conjunto de estados representando el espacio de estados. Aquí S es
t
denotada como el estado en el tiempo t.
• A={a } - Una matriz de probabilidades de transición, donde a es la probabilidad de
ij ij
tomar una transición del estado i al estado j.
• B={b (k )} - Una matriz de probabilidades de salida, donde b (k ) es la probabilidad de
i i
emitir el símbolo o k cuando se entra al estado i.
• ! = {! } - Una distribución inicial de estados donde ! =P( s = i )
i i 0
Para resumir, una especificación completa de un HMM incluye: dos parámetros de

tamaño constante, N y M, que representan el número total de estados y el tamaño del alfabeto de
observación, el alfabeto de observación O y tres conjuntos (matrices) de medidas de probabilidad
A, B y Π. Por conveniencia, utilizamos la siguiente notación Φ=(A, B, Π) para indicar el conjunto
de parámetros completo de un HMM y algunas veces utilizamos el parámetro Φ para representar
el HMM de manera intercambiable sin ambigüedad [35].
Existen tres problemas principales que son resueltos mediante HMM’s:
1. Dados los parámetros del modelo, calcular la probabilidad de una determinada

cadena de salida. Esto se resuelve mediante el algoritmo “forward” o hacia delante
y es llamado problema de evaluación.
2. Dados los parámetros del modelo, encontrar la secuencia de estados (ocultos) que
con mayores probabilidades pudo haber generado una secuencia de salida dada.
50
Esto se resuelve mediante el algoritmo de Viterbi y es llamado problema de

decodificación.
3. Dada una secuencia de salida, encontrar el conjunto de probabilidades de
transiciones de estados y probabilidades de salidas con mas probable. Esto se
resuelve mediante el algoritmo Baum-Welch o Viterbi revertido y es llamado
problema de aprendizaje.
En este trabajo utilizaremos los algoritmos Viterbi y Baum-Welch, mismos que serán
brevemente explicados a continuación.
El algoritmo de Viterbi, como se mencionó, provee un método para encontrar la secuencia

de estados ocultos con mayor probabilidad de haber generado una determinada cadena de salida.
Este algoritmo selecciona y recuerda el mejor camino desde el inicio del HMM hasta el final del
mismo, la probabilidad del mejor camino se define como:
V (i ) = P&$ X t , S t ( 1 , s = i | ' #! (18)

t % 1 1 t "
Donde Vt (i ) es la probabilidad de la secuencia de estados más probable en el tiempo t, que

ha generado la observación X 1t (hasta el tiempo t) y termina en el estado i. El cálculo es hecho
por tiempos, de derecha a izquierda de la estructura de trellis.
Este algoritmo tiene la siguiente forma:

• Paso 1: Inicialización.
( )
V (i ) = " b X
1 i i 1
1! i ! N (19)
B (i ) = 0
t
! (20)
• Paso 2: Inducción
$ '
V ( j ) = Max &V
t (i) a )b X
1 " i " N % t #1 ij ( j t
( ) 2 ! t ! T ;1 ! j ! N (21)
$ '
B ( j ) = Argmax&V ( i) a ) 2 ! t ! T ;1 ! j ! N (22)
t % t #1 ij (
! 1" i " N
• Paso 3: Terminación
!
El mejor resultado = [ ]
Max V (i)
1" i " N t
(23)
s* = Argmax B (i)
[ ] (24)
T T
1 " i "!N
!
51
• Paso 4: Backtracking
"$ * %'
s* = B s t = T ! 1, T ! 2,...,1 (25)
t t + 1# t + 1&
" %
S* = $ s*,s* ...,s* ' es la mejor secuencia [35] (26)
# 1 2 T&
!
La complejidad temporal del algoritmo Viterbi es O(n2t), donde n es el número total de
estados o clases y t es el la longitud de la cadena. En nuestro caso, se utilizaron 3 clases, con
!
longitudes de la cadena variables de entre 2 y 3 segundos, lo que indica que Viterbi tiene un costo
de O(32 x t) = O(9 x t). [35]
El algoritmo de Baum-Welch, como se mencionó, se utiliza para estimar los parámetros

del modelo " = ( A, B, ! ) a partir de una secuencia de salida dada. En este algoritmo, la
probabilidad hacia atrás se define como
" t (i ) = P (X tT+1 | st = i, ! ) (27)
Donde ! t (i ) es la probabilidad de generar la observación parcial X tT+1 (desde t+1 hasta el

final), donde que el HMM se encuentra en el estado i en el tiempo t. Este algoritmo garantiza una
mejora monotónica de la probabilidad en cada iteración, de forma que eventualmente la
probabilidad converge a un máximo local.
Este algoritmo tiene la siguiente forma:

• Paso 1: Inicialización.- Escoger un estimado inicial ! .
& ^#
• Paso 2: Paso-E.- Calcular la función auxiliar Q$ ', ' ! basada en ! .
% "
^
• Paso 3: Paso-M.- Calcular ! de acuerdo a la reestimación. Aplicación de las
siguientes ecuaciones para maximizar la función Q auxiliar:
T
^ ! " (i, j )
t =1
t
a ij = T
(28)
!! " (i, j )
t =1 i
t
^
! ! # (i, j )
t" X t = ok i
t
b j (k ) = T
(29)
!! # (i, j )
t =1 i
t
^
• Paso 4: Iteración.- Asignar ! = ! , repetir desde el paso 2 hasta la convergencia.
[35]
52
La complejidad temporal del algoritmo Baum-Welch (problema de aprendizaje) es de O(log (L)

Ln M Tmax + Ln(T + E)), donde n es el número de secuencias de entrenamiento, L es la longitud de
la secuencia, M es el número de estados, T es el número de transiciones libres, E es el número de
emisiones libres y Tmax es el máximo número de estados al que cualquier estado se conecta. En
nuestro caso, se utilizaron 3 clases, con longitudes de la cadena variables, con 15 secuencias de
entrenamiento de longitud variable de entre 2 y 3 segundos, con 3 estados o clases y con un
número máximo de estados al que cualquier estado se conecta de 2. Como podemos apreciar, el
algoritmo Baum-Welch para múltiples secuencias, como sucede en este caso, tiene una
complejidad de orden exponencial. [48]
53
4 EXPERIMENTOS Y RESULTADOS OBTENIDOS

4 Experimentos y resultados obtenidos
4.1 ADQUISICIÓN Y PRE-PROCESAMIENTO DE DATOS

4.1 Adquisición y pre-procesamiento de datos
4.1.1 CANTOS DE AVES

4.1.1 Cantos de aves
Las canciones y llamadas de aves utilizadas en este estudio fueron obtenidas de dos fuentes
distintas. La primera de ellas es a través del “Macaulay Library” [19]. Se juntaron las muestras
de su colección enviadas y se hicieron las pruebas iniciales. La segunda fuente es el viaje
realizado por nuestro equipo de trabajo en febrero de 2006 a la Reserva Ecológica Montes
Azules, en Chiapas, México. Se utilizaron estas canciones para trabajar en los algoritmos
propuestos y validar los resultados. Nos enfocamos en tres especies de pájaros hormigueros:
• Great Antshrike – Taraba major  49 grabaciones
• Dusky Antbird – Cercomacra tyrannina  79 grabaciones
• Barred Antshrike – Thamnophilus doliatus  76 grabaciones
Cada grabación tiene desde unos segundos hasta varios minutos de llamadas y canciones de
aves, con una, dos o más aves cantando simultáneamente.
4.1.2 PRE-PROCESAMIENTO DE LA SEÑAL

4.1.2 Pre-procesamiento de la señal
Tanto nuestras grabaciones de campo como las grabaciones obtenidas de Macaulay
Library fueron realizadas sin el uso de filtros de hardware. Una vez que se obtuvieron todas las
grabaciones, se procedió a hacer el análisis de frecuencias de las canciones. Para saber en qué
frecuencias cantan estas tres especies, procesamos los archivos de audio utilizando el software
Adobe Audition [1] de forma que nos permitiera visualizar sus espectrogramas y analizarlos
54
cuidadosamente. A continuación podemos ver un espectrograma ejemplo de una llamada de cada

especie, en las Figuras 17, 18 y 19.
Fig. 17 Espectrograma del Taraba major (Original en colores).
Fig. 18 Espectrograma del Cercomacra tyrannina (Original en colores).
Fig. 19 Espectrograma del Thamnophilus doliatus (Original en colores).
Utilizando esta información, se identificó la frecuencia en la que canta cada determinada

especie de ave, y se pudo aislar su canto utilizando una combinación de filtros de software, los
pasa-altos y pasa-bajos [70]. Para la aplicación de dichos filtros fue necesario tener todas las
canciones en formato wav y cargarlas en el software Sound Ruler, quien se encargó de aplicarlos
antes de extraer las características de las canciones.
4.2 EXTRACCIÓN DE CARACTERÍSTICAS

4.2 Extracción de características
Es importante mencionar que estas canciones han sido preprocesadas únicamente a través
de filtros pasa-bajos y pasa-altos, esto para facilitar un adecuado reconocimiento de llamadas y
pulsos. Estos filtros son dependientes de cada especie, como podemos ver en la Tabla 1.
Tabla 1 Filtro pasa-bajos y pasa-altos por especie

Cercomacra Thamnophilus
Taraba major tyrannina doliatus
Filtro pasa-bajos 3597 Hz 4200 Hz 3597 Hz
Filtro pasa-altos 517 Hz 920 Hz 686 Hz
Los conjuntos de datos resultantes de la extracción de características realizada con Sound

Ruler tienen los siguientes tamaños:
• Taraba major – 21, 360 pulsos

• Cercomacra tyrannina – 5372 pulsos
• Thamnophilus doliatus – 911 pulsos
4.3 VALIDACIÓN CRUZADA (“CROSSVALIDATION”)

55
4.3 Validación cruzada (“Crossvalidation”)
Para la correcta evaluación de la eficiencia de cada uno de los algoritmos a estudiar, se

realizó previamente una partición de la base de datos de características del canto obtenida en dos,
una parte de entrenamiento, que estará formada por aproximadamente el 70% de los datos, y una
parte de prueba, formada por aproximadamente el 30% de los datos. Estos porcentajes fueron
determinados siguiendo las heurísticas que se señalan en la literatura [23, 56, 72] y su eficiencia
fue corroborada mediante resultados experimentales obtenidos en pruebas de ensayo y error. En
este caso, se aseguró la estratificación de los conjuntos tomando dos instancias consecutivas del
conjunto original e insertándolas en el conjunto de entrenamiento, y la siguiente instancia
consecutiva en el conjunto de prueba, repitiendo este proceso hasta terminar con el conjunto
original de datos. Esto asegura una distribución aproximadamente homogénea de las instancias en
los conjuntos de entrenamiento y prueba, impidiendo que en alguno de ellos predomine alguna
clase en particular y manteniendo la misma proporción que se tenía en el conjunto original.
4.4 MODELOS OCULTOS DE MARKOV

4.4 Modelos Ocultos de Markov
Los Modelos Ocultos de Markov fueron explorados en este análisis para contrastar su
eficacia en el reconocimiento de especies de aves contra la de los enfoques de Minería de Datos y
Redes Neuronales. Para este objetivo, se utilizó el software HTK como una implementación de
prueba de HMM’s. Los HMM’s han sido seleccionados porque representan el enfoque tradicional
utilizado en nuestros días para el reconocimiento de habla humana. Para este propósito, canciones
completas han sido cortadas manualmente (con una duración de entre 2 y 3 segundos) a partir de
las grabaciones de audio hechas en la reserva ecológica de Montes Azules, Chiapas, México. Se
utilizaron 25 muestras de cada una de las especies objeto de este estudio, de las cuales, 15
muestras fueron utilizadas para entrenar los HMM’s y 10 muestras para probar el desempeño del
reconocimiento.
La métrica de desempeño utilizada para medir la eficiencia de los HMM’s es la que se

provee en el HTK Book [73]. Para cada especie probada e, el desempeño d es medido
simplemente como la razón o proporción de las muestras correctamente clasificadas Ce sobre el
total de muestras Te utilizadas para hacer pruebas, y es definida como:
C
d = e x100 (30)
e T
e
Para cada experimento, se ejecutaron 50 corridas utilizando una repartición aleatoria de

los archivos para cada corrida en conjunto de entrenamiento y conjunto de prueba. La razón por
la cual se eligió ejecutar 50 corridas es porque un mismo experimento puede tener resultados muy
distintos, dependiendo de qué archivos sean utilizados en el conjunto de entrenamiento y cuales
en el conjunto de prueba. Para el parámetro de tamaño de la ventana utilizamos el valor 25ms y
para el parámetro de coincidencia parcial o “overlap” el valor de 15ms. La razón por la cual se
seleccionaron estos valores es porque después de ejecutar diversos experimentos (ensayo y error)
utilizando distintos valores para estos parámetros (tamaño de la ventana desde 10ms hasta 25ms y
coincidencia parcial desde 1ms hasta 15ms, siendo los valores por defecto u originales 15ms para
56
tamaño de la ventana y 1ms para coincidencia parcial) se determinó que estos valores
proporcionaron un desempeño ligeramente mejor con respecto a los otros valores
experimentados.
Como era de esperarse, el desempeño de los HMM’s es ligeramente superior cuando el

rango de frecuencia del canto del ave es acotado de acuerdo a los parámetros espectrales de cada
especie. Esto sucede debido a que el ruido localizado fuera de esta frecuencia no será tomado en
cuenta por los HMM’s.
Con estos ajustes, se encontró que el reconocimiento promedio sobre el conjunto de

prueba de los HMM’s para estas especies es de alrededor de 93%; los detalles porcentuales por
especie podemos apreciarlos en la Figura 20. Diversos aspectos son los causantes de este 7% de
falta de exactitud, entre ellos se identificó que en algunas ocasiones, los pájaros no cantan su
canción completa, sino que cantan solamente una parte de ella. Asimismo, se identificó que el
ruido ambiental era una de las más grandes fuentes de error. La especie Cercomacra tyrannina
fue reconocida correctamente en la mayoría de los casos, mientras que el error más común fue
que la especie Thamnophilus doliatus en ocasiones era reconocida erróneamente como Taraba
major y viceversa.
Reconocimiento con HMM
120.00%
95.28% 92.12%
100.00%
90.52%
80.00%
Porcentaje
Correctamente
Clasificados
60.00%
Incorrectamente
Clasificados
40.00%
20.00%
7.88% 9.48%
4.72%
0.00%
Cercomacra Taraba major Thamnophilus
tyrannina doliatus
Especies
Fig. 20 Gráfica de porcentajes de eficiencia para HMM’s sobre el conjunto de prueba (Original en colores)
Encontrar el número óptimo de estados requeridos para modelar las especies fue una tarea
complicada. Es difícil, si no imposible, relacionar este parámetro con alguna propiedad física del
canto de las aves. Se utilizó un valor de 5 estados, ya que mediante ensayos de prueba y error se
encontró que esta es la configuración que proporcionó los mejores resultados en promedio para
todas las pruebas.
57
El desempeño no cambio de forma significativa cuando se utilizaron entre 5 y 15 estados,

sin embargo el añadir más de 15 estados sí degradó el desempeño. Se encontró que el utilizar el
procedimiento de extracción de características propuesto por HTK es un procedimiento
demasiado genérico y que puede no reflejar las características relevantes para la clasificación de
especies de aves. HTK utiliza Mel Frequency Cepstral Coeficients o MFCC’s (por sus siglas en
inglés), proceso que inicia con el muestreo de la señal y sigue con el pre-énfasis, el ventaneo, la
Transformada Rápida de Fourier o FFT (por sus siglas en inglés), la obtención del valor absoluto,
el Mel-Scaled Filterbank, la obtención del logaritmo, la Transformada Discreta del Coseno, la
obtención de las características dinámicas (primera y segunda derivada) y termina con un
Análisis Discrimintante Lineal. [66].
4.5 MINERÍA DE DATOS

4.5 Minería de Datos
4.5.1 CUANTIZACIÓN
4.5.1 Cuantización
Para la implementación de este algoritmo se utilizó el paquete de software
Communications Toolbox de Matlab. La entrada de este algoritmo es la base de datos completa
en formato numérico y la salida es una nueva base de datos en formato nominal, cuyos valores
son equivalentes a los de la base de datos numérica de entrada. La Cuantización fue hecha a 3
bits, de forma que se pudieran obtener 8 posibles valores para cada campo: [‘0’, ‘1’, ‘2’, ‘3’ ‘4’,
‘5’, ‘6’, ‘7’].
4.5.2 J4.8, ID3 Y NAIVE-BAYES

4.5.2 J4.8, ID3 Y Naive-Bayes
El algoritmo ID3 fue utilizado para generar el árbol de decisión por medio del software
Weka [72]. Una vez que se obtuvo obtenido el árbol de decisión, solamente conservamos en
nuestro conjunto de datos aquellos atributos que fueron utilizados para formar los nodos del árbol
(tomando en cuenta que un mismo atributo puede repetirse en muchos nodos). Este conjunto de
datos reducido será utilizado para intentar una clasificación confiable mediante el algoritmo
Naive-Bayes.
Para J4.8 se utilizó el paquete de software Weka para probar este algoritmo con los
conjuntos de datos originales. Los atributos sobrevivientes en el conjunto de datos reducido
también fueron utilizados para intentar una clasificación confiable mediante el algoritmo Naive-
Bayes.
Naive-Bayes fue ejecutado en Weka, para el conjunto de datos original, post-ID3 y post-
J4.8. En el caso de los conjuntos post-ID3 y post-J4.8, se intentó eliminar la redundancia
(atributos que representan la misma información pero desde diferentes enfoques) e independencia
(atributos cuya ocurrencia depende de la ocurrencia o no ocurrencia de otro atributo) por medio
de los árboles de decisión (ID3 y J4.8). En esos casos, se utilizaron únicamente los atributos
sobrevivientes en los árboles de decisión para construir el conjunto de datos reducido que se
alimenta a Naive-Bayes, tratando con esto de asegurar en la medida de lo posible que se está
trabajando con atributos independientes y no redundantes para asegurar que el proceso de
aprendizaje está siendo afectado lo menos posible por estos factores y que por lo tanto se está
58
obteniendo la máxima eficiencia. Para comparar la eficiencia de estos conjuntos reducidos, se

ejecutó también el algoritmo Naive-Bayes sobre el conjunto de datos original.
En la Figura 21 podemos ver que el algoritmo de Minería de Datos con mayor eficiencia
para este problema específico es J4.8 (sin Naive-Bayes), obteniendo un 98.39% de eficiencia. Los
resultados de eficiencia que se presentan son basados en el conjunto de prueba. El número de
atributos en el conjunto de datos completo es de 71, mismos que fueron reducidos a solamente 47
mediante este algoritmo. En esta misma figura podemos observar que con respecto a Naive-
Bayes, los conjuntos de datos reducidos producen un desempeño ligeramente mejor que el
conjunto de datos completo, alcanzando hasta un 4.5% de mejora.
Reconocimiento con Minería de Datos
120.00%
94.66% 98.39%
100.00%
85.57% 90.13% 88.23%
80.00%
Porcentaje
60.00%
40.00%
14.43% 11.77%
20.00%
5.34% 9.87% 1.61%
0.00%
Naïve-Bayes Quantización Naïve-Bayes J4.8 (base Naïve-Bayes
(base + ID3 (base (Quantizacion completa) (J4.8)
completa) completa) + ID3)
Correctamente Clasificados
Metodologías Incorrectamente Clasificados
Fig. 21 Gráfica de porcentajes de eficiencia para Minería de Datos sobre el conjunto de prueba (Original en
colores)
Aparte de conservar una eficiencia confiable debemos tomar en cuenta que el poder de
procesamiento requerido es directamente afectado por la reducción de atributos, dado que el
número de cálculos requerido para extraer las características de la señal (menos características a
extraer) y clasificar un conjunto de datos (menos datos a clasificar) es menor y por lo tanto
consume menos poder de procesamiento.
En el árbol J4.8, el atributo principal fue la frecuencia dominante del pulso, raíz del árbol.
En el siguiente nivel encontramos el ancho del pico de la frecuencia dominante a la mitad de si
altura dividida por la frecuencia del pico. Un nivel más abajo, tenemos al máximo de la
frecuencia dominante en el pulso, el número total de pulsos en la llamada y la frecuencia
dominante en el último 50% de la amplitud pico. Estos 5 atributos, mismos que J4.8 identificó
como los principales, contrastan con la duración de la canción, el número de frases y el número
de notas, identificados por Nelson [51] y la velocidad, duración, rango de frecuencia y frecuencia
central identificados por Bard [6]. Las razones de estos desacuerdos son probablemente el uso de
59
canciones de distintas especies y distintos algoritmos para la selección de atributos, tales como el
análisis discriminante canónico.
Reconocimiento con Minería de Datos

Algoritmo J4.8
120.00%
99.33% 97.17%
100.00%
89.24%
80.00%
Porcentaje
Correctamente
Clasificados
60.00%
Incorrectamente
Clasificados
40.00%
20.00%
10.76%
0.67% 2.83%
0.00%
Cercomacra Taraba major Thamnophilus
tyrannina doliatus
Especies
Fig. 22 Gráfica de porcentajes de eficiencia por especie de J4.8 (Original en colores)
4.5.3 REGLAS DE ASOCIACIÓN

4.5.3 Reglas de Asociación
Las pruebas se desarrollaron con el paquete de software Weka, utilizando la base completa
y considerando válidos solamente los resultados para las instancias con un 100% de confianza y
un alto grado de soporte. Se consideraron también la convicción, el leverage y el lift para la
selección reglas de con utilidad para este problema. El objetivo de las reglas obtenidas mediante
este algoritmo consiste en el descubrimiento de patrones o reglas que incluyan atributos que
tengan entre sí una alta dependencia estadística. La utilidad de este tipo de reglas en el trabajo a
futuro radica en la posibilidad de identificar atributos con alta dependencia estadística y
eliminarlos del conjunto de datos que se alimenta al algoritmo Naive-Bayes. Esto con el fin de
reducir el error provocado por la dependencia estadística de los datos de nuestro conjunto y
obtener con ello una mejora significativa en los resultados obtenidos mediante el citado
algoritmo.
A partir de los resultados, mostrados en la Tabla 2, se puede confirmar la alta dependencia

estadística existente entre los atributos de las reglas seleccionadas como útiles para este
problema.
Tabla 2 Resultados de reglas de asociación

Regla Soporte Confianza Lift Leverage Convicción
(%) (%)
A 78 100 1.26 0.16 76.57
B 78 100 1.26 0.16 76.57
60
C 75 100 1.26 0.17 74.07

D 70 100 1.31 0.17 79.42
E 72 100 1.31 0.17 40.54
Las reglas obtenidas mediante este proceso son las siguientes:
Regla A:
PulDur_0=1 y PulseHalfFM=0 y relAmpl_H2=0  PulDur_10=1
Regla B:
PulDur_0=1  PulDur_10=1 y PulseHalfFM=0 y relAmpl_H2=0
Regla C:
PulDur_0=1 y Ener_90-Peak_Beg=1 y relAmpl_H2=0  PulDur_10=1 y PulseHalfFM=0
Regla D:
PulDur_0=1 y PulOn_90=1 y Ener_90-Peak_Beg=1 y PulseHalfFM=0 y relAmpl_H2=0 
PulDur_10=1 y PulOn_peak=1
Regla E:
PulDur_0=1 y PulOn_90=1 y PulseHalfFM=0  PulDur_10=1 y PulOn_peak=1
Interpretación:
= 1significa un valor alto
= 0 significa un valor bajo
PulDur_0 = Duración de un pulso en el eje inicial (0%) de una llamada
PulDur_10 = Duración de un pulso al 10% de la llamada
PulseHalfFM = Tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el
pulso
relAmpl_H2 = Amplitud relativa del segundo armónico
PulOn_90 = Tiempo del inicio de pulso al 90%
Ener_90_Peak_Beg = Energía en el 90% inicial de la llamada (amplitud pico)
PulOn_peak = Tiempo del pulso del inicio al pico (elevación)
Así, traduciendo las reglas conformadas por los atributos de Sound Ruler al español,
tenemos lo siguiente:
Regla A: Si la duración del pulso en el eje inicial (0%) de una llamada es alta y el tiempo en el
cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo y la amplitud
relativa del segundo armónico es baja, entonces la duración del pulso al 10% de la llamada es
alta.
Regla B: Si la duración del pulso en el eje inicial (0%) de una llamada es alta, entonces la
duración del pulso al 10% de la llamada es alta y el tiempo en el cual se alcanza la mitad de la
modulación de la frecuencia en el pulso es bajo y la amplitud relativa del segundo armónico es
baja.
Regla C: Si la duración del pulso en el eje inicial (0%) de una llamada es alta y la energía en el
90% inicial de la llamada (amplitud pico) es alta y la amplitud relativa del segundo armónico es
61
baja, entonces la duración del pulso al 10% de la llamada es alta y el tiempo en el cual se alcanza
la mitad de la modulación de la frecuencia en el pulso es bajo.
Regla D: Si la duración de un pulso en el eje inicial (0%) de una llamada es alta y el tiempo del
inicio de pulso al 90% es alto y la energía en el 90% inicial de la llamada (amplitud pico) es alta
y el tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo y
la amplitud relativa del segundo armónico es baja, entonces la duración de un pulso al 10% de la
llamada es alta y el tiempo del pulso del inicio al pico (elevación) es alto.
Regla E: Si la duración de un pulso en el eje inicial (0%) de una llamada es alta y el tiempo del
inicio de pulso al 90% es alto y el tiempo en el cual se alcanza la mitad de la modulación de la
frecuencia en el pulso es bajo, entonces la duración de un pulso al 10% de la llamada es alta y el
tiempo del pulso del inicio al pico (elevación) es alto.
Analizando las reglas obtenidas, vemos que en todos los casos hay un valor de “lift”
mayor a 1, lo que nos indica que efectivamente existe una relación de dependencia probabilística
entre X y Y (Cuando el valor de “lift” es 1, se considera que X y Y son probabilísticamente
independientes). Sabemos que “leverage” y “lift” miden cosas similares, excepto que “leverage”
mide la probabilidad de co-ocurrencia de X y Y como las probabilidades independientes de cada
uno, de X y de Y. En otras palabras, “leverage” mide la proporción de casos adicionales cubiertos
por ambos, X y Y, arriba de aquellos esperados si X y Y fueran independientes uno de otro. Como
podemos ver, en las reglas obtenidas hay valores por encima de 0 en todos los casos, lo que nos
indica una vez más que sí hay de dependencia para estas reglas. La convicción es similar al “lift”
pero mide también el efecto de que Y no sea verdad. Como podemos apreciar, todas las reglas
obtenidas tienen un alto valor de convicción, indicando una vez más que hay un alto grado de
relación entre los atributos del antecedente y el consecuente. Todas las reglas obtenidas tienen un
100% de confianza, indicando que Y aparece en todas las instancias que contienen a X, es decir,
que predicen correctamente para todas las instancias para las cuales aplican. También se tiene en
todas las reglas un alto porcentaje de soporte, del 72% al 78%, indicando que la regla aparece en
un alto porcentaje de instancias de la base.
Al parecer, estas reglas no tienen un valor biológico o de clasificación directamente, sin

embargo, está confirmado mediante las medidas anteriormente analizadas, que los atributos
mencionados son los que en mayor medida de los 71 atributos tienen una alta dependencia entre
ellos, lo que nos puede guiar en el trabajo a futuro a hacer más pruebas con Naive-Bayes con un
conjunto de datos en el cual estos atributos hayan sido removidos, esperando ver una mejora
significativa en el desempeño de dicho algoritmo. Ésta suposición se basa en que se sabe a partir
de la literatura que Naive-Bayes se desempeña mejor con datos probabilísticamente
independientes.
4.6 REDES NEURONALES

4.6 Redes Neuronales
Todas las pruebas de redes neuronales fueron realizadas utilizando el módulo Neural
Network Toolbox de Matlab. La base de datos completa (atributos sin reducir) fue colocada en
una matriz que debido a las limitaciones en el poder de cómputo fue necesario recortar de 17,762
muestras para entrenamiento y 8,882 muestras para prueba (26,644 muestras totales) a un total de
62
300 muestras por especie para el entrenamiento (900 muestras en total para entrenamiento) y 100
muestras por especie para las pruebas (300 muestras en total para las pruebas). Todos los
elementos de las matrices fueron normalizados previamente a su procesamiento mediante la
sumatoria de todos los valores de cada columna y la división de cada elemento de la misma entre
su sumatoria. Posteriormente, se realizó la transposición de matrices para que se encontraran en
la forma en que son requeridas por el Neural Network Toolbox de Matlab.
El primer tipo de redes neuronales utilizado fue el de Retropropagación del Error (función
newff()). La arquitectura de la red consiste en 10 neuronas en la capa oculta y 3 en la capa de
salida. Las tres neuronas de la capa de salida nos sirven para codificar o representar a las tres
especies a clasificar de la siguiente forma: las salidas “0.9 -0.9 -0.9” representan a la especie
Cercomacra tyrannina, las salidas“-0.9 0.9 -0.9” representan a la especie Taraba major y las
salidas “-0.9 -0.9 0.9” representan a la especie Thamnophilus doliatus. Cuando se utilizan
tantas neuronas de salida como clases existen, comúnmente se utiliza el nombre de variables
dummy para denominarlas. Generalmente, cada variable dummy tiene el valor de 0 para todas las
clases excepto para la que corresponde a la categoría correcta, a la que se le da el valor de 1. En
este caso se utilizaron valores cercanos a -1 (-0.9) y 1 (0.9) en lugar de 0 y 1 para las variables
dummy, ya que la derivada de la función de activación tiene un valor de cero tanto para una salida
con valor de 0 como con valor de 1. Cuando la función de activación tiene una forma sigmoidal,
como es nuestro caso, se requerirían pesos infinitos para que las salidas de la red alcancen los
valores de 0 y 1, ya que la función de activación es asintótica para dichos valores.
El tipo de neuronas que se utilizan en ambas capas (oculta y de salida) de la red es tansig.
Una neurona tansig calcula su salida de acuerdo a la siguiente función: [45]
2
n= !1 (31)
1 + e ! 2n
Misma que es matemáticamente equivalente a tanh(n), es decir, a calcular la tangente

hiperbólica. Se prefiere utilizar tansig ya que corre más rápidamente que la implementación de
tanh de Matlab, sin embargo los resultados pueden llegar a tener diferencias numéricas muy
pequeñas. Esta función es una buena solución para las redes neuronales, donde la velocidad es
importante y la forma exacta de la función de transferencia no lo es [68]. La función de
entrenamiento utilizada fue traingdm, retropropagación de gradiente descendiente con momento.
Se asignó un número máximo de épocas para entrenar de 15,000. El desempeño meta se
configuró con un error cuadrático medio de 0.001 como máximo. Los resultados obtenidos con
esta configuración se presentan a continuación:
63
Fig. 23 Gráfica de desempeño (error cuadrático medio) en el conjunto de entrenamiento y de prueba de la

Red Neuronal de Retropropagación del Error con gradiente descendiente y momento (Original en colores)
Fig. 24 Gráfica del gradiente de la Red Neuronal de Retropropagación del Error con gradiente descendiente
y momento (Original en colores)
Como podemos apreciar el error cuadrático medio resultante sobre el conjunto de

entrenamiento es de 0.7190 y sobre el conjunto de prueba de 0.7178, un desempeño aún no
satisfactorio para este problema. Asimismo, podemos apreciar que con el gradiente descendiente
con momento el desempeño se mantiene casi constante a partir de la época 2000 hasta la 15000,
64
con cambios significativos únicamente entre las 0 y las 2000 épocas. Se puede comprobar la
clasificación obtenida sobre el conjunto de prueba en la figura 25. Las líneas punteadas negras
indican el valor correcto de salida, los puntos rojos las instancias mal clasificadas. Si el punto
rojo se encuentra en 1, 2 o 3, quiere decir que el clasificador confundió una especie con otra (1
para Cercomacra tyrannina, 2 para Taraba major y 3 para Thamnophilus doliatus). Como
podemos apreciar, para la especie Cercomacra tyrannina se clasifico correctamente en el 90% de
las instancias, con el total de los errores de clasificación indicando la especie Thamnophilus
doliatus. La especie Taraba major fue la que mas problemas tuvo, clasificando correctamente
sólo el 8% de las instancias, con errores de clasificación hacia las otras dos especies
aproximadamente por igual. En el caso de la especie Thamnophilus doliatus apreciamos un 94%
de clasificación correcta, con errores indicando a la especie Cercomacra tyrannina. La
clasificación para las especies Cercomacra tyrannina (90%) y Thamnophilus doliatus (94%) es
muy satisfactoria, mientras que la especie Taraba major (8%) tuvo problemas mayores en la
clasificación.
En la grafica, es fácil apreciar los falsos positivos y los falsos negativos, ya que como
podemos ver, las instancias de prueba están organizadas por especie de la siguiente forma:
instancia 1 a 100 → especie Cercomacra tyrannina, instancia 101 a 200 → especie Taraba
major, instancia 201 a 300 → especie Thamnophilus doliatus. De acuerdo a esto, del total de
instancias clasificadas como Cercomacra tyrannina (aquellas con el punto en el valor de y = 1)
solamente aquellas instancias entre 1 y 100 están correctamente clasificadas, mientras que el
resto de ellas (y = 1, instancias entre 201 y 300) son falsos positivos. Por el contrario, los falsos
negativos son aquellas instancias de 1 a 100, donde y es distinta de 1; si y = 2 el falso negativo
indica a la especie Taraba major, mientras que si y = 3, el falso negativo indica a la especie
Thamnophilus doliatus.
65
Fig. 25 Clasificación de Retropropagación del Error con gradiente descendiente y momento (Original en
colores)
El segundo tipo de red neuronal utilizado fue Retropropagación del Error, con los mismos
parámetros de configuración anteriores a excepción de la función de entrenamiento. En esta
prueba utilizaremos trainlm, retropropagación Levenberg-Marquardt. El entrenamiento se detuvo
manualmente en la época 400 por ausencia de cambios significativos en casi 300 épocas y por el
largo tiempo que se requiere para realizar los cálculos; podemos apreciar claramente la ausencia
de cambios por casi 300 épocas en la figura 26. El desempeño alcanzado en este número de
épocas fue un error cuadrático medio de entrenamiento de 0.0274 y de prueba de 1.0393. El
número de instancias correctamente clasificadas podemos verlo en la figura 28; en ella podemos
apreciar que la especie Cercomacra tyrannina tuvo el mayor número de instancias bien
clasificadas, con un 86% de eficiencia, los errores existentes apuntan a la especie Taraba major.
En el caso de la especie Taraba major se tuvo un menor desempeño, con un 79% de eficiencia,
encontrandose instancias mal clasificadas como de las otras dos especies, principalmente como
Cercomacra tyrannina. En el caso de la tercera especie, Thamnophilus doliatus encontramos que
solamente el 30% de las instancias se clasificaron correctamente, encontrándose errores de
clasificación hacia las otras dos especies, en más o menos la misma proporción. A continuación,
el error cuadrático medio por épocas:
66
Fig. 26 Desempeño en la clasificación Retropropagación del Error con Levenberg-Marquardt sobre los
conjuntos de entrenamiento y prueba (Original en colores)
Fig. 27 Gráfica del gradiente de la Red Neuronal de Retropropagación del Error con Levenberg-Marquardt
(Original en colores)
67
Fig. 28 Clasificación Retropropagación del Error con Levenberg-Marquardt (Original en colores)
Finalmente, la última red neuronal que se probó fue una red Funciones de Base Radial o
RBF (función newpnn). La función newpnn crea una red de dos capas, la primera capa tiene
neuronas radbas, calcula los pesos de las entradas con dist y la entrada de la red con netprod. La
segunda capa tiene neuronas compet, calcula los pesos de las entradas con dotprod y sus entradas
con netsum. Solamente la primera capa tiene umbrales; newpnn inicializa los pesos de la primera
capa a la matriz de entrada transpuesta y los umbrales de la primera capa se colocan todos en
0.8326 dividido entre el valor de expansión, resultando en funciones de base radial que cruzan en
0.5 en entradas con peso de +/- expansión. Los pesos de la segunda capa son inicializados al valor
que devuelve ind2vec de la matriz de salidas de prueba.
Con esta red se obtuvieron los mejores resultados y al menor costo de todas las redes
probadas (tiempo de ejecución). Se utiliza la misma normalización que para las otras redes
neuronales e igualmente la transposición. La extensión se configuró a un valor de 0.001, que
experimentalmente mediante ensayo y error fue el que demostró una mejor eficiencia para ambos
conjuntos, de entrenamiento y de prueba. El error cuadrático medio de entrenamiento fue de cero
(implicando que no hubo errores de clasificación sobre el conjunto de entrenamiento), mientras
que el error cuadrático medio sobre el conjunto de prueba fue de 0.6667.
68
Fig. 29 Clasificación de las Funciónes de Base Radial con extensión de 0.001 (Original en colores)
69
En la figura 29 podemos ver que el 86% de las instancias de la especie Cercomacra

tyrannina fueron correctamente clasificadas y las que tuvieron errores fueron clasificadas como
Taraba major. La especie Taraba major tuvo un 63% de instancias correctamente clasificadas,
con tan solo 3 instancias mal clasificadas como Thamnophilus doliatus y algunas otras, el 34%,
mal clasificadas como Cercomacra tyrannina. La especie Thamnophilus doliatus tuvo sólo un
23% de instancias correctamente clasificadas, mientras que un 24% se mal clasificó como
Cercomacra tyrannina y el resto, el 53%, se mal clasificó como Taraba major.
Promediando la eficiencia de validación (sobre el conjunto de prueba) de cada una de las

redes utilizadas se obtienen los siguientes resultados:
• Retropropagación del error con gradiente descendiente y momento: 64%
• Retropropagación del error con Levenberg-Marquardt: 65%
• Funciones de base radial: 57.33%
• Desempeño promedio global de las Redes Neuronales: 62.11%
El conjunto de prueba utilizado para verificar la eficiencia de las Redes Neuronales, como
anteriormente se menciona, esta conformado por 100 instancias de cada especie a clasificar,
dando un total de 300 instancias, de 71 atributos cada una. Las primeras 100 instancias
pertenecen a la especie Cercomacra tyrannina, las siguientes 100 pertenecen a la especie Taraba
major, mientras que las últimas 100 pertenecen a la especie Thamnophilus doliatus.
A continuación se presenta una gráfica con el resumen de desempeño para los tres tipos de
redes neuronales utilizados, con eficiencia desglosada por especie y total global:
Reconocimiento con Redes Neuronales
100.00%
Ret ropropagac ión del error - gradient e
90.00% desc endiet e y moment um
80.00%
70.00%
62.11%
60.00% Ret ropropagac ión del error - Levenberg
Marquardt
50.00%
40.00%
30.00% Func iones de base radial
20.00%
10.00%
0.00% Desempeño Promedio de las Redes
Cercomacra Taraba Major Thamnophilus Promedio Neuronales
Tyrannina Doliatus
Especies
Fig. 30 Eficiencia de las Redes Neuronales por especie y eficiencia global (Original en colores)
Como podemos apreciar, aún cuando las Redes Neuronales son reconocidas como un
algoritmo muy eficiente en general, el desempeño de aquellas variedades seleccionadas en este
trabajo aún no es considerado lo suficientemente confiable como para poder realizar una
clasificación basándose únicamente en ellas.
70
A continuación se presenta un resumen gráfico de eficiencia de los métodos utilizados en

el presente trabajo:
Resumen de eficiencia por método 98.39%

100.00% 94.66% 92.64%
85.57% 90.13% 88.23%
90.00%
80.00%
65.00%
70.00%
64.00%
57.33%
Porcentaje
60.00%
50.00%
36.00% 35.00% 42.67%
40.00%
30.00%
14.43%
20.00%
5.34% 9.87% 11.77% 7.36%
10.00%
1.61%
0.00%
HMM
Funciones de
Quantización +
completa)
Naïve-Bayes
J4.8 (base
Retropropagación
Retropropagación
(Quantizacion +
(base completa)
base radial
Naïve-Bayes
descendiete y
Naïve-Bayes
ID3 (base
completa)
(Levenberg-
momentum)
Marquardt)
(J4.8)
(gradiente
del error
del error
ID3)
C orrectam ente C lasificados
Método Incorrectam ente C lasificados
Fig. 31 Resumen de eficiencia de todos los métodos utilizados (Original en colores)
4.7 TIEMPO DE EJECUCIÓN

4.7 Tiempo de ejecución
A continuación se presenta una gráfica con el tiempo de ejecución de cada uno de los
algoritmos utilizados para clasificación de especies en el presente trabajo. El conjunto de datos
utilizado en cada caso se describe en los métodos utilizados, en la sección anterior (bases
completas o bases reducidas). Los tiempos son presentados en segundos, y en el caso de
algoritmos combinados, se tomo en cuenta el tiempo total tomado por cada uno de los algoritmos
en cuestión, sumándolo para obtener el resultado que se presenta en la gráfica. La maquina en la
que se corrieron dichos algoritmos es una MacBook Pro, con procesador Intel Core Duo a 2GHz,
2GB de DDR2 SDRAM, un bus a 667 MHz y 2MB de caché L2. Al momento de ejecutar los
algoritmos, no tuvo corriendo nada más que el sistema operativo (Mac OS X) y la
implementación del algoritmo a analizar con el fin de garantizar condiciones de igualdad para
todos los algoritmos.
La diferencia entre la relación de las complejidades computacionales presentadas de cada

algoritmo y sus respectivos tiempos de ejecución tiene un origen múltiple, entre los factores
principales encontramos las distintas posibles implementaciones de un algoritmo, el lenguaje de
programación en el que se implementó (compilado o interpretado), la habilidad del programador
para economizar recursos computacionales, la necesidad de recursos computacionales
(principalmente memoria RAM) de un determinado algoritmo, la posibilidad o imposibilidad de
ejecutar cómputos paralelos en los dos procesadores disponibles dada una determinada
implementación de un algoritmo, etc.
Segundos
1000
500
0
Retropropagacion
del Error (GD y
238
Momentum)
Retropropagacion
del error (LM)
1240
Funciones de
4
Base Radial
Naive-Bayes
4
(Base Completa)
Quantización +
ID3 (Base
37
Completa)
Alg o r itm o s
Naive-Bayes
T ie m p o T o ta l e n Se g und o s
(Quantizacion +
40
ID3)
J4.8 (Base
44
Completa)
Naive-Bayes
47
(J4.8)
Fig. 32 Tiempo total en segundos de los algoritmos utilizados (Original en colores)
Modelos Ocultos
145
de Markov
71
72
5 CONCLUSIONES Y TRABAJO A FUTURO

5 Conclusiones y trabajo a futuro
Las redes neuronales, aún a pesar de su edad, son ampliamente reconocidas en la literatura
como un algoritmo muy eficiente, sin embargo, para el problema tratado en el presente trabajo,
las Redes Neuronales de Retropropagación del Error, tanto de gradiente descendiente con
momento como de Levenberg-Marquardt, no obtuvieron un alto grado de eficiencia, además de
tener un costo de entrenamiento elevado con respecto a los demás algoritmos estudiados. En el
caso de las Redes Neuronales Funciones de Base Radial o RBF encontramos una mayor
eficiencia, cercana al 50% a un costo computacional mucho más bajo que el que encontramos en
las otras Redes Neuronales exploradas, sin embargo, su eficiencia aún no es suficiente para
considerarla un método de clasificación confiable.
En el caso del algoritmo Naive-Bayes tenemos una clasificación razonable, del 85.57%,
misma que aunque no puede ser considerada como altamente eficiente, tiene la ventaja de tener
un muy bajo tiempo de entrenamiento, factor que es considerado como un punto a favor en el
caso de que el tiempo de entrenamiento sea una variable importante.
La mejora en el desempeño obtenido a través de la combinación de los árboles de decisión

y Naive-Bayes es debido a la eliminación de información redundante y probabilísticamente
dependiente llevada a cabo por los árboles de decisión, sin embargo hay que considerar que un
88.23% o un 90.13% aún no son suficientes para considerar a la clasificación confiable y que el
tiempo de entrenamiento que se agrega es considerable. En el trabajo a futuro para mejorar la
eficiencia de esta combinación se encuentra la eliminación adicional del conjunto de datos
reducido de los atributos identificados por las reglas de asociación como dependientes, lo cual
podría redundar en una clasificación más eficiente mediante este algoritmo.
Se pueden mencionar algunas ventajas de la minería de datos sobre HMM’s, que podrían
ser cruciales en la obtención resultados confiables de alta precisión. La primera de estas ventajas
es que los Modelos Ocultos de Markov requieren que se particionen los archivos de sonido y que
se pongan las canciones de aves juntas (sin silencios entre las llamadas) para poder tener
resultados relativamente eficientes, a diferencia de la Minería de Datos, que recibe los archivos
completos con los cantos de las aves y sus respectivos silencios intermedios (con parte del ruido
ambiental que no logró ser filtrado). Distintos archivos de sonido tuvieron que ser cortados y
posteriormente unidos para componer un archivo conteniendo múltiples llamadas secuenciales
especial para los HMM’s. Aunque este procedimiento no es complejo, aumenta el trabajo previo
73
que se requiere para aplicar el algoritmo y limita la capacidad de desempeño para poder aplicar
estos modelos a redes de sensores en vivo, y tomando en cuenta que el objetivo de este proyecto
es en un futuro cercano realizar este análisis en tiempo real, esto representa un problema para su
uso. Los HMM’s fueron extremadamente sensibles al ruido ambiental en las grabaciones durante
la fase de entrenamiento.
Por otra parte, el enfoque de Minería de Datos sufre muy poco por estos inconvenientes.
Las canciones son procesadas completas, sin cortar ni tener que poner las llamadas juntas.
Solamente se requiere aplicar a las grabaciones originales filtros de software pasa-bajos y pasa-
altos para utilizar los algoritmos de minería de datos con mayor eficiencia (además, dichos filtros
son fácilmente implementados en hardware). De esta manera, se eliminó gran parte del sonido
ambiental y el que quedó presente dejo poco margen para errores. Esto es porque se buscaron
ciertos atributos para cada especie que se repitieran constantemente entre las grabaciones y que la
diferenciaran de otras, en lugar de realizar un modelado de los sonidos.
Recordemos que los dos requerimientos principales para este problema son alta eficiencia
en el reconocimiento y bajo costo computacional. Con respecto al segundo requerimiento, un
bajo costo computacional, se encontró que las Redes Neuronales RBF y el algoritmo de Minería
de datos Naive-Bayes son los que tienen el menor costo computacional, seguidos por Naive-
Bayes sobre el conjunto de datos reducido por Cuantización e ID3 y posteriormente J4.8 y Naive-
Bayes sobre la base reducida mediante J4.8. Los algoritmos anteriormente mencionados,
requieren de 4 a 47 segundos para entrenar, un tiempo razonable para una plataforma con
recursos restringidos como lo son los arreglos de sensores, mientras que los Modelos Ocultos de
Markov y las Redes Neuronales de Retropropagación del Error requieren de 145 a 12,040
segundos para realizar el mismo proceso.
Considerando todos los factores y resultados de eficiencia anteriormente mencionados, se

concluyó que el algoritmo que resuelve de manera optima el problema planteado tomando en
cuenta todos sus requerimientos es J4.8 (Minería de Datos) con filtrado pasa-altos y pasa-bajos
como pre-procesamiento y utilizando la base de datos completa, es decir, sin la utilización previa
de Naive-Bayes para reducir el tamaño de la base. [67]
Estos resultados concuerdan con lo identificado en los trabajos previos. En el trabajo de

Korgan [38] se identifica la desventaja principal de métodos como HMM y DTW, la falta de un
método para encontrar las características discriminativas a partir de las señales dadas y se sugiere
que extraer más información biológicamente significativa de las canciones podría mejorar el
desempeño significativamente. Con base en los resultados obtenidos en el presente trabajo y a
partir de las observaciones de Margoliash es que encuentro particularmente importante añadir en
el trabajo a futuro la combinación de J4.8 para la reducción previa de atributos con los HMM y
DTW, tal como se realizó en este trabajo con Naive-Bayes, con el objetivo de mejorar el
desempeño de estos algoritmos y reducir su costo computacional. Asimismo, considero que un
enfoque de este tipo podría ayudar también a mejorar el reconocimiento con HMM de especies
muy similares entre si, como las utilizadas por Wilde [71].
En el trabajo de Kwan [39] se utilizó el “beamforming” para la reducción del error

provocado por ruido ambiental con buenos resultados. Dentro de los planes a corto plazo, se
encuentra llevar este trabajo al campo y probar los algoritmos utilizando micrófonos adaptados
para “beamforming” en redes de sensores y llevar a cabo monitoreo y clasificación en vivo,
esperando ver que los resultados obtenidos en este proyecto de manera aislada (en el escritorio,
74
fuera del campo) se mantengan, considerando el ruido ambiental y la interferencia normal en un

clima tropical. Se espera que la utilización de los filtros pasa-banda de hardware aunado a la
utilización de “beamforming” anule casi en su totalidad el efecto negativo provocado por el ruido
ambiental en el reconocimiento.
Comparando el trabajo de McIlrath [43] con el presente trabajo, podemos confirmar que
las distintas configuraciones de redes neuronales con retropropagación del error no proveen una
solución confiable al problema de la clasificación de especies de aves. La relevancia de la
comparación con dicho trabajo con este reside en que en cada uno se utilizaron distintas especies
de aves, en este trabajo, especies oriundas de México, mientras que en el trabajo de McIlrath [43]
se trabajó con especies oriundas de Canadá. En ningún caso se obtuvo un desempeño confiable
en la clasificación, confirmando que las redes neuronales de retropropagación del error a pesar de
ser un algoritmo muy eficiente para otros problemas no son un algoritmo recomendado para este
caso, además de ser un algoritmo costoso para una plataforma con recursos limitados.
Finalmente, queda pendiente la expansión de la información proporcionada al algoritmo

identificado como óptimo de 3 a n especies, así como la realización de nuevas hipótesis que
puedan ser comprobadas a partir de los resultados obtenidos en el campo en tiempo real mediante
la efectiva implementación e implantación del algoritmo en los arreglos de sensores. De igual
forma, se planea utilizar las técnicas evaluadas en este trabajo de manera independiente en
combinación (como la utilizada con los árboles de decisión y Naive-Bayes), con el objetivo de
encontrar posibles mejoras en el desempeño. Se planea también explorar otras técnicas como las
SVM, que se sabe que en algunos casos llegan a ser más eficientes que las RBF para problemas
de clasificación. Asimismo, se espera que en el trabajo a futuro que se seguirá realizando dentro
del marco de este proyecto, el algoritmo identificado como óptimo para la diferenciación de
especies en este trabajo extienda su eficiencia a la identificación de individuos específicos dentro
de las especies, sin embargo, debido a la alta similitud que existente entre los cantos de
individuos de una misma especie, es posible que exista la necesidad de explorar nuevamente
distintos algoritmos que pudiesen tener una mayor eficiencia para dicho problema.
Adicionalmente, dentro del trabajo a futuro se contempla la exploración de la correlación entre
los lenguajes de las aves y el resto de los factores bióticos y abióticos del ambiente, con el fin de
obtener información valiosa sobre dichas interacciones.
75
BIBLIOGRAFÍA
Bibliografía
[1] ADOBE AUDITION, versión 1.5 ,http://www.adobe.com/products/audition/main.html by

Adobe (10 de mayo 2005).
[2] ALONSO, M.; FINN, E.; Física Volumen I: Mecánica. Washington, D.C.: Ed. Addison-
Wesley, 1986. 544 p.
[3] ANDERSON, S.; DAVE, A.; MARGOLIASH, D.; Template-based automatic recognition
of birdsong syllables from continuous recordings. Journal of Acoustical Society of America,
100(2):1209-1219, 1996.
[4] ASHIYA, T.; NAKAGAWA, M; A proposal of a recognition system for the species of
birds receiving bird calls – an application of recognition systems for environmental sound.
IEEE Trans. Fundamentals, E76-AS:1858-1860, 1993
[5] BAI. B.; Document Quality Prediction with Textual Features. iCML-03, December 2003.
[6] BARD, S. et. al., “Vocal Distinctiveness and Response to Conspecific Playback in the
Spotted Antbird, a Neotropical Suboscine”. The Cooper Ornithological Society, The
Condor 104:387-394, 2002.
[7] BAUM, L. E., EGON, J. A.; “An inequiality with applications to statistical estimation for
probabilistic functions of a Markov process and to a model for ecology”. Bull. Amer.
Meteorol. Soc., vol. 73, pp. 360-363, 1967.
[8] BAUM, L. E., PETRIE, T., SOULES, G., WEISS, N.; “A maximization technique
occurring in the statistical analysis of probabilistic functions of Markov chains”. Ann.
Math. Stat., vol. 41, no. 1, pp. 164-171, 1970.
[9] BAUM, L. E., PETRIE, T.; “Statistical interference for probabilistic functions of finite state
Markov chains” Ann. Math. Stat., vol. 37, pp. 1554 – 1563, 1966.
76
[10] BAUM, L. E., SELL, G. R.; “Growth functions for transformations on manifolds”. Pac. J.
Math., vol. 27, no. 2, pp. 211-227, 1968.
[11] BAUM, L. E.; “An inequality and associated maximization technique in statistical
estimation for probabilistic functions of Markov processes”. Inequalities, vol. 3, pp. 1-8,
1972.
[12] BURDEN, R.; FAIRES, J.; Análisis Numérico, Ed. Grupo Editorial Iberoamericana, 1985.
[13] CAMPBELL, J.; "Speaker Recognition: A Tutorial," Proc. of the IEEE, 1437-1462p. 1997.
[14] CATCHPOLE, C.K. and SLATER, P.J.B, Bird Song - Biological themes and variations.
New edition, London: Cambridge University Press, October 30, 2003. 256 p.
[15] CHANG, E., et al.; "Large Vocabulary Mandarin Speech Recognition with Different
Approaches in Modeling Tones," Int. Conf. on Spoken Language Processing, 2000,
Beijing, China.
[16] CLARK, C.; MARLER, P.; BEEMAN, K.; Quantitative analysis of animal vocal
phonology: an application to swamp sparrow sound. Ethology, 76:101-115, 1987.
[17] COLEMAN, J., Introducing Speech and Language Processing (Cambridge Introductions to
Language and Linguistics), 1st Edition, University Press, Cambridge, United Kingdom,
March 2005, 314p.
[18] COLMENARES, G.; Como funciona una RBF, http://www.webdelprofesor.ula.ve

/economia/gcolmen/programa/redes_neuronales/capitulo4_funciones_bases_radiales.pdf,
(1 de Julio de 2006).
[19] CORNELL LAB OF ORNITHOLOGY– Macaulay Library, http://birds.cornell.

edu/MacaulayLibrary/ (10 de mayo 2005)
[20] DI FATTA, G.; Parallel and Distributed Association Rule Mining, Universität Konstanz,
Manuscrito.
[21] EICHNER, M., WOLFF, M.; "Data-Driven Generation of Pronunciation Dictionaries In

The German Verbmobil Project - Discussion of Experimental Results," IEEE Int. Conf. on
Acoustics, Speech and Signal Processing, Istanbul, 1687-1690p, 2000.
[22] ELLIOT, R.; AGGOUN, L.; MOORE, J.; Modelos Ocultos de Markov: Estimation and
Control (Applications of Mathematics). First Edition, Springer, 1995. 280 p.
[23] ENGELBRECHT, A.; Computational Intelligence: An Introduction. England: John Wiley

& Sons, December 2002, 310 p.
77
[24] ESTRIN, D.; Center for Embedded Networked Sensing (CENS), UCLA project,
http://research.cens.ucla.edu/pls/portal/docs/PAGE/CENS/CENS_ABOUT_US/CENS_PR
OPOSAL.PDF, (10 de mayo 2005).
[25] GALITZ, W.O., Handbook of Screen Format Design, 1985, Wellesley, MA, Q. E. D.
Information Sciences Inc.
[26] GAO, J., et al., "A Unified Approach to Statistical Language Modeling for Chinese," Int.
Conf. on Acoustics, Speech and Signal Processing, Istanbul,1703-1706p, 2000.
[27] GROSSET, A.; http://www.arthurgrosset.com/sabirds/greatantshrike.html, (30 de Junio de

2006)
[28] HAHSLER, M; A comparison of commonly used interest measures for association rules,
http://wwwai.wu-wien.ac.at/~hahsler/research/association_ rules/measures.html, (6 de Julio
de 2006)
[29] HAHYA, H., The Miracle of Talking Birds, Primera Edición, Bookwork, Norwich, UK.,
120p., 1999.
[30] HARMA, A.; Automatic identification of bird species bases on sinusoidal modeling of
syllables. In ICASSP'03, editor Proceedings of the IEEE International Conference on
Acoustics, Speech and Signal Processing, pages 5444-5548. IEEE, 2003.
[31] HAVEN, R.; Analyzing Animal Sounds, http://www.unc.edu/~rhwiley/wild

spectra/info/sounds.html, (5 de Junio de 2006).
[32] HERRERA, N.; http://fwww.marn.gob.sv/listado_de_aves.htm, (30 de Junio de 2006)
[33] HILARIO, M., KALOUSIS, A.; Characterizing Learning Models and Algorithms for
Classification, CUI – University of Geneva, Manuscrito, 16 p., Marzo 1999.
[34] HUANG, X., et al., "MIPAD: A Next Generation PDA Prototype," Int. Conf. on Spoken
Language Processing, 2000, Beijing, China.
[35] HUANG, X., et. al., Spoken Language Processing: A Guide to Theory, Algorithm and
System Development, Prentice Hall, 2001, 980p, New Jersey, USA.
[36] KAMNIK, R.; Nonlinear modelling of FES-supported standing up in paraplegia for

selection of feedback sensors, Technical Report TR-2003-150, Dept. of Computing
Science, Glasgow University, July, 2003.
[37] KINSLER, L.; FREY, A.; COPPENS, A.; SANDERS, J.; Fundamentos de Acústicas, Ed.
Limusa, 1988.
78
[38] KORGAN, J.A., MARGOLIASH, D., “Automated recognition of bird song elements from
continuous recordings using dynamic time warping and hidden Markov models: A
comparative study”, Journal of the Acoustic Society of America, Vol. 103, No. 4, 2185 –
2196p, April 1998.
[39] KWAN, C, et. at., “Bird Classification Algorithms: Theory and Experimental Results”,
IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004
Proceedings (ICASSP '04), Vol. 5, 289-292p, May 2004.
[40] LANZI, P. L., Classification: Decision Trees, Politecnico di Milano, Manuscrito.
[41] LAURILA, K., HAAVISTO, P., "Name Dialing - How Useful Is It?," IEEE Int. Conf. on
Acoustics, Speech and Signal Processing, Istanbul 3731-3734p, 2000.
[42] LINDNER, D.K; Introduction to Signals and Systems, Ed. McGraw-Hill Int. Ed., 1999.
[43] MACILRAITH, A.; CARD, H.; Birdsong recognition using backpropagation and
multivariable statistics. IEEE Transactions on Signal Processing, 45(11):2740-2748, 1997.
[44] MAINWARING, A. et al. Wireless Sensor Networks for Habitat Monitoring. Proceedings
of the 1st ACM international workshop on wireless sensor networks and applications,
September 2002
[45] MATLAB, version 7.0.0.19920 (R14), http://www.mathworks.com, por The Mathworks Inc.
(5 de Julio de 2006).
[46] MCILRAITH, A. L., CARD, H, C., “Birdsong Recognition Using Backpropagation and
Multivariable Statistics”, IEEE Transactions on Signal Processing, Vol. 45, No. 11, 2740-
2748, November 1997.
[47] MEIROVITCH, L; Fundamentals of Vibrations, Ed. Mc Graw-Hill, 2001.
[48] MIKLÓS, I.; A linear memory algorithm for Baum-Welch training,

http://www.biomedcentral.com/1471-2105/6/231, Septiembre 2005.
[49] MITRA, S.; Digital Signal Processing: A Computer Based Approach. New York, NY:
Second Edition, McGraw-Hill Irwin. 866 p.
[50] NELSON, D., Stages of song development, http://blb.biosci.ohio-state.edu/Nelson/

stages.htm , (10 de Junio de 2006).
[51] NELSON, D.; “The importance of Invariant and Distinctive Features in Species
Recognition of Bird Song”, The Cooper Ornithological Society, The Condor 91:120-130,
1989.
79
[52] OKANOYA, K.; The Bengalese Finch, A Window on the Behavioral Neurobiology of
Birdsong Syntax, Annals of the New York Academy of Sciences, Volume 1016 Page 724,
June 2004.
[53] PRUTSCHER, M.; Fourier Series, http://mwt.e-technik.uni-ulm.de/world/lehre/basic_

mathematics/fourier/node2.php3, (30 de Junio de 2006)
[54] RAVEN, version 1.2, http://birds.cornell.edu/brp/Raven/RavenFullVersion.html by

Bioacoustics Research Program - Cornell Lab of Ornithology, (10 de mayo 2005).
[55] REUTER., P.; Point-based modelling and rendering using radial basis functions,
Proceedings of the 1st international conference on Computer graphics and interactive
techniques in Australasia and South East Asia, Melbourne Australia 2003.
[56] RUSELL, S.; NORVIG, P.; Artificial Intelligence: A Modern Approach. Second Edition,
Prentice Hall, Englewood Cliffs, New Yersey, 2003. 1132 p.
[57] SAGISAKA, Y., LEE L.S., "Speech Recognition of Asian Languages" in Proc. IEEE
Automatic Speech Recognition Workshop 1995, Snowbird, UT, 55-57p.
[58] SIBLEY, D. A., The Sibley Guide to Bird Life & Behaviour, First Edition, New York,
National Adubon Society, 2001, 587p.
[59] SOMERVUO, P.; Self-Organizing Maps for Signal and Symbol Sequences. PhD thesis,
Helsinki University of Technology, 2000.
[60] SOUND RULER, version 0.941, http://soundruler.sourceforge.net/, by Marcos Gridi Papp

(10 de Mayo 2005)
[61] SPSS, version 14, http://www.spss.com/, (9 de Junio de 2006).
[62] SYRINX-PC, version 2.4o, http://syrinxpc.com/, por John Burt, (8 de Febrero de 2005).
[63] SZEWCZYK, R. et al. Habitat Monitoring with Sensor Networks, Communications of the
ACM, Vol. 47, No. 6, p. 34-40, June 2004.
[64] TAYLOR, C.; Sensor Arrays for Acoustic Monitoring of Bird Behavior and Diversity,
project proposal submitted to National Science Foundation.,
http://www.nsf.gov/awardsearch/showAward.do?AwardNumber=0410438 (10 de mayo
2005)
[65] TEPKE, G.; http://www.pbase.com/gtepke/dusky_antbird, (30 de Junio de 2006)

80
[66] TRIFA, V. M.; “A framework for bird songs detection, recognition and localization using
acoustic sensor networks” Masters thesis, École Polytechnique Fédérale de Lausanne,
2006.
[67] VILCHES, E.; ESCOBAR, I., VALLEJO, E., TAYLOR, C.; Data Mining Applied to
Acoustic Bird Species Recognition, pp. 400-403, 18th International Conference on Pattern
Recognition (ICPR'06), 2006.
[68] VOGL, T. P., "Accelerating the convergence of the backpropagation method," Biological
Cybernetics, vol. 59, pp. 257-263, 1988.
[69] WEKA, version 3, http://www.cs.waikato.ac.nz/ml/weka/, by Ian H. Witten and Eibe Frank

(10 de Mayo 2005)
[70] WIKIPEDIA; Filtro Digital, http://es.wikipedia.org/wiki/Filtro_digital, (30 de Junio de

2006)
[71] WILDE, M.; MENON, V.; Bird call recognition using Hidden Markov Models. Technical
report. EECS Department Tulane University, 2003.
[72] WITTEN, I.; FRANK, E.; Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. 1st edition, San Francisco, California, Morgan
Kaufmann, October 11, 1999. 416 p.
[73] YOUNG, S., et al., HTK Book 3.2.1. Cambridge University Engineering Department, 2002.
[74] ZYLBERBERG, A. D.; Probabilidad y Estadística. Primera Edición. Buenos Aires,

Argentina. Editorial Nueva Librería, 2005. 624 p.
81
APÉNDICE A
Apéndice A
Tabla A3 Datos "crudos"
AnaID Identificador del análisis

Fecha en que se realizó el
Date
análisis Parámetros utilizados
Hora en la que se realizó el dentro de la aplicación
Time
análisis. (Sound Ruler [60]) para
Fólder donde se encuentra identificar el archivo que se
Path
el archivo de sonido. está analizando.
Nombre del archivo que se
Filename
analizó. Resultan irrelevantes
Frecuencia a la que se dentro del análisis ya que
tomó las muestras de una no aportan una información
SampleRate
señal análoga para ser útil para diferenciar la
convertida a digital. llamada de un ave con
Número de bits para respecto a otra.
nBits almacenar cada muestra. (8
bits, 16 bits) Incluso específicamente los
Duración del archivo de ID’s resultarían
FileDuration
audio que se analiza perjudiciales si los
Número de secciones en utilizamos en los
TotalSections los que se dividió el algoritmos ya que
archivo. formarían parte de la
Inicio de la sección que se información para
SectStart diferenciar a un ave de
está analizando.
Duración de la sección que otra, lo cual a
SectDur evidentemente es
se está analizando.
Comentarios introducidos incorrecto.
Comments
por el usuario.
CallID Identificador de llamada
Número de llamadas que se Puede resultar de utilidad
TotalCalls
hicieron en la sección de siempre y cuando todas las
82
tiempo seleccionada, es pruebas se manejen con la

decir, la muestra que se sección del mismo tamaño,
está analizando. de esta forma podremos
identificar algún patrón de
qué tantas llamadas hace
determinada ave ya sea por
sesión de llamadas o en un
intervalo de tiempo dado.
Número de pulsos que se
TotalPulses
realizaron en la llamada.
Nos muestra la posición
dentro de la gráfica (en
tiempo) donde se encuentra
CallPeakPos
la amplitud máxima que se
generó dentro de la
llamada.
Amplitud máxima
PulsePeak
alcanzada por el pulso.
Estas variables nos ayudan
a identificar la forma de la
Pos_0_Beg campana de la amplitud
Pos_10_Beg conforme se va formando
Pos_50_Beg (de 0% al pico y del pico al
PosPeak final)
Pos_90_End
Pos_50_End
Pos_10_End
Pos_0_End
RMS (Root Mean Square)

se refiere a la presión del
sonido promedio en un
tiempo dado, la cual se
explicó anteriormente.
RMS_0-10_Beg
RMS_10-50_Beg
La presión del sonido se
RMS_50-90_Beg
refiere a la presión extra
RMS_90-Peak_Beg
que se genera a causa del
RMS_Peak-90_End
sonido (Presión
RMS_90-50_End
atmosférica – Presión
RMS_50-10_End
actual)
RMS_10-0_End
Estas variables nos ayudan
a identificar la presión con
la que se emite cada
llamada.
83
Tabla A4 Datos resumidos
La descartamos, ya
Al momento del análisis el archivo se que no es relevante
Section Number divide en secciones de tiempo, esta variable conocer la sección
nos indica qué sección estamos analizando. dentro del archivo que
se está analizando.
Posición (tiempo) en la que inicia la Irrelevante para el
Section Start
sección. análisis.
El tiempo que dura la sección. Ésta es Irrelevante para el
Section Duration
predefinida por el usuario. análisis
Es posible que existan
cambios en los
patrones de una
llamada a otra ya sea
entre especies o
El número de llamada que se está
Call Number dentro de la misma
analizando.
especie, por lo que
resulta de interés
saber el número de
llamada del que se
trata.
Se refiere al tiempo en el que la llamada Es probable que este
alcanza su máxima amplitud de onda. tiempo pueda variar
Call Peak Time entre especies. Un
patrón importante a
analizar.
El pulso se refiere a un impulso de sonido
emitido por el ave durante la llamada. El
ave puede tener uno o varios pulsos dentro
Pulse Number de una misma llamada.
Esta variable se refiere al número de pulso

dentro de la llamada que se está analizando.
La amplitud relativa del pulso en
RelPulsePeak
comparación con la amplitud de la llamada.
Estas variables se refieren a la duración del
pulso en cierto rango de la llamada. Es Esto nos ayuda a
posible que algunas aves tengan al identificar patrones de
PulDur_0
principio de la llamada una duración de “comportamiento” en
PulDur_10
pulso más cortas y al final una más larga, o el pulso al momento
PulDur_50
que sean equivalentes o viceversa. de emitir la llamada
PulDur_90
según la especie de
ave que se analiza.
84
Intervalo de tiempo vacío existente entre

PulInter pulsos de la misma llamada.
PulPeriod Periodo entre los picos de cada pulso.
Se refiere a la duración que tiene el pulso

con respecto al periodo existente.
PulDuty De alguna forma analiza que tan chico es el
pulso en relación al tiempo que tarda en
repetirse.
Es una medida que se toma a partir del pico
CrestFactor del pulso y el error cuadrático medio de la
presión que genera (RMS).
Característica
probablemente
Ener_0-10_Beg
importante para poder
Ener_10-50_Beg
En este caso se analiza la cantidad de identificar una
Ener_50-90_Beg
energía que causa el disturbio en el aire llamada, ya que se
Ener_90_Peak_Beg
provocando las ondas de sonido. El ave pueden estar
Ener_Peak-90_End
puede cambiar la cantidad de energía a lo generando diferentes
Ener_90-50_End
largo de la llamada. patrones en la energía
Ener50-10_End
utilizada para emitir
Ener_10-0_End
la llamada a lo largo
del tiempo que dura.
La frecuencia del pulso que más domina en el transcurso de la
PulseDomFreq
llamada.
Se refiere a la frecuencia fundamental de la llamada (es decir, la
PulseFundFreq
frecuencia unitaria).
PulseMinFreq El valor mínimo de la frecuencia dominante en el pulso.
PulseMaxFreq El valor máximo de la frecuencia dominante en el pulso.
PulseOnFreq Frecuencia en la cual empieza el pulso de la señal.
PulseOffFreq Frecuencia con la cual termina el pulso de la señal.
Se refiere al tiempo en el pulso en el cual se alcanza la mitad de la
PulseHalfFM
modulación de la frecuencia
Esta variable nos ayuda a analizar la forma del pulso en su pico
dentro de la llamada. Mencionándonos el ancho del pulso al 50%
del pico.
PulseWd_50_summ
Ancho del pico al 10% del pico del pulso.

PulseWd_10_summ
relAmpl_H1 El armónico es el tono de sonido cuya frecuencia es múltiplo de la

relAmpl_H2 frecuencia fundamental.
85
relAmpl_H3 En este caso estas 3 variables nos describen la amplitud relativa de

la onda con respecto al primer, segundo y tercer armónico.

DocsTec 4895

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DocsTec 4895

Cargado por

Copyright:

Formatos disponibles

1

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY

APLICACIÓN Y COMPARACIÓN DE METODOLOGÍAS DE LA

TESIS QUE PARA OPTAR EL GRADO DE

ERIKA VILCHES GONZÁLEZ

Asesor: Dr. EDGAR EMMANUEL VALLEJO CLEMENTE

Comité de tesis: Dra. MARÍA DE LOS ÁNGELES JUNCO REY

Atizapán de Zaragoza, Edo. Méx., Agosto de 2006.

Autor: Erika Vilches González

Nombre de la Tesis: Aplicación y Comparación de Metodologías de la Inteligencia Artificial y

Fecha: Agosto 2006 Número de Páginas: 85

Asesor: Dr. Edgar Emmanuel Vallejo Clemente

En este trabajo, se explora la aplicación de técnicas de la Inteligencia Artificial y la

Author: Erika Vilches González

Date: August 2006 Number of Pages: 85

Supervisor: Dr. Edgar Emmanuel Vallejo Clemente

4.5.2 J4.8, ID3 Y Naive-Bayes ..........................................................................................57

Fig. 1 Micronodo de un arreglo de sensores (Original en colores). [63] .....................................12

Fig. 28 Clasificación Retropropagación del Error con Levenberg-Marquardt (Original en

Tabla 1 Filtro pasa-bajos y pasa-altos por especie ......................................................................54

Las observaciones de plantas y animales se encuentran en el corazón de la Ecología para

El reconocimiento de la especie a la que pertenece un canto de ave se ha realizado hasta la

Es por lo anterior que el desarrollo de herramientas tanto de “hardware” como de

Fig. 1 Micronodo de un arreglo de sensores (Original en colores). [63]

Fig. 2 Arquitectura típica de un sistema de monitoreo ambiental (Original en colores). [63]

Actualmente existen algunas herramientas para el reconocimiento de individuos que han

Como se menciona en el siguiente capítulo, algunas de estas técnicas ya han sido

1.2 PLANEAMIENTO DEL PROBLEMA

El reconocimiento se delimita a tres especies presentes en esta reserva ecológica: "Taraba

Para realizar el reconocimiento se utilizaron diversas técnicas de la inteligencia artificial,

Fig. 3 Taraba major Fig. 4 Cercomacra tyrannina

Fig. 5 Thamnophilus doliatus

reconocimiento de individuos y algoritmos de localización proporcionarán los medios para

Para alcanzar el objetivo de este trabajo, es decir, identificar al mejor algoritmo de la

Fig. 6 División en sub-objetivos - diagrama de bloques (Original en colores).

1.4 CONTRIBUCIONES ESPERADAS

En el presente trabajo se propone la utilización de técnicas de minería de datos, los

Se explora también la utilización de otros algoritmos de la minería de datos, como las

En el caso de las Reglas de Asociación, se espera encontrar relaciones o reglas que

1.4 ORGANIZACIÓN DEL DOCUMENTO

Este trabajo se encuentra organizado de la siguiente forma:

Capítulo 1 – Introducción. En este capítulo se analizan las generalidades, se realiza el

Capítulo 3 – Modelo Propuesto. En este capítulo se especifican los algoritmos que se

Capítulo 4 – Experimentos Realizados. En este capítulo se especifican los detalles de los

Capítulo 5 – Resultados Obtenidos, Análisis y Discusión. En este capítulo se analizan y

Capítulo 6 – Conclusiones y Trabajo a Futuro. En este capítulo se selecciona al mejor

Este trabajo surge a partir de la identificación de la necesidad del desarrollo de

La automatización del proceso de reconocimiento es particularmente importante debido a

2.1 TRABAJOS PREVIOS

Pocos estudios se han realizado sobre el reconocimiento automatizado de especies de

En la primer configuración se utilizaron 5 especies de aves y se obtuvo una eficiencia

reconocer las especies de aves comparando representaciones sinusoidales simples de sílabas

En el trabajo de Nelson [51] se estudia la capacidad discriminativa de 14 distintas

En el trabajo de McIlraith [43] se trabaja con Redes Neuronales de Retropropagación del

a clasificar y con un número grande de atributos es relativamente alto, lo que complica su

2.2 EL CANTO DE LAS AVES

2.2.1 PRODUCCIÓN DE SONIDO

2.2.1 Producción de sonido

Fig. 7 El Syrinx, órgano vocal de un ave (Original en colores). [58]

Sin embargo, la complejidad de las canciones de las distintas especies no está

El aprendizaje implica que la actividad cerebral debe ser compleja en el control de la

2.2.2 COMUNICACIÓN DE AVES