Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Shazam AO
Shazam AO
La experiencia musical ha evolucionado drásticamente para siempre gracias a Shazam. Shazam es Con formato: Izquierda
responsable
de inventar un innovador algoritmo capaz de identificar cualquier canción solo con escuchar un breve fragmento de
esta. No importa si es el coro, si es la melodía o cualquier otra parte. Este algoritmo va más allá de encontrar
simplemente la música, es capaz de interactuar con el vasto mundo sonoro que nos rodea. Descubre cómo funciona
esta asombrosa tecnología revolucionaria a detalle. Comentado [EECQ1]: Los párrafos no deben de estar
justificados. Quitar la sangría en los párrafos principales
Shazam Entertainment, Ltd. Inició en el año 2000, con una idea que surgió de Avery Li Chun Wang (2002), Con formato: Izquierda, Sangría: Primera línea: 1.23 cm
inspirada por el nuevo formato comerciable Mp3, imaginó una realidad donde pudiera encontrar alguna canción de la Con formato: Izquierda
cual no sabe el nombre y poder comprarla en ese mismo momento, sin necesidad de tener que comprar el CD físico.
Sin embargo, cuando la piratería fue creciendo, la mejor forma de generar ingresos para Shazam fue implementar
publicidad, pero, esto causó que bajara mucho su popularidad, Apple aprovechó esto para adquirir a Shazam para
ofrecer a sus usuarios los servicios de este y sin anuncios. Esto provocó que su popularidad aumentara más que
nunca. (Apple, 2018). Comentado [EECQ2]: En el caso de palabras inglesas,
utilizar cursiva la primera vez que se utilicen.
La forma en que funciona este algoritmo es por medio de “huellas dactilares”, es un proceso en donde se Con formato: Izquierda, Sangría: Primera línea: 1.23 cm
extraen tokens hash reproducibles. Para extraer estos archivos de audio, se utiliza un espectrograma, las cuales son
presentaciones visuales de los sonidos en función del tiempo y la frecuencia (Altozano, 2019).
Universidad del Valle de Guatemala
Para comparar las grabaciones con la base de datos se utiliza el método llamado Audio Fingerprinting, pero
en verdad lo más interesante no es solo que compare las dos imágenes, si no la velocidad con la que es capaz de
hacerla.
Lo primero que realizó Wang fue analizar la grabación local convertida en espectrograma, y escoger algunos
sus picos de intensidad, el algoritmo varía la intensidad para escoger un número de picos similar por cada canción.
Tomando como ejemplo la gráfica anterior se puede ver los picos que seleccionó el algoritmo , estos picos
Esta vez no sería una comparación de 2 datos si no de 3 datos, teniendo frecuencia 1, frecuencia 2 y la
distancia a la que se encuentran estas dos. Esto permite que se tengan muchos más valores, ya que cada frecuencia es
comparada con sus frecuencias vecinas, pudiendo tener cuatro o cinco comparaciones por cada frecuencia. Esto
también hizo más robustas las bases de datos de Shazam, lo que permite que las comparaciones sean más 10 veces
más exactas y 10 veces más pesadas.
Si bien a priori no se puede notar que el tiempo de comparación haya aumentado, la realidad es que sí,
porque una sola comparación ya es mucho más especifica que antes, porque es muy difícil que más de una canción
tenga dos mismas frecuencias en una relación de tiempo, pero no solo eso, sino que, si se pudiera dar la coincidencia
de que más de dos canciones tengan la misma relación de frecuencias una con otra, el algoritmo compara todas las
relaciones con todas las frecuencias vecinas, y allí es cuando la comparación va a ser precisa, ya que ninguna otra
canción va a tener más de dos relaciones idénticas. Entonces la velocidad puede aumentar casi 10,000 veces más en
reconocer una canción. (Altozano, 2019).
Ahora que se sabe cómo funciona la forma de comparación entre dos canciones, solo falta aprender como
Shazam reconoce el fragmento grabado por el dispositivo móvil con cualquier parte de la canción a comparar. Y se
comparan por medio de coincidencias, donde se busca que la primera frecuencia junto con la segunda frecuencia
coincida, después de eso se observa en la parte de segundos en que parte de la canción coinciden, y a partir de eso
inician las comparaciones, donde por cada segundo que avance, las frecuencias comparadas coinciden por cada
segundo que pasa.
Esta imagen hace referencia a coincidencias entre relaciones de frecuencias, pero, son de forma aleatoria y
no coinciden segundo tras segundo. A diferencia de la segunda imagen.
En esta imagen se puede ver que las coincidencias si son segundo tras segundo, por lo que las dos canciones
son la misma canción.
En conclusión El algoritmo Shazam funciona tomándolas “huellas digitales” de los archivos de audio
grabados, y extrayendo tokens hash reproducibles que son los picos de intensidad más importantes de las grabaciones
y que el algoritmo selecciona de forma automática usando su sensibilidad para encontrar los picos, permitiendo así
que seleccione un número similar de picos con cada canción y comparando estas huellas digitales con un gran
conjunto derivado de una base de datos de música, los cuales también fueron procesados por el algoritmo para
encontrar los picos. A través de una comparación entre frecuencias donde se toma su relación en función del tiempo
en que tardan en sonar, el algoritmo acelera el proceso de búsqueda y garantiza resistencia al ruido y alta velocidad. Comentado [EECQ5]: .
El siguiente proceso que realiza el algoritmo es la comparación que hace entre las relaciones de frecuencias entre la
grabación y la base de datos, donde se debe obtener coincidencias segundo a segundo.
Universidad del Valle de Guatemala
comprender cómo funciona el algoritmo de reconocimiento de canciones no solo brinda claridad a los
usuarios, sino que también puede tener implicaciones significativas en términos de confianza, innovación, privacidad
y educación en el campo de la tecnología de audio. Eliminado: T
Universidad del Valle de Guatemala
Altozano, J. (2019). ¿Cómo sabe Shazam qué canción está sonando? | Jaime Altozano [YouTube
Video]. In YouTube. https://www.youtube.com/watch?v=OE4gcdjFbmc
Apple. (2018). Apple adquiere Shazam para ofrecer al usuario nuevas formas de descubrir y
escuchar música. Apple Newsroom (España). https://acortar.link/4iH1Bo
Arturo, G., & Gualberto Aguilar Torres. (2013). Reconocimiento de voz basado en MFCC, SBC
y Espectrogramas. Ingenius: Revista de Ciencia Y Tecnología, 10.
https://doi.org/10.17163/ings.n10.2013.02
Wang, A. L.-C. (2019, January 06). An Industrial-Strength Audio Search Algorithm. (L. Shazam
Entertainment, Ed.) Recuperado el 2024, de Shazam Entertainment, Ltd.:
https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf