Shazam AO

Universidad del Valle de Guatemala
Facultad de Ciencias y Humanidades
Sección 10 - Comunicación efectiva
Shazam: El algoritmo que revolucionó la experiencia musical
La experiencia musical ha evolucionado drásticamente para siempre gracias a Shazam. Shazam es Con formato: Izquierda
responsable
de inventar un innovador algoritmo capaz de identificar cualquier canción solo con escuchar un breve fragmento de
esta. No importa si es el coro, si es la melodía o cualquier otra parte. Este algoritmo va más allá de encontrar
simplemente la música, es capaz de interactuar con el vasto mundo sonoro que nos rodea. Descubre cómo funciona
esta asombrosa tecnología revolucionaria a detalle. Comentado [EECQ1]: Los párrafos no deben de estar
justificados. Quitar la sangría en los párrafos principales
Shazam Entertainment, Ltd. Inició en el año 2000, con una idea que surgió de Avery Li Chun Wang (2002), Con formato: Izquierda, Sangría: Primera línea: 1.23 cm
inspirada por el nuevo formato comerciable Mp3, imaginó una realidad donde pudiera encontrar alguna canción de la Con formato: Izquierda
cual no sabe el nombre y poder comprarla en ese mismo momento, sin necesidad de tener que comprar el CD físico.
Sin embargo, cuando la piratería fue creciendo, la mejor forma de generar ingresos para Shazam fue implementar
publicidad, pero, esto causó que bajara mucho su popularidad, Apple aprovechó esto para adquirir a Shazam para
ofrecer a sus usuarios los servicios de este y sin anuncios. Esto provocó que su popularidad aumentara más que
nunca. (Apple, 2018). Comentado [EECQ2]: En el caso de palabras inglesas,
utilizar cursiva la primera vez que se utilicen.
La forma en que funciona este algoritmo es por medio de “huellas dactilares”, es un proceso en donde se Con formato: Izquierda, Sangría: Primera línea: 1.23 cm
extraen tokens hash reproducibles. Para extraer estos archivos de audio, se utiliza un espectrograma, las cuales son
presentaciones visuales de los sonidos en función del tiempo y la frecuencia (Altozano, 2019).

Los espectrogramas son gráficos en 3 Comentado [EECQ3]: Citar las imágenes de otra forma.
dimensiones siendo el eje vertical las frecuencias que van Evitar la forma que usaste para citar puede llegar a ser algo
confusa, mejor utiliza una estructura más coherente como
desde más graves a más agudas, el eje horizontal representa enumerarlas de 1 al 10 por ejemplo.
el tiempo, y el color indica la intensidad del volumen en el
que el color rojo representa los picos de intensidad y el color Con formato: Izquierda, Sangría: Primera línea: 0 cm
azul sonidos más suaves. (Arturo & Gualberto Aguilar Comentado [EECQ4]: Evitar crear párrafos de pocas
Torres, 2013). oraciones
Shazam aprovecha el espectrograma porque analiza

el archivo de audio que se graba con el teléfono y
lo compara con una gran base de datos de canciones
conocidas para identificar patrones y características
que son únicas para cada canción. (Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 1A).
Para comparar las grabaciones con la base de datos se utiliza el método llamado Audio Fingerprinting, pero
en verdad lo más interesante no es solo que compare las dos imágenes, si no la velocidad con la que es capaz de
hacerla.
Lo primero que realizó Wang fue analizar la grabación local convertida en espectrograma, y escoger algunos
sus picos de intensidad, el algoritmo varía la intensidad para escoger un número de picos similar por cada canción.
Tomando como ejemplo la gráfica anterior se puede ver los picos que seleccionó el algoritmo , estos picos
representan los datos más importantes de la

canción ya que organiza los picos de intensidad en
frecuencia y tiempo, (como una gráfica lineal).
Entonces el algoritmo empezaba a
comparar si las frecuencias de la grabación
correspondían a las frecuencias de la base de datos
de Shazam y sonaban en el mismo segundo, sin
embargo, esta solución fue desechada rápidamente
porque era un proceso muy lento y no era para
nada preciso. Wang no se rindió y aprovechando
sus avances mejoró el algoritmo para que sus
resultados fueran exactos.
Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 1B.
Esta vez no sería una comparación de 2 datos si no de 3 datos, teniendo frecuencia 1, frecuencia 2 y la
distancia a la que se encuentran estas dos. Esto permite que se tengan muchos más valores, ya que cada frecuencia es
comparada con sus frecuencias vecinas, pudiendo tener cuatro o cinco comparaciones por cada frecuencia. Esto
también hizo más robustas las bases de datos de Shazam, lo que permite que las comparaciones sean más 10 veces
más exactas y 10 veces más pesadas.
Si bien a priori no se puede notar que el tiempo de comparación haya aumentado, la realidad es que sí,
porque una sola comparación ya es mucho más especifica que antes, porque es muy difícil que más de una canción
tenga dos mismas frecuencias en una relación de tiempo, pero no solo eso, sino que, si se pudiera dar la coincidencia
de que más de dos canciones tengan la misma relación de frecuencias una con otra, el algoritmo compara todas las
relaciones con todas las frecuencias vecinas, y allí es cuando la comparación va a ser precisa, ya que ninguna otra
canción va a tener más de dos relaciones idénticas. Entonces la velocidad puede aumentar casi 10,000 veces más en
reconocer una canción. (Altozano, 2019).
Ahora que se sabe cómo funciona la forma de comparación entre dos canciones, solo falta aprender como
Shazam reconoce el fragmento grabado por el dispositivo móvil con cualquier parte de la canción a comparar. Y se
comparan por medio de coincidencias, donde se busca que la primera frecuencia junto con la segunda frecuencia
coincida, después de eso se observa en la parte de segundos en que parte de la canción coinciden, y a partir de eso
inician las comparaciones, donde por cada segundo que avance, las frecuencias comparadas coinciden por cada
segundo que pasa.
Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 2A.

Esta imagen hace referencia a coincidencias entre relaciones de frecuencias, pero, son de forma aleatoria y
no coinciden segundo tras segundo. A diferencia de la segunda imagen.
Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 3A.
En esta imagen se puede ver que las coincidencias si son segundo tras segundo, por lo que las dos canciones
son la misma canción.
En conclusión El algoritmo Shazam funciona tomándolas “huellas digitales” de los archivos de audio
grabados, y extrayendo tokens hash reproducibles que son los picos de intensidad más importantes de las grabaciones
y que el algoritmo selecciona de forma automática usando su sensibilidad para encontrar los picos, permitiendo así
que seleccione un número similar de picos con cada canción y comparando estas huellas digitales con un gran
conjunto derivado de una base de datos de música, los cuales también fueron procesados por el algoritmo para
encontrar los picos. A través de una comparación entre frecuencias donde se toma su relación en función del tiempo
en que tardan en sonar, el algoritmo acelera el proceso de búsqueda y garantiza resistencia al ruido y alta velocidad. Comentado [EECQ5]: .
El siguiente proceso que realiza el algoritmo es la comparación que hace entre las relaciones de frecuencias entre la
grabación y la base de datos, donde se debe obtener coincidencias segundo a segundo.
Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 1C.
comprender cómo funciona el algoritmo de reconocimiento de canciones no solo brinda claridad a los
usuarios, sino que también puede tener implicaciones significativas en términos de confianza, innovación, privacidad
y educación en el campo de la tecnología de audio. Eliminado: T

Referencias:
Altozano, J. (2019). ¿Cómo sabe Shazam qué canción está sonando? | Jaime Altozano [YouTube
Video]. In YouTube. https://www.youtube.com/watch?v=OE4gcdjFbmc
Apple. (2018). Apple adquiere Shazam para ofrecer al usuario nuevas formas de descubrir y
escuchar música. Apple Newsroom (España). https://acortar.link/4iH1Bo
Arturo, G., & Gualberto Aguilar Torres. (2013). Reconocimiento de voz basado en MFCC, SBC
y Espectrogramas. Ingenius: Revista de Ciencia Y Tecnología, 10.
https://doi.org/10.17163/ings.n10.2013.02
Wang, A. L.-C. (2019, January 06). An Industrial-Strength Audio Search Algorithm. (L. Shazam
Entertainment, Ed.) Recuperado el 2024, de Shazam Entertainment, Ltd.:
https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf

Shazam AO

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Shazam AO

Cargado por

Copyright:

Formatos disponibles

Universidad del Valle de Guatemala

Facultad de Ciencias y Humanidades

Sección 10 - Comunicación efectiva

Shazam: El algoritmo que revolucionó la experiencia musical

Facultad de Ciencias y Humanidades

Sección 10 - Comunicación efectiva

Shazam aprovecha el espectrograma porque analiza

representan los datos más importantes de la

Facultad de Ciencias y Humanidades

Sección 10 - Comunicación efectiva

Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 2A.

Facultad de Ciencias y Humanidades

Sección 10 - Comunicación efectiva

Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 3A.

Facultad de Ciencias y Humanidades

Sección 10 - Comunicación efectiva

Wang, 2019, An Industrial-Strength Audio Search Algorithm. Figura 1C.

Facultad de Ciencias y Humanidades

También podría gustarte