Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1st Alfonso Duarte 2nd Juan Pablo Garcı́a 3rd Juan Pablo Quezada
Estudiante Ing Civil Informática Estudiante Ing Civil Informática Estudiante Ing Civil Informática
Universidad Católica de Temuco Universidad Católica de Temuco Universidad Católica de Temuco
Temuco, Chile Temuco, Chile Temuco, Chile
aduarte2017@alu.uct.cl jgarcia2017@alu.uct.cl jquezada2017@alu.uct.cl
Resumen—A través de este artı́culo nos introduciremos en para este caso 0.001(3 estrellas). En el segundo modelo, se
el mundo de la música, presentando dos modelos de regresión utilizaron como base las variables de mayor correlación con
lineal múltiples, donde se intentará buscar una relación y/o la variable dependiente denominada “popularidad”, luego se
ajustar dichos modelos lineales entre las variables dependientes
que posee una canción y la variable independiente(popularidad). fueron eliminando variables que no eran influyentes según
Dicho de otra forma se busca comparar las caracterı́sticas de el criterio valor R2 ajustado. Cabe mencionar que este valor
los resultados obtenidos en ambos modelos para luego generar determina el grado de intensidad o efectividad que tienen las
futuras predicciones que aporten al mundo musical a través de variables independientes en explicar la variable dependiente.
la ciencia. Teniendo en cuenta lo anterior se eliminan estas variables, de
modo que el grado de intensidad no fluctúe negativamente.
I. P LANTEAMIENTO DEL PROBLEMA
La música ha sido objeto de estudio durante décadas, IV. P RESENTACI ÓN Y A N ÁLISIS DE R ESULTADOS
uno de los logros más llamativos actualmente fue el que Para comenzar a analizar estos datos, fue necesario tener
realizó el equipo de Shazam “ver [1]”, el cual logró crear una visión generalizada de estos, lo que significa, que una
un algoritmo que de cierta forma extrae una huella digital de las primeras cosas que se realizó, fue verificar la variable
de cada canción, para ası́ facilitar una búsqueda mediante popularidad en un gráfico de distribución.
grabación, esta compañı́a logró comparar audios a partir de
sus caracterı́sticas, lo que lleva a preguntarnos, ¿Será posible
ver que tan popular puede ser una canción a partir de las
propiedades musicales que esta misma posee?.
Cuadro I
Dependent variable:
Figura 6. Gráfico dispersión(caso 1)) popularity
(1) (2)
ı̈..genre 0.159∗∗
(0.069)
En el primer caso, se ve una dispersión completamente
aleatoria lo cual nos dice que no aporta nada, y tomando en track name −0.082∗∗
(0.035)
cuenta la naturaleza de las variables tiene bastante sentido,
puesto que anteriormente una era categórica. acousticness −12.632∗∗∗ −12.745∗∗∗
(1.962) (2.241)
energy −9.409
(6.420)
mode 3.246∗∗∗
(1.053)
En el segundo caso se observa que existe un patrón del cual Observations 1,000 1,000
R2 0.311 0.332
si podemos sacar información, aunque puede que la regresión Adjusted R2 0.306 0.324
lineal no sea la mejor forma de extraerla. Residual Std. Error 15.936 (df = 992) 15.735 (df = 987)
∗∗∗ ∗∗∗
F Statistic 63.981 (df = 7; 992) 40.823 (df = 12; 987)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01
Revisando con detalle el cuadro 1 anterior. Al seguir con Finalmente, en el siguiente gráfico se muestran las predic-
ambas metodologı́as, se puede observar que estas resultan ciones correspondientes al modelo. Y es posible afirmar que en
en modelos bastantes similares, donde se ocupan las mismas comparación a los datos obtenidos del dataset, los resultados
variables, pero observando que lo único diferente es que en señalados en el gráfico no cumplen con alcanzar los puntos
uno de los modelos, se agregan variables distintas que causan altos, que indican mayor popularidad. Es decir, el modelo no es
una variación notoria en los resultados. Siguiendo con las preciso para calcular canciones exitosas, por lo que no cumple
metodologı́a explicadas, cabe señalar que el primer modelo el objetivo principal.
resultó solo con variables significativas, mientras que el otro
resultó con variables que aportan de forma positiva al valor
R2 ajustado.
Para que una regresión sea efectiva, esta debe cumplir que
en los residuos observados en el gráfico no se visualice ningún
patrón. Tomando en cuenta lo anterior, se puede afirmar que
en este caso, si existe un patrón, aunque no se muestre muy
definido, por lo que se podrı́a afirmar que no hay completa
linealidad ni homocedasticidad.
V. C ONCLUSI ÓN
Desde un principio los datos presentaban indicios de una
Figura 9. Gráfico de residuos baja relación con respecto al tema de estudio lo que nos indica
que el modelo quizá no resulte preciso.
Teóricamente un gráfico Cuantil-Cuantil en un modelo Revisando los gráficos de dispersión se observó que quizás
lineal, permite observar cuán cerca está la distribución de un la regresión lineal no sea el modelo más adecuado pero aun
conjunto de datos a alguna distribución ideal. ası́ se continuó el análisis con este para ver de qué es capaz.
Las predicciones del modelo resultaron ser lo que desde un
principio esperábamos, teniendo un gran margen de error con
respecto a los datos reales. Gracias al gráfico se apreció que
las predicciones tienden a estar centradas los cuales son signos
de sesgo, esto se puede deber a distintos factores y nosotros
creemos que el más importante fue la elección de modelo a
utilizar.
Con esto podemos concluir que el objetivo no fue cumplido
puesto que nuestro modelo tiene problemas a la hora de
calcular canciones muy “exitosas” ası́ como también las que
no lo son tanto, resultando como se dijo anteriormente en una
centralización de datos la cual es para nada representativa.
Figura 10. Gráfico cuantil-cuantil