Está en la página 1de 4

Modelos de Regresión Lineal

1st Alfonso Duarte 2nd Juan Pablo Garcı́a 3rd Juan Pablo Quezada
Estudiante Ing Civil Informática Estudiante Ing Civil Informática Estudiante Ing Civil Informática
Universidad Católica de Temuco Universidad Católica de Temuco Universidad Católica de Temuco
Temuco, Chile Temuco, Chile Temuco, Chile
aduarte2017@alu.uct.cl jgarcia2017@alu.uct.cl jquezada2017@alu.uct.cl

Resumen—A través de este artı́culo nos introduciremos en para este caso 0.001(3 estrellas). En el segundo modelo, se
el mundo de la música, presentando dos modelos de regresión utilizaron como base las variables de mayor correlación con
lineal múltiples, donde se intentará buscar una relación y/o la variable dependiente denominada “popularidad”, luego se
ajustar dichos modelos lineales entre las variables dependientes
que posee una canción y la variable independiente(popularidad). fueron eliminando variables que no eran influyentes según
Dicho de otra forma se busca comparar las caracterı́sticas de el criterio valor R2 ajustado. Cabe mencionar que este valor
los resultados obtenidos en ambos modelos para luego generar determina el grado de intensidad o efectividad que tienen las
futuras predicciones que aporten al mundo musical a través de variables independientes en explicar la variable dependiente.
la ciencia. Teniendo en cuenta lo anterior se eliminan estas variables, de
modo que el grado de intensidad no fluctúe negativamente.
I. P LANTEAMIENTO DEL PROBLEMA
La música ha sido objeto de estudio durante décadas, IV. P RESENTACI ÓN Y A N ÁLISIS DE R ESULTADOS
uno de los logros más llamativos actualmente fue el que Para comenzar a analizar estos datos, fue necesario tener
realizó el equipo de Shazam “ver [1]”, el cual logró crear una visión generalizada de estos, lo que significa, que una
un algoritmo que de cierta forma extrae una huella digital de las primeras cosas que se realizó, fue verificar la variable
de cada canción, para ası́ facilitar una búsqueda mediante popularidad en un gráfico de distribución.
grabación, esta compañı́a logró comparar audios a partir de
sus caracterı́sticas, lo que lleva a preguntarnos, ¿Será posible
ver que tan popular puede ser una canción a partir de las
propiedades musicales que esta misma posee?.

II. P LANTEAMIENTO DEL O BJETIVO


Se propone encontrar las variables más importantes que
influyen en la popularidad de una canción y a partir de
estas crear un modelo matemático que permita predecir la
popularidad.

III. M ETODOLOG ÍA


Desde una base de datos proveniente de Spotify, se obtiene
una lista de canciones que se escucharon durante un mes
X. Teniendo en cuenta lo anterior, se decide tomar una
muestra de 1000 canciones completamente aleatorias y de
valor numérico, para realizar un análisis de regresión lineal
en la cual utilizando las variables contenidas en el dataset,
se forman dos modelos distintos para realizar comparaciones
entre ellos, y ası́ determinar cual de estos es más efectivo a la
hora de predecir resultados. Dicho de otra forma: determinar
los pro y contras de cada modelo. El primero de estos consistió
en tomar todas las variables supuestamente independientes,
y mediante un proceso sistemático, el cual consistı́a en ir Figura 1. Gráfico de densidad (popularidad)
eliminando las variables menos significativas, hasta llegar a
un modelo en el que todas sus variables cumplan con el
criterio de tener un valor ”p”menor a lo que se impuso,
Para que un modelo lineal haga buenas predicciones se
necesita que las variables tengan algún tipo de relación con
respecto a la variable dependiente.

Figura 2. Scatter plot entre todas las variables.

En el gráfico de dispersión visto con anterioridad, no se Figura 4. Matriz de correlación


aprecian patrones bien definidos con respecto a ”popularidad”,
lo que ya indica que las variables tienen una baja correlación,
por no decir casi nula.

Figura 3. Gráfico de cajas

Gracias a los gráficos de caja, podemos ver que nuestros


Figura 5. Grafico de densidad(variables mas importantes)
datos contienen muchos valores atı́picos, lo cual afectará de
forma directa la desviación y el sesgo de nuestro modelo.
Para seguir la idea de la figura 3, se utilizó un gráfico de
En el siguiente gráfico de correlación procedimos a analizar densidad, en el cual se pueden ver las distribuciones de las
el nivel de relación que puede o no existir entre las variables variables más relevantes, observando que muy pocas siguen
supuestamente independientes y la variable dependiente ”Po- una distribución cercana a la normal.
pularidad”.
En la figura 2 se observó que no existen patrones bastante
visibles, aunque con la matriz de correlación se demuestra
que si existe una, aunque muy baja, por lo que se aprecian
dos casos distintos entre nuestras variables, siendo ambos no
tan favorables para nuestro modelo.

Figura 8. Nueva matriz de tabla correlación

como se puede observar las relaciones disminuyeron des-


pués de realizar transformaciones a algunas variables.

Cuadro I

Dependent variable:
Figura 6. Gráfico dispersión(caso 1)) popularity
(1) (2)
ı̈..genre 0.159∗∗
(0.069)
En el primer caso, se ve una dispersión completamente
aleatoria lo cual nos dice que no aporta nada, y tomando en track name −0.082∗∗
(0.035)
cuenta la naturaleza de las variables tiene bastante sentido,
puesto que anteriormente una era categórica. acousticness −12.632∗∗∗ −12.745∗∗∗
(1.962) (2.241)

danceability −34.399∗∗∗ −31.227∗∗∗


(7.569) (7.595)

energy −9.409
(6.420)

duration ms −701,546.100∗∗∗ −658,608.400∗∗∗


(187,521.900) (185,967.000)

instrumentalness −7.157∗∗∗ −6.812∗∗∗


(1.934) (1.925)

liveness −16.799∗∗∗ −14.011∗∗∗


(2.618) (2.842)

loudness −0.781∗∗∗ −0.910∗∗∗


(0.137) (0.180)

mode 3.246∗∗∗
(1.053)

valence −16.939∗∗∗ −15.421∗∗∗


(2.345) (2.434)

time signature 3.162∗∗


(1.296)
Figura 7. Gráfico dispersión(caso 2)
Constant 91.736∗∗∗ 75.976∗∗∗
(5.426) (8.181)

En el segundo caso se observa que existe un patrón del cual Observations 1,000 1,000
R2 0.311 0.332
si podemos sacar información, aunque puede que la regresión Adjusted R2 0.306 0.324
lineal no sea la mejor forma de extraerla. Residual Std. Error 15.936 (df = 992) 15.735 (df = 987)
∗∗∗ ∗∗∗
F Statistic 63.981 (df = 7; 992) 40.823 (df = 12; 987)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01
Revisando con detalle el cuadro 1 anterior. Al seguir con Finalmente, en el siguiente gráfico se muestran las predic-
ambas metodologı́as, se puede observar que estas resultan ciones correspondientes al modelo. Y es posible afirmar que en
en modelos bastantes similares, donde se ocupan las mismas comparación a los datos obtenidos del dataset, los resultados
variables, pero observando que lo único diferente es que en señalados en el gráfico no cumplen con alcanzar los puntos
uno de los modelos, se agregan variables distintas que causan altos, que indican mayor popularidad. Es decir, el modelo no es
una variación notoria en los resultados. Siguiendo con las preciso para calcular canciones exitosas, por lo que no cumple
metodologı́a explicadas, cabe señalar que el primer modelo el objetivo principal.
resultó solo con variables significativas, mientras que el otro
resultó con variables que aportan de forma positiva al valor
R2 ajustado.

Para que una regresión sea efectiva, esta debe cumplir que
en los residuos observados en el gráfico no se visualice ningún
patrón. Tomando en cuenta lo anterior, se puede afirmar que
en este caso, si existe un patrón, aunque no se muestre muy
definido, por lo que se podrı́a afirmar que no hay completa
linealidad ni homocedasticidad.

Figura 11. Datos reales vs predicción

V. C ONCLUSI ÓN
Desde un principio los datos presentaban indicios de una
Figura 9. Gráfico de residuos baja relación con respecto al tema de estudio lo que nos indica
que el modelo quizá no resulte preciso.
Teóricamente un gráfico Cuantil-Cuantil en un modelo Revisando los gráficos de dispersión se observó que quizás
lineal, permite observar cuán cerca está la distribución de un la regresión lineal no sea el modelo más adecuado pero aun
conjunto de datos a alguna distribución ideal. ası́ se continuó el análisis con este para ver de qué es capaz.
Las predicciones del modelo resultaron ser lo que desde un
principio esperábamos, teniendo un gran margen de error con
respecto a los datos reales. Gracias al gráfico se apreció que
las predicciones tienden a estar centradas los cuales son signos
de sesgo, esto se puede deber a distintos factores y nosotros
creemos que el más importante fue la elección de modelo a
utilizar.
Con esto podemos concluir que el objetivo no fue cumplido
puesto que nuestro modelo tiene problemas a la hora de
calcular canciones muy “exitosas” ası́ como también las que
no lo son tanto, resultando como se dijo anteriormente en una
centralización de datos la cual es para nada representativa.
Figura 10. Gráfico cuantil-cuantil

Al revisar el gráfico. Se aprecia que los residuos no están R EFERENCIAS


representados con una lı́nea casi recta. Lo que indica que los [1] Avery Li-Chun Wang and Julius O. Smith, “An Industrial-Strength Audio
datos se encuentran sesgados, por lo tanto, estos no cumplen Search Algorithm”.
con la representación de una distribución normal.

También podría gustarte