Duarte Garcia Quezada

Modelos de Regresión Lineal
1st Alfonso Duarte 2nd Juan Pablo Garcı́a 3rd Juan Pablo Quezada
Estudiante Ing Civil Informática Estudiante Ing Civil Informática Estudiante Ing Civil Informática
Universidad Católica de Temuco Universidad Católica de Temuco Universidad Católica de Temuco
Temuco, Chile Temuco, Chile Temuco, Chile
aduarte2017@alu.uct.cl jgarcia2017@alu.uct.cl jquezada2017@alu.uct.cl
Resumen—A través de este artı́culo nos introduciremos en para este caso 0.001(3 estrellas). En el segundo modelo, se
el mundo de la música, presentando dos modelos de regresión utilizaron como base las variables de mayor correlación con
lineal múltiples, donde se intentará buscar una relación y/o la variable dependiente denominada “popularidad”, luego se
ajustar dichos modelos lineales entre las variables dependientes
que posee una canción y la variable independiente(popularidad). fueron eliminando variables que no eran influyentes según
Dicho de otra forma se busca comparar las caracterı́sticas de el criterio valor R2 ajustado. Cabe mencionar que este valor
los resultados obtenidos en ambos modelos para luego generar determina el grado de intensidad o efectividad que tienen las
futuras predicciones que aporten al mundo musical a través de variables independientes en explicar la variable dependiente.
la ciencia. Teniendo en cuenta lo anterior se eliminan estas variables, de
modo que el grado de intensidad no fluctúe negativamente.
I. P LANTEAMIENTO DEL PROBLEMA
La música ha sido objeto de estudio durante décadas, IV. P RESENTACI ÓN Y A N ÁLISIS DE R ESULTADOS
uno de los logros más llamativos actualmente fue el que Para comenzar a analizar estos datos, fue necesario tener
realizó el equipo de Shazam “ver [1]”, el cual logró crear una visión generalizada de estos, lo que significa, que una
un algoritmo que de cierta forma extrae una huella digital de las primeras cosas que se realizó, fue verificar la variable
de cada canción, para ası́ facilitar una búsqueda mediante popularidad en un gráfico de distribución.
grabación, esta compañı́a logró comparar audios a partir de
sus caracterı́sticas, lo que lleva a preguntarnos, ¿Será posible
ver que tan popular puede ser una canción a partir de las
propiedades musicales que esta misma posee?.
II. P LANTEAMIENTO DEL O BJETIVO

Se propone encontrar las variables más importantes que
influyen en la popularidad de una canción y a partir de
estas crear un modelo matemático que permita predecir la
popularidad.
III. M ETODOLOG ÍA

Desde una base de datos proveniente de Spotify, se obtiene
una lista de canciones que se escucharon durante un mes
X. Teniendo en cuenta lo anterior, se decide tomar una
muestra de 1000 canciones completamente aleatorias y de
valor numérico, para realizar un análisis de regresión lineal
en la cual utilizando las variables contenidas en el dataset,
se forman dos modelos distintos para realizar comparaciones
entre ellos, y ası́ determinar cual de estos es más efectivo a la
hora de predecir resultados. Dicho de otra forma: determinar
los pro y contras de cada modelo. El primero de estos consistió
en tomar todas las variables supuestamente independientes,
y mediante un proceso sistemático, el cual consistı́a en ir Figura 1. Gráfico de densidad (popularidad)
eliminando las variables menos significativas, hasta llegar a
un modelo en el que todas sus variables cumplan con el
criterio de tener un valor ”p”menor a lo que se impuso,
Para que un modelo lineal haga buenas predicciones se
necesita que las variables tengan algún tipo de relación con
respecto a la variable dependiente.
Figura 2. Scatter plot entre todas las variables.
En el gráfico de dispersión visto con anterioridad, no se Figura 4. Matriz de correlación

aprecian patrones bien definidos con respecto a ”popularidad”,
lo que ya indica que las variables tienen una baja correlación,
por no decir casi nula.
Figura 3. Gráfico de cajas
Gracias a los gráficos de caja, podemos ver que nuestros

Figura 5. Grafico de densidad(variables mas importantes)
datos contienen muchos valores atı́picos, lo cual afectará de
forma directa la desviación y el sesgo de nuestro modelo.
Para seguir la idea de la figura 3, se utilizó un gráfico de
En el siguiente gráfico de correlación procedimos a analizar densidad, en el cual se pueden ver las distribuciones de las
el nivel de relación que puede o no existir entre las variables variables más relevantes, observando que muy pocas siguen
supuestamente independientes y la variable dependiente ”Po- una distribución cercana a la normal.
pularidad”.
En la figura 2 se observó que no existen patrones bastante
visibles, aunque con la matriz de correlación se demuestra
que si existe una, aunque muy baja, por lo que se aprecian
dos casos distintos entre nuestras variables, siendo ambos no
tan favorables para nuestro modelo.
Figura 8. Nueva matriz de tabla correlación
como se puede observar las relaciones disminuyeron des-

pués de realizar transformaciones a algunas variables.
Cuadro I
Dependent variable:
Figura 6. Gráfico dispersión(caso 1)) popularity
(1) (2)
ı̈..genre 0.159∗∗
(0.069)
En el primer caso, se ve una dispersión completamente
aleatoria lo cual nos dice que no aporta nada, y tomando en track name −0.082∗∗
(0.035)
cuenta la naturaleza de las variables tiene bastante sentido,
puesto que anteriormente una era categórica. acousticness −12.632∗∗∗ −12.745∗∗∗
(1.962) (2.241)
danceability −34.399∗∗∗ −31.227∗∗∗

(7.569) (7.595)
energy −9.409
(6.420)
duration ms −701,546.100∗∗∗ −658,608.400∗∗∗

(187,521.900) (185,967.000)
instrumentalness −7.157∗∗∗ −6.812∗∗∗

(1.934) (1.925)
liveness −16.799∗∗∗ −14.011∗∗∗

(2.618) (2.842)
loudness −0.781∗∗∗ −0.910∗∗∗

(0.137) (0.180)
mode 3.246∗∗∗
(1.053)
valence −16.939∗∗∗ −15.421∗∗∗

(2.345) (2.434)
time signature 3.162∗∗

(1.296)
Figura 7. Gráfico dispersión(caso 2)
Constant 91.736∗∗∗ 75.976∗∗∗
(5.426) (8.181)
En el segundo caso se observa que existe un patrón del cual Observations 1,000 1,000
R2 0.311 0.332
si podemos sacar información, aunque puede que la regresión Adjusted R2 0.306 0.324
lineal no sea la mejor forma de extraerla. Residual Std. Error 15.936 (df = 992) 15.735 (df = 987)
∗∗∗ ∗∗∗
F Statistic 63.981 (df = 7; 992) 40.823 (df = 12; 987)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01
Revisando con detalle el cuadro 1 anterior. Al seguir con Finalmente, en el siguiente gráfico se muestran las predic-
ambas metodologı́as, se puede observar que estas resultan ciones correspondientes al modelo. Y es posible afirmar que en
en modelos bastantes similares, donde se ocupan las mismas comparación a los datos obtenidos del dataset, los resultados
variables, pero observando que lo único diferente es que en señalados en el gráfico no cumplen con alcanzar los puntos
uno de los modelos, se agregan variables distintas que causan altos, que indican mayor popularidad. Es decir, el modelo no es
una variación notoria en los resultados. Siguiendo con las preciso para calcular canciones exitosas, por lo que no cumple
metodologı́a explicadas, cabe señalar que el primer modelo el objetivo principal.
resultó solo con variables significativas, mientras que el otro
resultó con variables que aportan de forma positiva al valor
R2 ajustado.
Para que una regresión sea efectiva, esta debe cumplir que
en los residuos observados en el gráfico no se visualice ningún
patrón. Tomando en cuenta lo anterior, se puede afirmar que
en este caso, si existe un patrón, aunque no se muestre muy
definido, por lo que se podrı́a afirmar que no hay completa
linealidad ni homocedasticidad.
Figura 11. Datos reales vs predicción
V. C ONCLUSI ÓN
Desde un principio los datos presentaban indicios de una
Figura 9. Gráfico de residuos baja relación con respecto al tema de estudio lo que nos indica
que el modelo quizá no resulte preciso.
Teóricamente un gráfico Cuantil-Cuantil en un modelo Revisando los gráficos de dispersión se observó que quizás
lineal, permite observar cuán cerca está la distribución de un la regresión lineal no sea el modelo más adecuado pero aun
conjunto de datos a alguna distribución ideal. ası́ se continuó el análisis con este para ver de qué es capaz.
Las predicciones del modelo resultaron ser lo que desde un
principio esperábamos, teniendo un gran margen de error con
respecto a los datos reales. Gracias al gráfico se apreció que
las predicciones tienden a estar centradas los cuales son signos
de sesgo, esto se puede deber a distintos factores y nosotros
creemos que el más importante fue la elección de modelo a
utilizar.
Con esto podemos concluir que el objetivo no fue cumplido
puesto que nuestro modelo tiene problemas a la hora de
calcular canciones muy “exitosas” ası́ como también las que
no lo son tanto, resultando como se dijo anteriormente en una
centralización de datos la cual es para nada representativa.
Figura 10. Gráfico cuantil-cuantil
Al revisar el gráfico. Se aprecia que los residuos no están R EFERENCIAS

representados con una lı́nea casi recta. Lo que indica que los [1] Avery Li-Chun Wang and Julius O. Smith, “An Industrial-Strength Audio
datos se encuentran sesgados, por lo tanto, estos no cumplen Search Algorithm”.
con la representación de una distribución normal.

Duarte Garcia Quezada

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Duarte Garcia Quezada

Cargado por

Copyright:

Formatos disponibles

Modelos de Regresión Lineal

II. P LANTEAMIENTO DEL O BJETIVO

III. M ETODOLOG ÍA

Figura 2. Scatter plot entre todas las variables.

En el gráfico de dispersión visto con anterioridad, no se Figura 4. Matriz de correlación

Figura 3. Gráfico de cajas

Gracias a los gráficos de caja, podemos ver que nuestros

Figura 8. Nueva matriz de tabla correlación

como se puede observar las relaciones disminuyeron des-

danceability −34.399∗∗∗ −31.227∗∗∗

duration ms −701,546.100∗∗∗ −658,608.400∗∗∗

instrumentalness −7.157∗∗∗ −6.812∗∗∗

liveness −16.799∗∗∗ −14.011∗∗∗

loudness −0.781∗∗∗ −0.910∗∗∗

valence −16.939∗∗∗ −15.421∗∗∗

time signature 3.162∗∗

Figura 11. Datos reales vs predicción

Al revisar el gráfico. Se aprecia que los residuos no están R EFERENCIAS

También podría gustarte