Está en la página 1de 10

Estudio Kawaii, ¿Cómo es el

comportamiento de los fanáticos del


Anime”

Nombres: Sebastián Álvarez F


Tomás Riveros
Paralelo: 102
Fecha: 13-12-2021
Profesora: Fernanda Vazques
1. Introducción:

El presente proyecto consiste en el estudio de una base de datos relacionada con el “Anime” elaborada
en el año 2020. Nuestro objetivo es analizar el comportamiento de los individuos en base a distintas
variables aportadas por la base de datos como, por ejemplo, “Rating score”, “Episodes”, “Finished”,
entre otros. Este tipo podría aportarnos de cómo influyen estas variables y otras en la decisión de las
personas a la hora de ver un anime, que si bien todos sabemos es un tipo de serie animada de origen
japonesa que se caracteriza por tener una amplia variedad de géneros, esto en búsqueda de tener un
mayor alcance o poder satisfacer lo que realmente está buscando el consumidor, un ejemplo de esto
es “The prince of tennis” o como es conocido en Latinoamérica “El príncipe del Tenis”,este anime
está basado en la historia de un adolescente prodigio en el tenis pero esto lo combina con una cierta
cuota de ciencia ficción o elementos claramente ficticios que se alejan de por sí de la realidad como
por ejemplo, el hecho que una pelota desaparezca o cree una ilusión de que esta se comporta de cierta
forma cuando realmente no es así en la vida real.

Pero bueno todo eso lo iremos desarrollando a medida vayamos desarrollando el trabajo a través de
distintas pruebas realizadas o análisis que se decidiera realizar.

2. Hipótesis de Trabajo

Se puede estipular que las personas durante períodos de recesos o en los que los niveles de ocio
aumentan o simplemente tienen el suficiente tiempo como para poder ver un anime, lo harán pudiendo
elaborar su opinión sobre estos y generar ciertos niveles de información, como por ejemplo el poder
evaluarlo o establecer una preferencia respecto a esto.

3. Objetivos

a) Objetivo General: Se busca observar si la variable “Rating Score” tiene algún tipo de
dependencia con alguna otra variable de la base de datos como serían el caso de “Duración,
n° de Episodios, Temporada de lanzamiento, n° de votos”, esto podría dar indicios de como
se comportan los usuarios o consumidores de anime.
b) Objetivos Específicos: Ver si la variable “Duración” se relaciona con el “Numero de
episodios”, con su “Ranking”, o si su tipo de influye por ejemplo si es una “Serie”, “OVA”,
“Películas”, entre otros tipos de formato de emisión.
Análisis descriptivo de la variable Y
La variable seleccionada para comenzar será el valor “Rating Score”, el cual indica como las personas
califican lo que ven en una escala determinada, por ejemplo, algunos sitios de emisión de animes lo
hacen con una clasificación de 0 a 5, mientras que Netflix usa si la persona recomienda o no lo que
vio para permitir recomendar el contenido a alguna otra persona que tenga gustos o preferencias
similares.

La Variable “Rating Score”, no cuenta con valores atípicos según el Box-Plot que se mostrara a
continuación, pero si presenta una asimetría positiva esto quiere decir que los valores presentan una
leve concentración en el lado derecho, además presenta una leve distribución plana dado que el
resultado de su curtosis es negativo además de una distribución mesocúrtica que esto quiere decir
que presenta un grado de concentración medio alrededor de los valores centrales de la variable esto
se puede apreciar en el siguiente histograma, también la variable tiene un recorrido de 1003 a 4645
y la cual su promedio es 2653.

Análisis Descriptivo de la Variable X

Describiremos las variables “Number votes” y “Duration” a través del siguiente histogramas,
podemos observar que la variable “Number votes” presenta una gran curtosis y un sesgo
positivo y la variable “Duration” presenta curtosis positiva igual que si asimetría.
A continuación se observara la correlación entre las variables usando una herramienta del programa
“R Studio”, las variables que se consideraran son “Number Votes”, “Type”, “Episodes”, “Duration”
y “Season”.

La variable con mayor índice correlación es Duration con un 47%, mientras que la variable con
menor índice correlación es Episodes con 1%.

Mediante el siguiente gráfico observaremos cómo se relaciona la variable “y” (Previamente


especificada) con la variable “Duration”, Obteniéndose que hay una gran concentración de datos
cuando “Duration” ronda cerca del valor 13.
A continuación, se realizará un modelo de regresión sin considerar variables Dummy
(variables auxiliares).

𝑅𝑎𝑡𝑖𝑛𝑔 𝑆𝑐𝑜𝑟𝑒 = 𝑏0 + 𝑏1 ∗ 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛 + 𝑏2 ∗ 𝑁𝑢𝑚𝑏𝑒𝑟 𝑉𝑜𝑡𝑒𝑠 + 𝑏3 ∗ 𝐸𝑝𝑖𝑠𝑜𝑑𝑒𝑠

Para estas variables veremos si son localmente significativas y globalmente significativas a través
de una prueba de hipótesis realizado en RStudio.

Significancia local y global

Ho: Bi = 0

Ha: Bi ≠ 0

Ratingscore= 2.328e+03 + 1.128e+01*Duration +7.282e-02*NumberVotes + 2.822e-01*Episodes

Donde todas las variables nos dan un p-value menor a 0.05 por lo que tenemos pruebas suficientes
para rechazar Ho por lo que diremos que las variables son local y globalmente significativas, además
nos arroja una bondad de ajuste del 28.57% y dado esto nuestras variables seleccionadas no son muy
buenas para explicar el Rating Score.

Para poder entender este bajo nivel de bondad de ajuste, utilizando la herramienta “R Studio”
utilizando la función VIF, analizaremos si existen problemas de multicolinealidad dejando como
valor de tope el 8.

Variables Number Votes Duration Episodes

Valor 1.094 1.097 1.003

Dado estos valores podemos concluir que no existen problemas de multicolinealidad. Ahora veremos
cómo están distribuidos los residuales a través de un histograma, como se puede observar presenta
una forma normal solo a simple vista.

Para entrar en más detalles veremos si el modelo presenta problemas de Heterocedasticidad para esto
utilizaremos un gráfico con los residuales y los valores ajustados, como se puede ver, no se presenta
una homogeneidad y
Para comprobar aún más utilizaremos el programa RStudio para utilizar el test de Breusch-Pagan
que tiene como hipótesis

h0:var(u/xi)= var(modelo)

h1:var(u/xi)=! var(modelo)

El cual nos da como resultado un p-value menor a 0.05 por lo que tenemos pruebas suficientes para
rechazar h0 por lo que las varianzas son distintas para arreglar esto usaremos los errores estándar
robustos. el cual nos arroja que no hay necesidad de eliminar ninguna variable dado que su p-value
es menor a 0.05 dándonos como resultado la siguiente función

Ratingscore= 2.3278e+03+1.1277e+01*Duration +7.2817e-02*NumberVotes +2.8217e-01*Episodes

Para ver si podemos mejorar el modelo agregaremos las variables dummy que son Type y Season.
estas variables fueron modificadas de la base de datos debido a que no tenían un número por lo que
les dimos números de identificación, para Season son 0 desconocido, 1 invierno, 2 primavera, 3
verano y 4 otoño para Type son 0 = otros, 1=tv, 2=movie, 3=DVD, 4=web, 5=música y 6=ovas.

ratingscore = b0 + b1*NumberVotes + b2*Type/type si type mayor que 0 + b3*Episodes +


b4*duration + b5*season/season si season mayor que 0

ratingscore(dummy=0): 2.3278e+03+1.1277e+01*Duration +7.2817e-02*NumberVotes +2.8217e-


01*Episodes

ratingscore(dummy>0) = 2.256e+03+ 7.254e-02*NumberVotes + 1.741e+01*Type/type + 3.089e-


01*Episodes +1.159e+01*duration +2.829e+01*season/season

A través del programa RStudio veremos si hay necesidad de borrar alguna variable a través de la
función step backward en el cual todas las variables tienen p-value menor a 0.05 por lo que tenemos
pruebas suficientes para rechazar la hipótesis nula por lo que las variables son significativas
localmente como globalmente además de una bondad de ajuste de 28.73%,, que aún sigue siendo
bajo pero ha aumentado un poco
significancia local y global

Ho: Bi = 0

Ha: Bi ≠ 0

Para ver si se puede mejorar el modelo usaremos los mismos elementos que el modelo sin las
variables dummy que son el VIF, test de Breusch-Pagan y gráficos. utilizaremos un valor aún más
bajo para el VIF que será de 5.

Variables Number Votes Duration Episodes Type Season

Valor 1.096269 1.165430 1.017464 1.079602 1.074536


Dado estos valores podemos concluir que no existen problemas de multicolinealidad.

Veremos si el modelo presenta problemas de Heterocedasticidad para esto utilizaremos


un gráfico con los residuales y los valores ajustados, como se puede ver, no se presenta
una homogeneidad.
Para comprobar aún más utilizaremos el programa RStudio para utilizar la prueba de Breusch-
Pagan que tiene como hipótesis

h0:var(u/xi)= var(modelo)

h1:var(u/xi)=! var(modelo)

El cual nos da como resultado un p-Value menor a 0.05 por lo que tenemos pruebas suficientes para
rechazar h0 por lo que las varianzas son distintas. Para arreglar esto usaremos los errores estándar
robustos. el cual nos arroja que no hay necesidad de eliminar ninguna variable dado que su p-Value
es menor a 0.05

Para mejorar aún más nuestro modelo usaremos el programa RStudio para realizar una prueba de
exclusión, esto para ver si es necesario usar las variables dummy o no. a través de un Chow test cuyo
test de hipótesis es:

H0: se mantiene el modelo con variables dummy

H1: se usa el modelo sin variables dummy

Dado que la prueba de Chow que su p-Value es menor a 0.05 tenemos la información suficiente para
usar el modelo sin variables dummy y una tabla comparativa de las varianzas como respaldo para
tomar esta decisión.

Para mejorar aún más el modelo veremos si existen valores atípicos e influyentes para eliminarlos del
modelo, quedando la función de la siguiente manera:

ratingscore(dummy=0): 2.3278e+03+1.1277e+01*Duration +7.2817e-02*NumberVotes +2.8217e-


01*Episodes

Para los valores atípicos veremos los residuales estandarizados en el cual los encontraremos si superan
en valor absoluto el valor de 3 usaremos un gráfico realizado en el programa RStudio en el cual
observaremos los valores más atípicos el 1019 y 1015.
Para los valores influyentes usaremos los siguientes criterios leverage, cook y dffits Donde usaremos
la intersección del criterio cook con deffit y luego le este valor lo interceptamos con el criterio levarge,
y después repetiremos lo mismo, pero con la unión.

Luego de realizar esto realizaremos un modelo con la unión de los valores atípicos con la intersección
de los tres criterios y otro modelo con la unión con los valores atípicos con la unión de los 3 criterios,
luego eliminaremos de los modelos los valores de la unión de las intersecciones y luego otra con la
unión de las uniones, en la cual el mayor r2 es el modelo con la eliminación de la unión de los valores
atípicos con la intersección de los 3 criterios dejando una bondad de ajuste del 33.96% el cual es
mejor del inicial, además para asegurarnos de nuestra elección usaremos otro método para comparar
que es el AIC el criterio de selección con este método es el que de el valor más bajo, y ese valor fue
el mismo modelo que se eligió con anterioridad con un valor de 124685.2.

Lo que podemos concluir con este modelo final no podemos explicar de buena manera la variable
Rating score, pero eso no quiere decir que el modelo no funcione:

Rating Score = 2.203e+03 + 3.019e-01*NumberVotes +2.627e+00* episodes + 1.218e+01*duration

Otro de los objetivos es ver si la duración está correlacionada con los episodios esto lo podemos ver
a través del gráfico de correlación que se realizó con anterioridad. según esto tienen una correlación
de -0.06 lo que quiere decir que no están tan relacionadas y son levemente inversamente
proporcionales, esto se puede ver en que las películas tienen 1 episodio y pueden durar 120 min y una
serie tiene normalmente 12 episodios y duran 23 min.

Para ver qué Type tiene mejor ranking nosotros a través de excel hicimos una tabla con el promedio
de rating score de cada variable que hay en Type, el cual tiene mejor promedio de rating score son
los DVD seguido de las películas.

N° Type Promedio rating score N° identificador

Primero DvD 3026 3

Segundo Movie 2944 2

Tercero Ovas 2935 6

Cuarto TV 2618 1

Quinto Web 2474 4

Sexto Otros 2369 0

Séptimo Musica 2216 5


Conclusión:
Luego del largo trabajo análisis y observación de los valores obtenidos, pdemos concluir que para el
estudio no es altamente necesario la presencia de variables dummy, obteniéndose un mejor modelo a
pesar de la excepción de este tipo de variables a pesar de que no explique de mejor manera las otras
tres variables.
Esto puede tener como motivo que durante el análisis de la base de datos se encontraron varios valores
nulos en la variable “Rating Score”, dado que este valor correspondía a un valor de tipo texto por lo
cual hacia que el estudio tuviera errores o no fuera posible interpretar los valores del estudio, al ser
valores nulos a la hora de obtener por ejemplo el promedio este estadístico se distorsionaba y
provocaba una perdida de significancia dado que tergiversa la base de datos.

También podría gustarte