Está en la página 1de 3

Predicción de preferencias mediante DSV y

Reducción de Dimensionalidad.
García Medina Leonardo David.
Universidad Central del Ecuador
Facultad de Ciencias
Ingeniería Matemática
ldgarcia@uce.edu.ec
Abstract.- This document presents a work of prediction of preferences of movies in the application Netflix by means
of the use of decomposition of counterfoils in singular values (DVS) and matrix approximation of low range,
specifically, of range. There used the program R for the study of the gathered information.
Keywords: singular values, dimensionality

Resumen. – Este documento presenta un trabajo de clasificación de datos mediante .


Palabras Clave: valores singulares, dimensionalidad.

donde 𝑈 es la matriz de 𝑛 × 𝑝 cuyas columnas son


I. INTRODUCCIÓN vectores ortonormales, 𝐷𝑠 es una matriz diagonal 𝑝 ×
En la actualidad, la industria del entretenimiento ha 𝑝 con los valores singulares:
tenido un crecimiento enorme, más en el sector de
televisión, cine y documentales, actualmente liderado 𝑠1 ≥ ⋯ ≥ 𝑠𝑟 ≥ 𝑠𝑟+1 = ⋯ = 𝑠𝑝 = 0; si 𝑟 < 𝑝
por aplicaciones como Netflix, Crackle, y más, a tal (2)
punto que compañías como Fox y HBO se han
decidido a la creación de sus propias aplicaciones para y 𝑉 es una matriz 𝑝 × 𝑝 ortogonal.
no perder este mercado en un campo relativamente
nuevo. Definición 2.- Si 𝐴 es una matriz de orden n× 𝑝 con
Así como este nuevo mercado atrae no sólo a 𝑛 ≥ 𝑝. Se llama inversa generalizada de 𝐴 o g-inversa,
nuevos consumidores sino también a inversionistas y a una matriz 𝐴− que verifica:
artistas, lo cual para las compañías involucradas
significa muchas propuestas e ideas a las cuales se debe 𝐴𝐴− 𝐴 = 𝐴 (3)
primero estudiar las tendencias en gustos y las
preferencias de los usuarios. La g-inversa no es única, pero si 𝐴− verifica,
además:
II. MATERIALES Y MÉTODOS
Para realizar el presente trabajo, hemos requerido 𝐴− 𝐴𝐴− = 𝐴− (4)
de: una base de datos de las puntuaciones dadas por
diferentes usuarios a películas de Aventura y Ciencia (𝐴𝐴− )´ = 𝐴𝐴− (5)
Ficción y de sus preferencias individuales; uso de las
definiciones del análisis de datos en base a la (𝐴− 𝐴)′ = 𝐴− 𝐴 (6)
Descomposición por Valores Singulares (DVS) y un
software con enfoque al análisis estadístico. entonces la g-inversa 𝐴− es única.
A. Datos Definición 3.- Sea 𝑟𝑎𝑛𝑔𝑜(𝐴) = 𝑟 y 𝐴 = 𝑈𝐷𝑠 𝑉′ la
Se ha obtenido una base de datos de las descomposición singular de 𝐴, con:
puntuaciones otorgadas a ciertas películas por
diferentes usuarios y las preferencias individuales de 𝐷𝑠 = 𝑑𝑖𝑎𝑔(𝑠1 , 𝑠2 , … , 𝑠𝑟 , 0, … , 0). (7)
éstos.
Esta base de datos se obtuvo en Cinesift. Entonces
B. Teoría y Definiciones
𝐷𝑠 − = 𝑑𝑖𝑎𝑔(𝑠1 −1 , 𝑠2 −1 , … , 𝑠𝑟 −1 , 0, … , 0) (8)
A continuación, se presentan las definiciones
pertinentes para la realización del presente trabajo: y la matriz 𝑝 × 𝑛
Definición 1.- Sea 𝐴 una matriz de 𝑛 × 𝑝 con 𝑛 ≥ 𝐴− = 𝑉𝐷𝑠 − 𝑈′ (9)
𝑝. Se llama descomposición en valores singulares de 𝐴
a: es una g-inversa de 𝐴. En efecto:
𝐴 = 𝑈𝐷𝑠 𝑉′ (1) 𝐴𝐴− 𝐴 = 𝑈𝐷𝑠 𝑉′𝑉𝐷𝑠 − 𝑈′𝑈𝐷𝑠 𝑉′ = 𝐴.
Definición 3.- Sea 𝐴 = (𝑎𝑖𝑗 ) una matriz de orden acerque al 10 la película tendrá más contenido de
𝑛 × 𝑝 con 𝑛 ≥ 𝑝 y rango 𝑟. Supongamos que Ciencia ficción.
deseamos aproximar 𝐴 por otra matriz 𝐴∗ = (𝑎 ∗ 𝑖𝑗 ), del
Se tomó esta escala ya que las películas de Aventura y
mismo orden 𝑛 × 𝑝 pero de rango 𝑘 < 𝑟, de modo que:
Ciencia ficción están muy relacionadas.
𝑛 𝑝
∗ )′(𝐴 ∗ )] 2 Además, se tendrá en cuenta la puntuación que han
𝑡𝑟[(𝐴 − 𝐴 −𝐴 = ∑ ∑(𝑎𝑖𝑗 − 𝑎∗ 𝑖𝑗 )
dado varios usuarios a la película (v_2).
𝑖=1 𝑗=1
= 𝑚í𝑛𝑖𝑚𝑜 Este valor se encuentra en el rango (1-10)
Si (1) es la descomposición en valores singulares
de 𝐴, entonces la solución viene dada por:
C mala 1-----10 buena
𝐴∗ = 𝑈𝐷 ∗ 𝑠 𝑉′ (10)

donde 𝐷 ∗ 𝑠 es diagonal con los 𝑘 primeros valores Si la puntuación se acerca a 1 quiere decir que la
singulares de 𝐴, siendo nulos los restantes valores, es película no les gusto a muchos usuarios, pero su
decir: puntuación se acerca a 10 la película llamo la atención
de muchos usuarios.
𝐷𝑠 ∗ = 𝑑𝑖𝑎𝑔(𝑠1 , 𝑠2 , … , 𝑠𝑘 , 0, … , 0) (11)
C. Software
El software ocupado para el análisis de los datos es
R.

Objetivo: Asignar una de las películas de la


plataforma Netflix que tiene contenido de aventura y
Ciencia ficción al usuario según sus preferencias,
utilizando una base de datos que contiene las
puntuaciones otorgadas por otros usuarios y las
preferencias de cada uno, se trabajará con SVD.
Fig. 1. Clasificación de las películas.
Usando los datos obtenidos en Cinesift. Se va
encontrar la matriz X mediante la suma de matrices de En la figura.1 se puede observar cada película según la
rango 1. opinión de los usuarios y su contenido en aventura o
ciencia ficción la cual está representada por la escala de
colores
X = σ1 u1 v1t + σ2 u2 v2t + ⋯ + σk u𝑘 vkt

Se construirá una matriz 𝑋 , donde las columnas son


películas (𝑝), los renglones son (𝑛) personas, y la
entrada 𝑋𝑖𝑗 es la afinidad de la persona 𝑖 por la
película 𝑗. Para esta matriz se trabaja con dos
estructuras de rango 1, basada en las preferencias de las
personas por películas de ciencia ficción a aventura y
su preferencia según la opinión de otros usuarios.
La cual será muy útil para poder asignar una película de
la plataforma Netflix a un usuario según sus
preferencias.

Los pesos de las películas reflejan qué tanto son de Para los pesos de las personas tenemos las siguientes
ciencia ficción o aventura (v_1). puntuaciones: que tan importantes que su película
contenga ciencia ficción y que tan importante es la
puntuación de otros usuarios, las dos puntuaciones
Ciencia están definidas en el rango de (1-10) siendo 1= poco
Aventura 1-----10 importante y 10= muy importante
Ficciòn

Mientras más se acerque a 1, la película tiene más


contenido de Aventura, por otro lado, mientras más se
Fig. 2. Clasificación de las personas.

En la figura.2 se puede observar cada usuario según su Fig. 4. Asignación de una película a un usuario
importancia en la opinión de otros usuarios sobre una
película y la importancia de que su contenido sea de Esta figura muestra la asignación de una película a un
usuario según sus preferencias en ciencia ficción y
aventura o ciencia ficción (representada por la escala de
sugerencia de otros usuarios.
colores).
¿Cómo se calcula la afinidad de una persona por una Además, se puede observar que muchas personas optan
película? por la película Hellboy. Por lo que se recomendaría no
bajarla de la plataforma
Ahora hace falta determinar los pesos (sigmas) para
tener la matriz 𝑋
REFERENCIAS
Estos no siempre serán iguales ya que hay componentes
menos importantes que otras. Entonces tomamos 𝝈𝟏 = [1] Cinesift. https://flickmetrix.com/
𝟗𝟎 y 𝝈𝟐 = 𝟖𝟎.
Aplicando estos datos como suma de matrices de rango
1. Obtenemos una matriz de 50𝑥29 BIBLIOGRAFÍA

[1] CUADRAS, C. "Nuevos Métodos de Análisis


Multivariante". CMC Editions; Primera Edición
(2018). Barcelona, España.

[2] BURDEN, R. y FAIRES J. “Numerical Analysis”.


Fig. 3. Matriz de afinidad. Books/Cole, Cengage Learning; Novena Edición
Como ya tenemos la afinidad de cada usuario por cada (2010). Boston, USA.
película bastaría asignarle la película por la que tiene
mayor afinidad.

Por ejemplo, la persona [1] tiene mayor afinidad a


Hellboy (6.65) por lo tanto esa película debería
aparecer en recomendaciones en la plataforma de
Netflix.

También podría gustarte