Está en la página 1de 2

El desafo del sistema de recomendacin de noticias de Google es ayudar a los usuarios a encontrar

artculos que son interesantes para leer debido al gran volumen de artculos existentes en todo el
mundo. Como los ejemplos anteriores, Google News utiliza collaborative filtering para realizar las
recomendaciones a sus usuarios.

Las noticias de Google es un sitio web de noticias generadas por computadora que agrega encabezados
a partir de fuentes a nivel mundial. Clasifica los sinnmeros de artculos de acuerdo a diferentes
categoras, por ejemplos deportes, entretenimiento, etc. y los muestra en sus correspondientes
secciones. Cada seccin contiene los 3 primeros encabezados de cada categora. Cuando se ingresa
como usuario con la cuenta de Google, se presenta una opcin para almacenar el historial de bsquedas
y clics realizados de tal manera que luego se pueda acceder ms fcilmente a dicha noticias. Ademas, se
presenta una opcin en la que se recomienda noticias recomendadas para el usuario basados en dicho
historial.

El Internet nunca tiene escasez de contenido. El desafo es encontrer el contenido adecuado para cada
usuario, que pueda estar interesado en leer. Sin embargo en muchas de las ocasiones ni el mismo
usuario sabe lo que busca. Este es el caso de noticias, pelculas entre otros, y es por esto que el usuario
termina buscando sitios como news.google.com buscando cosas que pueda ser de inters con la idea
Mustrame algo interesante. Este es el caso ideal en el que se presentan recomendaciones a un
usuario basados en sus intereses y sus actividades pasadas de sitios relevantes.

El filtrado colaborativo es la tecnologa que aprende las preferencias de usuario y hace recomendaciones
basado en el usuario y en los datos de comunidad. Es la tecnologa de complemento de filtrado basado
en contenido. Sin embargo, dicha tecnologa debe convertirse de tal forma que cumpla los
requerimientos que Google news.

Escalabilidad: Google news es visitado por millones de personas durante un perodo de algunos das. El
nmero de noticias tambin es del orden de millones de artculos.

Rotacin de artculos: Generalmente se asume que los artculos que se recomiendan van a permanecer
mucho tiempo en el sistema o que la rotacin o actualizacin de los mismos se realiza mucho tiempo
despus. Este no es el caso de Google News, ya que los tems que se tiene que recomendar van
cambiando en cuestin de minutos ya que las historias que son de inters son aquellas que sucedieron
hace un par de horas. Por lo tanto, cualquier modelo viejo de hace muchas horas atrs puede no ser ya
de inters.

Google News es uno de los sitios webs ms populares en el mundo que abarca millones de pginas web
y recibe millones de vistas de millones de usuarios. Hay una gran cantidad de variedad en el historial de
clics que un usuario tiene, con nmeros que van de cero a cientos, incluso miles de vivistas.

Con lo que se dijo antes, el problema del sistema de recomendacin puede ser descrito de la siguiente
manera: Una vez mostrado el historial de clics para N usuarios ( = {1 , 2 , , }) sobre M objetos
( = {1 , 2 , , }), y dado un usuario especfico u con un historial de clics que contiene
{1 , , | | } elementos formando parte del historial, se recomienda K elementos al usuario que pueda
estar interesado en leer. Cada vez que un usuario loguea e ingresa a la pgina de inicio
Algoritmos

El uso de una mezcla de algoritmos basados en memoria y basados en modelos puede solucionar el
problema para generar recomendaciones. Como parte de la aproximacin basados en modelos, se hace
uso de 2 tcnicas de clustering PLSI y MinHash y como parte de los algoritmos basados en memoria, se
hace uso de covisitacin de artculos. Cada uno de estos algoritmos asigna una calificacin numrica a
una historia (de tal forma que las mejores recomendaciones reciben una calificacin ms alta).

MinHash

Este es un mtodo de clstering probabilstico que asigna un par de usuarios al mismo clster con
probabilidad proporcional a la superposicin entre el conjunto de elementos por lo que estos usuarios
han votado (clicado). Cada usuario es representado por un grupo de tems (nuevas historias) que
se ha clicado. La similitud entre 2 usuarios , es definido como la superposicin entre sus conjuntos
| |
de tems dada por la frmula ( , ) = . Esta similitud mide el coeficiente de Jaccard, toma
| |

valores entre 0 y 1 y es muy bien conocido que la correspondiente funcin de distancia ( , ) = 1


( , ) es una mtrica. Suponga el siguiente ejemplo, dado un usuario , conceptualmente nos
gustara calcular la similitud de este usuario, ( , ), a todos los dems usuarios , y recomendar al
usuario cuentos votados por con un peso igual a ( , ). Sin embargo, hacer esto en tiempo real
es claramente no escalable; uno podra imaginar tcnicas simples de poda, como usar una tabla de hash
para encontrar usuarios que tienen al menos un voto en comn, pero incluso hacerlo no va a reducir el
nmero de candidatos a un nmero administrable debido a la presencia de historias populares. El
clculo offline es adems imposible para un nmero tan grande de pares de usuarios. No es sorpresa
que a nuestro rescate es la tcnica de bsqueda cercana al vecino ms cercano

LSH

La tcnica LSH fue introducida por Indyk y Motwani para eficientemente resolver la bsqueda del vecino
ms cercano

Se ve claramente que los sistemas de recomendaciones existentes no cumplen con los requerimientos
presentados sino que se necesita de un algoritmo escalable.

El sistema de recomendacin construye perfiles de usuarios de acuerdo a los nuevos intereses basado
en el comportamiento en el pasado de clics del usuario,

También podría gustarte