Diseño de Un Sistema de Recomendación

MASTER EN MARKETING INTELLIGENCE
MMI – III (ESIC-ESAN)
BLOQUE II: LA INTELIGENCIA DE NEGOCIO
TECNICAS DEL DATAMINING APLICADAS AL MARKETING:

DISEÑO DE UN SISTEMA DE RECOMENDACIÓN DE
PELICULAS
(ESQUEMAS)
Profesor: Alvaro Fernández Velando
ESIC, BUSINESS & MARKETING SCHOOL

ESIC, BUSINESS & MARKETING SCHOOL
Diseño de un Sistema de
Recomendación de Películas
Alvaro Fernández, Director Data Mining
Madrid, 05 / 04 / 2007
1. Descripción del Problema
2
2. Estadísticas Básicas
3. Análisis de Correlación
4. Dimensionalidad de los Datos
5
5. Regresión Lineal
6. Arboles de Decisión
7. Diseño de Encuestas de Satisfacción
1
Amazon, empresa lider en el sector retail por internet, oferta un portfolio de productos
amplísimo. Por tanto se planteó como objetivo estratégico la personalización de las ofertas a
sus clientes, de forma que accedieran de forma rápida a los productos de interés.
Portfolio de Productos
• 8.5 millones de libros

• 1.5 millones de CD
• 160.000 películas
• 700.000 artículos
electrónicos
• 600.000 artículos de
joyería y relojes
• Cientos de miles de
productos adicionales:
alimentación, belleza,
hogar, etc.

Como primera herramienta de recomendación, Amazon clasifica cada artículo en una o varias
jerarquías muy detalladas. De esta forma, si un cliente ha comprado o mostrado interés en
algún artículo de la categoría X recibirá de forma automática ofertas de artículos similares.
2
Mediante técnicas de “Collaborative Filtering” recibiremos recomendaciones en base a clientes
con una historia de compras similar a la nuestra.

Combinando técnicas de “Collaborative Filtering” y regresión recibiremos recomendaciones
automáticas en base a nuestra historia de compras.
3
Por último es cada vez más frecuente incorporar las opiniones de usuarios a los modelos de
data mining. Los análisis de ciertas personas están fuertemente correlados con las ventas de
los productos correspondientes.

El problema de generar recomendaciones cobra cada vez mayor relevancia, ya que ofertando
al cliente los productos de interés conseguiremos incrementar su vinculación y por tanto su
rentabilidad.
NetFlix, comercio on-line de venta de DVD, ha puesto en marcha un concurso público para
mejorar su herramienta de recomendación de películas
películas. Se dispone de los siguientes datos:
Muestra para modelizar Objetivo
• 400.000 usuarios Recomendar películas a

usuarios registrados
• 18.000 películas mejorando al sistema
• 100 millones de valoraciones actual en un 10 %
1 million $
4
2
5
Disponemos de valoraciones de una serie de películas por parte de usuarios de una página
web. Las valoraciones se hacen en una escala 1-5, tomando valor 1 para la peor valoración y 5
para la mejor.
5
Los histogramas de las valoraciones aportan una información muy relevante sobre los gustos
de los usuarios.
Rating Distributions
• Las distribuciones no son
normales, con largas colas a la
izquierda. Esto es relevante a la
hora de realizar contrastes de
hipótesis
• Star Wars es la película favorita,

mientras que Liar Liar es la peor
valorada
• El caso de Fargo es curioso, ya

que es la segunda favorita pero
también la segunda peor
valorada
No todos los usuarios aportan respuestas igualmente útiles. Mientras que algunos realizan
valoraciones muy diferentes en función de la película, otros dan valoraciones idénticas a todas
las películas. A la hora de realizar análisis de regresión estos clientes no aportan información y
por tanto deberían ser eliminados.
Distribución de Usuarios según

Desviación Estándar de Valoraciones
• Hay 16 usuarios que dan la

misma valoración a todas las
películas.
• Incluyendo estos usuarios en un

análisis de regresión aumentará
la varianza de las estimaciones,
por lo que deberían ser
eliminados.
6
2
5
El sistema de recomendación más sencillo sería ofrecer “Star Wars” a todos los usuarios, ya
que es la película favorita. Haciendo un análisis de correlación seremos capaces de encontrar
asociaciones entre valoraciones y por tanto realizar mejoras en nuestro sistema.
Matriz de Correlaciones de Valoraciones • Las correlaciones toman valores

entre -1 y 1
• Una correlación alta y positiva

(0.67) indica que los usuarios que
disfrutan viendo Star Wars
también lo hacen viendo Return
of the Jedi (y viceversa)
• La correlación negativa entre

Fargo y Liar Liar indica que
usuarios que disfrutan de una
película no lo hacen con la otra
Cuando la correlación entre ratings es nula no seremos capaces de estimar la valoración de

una película conociendo la de la otra.
7
Una correlación positiva es equivalente a una pendiente positiva en la recta de regresión.
Correlación Positiva entre Star Wars y

Return of the Jedi
• Cuando un usuario valora con 1 a

Star Wars, es altamente probable
que también lo haga con Return
of the Jedi
• Esta regla es muy potente y

debería ser usada en nuestro
sistema de recomendaciones
Si recibimos una tabla con las dos valoraciones por usuario tenemos teóricamente un
problema de dimensión 2. En la práctica conociendo una valoración podemos estimar la otra,
por lo que la dimensión real de los datos es más cercana a 1 que a 2.
2
5
8
Los datos de valoraciones presentan altas correlaciones cruzadas. Esto hace que la dimensión
de los datos no sea 30, sino mucho menor. El análisis de componentes principales permite
encontrar las dimensiones ocultas tras los datos de forma que conozcamos las razones últimas
de las valoraciones.
Componentes Principales para las

30 Valoraciones • La primera componente captura
el 14% de la varianza, mucho
mayor del valor esperado 3%
(1/30)
• Las demás componentes tienen

mucha menor varianza
• El gráfico implica que los

usuarios valoran películas en
base a un gran factor y a multitud
de pequeñas razones

Las componentes principales se suelen presentar en una proyección bidimensional, donde el
eje horizontal muestra la primera componente y el eje vertical la segunda. En este caso el eje
horizontal parece oponer grandes producciones de Hollywood a películas “de autor”.
---
Rating
+++
--- Grandes Producciones de Hollywood +++
9
2
5
La regresión lineal permite predecir un valor numérico en base a una serie de predictores. En
este caso vamos a realizar una regresión para predecir la valoración de Forrest Gump. Este
modelo será uno de los componentes de nuestro sistema de recomendación de películas.
Para poder hacer la regresión es necesario eliminar los valores perdidos. Existen varios
métodos para estimarlos, por ejemplo tomando la valoración media de cada película, la
valoración media de cada usuario o una combinación de ambos.
10
A diferencia de la regresión de la estadística clásica, las herramientas de data mining permiten
ejecutar regresiones según las siguientes metodologías:
El modelo considera todos los predictores a la vez. Con más de

Método Estándar 15-20
15 20 predictores los resultados se vuelven inestables
inestables.
El primer modelo incluye sólo el término independiente. A

Método Forward continuación se van añadiendo uno tras otro los predictores.
El primer modelo incluye todos los predictores. Se van sacando

Método Backward del modelo los peores predictores hasta que algún criterio de
parada se cumpla.
El primer modelo incluye sólo el término independiente. Se van

Método Stepwise añadiendo uno tras otro los predictores y en cualquier paso se
puede quitar un predictor para alimentar otro diferente.
• Usando el método por pasos se

llega a un modelo de 5 variables
• La primera película que entra es

“Raiders of the Lost Ark”
• En el modelo final la película que

mejor predice la valoración de
Forrest Gump es “The Rock”
• Habitualmente se prueban varios

métodos de regresión ya que a
priori es difícil saber cuál
funcionará mejor
11
La predicción correla relativamente bien con la valoración real de Forrest Gump. Más que el
gráfico debemos analizar la tabla, que presenta una información más detallada.
• El modelo es capaz de detectar

quién va a disfrutar con Forrest
Gump, pero no lo contrario
• El modelo no es capaz de
concentrar las valoraciones más
bajas en el tramo bajo de score
En el modelo anterior hemos forzado que todos los scores estuvieran informados. Realmente
haciendo esto perdemos una información muy valiosa, conocer qué películas ha valorado cada
usuario.
Para recoger esta información podemos transformar las valoraciones originales en nuevas
variables
i bl dicotómicas
di tó i que ttendrán
d á en cuenta
t ttanto
t ell ttramo d
de score como sii existe.
i t
Nuevas Variables Dicotómicas
Cliente “Toy Story” Score Low Score High Score Missing Score
1 5 0 1 0
2 2 1 0 0
3 missing 0 0 1
4 4 0 1 0
12
• Usando el método por pasos

llegamos a un modelo de 7
variables
• Muchas de las reglas son

negativas: si no te gustó El
Fugitivo no te gustará Forrest
Gump
• El modelo incluye tres películas

que no estaban presentes en el
modelo
d l anterior
t i
• El nuevo modelo predice mejor

tanto los niveles altos como los
niveles bajos de valoración
• De 14 personas que valoran con

un 1 Forrest Gump, el modelo
concentra 11 en el nivel inferior
de score
13
2
5
Los árboles de decisión consisten en una serie de reglas estructuradas de forma secuencial
que intentan predecir una variable target.
• El árbol parte de un nodo inicial

que incluye todos los datos
• A medida que crece el árbol se

van produciendo una serie de
nodos intermedios que dan paso
a los nodos terminales
• Los nodos terminales son

totalmente excluyentes (una
observación no puede pertenecer
a dos nodos)
• El resultado de los árboles

consiste en estructuras muy
sencillas, de fácil interpretación y
que por tanto son usadas
intensivamente como algoritmo
de referencia en data mining
14
Existen dos grandes categorías de árboles de decisión, dependiendo de la naturaleza de la

variable target.
Arboles de Clasificación Arboles de Regresión
• La variable target es una variable • La variable target es una variable

categórica con dos o más clases: contínua: ingresos del cliente,
compra / no compra, fuga / no fuga, etc. rentabilidad anual, número de hijos, etc.
• Cada nodo terminal predice una • Cada nodo terminal predice un valor
probabilidad de pertenencia a cada medio de la variable target (ingresos =
clase: 25% fuga, 75% no fuga 1.250€) y una desviación estándar
• Permiten la introducción de costes para • Son muy sensibles a la presencia de

mejorar la generación de reglas: outliers en la variable target y por tanto
requieren de una fase previa de
- coste de asignar “fuga” a un cliente que
depuración de datos (un cliente con una
no se fuga = 15€
nómina de 300.000€ en un nodo de 500
- coste de asignar “no fuga” a un cliente clientes hace subir la media del nodo en
que se fuga = 250€ 600€)
El primer parámetro que hay que fijar a la hora de crecer un árbol es seleccionar el número de
cortes máximo en cada nodo.
Aunque hacer cortes binarios en cada nodo puede resultar demasiado restrictivo, es la mejor
forma de trabajar cuando el tamaño muestral no es muy grande. Elegir un número alto de
cortes
t por nodod hhará
á que nos quedemos
d sin
i muestra
t en ell segundo
d o ttercer nivel
i ld dell á
árbol.
b l
15
El mejor corte en cada nodo es elegido probando todas las variables una tras otra. Existen
algoritmos muy eficientes que permiten encontrar en pocos segundos el mejor corte entre
miles de predictores (una regresión tendría muchos problemas en esta situación).
El criterio más usado en casos de clasificación es el índice de Gini. Este índice mide la
probabilidad
b bilid d d
de que d
dos elementos
l t extraídos
t íd aleatoriamente
l t i t d
de lla misma
i población
bl ió
pertenezcan a la misma clase. Su valor se puede obtener de la siguiente fórmula:
Gini = (pA)2 + (pB)2
El mejor corte será aquel que consiga un índice de Gini mayor tras el corte:
5.000 clientes 5.000

40% A, 60% B Gini Final = 0,52 +
20.000 clientes Gini: 0,52 20.000
20% A, 80% B
Gini: 0,68
15.000 clientes 15.000
13% A, 87% B 0,77 = 0,71
Gini: 0,77 20.000
¿Hasta cuando debe crecer un árbol? En principio nada impide llegar a tantos nodos
terminales como observaciones en la muestra, es decir, nodos con una única observación.
En la práctica es necesario tener un mínimo de al menos 100 observaciones en cada nodo
terminal para poder tener cierta confianza en la estimación del árbol.
Mediante el uso de muestras de validación y métodos de poda nos aseguraremos de la
capacidad de generalización del árbol y evitaremos el “overfitting”.
• Un número muy alto de nodos

terminales o un gran número de
cortes incrementa la complejidad
del árbol y puede conducir a
overfitting
• El overfitting hace que el árbol

prediga mal situaciones que no
ha visto previamente en el
entrenamiento
16
Además de la claridad en la interpretación, la mayor ventaja de los árboles frente a otras

técnicas es la detección de efectos no lineales sin necesidad de transformar previamente las
variables.
Los problemas de data mining habituales están repletos de influencias no lineales, así que el
uso de
d tétécnicas
i estadísticas
t dí ti clásicas
lá i requiere
i d
de un gasto
t dde titiempo iinaceptable
t bl para lla
transformación de variables.
Relación entre edad y pasivo del cliente según una regresión y un árbol
La flexibilidad del árbol permite introducir los ratings de películas sin transformar para predecir
la valoración de Forrest Gump. El árbol es capaz de separar el efecto “no he visto la película”
de las respuestas “valoración baja” y “valoración alta”.
17
• Los resultados del árbol son

claramente mejores qquee los de
cualquier regresión
• El tiempo invertido en desarrollar

el árbol es mínimo en
comparación con una regresión
con transformación de variables
• Es posible identificar la razón por

la que un usuario recibe una
valoración alta o baja de Forrest
Gump, lo que ayuda a explicar el
modelo
2
5
18
Las técnicas de componentes principales y regresión lineal son básicas a la hora de diseñar
correctamente una encuesta de satisfacción.
En primer lugar es necesario conocer cuántas dimensiones diferentes de calidad perciben los
clientes. Para ello podemos planificar la siguiente estrategia:
Identificar 40-60 Implantar una

Entrevistar en Hacer un análisis
atributos que encuesta
persona a 100 factorial para
puedan tener telefónica
clientes con el encontrar las 15-
impacto en la periódica con
cuestionario 20 dimensiones
satisfacción estas 15
extenso más relevantes
global preguntas
Las nuevas dimensiones no son equivalentes a preguntas planteadas inicialmente, sino en

muchos casos a combinaciones de las mismas. Es decir, será necesario plantear nuevas
preguntas que se adapten a las dimensiones detectadas.
El análisis factorial descartará en principio atributos con poca varianza o bien atributos muy
correlados con otros, de forma que se consiga fácilmente una reducción del 50% del tamaño
inicial del cuestionario.
Es importante medir la satisfacción global, pero quizás más importante es conocer el impacto
de ciertos atributos en la valoración global. Es decir, si somos capaces de identificar qué
atributos afectan más a la satisfacción del cliente podremos centrar nuestros esfuerzos en
aspectos concretos de mejora.
Disponemos de dos métodos para conocer la importancia de los atributos:
Métodos Directos Métodos Indirectos

• Se pregunta directamente al • Realizar una regresión lineal usando
encuestado tanto la valoración del como predictores las valoraciones de
atributo como la importancia que le los atributos y como variable respuesta
concede la satisfacción global
p
• Las respuestas no son útiles p
porque
q los • Los coeficientes de cada atributo
clientes no saben valorar en qué reflejan el impacto de dichas
medida ciertos atributos afectan a su valoraciones en la satisfacción global
satisfacción global
• Los cuestionarios son mucho más
• Además existe una desventaja por el cortos ya que sólo se pregunta por la
incremento del cuestionario, que puede valoración del atributo, no por su
doblar su tamaño importancia
19

Diseño de Un Sistema de Recomendación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Diseño de Un Sistema de Recomendación

Cargado por

Copyright:

Formatos disponibles

MASTER EN MARKETING INTELLIGENCE

MMI – III (ESIC-ESAN)

BLOQUE II: LA INTELIGENCIA DE NEGOCIO

TECNICAS DEL DATAMINING APLICADAS AL MARKETING:

Profesor: Alvaro Fernández Velando

ESIC, BUSINESS & MARKETING SCHOOL

1. Descripción del Problema

4. Dimensionalidad de los Datos

7. Diseño de Encuestas de Satisfacción

• 8.5 millones de libros

1. Descripción del Problema

1. Descripción del Problema

1. Descripción del Problema

Muestra para modelizar Objetivo

• 400.000 usuarios Recomendar películas a

4. Dimensionalidad de los Datos

7. Diseño de Encuestas de Satisfacción

• Star Wars es la película favorita,

• El caso de Fargo es curioso, ya

Distribución de Usuarios según

• Hay 16 usuarios que dan la

• Incluyendo estos usuarios en un

4. Dimensionalidad de los Datos

7. Diseño de Encuestas de Satisfacción

Matriz de Correlaciones de Valoraciones • Las correlaciones toman valores

• Una correlación alta y positiva

• La correlación negativa entre

Cuando la correlación entre ratings es nula no seremos capaces de estimar la valoración de

Correlación Positiva entre Star Wars y

• Cuando un usuario valora con 1 a

• Esta regla es muy potente y

1. Descripción del Problema

4. Dimensionalidad de los Datos

7. Diseño de Encuestas de Satisfacción

Componentes Principales para las

• Las demás componentes tienen

• El gráfico implica que los

4. Dimensionalidad de los Datos

--- Grandes Producciones de Hollywood +++

4. Dimensionalidad de los Datos

7. Diseño de Encuestas de Satisfacción

El modelo considera todos los predictores a la vez. Con más de

El primer modelo incluye sólo el término independiente. A

El primer modelo incluye todos los predictores. Se van sacando

El primer modelo incluye sólo el término independiente. Se van

• Usando el método por pasos se

• La primera película que entra es

• En el modelo final la película que

• Habitualmente se prueban varios

• El modelo es capaz de detectar

Nuevas Variables Dicotómicas

• Usando el método por pasos

• Muchas de las reglas son

• El modelo incluye tres películas

• El nuevo modelo predice mejor

• De 14 personas que valoran con

4. Dimensionalidad de los Datos

7. Diseño de Encuestas de Satisfacción

• El árbol parte de un nodo inicial

• A medida que crece el árbol se

• Los nodos terminales son

• El resultado de los árboles

Existen dos grandes categorías de árboles de decisión, dependiendo de la naturaleza de la