Está en la página 1de 21

MASTER EN MARKETING INTELLIGENCE

MMI – III (ESIC-ESAN)

BLOQUE II: LA INTELIGENCIA DE NEGOCIO

TECNICAS DEL DATAMINING APLICADAS AL MARKETING:


DISEÑO DE UN SISTEMA DE RECOMENDACIÓN DE
PELICULAS

(ESQUEMAS)

Profesor: Alvaro Fernández Velando

ESIC, BUSINESS & MARKETING SCHOOL


ESIC, BUSINESS & MARKETING SCHOOL
Diseño de un Sistema de
Recomendación de Películas
Alvaro Fernández, Director Data Mining

Madrid, 05 / 04 / 2007

1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

1
1. Descripción del Problema
Amazon, empresa lider en el sector retail por internet, oferta un portfolio de productos
amplísimo. Por tanto se planteó como objetivo estratégico la personalización de las ofertas a
sus clientes, de forma que accedieran de forma rápida a los productos de interés.

Portfolio de Productos

• 8.5 millones de libros


• 1.5 millones de CD
• 160.000 películas
• 700.000 artículos
electrónicos
• 600.000 artículos de
joyería y relojes
• Cientos de miles de
productos adicionales:
alimentación, belleza,
hogar, etc.

1. Descripción del Problema


Como primera herramienta de recomendación, Amazon clasifica cada artículo en una o varias
jerarquías muy detalladas. De esta forma, si un cliente ha comprado o mostrado interés en
algún artículo de la categoría X recibirá de forma automática ofertas de artículos similares.

2
1. Descripción del Problema
Mediante técnicas de “Collaborative Filtering” recibiremos recomendaciones en base a clientes
con una historia de compras similar a la nuestra.

1. Descripción del Problema


Combinando técnicas de “Collaborative Filtering” y regresión recibiremos recomendaciones
automáticas en base a nuestra historia de compras.

3
1. Descripción del Problema
Por último es cada vez más frecuente incorporar las opiniones de usuarios a los modelos de
data mining. Los análisis de ciertas personas están fuertemente correlados con las ventas de
los productos correspondientes.

1. Descripción del Problema


El problema de generar recomendaciones cobra cada vez mayor relevancia, ya que ofertando
al cliente los productos de interés conseguiremos incrementar su vinculación y por tanto su
rentabilidad.
NetFlix, comercio on-line de venta de DVD, ha puesto en marcha un concurso público para
mejorar su herramienta de recomendación de películas
películas. Se dispone de los siguientes datos:

Muestra para modelizar Objetivo

• 400.000 usuarios Recomendar películas a


usuarios registrados
• 18.000 películas mejorando al sistema
• 100 millones de valoraciones actual en un 10 %

1 million $

4
1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

2. Estadísticas Básicas
Disponemos de valoraciones de una serie de películas por parte de usuarios de una página
web. Las valoraciones se hacen en una escala 1-5, tomando valor 1 para la peor valoración y 5
para la mejor.

5
2. Estadísticas Básicas
Los histogramas de las valoraciones aportan una información muy relevante sobre los gustos
de los usuarios.

Rating Distributions
• Las distribuciones no son
normales, con largas colas a la
izquierda. Esto es relevante a la
hora de realizar contrastes de
hipótesis

• Star Wars es la película favorita,


mientras que Liar Liar es la peor
valorada

• El caso de Fargo es curioso, ya


que es la segunda favorita pero
también la segunda peor
valorada

2. Estadísticas Básicas
No todos los usuarios aportan respuestas igualmente útiles. Mientras que algunos realizan
valoraciones muy diferentes en función de la película, otros dan valoraciones idénticas a todas
las películas. A la hora de realizar análisis de regresión estos clientes no aportan información y
por tanto deberían ser eliminados.

Distribución de Usuarios según


Desviación Estándar de Valoraciones

• Hay 16 usuarios que dan la


misma valoración a todas las
películas.

• Incluyendo estos usuarios en un


análisis de regresión aumentará
la varianza de las estimaciones,
por lo que deberían ser
eliminados.

6
1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

3. Análisis de Correlación
El sistema de recomendación más sencillo sería ofrecer “Star Wars” a todos los usuarios, ya
que es la película favorita. Haciendo un análisis de correlación seremos capaces de encontrar
asociaciones entre valoraciones y por tanto realizar mejoras en nuestro sistema.

Matriz de Correlaciones de Valoraciones • Las correlaciones toman valores


entre -1 y 1

• Una correlación alta y positiva


(0.67) indica que los usuarios que
disfrutan viendo Star Wars
también lo hacen viendo Return
of the Jedi (y viceversa)

• La correlación negativa entre


Fargo y Liar Liar indica que
usuarios que disfrutan de una
película no lo hacen con la otra

Cuando la correlación entre ratings es nula no seremos capaces de estimar la valoración de


una película conociendo la de la otra.

7
3. Análisis de Correlación
Una correlación positiva es equivalente a una pendiente positiva en la recta de regresión.

Correlación Positiva entre Star Wars y


Return of the Jedi

• Cuando un usuario valora con 1 a


Star Wars, es altamente probable
que también lo haga con Return
of the Jedi

• Esta regla es muy potente y


debería ser usada en nuestro
sistema de recomendaciones

Si recibimos una tabla con las dos valoraciones por usuario tenemos teóricamente un
problema de dimensión 2. En la práctica conociendo una valoración podemos estimar la otra,
por lo que la dimensión real de los datos es más cercana a 1 que a 2.

1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

8
4. Dimensionalidad de los Datos
Los datos de valoraciones presentan altas correlaciones cruzadas. Esto hace que la dimensión
de los datos no sea 30, sino mucho menor. El análisis de componentes principales permite
encontrar las dimensiones ocultas tras los datos de forma que conozcamos las razones últimas
de las valoraciones.

Componentes Principales para las


30 Valoraciones • La primera componente captura
el 14% de la varianza, mucho
mayor del valor esperado 3%
(1/30)

• Las demás componentes tienen


mucha menor varianza

• El gráfico implica que los


usuarios valoran películas en
base a un gran factor y a multitud
de pequeñas razones

4. Dimensionalidad de los Datos


Las componentes principales se suelen presentar en una proyección bidimensional, donde el
eje horizontal muestra la primera componente y el eje vertical la segunda. En este caso el eje
horizontal parece oponer grandes producciones de Hollywood a películas “de autor”.
---
Rating
+++

--- Grandes Producciones de Hollywood +++

9
1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

5. Regresión Lineal
La regresión lineal permite predecir un valor numérico en base a una serie de predictores. En
este caso vamos a realizar una regresión para predecir la valoración de Forrest Gump. Este
modelo será uno de los componentes de nuestro sistema de recomendación de películas.

Para poder hacer la regresión es necesario eliminar los valores perdidos. Existen varios
métodos para estimarlos, por ejemplo tomando la valoración media de cada película, la
valoración media de cada usuario o una combinación de ambos.

10
5. Regresión Lineal
A diferencia de la regresión de la estadística clásica, las herramientas de data mining permiten
ejecutar regresiones según las siguientes metodologías:

El modelo considera todos los predictores a la vez. Con más de


Método Estándar 15-20
15 20 predictores los resultados se vuelven inestables
inestables.

El primer modelo incluye sólo el término independiente. A


Método Forward continuación se van añadiendo uno tras otro los predictores.

El primer modelo incluye todos los predictores. Se van sacando


Método Backward del modelo los peores predictores hasta que algún criterio de
parada se cumpla.

El primer modelo incluye sólo el término independiente. Se van


Método Stepwise añadiendo uno tras otro los predictores y en cualquier paso se
puede quitar un predictor para alimentar otro diferente.

5. Regresión Lineal

• Usando el método por pasos se


llega a un modelo de 5 variables

• La primera película que entra es


“Raiders of the Lost Ark”

• En el modelo final la película que


mejor predice la valoración de
Forrest Gump es “The Rock”

• Habitualmente se prueban varios


métodos de regresión ya que a
priori es difícil saber cuál
funcionará mejor

11
5. Regresión Lineal

La predicción correla relativamente bien con la valoración real de Forrest Gump. Más que el
gráfico debemos analizar la tabla, que presenta una información más detallada.

• El modelo es capaz de detectar


quién va a disfrutar con Forrest
Gump, pero no lo contrario

• El modelo no es capaz de
concentrar las valoraciones más
bajas en el tramo bajo de score

5. Regresión Lineal

En el modelo anterior hemos forzado que todos los scores estuvieran informados. Realmente
haciendo esto perdemos una información muy valiosa, conocer qué películas ha valorado cada
usuario.
Para recoger esta información podemos transformar las valoraciones originales en nuevas
variables
i bl dicotómicas
di tó i que ttendrán
d á en cuenta
t ttanto
t ell ttramo d
de score como sii existe.
i t

Nuevas Variables Dicotómicas

Cliente “Toy Story” Score Low Score High Score Missing Score

1 5 0 1 0

2 2 1 0 0

3 missing 0 0 1

4 4 0 1 0

12
5. Regresión Lineal

• Usando el método por pasos


llegamos a un modelo de 7
variables

• Muchas de las reglas son


negativas: si no te gustó El
Fugitivo no te gustará Forrest
Gump

• El modelo incluye tres películas


que no estaban presentes en el
modelo
d l anterior
t i

5. Regresión Lineal

• El nuevo modelo predice mejor


tanto los niveles altos como los
niveles bajos de valoración

• De 14 personas que valoran con


un 1 Forrest Gump, el modelo
concentra 11 en el nivel inferior
de score

13
1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

6. Arboles de Decisión

Los árboles de decisión consisten en una serie de reglas estructuradas de forma secuencial
que intentan predecir una variable target.

• El árbol parte de un nodo inicial


que incluye todos los datos

• A medida que crece el árbol se


van produciendo una serie de
nodos intermedios que dan paso
a los nodos terminales

• Los nodos terminales son


totalmente excluyentes (una
observación no puede pertenecer
a dos nodos)

• El resultado de los árboles


consiste en estructuras muy
sencillas, de fácil interpretación y
que por tanto son usadas
intensivamente como algoritmo
de referencia en data mining

14
6. Arboles de Decisión

Existen dos grandes categorías de árboles de decisión, dependiendo de la naturaleza de la


variable target.

Arboles de Clasificación Arboles de Regresión

• La variable target es una variable • La variable target es una variable


categórica con dos o más clases: contínua: ingresos del cliente,
compra / no compra, fuga / no fuga, etc. rentabilidad anual, número de hijos, etc.

• Cada nodo terminal predice una • Cada nodo terminal predice un valor
probabilidad de pertenencia a cada medio de la variable target (ingresos =
clase: 25% fuga, 75% no fuga 1.250€) y una desviación estándar

• Permiten la introducción de costes para • Son muy sensibles a la presencia de


mejorar la generación de reglas: outliers en la variable target y por tanto
requieren de una fase previa de
- coste de asignar “fuga” a un cliente que
depuración de datos (un cliente con una
no se fuga = 15€
nómina de 300.000€ en un nodo de 500
- coste de asignar “no fuga” a un cliente clientes hace subir la media del nodo en
que se fuga = 250€ 600€)

6. Arboles de Decisión

El primer parámetro que hay que fijar a la hora de crecer un árbol es seleccionar el número de
cortes máximo en cada nodo.
Aunque hacer cortes binarios en cada nodo puede resultar demasiado restrictivo, es la mejor
forma de trabajar cuando el tamaño muestral no es muy grande. Elegir un número alto de
cortes
t por nodod hhará
á que nos quedemos
d sin
i muestra
t en ell segundo
d o ttercer nivel
i ld dell á
árbol.
b l

15
6. Arboles de Decisión

El mejor corte en cada nodo es elegido probando todas las variables una tras otra. Existen
algoritmos muy eficientes que permiten encontrar en pocos segundos el mejor corte entre
miles de predictores (una regresión tendría muchos problemas en esta situación).
El criterio más usado en casos de clasificación es el índice de Gini. Este índice mide la
probabilidad
b bilid d d
de que d
dos elementos
l t extraídos
t íd aleatoriamente
l t i t d
de lla misma
i población
bl ió
pertenezcan a la misma clase. Su valor se puede obtener de la siguiente fórmula:

Gini = (pA)2 + (pB)2

El mejor corte será aquel que consiga un índice de Gini mayor tras el corte:

5.000 clientes 5.000


40% A, 60% B Gini Final = 0,52 +
20.000 clientes Gini: 0,52 20.000
20% A, 80% B
Gini: 0,68
15.000 clientes 15.000
13% A, 87% B 0,77 = 0,71
Gini: 0,77 20.000

6. Arboles de Decisión

¿Hasta cuando debe crecer un árbol? En principio nada impide llegar a tantos nodos
terminales como observaciones en la muestra, es decir, nodos con una única observación.
En la práctica es necesario tener un mínimo de al menos 100 observaciones en cada nodo
terminal para poder tener cierta confianza en la estimación del árbol.
Mediante el uso de muestras de validación y métodos de poda nos aseguraremos de la
capacidad de generalización del árbol y evitaremos el “overfitting”.

• Un número muy alto de nodos


terminales o un gran número de
cortes incrementa la complejidad
del árbol y puede conducir a
overfitting

• El overfitting hace que el árbol


prediga mal situaciones que no
ha visto previamente en el
entrenamiento

16
6. Arboles de Decisión

Además de la claridad en la interpretación, la mayor ventaja de los árboles frente a otras


técnicas es la detección de efectos no lineales sin necesidad de transformar previamente las
variables.
Los problemas de data mining habituales están repletos de influencias no lineales, así que el
uso de
d tétécnicas
i estadísticas
t dí ti clásicas
lá i requiere
i d
de un gasto
t dde titiempo iinaceptable
t bl para lla
transformación de variables.

Relación entre edad y pasivo del cliente según una regresión y un árbol

6. Arboles de Decisión

La flexibilidad del árbol permite introducir los ratings de películas sin transformar para predecir
la valoración de Forrest Gump. El árbol es capaz de separar el efecto “no he visto la película”
de las respuestas “valoración baja” y “valoración alta”.

17
6. Arboles de Decisión

• Los resultados del árbol son


claramente mejores qquee los de
cualquier regresión

• El tiempo invertido en desarrollar


el árbol es mínimo en
comparación con una regresión
con transformación de variables

• Es posible identificar la razón por


la que un usuario recibe una
valoración alta o baja de Forrest
Gump, lo que ayuda a explicar el
modelo

1. Descripción del Problema

2
2. Estadísticas Básicas

3. Análisis de Correlación

4. Dimensionalidad de los Datos

5
5. Regresión Lineal

6. Arboles de Decisión

7. Diseño de Encuestas de Satisfacción

18
7. Diseño de Encuestas de Satisfacción

Las técnicas de componentes principales y regresión lineal son básicas a la hora de diseñar
correctamente una encuesta de satisfacción.
En primer lugar es necesario conocer cuántas dimensiones diferentes de calidad perciben los
clientes. Para ello podemos planificar la siguiente estrategia:

Identificar 40-60 Implantar una


Entrevistar en Hacer un análisis
atributos que encuesta
persona a 100 factorial para
puedan tener telefónica
clientes con el encontrar las 15-
impacto en la periódica con
cuestionario 20 dimensiones
satisfacción estas 15
extenso más relevantes
global preguntas

Las nuevas dimensiones no son equivalentes a preguntas planteadas inicialmente, sino en


muchos casos a combinaciones de las mismas. Es decir, será necesario plantear nuevas
preguntas que se adapten a las dimensiones detectadas.
El análisis factorial descartará en principio atributos con poca varianza o bien atributos muy
correlados con otros, de forma que se consiga fácilmente una reducción del 50% del tamaño
inicial del cuestionario.

7. Diseño de Encuestas de Satisfacción

Es importante medir la satisfacción global, pero quizás más importante es conocer el impacto
de ciertos atributos en la valoración global. Es decir, si somos capaces de identificar qué
atributos afectan más a la satisfacción del cliente podremos centrar nuestros esfuerzos en
aspectos concretos de mejora.
Disponemos de dos métodos para conocer la importancia de los atributos:

Métodos Directos Métodos Indirectos


• Se pregunta directamente al • Realizar una regresión lineal usando
encuestado tanto la valoración del como predictores las valoraciones de
atributo como la importancia que le los atributos y como variable respuesta
concede la satisfacción global

p
• Las respuestas no son útiles p
porque
q los • Los coeficientes de cada atributo
clientes no saben valorar en qué reflejan el impacto de dichas
medida ciertos atributos afectan a su valoraciones en la satisfacción global
satisfacción global
• Los cuestionarios son mucho más
• Además existe una desventaja por el cortos ya que sólo se pregunta por la
incremento del cuestionario, que puede valoración del atributo, no por su
doblar su tamaño importancia

19

También podría gustarte