Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(ESQUEMAS)
Madrid, 05 / 04 / 2007
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
1
1. Descripción del Problema
Amazon, empresa lider en el sector retail por internet, oferta un portfolio de productos
amplísimo. Por tanto se planteó como objetivo estratégico la personalización de las ofertas a
sus clientes, de forma que accedieran de forma rápida a los productos de interés.
Portfolio de Productos
2
1. Descripción del Problema
Mediante técnicas de “Collaborative Filtering” recibiremos recomendaciones en base a clientes
con una historia de compras similar a la nuestra.
3
1. Descripción del Problema
Por último es cada vez más frecuente incorporar las opiniones de usuarios a los modelos de
data mining. Los análisis de ciertas personas están fuertemente correlados con las ventas de
los productos correspondientes.
1 million $
4
1. Descripción del Problema
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
2. Estadísticas Básicas
Disponemos de valoraciones de una serie de películas por parte de usuarios de una página
web. Las valoraciones se hacen en una escala 1-5, tomando valor 1 para la peor valoración y 5
para la mejor.
5
2. Estadísticas Básicas
Los histogramas de las valoraciones aportan una información muy relevante sobre los gustos
de los usuarios.
Rating Distributions
• Las distribuciones no son
normales, con largas colas a la
izquierda. Esto es relevante a la
hora de realizar contrastes de
hipótesis
2. Estadísticas Básicas
No todos los usuarios aportan respuestas igualmente útiles. Mientras que algunos realizan
valoraciones muy diferentes en función de la película, otros dan valoraciones idénticas a todas
las películas. A la hora de realizar análisis de regresión estos clientes no aportan información y
por tanto deberían ser eliminados.
6
1. Descripción del Problema
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
3. Análisis de Correlación
El sistema de recomendación más sencillo sería ofrecer “Star Wars” a todos los usuarios, ya
que es la película favorita. Haciendo un análisis de correlación seremos capaces de encontrar
asociaciones entre valoraciones y por tanto realizar mejoras en nuestro sistema.
7
3. Análisis de Correlación
Una correlación positiva es equivalente a una pendiente positiva en la recta de regresión.
Si recibimos una tabla con las dos valoraciones por usuario tenemos teóricamente un
problema de dimensión 2. En la práctica conociendo una valoración podemos estimar la otra,
por lo que la dimensión real de los datos es más cercana a 1 que a 2.
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
8
4. Dimensionalidad de los Datos
Los datos de valoraciones presentan altas correlaciones cruzadas. Esto hace que la dimensión
de los datos no sea 30, sino mucho menor. El análisis de componentes principales permite
encontrar las dimensiones ocultas tras los datos de forma que conozcamos las razones últimas
de las valoraciones.
9
1. Descripción del Problema
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
5. Regresión Lineal
La regresión lineal permite predecir un valor numérico en base a una serie de predictores. En
este caso vamos a realizar una regresión para predecir la valoración de Forrest Gump. Este
modelo será uno de los componentes de nuestro sistema de recomendación de películas.
Para poder hacer la regresión es necesario eliminar los valores perdidos. Existen varios
métodos para estimarlos, por ejemplo tomando la valoración media de cada película, la
valoración media de cada usuario o una combinación de ambos.
10
5. Regresión Lineal
A diferencia de la regresión de la estadística clásica, las herramientas de data mining permiten
ejecutar regresiones según las siguientes metodologías:
5. Regresión Lineal
11
5. Regresión Lineal
La predicción correla relativamente bien con la valoración real de Forrest Gump. Más que el
gráfico debemos analizar la tabla, que presenta una información más detallada.
• El modelo no es capaz de
concentrar las valoraciones más
bajas en el tramo bajo de score
5. Regresión Lineal
En el modelo anterior hemos forzado que todos los scores estuvieran informados. Realmente
haciendo esto perdemos una información muy valiosa, conocer qué películas ha valorado cada
usuario.
Para recoger esta información podemos transformar las valoraciones originales en nuevas
variables
i bl dicotómicas
di tó i que ttendrán
d á en cuenta
t ttanto
t ell ttramo d
de score como sii existe.
i t
Cliente “Toy Story” Score Low Score High Score Missing Score
1 5 0 1 0
2 2 1 0 0
3 missing 0 0 1
4 4 0 1 0
12
5. Regresión Lineal
5. Regresión Lineal
13
1. Descripción del Problema
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
6. Arboles de Decisión
Los árboles de decisión consisten en una serie de reglas estructuradas de forma secuencial
que intentan predecir una variable target.
14
6. Arboles de Decisión
• Cada nodo terminal predice una • Cada nodo terminal predice un valor
probabilidad de pertenencia a cada medio de la variable target (ingresos =
clase: 25% fuga, 75% no fuga 1.250€) y una desviación estándar
6. Arboles de Decisión
El primer parámetro que hay que fijar a la hora de crecer un árbol es seleccionar el número de
cortes máximo en cada nodo.
Aunque hacer cortes binarios en cada nodo puede resultar demasiado restrictivo, es la mejor
forma de trabajar cuando el tamaño muestral no es muy grande. Elegir un número alto de
cortes
t por nodod hhará
á que nos quedemos
d sin
i muestra
t en ell segundo
d o ttercer nivel
i ld dell á
árbol.
b l
15
6. Arboles de Decisión
El mejor corte en cada nodo es elegido probando todas las variables una tras otra. Existen
algoritmos muy eficientes que permiten encontrar en pocos segundos el mejor corte entre
miles de predictores (una regresión tendría muchos problemas en esta situación).
El criterio más usado en casos de clasificación es el índice de Gini. Este índice mide la
probabilidad
b bilid d d
de que d
dos elementos
l t extraídos
t íd aleatoriamente
l t i t d
de lla misma
i población
bl ió
pertenezcan a la misma clase. Su valor se puede obtener de la siguiente fórmula:
El mejor corte será aquel que consiga un índice de Gini mayor tras el corte:
6. Arboles de Decisión
¿Hasta cuando debe crecer un árbol? En principio nada impide llegar a tantos nodos
terminales como observaciones en la muestra, es decir, nodos con una única observación.
En la práctica es necesario tener un mínimo de al menos 100 observaciones en cada nodo
terminal para poder tener cierta confianza en la estimación del árbol.
Mediante el uso de muestras de validación y métodos de poda nos aseguraremos de la
capacidad de generalización del árbol y evitaremos el “overfitting”.
16
6. Arboles de Decisión
Relación entre edad y pasivo del cliente según una regresión y un árbol
6. Arboles de Decisión
La flexibilidad del árbol permite introducir los ratings de películas sin transformar para predecir
la valoración de Forrest Gump. El árbol es capaz de separar el efecto “no he visto la película”
de las respuestas “valoración baja” y “valoración alta”.
17
6. Arboles de Decisión
2
2. Estadísticas Básicas
3. Análisis de Correlación
5
5. Regresión Lineal
6. Arboles de Decisión
18
7. Diseño de Encuestas de Satisfacción
Las técnicas de componentes principales y regresión lineal son básicas a la hora de diseñar
correctamente una encuesta de satisfacción.
En primer lugar es necesario conocer cuántas dimensiones diferentes de calidad perciben los
clientes. Para ello podemos planificar la siguiente estrategia:
Es importante medir la satisfacción global, pero quizás más importante es conocer el impacto
de ciertos atributos en la valoración global. Es decir, si somos capaces de identificar qué
atributos afectan más a la satisfacción del cliente podremos centrar nuestros esfuerzos en
aspectos concretos de mejora.
Disponemos de dos métodos para conocer la importancia de los atributos:
p
• Las respuestas no son útiles p
porque
q los • Los coeficientes de cada atributo
clientes no saben valorar en qué reflejan el impacto de dichas
medida ciertos atributos afectan a su valoraciones en la satisfacción global
satisfacción global
• Los cuestionarios son mucho más
• Además existe una desventaja por el cortos ya que sólo se pregunta por la
incremento del cuestionario, que puede valoración del atributo, no por su
doblar su tamaño importancia
19