Documentos de Académico
Documentos de Profesional
Documentos de Cultura
0
Los modelos de analítica adquieren cada vez más importancia en las
distintas industrias, ya que contribuyen a la toma de decisiones para
realizar una optimización sobre las necesidades de cada uno de sus clientes.
Existen distintos métodos estadísticos sobre modelación para el análisis y
tratamiento de datos que tienen las distintas compañías al interior de ellas
mismas. 1
Tabla de contenido
1. Introducción a los modelos de analítica ............................................... 2
2. Modelos de aprendizaje supervisados ................................................. 5
2.1. Modelos de regresión .................................................................... 7
2.2. Árboles de decisión ...................................................................... 20
2.3. Naive Bayes.................................................................................. 21
2.4. SVM ............................................................................................. 23
2.5. Random Forest ............................................................................ 25
3. Aplicación de los modelos de aprendizaje supervisados .................... 26
3.1. Churn ........................................................................................... 26
3.2. Scoring Bancario .......................................................................... 27
3.3. Ensamble de modelos .................................................................. 27
4. Modelos de aprendizaje no supervisados .......................................... 28
4.1. Cluster análisis ............................................................................. 29
4.2. Análisis de correspondencias ....................................................... 30
4.3. Análisis de componentes principales ........................................... 32
5. Machine learning y Deep learning ...................................................... 33
5.1. Machine learning ......................................................................... 33
5.2. Deep learning .............................................................................. 36
6. Casos de negocio................................................................................ 37
6.1. Wallet Share en banca ................................................................. 37
6.2. Análisis de marca ......................................................................... 39
Referencias .............................................................................................. 40
2
Glosario .................................................................................................... 41
1
En el siguiente link de la documentación oficial de R podrá obtener más información:
https://www.rdocumentation.org/packages/spdep/versions/0.6-15/topics/boston
La explicación se presenta con un buen detalle, de tal manera que se facilite
su entendimiento, apropiación de conceptos y posterior aplicación en
nuevos proyectos, es decir, que la sintaxis es genérica y la gran mayoría de
los comandos usados se pueden customizar a cualquier otro proyecto.
Script
11
# Instalación de paquetes
install.packages("MASS")# los paquetes solo se cargan una vez
install.packages("ISLR")
install.packages("psych")
# Se cargan las librerías necesarias
library(MASS)
library(ISLR)
library(psych)
La salida anterior, permite ver las características principales del modelo, por
ejemplo, las dimensiones del dataset, las variables con su tipo de datos y
algunos ejemplos de los datos o valores de dichas variables.
#matriz de correlación
round(cor(x = Boston, method = "pearson"),2)
15
20
22
Los SVM son máquinas de soporte vectorial, que consisten en realizar una
clasificación de aprendizaje automático que tiene una importante
relevancia en el análisis de grandes volúmenes de información. 23
Los Random Forest son una clase de modelos que masifican un modelo
moviendo distintos parámetros.
En general, un modelo Random Forest se puede tener con la multiplicidad 25
3.1. Churn
Estos son modelos de negocio que son un poco más estudiados en el área
de telecomunicaciones y en el sector financiero, especialmente en los
bancos, pero que se pueden llevar a sectores como el de educación para
predecir la deserción de los estudiantes. El objetivo del Churn es identificar
lo siguiente:
Scoring Fuga:
• ¿Quién se va?
• ¿A quién retener?
• ¿A quién no retener?
• ¿Variables síntomas de la fuga?
• ¿Momento de la fuga?
Por lo tanto, se debe establecer un modelo de probabilidad para encontrar
cuáles son los clientes más propensos a ser Churn.
27
El Scoring Bancario está dado para realizar una predicción desde el punto
de vista de modelos de probabilidad.
El caso de uso es crear un modelo analítico para la predicción de un
fenómeno que sucede en banca, por ejemplo, que el cliente no pague o
caiga en default.
El objetivo es crear un modelo matemático que prediga, en función de
algunas variables, cuáles son las más importantes, y con ellas, idear una
probabilidad de caer en default. Típicamente la probabilidad se multiplica
por 1000 y da como resultado un Scoring Bancario.
Este método tiene como objetivo agrupar individuos que sean lo más
homogéneos posibles dentro de un grupo y lo más heterogéneo entre
grupos. En este caso, los grupos no existen a priori, sino que son definidos
por quien está desarrollando el estudio, según su experiencia y
conocimientos.
Por ende, se debe establecer un criterio de similaridad para tomar la
decisión de cuántos grupos se crearán y para esto se hace útil los
dendogramas, los cuales permiten visualmente tomar estas decisiones.
El objetivo es que en una tabla no muy grande se pueda ver de forma rápida
alguna relación entre dos o más variables según el interés, aunque una tabla
con tres dimensiones (tres variables) ya empieza a ser más compleja de
interpretar. Una vez se obtiene la tabla resumen de las variables a analizar,
se realizan pruebas.
Uno de los casos más típicos es relacionar atributos de los productos con
las marcas de cada uno de ellos, por ejemplo, que la marca A es percibida
por los clientes con el atributo saludable, mientras que la marca B la
perciben más con el atributo que es costosa.
Supuestos
Para obtener mejores resultados del análisis exploratorio por medio de esta
técnica se deben considerar los siguientes puntos:
• Tener variables correlacionadas en el conjunto de datos
• Variables con distribución normal
variabilidad.
El Deep Learning tiene que ver exactamente con las redes neuronales, las
cuales tienen la particularidad de hacer la predicción más profunda.
El objetivo es, por ejemplo, observar una imagen y convertir los patrones
que se encuentren en ella a fin de establecer una relación entre la
predicción y una variable respuesta.
Un tipo de patrón ejemplo podría ser que las tarjetas de crédito usadas en
otro país para compra de supermercado por valor superior a 100 dólares
sea un patrón de posible fraude de tarjeta de crédito. De esta manera, una
serie de capas de neuronas artificiales van a permitir la toma de decisión
más rápida de lo que haría un ser humano.
La visión artificial es una de las áreas donde el Deep Learning proporciona 37
6. Casos de negocio
Referencias 40
Glosario
43
Autores
Oscar Ayala
Camilo Torres
Universidad de La Sabana
Forum e-Learning
Versión 3
Copyright 2020. Todos los derechos reservados