Está en la página 1de 44

Modelos de Analítica

Aplicados a los Negocios

0
Los modelos de analítica adquieren cada vez más importancia en las
distintas industrias, ya que contribuyen a la toma de decisiones para
realizar una optimización sobre las necesidades de cada uno de sus clientes.
Existen distintos métodos estadísticos sobre modelación para el análisis y
tratamiento de datos que tienen las distintas compañías al interior de ellas
mismas. 1

“Algunas empresas han construido sus negocios sobre la base de su


capacidad para reunir, analizar y actuar a partir de datos. Todas las
empresas pueden aprender de lo que hacen estas compañías” (Davenport,
2006).

Tabla de contenido
1. Introducción a los modelos de analítica ............................................... 2
2. Modelos de aprendizaje supervisados ................................................. 5
2.1. Modelos de regresión .................................................................... 7
2.2. Árboles de decisión ...................................................................... 20
2.3. Naive Bayes.................................................................................. 21
2.4. SVM ............................................................................................. 23
2.5. Random Forest ............................................................................ 25
3. Aplicación de los modelos de aprendizaje supervisados .................... 26
3.1. Churn ........................................................................................... 26
3.2. Scoring Bancario .......................................................................... 27
3.3. Ensamble de modelos .................................................................. 27
4. Modelos de aprendizaje no supervisados .......................................... 28
4.1. Cluster análisis ............................................................................. 29
4.2. Análisis de correspondencias ....................................................... 30
4.3. Análisis de componentes principales ........................................... 32
5. Machine learning y Deep learning ...................................................... 33
5.1. Machine learning ......................................................................... 33
5.2. Deep learning .............................................................................. 36
6. Casos de negocio................................................................................ 37
6.1. Wallet Share en banca ................................................................. 37
6.2. Análisis de marca ......................................................................... 39
Referencias .............................................................................................. 40
2
Glosario .................................................................................................... 41

1. Introducción a los modelos de analítica


En el mundo actual en una compañía es muy importante realizar el análisis
de sus datos para dar un incremento significativo en la analítica al interior
de la organización. Es así como la ciencia de datos o Data Science tiene una
importancia alta.
El análisis de datos o analytics es una mega tendencia que está impactando
a todo tipo de industria y a todas las empresas de cualquier sector
económico y de cualquier tamaño; actualmente es muy común escuchar o
hablar de tendencias como el Big Data, la inteligencia artificial – IA (Data
Mining, Machine Learning, Deep Learning), pero en su gran mayoría se
desconoce su aplicación y ventajas para las empresas, pero lo más
importante, es identificar cómo esto nos ayuda a responder
adecuadamente preguntas de negocio, analizar y resolver problemas,
optimizar recursos, disminuir los riesgos a los que está expuesta una
organización y apoyar la toma de decisiones informadas.
En consecuencia, el mercado laboral demanda profesionales con
habilidades técnicas en esta materia – Hard Skills -. En un informe publicado
por (LinkedIn, 2019) se presentaron las habilidades más demandadas por
las empresas, clasificadas en Solf Skills y Hard Skills, en esta última categoría
sobresalen: la inteligencia artificial, el razonamiento analítico y la
computación en la nube, es por ello que, esta formación busca brindar
herramientas y desarrollar habilidades básicas relacionadas con el análisis
de datos.
El objetivo central de todo el analitycs es establecer las distintas ramas del
Data Mining para la explotación de la información (Imagen 1). Dicha
explotación avanza sobre la analítica si incorporamos los modelos
matemáticos, de tal manera que ayuda a la predicción de los distintos
comportamientos dentro de la organización.
3

Imagen 1. Ramas del Data Mining

Por lo tanto, en el sentido analítico, es importante incorporar un


profesional que tenga un panorama abierto a los diferentes entes que
entran a participar en el análisis de información. Es así como la ciencia de
datos describe tres grandes grupos con sus respectivas intersecciones, tal y
como se observa a continuación:
4

Imagen 2. Ciencia de los Datos.


Fuente: (Mutto)

• Ciencia de datos: dada su naturaleza interdisciplinaria, requiere una


intersección de habilidades o disciplinas: hacking skills, experiencia
sustantiva, conocimiento matemático y estadístico.
• Hacking skills: habilidades técnicas necesarias para trabajar con
datos masivos, que deben ser adquiridos, limpiados y manipulados.
• Conocimiento matemático y estadístico: permite escoger los
métodos y herramientas apropiadas para extraer información de los
datos.
• Experiencia sustantiva: la experiencia en el método científico es
importante para poder investigar con método al igual que lo es la
experiencia de negocio.
• Investigación tradicional: intersección en la que ocurre la
investigación tradicional.
• Aprendizaje de máquinas: intersección en la que ocurre el
aprendizaje de máquinas.
• Zona de peligro: las habilidades técnicas combinadas con la
experiencia pueden crear una zona de peligro si no se usan métodos
rigurosos.
2. Modelos de aprendizaje supervisados

Los modelos de aprendizaje supervisados adquieren especial importancia


para las compañías dado que, por lo general, existe una pregunta de
negocio a resolver. Es aquí donde toda la información obtenida dentro o 5

fuera de la compañía, ayuda para realizar algún tipo de predicción y poder


tomar la decisión, a fin de mejorar sus indicadores.
• Aprendizaje supervisado:
Consiste en aprender el principio de un conjunto de datos conocidos para
realizar predicciones sobre un conjunto de datos con información
desconocida.
La información a predecir puede ser para tipo de datos categóricos o
continuos, en los cuales se pueden usar algoritmos de clasificación o de
regresión según corresponda.
Esto se puede evidenciar con el siguiente caso: En un banco la información
a predecir sería cuál es el cliente que es más propenso a caer en mora o
cuál es cliente más probable que comprara un determinado tipo de crédito
(técnicamente llamado Scoring Bancario). Otro caso es en una empresa de
telecomunicaciones donde la información a predecir será cuál es el cliente
más probable de retiro de la compañía (técnicamente llamado Churn).
Los algoritmos más usados son:
• Regresión
• Regresión logística - Logit
• Árboles de decisión
• Random Forest
• Máquinas de vectores de soporte (SVM)
• Naïve Bayes
• Análisis discriminante
• Redes neuronales
Es decir que para los modelos supervisados el objetivo es la separación de
clases.

Imagen 3. Modelos supervisados.


Fuente: (Johnson, 2013)

En el anterior gráfico, el modelo 1 es más específico para dividir las clases 1


y 2, mientras que el modelo 2 es algo más general para la división de las
clases. Cada modelo utiliza métodos distintos por lo que pueden llevar a
distintos errores.
El modelo 1 es más específico, el cual podría tener problemas para predecir
datos distintos, mientras que el modelo 2 es más general y los falsos
positivos o falsos negativos se pueden incrementar.
Por lo tanto, el modelo 1 será más complejo de poner en operación en un
sistema de información de datos, mientras que el segundo es más fácil de
entender. El objetivo es llegar a un modelo parsimonioso que no sea tan
específico, ni tan general.
2.1. Modelos de regresión

Los modelos de regresión son aquellos en donde se desea establecer una


relación entre una variable dependiente y una o varias variables
independientes. 7

Los modelos de regresión tienen varias divisiones, aquí algunas de ellas:


a. Regresión lineal simple: Variable dependiente continúa e
independiente continúa.
b. Regresión lineal múltiple: Variable dependiente continua y variables
múltiples independientes.
c. Regresión logística nominal: Variable dependiente binaria,
independientes continuas o categóricas.
d. Regresión logística multinomial: Variable dependiente categórica,
independientes continuas o categóricas.
e. Regresión logística ordinal: Variable dependiente categórica ordinal,
independientes continuas o categóricas.
f. Regresión de poisson: Variable dependiente discreta, independientes
continuas o categóricas.
g. Regresión de cox: Variable dependiente nominal y el tiempo como
independiente.

Profundización sobre regresión lineal


El objetivo de la regresión lineal es encontrar los valores de los parámetros
que creen una recta que pase lo más cerca posible de una nube de puntos.
Para ello se establece una correlación entre variables que es de forma
lineal, tal y como se evidencia en la siguiente imagen:
8

Imagen 4. Modelos de regresión.


Fuente: (Verdejo, 2018)

Esto significa que la pendiente de la recta calcula el grado de inclinación de


la recta de estimación con respecto al eje X.

Imagen 5. Visualización de Modelo de regresión

Sin embargo, en una regresión lineal simple se encuentran diferentes


partes que se pueden observar en la siguiente imagen:
9

Imagen 6. Partes de una regresión lineal simple.


Fuente: (Santana, 2015)

A continuación, se presenta un ejemplo de regresión lineal que se puede


desarrollar en el programa R, uno de los lenguajes de programación y
entorno computacional dedicado a la estadística de código abierto más
popular, usado por científicos de datos y especialistas en análisis de datos
en todo el mundo.
Antes de revisar el código, veamos la explicación de un paquete en R:
Cada paquete es una colección de funciones diseñadas por expertos y
científicos de datos para atender una tarea específica, generalmente, el
paquete contiene funciones que deben estar en diferentes librerías
contenidas en el paquete y dataset de prueba, con las que se pueden
realizar diferentes ejercicios. Por ejemplo, hay paquetes de trabajo para
visualización geoespacial, análisis psicométricos, minería de datos, machine
learning, interacción con servicios de internet entre otros.
Estos paquetes se encuentran alojados en CRAN (Comprehensive R Archive
Network para el lenguaje de programación R), así que pasan por un control
riguroso antes de estar disponibles para su uso generalizado.
R por default trae instalados varios de los paquetes básicos y por ende las
diferentes funciones básicas, pero para la gran mayoría de proyectos se
deben cargar las librerías necesarias; el uso de dichas librerías solo se
aprende con la práctica y el uso de la herramienta, por desgracia no hay un
manual que indique qué librería es la más adecuada para determinado
proyecto. 10

Para la instalación de un paquete se debe usar la función install.packages(),


dando como argumento el nombre del paquete que deseamos instalar,
entre comillas.
Por ejemplo, para instalar el paquete readr, corremos lo siguiente.
install.packages("ggplot2")
A continuación, se presenta la salida de un script de R, desarrollado en R
Studio (Integrated Development Environment - IDE) para el lenguaje de
programación R, le recomendamos que lo revise y ejecute con calma para
que pueda entender la sintaxis y el algoritmo implementado.
Cuando desarrolle e implemente sus proyectos de analytics, se recomienda
tener orden, comentar el código de tal manera que se pueda entender con
facilidad y tanto usted como otro colaborador pueda entender y reutilizar
el código, con el símbolo # puede realizar estos comentarios en el script.
El algoritmo de regresión que se presenta en el siguiente script utiliza el set
de datos de “Boston1”, uno de los conjuntos de datos más utilizados en el
proceso de aprendizaje de esta disciplina; “Boston” presenta los datos de
vivienda para 506 secciones censales de la ciudad de Boston del censo de
1970, tiene 506 filas y 20 columnas (variables). La variable objetivo o
independiente es “MEDV” (valor medio de viviendas), por lo que, en este
caso particular, el objetivo será predecir el valor de dicha variable.

1
En el siguiente link de la documentación oficial de R podrá obtener más información:
https://www.rdocumentation.org/packages/spdep/versions/0.6-15/topics/boston
La explicación se presenta con un buen detalle, de tal manera que se facilite
su entendimiento, apropiación de conceptos y posterior aplicación en
nuevos proyectos, es decir, que la sintaxis es genérica y la gran mayoría de
los comandos usados se pueden customizar a cualquier otro proyecto.
Script
11
# Instalación de paquetes
install.packages("MASS")# los paquetes solo se cargan una vez
install.packages("ISLR")
install.packages("psych")
# Se cargan las librerías necesarias
library(MASS)
library(ISLR)
library(psych)

# Se cargan los datos


head(Boston)
?Boston # con este comando ? se puede ver el detalle de los set de datos que
vienen precargados en las librerías

# También se pueden guardar los datos asignándolos a un objeto


datos = (Boston)

# Ahora veamos los estadísticos principales, usamos el comando summary


summary(Boston)

Con summary se obtienen los estadísticos principales del set de datos, es


de gran ayuda para reconocer los rangos, valores promedios y cuartiles de
las variables cuantitativas.
12

# Veamos las características del dataset, con el comando str


str(Boston)

La salida anterior, permite ver las características principales del modelo, por
ejemplo, las dimensiones del dataset, las variables con su tipo de datos y
algunos ejemplos de los datos o valores de dichas variables.

#Veamos el nombre de las variables


colnames(Boston)

Con este comando vemos el nombre de cada variable y el orden en que


están en el dataset, fijémonos en el índice, es decir la ubicación de la
variable, en R este índice inicia en 1, esto puede ser de utilidad para hacer
algún análisis particular con un subconjunto de variables.
Análisis exploratorio
El análisis exploratorio de datos, o EDA (por sus siglas en inglés exploratory
data analysis) es un ciclo iterativo que ayuda a comprender mejor los datos,
13
la persona logra:
• Generar preguntas acerca de los datos.
• Buscar respuestas visualizando, transformando y modelando los
datos.
• Usar lo aprendido para refinar preguntas y/o generar nuevos
interrogantes.
• Descubrir información, reconocer patrones, tendencias y relaciones
entre las variables.

#Revisión de la variable de respuesta


hist(Boston$medv, col="green", breaks=20,main = "Histograma de la variable valor
promedio vivienda (MEDV)",
xlab = "Valor promedio de las viviendas en Boston")
Se puede ver que la variable MEDV tiene una distribución normal, sin
embargo, parece haber algo de datos atípicos.

#Revisión de la variable de respuesta


boxplot(Boston$medv, col="orange",main = "Histograma de la variable valor
promedio vivienda (MEDV)", xlab = "Valor promedio de las viviendas en Boston")
14

Ejecutado este código obtenemos el gráfico boxplot o gráfico de caja y


bigotes, el cual permite ver valores atípicos o dispersión de los datos, esto
se ve por el largo del bigote superior y los puntos que aparecen en este.
De seguro se le ocurrirán más análisis de este tipo, en el EDA no hay reglas
para el análisis exploratorio, como analistas hay que dejar volar la
creatividad y realizar los análisis que se consideren pertinentes.
Ahora veamos las correlaciones:

#matriz de correlación
round(cor(x = Boston, method = "pearson"),2)
15

Se puede apreciar en este análisis de la variable de MEDV que tiene una


correlación positiva alta de 0.70 con la variable del número de habitaciones
RM y una correlación negativa alta con la variable de LSTAT (porcentaje de
la población en condición de pobreza), esto nos orienta a qué variables
podríamos usar para el modelo de regresión, de manera arbitraria se
implementará el modelo con la variable de mayor correlación.
Veamos el plot de estas dos variables:

#Veamos el plot de estas dos variables:


plot(Boston$medv, Boston$lstat, col = "orange",
ylab = "LSTAT", xlab = "MEDV",
main = "Grafico de relación entre las variables")
En este scatter plot o gráfico de dispersión se puede ver la relación entre
las dos variables, claramente se ve que el precio promedio de las viviendas
en Boston disminuye en función de la disminución del porcentaje de
población en condición de pobreza.
Implementación del modelo:
16
Ahora se realizará la implementación del algoritmo de regresión lineal
simple para predecir el valor de la variable MEDV en función de la variable
independiente LSTAT.

# Implementación del modelo


Mod_RL = lm(medv ~ lstat, data = Boston)
summary(Mod_RL)

Antes de ver la salida del modelo revisemos la sintaxis:


• Se asigna al objeto Mod_RL el modelo de regresión lineal.
• La función “lm” es la de regresión.
• En el paréntesis va primero la variable a predecir o variable objetivo,
seguida y separada del símbolo ~ la variable o variables
independientes, finalmente se debe indicar dónde están los datos
con el comando data.
• Con la función summary se obtienen los estadísticos del modelo.
17

Análisis del modelo:


Al revisar detalladamente el summary del modelo, se puede ver que:
• Los coeficientes presentan el beta cero y el beta uno, en el caso de
un modelo de regresión múltiple se obtendrían varios betas b1, b2,
b3, bn.
• El p-value para ver la significancia de las variables, en R aparecen
unos asteriscos **, esto también es un buen indicador, a mayor
número de asteriscos mayor es la significancia, pero también puede
hacer la prueba de hipótesis de las variables.
• El p-value del modelo global.
• El R cuadrado es de 0.5441 que quiere decir que lstat= porcentaje de
población en condición de pobreza, explica en un 54.41% el
comportamiento del valor mediano de las casas en Boston.
Función del modelo:

𝑀𝐸𝐷𝑉 = 34.55384 + −0.95005 ∗ 𝐿𝑆𝑇𝐴𝑇


Predicción:
Con base en la función obtenida se puede realizar la predicción, en este
caso se realizará con un valor de 11 para la variable LSTAT

𝑀𝐸𝐷𝑉 = 34.55384 + −0.95005 ∗ 11


18
𝑀𝐸𝐷𝑉 = 24.10329
Es decir, que con un porcentaje de 11% de la población en condiciones de
pobreza, el valor promedio de la vivienda en Boston es de $24.103 dólares.
También se puede realizar la predicción en R directamente:

# Implementación del modelo


predict(object = Mod_RL, newdata = data.frame(lstat = c(11)), interval =
"confidence", level = 0.95)

Si se desea graficar la información con el valor de la recta obtenida por el


modelo de regresión lineal se utiliza el siguiente código en R:
# Grafico del modelo
attach(Boston)
plot(x = lstat, y = medv, main = "Modelo de regresión lineal (medv vs lstat)", pch =
20, col = "grey30")
abline(Mod_RL, lwd = 3, col = "red")
Esto nos da la línea roja, la cual es la estimación que pasa por la mayoría de
los puntos.
Después de correr el modelo se deben analizar los supuestos del modelo.
Para ello, existen varios postulados, siendo uno de los más importantes
donde los residuales deben seguir una distribución normal.
19
# Análisis de los residuos
par(mfrow=c(1,2))
plot(Mod_RL)

En el primer gráfico de distribución de los residuos; el supuesto de


normalidad de los mismos debería ajustarse la línea roja lo más cerca
posible del cero, de lo contrario este supuesto no se cumpliría, en el gráfico
Normal QQ debe seguir toda la tendencia de la línea punteada. En él se
observa que los residuales estandarizados no siguen un patrón lineal, lo
cual indica que el ajuste del modelo no es bueno y se concluye que el
modelo que se ha realizado carece de validez. Para solucionar este
problema se debe transformar la variable o colocar otras variables que sean
más predictivas a la hora de tomar una mejor decisión de explicación de la
variable dependiente.

20

Si desea conocer más información del código en R de la regresión continúe


con las lecturas y recursos complementarios del módulo.

También es recomendable revisar la documentación oficial de R, no solo


para la regresión lineal, sino para los demás algoritmos de analítica
predictiva, machine learning y análisis estadístico en general
https://www.rdocumentation.org/, en este link encontrará información
de los paquetes, librerías, funciones, modelos y datasets disponibles en R,
otro buen recurso es https://stackoverflow.com/questions/tagged/r, sitio
especializado de la comunidad de científicos de datos que
permanentemente están realizando aportes que de seguro ayudarán a
resolver errores comunes y despejar dudas sobre el uso de la herramienta
y de la implementación de los algoritmos.

2.2. Árboles de decisión

Los árboles de decisión son modelos en donde se correlacionan las variables


independientes con la variable dependiente. Es decir, se realiza la división
de la clase o target que se desea estudiar.

De esta manera, el algoritmo que hay en un árbol de decisión estable es el


camino más probable para la categoría estudiada. Un árbol de decisión
contempla un algoritmo en el que correlaciona todas las variables
independientes con respecto a la dependiente; de esta manera la variable
más correlacionada es la que aparece de primeras en el árbol de decisión.

En el gráfico se puede observar que la variable X2 cuando es mayor o igual


a 0.63 y X1 es mayor igual a 0.51, entonces el valor de la variable objetivo 21
es 55%.

Imagen 9. Árbol de decisión.


Fuente: (David Yeo, s.f.)

2.3. Naive Bayes

Es una metodología de clasificación para datos supervisados que predicen


un objetivo por medio de probabilidades, bajo la teoría de la probabilidad
condicional.

Existen dos clases de probabilidad en el lanzamiento de dos datos. El


resultado de uno de los dados no depende del resultado del primer dato,
esto se llama probabilidad independiente. En el caso de que no se tenga la
independencia de un evento, entonces los eventos son condicionales.

22

Imagen 10. Fórmula de probabilidad condicional

En la gráfica se muestran dos eventos. El evento c es dependiente del


evento x. Se debe calcular la probabilidad de c dado que ocurre x. Para
lograr esto, se multiplica la probabilidad de x dado el evento c por la
probabilidad de c, luego se divide por la probabilidad del evento x.

La aplicación de esta fórmula se hace mayoritariamente en seguros, donde


la probabilidad de un siniestro se da dependiendo de la edad, por eso la
edad es un factor importante dentro del sistema de seguros. Es decir, si el
tomador tiene 25 años, tendrá un costo diferente a las personas que tengan
35 años.

Es una metodología fácil de usar dado que su implementación es sencilla y


los resultados de predicción suelen ser altos. Adicional, los datos de
entrenamiento con los que se realiza el modelo no exigen un volumen alto
en los datos, lo cual lo hace práctico. Sin embargo, se debe tener presente
que las variables que se incluyen en el modelo de predicción deben ser
independientes entre ellas, lo cual muchas veces es difícil de obtener.
2.4. SVM

Los SVM son máquinas de soporte vectorial, que consisten en realizar una
clasificación de aprendizaje automático que tiene una importante
relevancia en el análisis de grandes volúmenes de información. 23

La característica más importante para usar este modelo es la tasa de


clasificación que se desea utilizar, por lo general son tasas de clasificación
pequeñas como el churn que suele estar por el 1,5% o de una tasa de fraude
que suele estar en un 0,05%.
Este algoritmo pretende, al igual que todos los modelos supervisados,
predecir si un conjunto de datos pertenece a determinada categoría o no.
Los SVM tienen como función buscar un hiperplano que haga una
separación óptima de los puntos de una clase con respecto a otra, por
ejemplo, para una aseguradora se usará para separar los clientes que sufren
un sinestro con los que no sufren un siniestro.
Las máquinas de vectores de soporte o Support Vector Machine están
basadas en la optimización del hiperplano (maximal margin hyperplane), el
algoritmo busca separar las clases con base en el hiperplano que crea y la
función de optimización busca que el costo de esta sea lo más pequeño
posible, esta función se calcula con base en los vectores de soporte, que
son los datos o puntos que se ubican lo más cerca del hiperplano.
En el siguiente gráfico veremos un ejemplo de (Kowalczyk, 2017); este tipo
de algoritmos desarrollados por Vladimir Vapnik y su equipo en los
laboratorios AT&T, tienen un componente matemático fuerte,
especialmente de algebra lineal, las dos líneas punteadas son los límites del
hiperplano y el margen que hay entre estos dos se denomina GAP, se
calcula como la distancia perpendicular de la línea para soportar vectores o
puntos más cercanos. Si el margen es mayor entre las clases, entonces se
considera un margen bueno, un margen menor es un margen malo.
24

Imagen 11. Maximal margin hyperplane


Fuente: (Kowalczyk, 2017)

El algotirmo de SVM realiza la clasificación por encontrar el hiperplano


kernel linear, polinomial y radial, es decir, que este tipo de algoritmos tiene
estas tres funciones como hiper-parámetros que separan entre un conjunto
de objetos que tienen diferentes clases.
Este hiperplano se elige de tal manera que maximice el margen entre las
dos clases para reducir el ruido y aumentar la precisión de los resultados.
Los vectores que están en los márgenes se llaman vectores de soporte. Los
vectores de soporte son puntos de datos que se encuentran en el margen y
una de las partes más complejas es elegir el mejor kernel y sus
correspondientes parámetros, por lo cual la implementación de estos
algoritmos es dispendiosa y generalmente con un costo computacional alto.
2.5. Random Forest

Los Random Forest son una clase de modelos que masifican un modelo
moviendo distintos parámetros.
En general, un modelo Random Forest se puede tener con la multiplicidad 25

de varios árboles de decisión o regresiones, de tal manera que cada uno


está creado en función de algún movimiento de los parámetros, como se
vio en el apartado de árboles de decisión, en el cual se crea para saber qué
variables son las más importantes para predecir una variable dependiente.
En el Random Forest ahora se tiene una multiplicidad de árboles de
decisión, como se muestra en la siguiente figura:

Imagen 12. Modelo Random Forest Simplified.


Fuente: (Koehrsen, 2017)

El árbol 1 establece un modelo para la predicción de la variable dependiente


con una serie de variables independientes, el árbol 2 tendrá otra
combinación de variables independientes y así sucesivamente. Al final se
crea una votación para saber cuál es la predicción de la clase que se desea
estudiar. Si se realiza un Random Forest para predecir si un cliente entra en
mora, por ejemplo, si el árbol 1 predice que sí entra en mora, el árbol 2
predice que no entra en mora y el árbol 3 predice que sí entra en mora,
entonces dos árboles predicen que sí y uno que no. De esta manera la
votación queda 2 a 1 con lo cual la clase final del Random Forest predice
que si entra en mora el cliente. 26

El Random Forest tiene una mejor precisión comparado con un árbol de


decisión, sin embargo, este método es más complejo de colocar en
operación mientras que un árbol de decisión es mucho más sencillo al
momento de ponerlo en producción.

3. Aplicación de los modelos de aprendizaje supervisados

A continuación, se presentan tres ejemplos de posibles aplicaciones que se


les pueden dar a los modelos de aprendizaje supervisados. Son casos de uso
típico que se realizan en banca y telecomunicaciones especialmente, pero
que pueden ser extendidos a otros sectores. El objetivo es aplicar los
modelos anteriormente descritos.

3.1. Churn
Estos son modelos de negocio que son un poco más estudiados en el área
de telecomunicaciones y en el sector financiero, especialmente en los
bancos, pero que se pueden llevar a sectores como el de educación para
predecir la deserción de los estudiantes. El objetivo del Churn es identificar
lo siguiente:
Scoring Fuga:
• ¿Quién se va?
• ¿A quién retener?
• ¿A quién no retener?
• ¿Variables síntomas de la fuga?
• ¿Momento de la fuga?
Por lo tanto, se debe establecer un modelo de probabilidad para encontrar
cuáles son los clientes más propensos a ser Churn.
27

Por ejemplo, es posible establecer un modelo de Churn mediante un


modelo de árboles de decisión en donde la variable objetivo o dependiente
es el Churn, en el siguiente link encontrará la información de uno de los set
de datos más utilizados para este tipo de problemas:
https://www.rdocumentation.org/packages/C50/versions/0.1.2/topics/ch
urn.

3.2. Scoring Bancario

El Scoring Bancario está dado para realizar una predicción desde el punto
de vista de modelos de probabilidad.
El caso de uso es crear un modelo analítico para la predicción de un
fenómeno que sucede en banca, por ejemplo, que el cliente no pague o
caiga en default.
El objetivo es crear un modelo matemático que prediga, en función de
algunas variables, cuáles son las más importantes, y con ellas, idear una
probabilidad de caer en default. Típicamente la probabilidad se multiplica
por 1000 y da como resultado un Scoring Bancario.

3.3. Ensamble de modelos

El ensamble de modelos da una mejor respuesta a la estimación de los


parámetros de los modelos comparado con un modelo único. Esto significa
que, si se tienen tres modelos y cada uno tiene una predicción, entonces
cada modelo es la respuesta a una estimación de la variable; y lo que hace
el ensamble es integrar una respuesta única con la ayuda de la multiplicidad
de modelos.
• Método promedio:
28
Modelo 1 Modelo 2 Modelo 3 Ensamble
0,783 0,694 0,458 0,645
Para tres modelos que se tienen diferentes probabilidades, el modelo final
será el promedio de las tres probabilidades que nos da un solo resultado de
ensamble. De esta manera, el usuario tendrá un score final de 645.
• Método voting:
Modelo 1 Modelo 2 Modelo 3 Ensamble
Sí Sí No Sí
Si para el mismo ejemplo de los tres modelos resulta un punto de corte
mayor a 600, entonces el modelo 1 y 2 dicen que sí pasa el score y el modelo
3 dice que no pasa el score. Por un sistema de votación se tienen dos
modelos que sí pasan el score y uno que dice que no, entonces el resultado
final es que sí se pasa el score.

4. Modelos de aprendizaje no supervisados

Los modelos de aprendizaje NO supervisados son de especial importancia


para las compañías, dado que en algunos problemas de negocio a resolver
no se tiene una variable de estudio o target y es aquí donde toda la
información obtenida dentro o fuera de la compañía ayuda para realizar
algún tipo de explicación.
El objetivo general de un modelo de aprendizaje no supervisado es
establecer un algoritmo que describa todo el comportamiento de las
variables dependientes. Dado que en estos casos no existe una variable
independiente.

4.1. Cluster análisis


29

Este método tiene como objetivo agrupar individuos que sean lo más
homogéneos posibles dentro de un grupo y lo más heterogéneo entre
grupos. En este caso, los grupos no existen a priori, sino que son definidos
por quien está desarrollando el estudio, según su experiencia y
conocimientos.
Por ende, se debe establecer un criterio de similaridad para tomar la
decisión de cuántos grupos se crearán y para esto se hace útil los
dendogramas, los cuales permiten visualmente tomar estas decisiones.

Imagen 13. Dendograma con posibilidad de creación de tres grupos definidos


(Recuadros en rojo).
Fuente: (Calvo, 2016)
30

Imagen 14. Visualización de la clasificación de 3 grupos.

Las técnicas de clasificación más usadas son k means, el vecino más


cercano, conglomerados jerárquicos y no jerárquicos.
El Análisis Cluster o de conglomerados se utiliza para la clasificación de
individuos, por ejemplo:
• Clasificar usuarios de un banco para la obtención de un crédito.
• Clasificar habilidades de estudiantes de un curso.
• Crear segmentos de productos alimenticios.
• Crear segmentos de una oferta comercial en telecomunicaciones.

4.2. Análisis de correspondencias

Este método fue diseñado para mostrar de forma descriptiva información


resumida sobre datos categóricos u ordinales, tratando de evitar la pérdida
de información.

El objetivo es que en una tabla no muy grande se pueda ver de forma rápida
alguna relación entre dos o más variables según el interés, aunque una tabla
con tres dimensiones (tres variables) ya empieza a ser más compleja de
interpretar. Una vez se obtiene la tabla resumen de las variables a analizar,
se realizan pruebas.

El estadístico más común para la prueba es el chi cuadrado, el cual


determina la independencia de las variables sobre una hipótesis que asume
dependencia entre dos variables, la prueba matemática chi cuadrado 31
establece la relación entre variables categóricas. Si desea conocer más en
detalle de la prueba puede leer los recursos complementarios de este
módulo.

Uno de los casos más típicos es relacionar atributos de los productos con
las marcas de cada uno de ellos, por ejemplo, que la marca A es percibida
por los clientes con el atributo saludable, mientras que la marca B la
perciben más con el atributo que es costosa.

Una gráfica de posicionamiento da un resumen rápido de lo que se puede


estar buscando, por ejemplo, en la siguiente imagen se observan las
características que definen a Colombia, según diferentes edades de los
encuestados.

Imagen 15. Representación de análisis de correspondencias entre dos variables.


Fuente: (Cañas, s.f.)
4.3. Análisis de componentes principales

El análisis de componentes principales (ACP) es un método que busca


disminuir la dimensionalidad de las variables originales sin perder
información y lograr describir lo mejor posible todo un conjunto de datos
que contiene muchas variables para analizar. Esto se realiza sobre nuevas 32

variables denominadas componentes.

Las características de las componentes es que son nuevas variables no


relacionadas y cada una de ellas contiene parte de la varianza que describen
los datos. Los primeros componentes contienen la mayor varianza que se
puede explicar de los datos, por lo que se hacen los más relevantes en los
análisis.

Supuestos
Para obtener mejores resultados del análisis exploratorio por medio de esta
técnica se deben considerar los siguientes puntos:
• Tener variables correlacionadas en el conjunto de datos
• Variables con distribución normal

Imagen 16. Análisis de componentes principales


En la imagen se muestra la relación de variables vista desde los dos
componentes principales que acumulan el 55,3% de la varianza explicada.
El análisis de componentes principales es la reducción de dimensiones, así
que las ocho variables mostradas en el gráfico se pueden reducir a dos
dimensiones en donde la variabilidad total de las ocho variables queda
plasmada en dos dimensiones que contienen el 55,3% del total de la 33

variabilidad.

5. Machine learning y Deep learning

El aprendizaje automático ha tenido un gran crecimiento en los últimos


años porque gracias al avance de la tecnología los computadores de hoy
pueden procesar más algoritmos a una velocidad mucho más rápida que los
modelos tradicionales. De esta manera, el aprendizaje de máquina
adquiere una gran importancia para la modelación de fenómenos de datos.

5.1. Machine learning

El aprendizaje de máquina o aprendizaje automático está en el ámbito de


inteligencia artificial en donde los sistemas aprenden de manera
automática con alguno de los algoritmos estudiados anteriormente.

El objetivo de machine learning es que cada vez que aparece nueva


confirmación, los modelos sean regresiones, árboles de decisiones o los que
vayan recalculando el valor de los parámetros.

Esta es la familia de modelos de machine learning disponible en los


diferentes paquetes estadísticos.
34

Imagen 17. Machine Learning


Fuente: (Wordstream, 2019)

Los modelos de machine learning tienen ventajas desde el punto de vista


de encontrar patrones que los modelos tradicionales no encuentran
fácilmente. Cuando se habla de patrones es por ejemplo encontrar cuales
son las características para que un cliente caiga en mora en los primeros
tres meses de uso de su tarjeta de crédito.
35

Imagen 18. Modelos de Machine Learning.


Fuente: (Jovanovi´c, s.f.)

Por ejemplo, en la gráfica de la izquierda está una representación de un


modelo en donde separa la zona amarilla de la zona azul. En cambio, en la
parte derecha se establece un modelo más básico con pocas variables. Es
decir que al lado izquierdo se encuentra un modelo que ha aprendido de
los datos para poder clasificar rápidamente entre las dos categorías que se
tienen.
La dificultad que se tienen en los modelos de machine learning es que
puede caer en sobre ajuste; es decir que el modelo de la izquierda puede
predecir muy bien en los datos de entrenamiento, pero se le dificulta tener
un poder predictivo en los datos que no está viendo.
Otra dificultad puede ser que tenga una fuga importante de datos de la
clase que no es conveniente para un negocio y cometer un error tipo II, que
es más frecuente que un modelo tradicional, ya que se deja todo el tiempo
que el modelo actualice los parámetros.
5.2. Deep learning

El Deep Learning o aprendizaje profundo es el resultado exhaustivo de un


modelo de Machine Learning con algoritmos un poco más complejos para
encontrar diferencias entre las clases que va a predecir. 36

El Deep Learning tiene que ver exactamente con las redes neuronales, las
cuales tienen la particularidad de hacer la predicción más profunda.

En el enfoque Deep Learning se usan estructuras lógicas que se asemejan


en mayor medida a la organización del sistema nervioso de los mamíferos,
teniendo capas de unidades de proceso (neuronas artificiales) que se
especializan en detectar determinadas características existentes en los
objetos percibidos.

Imagen 19. Deep Learning.


Fuente: (Professional 3D Scanners, s.f.)

El objetivo es, por ejemplo, observar una imagen y convertir los patrones
que se encuentren en ella a fin de establecer una relación entre la
predicción y una variable respuesta.
Un tipo de patrón ejemplo podría ser que las tarjetas de crédito usadas en
otro país para compra de supermercado por valor superior a 100 dólares
sea un patrón de posible fraude de tarjeta de crédito. De esta manera, una
serie de capas de neuronas artificiales van a permitir la toma de decisión
más rápida de lo que haría un ser humano.
La visión artificial es una de las áreas donde el Deep Learning proporciona 37

una mejora considerable en comparación con algoritmos más tradicionales.


Los modelos computacionales de Deep Learning imitan las características
arquitecturales del sistema nervioso, permitiendo que dentro del sistema
global haya redes de unidades de proceso que se especialicen en la
detección de determinadas características ocultas en los datos. Este
enfoque ha permitido mejores resultados en tareas de percepción
computacional, si las comparamos con las redes monolíticas de neuronas
artificiales.

6. Casos de negocio

Para los distintos negocios y sectores es importante ligar los modelos


analíticos a los casos de uso. A continuación, se presentan dos casos a modo
de ejemplo de situaciones reales que tienen las distintas compañías.

6.1. Wallet Share en banca


Para la banca es importante poder medir la relación que tiene cada usuario
entre lo que gasta mensualmente en los distintos rubros, con el fin de tener
un valor estimado de cuál es el potencial de participación que podría
destinar a diferentes tipos de créditos como hipotecario, vehículo etc.
38

Imagen 20. Wallet Share en banca

De esta manera, un usuario puede gastar un porcentaje de sus gastos


mensuales en ahorro, vivienda, educación, diversión etc. La parte que
corresponde a los pagos bancarios se realizan a través de gastos para estos
distintos rubros. Es decir, el objetivo para un banco es que la tarjeta débito,
el crédito, el hipotecario, entre otros, sea solo a través de los servicios que
él ofrece.
La participación en la billetera es precisamente saber qué porcentaje es ese
usuario con respecto al total de esa billetera. Por lo tanto, si soy banco, y
en un usuario participo el 21%, entonces debo incrementar mis servicios en
este cliente.

Con la ayuda de un modelo predictivo supervisado se pueden establecer


estrategias y variables que hacen que gane participación en esta billetera;
así para los clientes que se identifiquen con el mejor riesgo entonces el
banco puede establecer mejores promociones, compra de cartera, con el
fin de incrementar en 6 meses la participación en la billetera de 20% a un
35%, de esta manera el crecimiento del banco está dado sobre este wallet
share.
6.2. Análisis de marca
Un caso de uso típico en consumo masivo es el análisis de marca, ya que
permite establecer un análisis de componentes principales o
correspondencias y relacionar las características asociadas entre atributos
y marcas.
39
Entonces, de manera multivariada, se establece la relación de variables en
distintas dimensiones y se pueden graficar las dos principales.

Imagen 21. Análisis de marca


Fuente: (Universidad Tecnológica del Perú, 2012)

El mapa de posicionamiento establece dos ejes principales, uno de ellos es


la creatividad y el otro el arraigo de la marca al país. En este caso, se
establece un análisis con las marcas de gaseosas del Perú.
Entonces, por ejemplo, Inca Cola es una bebida que se siente más peruana
y está a la mitad de ser creativa; en cambio Coca-Cola es la más creativa,
pero se aleja de ser un producto que se siente peruano.
Este tipo de casos de uso les da poder a las marcas para poder establecer
sus estrategias y a dónde deberían orientar su publicidad o los mensajes
que quieran llevar a los consumidores. Por ejemplo, a la marca de gaseosa
Guaraná, que se encuentra en el centro de todo, según el ejemplo anterior,
le puede interesar incrementar su adopción como una marca más peruana.

Referencias 40

Calvo, D. (2016). Análisis Clúster Jerárquico en R. Obtenido de


http://www.diegocalvo.es/analisis-cluster-jerarquico-en-r/
Cañas, L. M. (s.f.). Obtenido de
https://www.researchgate.net/figure/Figura-5-Analisis-de-
correspondencias-entre-el-simbolo-que-representa-a-Colombia-y-
la_fig5_291344003
Davenport, T. (2006). Competir mediante el análisis. Harvard Business
Review, 18-28.
David Yeo, P. S. (s.f.). I don't need enterprise miner. Obtenido de
https://slideplayer.com/slide/4173761/
Johnson, M. K. (2013). Applied Predictive modeling, página 63. Springer.
Jovanovi´c, J. (s.f.). ML Intro. Obtenido de http://ai.fon.bg.ac.rs/wp-
content/uploads/2016/10/Cross-validation-over-fitting-under-
fitting.pdf
Koehrsen, W. (2017). Random Forest Simple Explanation. Medium
Corporation. Obtenido de
https://medium.com/@williamkoehrsen/random-forest-simple-
explanation-377895a60d2d
Kowalczyk, A. (2017). Support Vector Machines Succinctly. Obtenido de
https://www.syncfusion.com/ebooks/support_vector_machines_su
ccinctly
LinkedIn. (2019). The Skills Companies Need Most in 2019 – And How to
Learn Them. Obtenido de https://learning.linkedin.com/blog/top-
skills/the-skills-companies-need-most-in-2019--and-how-to-learn-
them
Mutto, C. A. (s.f.). Inteligencia artificial, un interrogante crucialpara el
futuro de la humanidad. Obtenido de
https://psicoadolescencia.com.ar/docs/ia/ia018.pdf
41
Professional 3D Scanners. (s.f.). Obtenido de https://rbpaonline.com/flow-
chart-of-machine-learning-classification/cancer-diagnostics-deep-
learning-ponic-time-stretch/
Santana, E. (2015). Data Mining con R. Obtenido de http://apuntes-
r.blogspot.com/2015/04/regresion-lineal-simple.html
Universidad Tecnológica del Perú. (2012). Segmentación y
posicionamiento. Obtenido de
https://es.slideshare.net/breiniack/segmentacion-
posicionamiento1
Verdejo, F. F. (2018). Concordancia y correlación. Obtenido de
https://fernandofernandezverdejo1999.blogspot.com/2018/05/tem
a-12.html
Wordstream. (12 de agosto de 2019). 10 Companies Using Machine
Learning in Cool Ways. Obtenido de
https://www.wordstream.com/blog/ws/2017/07/28/machine-
learning-applications

Glosario

• Error tipo I: rechazar la hipótesis nula cuando es verdadera. En


modelos de clasificación es clasificar un cliente como alguien que no
va a pagar cuando en realidad sí lo va a hacer.
• Error tipo II: no rechazar la hipótesis nula cuando es falsa. En
modelos de clasificación es clasificar un cliente como alguien que sí
va a pagar, cuando en realidad es un cliente que no va a pagar.
• Dendograma: gráfico que muestra las relaciones entre usuarios más
cercanos en los modelos de segmentación jerárquicos.
• Chi cuadrado: prueba matemática para la correlación de variables
categóricas.
• Pruning: consiste en depurar las variables.
42
Módulo
Modelos de Analítica Aplicados a los Negocios

43

Autores
Oscar Ayala
Camilo Torres

Universidad de La Sabana
Forum e-Learning

Versión 3
Copyright 2020. Todos los derechos reservados

También podría gustarte