Está en la página 1de 97

Universidad de Santiago de Chile

Facultad de Ciencias
Departamento de Matemática y C.C.
Ingenierı́a Estadı́stica

Seminario de Tesis
Métodos Paramétricos y No
Paramétricos para Predicción de Fuga
de Clientes

Alumna:
Pamela Meléndez T.

Profesor Guı́a:
Mg. Reinaldo González S.

Profesores de Comisión:
Dra. Claudia Matus
Dr. Claudio Beltrán
Mg. Pamela Dı́az
Índice general

1. Introducción 3
1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Teorı́a de Modelos de Predicción 6


2.1. Árboles de Decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Naı̈ve Bayes para atributos discretos . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2. Naı̈ve Bayes para atributos continuos . . . . . . . . . . . . . . . . . . . . . . . 15
2.4. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1. Caso Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. Caso No Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Comparación de las metodologı́as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.1. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.2. Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6.3. Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6.4. Árbol de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.5. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6.6. Comparación de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1
3. Análisis de Predicción de Fuga de Clientes 44
3.1. Descripción del Estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2. Descripción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4. Modelos Ajustados a los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.1. Selección de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2. Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.3. Árboles de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.4. Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.5. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5. Predicción de Nuevos Clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.6. Comparación de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.7. Análisis del Modelo Seleccionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4. Conclusión 77

A. Anexo 81
A.1. Conceptos asociados a Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . 81
A.1.1. Concepto de Hiperplano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.1.2. Espacio de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.1.3. Condiciones Karush-Kuhn-Tucker (KKT) . . . . . . . . . . . . . . . . . . . . . 82
A.2. Estadı́stica Descriptiva: Aplicación a los clientes de la Institución Financiera . . . . . . . 83
A.2.1. Análisis Muestra Balanceada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
A.2.2. Análisis Muestra Completa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.3. Intervalos de Confianza del 95 % de coeficientes del Modelo Logı́stico . . . . . . . . . . 86
A.4. Probabilidades asociadas a Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.5. Tablas comparativas de Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . 90
A.6. Programa para Naı̈ve Bayes y SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

2
C AP ÍTULO 1

Introducción

En tiempos de crisis, toda persona tiene por objetivo principal cuidar su dinero, lo cual se traduce en
la búsqueda de las mejores alternativas financieras, por ejemplo al pedir préstamos, créditos hipotecarios
o cuentas corriente se buscan las mejores tasas de interés o alternativas de pago entre otros factores.
Es por esto que la competencia a nivel de las empresas, en particular en las instituciones financieras,
se ha ido incrementando cada vez más, con el fin de mantener a sus buenos clientes y por otro lado,
el atraer a nuevos clientes que les generen un aporte a su economı́a y estabilidad en estos momentos,
también de crisis para las instituciones. Es lógico pensar que aquellos clientes que se busca captar serán
los mismos que las otras instituciones buscan retener, ya que corresponden a sus activos más importantes.

En la banca chilena esto se ha traducido en que los últimos años no han sido fáciles, desde 1997 a
Junio del 2008 se alejaron de la industria 824 mil deudores, representando en Junio del 2008 a casi al
22 % del total de clientes. Esta disminución se le atribuye principalmente en el sector ”personas” a la
crisis y al mayor desempleo. Se suma además la dura competencia que han dado las casas comerciales
al desarrollar el negocio de consumo personal, ya que ofrecen un atractivo crédito, en especial para per-
sonas con menores recursos o de mayor riesgo financiero.

Dentro de este contexto, las instituciones han planteado la búsqueda de estrategias, de modo de poder
obtener la mayor información sobre el comportamiento de sus clientes, no permitiéndose dejar escapar a
ningún cliente rentable. Recordemos la cartera de clientes es uno de los activos más importantes para una
institución financiera, ya que está estrechamente relacionada con las utilidades del negocio. Dentro de
las estrategias que se aplican para mejorar y mantener dicha cartera son la captación de clientes nuevos
y la retención de clientes existentes respectivamente, siendo la primera enfocada al aumento de clientes
mediante la definición e incorporación de nuevos segmentos objetivos, mientras la segunda, consiste en

3
la identificación de clientes con mayores tendencias a la fuga y en la determinación de estrategias que
aumente el grado de fidelización con el fin de disminuir los ı́ndices de abandono o de fuga en la cartera,
donde, las tasas de fuga de clientes en la banca y seguros oscila entre el 7 % y el 18 % [1] . Es importante
mencionar que no es viable remediar la fuga de clientes con una mayor captación de clientes nuevos.
Por un lado, los clientes nuevos son potencialmente riesgosos para la institución y por otro lado, estudios
demuestran que retener a un cliente cuesta entre cinco y quince veces menos que captar a uno nuevo [2].

Considerando el alto valor de identificar a un cliente con tendencia de fuga, es importante crear una
segmentación de los clientes en relación a su calidad y tasa de abandono, priorizándo aquellos clientes de
valor para desarrollar planes especı́ficos de vinculación y fidelización, decidiendo que canales y esfuerzo
comercial se asignará a cada cliente, para no dedicar recursos innecesarios sabiendo que los presupuestos
no son ilimitados.

El prevenir el riesgo de abandono es de importancia y tiene sus beneficios, ya que no sólo puede
traducirse en términos de rendimiento económico e incremento de ingresos, sino también en concepto
de mejora del gasto y optimización de los recursos disponibles, lo cual justifica el desarrollo de modelos
sofisticados para la predicción de fuga.

Para el planteamiento de modelos que nos permitan predecir la fuga de los clientes, es necesario
considerar que el objetivo principal de los modelos de clasificación o predicción se centra en estimar una
función que permita ajustar con la máxima exactitud posible las observaciones de la muestra, de mane-
ra que el error incurrido en la predicción sea el mı́nimo. Dependiendo de si la forma funcional f (x) es
conocida o desconocida, estaremos frente ante modelos paramétricos y no paramétricos respectivamente.

Desde el punto de vista de un problema de clasificación financiero, se tendrá un conjunto de observa-


ciones cuya pertenencia a una determinada clase es conocida a priori, en nuestro caso de fuga o no fuga,
donde se trata de encontrar una regla que permita clasificar nuevos clientes para los cuales se desconoce
la clase a la cual pertenece.
De esta forma, la motivación de este seminario de tesis, parte del interés de modelar un problema de
importancia para las instituciones financieras el cual corresponde a la fuga de clientes, utilizando mo-
delos de predicción paramétricos y no paramétricos, de forma de considerar distintas metodologı́as para
obtener el mejor resultado dadas la caracterı́sticas del estudio. Las metodologı́as seleccionadas para el
análisis corresponden a Árboles de Clasificación, Regresión Logı́stica, Support Vector Machine y Näive
Bayes, permitiéndonos comparar la efectividad y robustez de las técnicas antes mencionadas.

4
El informe está estructurado de la siguiente forma: a continuación se plantean los objetivos del
proyecto de tı́tulo, para luego dar paso en el capı́tulo 2 a la descripción de las metodologı́as propues-
tas junto con el desarrollo de un ejemplo para la mejor comprensión de estas. Posteriormente se inten-
tará dar resolución al problema de predicción de la institución financiera, abordado en el capı́tulo 3,
donde también se presenta un análisis posterior al modelamiento, el cual busca una segmentación de
los clientes a través de los resultados del modelo y una revisión de los saldos asociados a los clientes
con tendencia a la fuga. Finalmente, en el capı́tulo 4 se presentarán las conclusiones del estudio, tanto de
la parte teórica como de la implementación y resultados de los modelos de predicción de fuga de clientes.

1.1. Objetivos

A continuación se presentan los objetivos del proyecto de tesis.

1.1.1. Objetivo General

El objetivo de esta tesis consiste en estudiar la capacidad predictiva de algunos modelos es-
tadı́sticos binarios aplicados al estudio de la tendencia de fuga de los clientes de una Institución Fi-
nanciera Chilena, realizando para ello un análisis comparativo entre los modelos que se plantean. Con
esto se pretende obtener una técnica que determine de manera más precisa cual será el comportamiento
de los clientes en relación a la fuga.

1.1.2. Objetivos Especı́ficos

Comparar distintas metodologı́as de predicción basadas tanto en el análisis clásico (Regresión


Logı́stica y Árboles de Clasificación), como en el Aprendizaje automático (Support Vector Ma-
chine y Naı̈ve Bayes).

Seleccionar un modelo óptimo basándonos en indicadores de Discriminación tales como Gini,


Kolmogorrov-Smirnov Statistic, Information Value e Índice C, además de su tasa de mala clasifi-
cación.

Implementar el modelo de predicción de fuga seleccionado en la Institución Financiera.

5
C AP ÍTULO 2

Teorı́a de Modelos de Predicción

2.1. Árboles de Decisión

Los árboles de decisión corresponden a métodos de aprendizaje inductivos supervisados no paramétri-


cos muy utilizados, ya que se destacan por su sencillez y pueden utilizarse en diversas áreas, tales como:
reconocimiento de señales de radar, reconocimiento de caracteres, sensores remotos, sistemas expertos,
diagnóstico médico, juegos, predicción meteorológica, control de calidad, etc.

Debido a que los árboles de decisión pueden ser utilizados independientes de la naturaleza de la
variable de interés, denominaremos como árboles de clasificación si la variable respuesta es discreta y
de regresión en caso de que sea continua. En ambos casos esta metodologı́a se basa, a modo general, en
un particionamiento recursivo del dominio de definición de las variables explicativas o independientes,
seleccionando las variables más informativas o las más idóneas con respecto a un criterio previamente
establecido. La elección de estas variables sirve para expandir el árbol en tantas ramas como posibles
valores tomen las variables. Esto se representará por medio de una estructura de árbol, como se muestra
en la figura 2.1.

Los sistemas basados en árboles de decisión forman una familia llamada TDIDT (Top-Down In-
duction of Decision Trees). El programa AID (Automatic Interaction Detection), de Sonquist, Baker y
Morgan (1971), representa uno de los primeros métodos de ajuste de los datos basados en árboles de
clasificación. AID esta basado en un algoritmo recursivo con sucesivas particiones de las observaciones
originales en otros subgrupos menores y más homogéneos mediante secuencias binarias de particiones.
Posteriormente surgió un algoritmo recursivo similar al AID conocido como CART (Classification And
Regression Trees o árboles de clasificación y regresión), propuesto por Breiman et. al. (1984). Un algorit-

6
mo recursivo de clasificación no binario, llamado CHAID (Chi-square automatic interaction detection),
introducido por Kass (1980), el algoritmo C4.5. desarrollado por Quinlan (1993) que corresponde a un
modelo de clasificación basado en el aprendizaje inductivo, se trata de una versión actualizada del al-
goritmo original ID3 (Interactive Dichotomizer) (Quinlan, 1986), los Arboles Bayesianos basados en la
aplicación de métodos Bayesianos a árboles de decisión y más recientemente otra alternativa conocida
como MARS (Multivariate Adaptative Regresión Splines), propuesto por Friedman (1991).

Las principales diferencias entre los distintos algoritmos de construcción de árboles de decisión ra-
dican en la regla adoptada para particionar nodos y en las estrategias de poda. En este caso plantearemos
la teorı́a general, sin especificar ningún tipo de algoritmo.

Un árbol de clasificación consta de los siguientes elementos:

Nodo inicial: corresponde al nodo del cual parte la clasificación o ramificación del árbol. Se le
denomina también nodo raiz.

Reglas de asignación: Corresponden a las reglas de división de las variables en los nodos, las cuales
determinan la forma en que separarán los datos de entrada.

Nodos intermedios: engendran dos o más segmentos descendientes inmediatos.

Nodos terminales: es un nodo que no se puede dividir más, también denominado segmento termi-
nal.

Rama de un nodo t: consta de todos los segmentos descendientes del nodo t, excluyendo t.

Árbol de decisión completo (Tmax ): árbol en el cual cada nodo terminal no se puede ramificar.

Subárbol: se obtiene de la poda de una o más ramas del árbol completo Tmax .

7
Figura 2.1: Esquema de un Árbol de Decisión

Suponemos que se dispone de una muestra de entrenamiento que incluye la información del grupo
al que pertenece cada caso (variable dependiente) y que sirve para construir el criterio de clasificación.
Se comienza con un nodo inicial y nos preguntamos cómo dividir el conjunto de datos disponibles en
dos partes más homogéneas utilizando una de las variables independientes. Se elige, por ejemplo, una
variable x1 y se determina un punto de corte c de modo que se puedan separar los datos en dos conjuntos:
aquellos con x1 ≤ c de los que son x1 > c.

De este nodo inicial saldrán ahora dos: uno al que llegan las observaciones con x1 ≤ c y otro al
que llegan las observaciones con x1 > c. En cada uno de estos nodos se vuelve a repetir el proceso de
seleccionar una variable y un punto de corte para dividir la muestra en dos partes mas homogéneas. El
proceso termina cuando se hayan clasificado todas las observaciones correctamente en su grupo.

Ahora, para decidir qué variable va a utilizarse para hacer la partición en un nodo, se calcula primero
la proporción de observaciones que pasan por el nodo para cada uno de los grupos. Si se denomina a los
nodos como t = 1, 2, ..., T y p(g|t) a las probabilidades de que las observaciones que lleguen al nodo t
pertenezcan a cada una de las clases. Se define la impureza del nodo t como

G
X
I(t) = − p(g|t) · log p(g|t) (2.1)
g=1
1
que es una medida de la entropı́a o diversidad, la cual es máxima cuando p(g|t) = G.

8
De esta forma, la variable que se introduce en un nodo es la que minimiza la heterogeneidad o im-
pureza que resulta de la división en el nodo.

La clasificación de las observaciones en los nodos terminales se hace asignando todas las observa-
ciones del nodo al grupo más probable en ese nodo, es decir, el grupo con máxima p(g|t). Si la impureza
del nodo es cero, todas las observaciones pertenecerı́an al mismo nodo, en caso contrario puede haber
cierto error de clasificación. Cuando el número de variables es grande, el árbol puede contener un número
excesivo de nodos por lo que se hace necesario definir procedimientos de poda o simplificación del mis-
mo. Los árboles de clasificación dan buenos resultados cuando muchas de las variables de clasificación
son cualitativas, pero son menos eficaces cuando las variables se distribuyen como la normal.

Dentro de las ventajas de los árboles de clasificación, se tienen que las reglas se asignación son sim-
ples y legibles, por tanto la interpretación de resultados es directa e intuitiva, es una técnica válida sea
cual fuera la naturaleza de las variables explicativas (continuas, binarias, nominales u ordinales) y es
computacionalmente rápido.

Y entre las desventajas de los árboles de clasificación, podemos mencionar que existe dificultad para
elegir el árbol óptimo debido a la diversidad de algoritmos y las grandes diferencias en cuanto a resulta-
dos que se producen con cada uno de ellos, existe además ausencia de una función global de las variables
y como consecuencia pérdida de la representación geométrica y además, está el hecho de que los árboles
de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones
de los nodos hoja sea significativa.

2.2. Regresión Logı́stica

Los métodos de regresión son utilizados para describir la relación entre una variable respuesta y una o
más variables explicativas, donde lo que modelamos es la expresión E[Y |X = x]. El modelo de regresión
más conocido es el denominado Modelo de Regresión Lineal, donde la variable respuesta es continua
y se asume una distribución Normal para esta. En el caso de que nuestra variable dependiente sea de
otra naturaleza es necesario utilizar una extensión de los modelos lineales, lo cual se denomina como
Modelos Lineales Generalizados (Nelder, y Wedderborn, 1972), permitiendo utilizar otras distribuciones
de la familia exponencial, lo cual ofrece la ventaja que la relación entre la variable respuesta y predictor
lineal η es más flexible, donde,

9
η = β0 + β1 x1 + . . . + βp xp

En el caso de la regresión lineal se tiene,

E[Y |X = x] = η = β0 + β1 x1 + . . . + βp xp

En el caso de la regresión logı́stica, la diferencia es causada por la naturaleza de la variable respuesta


Y , la cual corresponde a una variable binaria con distribución Bernoulli y parámetro π, donde π es la
probabilidad de suceso. Esta distribución es posible modelarla dentro de los modelos lineales general-
izados, ya que pertenece a la familia exponencial.
De esta forma, será de interés modelar E[Y |X = x], donde

E[Y |X = x] = π 6= η

Entonces se propone el enlace logı́stico como se muestra a continuación, donde la media condicional
de la ecuación de regresión es formulada de manera que su rango de valores sea entre 0 y 1. Esto se
conoce también como transformación logito o logit, a la cual se le denota g(x).
 
π(x)
g(x) = log = η = β0 + β1 x1 + . . . + βp xp (2.2)
1 − π(x)
La variable η representa, en una escala logarı́tmica, el cuociente entre las probabilidades de pertenecer
a ambas poblaciones y, al ser una función lineal de las variables explicativas, facilita la estimación y la
interpretación del modelo.
Luego, despejando π(x) se obtiene el modelo de regresión logı́stica
Pp
eβ0 + β i xi
i
E[Y |X = x] = π(x) = Pp (2.3)
1+ eβ0 + i βi xi
donde los βi corresponden a parámetros desconocidos. Una notación más utilizada de E[Y |X = x]
corresponde P (Y = 1|X), donde su complemento está dado por:

1
P (Y = 0|X) = 1 − π(x) = Pp (2.4)
1 + eβ0 + i β i xi

Una propiedad muy conveniente de la forma de P (Y |X) es que conduce a una expresión lineal
simple para la clasificación. Para clasificar una determinada observación X, en general desea asignar el
valor yi que maximice P (Y = yi |X), dicho de otra forma, se asignará al nivel Y = 0 si se cumple que:

P (Y = 0|X)
1<
P (Y = 1|X)

10
sustituyendo las ecuaciones (2.3) y (2.4) resulta:

p
X
1 > exp (β0 + β i xi )
i

tomando el logaritmo natural, se obtiene una regla de clasificación lineal que asigna al valor Y = 0
si satisface

p
X
0 > β0 + βi xi
i=1

y clasifica a Y = 1 en caso contrario.

Por otro lado, una de las caracterı́sticas que hacen la regresión logı́stica tan utilizada es la relación
que poseen sus parámetros con un parámetro de cuantificación de riesgo conocido en la literatura como
Odds Ratio, permitiendo que la interpretación de estos sea más simple.

El odds asociado a un suceso es el cuociente entre la probabilidad de que ocurra un suceso frente a
la probabilidad de que no ocurra:

π
Odds =
1−π
siendo π la probabilidad del suceso.

Ası́ por ejemplo, podemos calcular el odds de tener un cliente bueno cuando la renta de este cliente
es igual o superior a una cierta cantidad, que en realidad determina cuántas veces es más probable que
sea un cliente bueno a que sea un cliente malo en esa situación. Igualmente podrı́amos calcular el odds de
tener un cliente bueno cuando la renta de este cliente es inferior a cierta cantidad. Si dividimos el primer
odds entre el segundo, hemos calculado un cuociente de odds, denominado odds ratio, que de alguna
manera cuantifı́ca cuánto más probable es que nos encontremos con un cliente bueno cuando la renta
de este cliente es alta (primer odds) respecto a cuando su renta es baja. La noción que se está midiendo
es parecida a la que encontramos en lo que se denomina riesgo relativo que corresponde al cuociente
de la probabilidad de que aparezca un suceso (cliente bueno) cuando está presente el factor (renta alta)
respecto a cuando no lo está (renta baja).

11
Si en la ecuación de regresión tenemos un factor dicotómico, como puede ser por ejemplo si el sujeto
posee renta alta, el coeficiente β de la ecuación para ese factor está directamente relacionado con el odds
ratio (OR) de tener renta alta respecto a no tenerla.

OR = exp(β)

es decir que exp(β) es una medida que cuantifica el riesgo que representa poseer el factor correspon-
diente respecto a no poseerlo, suponiendo que el resto de variables del modelo permanecen constantes.

2.3. Naı̈ve Bayes

Consideraremos un problema aprendizaje supervisado en el cual nosotros deseamos estimar una


función f : X → Y o dicho de otra forma, estimar P (Y |X). Para esto definimos a Y como una variable
aleatoria de interés y X como un vector que contiene n variables aleatorias que representan atributos
o caracterı́sticas de interés. De esta forma, utilizando el teorema de Bayes, podemos escribir P (Y |X)
como,

P (X = xk |Y = yi )P (Y = yi )
P (Y = yi |X = xk ) = X
P (X = xk |Y = yj )P (Y = yj )
j

donde se podrá utilizar el entrenamiento de los datos para estimar P (X|Y ) y P (Y ), y luego a través
del teorema de Bayes obtener una estimación de P (Y |X), a esto se le llama entrenamiento del clasifi-
cador de Bayes o Redes Bayesianas.

Es en base a esto que se plantea el clasificador Naı̈ve Bayes, el cual considera independencia condi-
cional.

Para continuar con el planteamiento de esta metodologı́a primero definiremos Independencia Condi-
cional.

Independencia Condicional 2.3.1. Dado las variables aleatorias X1 , X2 y Y , diremos que X1 es


condicionalmente independiente de X2 dado Y , si y sólo si, la distribución de probabilidad que rige X1
es independiente del valor de X2 dado Y , esto es,

P (X1 |X2 , Y ) = P (X1 |Y )

12
Para entender la importancia de este supuesto dentro de la metodologı́a, se considera un vector
X = (X1 , X2 ), donde aplicando lo anterior se obtiene

P (X|Y ) = P (X1 , X2 |Y )
= P (X1 |X2 , Y )P (X2 |Y ) //* Utilizando la Independencia Condicional
= P (X1 |Y )P (X2 |Y ) (2.5)

Ahora aplicando la Independencia Condicional al clasificador, se asume que X1 , . . . , Xn son todos


condicionalmente independientes uno de otro dado Y . Entonces,

P (X|Y ) = P (X1 , . . . , Xn |Y )
= P (X1 |Y ) . . . P (Xn |Y )
Yn
= P (Xi |Y ) (2.6)
i=1
Como se puede observar en la expresión anterior, este supuesto simplifica en gran medida la repre-
sentación de P (X|Y ). Entonces, la probabilidad de Y dados los atributos Xi tiene la forma:

P (Y = yi )P (X1 , . . . , Xn |Y = yi )
P (Y = yi |X1 , . . . , Xn ) = X (2.7)
P (Y = yj )P (X1 , . . . , Xn |Y = yi )
j
Y considerando la independencia condicional, la expresión (2.7) puede escribirse como,
Y
P (Y = yi ) P (Xk |Y = yi )
k
P (Y = yi |X1 , . . . , Xn ) = X Y (2.8)
P (Y = yj ) P (Xk |Y = yj )
j k
Es decir, la probabilidad P (Y = yi )P (X1 , . . . , Xn |Y = yi ) ha sido factorizada como el producto
de n valores que solo involucran dos variables. Por lo tanto, los parámetros que tenemos que estimar son
P (Xk |Y ) para cada atributo y la probabilidad a priori de la variable clase P (Y ). La ecuación (2.8) es
la ecuación fundamental del clasificador Naı̈ve Bayes, ya que nos permite obtener las probabilidades de
interés.

Dada una nueva observación Xn+1 = (X1 , . . . , Xn ), esta ecuación nos permitirá calcular la proba-
bilidad de que Y = yi ∀i dada la nueva información ( Xn+1 )y los valores estimados de P (Y ) y P (X|Y )
a través de los datos de entrenamiento. Luego, si nosotros estamos interesados sólo en el valor más prob-
able de Y , es decir, en aquel que tiene máxima probabilidad a posteriori dados los atributos, también
conocido como MAP, tendremos la regla de clasificación de Naı̈ve Bayes,

13
Q
P (Y = yi ) k P (Xk |Y = yi )
máx P (Y = yi |X1 , . . . , Xn ) = máx X Y
yi yi P (Y = yj ) P (Xk |Y = yj )
j k

lo cual se puede simplificar eliminando el denominador, esto debido a que no depende de yi , obteniéndose:

Y
máx P (Y = yi |X1 , . . . , Xn ) = máx P (Y = yi ) P (Xk |Y = yi ) (2.9)
yi yi
k

A continuación veremos en detalle la descripción de los parámetros y el como se realizará su es-


timación, planteando una división dependiendo de la naturaleza de los atributos, es decir, si Xi es una
variable discreta o continua.

2.3.1. Naı̈ve Bayes para atributos discretos

Cuando los n atributos Xi ; i = 1, ·, n tomen valores discretos dentro de las J posibles clases, donde
Y es una variable aleatoria discreta que tome valores entre las K posibles clases de esta, luego la tarea
será estimar dos set de parámetros. El primero es:

θijk = P (Xi = xij |Y = yk ) (2.10)

Note que se tendrán nJK parámetros, donde n(J − 1)K serán independientes, dado esto se debe
P
satisfacer que j θijk = 1 para cada par de valores de i, k.

Además se debe estimar los parámetros que definen la probabilidad a priori para Y :

πk = P (Y = yk ) (2.11)

En este caso se tendrán K parámetros, donde K − 1 son independientes.

Para la estimación del parámetro θijk dado un conjunto de entrenamiento, se tiene

]D{Xi = xij ∧ Y = yk }
ijk = P (Xi = xij |Y = yk ) =
θd (2.12)
b
]D{Y = yk }
donde ]D es un operador que retorna el número de elementos en el conjunto D en que Xi toma el
valor xij , es decir, calcula el número de casos favorables dividido por el número de casos totales (fre-
cuencias relativas).

14
Una desventaja que presenta este tipo de estimación, es que puede darse el caso de que en los datos
no se cumpla la condición del numerador, lo cual traerı́a como consecuencia que estimación de θ serı́a
cero.

Para evitar esto, es posible plantear la expresión siguiente, que representa una estimación suavizada
de (2.12):

]D{Xi = xij ∧ Y = yk } + 1
ijk = P (Xi = xij |Y = yk ) =
θd (2.13)
b
]D{Y = yk } + ΩXi
Es decir, la suma de casos favorables más uno dividido por la suma del número de casos totales más
el número de valores posibles de Xi . Con esta estimación se pretende que todas las combinaciones posi-
bles tengan una mı́nima probabilidad, ya que con el estimador de máxima verosimilitud (2.12) cualquier
combinación que no este presente en la base de datos tendrı́a probabilidad cero.

Ahora, en relación a la estimación de πk , se tiene,

]D{Y = yk }
π
ck = Pb(Y = yk ) = (2.14)
|D|
donde |D| denota el número de elementos de la muestra de entrenamiento D. Alternativamente se puede
obtener una estimación suavizada, lo cual corresponde a,

]D{Y = yk } + 1
π
ck = Pb(Y = yk ) = (2.15)
|D| + ΩYk

2.3.2. Naı̈ve Bayes para atributos continuos

En el caso que Xi sea una variable continua, debemos considerar otra representación de P (Xi |Y ).
Una aproximación utilizada es asumir que Xi posee distribución Normal, donde tanto la media como la
desviación estándar será especı́fica para cada Xi e yk . Es por esto que también se le conoce como clasi-
ficador Naı̈ve Bayes Gaussiano (GNB). De esta forma, será de interés estimar la media y la desviación
estándar para cada Normal,

µik = E[Xi |Y = yk ] (2.16)

2
σik = E[(Xi − µik )2 |Y = yk ] (2.17)

15
De manera similar que para el caso de atributos discretos, se utiliza estimación de máxima verosimi-
litud para estos parámetros, obteniéndose

1 X
µc
ik = X Xij I(Y j = yk ) (2.18)
j
I(Y = yk ) j
j

1 X
σc
ik = X (Xij − µc 2 j
ik ) I(Y = yk ) (2.19)
j
I(Y = yk ) j
j

donde Xij es el valor de la variable aleatoria Xi para la j-esima observación, Y j es el valor de la variable
Y para la j-esima observación y I(Y j = yk ) es una indicatriz, es decir, tomará el valor 1 si Y j = yk y
en caso contrario el valor 0.

En general, esta metodologı́a es muy utilizada, pero consta de algunas desventajas tales como el
supuesto de independencia condicional de todos los atributos Xi dado Y , además de la necesidad de
poseer un gran número de datos de entrenamiento, debido a la forma en que estiman los parámetros, en
especial cuando se trata de estudios donde el evento de interés es poco común.

2.4. Support Vector Machines

La técnica Support Vector Machines (SVM) fue propuesta por Vapnik y otros autores (1979) y se
desarrolla sobre la teorı́a del aprendizaje estadı́stico y del aprendizaje computacional, desarrollados a
finales de los años setenta y durante los ochenta. Esta técnica se basa en encontrar un hiperplano sepa-
rador que divida el espacio de entrada en k regiones, donde cada región corresponde a una de las clases
definidas en la variable respuesta. En nuestro caso, se desea modelar dos clases, la fuga y no fuga de
clientes, es por esto que nos enfocaremos en el desarrollo de los SVM binarios. Por otro lado, el cre-
ciente interés sobre esta técnica ha permitido su desarrollo no sólo en problemas de clasificación, sino
también en problemas de regresión y de predicción de series de tiempo. En el presente proyecto de tı́tulo
nos enfocaremos en el desarrollo de problemas de clasificación.

Como se menciona anteriormente, los SVM se basan en encontrar un hiperplano óptimo, donde por
un lado se maximice el margen de separación y por otro se minimice el error de clasificación. Para esto
se plantea un problema de optimización cuya función objetivo combina ambos objetivos. En el caso de
que sea posible encontrar este hiperplano, nos encontraremos frente al caso linealmente separables, en
caso contrario se introduce el caso no linealmente separable mediante funciones de kernel o núcleo.

16
2.4.1. Caso Lineal

Dado un conjunto de entrenamiento xi ∈ Rm ; i = 1, . . . , m e yi ∈ {−1, 1}; i = 1, . . . , m, variable


que indicará la clase de pertenencia, se dice que existe un hiperplano →

w ·→

x + b = 0 ∈ Rn tal que
deja a todas las observaciones asociadas a ambas clases en distintos lados de él, es decir, existe un par
(→

w , b) ∈ Rn tal que:



w ·→

x +b>0 la observación está en la clase 1 (2.20)


w ·→

x +b<0 la observación está en la clase −1 (2.21)

Es de interés reescalar las restricciones anteriores, para ası́ obtener desigualdades estrictas, ya que
éstas se utilizarán para plantear el problema de optimización. Ası́, recordando que si un plano está definido
para un par (→ −
w , b), entonces cualquier par de la forma (λ→ −
w , λb), con λ > 0 también define el mismo
hiperplano, de esta forma si →

w ·→
−x + b > 0 para un par particular, entonces existe un par (−
→, b ) que
w i i

− →
− →
− →

define el mismo hiperplano tal que w · x + b ≥ 1. De forma análoga se plantea w · x + b ≤ −1.
Considerando lo anterior, se replantea (2.20) y (2.21), quedando de la forma:



w ·→

x +b≥1 la observación está en la clase 1


w ·→

x + b ≤ −1 la observación está en la clase −1

Las cuales pueden ser reescritas como:

y(→

w ·→

x + b) ≥ 1 (2.22)

Las observaciones donde se cumple la igualdad, i.e., →



w ·→

x + b = ±1, corresponden a los Support
Vector, que yacen en los hiperplanos canónicos, que se definen por:

H1 : f (→

xi ) = →

w ·→

x +b=1 (2.23)

H2 : f (→

xi ) = →

w ·→

x + b = −1 (2.24)

17
Para comprender de mejor manera los conceptos mencionados es que se plantea el siguiente gráfico:

Figura 2.2: Esquema de las SVM

Ahora, para construir el problema de optimización y definir el margen de separación, consideraremos


la distancia existente entre un punto y el hiperplano, el cual en este caso corresponde a → 1 , de esta
k−
wk
forma se tiene que la distancia entre los hiperplanos H1 y H2 , correspondiente el margen de separación
es ρ = → 2 . Ahora, como el objetivo es maximizar el margen de separación, lo cual es equivalente a
k−
wk
minimizar k→ −
w k, el problema de optimización corresponde a un problema de programación cuadrática y
se plantea como:

k→−
w k2
mı́n

→ w ,b 2
s.a.: y ( x · →
i


i
−w + b) − 1 ≥ 0

De igual forma, podemos plantear el problema desde un enfoque matricial,

wt w
mı́n
w,b 2
s.a.: yi (wt · →

xi + b) − 1 ≥ 0

Es de interés cambiar la formulación del problema de minimización para presentarlo como un pro-
blema dual, principalmente por dos motivos. El primero es que los contrastes serán sustituidos por los
contrastes de los multiplicadores de Lagrange, lo cual se hace más fácil de manejar, y segundo, porque
los datos de entrenamiento sólo aparecerán en forma de los productos punto entre los vectores, lo cual

18
nos permitirá generalizar el procedimiento para el caso no lineal.

De esta forma, es necesario plantear el Lagrangiano asociado al problema de minimización, el cual


corresponde a:

m
wt w X
LP = − (αi (→

w ·→

xi + b) − 1) (2.25)
2
i=1

donde, αi = 1, . . . , m

Es importante notar que el signo negativo del segundo término de (2.25) se debe a que es de interés
minimizar con respecto a w y b y maximizar con respecto a α.

A partir de (2.25), se pueden plantear las condiciones de optimalidad de Karush-Kuhn-Tucker


(KKT). Es importante notar que tanto L como y (wt · →
P

x + b) − 1 ≥ 0 son convexos y las condi-
i i

ciones KKT son condiciones necesarias y suficientes para maximizar LP . (Más detalle de condiciones
KKT ver anexo A.1.3.)

Las condiciones KKT asociadas a este problema son:

∂LP X
=0 ⇒ w− α i yi x i = 0 (2.26)
∂w
i

∂LP X
=0 ⇒ − α i yi = 0 (2.27)
∂b
i
De (2.26) y (2.27) se obtienen en el óptimo, las siguientes relaciones:

X
w= α i yi x i (2.28)
i
X
αi yi = 0 (2.29)
i
Al reemplazar en el lagrangiano antes mencionado se obtiene,

m
wt w X
LP = − wt w + αi
2
i=1
m
X wt w
= αi −
2
i=1
m
1 XX
αi αj yi yj →

xi →

X
= αi − xj (2.30)
2
i=1 i j

19
A partir de esta expresión, aplicando dualidad lagrangiana se puede obtener un problema dual cono-
cido como Dual de Wolfe (Fletcher, 1987), el cual plantea que minimizar LP sujeto a contrastes C2 ,
ocurre en los mismos valores de w, b, α, que minimizar LD sujeto al contraste C1 . De esta forma se
plantea el problema dual siguiente, donde los αi ≥ 0, debido a que corresponden a multiplicadores de
Lagrange.

1 XX
αi αj yi yj →

xi →

X
máx LD = αi − xj
α 2
i i j
P
s.a.: i α i yi =0

αi ≥ 0; i = 1, . . . , m

La solución αi0 del problema de optimización determina el valor óptimo w0 :

l
X
w0 = αi0 yi xi (2.31)
i=1
Y luego de haber encontrado w0 se puede determinar el sesgo b, para lo cual sólo se utiliza los
vectores de soporte. De esta forma, promediando (2.22) y despejando b0 se obtiene:

Nsv  
1 X 1 t
b0 = − x s w0 (2.32)
Nsv s ys
donde Nsv corresponde a la cantidad de vectores de soporte.

2.4.2. Caso No Lineal

La idea es proyectar los objetos en otro espacio euclidiano H (espacio de Hilbert) de mayor di-
mensión, incluso infinito, en el cual sean linealmente separables, luego encontrar el hiperplano en ese
espacio para retornar finalmente al espacio original tanto los objetos como el hiperplano. Este último ya
no será un hiperplano en el espacio original, sino una ”hiper-superficie” no lineal.

La proyección de los objetos se debe realizar mediante una función no lineal φ : R → H, uti-
lizándose el producto punto de esta, i.e., φ(xi ) · φ(xs ), donde si existe K(xi , xs ) = φ(xi ) · φ(xs ) no seria
necesario explicitar φ.

Para un par {H, φ} existe un kernel si se cumple la condición de Merced, es decir, existe una proyec-
P
ción φ y una expansión K(x, y) = i φ(xi ) · φ(yi ) si y solo si, si para cualquier g(x) tal que,
Z Z
g(x)2 dx es finita ⇒ K(x, y)g(x)g(y) dx dy ≥ 0.

20
Esto permite asegurar que el hessiano de la formulación dual está definido y el problema cuadrático
tenga solución.

Algunos ejemplos de kernel que cumplen con la condición anterior son:

Kernel Lineal

K(x, x0 ) = hx, x0 i

Kernel Polinomial

K(x, x0 ) = (scale · hx, x0 i + of f set)grado

Kernel Gaussiano

K(x, x0 ) = exp (−σkx − x0 k2 )

Es importante mencionar que no existe una regla que discrimine cual es el mejor kernel dado un
problema en particular.
De manera gráfica el efecto que produce al introducir un kernel en un espacio de entrada se observa
en el siguiente gráfico, donde claramente la aplicación de un kernel proporciona una solución óptima al
problema de separación de las clases observadas.

Figura 2.3: Aplicación de una función kernel a un espacio de entrada

21
Ahora, para plantear el problema de optimización, el análisis del caso linealmente separable puede
ser generalizado introduciendo algunas variables no-negativas ξi ≥ 0 de modo que el problema primal
de optimización queda como:

m
wT w X
mı́n +C ξi (2.33)
w,b,ξ 2
i

sujeto a:

yi (wT φ(xi ) + b) ≥ 1 − ξi (2.34)

ξi ≥ 0; i = 1, . . . , m

Donde,
P
ξi se considera una medida del error de clasificación, esto debido a que es necesario introducir
ξi para aquellos puntos xi que no satisfacen las restricciones yi (wT φ(xi ) + b) ≥ 1

C es una constante, la cual puede ser definida como un parámetro de regularización, realizando un
balance entre la maximización del margen y la violación a la clasificación, esto debido a que es
P
una ponderación de ξi .
Un alto valor para C corresponde a asignar un alto costo de penalización por errores.

Armando el lagrangiano del problema primal,

m m m
wt w X X X
LP = +C ξi − αi (yi (wT · φ(xi ) + b) + 1 + ξi ) − µ i ξi
2
i=1 i=1 i
m m m m m
wt w X X X X X
= +C ξi − αi yi (wT · φ(xi ) + b) − αi − α i ξi − µi ξi
2
i=1 i=1 i i i

A partir de este Langrangiano podemos plantear las condiciones de optimalidad de KKT:

∂L X
=0 ⇒ w− αi yi φi = 0 (2.35)
∂w
i

∂L X
=0 ⇒ − αi yi = 0 (2.36)
∂b
i

∂L
=0 ⇒ −αi + C − µi = 0 (2.37)
∂ξi

22
De (2.35), (2.36) y (2.37) se obtienen en el óptimo, las siguientes relaciones:

X
w= αi yi φ(xi ) (2.38)
i

X
αi yi = 0 (2.39)
i

αi = C − µi (2.40)

Al reemplazar en el lagrangiano,

m m m
wt w X X X X
LP = − wt w + C ξi + αi − α i ξi − µ i ξi
2
i i i i
m m m
wt w X X X X
= − wt w + C ξi + αi − (C − µi )ξi − µi ξi
2
i i i i
m
X wt w X X X X
= αi − +C ξi − C ξi + µ i ξi − µi ξi
2
i i i i i
m
X 1
= αi − αi αj yi yj φ(xi )φ(xj ) (2.41)
2
i=1

A partir de esta expresión se obtiene el problema dual, donde αi ≥ 0 y µi ≥ 0 por ser multipli-
cadores de Lagrange, y como además se tiene αi = C − µi , de esta forma LD además está sujeto a
0 ≤ αi ≤ C

X 1 XX
máx LD = αi − αi αj yi yj φ(xi )φ(xi )
α 2
i i j

sujeto a:
X
αi yi = 0
i

0 ≤ αi ≤ C; i = 1, . . . , m

En este caso, el parámetro w0 al igual que para el caso lineal, se determina por la solución αi0 del
problema de optimización, obteniéndose:

X
w0 = αi yi φ(xi ) (2.42)
i

23
Y luego de haber encontrado w0 se determina b0 , promediando (2.34). Se obtiene:

Ns Ns
!
1 X X
b0 = ys − αn yn K(xs , xn ) (2.43)
Ns s n

2.4.3. Probabilidades

Aunque las SVM están pensadas para tareas de clasificación, en ciertas ocasiones es necesario cono-
cer el nivel de incertidumbre asociado a la decisión del clasificador o dicho de otra forma, la probabilidad
a posteriori de cada una de las posibles clases. Es por esto que los últimos años se han desarrollado di-
versos métodos para estimar dichas probabilidades a partir de la función de decisión de las SVM. Los
principales avances han sido realizados por John Platt [13] y Hastie y Tibshirani [14]. A continuación se
presenta una de las teorı́as más aceptadas y utilizadas.

Se puede escribir la función de decisión como:

f (x) = h(x) + b

donde
X
h(x) = yi αi K(xi , x)
i

Entrenando la SVM minimizando una función de error que penaliza una aproximación de la tasa de
mala clasificación más un término que penaliza la norma euclidiana de h en el espacio de Hilbert:

X 1
C (1 − yi fi ) + khk
2
i

Una forma de producir una salida probabilı́stica de una maquina de kernel fue propuesta por Wahba
[15], el cual usa la función enlace de la logı́stica,

1
P (clase|datos) = P (y = −1|x) = p(x) =
1 + exp(−f (x))
y luego propone minimizar una función de error más un término que penaliza la norma en el espacio de
Hilbert:
 
−1 X yi + 1 yi − 1
log(pi ) + log(1 − pi ) + λ k h k
m 2 2
i

donde pi será la probabilidad a posteriori.

24
Es en base a esto que Platt (1999), propone utilizar un modelo paramétrico para plantear la pos-
teriori p(y = 1|f ) directamente, donde los parámetros del modelo son adaptados para dar las mejores
probabilidades de salida. Platt plantea que la forma del modelo paramétrico puede ser inspirado viendo
los datos empı́ricos, donde al graficar la densidad p(y = −1/f ) entre los márgenes, es decir, entre los
hiperplanos canónicos es aparentemente exponencial, es decir,

f |y = −1 ∼ exp(λ1 )
f |y = 1 ∼ exp(λ2 )

Ahora, considerando el Teorema de Bayes, se obtiene,

p(f |y = −1) · p(y = −1)


p(y = −1|f ) = P
i=±1 p(f |y = i)· (y = i)
λ1 e(−λ1 f ) · p(y = −1)
p(y = −1|f ) =
λ1 e(−λ1 f ) · p(y = −1) + λ2 e(−λ2 f ) · p(y = 1)
1
p(y = −1|f ) = (−λ f ) · p(y = 1)
λ2 e 2
1+
λ1 e(−λ1 f ) · p(y = −1)
1
p(y = −1|f ) = (−λ f ) · p(y = 1)
λ2 e 2
1+
λ1 e−λ1 f · (1 − p(y = 1))
1
p(y = −1|f ) =     
p(y = 1) λ2
1 + exp (λ1 − λ2 ) · f + log + log
1 − p(y = 1) λ1
1
p(y = −1|f ) =
1 + exp(Af + B)

Lo cual corresponde a una forma paramétrica sigmoidal. Este modelo sigmoidal es equivalente a
asumir que las salidas de las SVM son proporcionales al logaritmo de los Odds, esto para cuando tenga-
mos un caso positivo, donde ambas tasas sean iguales.

Los parámetros A y B son estimados utilizando máxima verosimilitud para un set de entrenamiento
(f (xi ), yi ). Para esto primero se define un nuevo set de entrenamiento (f (xi ), ti ), donde ti es la ”proba-
bilidad objetivo”definida como:

yi + 1
ti =
2

25
De esta forma los parámetros A y B son encontrados minimizando la log-verosimilitud de los datos
de entrenamiento, que es una función de error:

X
mı́n − ti log(p(xi )) + (1 − ti ) log(1 − p(xi ))
i

donde

1
p(xi ) =
1 + exp(Af (xi ) + B)
Este problema de minimización puede ser resuelto utilizando cualquier algoritmo de optimización,
manteniendo en cuenta el set de entrenamiento (f (xi ), yi ) de la sigmoide y un método para evitar el
sobre ajuste de este set.

Es importante recalcar que esta metodologı́a, al igual que Naı̈ve Bayes, entrega 2 probabilidades
para cada observación, es decir, entrega P (y = 1|x) y P (y = −1|x), donde la probabilidad más alta
entre estas indicará la clase en la cual se clasifica la observación.

26
2.5. Comparación de las metodologı́as

En esta sección es de interés revisar las posibles relaciones y realizar comparaciones de las metodologı́as
Support Vector Machine, Naı̈ve Bayes y Regresión Logı́stica especı́ficamente, ya que es posible escribir
sus probabilidades estimadas de manera similar.

La regresión logı́stica desea estimar una función f : X → Y , o de manera equivalente P (Y |X),


asumiendo una forma paramétrica para esta, de la forma

n
X
exp (w0 + wi Xi )
i=1
P (Y = 1|X) = n (2.44)
X
1 + exp (w0 + wi Xi )
i=1
y

1
P (Y = 0|X) = n (2.45)
X
1 + exp (w0 + wi Xi )
i=1

donde P (Y = 1|X) = 1 − P (Y = 0|X)

Ahora, en relación al clasificador GNB, recordemos que Y es una variable dicotómica con distribu-
ción Bernoulli de parámetro πk = P (Y = 1) y que además para cada Xi se tiene

P (Xi |Y = yk ) ∼ N (µik,σi )

Note que se asumirá que la desviación estándar σi varia según el atributo, pero no depende de Y .
Considerando esto, la forma de P (Y = 0|X) se desarrolla como,

P (Y = 0)P (X|Y = 0)
P (Y = 0|X) =
P (Y = 1)P (X|Y = 1) + P (Y = 0)P (X|Y = 0)
1
=
P (Y = 1)P (X|Y = 1)
1+
P (Y = 0)P (X|Y = 0)
1
=  
P (Y = 1)P (X|Y = 1)
1 + exp ln
P (Y = 0)P (X|Y = 0)

27
Considerando el supuesto de independencia condicional,

1
P (Y = 0|X) = ( )
P (Y = 1) X P (Xi |Y = 1)
1 + exp ln + ln
P (Y = 0) P (Xi |Y = 0)
i
1
= ( ) (2.46)
π X P (Xi |Y = 1)
1 + exp ln + ln
1−π P (Xi |Y = 0)
i

donde la sumatoria de (2.46) puede ser desarrollada como,

2
√1 exp ( −(X2σ
i −µi1 )
2 )
X P (Xi |Y = 1) X 2πσi2 i
ln = ln 2
i
P (Xi |Y = 0)
i
√1 2 exp ( −(X2σ
i −µi0 )
2 )
2πσi i

(Xi − µi0 )2 − (Xi − µi1 )2


X  
= ln exp
i
2σi2
X  (Xi − µi0 )2 − (Xi − µi1 )2 
=
i
2σi2
X  (X 2 − 2Xi µi0 + µ2 ) − (X 2 − 2Xi µi1 + µ2 ) 
i i0 i i1
= 2
i
2σi
X  (2Xi (µi1 − µi0 ) + µ2 − µ2 ) 
i0 i1
= 2
i
2σ i
X  µi1 − µi0 µ2i0 − µ2i1

= Xi + (2.47)
i
σi2 2σi2

Es importante notar que esta expresión es una suma ponderada lineal de los Xi0 s. Sustituyendo (2.47)
en (2.46) se tiene,

1
P (Y = 0|X) = ( ) (2.48)
π X  µi1 − µi0 µ2 − µ2
1 + exp ln + Xi + i0 2 i1
1−π
i
σi2 2σi
1
= X (2.49)
1 + exp (w0 + wi Xi )
i=1

donde las ponderaciones wi ; ∀i : 1, . . . , n están dados por,

µi1 − µi0
wi =
σi2

28
y donde

π X µ2 − µ2
i0 i1
w0 = ln +
1−π
i
2σi2
Finalmente se obtiene,

n
X
exp (w0 + wi Xi )
i=1
P (Y = 1|X) = 1 − P (Y = 0|X) = n (2.50)
X
1 + exp (w0 + wi Xi )
i=1

Para el caso de las Support Vector Machines, se tiene que las probabilidades estimadas a posteriori
se obtienen de,

1
P (Y = −1|f ) = (2.51)
1 + exp(B + Af )
y

exp(B + Af )
P (Y = 1|f ) = (2.52)
1 + exp(B + Af )
donde
   
π λ2
A = λ1 − λ2 y B = log + log
1−π λ1

Como se menciona al comienzo de esta sección, estas metodologı́as pueden ser comparables, ya
que las tres utilizan la función sigmoidal al momento de estimar la probabilidad de que ocurra un evento
dado un conjunto de entrenamiento, ya sea directamente introduciendo los atributos o a través de una
función que involucra estos atributos (función de decisión para las SVM), lo cual se traduce en que los
parámetros estimados si bien son distintos, uno pudiese encontrar relaciones entre ellos.

Este es el caso de Naı̈ve Bayes y Regresión Logı́stica, donde se observa que los parámetros wi en la
regresión logı́stica puede ser expresada en términos de los parámetros de GBN. Además, si se cumple el
supuesto de independencia condicional de GNB, la regresión logı́stica y Naı̈ve Bayes Gaussianno con-
vergen asintóticamente a idénticos clasificadores. Sin embargo, si este supuesto no se cumple, el sesgo
de Naı̈ve Bayes causará menor precisión que la regresión logı́stica en el caso asintótico. Dicho de otra
forma, Naı̈ve Bayes es un algoritmo de aprendizaje con mayor sesgo, pero menor variabilidad que la re-
gresión logı́stica. Si este sesgo es conveniente dado los datos reales será más conveniente utilizar Naı̈ve

29
Bayes en vez de la regresión logı́stica.

Otro punto de comparación corresponde al tipo de clasificador que se genera mediante las distintas
metodologı́as. La regresión logı́stica, al igual las Support Vector Machine, utiliza los datos de entre-
namiento para estimar directamente P (Y |X), a lo cual se le denomina ”Clasificador Discriminativo”,
es decir, a través de P (Y |X) se puede discriminar directamente el valor objetivo Y para cualquier ob-
servación X. En cambio Naı̈ve Bayes utiliza los datos de entrenamiento para estimar P (X|Y ) y P (Y ),
es decir, una nueva observación X puede ser clasificada utilizando las distribuciones de probabilidad
estimadas más el teorema de Bayes, a lo cual se le denomina ”Clasificador Generativo”.

30
2.6. Ejemplo

En esta sección utilizaremos un ejemplo para aplicar las metodologı́as planteadas, para lo cual se
utiliza la base de datos Adult la cual fue extraı́da de la Oficina del Censo de la base de datos encontrados
en http://www.census.gov/ftp/pub/DES/www/welcome.html en 1994 por Ronny Kohavi y Barry Becker.

De esta base se extraen nueve variables, donde cuatro son categóricas, cuatro continuas y una nom-
inal denominada DEP, nuestra variable de interés, que tomará el valor 1 si los ingresos de las personas
son superiores a US 50K/yr y 0 cuando los ingresos sean inferiores.

Las variables categóricas son:

Marital status (Estado Civil): Divorced, Married-AF-spouse, Married-civ-spouse, Married-spouse-


absent, Never-married, Separated, y Widowed.

Relationship (Estado Parental): Husband, Not-in-family, Other-relative, Own-child, Unmarried y


Wife.

Race (Raza): Amer-Indian, Asian-Islander, Black, White y Other.

Sex (Sexo): Female and Male.

Y las variables continuas son Age (Edad), Capital Gain (Ganancia de Capital), Capital Loss (Pérdida
de Capital) y Hours per week (Horas trabajadas por semana).

Previo a la aplicación de las metodologı́as se realizará un análisis descriptivo.

2.6.1. Análisis Descriptivo

Para revisar la distribución que poseen las variables explicativas, utilizadas para entrenar las distin-
tas metodologı́as, se realizará un análisis gráfico de las variables mediante boxplot y gráficos de barras,
según la naturaleza de la variable, además de un estudio bivariado para conocer la capacidad discrimina-
tiva de las variables.

Dentro de las variables categóricas podemos observar en la figura 2.4 que el comportamiento de
ambas poblaciones, es decir, de los individuos con ingresos mayores y menores a U S 50K, son distintos
en el Estado Civil y Relación Parental, en cambio la Raza y el Sexo presentan un comportamiento similar
para las dos poblaciones.

31
Figura 2.4: Gráfico de Barras: Variables categóricas

Ahora, en relación a las variables continuas (figura 2.5) podemos ver que la mayorı́a de los indi-
viduos no poseen ni ganancia ni pérdida de capital, independiente del ingreso que tengan. En cambio,
en relación a la edad de los individuos se observa mayor dispersión, estas van entre los 17 a 90 años,
donde la población asociada a los ingresos mayores a 50K poseen una concentración de la edad leve-
mente mayor a la asociada a ingresos menores de 50K. Y finalmente que el rango de las horas de trabajo
semanal, va entre 1 a 99 horas, no observándose diferencias significativas entre ambas poblaciones.

32
Figura 2.5: Boxplot: Variables continuas

Por otro lado, la capacidad predictiva de las variables se analizan a través del Estadı́stico de Kolmogorrov-
Smirnov (K-S) e Information Value (IV).

El estadı́stico K-S debiese ser alto, como indicador para separar las muestras, en este caso, los indi-
viduos que tienen ingresos menores de U S 50K y mayores de U S 50K. Del cuadro 2.1 se deduce que
las variables Estado Civil, Estado Parental y Edad son aquellas que mejor capacidad predictiva poseen,
seguidas por Horas de trabajo semanal, Sexo y Ganancia de Capital y donde la Raza y Pérdida de Cap-
ital presentan bajo poder para separar a los individuos con ingresos menores de U S 50K y mayores de
U S 50K.

Y en relación al estadı́stico Information Value, el cual plantea la capacidad de si la variable discri-


mina por si sola, este valor también debe ser alto. De esto se puede observar resultados similares a los
obtenidos por el K-S, donde la diferencia más importantes es en la variable Ganancia de Capital, la cual
posee capacidad discriminatoria muy inferior. Esto se puede deber a que como se observa en el gráfico
anterior, casi el 79 % de los individuos no poseen ganancias y comparando las poblaciones de ingresos
menores de U S 50K y mayores de U S 50K, no existe diferencia significativa.

33
Caracteristica K-S Inf. Value
Estado Civil 52,90 % 137,06 %
Relación Parental 52,30 % 154,16 %
Raza 8,88 % 8,79 %
Sexo 18,87 % 18,46 %
Edad 34,50 % 48,40 %
Ganancia de Capital 16,60 % 3,10 %
Horas trabajadas por semana 25,10 % 51,40 %
Pérdida de Capital 8,50 % 0,60 %

Cuadro 2.1: Resumen de los estadı́sticos obtenidos en descriptiva bivariada

Una vez analizado el comportamiento de los datos, se procede a modelar, primero a través del
modelo logı́stico, ya que este posee técnicas de selección de variables, lo cual permite obtener el mejor
modelo logı́stico posible y luego utilizar estas misma variables para modelar mediante las otras técnicas y
ası́ poder comparar las metodologı́as bajo el mismo escenario. Es de esperarse que al momento de realizar
la regresión logı́stica, las variables con mejores indicadores sean aquellas que ingresen al modelo.

2.6.2. Regresión Logı́stica

El modelo logı́stico se obtiene utilizando el método de selección de variables Stepwise. En cuanto


a la forma de inclusión de variables, las continuas se ingresaron sin cambiar su naturaleza, mientras que
las variables categóricas se traspasaron a dummy, dejando como categorı́a de referencia la que tuviese
una ”Tasa de Ingreso Mayor a U S 50K”más similar a la general.

El modelo resultante es:

d = −2,32 − 0,021 · Edad − 0,00025 · Ganancia de Capital − 0,00069 · Pérdida de Capital


g(x)

−0,04 · Horas de Trabajo Semanal + 15,93 · Casado/Conyuge/Ausente + 2,67 · Separado

+2,19 · Nunca Casado + 1,83 · Divorciado + 1,82 · Viudo + 1,96 · Hijo Único

34
Donde todas las variables, a excepción de la variable dummy ”Casado/Conyuge/Ausente” y el Inter-
cepto, son significativas con un 95 % de confianza. Además es importante mencionar que los valores de
los coeficientes, si bien no representan en general grandes ponderaciones, su signo es coherente con las
”Tasas de Ingreso Mayor a U S 50K” obtenidas en la estadı́stica descriptiva, es decir, si la variable Estado
Parental se consideró como base a la dummy ”Esposo” con una ”Tasa de Ingreso Mayor a U S 50K”de
55,39 % y la categorı́a Hijo Único con un 98,8 %, el signo de la variable dummy que representa tal cate-
gorı́a debiese ser positiva, lo cual ocurre.

Los estadı́sticos que se obtienen del modelo corresponden a un 58,1 para el K-S y un área bajo
la curva (ı́ndice C) de 85,45. Asociado a esto está el boxplot del modelo (figura 2.6), el cual presenta
gráficamente su buena capacidad de separar a las muestras.

Figura 2.6: Boxplot Modelo Logı́stico

Ahora, para seleccionar un punto de corte para dividir en individuos con ingresos menores de
U S 50K y mayores de U S 50K, se presenta la siguiente curva de ROC

35
Figura 2.7: Curva de ROC Modelo Logı́stico. Área bajo la curva de 85,45 %

Dada la forma de la curva, se observa una buena capacidad predictiva, donde si consideramos aprox-
imadamente una especificidad de 0,681 y una sensibilidad de 0,806, se considera un punto de corte de
0,65. Esto me indica que para valores de las probabilidades estimadas mayores a 0,65 nosotros clasifi-
caremos al individuo con ingresos menores de U S 50K. Considerando este corte se obtiene una tasa de
mala clasificación del 17,3 %.

2.6.3. Naı̈ve Bayes

Para la implementación de esta metodologı́a se introducirán todas las variables de manera categórica.
La variables se categorizarán como sigue:

Edad. 1 : 17 − 28 años, 2 : 29 − 47 años, 3 : 38 − 47 años, 4 : 48 − 90 años

Ganancia y pérdida de capital. 0:No, 1:Si

Horas de Trabajo Semanal. 1 : 1 − 40 hrs. , 2 : 41 − 45 hrs., 3 : 46 − 99 hrs.

Ahora, antes de mostrar el comportamiento del modelo, se explicará como funciona la metodologı́a,
considerando la misma base, pero sólo dos variables explicativas, la Edad y la Ganancia de Capital.

36
Para construir el clasificador se tiene que calcular P(Ingreso), P(Edad|Ingreso) y P(Ganancia de
Capital|Ingreso). Los resultados son los siguientes:

P (Ingreso)
Mayor50K 0,23
Menor50K 0,76

P (Edad|Ingreso)
17-28 29-37 38-47 48-90
Mayor50K 0,027 0,279 0,365 0,327
Menor50K 0,335 0,251 0,205 0,207

P (Ganancia de Capital|Ingreso)
No Si
Mayor50K 0,81 0,189
Menor50K 0,95 0,045

De esta forma, si deseamos calcular la probabilidad de clasificar a un individuo dentro de ingresos


superiores a U S 50K dado que tiene 21 años y no posee Ganancia de Capital corresponde a:

P (Ingreso mayor U S50K|Edad(17 − 28),No Ganancia de Capital)= P (Ingreso mayor U S 50K) ·


P (Edad(17 − 28) · P (No Ganancia de Capital)= 0,23 · 0,027 · 0,81 = 0,005

Lo cual parece ser lógico dada las caracterı́sticas del individuo.

37
Ahora, en relación al modelo general, se obtiene un K-S de 57,9 % y un I-V de 94,8, por lo que el
modelo posee una buena capacidad discriminativa, pero no hay que olvidar que los resultados obtenidos
se basan en independencia condicional. Gráficamente en la figura 2.8 se puede ver la clara separación de
las poblaciones utilizando este modelo.

Figura 2.8: Boxplot Naive Bayes

38
2.6.4. Árbol de Clasificación

Al igual que para el caso de Naı̈ve Bayes, todas las variables se ingresarán de manera categórica. El
árbol de clasificación que se obtiene es el siguiente:

Figura 2.9: Árbol de Clasificación

donde

La variable Ingreso está como categorizada como 0 :> 50K y 1 :≤ 50K.

Edad≥ 1,5 representa de los 29 a 90 años.

Ganancia de Capital≥ 1,5 se refiere a que si hay ganancia, de igual forma, Pérdida de Capital≥ 1,5
se refiere a que si hay pérdida.

Horas trabajadas por semana≥ 2,5 representa 46 a 90 horas trabajadas.

Estado parental≥ 5,5 corresponde al rol de Esposa.

Los indicadores que se obtienen del modelos corresponden a un K-S de 52,3 % y un porcentaje de
mala clasificación de 19,65 %, por lo tanto posee una buena capacidad discriminativa.

39
2.6.5. Support Vector Machines

Como se menciona anteriormente, las variables a ingresar en los modelos SVM, Naı̈ve Bayes y
Árbol de Clasificación corresponden a las variables ingresadas al modelo logı́stico mediante Stepwise,
las cuales son: Estado Civil (Casado-Conyuge-Ausente, Separado, Nunca Casado, Divorciado y Viudo),
Estado Parental (Hijo único), Edad, Horas semanales trabajadas, Ganancia y Pérdida de Capital.

Con la finalidad de obtener el mejor modelo, se entrena la SVM con distintos costos de penalización,
es decir C = {10, 102 , 103 , 104 } y se utilizan distintos kernel (Lineal, Polinomial y Gaussiano).

Es de esperarse que al aumentar el costo de penalización del error se obtendrán mejores modelos,
lo cual se reflejará en la disminución del porcentaje de mala clasificación ( % MC) y en el aumento del
estadı́stico K-S. Lo cual es posible observar en el cuadro 2.2, a excepción de cuando se utiliza C = 100
en el kernel Lineal y Polinomial.

Kernel C ] S.V. % M.C. K-S


Lineal 10 510 19.8 55.2
100 511 19.8 54.8
1000 512 19.8 56.6
10000 512 19.6 56.6
Polinomial 10 513 19.8 56.9
100 511 19.8 54.8
1000 512 19.7 56.8
10000 513 19.5 56.7
Gaussiano 10 563 16.6 62.1
100 523 15.0 63.5
1000 488 14.9 68.7
10000 486 14.8 67.4

Cuadro 2.2: Tabla comparativa de SVM con distintos kernel y costos C

Ahora, en relación a cual se considera el mejor modelo, hay que observar que aquellos con kernel
gaussiano, aún en el peor caso presentado, supera a los modelos con kernel Lineal y Polinomial. Es
por esto que dentro de los modelos propuestos utilizando Support Vector Machine se considerará el que
utiliza un kernel gaussiano. Esto se puede observar gráficamente en la figura 2.10, donde se presentan
los mejores modelos utilizando cada kernel, marcándose una mayor diferencia en los datos centrales de

40
ambas poblaciones, individuos con ingresos menores de U S 50K y mayores de U S 50K, en el modelo
con kernel gaussiano.

Dentro de los modelos Gaussianos se decide considerar el modelo con un costo de penalización por
errores de C = 1000, esto debido a que cuando C pasa de 1000 a 10000 las diferencias entre la tasa de
mala clasificación y el estadı́stico K-S de uno a otro no son importantes.

Figura 2.10: Gráfico comparativo de SVM: Kernel Lineal, Polinomial y Gaussiano

Es importante mencionar que los parámetros utilizados por cada kernel son estimados dada las car-
acterı́sticas de los datos de entrenamiento.

También se incluye en el cuadro 2.2 el número de vectores de soporte (SV) de cada modelo, esto
debido a que se espera que un buen modelo de clasificación tenga un número menor de SV, ya que en
caso contrario esto implicarı́a que la mayorı́a de las observaciones están sobre el margen de separación,
estando las poblaciones muy cerca, lo cual dificulta la correcta clasificación de las observaciones, o en
nuestro caso, de individuos.

Finalmente es importante mencionar, que este tipo de modelos va requiriendo un mayor costo de
computacional a medida que aumenta la constante C, al igual que el número de variables ingresadas al
modelo, esto debido a los algoritmos que se utilizan para optimizar y encontrar el hiperplano óptimo.

41
2.6.6. Comparación de Modelos

En esta sección el objetivo es comparar las metodologı́as planteadas y de manera preliminar ob-
servar las ventajas y desventajas que poseen entre ellas para ası́ optar por el mejor modelo, dada las
caracterı́sticas de la base de datos utilizada como ejemplo.

Para esto revisaremos indicadores tales el estadı́stico K-S, Gini, ı́ndice C y la tasa de mala clasifi-
cación para cada modelo y posterior a esto revisaremos la curva de ganancia asociada a cada modelo.

En el cuadro 2.3 se aprecia que todos los modelos se comportan de manera adecuada, sin embar-
go el modelo SVM que utiliza kernel gaussiano se destaca entre los otros en cada indicador, donde la
desventaja de esta metodologı́a radica en el hecho de que no posee coeficientes que me faciliten futuras
predicciones, sin embargo se pueden obtener probabilidades por lo cual no sólo me permite clasificar,
sino predecir. Por otro lado el costo computacional que puede traer cuando se ingresa un gran número
de variables y se le asigna un costo de penalización elevado puede traer una molestia, pero los resultados
que se obtienen sin duda son los mejores, esto debido a su capacidad de que el modelo se ajusta a los
datos y no los datos al modelo, siendo una ventaja de la estadı́stica no paramétrica.

K-S GINI Índice C % M.C.


Arbol 52,30 % 60,36 % 80,18 % 19,65 %
Naive Bayes 57,94 % 70,95 % 85,47 % 17,15 %
Logistico 58,10 % 70,90 % 85,45 % 17,30 %
SVM Lineal 56,63 % 66,53 % 83,26 % 19,80 %
SVM Polinomial 56,84 % 66,65 % 83,33 % 19,70 %
SVM Gaussiano 68,64 % 81,29 % 90,64 % 14,80 %

Cuadro 2.3: Tabla comparativa de los modelos implementados en la base de datos Adult

Ahora de manera gráfica, se observa en la figura 2.11 que dentro del 10 % primero de los individuos
con ingresos menores a US 50K, el modelo de regresión logı́stica se comporta mejor, sin embargo
posterior a ese 10 % el modelo SVM Gaussiano posee una ganancia superior a todos los modelos, esto
se refleja claramente cuando consideramos al 20 % de los individuos con ingresos menores a US 50K,
logro capturar al 90 % de los individuos con ingresos mayores a US 50K.

42
Figura 2.11: Gráfico de Ganancias: Comparación de los modelos implementados

43
C AP ÍTULO 3

Análisis de Predicción de Fuga de Clientes

3.1. Descripción del Estudio

El aumento de la oferta y la creciente información que disponen los consumidores, más capacitados
ahora para conocer lo que ofrece el mercado, está llevando a que, cada año, millones de clientes cambien
de proveedor en toda clase de productos o servicios, lo cual trae como consecuencia para las empresas, y
en este caso, para las instituciones financieras, el interés por conocer de que forma afectan estos cambios
o abandonos de parte del cliente, en particular, de aquellos que presentan una clara tendencia o compor-
tamiento favorable para la institución, considerándose entonces como buenos clientes.

Es importante recordar que la cartera de clientes es uno de los activos más importantes para una
institución financiera ya que afecta directamente sus utilidades, por esto para la institución es impor-
tante tener el conocimiento de cuales son aquellos buenos clientes que poseen una tendencia de fuga, y
ası́ poder aplicar estrategias para su retención, teniendo además en cuenta a cuales se les deben aplicar
polı́ticas de retención inmediatas o por el contrario, a cuales se les deben aplicar estrategias a mediano
plazo o mantener en observación, lográndose esto a través de una segmentación de clientes de acuerdo a
que tan fuerte sea esta tendencia de abandono, analizando además cuales son las posibles pérdidas que
ocasionarı́an para la institución financiera el abandono de los clientes de cada segmento.

De esta forma, considerando la importancia del conocimiento de la información antes mencionada,


es que se plantean diversas metodologı́as de clasificación, siempre apuntando a la obtención del mejor
modelo, para ası́ poder identificar cuales son los clientes que efectivamente poseen o no poseen tendencia
de fuga. Para esto, es que se utiliza la base de datos que se describe a continuación.

44
3.2. Descripción de la base de datos

La información de los clientes considerada para la clasificación fue recogida entre los años 2006 y
2007. Por razones de privacidad de la Institución Financiera al cual pertenecen los datos, no se realiza
una descripción de los atributos que se consideran para la clasificación. Estos atributos o caracterı́sticas
de los clientes se agrupan en: Caracterı́sticas sociodemográficas, como por ejemplo la variable Renta
y Edad; Indicadores económicos, como el Walletshare, que corresponde a cuanto de la deuda total del
cliente corresponde a la institución financiera que le presta el servicio; y en Caracterı́sticas bancarias,
está el Número de Acreedores, que es el número de instituciones en las que el cliente se encuentra en-
deudado.

La base de datos cuenta con 374 variables, dentro de las cuales, 1 corresponde a formas de identi-
ficar al cliente, 3 se utilizan como criterio de selección de los clientes que se desean analizar, correspon-
dientes a aquellos que se consideran como buenos clientes, 12 se utilizan para la creación de la variable
dependiente ”Tendencia del Cliente” y las 358 variables restantes corresponden a las posibles variables
explicativas a utilizarse en el modelamiento.

Con el fin de obtener un número semejante de observaciones de clientes con tendencia a la fuga y sin
esta tendencia, es que trabaja en un comienzo sobre un muestra balanceada, ya que el número original de
ocurrencias de clientes con tendencia a la fuga corresponde al 1,4 % de la totalidad de los buenos clientes
a analizar, donde al estudiarse un evento con una ocurrencia tan baja, podrı́an obtenerse resultados afec-
tados por esta condición. Este balance se efectúa considerando la totalidad de clientes con tendencia a
la fuga, correspondiente a 2241 casos y realizando un muestreo aleatorio simple entre los clientes sin
tendencia a la fuga, se seleccionan 2241 casos, obteniéndose una muestra de 4482 observaciones.

3.3. Análisis Descriptivo

El análisis descriptivo se realiza en el software estadı́stico SPSS 15.0 y consta de dos etapas: detec-
tar variables que posean datos missing y conocer la capacidad discriminativa de las potenciales variables
explicativas a modelar.

En primera instancia se revisa si las variables poseen datos faltantes, donde la falta de datos se utiliza
como información de la variable y no como la pérdida de esta, ya que la no información en su mayorı́a es
causada debido a que el cliente no posee una determinada caracterı́stica. Es por esto que al dato faltante
se le asigna un valor fijo que representa su condición de missing.

45
Posterior a esto, se realizó un análisis descriptivo bivariado, ya que es de interés conocer el com-
portamiento de las variables en relación a la variable de interés ”Tendencia del Cliente”. Este análisis
consta, entre otros, en la obtención del estadı́stico K-S (Kolmogorov-Smirnov), el cual nos permite eval-
uar la capacidad que posee una determinada variable para discriminar entre clientes con o sin tendencia
a la fuga. Para esto, las variables continuas fueron categorizadas, mientras que las variables ordinales y
nominales se mantuvieron con la misma estructura.

Debido a que se posee una gran cantidad de variables explicativas, se presenta el análisis descriptivo
sólo de aquellas variables que presentaron un K-S mayor a 5 % y/o que son de interés para la Institución
Financiera. Estas variables las denotaremos como V1 , V2 , . . . , V15 y el detalle del análisis de estas se en-
cuentra en el Anexo A.2.1. Del cuadro 3.1, que a continuación muestra, podemos ver que en general los
valores del estadı́stico K-S son bajos, ya que se esperarı́a obtener variables donde este indicador fuese los
más cercano al 100 %. En este caso, casi el 50 % de las variables se encuentra bajo el 10 %, rescatando
las variables V2 , V10 , V8 , V4 , V1 y V15 como aquellas que presentarı́an una mayor capacidad de discrim-
inación entre las poblaciones de clientes con tendencia de fuga y no fuga. Es importante notar, que no
siempre que se tiene un alto K-S se tendrá además un alto Information Value, ya que el concepto de este
último indicador se relaciona con la cantidad de información que aporta la variable al modelo. Lo ideal
es que ambos indicadores sean altos y es por esto que las variables antes mencionadas se presentaron en
ese orden, partiendo por la que más podrı́a discriminar por si sola.

46
K-S Inf. Value
V1 10, 23 % 4, 64 %
V2 16, 34 % 13, 71 %
V3 8, 12 % 2, 91 %
V4 10, 71 % 5, 03 %
V5 5, 89 % 1, 91 %
V6 3, 61 % 2, 40 %
V7 5, 18 % 3, 30 %
V8 11, 84 % 6, 87 %
V9 7, 14 % 2, 84 %
V10 13, 92 % 12, 77 %
V11 8, 12 % 3, 43 %
V12 9, 50 % 5, 44 %
V13 3, 35 % 1, 76 %
V14 5, 53 % 2, 27 %
V15 10, 40 % 0, 11 %

Cuadro 3.1: Análisis Descriptivo Muestra Balanceada

Hay que tener claro que esto se presenta como un análisis previo al modelamiento, presentándose
como una descripción de variables y no como un criterio de selección de estas.

47
3.4. Modelos Ajustados a los Datos

3.4.1. Selección de Variables

Para que los modelos obtenidos mediante las distintas metodologı́as sean comparables se utilizarán
las mismas variables en cada uno de ellos, donde buscando el mejor ajuste e interpretación en cada una
de las metodologı́as se ingresarán como variables continuas, categóricas o transformadas en variables
Dummies. Las variables a utilizarse serán seleccionadas en el Análisis de Regresión Logı́stica.

3.4.2. Regresión Logı́stica

Previo a realizar el modelamiento de Regresión, se transformaron las variables en dummies para su


mejor interpretación en el modelo, dejando como categorı́a de referencia la que tuviese una Tasa de Fuga
más similar a la general, correspondiente en este caso al 50 %.

Es importante mencionar para una lectura más clara del modelo, que los nombres de las variables
dummies será de la forma Vi cj , donde i corresponde a la identificación de la variable proveniente y j
indica la categorı́a que esta representa dentro de la variable Vi . Esto se encuentra determinado dentro del
detalle del análisis descriptivo bivariado que se encuentra en el Anexo A.2.1.

Se obtiene un modelo logı́stico en el software SPSS 15.0 utilizando el método de selección de va-
riables Stepwise, modelando la No Fuga de Clientes. Posterior a esto, para perfeccionar el modelo, es
adecuado revisar la coherencia entre los coeficientes del modelo obtenidos y las Tasas de Fuga de acuerdo
a la categorı́a seleccionada como referencia en cada variable, eliminando aquella categorı́a (representada
en una variable dummy) que no cumpla con lo establecido. Con coherente se refiere a cuando el coefi-
ciente de una variable es positivo y a su vez, la tasa de fuga de esa variable es mayor a la tasa de fuga de
la variable dejada como base o de referencia, y por el contrario cuando el coeficiente de una variable es
negativo.

Luego de este análisis, se obtiene el modelo presentado en la tabla 3.2 y sus indicadores de discrim-
inancia son un K-S de 21,87 % y un IV de 30,6 %, lo cual plantea que el modelo presenta un nivel de
discriminancia moderado.

Ahora para evaluar si el modelo obtenido es adecuado para la población de clientes, se ajusta el mo-
delo a la base completa, realizándose previamente un análisis descriptivo similar al aplicado a la muestra
balanceada (Los resultados de esta se encuentran en Anexo A.2.2.), de esto se obtiene que los datos pre-
sentan un comportamiento similar en ambos casos, lo cual nos permite hacer coherente la aplicación del

48
modelo obtenido de la muestra a la base completa, sin embargo, los resultados obtenidos en el modelo
no fueron los esperados debido a la gran variación de las ponderaciones de cada variable entregadas por
el modelo, por lo cual se ajustó un nuevo modelo, donde ingresaremos las mismas variables usadas en el
modelo antiguo. Este último modelo es el que se consideró como modelo final, con un K-S de 18,93 % y
un IV de 22,9 %. La descripción del modelo se encuentra en el cuadro 3.2, donde se observa que si bien
los indicadores son menores al modelo obtenido en la muestra, cumple también con la coherencia de los
signos de los coeficientes en relación a las respectivas tasas de fuga.

Muestra Base Completa


Variables Coeficiente Significancia Coeficiente Significancia
V1 c1 0,080 0,56 0,067 0,52
V1 c3 -0,351 0,00 -0,244 0,00
V2 cna 0,874 0,01 0,536 0,04
V2 c1 0,372 0,00 0,365 0,00
V2 c3 -0,231 0,00 -0,153 0,00
V5 c2 0,254 0,00 0,182 0,00
V6 c2 0,823 0,00 0,630 0,00
V7 c1 -0,098 0,40 -0,160 0,03
V7 c3 0,492 0,00 0,415 0,00
V9 c1 -0,397 0,00 -0,282 0,00
V9 c3 0,028 0,72 0,045 0,41
V10 c1 -0,158 0,05 -0,004 0,94
V10 c4 0,251 0,01 0,279 0,00
Constante 0,051 0,53 4,174 0,00

Cuadro 3.2: Comparación de los Modelos Logı́sticos obtenidos en la muestra y la base completa

Finalmente, como es posible que el costo computacional al utilizar la base de datos completa sea
muy alto, se tomarán 3 muestras, incluyendo la tomada para el análisis previo, en las cuales se realizarán
los diversos modelamientos y comparación resultados. En estas muestras al igual que para la muestra
tomada inicialmente, se considerarán todos los casos de clientes con tendencia a fuga y una muestra de
clientes sin esta tendencia, completando una muestra balanceada de 4482 casos.

Cabe mencionar que como se toman 3 muestras, es necesario realizar cierta validación de estas,
para asegurarnos si las muestras son representativas de nuestra población total de clientes. Esto se re-

49
alizará comparando los modelos obtenidos en cada muestra, esperando que los resultados sean similares.
Es por esto que a continuación se presenta el modelo logı́stico final aplicado a las 3 muestras. Los resul-
tados obtenidos se presentan en la siguiente tabla:

Base Completa Muestra 1 Muestra 3 Muestra 2


Variables Coeficientes del Modelo
V1 c1 0,067 0,080 0,041 0,087
V1 c3 -0,244 -0,351 -0,336 -0,362
V2 cna 0,536 0,874 0,631 0,895
V2 c1 0,365 0,372 0,496 0,377
V2 c3 -0,153 -0,231 -0,116 -0,195
V5 c2 0,182 0,254 0,231 0,244
V6 c2 0,630 0,823 0,797 0,812
V7 c1 -0,160 -0,098 -0,042 -0,118
V7 c3 0,415 0,492 0,509 0,487
V9 c1 -0,282 -0,397 -0,300 -0,397
V9 c3 0,045 0,028 0,101 0,025
V10 c1 -0,004 -0,158 -0,013 -0,165
V10 c4 0,279 0,251 0,226 0,253
Constante 4,174 0,051 -0,099 0,053

Cuadro 3.3: Comparación de los coeficientes de los Modelos Logı́sticos obtenidos en la base completa y
las muestras 1, 2 y 3

Podemos observar que los coeficientes mantienen el mismo signo y el valor es similar entre las
muestras y con los coeficientes del modelo final, correspondiente al modelo con la base completa. Esto
ocurre a excepción de los interceptos, lo cual no es de mayor importancia ya que no son significativos. Se
consideran además los intervalos de confianza del 95 % de los coeficientes β en las 3 muestras. De ma-
nera gráfica en las figuras 3.1 y 3.2 se observa que los intervalos obtenidos para cada variable dentro de
las muestras se cruzan, es decir, las ponderaciones estimadas para cada atributo del cliente se encuentran
en un intervalo similar, concordando con las conclusiones de similitud en los resultados obtenidos en las
3 muestras al observar los valores de cada coeficiente. Cabe mencionar que la similitud entre la muestra
1 y 2 es mayor que la existente con la tercera muestra. Más detalle de los Intervalos de Confianza en el
anexo A.3.

50
Figura 3.1: Intervalos de Confianza del 95 % de los coeficientes β en las 3 muestras

51
Figura 3.2: Intervalos de Confianza del 95 % de los coeficientes β en las 3 muestras

En relación a sus indicadores (cuadro 3.4) se observa una similitud, siendo la primera muestra la
cual presenta los mejores resultados en cuanto a su discriminancia, es decir, posee una mayor capacidad
de discriminar a los clientes con y sin tendencia de fuga (K-S) y la información que entrega el modelo
también es mayor (IV).

Base Completa Muestra 1 Muestra 3 Muestra 2


K-S 18,93 % 21,87 % 20,57 % 21,42 %
I-V 22,9 % 30,60 % 26,70 % 29,70 %

Cuadro 3.4: Comparación de los Indicadores de los Modelos Logı́sticos obtenidos en la base completa y
las muestras 1, 2 y 3

52
Se observa además el comportamiento de las predicciones en la figura 3.3, las cuales son muy seme-
jantes, debido a que las medianas son similares en los 3 casos y en general, la distribución y variabilidad
de las poblaciones son muy parecidas. A través de estos boxplot también es posible comprender el porque
se obtienen bajos valores del estadı́stico K-S, ya que las medianas de ambas poblaciones son cercanas
y las cajas del gráfico se cruzan. En el caso de que las cajas no se cruzaran uno podrı́a esperar que los
modelos obtuvieran mejores indicadores.

Figura 3.3: Boxplot: Comparación del modelo logı́stico en las 3 muestras

Mı́nimo 1er Cuartil Mediana Media 3er Cuartil Máximo


Muestra 1 0,234 0,400 0,495 0,500 0,587 0,888
Muestra 2 0,235 0,396 0,492 0,500 0,586 0,888
Muestra 3 0,288 0,393 0,475 0,500 0,590 0,873

Cuadro 3.5: Medidas de Tendencia Central y de Posición: Modelo Logı́stico

53
Y finalmente revisaremos las curvas ROC y sus áreas bajo la curva. Podemos ver en la figura 3.4
que dada la forma de la curva, los modelos no presenta una buena capacidad predictiva, donde para de-
terminar un punto de corte comparable en los 3 casos, consideraremos una sensibilidad de 0,609 y una
especificidad de 0,601 en la primera muestra, lo cual nos entrega un punto de corte de 0,494. Esto nos
indica que para probabilidades superiores a este punto consideraremos a los clientes con una tendencia
de no fuga, y de fuga en caso contrario. Tomando este punto de corte para los modelos de las 3 muestras
se obtiene un porcentaje de mala clasificación como se observa en el cuadro 3.6, donde en los 3 casos se
obtienen tasas similares, lo cual también sucede con el área bajo la curva.

Figura 3.4: Curva ROC: Comparación del modelo Logı́stico en las 3 muestras

54
Índice C % MC
Muestra 1 0,6342 39,53
Muestra 2 0,6448 39,49
Muestra 3 0,6471 39,98

Cuadro 3.6: Comparación de Índice C y Porcentaje de Mala Clasificación para los 3 modelos

En base a todo el análisis anterior, podemos concluir que la variabilidad de la población de buenos
clientes se puede captar a través del muestreo, ya que las muestras arrojan modelos muy similares entre
ellos.

3.4.3. Árboles de Clasificación

En esta sección se utiliza el software Clementine 8.1., que corresponde a un complemento del soft-
ware SPSS. Para la obtención de los árboles de clasificación ingresaremos las variables de forma continua
en las 3 muestras, para luego compararlos de manera gráfica y mediante sus indicadores de discriminan-
cia. El algoritmo utilizado fue C.5 obteniéndose los árboles que se muestran en las figuras 3.5, 3.6 y 3.7.

Podemos ver que los árboles de clasificación entrenados con las muestras 1 y 2 poseen las mismas
reglas de clasificación, lo cual no ocurre con el árbol de la tercera muestra, ya que a pesar de que los
nodos terminales provienen de las mismas variables, V6 y V9 , las reglas de clasificación iniciales se crean
a partir de otras variables. Debido a esto, podrı́amos pensar que la muestra 3 es distinta a las otras, y
por ende, debemos tener cuidado si esta tendencia se repite en los otros modelos, ya que traerı́a como
consecuencia que la población de clientes presenta un variabilidad que no es posible captarla a través de
muestreos.

55
Figura 3.5: Árbol de Decisión correspondiente a la Muestra 1

56
Figura 3.6: Árbol de Decisión correspondiente a la Muestra 2

57
Figura 3.7: Árbol de Decisión correspondiente a la Muestra 3

58
En relación a los indicadores de los modelos, podemos ver que son bastante similares, a excepción
del Coeficiente de Gini e Índice C de la tercera muestra, lo cual refleja la diferencia que esta muestra
tiene en relación a las otras. En general, los árboles de clasificación presentan indicadores bajos, por lo
que su poder de discriminación no es muy bueno.

M1 M2 M3
K-S 21,3 % 21,0 % 21,4 %
IV 21,6 % 21,2 % 21,4 %
Gini 22,53 % 22,30 % 17,14 %
Indice C 61,27 % 61,15 % 58,57 %
%MC 39,36 % 39,51 % 37,51 %

Cuadro 3.7: Comparación de los 3 árboles de clasificación en relación a sus Indicadores

59
3.4.4. Naı̈ve Bayes

Para la aplicación de esta metodologı́a se utiliza el Software R 2.5.1., introduciendo las variables
categorizadas para su mejor interpretación. Para realizar una comparación entre los modelos obtenidos
en las 3 muestras se presentan los siguientes Boxplot separados de acuerdo a la tendencia del cliente en
relación a la fuga, esto para ver la discriminación de los distintos modelos.

Figura 3.8: Boxplot: Comparación del modelo Naive Bayes en las 3 muestras

60
Mı́nimo 1er Cuartil Mediana Media 3er Cuartil Máximo
Muestra 1 0,138 0,334 0,481 0,499 0,661 0,923
Muestra 2 0,138 0,338 0,481 0,499 0,660 0,922
Muestra 3 0,179 0,340 0,453 0,498 0,668 0,918

Cuadro 3.8: Medidas de Tendencia Central y de Posición: Modelo Naive Bayes

De la figura 3.8 y del cuadro 3.8 se observa que los 3 modelos son muy similares, ya que las proba-
bilidades estimadas se presentan con rangos y medianas similares en todos los casos. Coherente con esto
se presentan los indicadores del cuadro 3.9, tomando casi los mismos valores en cada muestra.

M1 M2 M3
K-S 21,7 % 21,5 % 19,7 %
IV 46,5 % 47,9 % 46,0 %
% MC 39,22 % 39,37 % 40,85 %

Cuadro 3.9: Comparación de las 3 muestras en relación a sus Indicadores

Por otro lado, se revisan las probabilidades estimadas de cada variable, esto en las 3 muestras. A
modo de ejemplo se presenta en los cuadros 3.10 y 3.11 la comparación de las variables V5 y V6 , las
demás se encuentran en el anexo A.4. Podemos ver que las probabilidades son casi idénticas, lo cual
ocurre también con el resto de las variables.

Y es en base a esto que se concluye que las muestras tomadas son similares entre ellas y por ende
representativas de la población de clientes.

Muestra 1 Muestra 2 Muestra 3


1 2 1 2 1 2
Fuga 0,7916109 0,2083891 0,7902722 0,2097278 0,7893797 0,2106203
No Fuga 0,7304775 0,2695225 0,7300312 0,2699688 0,7340473 0,2659527

Cuadro 3.10: Comparación de las Probabilidades Estimadas de la Variable V5 en las 3 muestras

61
Muestra 1 Muestra 2 Muestra 3
1 2 1 2 1 2
Fuga 0,95850067 0,04149933 0,9589469 0,0410531 0,96117805 0,03882195
No Fuga 0,92235609 0,07764391 0,92369478 0,07630522 0,92904953 0,07095047

Cuadro 3.11: Comparación de las Probabilidades Estimadas de la Variable V6 en las 3 muestras

3.4.5. Support Vector Machines

Para la aplicación de esta metodologı́a se utiliza el Software R 2.5.1. Con la finalidad de obtener el
mejor modelo, se entrena la SVM con distintos costos de penalización, es decir C = {1, 10, 102 , 103 , 104 },
utilizando los kernel Lineal y Gaussiano e ingresando las variables continuas, categorizadas y dummies
sin mezclarlas. Se entrenarán las 3 muestras de igual forma, donde primero se realizará la comparación
entre modelos dentro de la misma muestra y posteriormente la comparación de los mejores modelos en-
tre muestras, seleccionándose finalmente el modelo óptimo, el cual se comparará posteriormente con las
otras metodologı́as.

Los resultados obtenidos en la primera muestra se presentan en el cuadro 3.12 donde se puede ob-
servar que para el caso continuo, se obtienen mejores resultados cuando se utiliza el Kernel Gaussiano,
lo cual indica que el comportamiento de los datos no es lineal, esto se confirma en el hecho que mientras
mayor sea la ponderación dada a la parte no lineal del problema de optimización, correspondiente al
costo C, mejor son los indicadores, pasando de un K-S de 29 % a 45,4 %, de un porcentaje de mala clasi-
ficación ( %MC) de 36,12 % a 27,7 %, donde también disminuye la cantidad de vectores de soporte, lo
cual significa que la separación entre ambas poblaciones, en nuestro caso, de fuga y no fuga de clientes,
es mayor. En contraste con el Kernel Gaussiano, el caso con Kernel Lineal no presenta una mejorı́a al
aumentar la ponderación del caso no lineal dentro del problema de optimización, manteniéndose casi
constante ha medida que se aumenta el costo. Se intentó aumentar el costo para el caso del Kernel Gaus-
siano para evaluar si se conseguı́a obtener un modelo mejor, pero el costo computacional cuando se
utilizan costos superiores al 10.000 es muy alto, por lo cual no fue posible revisar si seguı́a mejorando o
lograba una estabilización, como ocurre con el caso lineal.

62
VARIABLES CONTINUAS
C K-S %MC Número de VS
Kernel Lineal 1 21,0 % 43,10 % 3.906
10 21,0 % 40,87 % 3.987
100 21,0 % 40,85 % 3.941
1.000 21,0 % 40,83 % 3.939
10.000 21,1 % 40,71 % 3.942
Kernel Gaussiano 1 29,0 % 36,12 % 3.653
10 32,1 % 34,13 % 3.550
100 34,5 % 32,95 % 3.477
1.000 37,8 % 31,28 % 3.408
10.000 37,2 % 30,58 % 3.339
100.000 41,7 % 29,36 % 3.220

Cuadro 3.12: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 1

Para el caso de las variables Discretas (Cuadro 3.13), al igual que para el caso anterior, el Kernel
Gaussiano se presenta con mejores caracterı́sticas que el Kernel Lineal , pero el Kernel Gaussiano al
aumentar el costo C no mejora tan sustancialmente como con las variables continuas, obteniéndose un
K-S máximo de 32 %, con una tasa de mala clasificación del 34 %. En relación a los resultados con Ker-
nel Lineal, nuevamente se observa que los indicadores se mantienen constantes y además, para costos
superiores a 100 el costo computacional que se requiere es muy alto, traduciéndose en que el tiempo que
se necesita para correr el programa excede las 5 horas, no lográndose obtener resultados para el costo
1.000 y 10.000.

63
VARIABLES CATEGORIZADAS
C K-S %MC Número de VS
Kernel Lineal 1 20,3 % 40,00 % 3.828
10 21,0 % 39,64 % 3.838
100 20,9 % 39,87 % 3.829
1000 COSTO COMPUTACIONAL MUY ALTO
10000 COSTO COMPUTACIONAL MUY ALTO
Kernel Gaussiano 1 25,4 % 37,46 % 3.657
10 28,1 % 36,16 % 3.600
100 30,3 % 35,02 % 3.538
1000 31,7 % 34,24 % 3.516
10000 32,0 % 34,02 % 3.455

Cuadro 3.13: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 2

Y finalmente, en relación a los resultados obtenidos con las variables Dummies (Cuadro 3.14) se
mantiene que los resultados con Kernel Gaussiano son mejores que con el Kernel Lineal. Pero en este
caso, la mejorı́a de los indicadores sólo se observa pasado del costo 1 al 10, posteriormente el aumento
del costo no representa una mejorı́a del modelo, obteniéndose un K-S máximo de 29,8 % y un porcentaje
de mala clasificación de 35 %. Y en cuanto a los resultados del Kernel Lineal, se comportan de manera
muy similar al categorizado, disminuyendo levemente los indicadores, pero a su vez disminuye el número
de Vectores de Soporte, lo cual es favorable para el modelo.

64
VARIABLES DUMMY
C K-S %MC Número de VS
Kernel Lineal 1 20,1 % 40,37 % 3.770
10 19,6 % 40,87 % 3.795
100 20,0 % 40,87 % 3.779
1000 COSTO COMPUTACIONAL MUY ALTO
10000 COSTO COMPUTACIONAL MUY ALTO
Kernel Gaussiano 1 26,4 % 37,19 % 3.626
10 29,0 % 35,47 % 3.516
100 29,0 % 35,09 % 3.448
1000 29,8 % 35,09 % 3.442
10000 29,8 % 35,09 % 3.416

Cuadro 3.14: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 3

Finalmente para comparar los 3 casos, se presentan los siguientes gráficos que comparan los es-
tadı́sticos K-S obtenidos ha medida que aumenta el costo para las variables Continuas, Categorizadas
y Dummies. Podemos ver en la figura 3.9, que los modelos entrenados con el Kernel Gaussiano son
mejores que con el Kernel Lineal, esto se ve reflejado en que al aumentar el costo en los tres casos, la
curva del K-S es más alta. Además es importante notar que el Kernel Gaussiano cuando es entrenado
además con las variables continuas presenta una notable mejorı́a en sus indicadores, en este caso repre-
sentados a través del K-S, lo cual no ocurre cuando se utilizan los otros tipos de variables ni cuando se
entrena con el Kernel Lineal.

65
Figura 3.9: Gráfico Comparativo del Modelo SVM utilizando las variables Continuas, Categorizadas y
Dummies K-S versus C. Muestra 1

Ahora, revisaremos que ocurre con el comportamiento de las 3 muestras. De las figuras 3.10 y 3.11
podemos ver que las 3 muestras presentan un comportamiento similar, por lo tanto estas muestras son
similares entre ellas y representativas de la población. El detalle de los resultados de la muestra 2 y 3 se
encuentra en el anexo A.5.

Por otro lado, al aumentar el costo, independiente del tipo de variable, el K-S llega a un punto donde
deja de crecer, lo cual se traduce en que se ha encontrado el mejor modelo, y por ende que no es posible
encontrar un mejor modelo a partir de un determinado costo. Es por esto que la tarea es encontrar el costo
C que minimize el costo computacional y que a su vez maximize los resultados del modelo. Además,
se presenta el mismo comportamiento con el Kernel Gaussiano y las variables continuas, lo que podrı́a
representar una ventaja cuando se poseen variables continuas.

66
Figura 3.10: Gráfico Comparativo del Modelo SVM utilizando las variables Continuas, Categorizadas y
Dummies K-S versus C. Muestra 2

Figura 3.11: Gráfico Comparativo del Modelo SVM utilizando las variables Continuas, Categorizadas y
Dummies K-S versus C. Muestra 3

67
Por último, antes de pasar a la etapa de comparación de modelos, dada la gran cantidad de modelos
obtenidos de SVM, se seleccionan 2, los más óptimos utilizando el Kernel Lineal y Gaussiano. Estos
son el SVM con Kernel Lineal y un costo de C = 100 y el SVM con Kernel Gaussiano con un costo de
C = 10000, ya que como se plantea anteriormente, logran minimizar el costo computacional y a su vez
maximizar su poder de discriminación entre los clientes fugados y no fugados.

3.5. Predicción de Nuevos Clientes

En esta sección se presentan los resultados obtenidos al predecir la tendencia de nuevos clientes uti-
lizando las 4 metodologı́as utilizadas en el desarrollo de la tesis. Esto permitirá una mejor comprensión
del estudio, además de ser otro punto a evaluar al momento de seleccionar un modelo como el óptimo.

Al momento de predecir, el modelo logı́stico, naı̈ve bayes y el árbol de clasificación nos entregan
una regla visible del como predecir, ya sea a través de ponderaciones para las variables o de reglas de
decisión. En el caso de support vector machines, si bien el modelo no entrega una regla tangible, si nos
permite predecir. Esto se logra entrenando el modelo con la base original, pero ingresando las clientes
que se desean predecir para la estimación de las probabilidades y clasificación en las respectivas clases.

Consideremos para la predicción 10 clientes nuevos, a los cuales se les calcula su probabilidad de
fuga y grupo de pertenencia. Los resultados obtenidos se encuentran en el cuadro 3.15, donde se ob-
serva que la tasa de mala clasificación se mantiene similar a los resultados obtenidos en la muestra de
entrenamiento, donde el Support Vector Machine con kernel gaussiano mantiene una tasa de mala clasi-
ficación inferior a las demás metodologı́as. Por otro lado, se observa que tanto para Naı̈ve Bayes como
SVM, existen casos donde la probabilidad de fuga es baja, sin embargo se clasifican como No Fugados.
Esto ocurre ya que tanto las probabilidades de fuga como no fuga del cliente son bajas, pero de igual
forma se clasifica en la clase de más alta probabilidad. En relación al árbol de clasificación podemos ver
que dentro de las metodologı́as utilizadas es la única en la cual no se puede estimar la probabilidad de
fuga.

68
LOGIT NAIVE BAYES SVM GUASSIANO ÁRBOL
ID Tend. Clasificación Probabilidad Clasificación Probabilidad Clasificación Probabilidad Clasificación
1 NF F 0,3908984 NF 0,38193259 NF 0,68743576 F
2 F F 0,45591784 NF 0,41161329 F 0,65570108 F
3 F F 0,25238661 F 0,18885962 F 0,64265538 F
4 NF NF 0,75876536 NF 0,81311525 NF 0,62498978 NF
5 F NF 0,50645563 F 0,57586629 F 0,62120765 NF
6 NF NF 0,65536207 F 0,57055685 NF 0,61910148 NF
7 NF F 0,39953138 NF 0,33474733 NF 0,6076523 F
8 NF NF 0,66732508 F 0,72384956 NF 0,60086324 F
9 NF NF 0,74424344 NF 0,8248319 NF 0,5993399 NF
10 F NF 0,48585974 NF 0,42971644 F 0,59723286 F
11 NF NF 0,69309545 F 0,77062029 F 0,40236587 NF
12 F NF 0,53335206 F 0,39445216 F 0,40077106 NF
13 NF F 0,43108289 NF 0,39008915 NF 0,39864258 F
14 F F 0,44879438 NF 0,43108622 F 0,39079611 F
15 F F 0,29832361 NF 0,2445403 NF 0,38536347 F
16 NF NF 0,68640319 NF 0,5711811 NF 0,36074444 NF
17 NF NF 0,61277908 NF 0,48582364 NF 0,36067726 NF
18 F F 0,46397831 NF 0,41253752 F 0,35901649 F
19 F F 0,36793864 NF 0,29888561 NF 0,33722186 F
20 NF NF 0,58008576 NF 0,69114677 F 0,31180138 NF
%MC 30 % 45 % 20 % 30 %

Cuadro 3.15: Tabla de las probabilidades estimadas de no fuga y clasificación de los 10 nuevos clientes.
F=Fuga y NF=No Fuga

Y finalmente este análisis permite comprender que a pesar de que el SVM se considera una caja
negra por no entregar información tangible para la estimación de probabilidades, de igual forma nos
permite la predicción asociada a nuevos clientes, pudiendo ser considerada como metodologı́a para este
estudio.

69
3.6. Comparación de Modelos

Como fue posible concluir en la sección anterior, en todas las metodologı́as se obtienen mode-
los similares en las 3 muestras, de esta forma concluimos que las muestras son representativas de la
población total de clientes, los cuales en nuestro caso corresponden a un perfil de buen cliente. Esto nos
permite realizar la comparación de los modelos obtenidos por las distintas metodologı́as analizando tan
sólo los resultados obtenidos en una de las muestras analizadas, permitiéndonos generalizar los resulta-
dos obtenidos a la población total de clientes. Se considera para esto la primera muestra y sus análisis.

Para realizar la comparación entre las metodologı́as planteadas revisaremos los indicadores tales
como el estadı́stico K-S, Coeficiente de Gini, ı́ndice C y la tasa de mala clasificación para cada modelo
y posteriormente se revisará la curva de ganancia asociada a cada uno de estos. De esta forma podremos
observar cual de los modelos se comporta mejor, analizando posteriormente sus ventajas y desventa-
jas para ası́ optar por el modelo que mejor nos permita predecir la tendencia del cliente. Es importante
mencionar que como las metodologı́as Naı̈ve Bayes y Support Vector Machine nos entregan las probabi-
lidades asociadas a la fuga y no fuga del cliente, se selecciona para el análisis la probabilidad asociada a
la no fuga para ser coherentes con el estudio

En el cuadro 3.16 se encuentran los indicadores antes mencionados, donde claramente se observa la
mejor capacidad de discriminancia (K-S, IV), predicción (Índice C) y de mala clasificación ( % MC) del
modelo SVM con Kernel Gaussiano. Es importante seleccionar un modelo con un K-S mı́nimo de 30 %,
lo cual ocurre unicamente con el modelo antes mencionado, por lo que podemos estar en condiciones de
utilizarlo para la predicción de fuga de clientes. Por otro lado, como era de esperarse, los resultados para
el modelo de regresión logı́stica son similares con el SVM con kernel lineal, ya que ambos se basan en
una estructura lineal. Pero en general los modelos presentan indicadores muy semejantes, resultando el
SVM Gaussiano como nuestra primera alternativa de modelamiento.

K-S GINI Índice C % M.C.


Arbol 21,29 % 22,53 % 61,27 % 37,51 %
Naive Bayes 21,73 % 27,88 % 63,94 % 39,22 %
Logistico 22,00 % 29,42 % 64,71 % 39,53 %
SVM Lineal 20,84 % 27,79 % 63,90 % 39,87 %
SVM Gaussiano 41,86 % 57,04 % 78,52 % 29,36 %

Cuadro 3.16: Tabla comparativa de los modelos implementados para la Predicción de Fuga de Clientes

70
Gráficamente también podemos observar que los modelos se comportan muy similares, a excepción
del SVM Gaussiano, el cual si bien no presenta una curva suavizada, si alcanza mejores resultados.
(Figura 3.12)

Figura 3.12: Gráfico de Ganancias: Comparación de los modelos implementados

Finalmente, se realiza un resumen de las caracterı́sticas de cada metodologı́a, ya que al igual que
los resultados en cuanto al poder de discriminación de cada modelo y el conocimiento de las ventajas y
desventajas de cada uno de ellos al momento de interpretar o implementar, presenta un factor importante
para la toma de decisión del mejor modelo.

En cuanto al modelo logı́stico, el hecho de ser una técnica clásica y ampliamente utilizada posee
la ventaja de ser de fácil implementación en las distintas áreas y empresas de trabajo, permitiendo a su
vez una simple interpretación del modelo, ya que la metodologı́a nos entrega la ponderación que posee
cada variable dentro del este, llevándonos a conocer de manera clara la importancia de cada variable
en relación a la probabilidad estimada y clasificación del cliente en una tendencia de fuga o no fuga.
Además al permitirnos la obtención de las ponderaciones de cada variable, es posible la creación de una
ScoreCard, que consiste en un grupo de las caracterı́ticas determinadas para predecir, en nuestro caso, la
fuga o no fuga de clientes, donde a cada atributo se le asignan puntos basados en un análisis estadı́sticos,
ası́ el puntaje total de un cliente será la suma de los puntajes para cada atributo presente en la ScoreCard.
De esta forma, la toma de decisiones se basará en el puntaje total del cliente, resultando simple crear

71
una segmentación de clientes y una forma estándar de evaluar a estos. Por otro lado, esta metodologı́a
incluye un método de selección de variables, lo cual ayuda a optimizar los recursos computacionales
y a minimizar la cantidad de variables que ingresan al modelo, eliminando aquellas que entreguen un
menor aporte al resultado final. Pero su desventaja es que debido a que es un modelo que forma parte de
los Modelos Lineales Generalizados, asume una linealidad que muchas veces no existe, lo cual lleva a
obtener indicadores más bajos y por lo tanto, una menor capacidad predictiva y/o de discriminación de
los clientes.

Revisando ahora las caracterı́sticas que posee el árbol de clasificación, lo primero que sale a relucir
es su simplicidad, ya que gracias a su representación gráfica permite su utilización a personas que no
poseen grandes conocimientos estadı́sticos, pero el hecho de que sea sensible al algoritmo con el cual
se construye el árbol y de que necesita una gran cantidad de datos, en especial para no tener poca infor-
mación en los nodos terminales, hace que esta metodologı́a no se plantee como la mejor alternativa al
momento de modelar, al menos en este tipo de información, donde los resultados no pueden depender
tanto del individuo que ejecute el modelo, sino de la metodologı́a utilizada, y como muchas veces no se
tiene un fundamento teórico que nos haga decidir cual será el mejor algoritmo dada las caracterı́sticas
las variables, se vuelve una mala alternativa.

En cuanto a Naı̈ve Bayes, nos encontramos con una metodologı́a que nos permite obtener de manera
simple y con un costo computacional mı́nimo, la obtención de probabilidades estimadas que representan
la probabilidad de no fuga de los clientes. Pero la desventaja es que la simplicidad y rapidez se debe
a un supuesto de independencia condicional, que nos lleva a plantear que las variables explicativas o
caracterı́sticas de nuestros clientes son condicionalmente independientes uno del otro dada la Tendencia
de Fuga, lo cual no se asemeja a la realidad.

Y finalmente, en relación a los Support Vector Machines, se pudo comprobar que el costo computa-
cional que requiere es altı́simo, no permitiéndonos trabajar con la base completa de los clientes, ni tam-
poco aumentar el costo C de igual forma en todos los Kernel. Sin embargo esta es una limitante que surge
por no contar con un software especializado en Data Mining. Por otro lado el problema de optimización
juega un rol fundamental en la obtención de los resultados, para lo cual se encuentra programado con
algoritmos de optimización complejos y completos, y ası́ obtener los más óptimos resultados de clasifi-
cación. Una desventaja que presenta esta metodologı́a es que está dentro de lo que se conoce como ”caja
negra”, es decir que a pesar de entregarnos los Multiplicadores de Lagrange, los vectores de soporte, en-
tre otras cosas, no nos permite conocer de manera concreta los resultados internos que se van generando
en el proceso de optimización, sin embargo esto no representa una limitante al momento de predecir, ya

72
que como se muestra en la sección anterior, es posible clasificar a nuevos clientes y obtener su proba-
bilidad asociada, obteniéndose además los mejores resultados, reflejado en sus indicadores y ganancia
observada en la figura 3.12. En cuanto a algunas propiedades interesantes que posee esta metodologı́a se
encuentra el que permite una interpretación gráfica de los conceptos teóricos como separadores lineales
y no lineales, margen, Support Vectors, entre otros, además se puede utilizar la formulación Dual del
problema de optimización para crear una función discriminante no lineal mediante las funciones de Ker-
nel y puede emplearse en bases de datos con valores fuera de rango, dado que este método utiliza sólo
un subconjunto de objetos (los Support Vectors) para construir la función discriminante, lo que evita que
valores extremos determinen la solución encontrada.

En base a los resultados obtenidos en cada modelo, visto a través de la curva de ganancia de cada
modelo (figura 3.12) y sus indicadores, junto con las ventajas y desventajas de cada modelamiento, es
que se selecciona como modelo óptimo al SVM con Kernel Gaussiano y costo C = 10000.

3.7. Análisis del Modelo Seleccionado

En esta sección analizaremos el modelo seleccionado para la predicción de Fuga de Clientes Buenos.
Este modelo corresponde al SVM con Kernel Gaussiano y costo C = 10000, ya que si bien no nos per-
mite obtener las ponderaciones o coeficientes de cada variable, es el modelo con mejor capacidad de
discriminación, lo cual nos permite determinar con mayor seguridad la tendencia que tiene el cliente, lo
cual nos permite continuar con el estudio de la segmentación de estos clientes de acuerdo a su tasa de
fuga, y ası́ posteriormente revisar las posibles pérdidas en montos para la institución financiera causada
por el abandono o fuga del cliente.

Para esto es que realizaremos la agrupación de los clientes de acuerdo a su probabilidad estimada,
donde es importante mencionar que estas representan la probabilidad de que el cliente no presente un
abandono, por lo tanto, obtendremos que mientras más alta sea su probabilidad estimada es menos prob-
able que el cliente se fugue.

73
Se realiza en primera instancia una segmentación de clientes diviéndolos en 10 partes iguales, con-
siderando como variable de agrupación a la probabilidad estimada. Si la segmentación fuese adecuada
se esperarı́a que ha medida que aumenta la probabilidad, aumentara también el odds y disminuyera la
tasa de fuga. En nuestro caso no se logra esta relación de manera perfecta, a causa del segundo y tercer
segmento, es por esto que se decide juntar estos segmentos, obteniéndose lo siguiente:
Casos Porcentaje Porcentaje Acumulado
Rango Clase Fuga No Fuga Total Fuga No Fuga Fuga No Fuga Tasa de Fuga Odds K-S IV GINI
31,18 % 49,37 % 0,40 362 86 448 16,15 % 3,84 % 16,15 % 3,84 % 80,80 % 0,24 12,32 % 34,8 %
49,37 % 49,42 % 0,49 722 174 896 32,22 % 7,76 % 48,37 % 11,60 % 80,58 % 0,24 36,77 % 1,2 % 0,025
49,42 % 49,51 % 0,49 263 186 449 11,74 % 8,30 % 60,11 % 19,90 % 58,57 % 0,71 40,21 % 0,1 % 0,018
49,51 % 49,70 % 0,50 233 215 448 10,40 % 9,59 % 70,50 % 29,50 % 52,01 % 0,92 41,01 % 0,0 % 0,026
49,70 % 50,21 % 0,50 225 223 448 10,04 % 9,95 % 80,54 % 39,45 % 50,22 % 0,99 41,10 % 0,5 % 0,035
50,21 % 50,73 % 0,50 199 250 449 8,88 % 11,16 % 89,42 % 50,60 % 44,32 % 1,26 38,82 % 11,0 % 0,040
50,73 % 50,80 % 0,51 112 336 448 5,00 % 14,99 % 94,42 % 65,60 % 25,00 % 3,00 28,83 % 19,6 % 0,029
50,80 % 50,84 % 0,51 80 368 448 3,57 % 16,42 % 97,99 % 82,02 % 17,86 % 4,60 15,98 % 35,0 % 0,026
50,84 % 68,74 % 0,60 45 403 448 2,01 % 17,98 % 100,00 % 100,00 % 10,04 % 8,96 0,00 % 0,0 % 0,018
2241 2241 4482 100,00 % 100,00 % 50,00 % 1,00 41,10 % 65,6 % 56,5 %

Cuadro 3.17: Tabla de Distribución de casos Fugados y No Fugados según las Probabilidades Estimadas.
Índice C de 78,16 %

Se puede observar que posterior a la segmentación, el modelo se mantiene con un K-S de 41 %,


lo cual nos indica que se mantiene con una discriminancia favorable para predecir la tendencia de los
buenos clientes en relación a la fuga o abandono de la cartera. Cabe mencionar que un modelo de predic-
ción aceptable debe tener como mı́nimo un K-S de 30 %, donde mientras más alto sea, mejor será su
capacidad de separar las muestras, en este caso de Fuga y No Fuga. De manera similar, el coeficiente de
Gini mientras más cercano a 100 % mayor poder de discriminación tendrá el modelo. En este caso se ob-
tuvo un Gini de 56,3 % lo cual corresponde a un poder de discriminación medio. Para apreciar de mejor
forma la relación inversa de la tasa de fuga y el odds, se presenta el gráfico siguiente, donde podemos ver
que si bien los primeros 2 segmentos son similares, la tendencia de disminuir la tasa de fuga a medida
que aumenta la probabilidad se cumple. Cabe mencionar que mientras más pendiente tengan las tasas
de fuga, mejor será la discriminancia del modelo, ya que la diferencia entre la tasa de fuga del primer
segmento será mucho mayor que la del último segmento. Por otro lado, en la figura 3.13 se observan 3
segmentos definidos, los cuales corresponden a los segmentos de clientes con una alta Tasa de Fuga (Ro-
jo), mediana Tasa de Fuga (Naranjo) y baja Tasa de Fuga(Amarillo), de esta forma, es posible cumplir
con el interés de aplicar estrategias de retención adecuadas para cada tipo de cliente.

Para la segmentación de clientes buenos que poseen una Alta Tasa de Fuga, es necesario aplicar
acciones inmediatas, tales como ofrecer tasas más bajas, el aumento de cupo en sus tarjetas, reprogramar
su crédito, contactarse para analizar su satisfacción a través de un ejecutivo, entre otras cosas. En el caso
de la segmentación de clientes con una Mediana Tasa de Fuga, se plantean acciones más a largo plazo,

74
tales como mailing, ofertas comerciales o incluso las mismas acciones del segmento anterior pero no con
un contacto directo. Y en relación al último segmento, más que aplicarse alguna acción en particular,
serı́a importante mantenerlos en observación.

Figura 3.13: Comportamiento de la Tasa de Fuga y Odds según las Probabilidades Estimadas

Complementario a lo anterior, se presenta la figura 3.14, del cual se observa que si la institución
financiera lograse retener aquellos clientes que pertenecen al segmento ”Alta Tasa de Fuga”, estarı́an
reteniendo al 50 % de los clientes con tendencia a la fuga en contraste con un 10 % de clientes sin ten-
dencia de abandono en el mismo segmento, lo cual refleja una buena discriminancia del modelo, en
especial cuando se refiere a este segmento. Si las diferencias en el resto de los segmentos hubiese sido
similar, el modelo presentarı́a mayores valores en sus indicadores. En base a esto podemos pensar que
a pesar de que el modelo no posee un K-S más alto, es capaz de discrimar de manera óptima a aquellos
clientes que requieren de forma inmediata una polı́tica de retención, ya que tienen una alta tasa de fuga.

75
Figura 3.14: Probability Plot, separación de Probabilidades Estimadas para Clientes Fugados y No Fu-
gados

Posteriormente se analizan los saldos adeudados a cierre de mes del total de clientes por cada seg-
mento, para ver que porcentaje de estos proviene de los clientes con tendencia de fuga. En el cuadro 3.18
podemos observar que el 74, 26 % de los saldos totales del primer segmento provienen de los clientes
con una alta tendencia de fuga, lo cual representa la importancia de retenerlos, que como se menciona
anteriormente, son aquellos a los cuales es necesario aplicar politicas comerciales inmediatas. De manera
similar, en el segundo segmento el 43, 97 % de los saldos provienen de los clientes con mediana tasa de
fuga y en el tercer segmento el 17, 58 % de los saldos provienen de los clientes con una baja tendencia
de fuga. Es claro ver que mientras más alta sea la tendencia de abandono, más alto será el saldo asociado
a estos clientes, lo cual es lógico, ya que las instituciones financieras buscan captar buenos clientes que
incrementen sus ingresos, que justamente son aquellos que tienen una mayor deuda y un buen compor-
tamiento financiero.

Segmento Alta Tasa Fuga Segmento Media Tasa Fuga Segmento Baja Tasa Fuga
Saldo Total Clientes 1.617.899.078 1.464.945.727 1.539.679.056
Saldo Clientes con Tendencia de Fuga 1.201.446.687 644.084.072 270.695.046
Saldo Clientes sin Tendencia de Fuga 416.452.391 820.861.655 1.268.984.010
Porcentaje de pérdida 74,26 % 43,97 % 17,58 %

Cuadro 3.18: Segmentos de Clientes en relación a los montos

76
C AP ÍTULO 4

Conclusión

Al finalizar este trabajo se observa que se llevaron a cabo todos los objetivos, pasando desde una
revisión de las metodologı́as en estudio, llegando a la obtención de un modelo óptimo para la predicción
de fuga de los buenos clientes de una cierta Institución Financiera Chilena.

Recordemos que el primer objetivo estaba enfocado a comparar metodologı́as que nos permitier-
an la predicción de fuga de los clientes en una institución financiera. Es por esto que se llevo a cabo
una revisión de los modelos más clásicos como son la Regresión Logı́stica y los Árboles de Decisión,
y una descripción más detallada de Naı̈ve Bayes y Support Vector Machine. En relación a esta últi-
ma, recordemos que esta metodologı́a parte principalmente resolviendo un problema de discriminación,
donde posteriormente debido a los buenos resultados obtenidos se plantea una forma para la estimación
de probabilidades, o más bien, de las probabilidades a posteriori de cada una de las clases, permitiéndonos
enfrentar también el problema desde un enfoque de predicción, tanto el caso lineal como no lineal. Prin-
cipalmente esta técnica se basa en encontrar una división de nuestra población de clientes, donde por un
lado se maximize el margen de separación de las poblaciones y por otro se minimice el error de clasifi-
cación. En relación a Naı̈ve Bayes se observa que es una metodologı́a que se basa en la independencia
condicional entre las variables explicativas dada la variable de interés, lo cual simplifica la obtención de
probabilidades, pero a su vez, el supuesto no hace coherente su aplicación en la mayorı́a de los problemas
de clasificación reales.
Posterior al estudio de las metodologı́as se observaron sus ventajas y desventajas. Entre estas se
observa que el modelo logı́stico, al igual que Naı̈ve Bayes, nos permite obtener las ponderaciones de
cada variable, haciendo simple la interpretación del modelo, de manera similar, una técnica más simple
es el árbol de clasificación, el cual nos entrega reglas de decisión en forma gráfica. Y por el contrario el
modelo SVM no nos permite obtener ningún tipo de coeficiente de las variables, comportándose como

77
una caja negra, pero sin embargo nos permite predecir, que es el objetivo final del modelamiento. Por otro
lado, el modelo de regresión logı́stico presenta una caracterı́stica importante que es la implementación
de un método de selección de variables, seleccionándose sólo aquellas variables que signifiquen un real
aporte para la predicción. Los árboles también presentan esta caracterı́stica, pero no es un método efi-
ciente debido a que depende mucho del algoritmo que se utilice. En relación a los modelos Naı̈ve Bayes
y Support Vector Machine, el primero a pesar de ser simple y sin costo computacional, require tener un
gran número de datos de entrenamiento, en especial cuando se trata de estudios donde el evento de in-
terés es poco común, dada la forma de los estimadores de los parámetros. Y en cuanto al SVM, presentan
un alto costo computacional debido a los algoritmos de optimización que utiliza, pero a su vez presenta
varias alternativas de modelamiento, considerando kernel y costos distintos, dando una gran gama de
opciones para encontrar el mejor modelo y que optimice a su vez el costo.

El segundo objetivo se relaciona directamente con la obtención del mejor modelo para la predicción
de fuga, donde en primera instancia se presenta un problema relacionado con la dimensión de la base
de datos de clientes, lo cual se resuelve tomando 3 muestras aleatorias y revisando si la variabilidad de
la base original es captada por estas muestras. Se pudo concluir de manera favorable, que los modelos
resultantes son similares, a excepción de un caso en los árboles de clasificación, pero no se prestó mayor
atención esto, ya que los otros modelos presentaron una similitud casi perfecta. Una vez resuelto este
problema, se pasa a la comparación de modelos utilizando los resultados de la primera muestra. En el
caso del SVM se seleccionan 2 modelos, el primero entrenado con un kernel lineal y costo de 100 y
el segundo con el kernel gaussiano y un costo de 10000. Es importante mencionar que los costos com-
putacionales no permitieron el modelamiento de ciertas combinaciones de kernel-costo, pero esto no fue
un impedimento para observar las tendencias de estos modelos. La comparación final se realiza entre el
modelo de regresión logı́stica, árbol de clasificación, modelo naı̈ve bayes, SVM lineal con un costo de
penalización de 100 y SVM gaussiano con un costo de 10000, mediante indicadores de discriminancia
tales como el estadı́stico K-S y Coeficiente de Gini, de poder predictivo como el ı́ndice C, revisando
también su tasa de mala clasificación y su curva de ganancia. Se obtuvo que efectivamente uno de los
modelos de SVM es el que presenta mejores caracterı́sticas para la predicción de fuga de clientes, este es
el SVM gaussiano, con un K-S de 41,9 %, Gini de 57 %, un 78,5 % de área bajo la curva y un 29,3 % de
mala clasificación. En relación a los otros modelos, presentan indicadores bastante similares, incluyendo
al SVM lineal, lo cual nos dice que los datos no poseen un comportamiento lineal, favoreciendo al SVM
gaussiano, que incluye una parte no lineal ponderada por el costo C, que en nuestro caso se presenta alto,
coherente con la necesidad del problema.

78
En relación al tercer y último objetivo, asociado a la implementación del modelo de fuga selecciona-
do, no fue posible implementar en la institución financiera el modelo seleccionado como óptimo, debido
a que no se contaba con un software adecuado, no pudiéndose obtener resultados para la población com-
pleta de clientes. Es por esto que para los resultados entregados al banco se utilizó la Regresión Logı́stica,
modelo que se dejo finalmente dentro de la institución como análisis previo para un futuro estudio, de-
bido a que el K-S obtenido se mantenı́a bajo el 30 %. Se plantea para mejorar el modelo logı́stico la
inclusión de otro tipo de variables, con las cuales no se pudo contar ya que la obtención de estas im-
plicaban un costo monetario para la institución. Se plantea además buscar otro criterio de inclusión de
variables, asociado esto con el perfil que se busco modelar.

A pesar de no implementar el modelo en el banco se continua paralelamente con análisis del SVM
debido a sus buenos resultados en la muestra. Los análisis posteriores al modelamiento guardan relación
con la obtención de una segmentación de los clientes y las consecuencias monetarias del abandono en
cada uno de los segmentos, obteniéndose ası́ una agrupación de clientes en un comportamiento de Alta,
Mediana y Baja Tasa de Fuga, considerando que mientras más alta sea la probabilidad estimada, más
baja es la tasa de abandono, lo cual es lógico ya que se está modelando la no fuga de los clientes. Com-
plementario a lo anterior, se observa que si la institución financiera lograse retener a los clientes con una
alta tasa de fuga, estarı́an reteniendo al 50 % de los clientes con tendencia a la fuga y al 10 % de clientes
sin tendencia de abandono en el mismo segmento, lo cual refleja una buena discriminancia del modelo,
al menos en este segmento, ya que estas diferencias no se ocasionan en el resto. Esto nos plantea que
a pesar de que el modelo no posee un K-S más alto, es capaz de discrimar de buena manera a aquellos
clientes que requieren de forma inmediata una polı́tica de retención, correspondientes a los que tienen un
alta tasa de fuga.

Y finalmente se analizan los saldos del total de clientes por cada segmento, para ver que porcenta-
je de estos proviene de los clientes con tendencia de fuga, observándose que el 74, 26 % de los saldos
totales del primer segmento provienen de los clientes con una alta tendencia de fuga, presentando otro
motivo de peso para llevar a cabo el estudio de estos casos para la implementación de polı́ticas eficaces
para su fidelidad. En el caso del segundo segmento, el 43, 97 % de los saldos provienen de los clientes
con mediana tasa de fuga y en el tercer segmento el 17, 58 % de los saldos provienen de los clientes con
una baja tendencia de fuga. Esto nos muestra que mientras más alta sea la tendencia de abandono, más
alto será el saldo asociado a estos clientes, lo cual es lógico, ya que las instituciones financieras buscan
captar buenos clientes que incrementen sus ingresos, que justamente son aquellos que tienen una mayor
deuda y un buen comportamiento financiero.

79
Estudios Futuros

En relación a los estudios futuros, se plantea el continuar con el estudio de los Support Vector
Machines, principalmente enfocando a tres áreas.

Debido a que en los modelos SVM se obtienen un alto número de vectores sobre los hiperplano
canónicos, se plantea como una necesidad futura el estudio de estos modelos, incorporando una
técnica que permita manejar el número de estos vectores de soporte. A esta metodologı́a se le
conoce con el nombre de ν - Support Vector Classification, donde ν es un parámetro de control de
estos vectores y del error de entrenamiento.

Por otro lado, serı́a de interés continuar la investigación de otras técnicas para la predicción de
las probabilidades a posteriori, analizando los supuestos, resultados, ventajas y desventajas de la
utilización de cada una de ellas.

Finalmente es necesaria la búsqueda de métodos de selección de variables que se puedan incorporar


dentro del problema de optimización del SVM.

Y en relación a la continuidad del estudio de la Fuga de Clientes, serı́a interesante determinar la


rentabilidad futura de los Clientes, utilizando por ejemplo, la metodologı́a ”Life Time Value”.

80
A P ÉNDICE A

Anexo

A.1. Conceptos asociados a Support Vector Machine

A.1.1. Concepto de Hiperplano

Un hiperplano se define como una variedad lineal cuya dimensión es una unidad menor que la del
espacio vectorial que la contiene. Por ejemplo, en un espacio de dimensión 1 como una recta, el hiper-
plano corresponde a un punto, el cual divide la recta en dos lı́neas, o en un caso de dimensión 2, tal como
el plano xy, el hiperplano corresponderı́a a una recta, dividiendo el plano en dos mitades.

En el caso de Vapnik, considera la clase de hiperplanos en algún espacio del producto punto
X
H; hw, xi + b = wi x i + b
i
.
Donde propone algoritmos de aprendizaje para problemas que son separables con hiperplanos. De
todos los posibles hiperplanos, existe un óptimo que da el margen de separación más grande entre
cualquier punto de entrenamiento.

A.1.2. Espacio de Hilbert

Corresponde a una generalización del espacio euclidiano. Este generalización permite que nociones
técnicas algebraicas y geométricas aplicables a espacios de dimensión 2 y 3 se extiendan a una dimen-
sión arbitraria, incluyendo a espacios de dimensión infinita. Todos los espacios finito-dimensionales con
producto interno (tales como el espacio euclı́deo) con el producto escalar ordinario) son espacios Hilbert.

81
A.1.3. Condiciones Karush-Kuhn-Tucker (KKT)

Las condiciones de optimalidad de Karush-Kuhn-Tucker buscan garantizar la existencia de una solu-


ción óptima para problemas de programación no-lineal y corresponden a

∂L ∂f (x̄) Pm ∂g (x̄)
= + j=1 µj j ≥ 0 ∀i = 1, . . . , n
∂xi ∂xi ∂xi
∂f (x̄) Pm ∂g (x̄)
x̄i ∂L = x̄i + j=1 µj j = 0 ∀i = 1, . . . , n
∂xi ∂xi ∂xi
x̄i ≥0 ∀i = 1, . . . , n
∂L
∂µj = gj (x̄) − bj ≤ 0 ∀j = 1, . . . , m
∂L
x̄i ∂µ j
= x̄i (gj (x̄) − bj ) =0 ∀j = 1, . . . , m
µj ≥0 ∀j = 1, . . . , m
donde f (x) y gj (x) son funciones diferenciables que satisfacen ciertas condiciones de regularidad.

Estas son condiciones necesarias y sólo garantizan optimalidad global si se cumplen además condi-
ciones de convexidad en f (x) y gj (x).

82
A.2. Estadı́stica Descriptiva: Aplicación a los clientes de la Institución Fi-
nanciera

A.2.1. Análisis Muestra Balanceada

El análisis descriptivo de las variables explicativas se presentan a continuación:

Caracterı́stica: V1
Casos Porcentaje Porcentaje Acumulado Indicadores
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 173 113 286 7,72 % 5,04 % 7,72 % 5,04 % 39,51 % 2,68 % 1,14 %
2 c2 801 632 1.433 35,74 % 28,20 % 43,46 % 33,24 % 44,10 % 10,22 % 1,79 %
3 c3 1.267 1.496 2.763 56,54 % 66,76 % 100,00 % 100,00 % 54,14 % 0,00 % 1,70 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 10,22 % 4,63 %

Caracterı́stica: V2
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 33 16 49 1,47 % 0,71 % 1,47 % 0,71 % 32,65 % 0,76 % 0,55 %
1 c1 929 580 1.509 41,45 % 25,88 % 42,93 % 26,60 % 38,44 % 16,33 % 7,34 %
2 c2 798 895 1.693 35,61 % 39,94 % 78,54 % 66,53 % 52,86 % 12,00 % 0,50 %
3 c3 481 750 1.231 21,46 % 33,47 % 100,00 % 100,00 % 60,93 % 0,00 % 5,33 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 16,33 % 13,71 %
Caracterı́stica: V3
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 690 872 1.562 30,79 % 38,91 % 30,79 % 38,91 % 55,83 % 8,12 % 1,90 %
2 c2 1.551 1.369 2.920 69,21 % 61,09 % 100,00 % 100,00 % 46,88 % 0,00 % 1,01 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 8,12 % 2,91 %

Caracterı́stica: V4
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 33 16 49 1,47 % 0,71 % 1,47 % 0,71 % 32,65 % 0,76 % 0,55 %
1 c1 1.383 1.160 2.543 61,71 % 51,76 % 63,19 % 52,48 % 45,62 % 10,71 % 1,75 %
2 c2 825 1.065 1.890 36,81 % 47,52 % 100,00 % 100,00 % 56,35 % 0,00 % 2,73 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 10,71 % 5,03 %

83
Caracterı́stica: V5
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 1.637 1.769 3.406 73,05 % 78,94 % 73,05 % 78,94 % 51,94 % 5,89 % 0,46 %
2 c2 604 472 1.076 26,95 % 21,06 % 100,00 % 100,00 % 43,87 % 0,00 % 1,45 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 5,89 % 1,91 %

Caracterı́stica: V6
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 2.067 2.148 4.215 92,24 % 95,85 % 92,24 % 95,85 % 50,96 % 3,61 % 0,14 %
2 c2 174 93 267 7,76 % 4,15 % 100,00 % 100,00 % 34,83 % 0,00 % 2,26 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 3,61 % 2,40 %

Caracterı́stica: V7
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 148 220 368 6,60 % 9,82 % 6,60 % 9,82 % 59,78 % 3,21 % 1,27 %
2 c2 1.727 1.771 3.498 77,06 % 79,03 % 83,67 % 88,84 % 50,63 % 5,18 % 0,05 %
3 c3 366 250 616 16,33 % 11,16 % 100,00 % 100,00 % 40,58 % 0,00 % 1,97 %
2.241 2.241 4.114 100,00 % 100,00 % 50,00 % 5,18 % 3,30 %

Caracterı́stica: V8
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 33 16 49 1,47 % 0,71 % 1,47 % 0,71 % 32,65 % 0,76 % 0,55 %
1 c1 869 621 1.490 38,78 % 27,71 % 40,25 % 28,42 % 41,68 % 11,83 % 3,72 %
2 c2 691 760 1.451 30,83 % 33,91 % 71,08 % 62,34 % 52,38 % 8,75 % 0,29 %
3 c3 648 844 1.492 28,92 % 37,66 % 100,00 % 100,00 % 56,57 % 0,00 % 2,31 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 11,83 % 6,87 %

Caracterı́stica: V9
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 471 631 1.102 21,02 % 28,16 % 21,02 % 28,16 % 57,26 % 7,14 % 2,09 %
2 c2 1.160 1.080 2.240 51,76 % 48,19 % 72,78 % 76,35 % 48,21 % 3,57 % 0,26 %
3 c3 610 530 1.140 27,22 % 23,65 % 100,00 % 100,00 % 46,49 % 0,00 % 0,50 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 7,14 % 2,84 %

Caracterı́stica: V10
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 19 12 31 0,85 % 0,54 % 0,85 % 0,54 % 38,71 % 0,31 % 0,14 %
1 c1 513 773 1.286 22,89 % 34,49 % 23,74 % 35,03 % 60,11 % 11,29 % 4,76 %
2 c2 555 614 1.169 24,77 % 27,40 % 48,51 % 62,43 % 52,52 % 13,92 % 0,27 %
3 c3 476 460 936 21,24 % 20,53 % 69,75 % 82,95 % 49,15 % 13,21 % 0,02 %
4 c4 678 382 1.060 30,25 % 17,05 % 100,00 % 100,00 % 36,04 % 0,00 % 7,58 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 13,92 % 12,77 %

Caracterı́stica: V11 1
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 818 636 1.454 36,50 % 28,38 % 36,50 % 28,38 % 43,74 % 8,12 % 2,04 %
2 c2 747 780 1.527 33,33 % 34,81 % 69,83 % 63,19 % 51,08 % 6,65 % 0,06 %
3 c3 676 825 1.501 30,17 % 36,81 % 100,00 % 100,00 % 54,96 % 0,00 % 1,32 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 8,12 % 3,43 %

Caracterı́stica: V12
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 369 265 634 16,47 % 11,83 % 16,47 % 11,83 % 41,80 % 4,64 % 1,54 %
-1 c1 172 198 370 7,68 % 8,84 % 24,14 % 20,66 % 53,51 % 3,48 % 0,16 %
0 c2 1.118 983 2.101 49,89 % 43,86 % 74,03 % 64,52 % 46,79 % 9,50 % 0,78 %
1 c3 582 795 1.377 25,97 % 35,48 % 100,00 % 100,00 % 57,73 % 0,00 % 2,96 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 9,50 % 5,44 %

84
Caracterı́stica: V13
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 205 130 335 9,15 % 5,80 % 9,15 % 5,80 % 38,81 % 3,35 % 1,52 %
0 c1 1.851 1.940 3.791 82,60 % 86,57 % 91,74 % 92,37 % 51,17 % 0,62 % 0,19 %
1 c2 185 171 356 8,26 % 7,63 % 100,00 % 100,00 % 48,03 % 0,00 % 0,05 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 3,35 % 1,76 %

Caracterı́stica: V14
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 422 546 968 18,83 % 24,36 % 18,83 % 24,36 % 56,40 % 5,53 % 1,43 %
2 c2 1.783 1.676 3.459 79,56 % 74,79 % 98,39 % 99,15 % 48,45 % 0,76 % 0,30 %
No Calculable cnc 3 3 6 0,13 % 0,13 % 98,53 % 99,29 % 50,00 % 0,76 % 0,00 %
NA cna 33 16 49 1,47 % 0,71 % 100,00 % 100,00 % 32,65 % 0,00 % 0,55 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 5,53 % 2,27 %

Caracterı́stica: V15
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 1 - 1 0,04 % 0,00 % 0,04 % 0,00 % 0,00 % 0,04 %
1 c1 453 650 1.103 20,21 % 29,00 % 20,26 % 29,00 % 58,93 % 8,75 % 3,17 %
2 c2 542 579 1.121 24,19 % 25,84 % 44,44 % 54,84 % 51,65 % 10,40 % 0,11 %
NA cna 1.245 1.012 2.257 55,56 % 45,16 % 100,00 % 100,00 % 44,84 % 0,00 % 2,15 %
2.241 2.241 2.225 100,00 % 100,00 % 50,00 % 10,40 % 3,28 %

A.2.2. Análisis Muestra Completa


Caracterı́stica: V1
Casos Porcentaje Porcentaje Acumulado Indicadores
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 10.972 113 11.085 7,13 % 5,04 % 7,13 % 5,04 % 1,02 % 2,09 % 0,73 %
2 c2 53.623 634 54.257 34,87 % 28,29 % 42,00 % 33,33 % 1,17 % 8,67 % 1,37 %
3 c3 89.201 1.494 90.695 58,00 % 66,67 % 100,00 % 100,00 % 1,65 % 0,00 % 1,21 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 8,67 % 3,31 %

Caracterı́stica: V2
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 1.748 16 1.764 1,14 % 0,71 % 1,14 % 0,71 % 0,91 % 0,42 % 0,20 %
1 c1 61.411 576 61.987 39,93 % 25,70 % 41,07 % 26,42 % 0,93 % 14,65 % 6,27 %
2 c2 54.175 897 55.072 35,23 % 40,03 % 76,29 % 66,44 % 1,63 % 9,85 % 0,61 %
3 c3 36.462 752 37.214 23,71 % 33,56 % 100,00 % 100,00 % 2,02 % 0,00 % 3,42 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 14,65 % 10,50 %

Caracterı́stica: V5
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 113.874 1.769 115.643 74,04 % 78,94 % 74,04 % 78,94 % 1,53 % 4,90 % 0,31 %
2 c2 39.922 472 40.394 25,96 % 21,06 % 100,00 % 100,00 % 1,17 % 0,00 % 1,02 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 4,90 % 1,34 %

Caracterı́stica: V6
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 143.768 2.154 145.922 93,48 % 96,12 % 93,48 % 96,12 % 1,48 % 2,64 % 0,07 %
2 c2 10.028 87 10.115 6,52 % 3,88 % 100,00 % 100,00 % 0,86 % 0,00 % 1,37 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 2,64 % 1,44 %

85
Caracterı́stica: V7
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 10.262 223 10.485 6,67 % 9,95 % 6,67 % 9,95 % 2,13 % 3,28 % 1,31 %
2 c2 119.032 1.770 120.802 77,40 % 78,98 % 84,07 % 88,93 % 1,47 % 4,87 % 0,03 %
3 c3 24.502 248 24.750 15,93 % 11,07 % 100,00 % 100,00 % 1,00 % 0,00 % 1,77 %
153.796 2.241 145.552 100,00 % 100,00 % 1,44 % 4,87 % 3,12 %

Caracterı́stica: V9
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 32.493 619 33.112 21,13 % 27,62 % 21,13 % 27,62 % 1,87 % 6,49 % 1,74 %
2 c2 79.650 1.083 80.733 51,79 % 48,33 % 72,92 % 75,95 % 1,34 % 3,03 % 0,24 %
3 c3 41.653 539 42.192 27,08 % 24,05 % 100,00 % 100,00 % 1,28 % 0,00 % 0,36 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 6,49 % 2,34 %

Caracterı́stica: V10
Porcentaje % Acumulado
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
NA cna 2.803 29 2.832 1,82 % 1,29 % 1,82 % 1,29 % 1,02 % 0,53 % 0,18 %
1 c1 37.650 758 38.408 24,48 % 33,82 % 26,30 % 35,12 % 1,97 % 8,82 % 3,02 %
2 c2 35.713 613 36.326 23,22 % 27,35 % 49,52 % 62,47 % 1,69 % 12,95 % 0,68 %
3 c3 32.310 456 32.766 21,01 % 20,35 % 70,53 % 82,82 % 1,39 % 12,29 % 0,02 %
4 c4 45.320 385 45.705 29,47 % 17,18 % 100,00 % 100,00 % 0,84 % 0,00 % 6,63 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 12,95 % 10,53 %

A.3. Intervalos de Confianza del 95 % de coeficientes del Modelo Logı́stico

Variables V1 c1 V1 c3 V2 cna V2 c1 V2 c3 V5 c2 V6 c2
Base Completa Lim. Inferior 0,873 0,711 1,033 1,268 0,774 0,897 1,146
Lim. Superior 1,308 0,864 2,828 1,637 0,951 1,106 1,524
Muestra 1 Lim. Inferior 0,827 0,614 1,278 1,217 0,676 0,728 1,062
Lim. Superior 1,417 0,808 4,493 1,729 0,932 1,001 1,557
Muestra 2 Lim. Inferior 0,831 0,607 1,305 1,223 0,701 0,724 1,064
Lim. Superior 1,431 0,799 4,585 1,736 0,966 0,994 1,559
Muestra 3 Lim. Inferior 0,797 0,623 0,988 1,375 0,760 0,843 1,034
Lim. Superior 1,362 0,820 3,572 1,960 1,043 1,156 1,518

Cuadro A.1: Intervalo de Confianza 95, 0 % para EXP(B)

86
Variables V7 c1 V7 c3 V9 c1 V9 c3 V10 c1 V10 c4
Base Completa Lim. Inferior 1,079 1,512 0,678 0,940 0,738 1,323
Lim. Superior 1,333 2,331 0,840 1,164 0,985 1,733
Muestra 1 Lim. Inferior 1,111 1,737 0,571 0,883 0,722 1,362
Lim. Superior 1,495 2,984 0,792 1,198 1,140 1,961
Muestra 2 Lim. Inferior 1,100 1,715 0,571 0,881 0,707 1,357
Lim. Superior 1,480 2,957 0,792 1,193 1,117 1,951
Muestra 3 Lim. Inferior 1,085 1,680 0,629 0,951 0,768 1,389
Lim. Superior 1,463 2,930 0,872 1,285 1,196 1,993

Cuadro A.2: Intervalo de Confianza 95, 0 % para EXP(B)

A.4. Probabilidades asociadas a Naı̈ve Bayes

Se presentan a continuación las probabilidades estimadas para las variables V1 , V2 , V7 , V9 y V10 .

Fuga No Fuga
Muestra 1 1 0,04997769 0,07719768
2 0,28201696 0,35742972
3 0,66800535 0,5653726
Muestra 2 1 0,048639 0,07585899
2 0,2811245 0,35787595
3 0,6702365 0,56626506
Muestra 3 1 0,04997769 0,07719768
2 0,28201696 0,35742972
3 0,66800535 0,5653726

Cuadro A.3: Probabilidades estimadas de la Variable V1

87
Fuga No Fuga
Muestra 1 1 0,00713967 0,01472557
2 0,25881303 0,41454708
3 0,39937528 0,35609103
4 0,33467202 0,21463632
Muestra 2 1 0,00713967 0,01472557
2 0,25792057 0,41231593
3 0,40562249 0,35832218
4 0,32931727 0,21463632
Muestra 3 1 0,00713967 0,01204819
2 0,25702811 0,41900937
3 0,40026774 0,33199465
4 0,33556448 0,23694779

Cuadro A.4: Probabilidades estimadas de la Variable V2

Fuga No Fuga
Muestra 1 1 0,09817046 0,06604195
2 0,7902722 0,77063811
3 0,11155734 0,16331995
Muestra 2 1 0,09950915 0,06559572
2 0,78804105 0,77063811
3 0,1124498 0,16376618
Muestra 3 1 0,09950915 0,07228916
2 0,78982597 0,75814369
3 0,11066488 0,16956716

Cuadro A.5: Probabilidades estimadas de la Variable V7

88
Fuga No Fuga
Muestra 1 1 0,2815707 0,210174
2 0,4819277 0,5176261
3 0,2365016 0,2721999
Muestra 2 1 0,2806783 0,2092816
2 0,480589 0,5162874
3 0,2387327 0,2744311
Muestra 3 1 0,276216 0,2168675
2 0,4832664 0,4988844
3 0,2405176 0,2842481

Cuadro A.6: Probabilidades estimadas de la Variable V9

Fuga No Fuga
Muestra 1 1 0,00535475 0,00847836
2 0,3449353 0,22891566
3 0,27398483 0,2476573
4 0,20526551 0,21240518
5 0,17045962 0,30254351
Muestra 2 1 0,00580098 0,00803213
2 0,34448907 0,22891566
3 0,27264614 0,24810353
4 0,20571174 0,21195895
5 0,17135208 0,30298974
Muestra 3 1 0,01294065 0,02231147
2 0,33824186 0,23873271
3 0,2735386 0,22356091
4 0,20348059 0,21642124
5 0,1717983 0,29897367

Cuadro A.7: Probabilidades estimadas de la Variable V10

89
A.5. Tablas comparativas de Support Vector Machine

VARIABLES CONTINUAS
C K-S %MC Número de VS
Kernel Lineal 1 20,7 % 41,18 % 3.954
10 20,8 % 41,20 % 3.953
100 20,8 % 41,18 % 3.954
1.000 20,7 % 41,18 % 3.856
10.000 20,7 % 41,03 % 3.853
Kernel Gaussiano 1 29,0 % 38,10 % 3.657
10 31,0 % 34,13 % 3.532
100 35,2 % 33,06 % 3.471
1.000 37,3 % 31,48 % 3.425
10.000 41,7 % 29,83 % 3.339

Cuadro A.8: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 2

VARIABLES DISCRETAS
C K-S %MC Número de VS
Kernel Lineal 1 20,5 % 40,04 % 3.837
10 20,4 % 40,45 % 3.848
100 20,9 % 40,09 % 3.848
1000 COSTO COMPUTACIONAL MUY ALTO
10000 COSTO COMPUTACIONAL MUY ALTO
Kernel Gaussiano 1 25,3 % 37,63 % 3.663
10 28,4 % 35,85 % 3.593
100 30,4 % 35,00 % 3.536
1000 31,7 % 34,20 % 3.493
10000 32,0 % 33,98 % 3.472

Cuadro A.9: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 2

90
VARIABLES DUMMY
C K-S %MC Número de VS
Kernel Lineal 1 20,0 % 41,03 % 3.778
10 20,3 % 41,03 % 3.811
100 19,9 % 41,03 % 3.796
1000 COSTO COMPUTACIONAL MUY ALTO
10000 COSTO COMPUTACIONAL MUY ALTO
Kernel Gaussiano 1 26,5 % 36,92 % 3.633
10 29,0 % 35,54 % 3.511
100 29,9 % 35,07 % 3.440
1000 29,9 % 35,07 % 3.437
10000 29,9 % 35,07 % 3.425

Cuadro A.10: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 2

VARIABLES CONTINUAS
C K-S %MC Número de VS
Kernel Lineal 1 20,5 % 42,79 % 4.026
10 20,7 % 42,86 % 4.027
100 20,7 % 42,86 % 4.027
1.000 20,8 % 42,86 % 4.025
10.000 20,5 % 42,92 % 4.025
Kernel Gaussiano 1 31,0 % 34,71 % 3.556
10 36,3 % 32,19 % 3.434
100 39,4 % 30,76 % 3.332
1.000 42,0 % 29,67 % 3.230
10.000 45,6 % 27,51 % 3.139

Cuadro A.11: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 3

91
VARIABLES DISCRETAS
C K-S %MC Número de VS
Kernel Lineal 1 19,6 % 40,74 % 3.885
10 19,5 % 40,74 % 3.898
100 19,5 % 40,74 % 3.883
1000 COSTO COMPUTACIONAL MUY ALTO
10000 COSTO COMPUTACIONAL MUY ALTO
Kernel Gaussiano 1 24,6 % 38,17 % 3.709
10 27,6 % 36,76 % 3.631
100 29,5 % 35,36 % 3.593
1000 30,7 % 34,64 % 3.524
10000 31,1 % 34,44 % 3.482

Cuadro A.12: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 3

VARIABLES DUMMY
C K-S %MC Número de VS
Kernel Lineal 1 19,7 % 40,89 % 3.772
10 19,2 % 40,89 % 3.800
100 19,2 % 40,89 % 3.779
1000 COSTO COMPUTACIONAL MUY ALTO
10000 COSTO COMPUTACIONAL MUY ALTO
Kernel Gaussiano 1 24,9 % 37,66 % 3.629
10 28,0 % 36,07 % 3.514
100 29,0 % 35,49 % 3.442
1000 29,0 % 35,49 % 3.439
10000 29,0 % 35,49 % 3.417

Cuadro A.13: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 3

92
A.6. Programa para Naı̈ve Bayes y SVM

xxxxxxxxxxxxxxxxxxxxxxxxx LIBRERIAS xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

library(e1071) //* Naive Bayes *//


library(kernlab) //* SVM *//

xxxxxxxxxxxxxxxxxxxxxxxx ADJUNTAR LOS DATOS xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx


M1 = read.csv(”NombreArchivo.csv”, header=T, sep=”;”,dec=”,”)
attach(M1)
names(M1)

xxxxxxxxxxxxxxxxxxxxxxxx SUPPORT VECTOR MACHINE xxxxxxxxxxxxxxxxxxxxxxxxx


xxxxxxxxxxxxxxxxxxxxxxxxx KERNEL GAUSSIANO xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

C=1
modelo10 = ksvm(DEP ., data=baseSVM.Ma, type = ”C-svc”, kernel = rbfdot”, C = 1,
prob.model = TRUE)
modelo10
prob10=predict(modelo10,baseSVM.Ma,type=”probabilities”)
p10=prob10[,2] //* Considero No Fuga*//
boxplot(p10 DEP, xlab=”No Fuga”, ylab=”Probabilidades Estimadas”, names=c(”Fuga”,”No Fuga”),
col=c(”green”,”blue”),main=,”Boxplot: Modelo SVM Kernel Gaussiano”,sub=”C=10”)

xxxxxxxxxxxxxxxxxxxxxxxxxxx KERNEL LINEAL xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

C=1
modelo20 = ksvm(DEP ., data=baseSVM.M1, type = ”C-svc”, kernel = ”vanilladot”, C = 1,
prob.model = TRUE)
modelo20
prob20=predict(modelo20,baseSVM.M1,type=”probabilities”)
p20=prob20[,2] //* Considero No Fuga*//
boxplot(p20 DEP, xlab=”No Fuga”, ylab=”Probabilidades Estimadas”, names=c(”Fuga”,”No Fuga”),
col=c(”green”,”blue”), main=,”Boxplot: Modelo SVM Kernel Gaussiano”,sub=”C=1”)

93
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx NAIVE BAYES xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

//* INGRESANDO TODAS LAS VARIABLES CATEGORICAS *//

modeloNB=naiveBayes(dep .,data=baseSVM.Ma)
modeloNB

//* PROBABILIDAD ESTIMADA *//


probabilidad=predict(modeloNB,baseSVM.Ma[,-1],type=raw”)
summary(probabilidad)
pNB=probabilidad[,2] //* Considero No Fuga *//

//* CLASIFICACION DE LAS OBSERVACIONES *//

prob=predict(modeloNB,baseSVM.Ma[,-1])
clas1=table(prob, dep)
tasa.aciertoaNB=(clas1[1,1]+clas1[2,2])/sum(clas1)
tasa.aciertoaNB

94
Bibliografı́a

[1] Daemont Quest (2005). ’Churn’: Cómo reducir el abandono de Clientes. The Marketing Intelli-
gence Review.

[2] Daemont Quest (2004). Prevention and Retention, Strategies Report Churn. The Marketing Intelli-
gence Review.

[3] Breiman; Friedman; Olshen; Stone. (1984). Classification an Regression Trees. Wodsworth.

[4] Hothorn, T.; Hornik, K.; Zeisleis, A. Party: A laboratory for recursive Partitioning.

[5] Hosmer, DW. ; Lemeshow, S. (2000). Applied Logistic Regression. John Wiley & Sons (2nd edi-
tion). New York.

[6] Zhang, H., The Optimaly of Naı̈ve Bayes. Faculty of Computer Science. University of New
Brunswick. Canada.

[7] Ng, A. Y.; Jordan, M. I. On Discriminative v/s Generative Classifiers: A Comparison of Logistic
Regression and Naı̈ve Bayes.

[8] Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. (2008). A Practical Guide to Support Vector Classificaction.
National Taiwan University. Taiwan.

[9] Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. (2008). Decomposition Method for Linear Support Vector
Machines. National Taiwan University. Taiwan.

[10] Burges, C. (2000). A Tutorial on Support Vector Machines for Pattern Recognition. Bell Laborato-
ries.

95
[11] Mangasarian, O. L.; Musicant, D. (2001). Lagrangian Support Vector Machines. Journal of Ma-
chine Learning Research 1.

[12] Claeskens, G.; Croux, C.; Van Kerckhoven, J. (2008). An Information Criterion for Variable Selec-
cion in Support Vector Machines. Journal of Machine Learning Research 9.

[13] Platt, J. C. (1999). Probabilistic Outputs for Support Vector Machines and Comparisons to Regu-
larized Likelihood Methods. Microsoft Research.

[14] Hastie, T.; Tibshirani, R. Classification by Pairwise Coupling, University of Toronto.

[15] Wahba, G. (1999). Advances in Kernel Methods - Support Vector Learning. 69-88. Cambrifge. MA.

[16] Karatzoplan, A.; Meyer, D.; Hormik, K. (2006). Support Vector Machine in R. Journal of Statistical
Software (vol. 15).

[17] Vapnik, V. N. (1999). The Nature of Statistical Learning Theory (Second edition).

[18] Mitchell, T. M. (2006). Machine Learning (Chapter 1).

[19] Alarcón, S. M. (2007). Utilización de Support Vector Machine no Lineal y Selección de Atributos
para Credit Scoring. Tesis para optar al grado de magı́ster en gestión de operaciones. Santiago:
Universidad de Chile, Facultad de Ciencias Fı́sicas y Matemáticas, Departamento de Ingenierı́a
Industrial.

[20] Seebach, C. (2006). Condiciones de KKT(Clase 15). Chile: Pontificia Universidad Católica. Escuela
de Ingenierı́a. Departamento de Ingenierı́a Industrial y Sistemas.

96

También podría gustarte