Tesis Metodos Parametricos y No Parametricos para Prediccion de Fuga de Clientes

Universidad de Santiago de Chile
Facultad de Ciencias
Departamento de Matemática y C.C.
Ingenierı́a Estadı́stica
Seminario de Tesis
Métodos Paramétricos y No
Paramétricos para Predicción de Fuga
de Clientes
Alumna:
Pamela Meléndez T.
Profesor Guı́a:
Mg. Reinaldo González S.
Profesores de Comisión:
Dra. Claudia Matus
Dr. Claudio Beltrán
Mg. Pamela Dı́az
Índice general
1. Introducción 3
1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Teorı́a de Modelos de Predicción 6

2.1. Árboles de Decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Naı̈ve Bayes para atributos discretos . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2. Naı̈ve Bayes para atributos continuos . . . . . . . . . . . . . . . . . . . . . . . 15
2.4. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1. Caso Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. Caso No Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Comparación de las metodologı́as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.1. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.2. Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6.3. Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6.4. Árbol de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.5. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6.6. Comparación de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1
3. Análisis de Predicción de Fuga de Clientes 44
3.1. Descripción del Estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2. Descripción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4. Modelos Ajustados a los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.1. Selección de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2. Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.3. Árboles de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.4. Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.5. Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5. Predicción de Nuevos Clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.6. Comparación de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.7. Análisis del Modelo Seleccionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4. Conclusión 77
A. Anexo 81
A.1. Conceptos asociados a Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . 81
A.1.1. Concepto de Hiperplano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.1.2. Espacio de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.1.3. Condiciones Karush-Kuhn-Tucker (KKT) . . . . . . . . . . . . . . . . . . . . . 82
A.2. Estadı́stica Descriptiva: Aplicación a los clientes de la Institución Financiera . . . . . . . 83
A.2.1. Análisis Muestra Balanceada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
A.2.2. Análisis Muestra Completa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.3. Intervalos de Confianza del 95 % de coeficientes del Modelo Logı́stico . . . . . . . . . . 86
A.4. Probabilidades asociadas a Naı̈ve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.5. Tablas comparativas de Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . 90
A.6. Programa para Naı̈ve Bayes y SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2
C AP ÍTULO 1
Introducción
En tiempos de crisis, toda persona tiene por objetivo principal cuidar su dinero, lo cual se traduce en
la búsqueda de las mejores alternativas financieras, por ejemplo al pedir préstamos, créditos hipotecarios
o cuentas corriente se buscan las mejores tasas de interés o alternativas de pago entre otros factores.
Es por esto que la competencia a nivel de las empresas, en particular en las instituciones financieras,
se ha ido incrementando cada vez más, con el fin de mantener a sus buenos clientes y por otro lado,
el atraer a nuevos clientes que les generen un aporte a su economı́a y estabilidad en estos momentos,
también de crisis para las instituciones. Es lógico pensar que aquellos clientes que se busca captar serán
los mismos que las otras instituciones buscan retener, ya que corresponden a sus activos más importantes.
En la banca chilena esto se ha traducido en que los últimos años no han sido fáciles, desde 1997 a
Junio del 2008 se alejaron de la industria 824 mil deudores, representando en Junio del 2008 a casi al
22 % del total de clientes. Esta disminución se le atribuye principalmente en el sector ”personas” a la
crisis y al mayor desempleo. Se suma además la dura competencia que han dado las casas comerciales
al desarrollar el negocio de consumo personal, ya que ofrecen un atractivo crédito, en especial para per-
sonas con menores recursos o de mayor riesgo financiero.
Dentro de este contexto, las instituciones han planteado la búsqueda de estrategias, de modo de poder
obtener la mayor información sobre el comportamiento de sus clientes, no permitiéndose dejar escapar a
ningún cliente rentable. Recordemos la cartera de clientes es uno de los activos más importantes para una
institución financiera, ya que está estrechamente relacionada con las utilidades del negocio. Dentro de
las estrategias que se aplican para mejorar y mantener dicha cartera son la captación de clientes nuevos
y la retención de clientes existentes respectivamente, siendo la primera enfocada al aumento de clientes
mediante la definición e incorporación de nuevos segmentos objetivos, mientras la segunda, consiste en
3
la identificación de clientes con mayores tendencias a la fuga y en la determinación de estrategias que
aumente el grado de fidelización con el fin de disminuir los ı́ndices de abandono o de fuga en la cartera,
donde, las tasas de fuga de clientes en la banca y seguros oscila entre el 7 % y el 18 % [1] . Es importante
mencionar que no es viable remediar la fuga de clientes con una mayor captación de clientes nuevos.
Por un lado, los clientes nuevos son potencialmente riesgosos para la institución y por otro lado, estudios
demuestran que retener a un cliente cuesta entre cinco y quince veces menos que captar a uno nuevo [2].
Considerando el alto valor de identificar a un cliente con tendencia de fuga, es importante crear una
segmentación de los clientes en relación a su calidad y tasa de abandono, priorizándo aquellos clientes de
valor para desarrollar planes especı́ficos de vinculación y fidelización, decidiendo que canales y esfuerzo
comercial se asignará a cada cliente, para no dedicar recursos innecesarios sabiendo que los presupuestos
no son ilimitados.
El prevenir el riesgo de abandono es de importancia y tiene sus beneficios, ya que no sólo puede
traducirse en términos de rendimiento económico e incremento de ingresos, sino también en concepto
de mejora del gasto y optimización de los recursos disponibles, lo cual justifica el desarrollo de modelos
sofisticados para la predicción de fuga.
Para el planteamiento de modelos que nos permitan predecir la fuga de los clientes, es necesario
considerar que el objetivo principal de los modelos de clasificación o predicción se centra en estimar una
función que permita ajustar con la máxima exactitud posible las observaciones de la muestra, de mane-
ra que el error incurrido en la predicción sea el mı́nimo. Dependiendo de si la forma funcional f (x) es
conocida o desconocida, estaremos frente ante modelos paramétricos y no paramétricos respectivamente.
Desde el punto de vista de un problema de clasificación financiero, se tendrá un conjunto de observa-

ciones cuya pertenencia a una determinada clase es conocida a priori, en nuestro caso de fuga o no fuga,
donde se trata de encontrar una regla que permita clasificar nuevos clientes para los cuales se desconoce
la clase a la cual pertenece.
De esta forma, la motivación de este seminario de tesis, parte del interés de modelar un problema de
importancia para las instituciones financieras el cual corresponde a la fuga de clientes, utilizando mo-
delos de predicción paramétricos y no paramétricos, de forma de considerar distintas metodologı́as para
obtener el mejor resultado dadas la caracterı́sticas del estudio. Las metodologı́as seleccionadas para el
análisis corresponden a Árboles de Clasificación, Regresión Logı́stica, Support Vector Machine y Näive
Bayes, permitiéndonos comparar la efectividad y robustez de las técnicas antes mencionadas.
4
El informe está estructurado de la siguiente forma: a continuación se plantean los objetivos del
proyecto de tı́tulo, para luego dar paso en el capı́tulo 2 a la descripción de las metodologı́as propues-
tas junto con el desarrollo de un ejemplo para la mejor comprensión de estas. Posteriormente se inten-
tará dar resolución al problema de predicción de la institución financiera, abordado en el capı́tulo 3,
donde también se presenta un análisis posterior al modelamiento, el cual busca una segmentación de
los clientes a través de los resultados del modelo y una revisión de los saldos asociados a los clientes
con tendencia a la fuga. Finalmente, en el capı́tulo 4 se presentarán las conclusiones del estudio, tanto de
la parte teórica como de la implementación y resultados de los modelos de predicción de fuga de clientes.
1.1. Objetivos
A continuación se presentan los objetivos del proyecto de tesis.
1.1.1. Objetivo General
El objetivo de esta tesis consiste en estudiar la capacidad predictiva de algunos modelos es-
tadı́sticos binarios aplicados al estudio de la tendencia de fuga de los clientes de una Institución Fi-
nanciera Chilena, realizando para ello un análisis comparativo entre los modelos que se plantean. Con
esto se pretende obtener una técnica que determine de manera más precisa cual será el comportamiento
de los clientes en relación a la fuga.
1.1.2. Objetivos Especı́ficos
Comparar distintas metodologı́as de predicción basadas tanto en el análisis clásico (Regresión

Logı́stica y Árboles de Clasificación), como en el Aprendizaje automático (Support Vector Ma-
chine y Naı̈ve Bayes).
Seleccionar un modelo óptimo basándonos en indicadores de Discriminación tales como Gini,

Kolmogorrov-Smirnov Statistic, Information Value e Índice C, además de su tasa de mala clasifi-
cación.
Implementar el modelo de predicción de fuga seleccionado en la Institución Financiera.
5
C AP ÍTULO 2
Teorı́a de Modelos de Predicción
2.1. Árboles de Decisión
Los árboles de decisión corresponden a métodos de aprendizaje inductivos supervisados no paramétri-

cos muy utilizados, ya que se destacan por su sencillez y pueden utilizarse en diversas áreas, tales como:
reconocimiento de señales de radar, reconocimiento de caracteres, sensores remotos, sistemas expertos,
diagnóstico médico, juegos, predicción meteorológica, control de calidad, etc.
Debido a que los árboles de decisión pueden ser utilizados independientes de la naturaleza de la
variable de interés, denominaremos como árboles de clasificación si la variable respuesta es discreta y
de regresión en caso de que sea continua. En ambos casos esta metodologı́a se basa, a modo general, en
un particionamiento recursivo del dominio de definición de las variables explicativas o independientes,
seleccionando las variables más informativas o las más idóneas con respecto a un criterio previamente
establecido. La elección de estas variables sirve para expandir el árbol en tantas ramas como posibles
valores tomen las variables. Esto se representará por medio de una estructura de árbol, como se muestra
en la figura 2.1.
Los sistemas basados en árboles de decisión forman una familia llamada TDIDT (Top-Down In-
duction of Decision Trees). El programa AID (Automatic Interaction Detection), de Sonquist, Baker y
Morgan (1971), representa uno de los primeros métodos de ajuste de los datos basados en árboles de
clasificación. AID esta basado en un algoritmo recursivo con sucesivas particiones de las observaciones
originales en otros subgrupos menores y más homogéneos mediante secuencias binarias de particiones.
Posteriormente surgió un algoritmo recursivo similar al AID conocido como CART (Classification And
Regression Trees o árboles de clasificación y regresión), propuesto por Breiman et. al. (1984). Un algorit-
6
mo recursivo de clasificación no binario, llamado CHAID (Chi-square automatic interaction detection),
introducido por Kass (1980), el algoritmo C4.5. desarrollado por Quinlan (1993) que corresponde a un
modelo de clasificación basado en el aprendizaje inductivo, se trata de una versión actualizada del al-
goritmo original ID3 (Interactive Dichotomizer) (Quinlan, 1986), los Arboles Bayesianos basados en la
aplicación de métodos Bayesianos a árboles de decisión y más recientemente otra alternativa conocida
como MARS (Multivariate Adaptative Regresión Splines), propuesto por Friedman (1991).
Las principales diferencias entre los distintos algoritmos de construcción de árboles de decisión ra-
dican en la regla adoptada para particionar nodos y en las estrategias de poda. En este caso plantearemos
la teorı́a general, sin especificar ningún tipo de algoritmo.
Un árbol de clasificación consta de los siguientes elementos:
Nodo inicial: corresponde al nodo del cual parte la clasificación o ramificación del árbol. Se le
denomina también nodo raiz.
Reglas de asignación: Corresponden a las reglas de división de las variables en los nodos, las cuales
determinan la forma en que separarán los datos de entrada.
Nodos intermedios: engendran dos o más segmentos descendientes inmediatos.
Nodos terminales: es un nodo que no se puede dividir más, también denominado segmento termi-
nal.
Rama de un nodo t: consta de todos los segmentos descendientes del nodo t, excluyendo t.
Árbol de decisión completo (Tmax ): árbol en el cual cada nodo terminal no se puede ramificar.
Subárbol: se obtiene de la poda de una o más ramas del árbol completo Tmax .
7
Figura 2.1: Esquema de un Árbol de Decisión
Suponemos que se dispone de una muestra de entrenamiento que incluye la información del grupo
al que pertenece cada caso (variable dependiente) y que sirve para construir el criterio de clasificación.
Se comienza con un nodo inicial y nos preguntamos cómo dividir el conjunto de datos disponibles en
dos partes más homogéneas utilizando una de las variables independientes. Se elige, por ejemplo, una
variable x1 y se determina un punto de corte c de modo que se puedan separar los datos en dos conjuntos:
aquellos con x1 ≤ c de los que son x1 > c.
De este nodo inicial saldrán ahora dos: uno al que llegan las observaciones con x1 ≤ c y otro al
que llegan las observaciones con x1 > c. En cada uno de estos nodos se vuelve a repetir el proceso de
seleccionar una variable y un punto de corte para dividir la muestra en dos partes mas homogéneas. El
proceso termina cuando se hayan clasificado todas las observaciones correctamente en su grupo.
Ahora, para decidir qué variable va a utilizarse para hacer la partición en un nodo, se calcula primero
la proporción de observaciones que pasan por el nodo para cada uno de los grupos. Si se denomina a los
nodos como t = 1, 2, ..., T y p(g|t) a las probabilidades de que las observaciones que lleguen al nodo t
pertenezcan a cada una de las clases. Se define la impureza del nodo t como
G
X
I(t) = − p(g|t) · log p(g|t) (2.1)
g=1
1
que es una medida de la entropı́a o diversidad, la cual es máxima cuando p(g|t) = G.
8
De esta forma, la variable que se introduce en un nodo es la que minimiza la heterogeneidad o im-
pureza que resulta de la división en el nodo.
La clasificación de las observaciones en los nodos terminales se hace asignando todas las observa-
ciones del nodo al grupo más probable en ese nodo, es decir, el grupo con máxima p(g|t). Si la impureza
del nodo es cero, todas las observaciones pertenecerı́an al mismo nodo, en caso contrario puede haber
cierto error de clasificación. Cuando el número de variables es grande, el árbol puede contener un número
excesivo de nodos por lo que se hace necesario definir procedimientos de poda o simplificación del mis-
mo. Los árboles de clasificación dan buenos resultados cuando muchas de las variables de clasificación
son cualitativas, pero son menos eficaces cuando las variables se distribuyen como la normal.
Dentro de las ventajas de los árboles de clasificación, se tienen que las reglas se asignación son sim-
ples y legibles, por tanto la interpretación de resultados es directa e intuitiva, es una técnica válida sea
cual fuera la naturaleza de las variables explicativas (continuas, binarias, nominales u ordinales) y es
computacionalmente rápido.
Y entre las desventajas de los árboles de clasificación, podemos mencionar que existe dificultad para
elegir el árbol óptimo debido a la diversidad de algoritmos y las grandes diferencias en cuanto a resulta-
dos que se producen con cada uno de ellos, existe además ausencia de una función global de las variables
y como consecuencia pérdida de la representación geométrica y además, está el hecho de que los árboles
de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones
de los nodos hoja sea significativa.
2.2. Regresión Logı́stica
Los métodos de regresión son utilizados para describir la relación entre una variable respuesta y una o
más variables explicativas, donde lo que modelamos es la expresión E[Y |X = x]. El modelo de regresión
más conocido es el denominado Modelo de Regresión Lineal, donde la variable respuesta es continua
y se asume una distribución Normal para esta. En el caso de que nuestra variable dependiente sea de
otra naturaleza es necesario utilizar una extensión de los modelos lineales, lo cual se denomina como
Modelos Lineales Generalizados (Nelder, y Wedderborn, 1972), permitiendo utilizar otras distribuciones
de la familia exponencial, lo cual ofrece la ventaja que la relación entre la variable respuesta y predictor
lineal η es más flexible, donde,
9
η = β0 + β1 x1 + . . . + βp xp
En el caso de la regresión lineal se tiene,
E[Y |X = x] = η = β0 + β1 x1 + . . . + βp xp
En el caso de la regresión logı́stica, la diferencia es causada por la naturaleza de la variable respuesta

Y , la cual corresponde a una variable binaria con distribución Bernoulli y parámetro π, donde π es la
probabilidad de suceso. Esta distribución es posible modelarla dentro de los modelos lineales general-
izados, ya que pertenece a la familia exponencial.
De esta forma, será de interés modelar E[Y |X = x], donde
E[Y |X = x] = π 6= η
Entonces se propone el enlace logı́stico como se muestra a continuación, donde la media condicional
de la ecuación de regresión es formulada de manera que su rango de valores sea entre 0 y 1. Esto se
conoce también como transformación logito o logit, a la cual se le denota g(x).

π(x)
g(x) = log = η = β0 + β1 x1 + . . . + βp xp (2.2)
1 − π(x)
La variable η representa, en una escala logarı́tmica, el cuociente entre las probabilidades de pertenecer
a ambas poblaciones y, al ser una función lineal de las variables explicativas, facilita la estimación y la
interpretación del modelo.
Luego, despejando π(x) se obtiene el modelo de regresión logı́stica
Pp
eβ0 + β i xi
i
E[Y |X = x] = π(x) = Pp (2.3)
1+ eβ0 + i βi xi
donde los βi corresponden a parámetros desconocidos. Una notación más utilizada de E[Y |X = x]
corresponde P (Y = 1|X), donde su complemento está dado por:
1
P (Y = 0|X) = 1 − π(x) = Pp (2.4)
1 + eβ0 + i β i xi
Una propiedad muy conveniente de la forma de P (Y |X) es que conduce a una expresión lineal
simple para la clasificación. Para clasificar una determinada observación X, en general desea asignar el
valor yi que maximice P (Y = yi |X), dicho de otra forma, se asignará al nivel Y = 0 si se cumple que:
P (Y = 0|X)
1<
P (Y = 1|X)
10
sustituyendo las ecuaciones (2.3) y (2.4) resulta:
p
X
1 > exp (β0 + β i xi )
i
tomando el logaritmo natural, se obtiene una regla de clasificación lineal que asigna al valor Y = 0
si satisface
p
X
0 > β0 + βi xi
i=1
y clasifica a Y = 1 en caso contrario.
Por otro lado, una de las caracterı́sticas que hacen la regresión logı́stica tan utilizada es la relación
que poseen sus parámetros con un parámetro de cuantificación de riesgo conocido en la literatura como
Odds Ratio, permitiendo que la interpretación de estos sea más simple.
El odds asociado a un suceso es el cuociente entre la probabilidad de que ocurra un suceso frente a
la probabilidad de que no ocurra:
π
Odds =
1−π
siendo π la probabilidad del suceso.
Ası́ por ejemplo, podemos calcular el odds de tener un cliente bueno cuando la renta de este cliente
es igual o superior a una cierta cantidad, que en realidad determina cuántas veces es más probable que
sea un cliente bueno a que sea un cliente malo en esa situación. Igualmente podrı́amos calcular el odds de
tener un cliente bueno cuando la renta de este cliente es inferior a cierta cantidad. Si dividimos el primer
odds entre el segundo, hemos calculado un cuociente de odds, denominado odds ratio, que de alguna
manera cuantifı́ca cuánto más probable es que nos encontremos con un cliente bueno cuando la renta
de este cliente es alta (primer odds) respecto a cuando su renta es baja. La noción que se está midiendo
es parecida a la que encontramos en lo que se denomina riesgo relativo que corresponde al cuociente
de la probabilidad de que aparezca un suceso (cliente bueno) cuando está presente el factor (renta alta)
respecto a cuando no lo está (renta baja).
11
Si en la ecuación de regresión tenemos un factor dicotómico, como puede ser por ejemplo si el sujeto
posee renta alta, el coeficiente β de la ecuación para ese factor está directamente relacionado con el odds
ratio (OR) de tener renta alta respecto a no tenerla.
OR = exp(β)
es decir que exp(β) es una medida que cuantifica el riesgo que representa poseer el factor correspon-
diente respecto a no poseerlo, suponiendo que el resto de variables del modelo permanecen constantes.
2.3. Naı̈ve Bayes
Consideraremos un problema aprendizaje supervisado en el cual nosotros deseamos estimar una

función f : X → Y o dicho de otra forma, estimar P (Y |X). Para esto definimos a Y como una variable
aleatoria de interés y X como un vector que contiene n variables aleatorias que representan atributos
o caracterı́sticas de interés. De esta forma, utilizando el teorema de Bayes, podemos escribir P (Y |X)
como,
P (X = xk |Y = yi )P (Y = yi )
P (Y = yi |X = xk ) = X
P (X = xk |Y = yj )P (Y = yj )
j
donde se podrá utilizar el entrenamiento de los datos para estimar P (X|Y ) y P (Y ), y luego a través
del teorema de Bayes obtener una estimación de P (Y |X), a esto se le llama entrenamiento del clasifi-
cador de Bayes o Redes Bayesianas.
Es en base a esto que se plantea el clasificador Naı̈ve Bayes, el cual considera independencia condi-
cional.
Para continuar con el planteamiento de esta metodologı́a primero definiremos Independencia Condi-
cional.
Independencia Condicional 2.3.1. Dado las variables aleatorias X1 , X2 y Y , diremos que X1 es

condicionalmente independiente de X2 dado Y , si y sólo si, la distribución de probabilidad que rige X1
es independiente del valor de X2 dado Y , esto es,
P (X1 |X2 , Y ) = P (X1 |Y )
12
Para entender la importancia de este supuesto dentro de la metodologı́a, se considera un vector
X = (X1 , X2 ), donde aplicando lo anterior se obtiene
P (X|Y ) = P (X1 , X2 |Y )
= P (X1 |X2 , Y )P (X2 |Y ) //* Utilizando la Independencia Condicional
= P (X1 |Y )P (X2 |Y ) (2.5)
Ahora aplicando la Independencia Condicional al clasificador, se asume que X1 , . . . , Xn son todos

condicionalmente independientes uno de otro dado Y . Entonces,
P (X|Y ) = P (X1 , . . . , Xn |Y )
= P (X1 |Y ) . . . P (Xn |Y )
Yn
= P (Xi |Y ) (2.6)
i=1
Como se puede observar en la expresión anterior, este supuesto simplifica en gran medida la repre-
sentación de P (X|Y ). Entonces, la probabilidad de Y dados los atributos Xi tiene la forma:
P (Y = yi )P (X1 , . . . , Xn |Y = yi )
P (Y = yi |X1 , . . . , Xn ) = X (2.7)
P (Y = yj )P (X1 , . . . , Xn |Y = yi )
j
Y considerando la independencia condicional, la expresión (2.7) puede escribirse como,
Y
P (Y = yi ) P (Xk |Y = yi )
k
P (Y = yi |X1 , . . . , Xn ) = X Y (2.8)
P (Y = yj ) P (Xk |Y = yj )
j k
Es decir, la probabilidad P (Y = yi )P (X1 , . . . , Xn |Y = yi ) ha sido factorizada como el producto
de n valores que solo involucran dos variables. Por lo tanto, los parámetros que tenemos que estimar son
P (Xk |Y ) para cada atributo y la probabilidad a priori de la variable clase P (Y ). La ecuación (2.8) es
la ecuación fundamental del clasificador Naı̈ve Bayes, ya que nos permite obtener las probabilidades de
interés.
Dada una nueva observación Xn+1 = (X1 , . . . , Xn ), esta ecuación nos permitirá calcular la proba-
bilidad de que Y = yi ∀i dada la nueva información ( Xn+1 )y los valores estimados de P (Y ) y P (X|Y )
a través de los datos de entrenamiento. Luego, si nosotros estamos interesados sólo en el valor más prob-
able de Y , es decir, en aquel que tiene máxima probabilidad a posteriori dados los atributos, también
conocido como MAP, tendremos la regla de clasificación de Naı̈ve Bayes,
13
Q
P (Y = yi ) k P (Xk |Y = yi )
máx P (Y = yi |X1 , . . . , Xn ) = máx X Y
yi yi P (Y = yj ) P (Xk |Y = yj )
j k
lo cual se puede simplificar eliminando el denominador, esto debido a que no depende de yi , obteniéndose:
Y
máx P (Y = yi |X1 , . . . , Xn ) = máx P (Y = yi ) P (Xk |Y = yi ) (2.9)
yi yi
k
A continuación veremos en detalle la descripción de los parámetros y el como se realizará su es-

timación, planteando una división dependiendo de la naturaleza de los atributos, es decir, si Xi es una
variable discreta o continua.
2.3.1. Naı̈ve Bayes para atributos discretos
Cuando los n atributos Xi ; i = 1, ·, n tomen valores discretos dentro de las J posibles clases, donde
Y es una variable aleatoria discreta que tome valores entre las K posibles clases de esta, luego la tarea
será estimar dos set de parámetros. El primero es:
θijk = P (Xi = xij |Y = yk ) (2.10)
Note que se tendrán nJK parámetros, donde n(J − 1)K serán independientes, dado esto se debe
P
satisfacer que j θijk = 1 para cada par de valores de i, k.
Además se debe estimar los parámetros que definen la probabilidad a priori para Y :
πk = P (Y = yk ) (2.11)
En este caso se tendrán K parámetros, donde K − 1 son independientes.
Para la estimación del parámetro θijk dado un conjunto de entrenamiento, se tiene
]D{Xi = xij ∧ Y = yk }
ijk = P (Xi = xij |Y = yk ) =
θd (2.12)
b
]D{Y = yk }
donde ]D es un operador que retorna el número de elementos en el conjunto D en que Xi toma el
valor xij , es decir, calcula el número de casos favorables dividido por el número de casos totales (fre-
cuencias relativas).
14
Una desventaja que presenta este tipo de estimación, es que puede darse el caso de que en los datos
no se cumpla la condición del numerador, lo cual traerı́a como consecuencia que estimación de θ serı́a
cero.
Para evitar esto, es posible plantear la expresión siguiente, que representa una estimación suavizada
de (2.12):
]D{Xi = xij ∧ Y = yk } + 1
ijk = P (Xi = xij |Y = yk ) =
θd (2.13)
b
]D{Y = yk } + ΩXi
Es decir, la suma de casos favorables más uno dividido por la suma del número de casos totales más
el número de valores posibles de Xi . Con esta estimación se pretende que todas las combinaciones posi-
bles tengan una mı́nima probabilidad, ya que con el estimador de máxima verosimilitud (2.12) cualquier
combinación que no este presente en la base de datos tendrı́a probabilidad cero.
Ahora, en relación a la estimación de πk , se tiene,
]D{Y = yk }
π
ck = Pb(Y = yk ) = (2.14)
|D|
donde |D| denota el número de elementos de la muestra de entrenamiento D. Alternativamente se puede
obtener una estimación suavizada, lo cual corresponde a,
]D{Y = yk } + 1
π
ck = Pb(Y = yk ) = (2.15)
|D| + ΩYk
2.3.2. Naı̈ve Bayes para atributos continuos
En el caso que Xi sea una variable continua, debemos considerar otra representación de P (Xi |Y ).
Una aproximación utilizada es asumir que Xi posee distribución Normal, donde tanto la media como la
desviación estándar será especı́fica para cada Xi e yk . Es por esto que también se le conoce como clasi-
ficador Naı̈ve Bayes Gaussiano (GNB). De esta forma, será de interés estimar la media y la desviación
estándar para cada Normal,
µik = E[Xi |Y = yk ] (2.16)
2
σik = E[(Xi − µik )2 |Y = yk ] (2.17)
15
De manera similar que para el caso de atributos discretos, se utiliza estimación de máxima verosimi-
litud para estos parámetros, obteniéndose
1 X
µc
ik = X Xij I(Y j = yk ) (2.18)
j
I(Y = yk ) j
j
1 X
σc
ik = X (Xij − µc 2 j
ik ) I(Y = yk ) (2.19)
j
I(Y = yk ) j
j
donde Xij es el valor de la variable aleatoria Xi para la j-esima observación, Y j es el valor de la variable
Y para la j-esima observación y I(Y j = yk ) es una indicatriz, es decir, tomará el valor 1 si Y j = yk y
en caso contrario el valor 0.
En general, esta metodologı́a es muy utilizada, pero consta de algunas desventajas tales como el
supuesto de independencia condicional de todos los atributos Xi dado Y , además de la necesidad de
poseer un gran número de datos de entrenamiento, debido a la forma en que estiman los parámetros, en
especial cuando se trata de estudios donde el evento de interés es poco común.
2.4. Support Vector Machines
La técnica Support Vector Machines (SVM) fue propuesta por Vapnik y otros autores (1979) y se
desarrolla sobre la teorı́a del aprendizaje estadı́stico y del aprendizaje computacional, desarrollados a
finales de los años setenta y durante los ochenta. Esta técnica se basa en encontrar un hiperplano sepa-
rador que divida el espacio de entrada en k regiones, donde cada región corresponde a una de las clases
definidas en la variable respuesta. En nuestro caso, se desea modelar dos clases, la fuga y no fuga de
clientes, es por esto que nos enfocaremos en el desarrollo de los SVM binarios. Por otro lado, el cre-
ciente interés sobre esta técnica ha permitido su desarrollo no sólo en problemas de clasificación, sino
también en problemas de regresión y de predicción de series de tiempo. En el presente proyecto de tı́tulo
nos enfocaremos en el desarrollo de problemas de clasificación.
Como se menciona anteriormente, los SVM se basan en encontrar un hiperplano óptimo, donde por
un lado se maximice el margen de separación y por otro se minimice el error de clasificación. Para esto
se plantea un problema de optimización cuya función objetivo combina ambos objetivos. En el caso de
que sea posible encontrar este hiperplano, nos encontraremos frente al caso linealmente separables, en
caso contrario se introduce el caso no linealmente separable mediante funciones de kernel o núcleo.
16
2.4.1. Caso Lineal
Dado un conjunto de entrenamiento xi ∈ Rm ; i = 1, . . . , m e yi ∈ {−1, 1}; i = 1, . . . , m, variable

que indicará la clase de pertenencia, se dice que existe un hiperplano →
−
w ·→
−
x + b = 0 ∈ Rn tal que
deja a todas las observaciones asociadas a ambas clases en distintos lados de él, es decir, existe un par
(→
−
w , b) ∈ Rn tal que:
→
−
w ·→
−
x +b>0 la observación está en la clase 1 (2.20)
→
−
w ·→
−
x +b<0 la observación está en la clase −1 (2.21)
Es de interés reescalar las restricciones anteriores, para ası́ obtener desigualdades estrictas, ya que
éstas se utilizarán para plantear el problema de optimización. Ası́, recordando que si un plano está definido
para un par (→ −
w , b), entonces cualquier par de la forma (λ→ −
w , λb), con λ > 0 también define el mismo
hiperplano, de esta forma si →
−
w ·→
−x + b > 0 para un par particular, entonces existe un par (−
→, b ) que
w i i
→
− →
− →
− →
−
define el mismo hiperplano tal que w · x + b ≥ 1. De forma análoga se plantea w · x + b ≤ −1.
Considerando lo anterior, se replantea (2.20) y (2.21), quedando de la forma:
→
−
w ·→
−
x +b≥1 la observación está en la clase 1
→
−
w ·→
−
x + b ≤ −1 la observación está en la clase −1
Las cuales pueden ser reescritas como:
y(→
−
w ·→
−
x + b) ≥ 1 (2.22)
Las observaciones donde se cumple la igualdad, i.e., →

−
w ·→
−
x + b = ±1, corresponden a los Support
Vector, que yacen en los hiperplanos canónicos, que se definen por:
H1 : f (→
−
xi ) = →
−
w ·→
−
x +b=1 (2.23)
H2 : f (→
−
xi ) = →
−
w ·→
−
x + b = −1 (2.24)
17
Para comprender de mejor manera los conceptos mencionados es que se plantea el siguiente gráfico:
Figura 2.2: Esquema de las SVM
Ahora, para construir el problema de optimización y definir el margen de separación, consideraremos

la distancia existente entre un punto y el hiperplano, el cual en este caso corresponde a → 1 , de esta
k−
wk
forma se tiene que la distancia entre los hiperplanos H1 y H2 , correspondiente el margen de separación
es ρ = → 2 . Ahora, como el objetivo es maximizar el margen de separación, lo cual es equivalente a
k−
wk
minimizar k→ −
w k, el problema de optimización corresponde a un problema de programación cuadrática y
se plantea como:
k→−
w k2
mı́n
−
→ w ,b 2
s.a.: y ( x · →
i
→
−
i
−w + b) − 1 ≥ 0
De igual forma, podemos plantear el problema desde un enfoque matricial,
wt w
mı́n
w,b 2
s.a.: yi (wt · →
−
xi + b) − 1 ≥ 0
Es de interés cambiar la formulación del problema de minimización para presentarlo como un pro-
blema dual, principalmente por dos motivos. El primero es que los contrastes serán sustituidos por los
contrastes de los multiplicadores de Lagrange, lo cual se hace más fácil de manejar, y segundo, porque
los datos de entrenamiento sólo aparecerán en forma de los productos punto entre los vectores, lo cual
18
nos permitirá generalizar el procedimiento para el caso no lineal.
De esta forma, es necesario plantear el Lagrangiano asociado al problema de minimización, el cual

corresponde a:
m
wt w X
LP = − (αi (→
−
w ·→
−
xi + b) − 1) (2.25)
2
i=1
donde, αi = 1, . . . , m
Es importante notar que el signo negativo del segundo término de (2.25) se debe a que es de interés
minimizar con respecto a w y b y maximizar con respecto a α.
A partir de (2.25), se pueden plantear las condiciones de optimalidad de Karush-Kuhn-Tucker

(KKT). Es importante notar que tanto L como y (wt · →
P
−
x + b) − 1 ≥ 0 son convexos y las condi-
i i
ciones KKT son condiciones necesarias y suficientes para maximizar LP . (Más detalle de condiciones
KKT ver anexo A.1.3.)
Las condiciones KKT asociadas a este problema son:
∂LP X
=0 ⇒ w− α i yi x i = 0 (2.26)
∂w
i
∂LP X
=0 ⇒ − α i yi = 0 (2.27)
∂b
i
De (2.26) y (2.27) se obtienen en el óptimo, las siguientes relaciones:
X
w= α i yi x i (2.28)
i
X
αi yi = 0 (2.29)
i
Al reemplazar en el lagrangiano antes mencionado se obtiene,
m
wt w X
LP = − wt w + αi
2
i=1
m
X wt w
= αi −
2
i=1
m
1 XX
αi αj yi yj →
−
xi →
−
X
= αi − xj (2.30)
2
i=1 i j
19
A partir de esta expresión, aplicando dualidad lagrangiana se puede obtener un problema dual cono-
cido como Dual de Wolfe (Fletcher, 1987), el cual plantea que minimizar LP sujeto a contrastes C2 ,
ocurre en los mismos valores de w, b, α, que minimizar LD sujeto al contraste C1 . De esta forma se
plantea el problema dual siguiente, donde los αi ≥ 0, debido a que corresponden a multiplicadores de
Lagrange.
1 XX
αi αj yi yj →
−
xi →
−
X
máx LD = αi − xj
α 2
i i j
P
s.a.: i α i yi =0
αi ≥ 0; i = 1, . . . , m
La solución αi0 del problema de optimización determina el valor óptimo w0 :
l
X
w0 = αi0 yi xi (2.31)
i=1
Y luego de haber encontrado w0 se puede determinar el sesgo b, para lo cual sólo se utiliza los
vectores de soporte. De esta forma, promediando (2.22) y despejando b0 se obtiene:
Nsv
1 X 1 t
b0 = − x s w0 (2.32)
Nsv s ys
donde Nsv corresponde a la cantidad de vectores de soporte.
2.4.2. Caso No Lineal
La idea es proyectar los objetos en otro espacio euclidiano H (espacio de Hilbert) de mayor di-
mensión, incluso infinito, en el cual sean linealmente separables, luego encontrar el hiperplano en ese
espacio para retornar finalmente al espacio original tanto los objetos como el hiperplano. Este último ya
no será un hiperplano en el espacio original, sino una ”hiper-superficie” no lineal.
La proyección de los objetos se debe realizar mediante una función no lineal φ : R → H, uti-
lizándose el producto punto de esta, i.e., φ(xi ) · φ(xs ), donde si existe K(xi , xs ) = φ(xi ) · φ(xs ) no seria
necesario explicitar φ.
Para un par {H, φ} existe un kernel si se cumple la condición de Merced, es decir, existe una proyec-
P
ción φ y una expansión K(x, y) = i φ(xi ) · φ(yi ) si y solo si, si para cualquier g(x) tal que,
Z Z
g(x)2 dx es finita ⇒ K(x, y)g(x)g(y) dx dy ≥ 0.
20
Esto permite asegurar que el hessiano de la formulación dual está definido y el problema cuadrático
tenga solución.
Algunos ejemplos de kernel que cumplen con la condición anterior son:
Kernel Lineal
K(x, x0 ) = hx, x0 i
Kernel Polinomial
K(x, x0 ) = (scale · hx, x0 i + of f set)grado
Kernel Gaussiano
K(x, x0 ) = exp (−σkx − x0 k2 )
Es importante mencionar que no existe una regla que discrimine cual es el mejor kernel dado un
problema en particular.
De manera gráfica el efecto que produce al introducir un kernel en un espacio de entrada se observa
en el siguiente gráfico, donde claramente la aplicación de un kernel proporciona una solución óptima al
problema de separación de las clases observadas.
Figura 2.3: Aplicación de una función kernel a un espacio de entrada
21
Ahora, para plantear el problema de optimización, el análisis del caso linealmente separable puede
ser generalizado introduciendo algunas variables no-negativas ξi ≥ 0 de modo que el problema primal
de optimización queda como:
m
wT w X
mı́n +C ξi (2.33)
w,b,ξ 2
i
sujeto a:
yi (wT φ(xi ) + b) ≥ 1 − ξi (2.34)
ξi ≥ 0; i = 1, . . . , m
Donde,
P
ξi se considera una medida del error de clasificación, esto debido a que es necesario introducir
ξi para aquellos puntos xi que no satisfacen las restricciones yi (wT φ(xi ) + b) ≥ 1
C es una constante, la cual puede ser definida como un parámetro de regularización, realizando un
balance entre la maximización del margen y la violación a la clasificación, esto debido a que es
P
una ponderación de ξi .
Un alto valor para C corresponde a asignar un alto costo de penalización por errores.
Armando el lagrangiano del problema primal,
m m m
wt w X X X
LP = +C ξi − αi (yi (wT · φ(xi ) + b) + 1 + ξi ) − µ i ξi
2
i=1 i=1 i
m m m m m
wt w X X X X X
= +C ξi − αi yi (wT · φ(xi ) + b) − αi − α i ξi − µi ξi
2
i=1 i=1 i i i
A partir de este Langrangiano podemos plantear las condiciones de optimalidad de KKT:
∂L X
=0 ⇒ w− αi yi φi = 0 (2.35)
∂w
i
∂L X
=0 ⇒ − αi yi = 0 (2.36)
∂b
i
∂L
=0 ⇒ −αi + C − µi = 0 (2.37)
∂ξi
22
De (2.35), (2.36) y (2.37) se obtienen en el óptimo, las siguientes relaciones:
X
w= αi yi φ(xi ) (2.38)
i
X
αi yi = 0 (2.39)
i
αi = C − µi (2.40)
Al reemplazar en el lagrangiano,
m m m
wt w X X X X
LP = − wt w + C ξi + αi − α i ξi − µ i ξi
2
i i i i
m m m
wt w X X X X
= − wt w + C ξi + αi − (C − µi )ξi − µi ξi
2
i i i i
m
X wt w X X X X
= αi − +C ξi − C ξi + µ i ξi − µi ξi
2
i i i i i
m
X 1
= αi − αi αj yi yj φ(xi )φ(xj ) (2.41)
2
i=1
A partir de esta expresión se obtiene el problema dual, donde αi ≥ 0 y µi ≥ 0 por ser multipli-
cadores de Lagrange, y como además se tiene αi = C − µi , de esta forma LD además está sujeto a
0 ≤ αi ≤ C
X 1 XX
máx LD = αi − αi αj yi yj φ(xi )φ(xi )
α 2
i i j
sujeto a:
X
αi yi = 0
i
0 ≤ αi ≤ C; i = 1, . . . , m
En este caso, el parámetro w0 al igual que para el caso lineal, se determina por la solución αi0 del
problema de optimización, obteniéndose:
X
w0 = αi yi φ(xi ) (2.42)
i
23
Y luego de haber encontrado w0 se determina b0 , promediando (2.34). Se obtiene:
Ns Ns
!
1 X X
b0 = ys − αn yn K(xs , xn ) (2.43)
Ns s n
2.4.3. Probabilidades
Aunque las SVM están pensadas para tareas de clasificación, en ciertas ocasiones es necesario cono-
cer el nivel de incertidumbre asociado a la decisión del clasificador o dicho de otra forma, la probabilidad
a posteriori de cada una de las posibles clases. Es por esto que los últimos años se han desarrollado di-
versos métodos para estimar dichas probabilidades a partir de la función de decisión de las SVM. Los
principales avances han sido realizados por John Platt [13] y Hastie y Tibshirani [14]. A continuación se
presenta una de las teorı́as más aceptadas y utilizadas.
Se puede escribir la función de decisión como:
f (x) = h(x) + b
donde
X
h(x) = yi αi K(xi , x)
i
Entrenando la SVM minimizando una función de error que penaliza una aproximación de la tasa de
mala clasificación más un término que penaliza la norma euclidiana de h en el espacio de Hilbert:
X 1
C (1 − yi fi ) + khk
2
i
Una forma de producir una salida probabilı́stica de una maquina de kernel fue propuesta por Wahba
[15], el cual usa la función enlace de la logı́stica,
1
P (clase|datos) = P (y = −1|x) = p(x) =
1 + exp(−f (x))
y luego propone minimizar una función de error más un término que penaliza la norma en el espacio de
Hilbert:

−1 X yi + 1 yi − 1
log(pi ) + log(1 − pi ) + λ k h k
m 2 2
i
donde pi será la probabilidad a posteriori.
24
Es en base a esto que Platt (1999), propone utilizar un modelo paramétrico para plantear la pos-
teriori p(y = 1|f ) directamente, donde los parámetros del modelo son adaptados para dar las mejores
probabilidades de salida. Platt plantea que la forma del modelo paramétrico puede ser inspirado viendo
los datos empı́ricos, donde al graficar la densidad p(y = −1/f ) entre los márgenes, es decir, entre los
hiperplanos canónicos es aparentemente exponencial, es decir,
f |y = −1 ∼ exp(λ1 )
f |y = 1 ∼ exp(λ2 )
Ahora, considerando el Teorema de Bayes, se obtiene,
p(f |y = −1) · p(y = −1)

p(y = −1|f ) = P
i=±1 p(f |y = i)· (y = i)
λ1 e(−λ1 f ) · p(y = −1)
p(y = −1|f ) =
λ1 e(−λ1 f ) · p(y = −1) + λ2 e(−λ2 f ) · p(y = 1)
1
p(y = −1|f ) = (−λ f ) · p(y = 1)
λ2 e 2
1+
λ1 e(−λ1 f ) · p(y = −1)
1
p(y = −1|f ) = (−λ f ) · p(y = 1)
λ2 e 2
1+
λ1 e−λ1 f · (1 − p(y = 1))
1
p(y = −1|f ) =
p(y = 1) λ2
1 + exp (λ1 − λ2 ) · f + log + log
1 − p(y = 1) λ1
1
p(y = −1|f ) =
1 + exp(Af + B)
Lo cual corresponde a una forma paramétrica sigmoidal. Este modelo sigmoidal es equivalente a
asumir que las salidas de las SVM son proporcionales al logaritmo de los Odds, esto para cuando tenga-
mos un caso positivo, donde ambas tasas sean iguales.
Los parámetros A y B son estimados utilizando máxima verosimilitud para un set de entrenamiento
(f (xi ), yi ). Para esto primero se define un nuevo set de entrenamiento (f (xi ), ti ), donde ti es la ”proba-
bilidad objetivo”definida como:
yi + 1
ti =
2
25
De esta forma los parámetros A y B son encontrados minimizando la log-verosimilitud de los datos
de entrenamiento, que es una función de error:
X
mı́n − ti log(p(xi )) + (1 − ti ) log(1 − p(xi ))
i
donde
1
p(xi ) =
1 + exp(Af (xi ) + B)
Este problema de minimización puede ser resuelto utilizando cualquier algoritmo de optimización,
manteniendo en cuenta el set de entrenamiento (f (xi ), yi ) de la sigmoide y un método para evitar el
sobre ajuste de este set.
Es importante recalcar que esta metodologı́a, al igual que Naı̈ve Bayes, entrega 2 probabilidades
para cada observación, es decir, entrega P (y = 1|x) y P (y = −1|x), donde la probabilidad más alta
entre estas indicará la clase en la cual se clasifica la observación.
26
2.5. Comparación de las metodologı́as
En esta sección es de interés revisar las posibles relaciones y realizar comparaciones de las metodologı́as
Support Vector Machine, Naı̈ve Bayes y Regresión Logı́stica especı́ficamente, ya que es posible escribir
sus probabilidades estimadas de manera similar.
La regresión logı́stica desea estimar una función f : X → Y , o de manera equivalente P (Y |X),

asumiendo una forma paramétrica para esta, de la forma
n
X
exp (w0 + wi Xi )
i=1
P (Y = 1|X) = n (2.44)
X
1 + exp (w0 + wi Xi )
i=1
y
1
P (Y = 0|X) = n (2.45)
X
1 + exp (w0 + wi Xi )
i=1
donde P (Y = 1|X) = 1 − P (Y = 0|X)
Ahora, en relación al clasificador GNB, recordemos que Y es una variable dicotómica con distribu-
ción Bernoulli de parámetro πk = P (Y = 1) y que además para cada Xi se tiene
P (Xi |Y = yk ) ∼ N (µik,σi )
Note que se asumirá que la desviación estándar σi varia según el atributo, pero no depende de Y .
Considerando esto, la forma de P (Y = 0|X) se desarrolla como,
P (Y = 0)P (X|Y = 0)
P (Y = 0|X) =
P (Y = 1)P (X|Y = 1) + P (Y = 0)P (X|Y = 0)
1
=
P (Y = 1)P (X|Y = 1)
1+
P (Y = 0)P (X|Y = 0)
1
=
P (Y = 1)P (X|Y = 1)
1 + exp ln
P (Y = 0)P (X|Y = 0)
27
Considerando el supuesto de independencia condicional,
1
P (Y = 0|X) = ( )
P (Y = 1) X P (Xi |Y = 1)
1 + exp ln + ln
P (Y = 0) P (Xi |Y = 0)
i
1
= ( ) (2.46)
π X P (Xi |Y = 1)
1 + exp ln + ln
1−π P (Xi |Y = 0)
i
donde la sumatoria de (2.46) puede ser desarrollada como,
2
√1 exp ( −(X2σ
i −µi1 )
2 )
X P (Xi |Y = 1) X 2πσi2 i
ln = ln 2
i
P (Xi |Y = 0)
i
√1 2 exp ( −(X2σ
i −µi0 )
2 )
2πσi i
(Xi − µi0 )2 − (Xi − µi1 )2

X
= ln exp
i
2σi2
X (Xi − µi0 )2 − (Xi − µi1 )2
=
i
2σi2
X (X 2 − 2Xi µi0 + µ2 ) − (X 2 − 2Xi µi1 + µ2 )
i i0 i i1
= 2
i
2σi
X (2Xi (µi1 − µi0 ) + µ2 − µ2 )
i0 i1
= 2
i
2σ i
X µi1 − µi0 µ2i0 − µ2i1

= Xi + (2.47)
i
σi2 2σi2
Es importante notar que esta expresión es una suma ponderada lineal de los Xi0 s. Sustituyendo (2.47)
en (2.46) se tiene,
1
P (Y = 0|X) = ( ) (2.48)
π X µi1 − µi0 µ2 − µ2
1 + exp ln + Xi + i0 2 i1
1−π
i
σi2 2σi
1
= X (2.49)
1 + exp (w0 + wi Xi )
i=1
donde las ponderaciones wi ; ∀i : 1, . . . , n están dados por,
µi1 − µi0
wi =
σi2
28
y donde
π X µ2 − µ2
i0 i1
w0 = ln +
1−π
i
2σi2
Finalmente se obtiene,
n
X
exp (w0 + wi Xi )
i=1
P (Y = 1|X) = 1 − P (Y = 0|X) = n (2.50)
X
1 + exp (w0 + wi Xi )
i=1
Para el caso de las Support Vector Machines, se tiene que las probabilidades estimadas a posteriori
se obtienen de,
1
P (Y = −1|f ) = (2.51)
1 + exp(B + Af )
y
exp(B + Af )
P (Y = 1|f ) = (2.52)
1 + exp(B + Af )
donde

π λ2
A = λ1 − λ2 y B = log + log
1−π λ1
Como se menciona al comienzo de esta sección, estas metodologı́as pueden ser comparables, ya
que las tres utilizan la función sigmoidal al momento de estimar la probabilidad de que ocurra un evento
dado un conjunto de entrenamiento, ya sea directamente introduciendo los atributos o a través de una
función que involucra estos atributos (función de decisión para las SVM), lo cual se traduce en que los
parámetros estimados si bien son distintos, uno pudiese encontrar relaciones entre ellos.
Este es el caso de Naı̈ve Bayes y Regresión Logı́stica, donde se observa que los parámetros wi en la
regresión logı́stica puede ser expresada en términos de los parámetros de GBN. Además, si se cumple el
supuesto de independencia condicional de GNB, la regresión logı́stica y Naı̈ve Bayes Gaussianno con-
vergen asintóticamente a idénticos clasificadores. Sin embargo, si este supuesto no se cumple, el sesgo
de Naı̈ve Bayes causará menor precisión que la regresión logı́stica en el caso asintótico. Dicho de otra
forma, Naı̈ve Bayes es un algoritmo de aprendizaje con mayor sesgo, pero menor variabilidad que la re-
gresión logı́stica. Si este sesgo es conveniente dado los datos reales será más conveniente utilizar Naı̈ve
29
Bayes en vez de la regresión logı́stica.
Otro punto de comparación corresponde al tipo de clasificador que se genera mediante las distintas
metodologı́as. La regresión logı́stica, al igual las Support Vector Machine, utiliza los datos de entre-
namiento para estimar directamente P (Y |X), a lo cual se le denomina ”Clasificador Discriminativo”,
es decir, a través de P (Y |X) se puede discriminar directamente el valor objetivo Y para cualquier ob-
servación X. En cambio Naı̈ve Bayes utiliza los datos de entrenamiento para estimar P (X|Y ) y P (Y ),
es decir, una nueva observación X puede ser clasificada utilizando las distribuciones de probabilidad
estimadas más el teorema de Bayes, a lo cual se le denomina ”Clasificador Generativo”.
30
2.6. Ejemplo
En esta sección utilizaremos un ejemplo para aplicar las metodologı́as planteadas, para lo cual se
utiliza la base de datos Adult la cual fue extraı́da de la Oficina del Censo de la base de datos encontrados
en http://www.census.gov/ftp/pub/DES/www/welcome.html en 1994 por Ronny Kohavi y Barry Becker.
De esta base se extraen nueve variables, donde cuatro son categóricas, cuatro continuas y una nom-
inal denominada DEP, nuestra variable de interés, que tomará el valor 1 si los ingresos de las personas
son superiores a US 50K/yr y 0 cuando los ingresos sean inferiores.
Las variables categóricas son:
Marital status (Estado Civil): Divorced, Married-AF-spouse, Married-civ-spouse, Married-spouse-

absent, Never-married, Separated, y Widowed.
Relationship (Estado Parental): Husband, Not-in-family, Other-relative, Own-child, Unmarried y

Wife.
Race (Raza): Amer-Indian, Asian-Islander, Black, White y Other.
Sex (Sexo): Female and Male.
Y las variables continuas son Age (Edad), Capital Gain (Ganancia de Capital), Capital Loss (Pérdida
de Capital) y Hours per week (Horas trabajadas por semana).
Previo a la aplicación de las metodologı́as se realizará un análisis descriptivo.
2.6.1. Análisis Descriptivo
Para revisar la distribución que poseen las variables explicativas, utilizadas para entrenar las distin-
tas metodologı́as, se realizará un análisis gráfico de las variables mediante boxplot y gráficos de barras,
según la naturaleza de la variable, además de un estudio bivariado para conocer la capacidad discrimina-
tiva de las variables.
Dentro de las variables categóricas podemos observar en la figura 2.4 que el comportamiento de
ambas poblaciones, es decir, de los individuos con ingresos mayores y menores a U S 50K, son distintos
en el Estado Civil y Relación Parental, en cambio la Raza y el Sexo presentan un comportamiento similar
para las dos poblaciones.
31
Figura 2.4: Gráfico de Barras: Variables categóricas
Ahora, en relación a las variables continuas (figura 2.5) podemos ver que la mayorı́a de los indi-
viduos no poseen ni ganancia ni pérdida de capital, independiente del ingreso que tengan. En cambio,
en relación a la edad de los individuos se observa mayor dispersión, estas van entre los 17 a 90 años,
donde la población asociada a los ingresos mayores a 50K poseen una concentración de la edad leve-
mente mayor a la asociada a ingresos menores de 50K. Y finalmente que el rango de las horas de trabajo
semanal, va entre 1 a 99 horas, no observándose diferencias significativas entre ambas poblaciones.
32
Figura 2.5: Boxplot: Variables continuas
Por otro lado, la capacidad predictiva de las variables se analizan a través del Estadı́stico de Kolmogorrov-
Smirnov (K-S) e Information Value (IV).
El estadı́stico K-S debiese ser alto, como indicador para separar las muestras, en este caso, los indi-
viduos que tienen ingresos menores de U S 50K y mayores de U S 50K. Del cuadro 2.1 se deduce que
las variables Estado Civil, Estado Parental y Edad son aquellas que mejor capacidad predictiva poseen,
seguidas por Horas de trabajo semanal, Sexo y Ganancia de Capital y donde la Raza y Pérdida de Cap-
ital presentan bajo poder para separar a los individuos con ingresos menores de U S 50K y mayores de
U S 50K.
Y en relación al estadı́stico Information Value, el cual plantea la capacidad de si la variable discri-

mina por si sola, este valor también debe ser alto. De esto se puede observar resultados similares a los
obtenidos por el K-S, donde la diferencia más importantes es en la variable Ganancia de Capital, la cual
posee capacidad discriminatoria muy inferior. Esto se puede deber a que como se observa en el gráfico
anterior, casi el 79 % de los individuos no poseen ganancias y comparando las poblaciones de ingresos
menores de U S 50K y mayores de U S 50K, no existe diferencia significativa.
33
Caracteristica K-S Inf. Value
Estado Civil 52,90 % 137,06 %
Relación Parental 52,30 % 154,16 %
Raza 8,88 % 8,79 %
Sexo 18,87 % 18,46 %
Edad 34,50 % 48,40 %
Ganancia de Capital 16,60 % 3,10 %
Horas trabajadas por semana 25,10 % 51,40 %
Pérdida de Capital 8,50 % 0,60 %
Cuadro 2.1: Resumen de los estadı́sticos obtenidos en descriptiva bivariada
Una vez analizado el comportamiento de los datos, se procede a modelar, primero a través del
modelo logı́stico, ya que este posee técnicas de selección de variables, lo cual permite obtener el mejor
modelo logı́stico posible y luego utilizar estas misma variables para modelar mediante las otras técnicas y
ası́ poder comparar las metodologı́as bajo el mismo escenario. Es de esperarse que al momento de realizar
la regresión logı́stica, las variables con mejores indicadores sean aquellas que ingresen al modelo.
2.6.2. Regresión Logı́stica
El modelo logı́stico se obtiene utilizando el método de selección de variables Stepwise. En cuanto

a la forma de inclusión de variables, las continuas se ingresaron sin cambiar su naturaleza, mientras que
las variables categóricas se traspasaron a dummy, dejando como categorı́a de referencia la que tuviese
una ”Tasa de Ingreso Mayor a U S 50K”más similar a la general.
El modelo resultante es:
d = −2,32 − 0,021 · Edad − 0,00025 · Ganancia de Capital − 0,00069 · Pérdida de Capital

g(x)
−0,04 · Horas de Trabajo Semanal + 15,93 · Casado/Conyuge/Ausente + 2,67 · Separado
+2,19 · Nunca Casado + 1,83 · Divorciado + 1,82 · Viudo + 1,96 · Hijo Único
34
Donde todas las variables, a excepción de la variable dummy ”Casado/Conyuge/Ausente” y el Inter-
cepto, son significativas con un 95 % de confianza. Además es importante mencionar que los valores de
los coeficientes, si bien no representan en general grandes ponderaciones, su signo es coherente con las
”Tasas de Ingreso Mayor a U S 50K” obtenidas en la estadı́stica descriptiva, es decir, si la variable Estado
Parental se consideró como base a la dummy ”Esposo” con una ”Tasa de Ingreso Mayor a U S 50K”de
55,39 % y la categorı́a Hijo Único con un 98,8 %, el signo de la variable dummy que representa tal cate-
gorı́a debiese ser positiva, lo cual ocurre.
Los estadı́sticos que se obtienen del modelo corresponden a un 58,1 para el K-S y un área bajo
la curva (ı́ndice C) de 85,45. Asociado a esto está el boxplot del modelo (figura 2.6), el cual presenta
gráficamente su buena capacidad de separar a las muestras.
Figura 2.6: Boxplot Modelo Logı́stico
Ahora, para seleccionar un punto de corte para dividir en individuos con ingresos menores de
U S 50K y mayores de U S 50K, se presenta la siguiente curva de ROC
35
Figura 2.7: Curva de ROC Modelo Logı́stico. Área bajo la curva de 85,45 %
Dada la forma de la curva, se observa una buena capacidad predictiva, donde si consideramos aprox-
imadamente una especificidad de 0,681 y una sensibilidad de 0,806, se considera un punto de corte de
0,65. Esto me indica que para valores de las probabilidades estimadas mayores a 0,65 nosotros clasifi-
caremos al individuo con ingresos menores de U S 50K. Considerando este corte se obtiene una tasa de
mala clasificación del 17,3 %.
2.6.3. Naı̈ve Bayes
Para la implementación de esta metodologı́a se introducirán todas las variables de manera categórica.
La variables se categorizarán como sigue:
Edad. 1 : 17 − 28 años, 2 : 29 − 47 años, 3 : 38 − 47 años, 4 : 48 − 90 años
Ganancia y pérdida de capital. 0:No, 1:Si
Horas de Trabajo Semanal. 1 : 1 − 40 hrs. , 2 : 41 − 45 hrs., 3 : 46 − 99 hrs.
Ahora, antes de mostrar el comportamiento del modelo, se explicará como funciona la metodologı́a,
considerando la misma base, pero sólo dos variables explicativas, la Edad y la Ganancia de Capital.
36
Para construir el clasificador se tiene que calcular P(Ingreso), P(Edad|Ingreso) y P(Ganancia de
Capital|Ingreso). Los resultados son los siguientes:
P (Ingreso)
Mayor50K 0,23
Menor50K 0,76
P (Edad|Ingreso)
17-28 29-37 38-47 48-90
Mayor50K 0,027 0,279 0,365 0,327
Menor50K 0,335 0,251 0,205 0,207
P (Ganancia de Capital|Ingreso)
No Si
Mayor50K 0,81 0,189
Menor50K 0,95 0,045
De esta forma, si deseamos calcular la probabilidad de clasificar a un individuo dentro de ingresos

superiores a U S 50K dado que tiene 21 años y no posee Ganancia de Capital corresponde a:
P (Ingreso mayor U S50K|Edad(17 − 28),No Ganancia de Capital)= P (Ingreso mayor U S 50K) ·

P (Edad(17 − 28) · P (No Ganancia de Capital)= 0,23 · 0,027 · 0,81 = 0,005
Lo cual parece ser lógico dada las caracterı́sticas del individuo.
37
Ahora, en relación al modelo general, se obtiene un K-S de 57,9 % y un I-V de 94,8, por lo que el
modelo posee una buena capacidad discriminativa, pero no hay que olvidar que los resultados obtenidos
se basan en independencia condicional. Gráficamente en la figura 2.8 se puede ver la clara separación de
las poblaciones utilizando este modelo.
Figura 2.8: Boxplot Naive Bayes
38
2.6.4. Árbol de Clasificación
Al igual que para el caso de Naı̈ve Bayes, todas las variables se ingresarán de manera categórica. El
árbol de clasificación que se obtiene es el siguiente:
Figura 2.9: Árbol de Clasificación
donde
La variable Ingreso está como categorizada como 0 :> 50K y 1 :≤ 50K.
Edad≥ 1,5 representa de los 29 a 90 años.
Ganancia de Capital≥ 1,5 se refiere a que si hay ganancia, de igual forma, Pérdida de Capital≥ 1,5
se refiere a que si hay pérdida.
Horas trabajadas por semana≥ 2,5 representa 46 a 90 horas trabajadas.
Estado parental≥ 5,5 corresponde al rol de Esposa.
Los indicadores que se obtienen del modelos corresponden a un K-S de 52,3 % y un porcentaje de
mala clasificación de 19,65 %, por lo tanto posee una buena capacidad discriminativa.
39
2.6.5. Support Vector Machines
Como se menciona anteriormente, las variables a ingresar en los modelos SVM, Naı̈ve Bayes y
Árbol de Clasificación corresponden a las variables ingresadas al modelo logı́stico mediante Stepwise,
las cuales son: Estado Civil (Casado-Conyuge-Ausente, Separado, Nunca Casado, Divorciado y Viudo),
Estado Parental (Hijo único), Edad, Horas semanales trabajadas, Ganancia y Pérdida de Capital.
Con la finalidad de obtener el mejor modelo, se entrena la SVM con distintos costos de penalización,
es decir C = {10, 102 , 103 , 104 } y se utilizan distintos kernel (Lineal, Polinomial y Gaussiano).
Es de esperarse que al aumentar el costo de penalización del error se obtendrán mejores modelos,
lo cual se reflejará en la disminución del porcentaje de mala clasificación ( % MC) y en el aumento del
estadı́stico K-S. Lo cual es posible observar en el cuadro 2.2, a excepción de cuando se utiliza C = 100
en el kernel Lineal y Polinomial.
Kernel C ] S.V. % M.C. K-S

Lineal 10 510 19.8 55.2
100 511 19.8 54.8
1000 512 19.8 56.6
10000 512 19.6 56.6
Polinomial 10 513 19.8 56.9
100 511 19.8 54.8
1000 512 19.7 56.8
10000 513 19.5 56.7
Gaussiano 10 563 16.6 62.1
100 523 15.0 63.5
1000 488 14.9 68.7
10000 486 14.8 67.4
Cuadro 2.2: Tabla comparativa de SVM con distintos kernel y costos C
Ahora, en relación a cual se considera el mejor modelo, hay que observar que aquellos con kernel
gaussiano, aún en el peor caso presentado, supera a los modelos con kernel Lineal y Polinomial. Es
por esto que dentro de los modelos propuestos utilizando Support Vector Machine se considerará el que
utiliza un kernel gaussiano. Esto se puede observar gráficamente en la figura 2.10, donde se presentan
los mejores modelos utilizando cada kernel, marcándose una mayor diferencia en los datos centrales de
40
ambas poblaciones, individuos con ingresos menores de U S 50K y mayores de U S 50K, en el modelo
con kernel gaussiano.
Dentro de los modelos Gaussianos se decide considerar el modelo con un costo de penalización por
errores de C = 1000, esto debido a que cuando C pasa de 1000 a 10000 las diferencias entre la tasa de
mala clasificación y el estadı́stico K-S de uno a otro no son importantes.
Figura 2.10: Gráfico comparativo de SVM: Kernel Lineal, Polinomial y Gaussiano
Es importante mencionar que los parámetros utilizados por cada kernel son estimados dada las car-
acterı́sticas de los datos de entrenamiento.
También se incluye en el cuadro 2.2 el número de vectores de soporte (SV) de cada modelo, esto
debido a que se espera que un buen modelo de clasificación tenga un número menor de SV, ya que en
caso contrario esto implicarı́a que la mayorı́a de las observaciones están sobre el margen de separación,
estando las poblaciones muy cerca, lo cual dificulta la correcta clasificación de las observaciones, o en
nuestro caso, de individuos.
Finalmente es importante mencionar, que este tipo de modelos va requiriendo un mayor costo de
computacional a medida que aumenta la constante C, al igual que el número de variables ingresadas al
modelo, esto debido a los algoritmos que se utilizan para optimizar y encontrar el hiperplano óptimo.
41
2.6.6. Comparación de Modelos
En esta sección el objetivo es comparar las metodologı́as planteadas y de manera preliminar ob-
servar las ventajas y desventajas que poseen entre ellas para ası́ optar por el mejor modelo, dada las
caracterı́sticas de la base de datos utilizada como ejemplo.
Para esto revisaremos indicadores tales el estadı́stico K-S, Gini, ı́ndice C y la tasa de mala clasifi-
cación para cada modelo y posterior a esto revisaremos la curva de ganancia asociada a cada modelo.
En el cuadro 2.3 se aprecia que todos los modelos se comportan de manera adecuada, sin embar-
go el modelo SVM que utiliza kernel gaussiano se destaca entre los otros en cada indicador, donde la
desventaja de esta metodologı́a radica en el hecho de que no posee coeficientes que me faciliten futuras
predicciones, sin embargo se pueden obtener probabilidades por lo cual no sólo me permite clasificar,
sino predecir. Por otro lado el costo computacional que puede traer cuando se ingresa un gran número
de variables y se le asigna un costo de penalización elevado puede traer una molestia, pero los resultados
que se obtienen sin duda son los mejores, esto debido a su capacidad de que el modelo se ajusta a los
datos y no los datos al modelo, siendo una ventaja de la estadı́stica no paramétrica.
K-S GINI Índice C % M.C.

Arbol 52,30 % 60,36 % 80,18 % 19,65 %
Naive Bayes 57,94 % 70,95 % 85,47 % 17,15 %
Logistico 58,10 % 70,90 % 85,45 % 17,30 %
SVM Lineal 56,63 % 66,53 % 83,26 % 19,80 %
SVM Polinomial 56,84 % 66,65 % 83,33 % 19,70 %
SVM Gaussiano 68,64 % 81,29 % 90,64 % 14,80 %
Cuadro 2.3: Tabla comparativa de los modelos implementados en la base de datos Adult
Ahora de manera gráfica, se observa en la figura 2.11 que dentro del 10 % primero de los individuos
con ingresos menores a US 50K, el modelo de regresión logı́stica se comporta mejor, sin embargo
posterior a ese 10 % el modelo SVM Gaussiano posee una ganancia superior a todos los modelos, esto
se refleja claramente cuando consideramos al 20 % de los individuos con ingresos menores a US 50K,
logro capturar al 90 % de los individuos con ingresos mayores a US 50K.
42
Figura 2.11: Gráfico de Ganancias: Comparación de los modelos implementados
43
C AP ÍTULO 3
Análisis de Predicción de Fuga de Clientes
3.1. Descripción del Estudio
El aumento de la oferta y la creciente información que disponen los consumidores, más capacitados
ahora para conocer lo que ofrece el mercado, está llevando a que, cada año, millones de clientes cambien
de proveedor en toda clase de productos o servicios, lo cual trae como consecuencia para las empresas, y
en este caso, para las instituciones financieras, el interés por conocer de que forma afectan estos cambios
o abandonos de parte del cliente, en particular, de aquellos que presentan una clara tendencia o compor-
tamiento favorable para la institución, considerándose entonces como buenos clientes.
Es importante recordar que la cartera de clientes es uno de los activos más importantes para una
institución financiera ya que afecta directamente sus utilidades, por esto para la institución es impor-
tante tener el conocimiento de cuales son aquellos buenos clientes que poseen una tendencia de fuga, y
ası́ poder aplicar estrategias para su retención, teniendo además en cuenta a cuales se les deben aplicar
polı́ticas de retención inmediatas o por el contrario, a cuales se les deben aplicar estrategias a mediano
plazo o mantener en observación, lográndose esto a través de una segmentación de clientes de acuerdo a
que tan fuerte sea esta tendencia de abandono, analizando además cuales son las posibles pérdidas que
ocasionarı́an para la institución financiera el abandono de los clientes de cada segmento.
De esta forma, considerando la importancia del conocimiento de la información antes mencionada,

es que se plantean diversas metodologı́as de clasificación, siempre apuntando a la obtención del mejor
modelo, para ası́ poder identificar cuales son los clientes que efectivamente poseen o no poseen tendencia
de fuga. Para esto, es que se utiliza la base de datos que se describe a continuación.
44
3.2. Descripción de la base de datos
La información de los clientes considerada para la clasificación fue recogida entre los años 2006 y
2007. Por razones de privacidad de la Institución Financiera al cual pertenecen los datos, no se realiza
una descripción de los atributos que se consideran para la clasificación. Estos atributos o caracterı́sticas
de los clientes se agrupan en: Caracterı́sticas sociodemográficas, como por ejemplo la variable Renta
y Edad; Indicadores económicos, como el Walletshare, que corresponde a cuanto de la deuda total del
cliente corresponde a la institución financiera que le presta el servicio; y en Caracterı́sticas bancarias,
está el Número de Acreedores, que es el número de instituciones en las que el cliente se encuentra en-
deudado.
La base de datos cuenta con 374 variables, dentro de las cuales, 1 corresponde a formas de identi-
ficar al cliente, 3 se utilizan como criterio de selección de los clientes que se desean analizar, correspon-
dientes a aquellos que se consideran como buenos clientes, 12 se utilizan para la creación de la variable
dependiente ”Tendencia del Cliente” y las 358 variables restantes corresponden a las posibles variables
explicativas a utilizarse en el modelamiento.
Con el fin de obtener un número semejante de observaciones de clientes con tendencia a la fuga y sin
esta tendencia, es que trabaja en un comienzo sobre un muestra balanceada, ya que el número original de
ocurrencias de clientes con tendencia a la fuga corresponde al 1,4 % de la totalidad de los buenos clientes
a analizar, donde al estudiarse un evento con una ocurrencia tan baja, podrı́an obtenerse resultados afec-
tados por esta condición. Este balance se efectúa considerando la totalidad de clientes con tendencia a
la fuga, correspondiente a 2241 casos y realizando un muestreo aleatorio simple entre los clientes sin
tendencia a la fuga, se seleccionan 2241 casos, obteniéndose una muestra de 4482 observaciones.
3.3. Análisis Descriptivo
El análisis descriptivo se realiza en el software estadı́stico SPSS 15.0 y consta de dos etapas: detec-
tar variables que posean datos missing y conocer la capacidad discriminativa de las potenciales variables
explicativas a modelar.
En primera instancia se revisa si las variables poseen datos faltantes, donde la falta de datos se utiliza
como información de la variable y no como la pérdida de esta, ya que la no información en su mayorı́a es
causada debido a que el cliente no posee una determinada caracterı́stica. Es por esto que al dato faltante
se le asigna un valor fijo que representa su condición de missing.
45
Posterior a esto, se realizó un análisis descriptivo bivariado, ya que es de interés conocer el com-
portamiento de las variables en relación a la variable de interés ”Tendencia del Cliente”. Este análisis
consta, entre otros, en la obtención del estadı́stico K-S (Kolmogorov-Smirnov), el cual nos permite eval-
uar la capacidad que posee una determinada variable para discriminar entre clientes con o sin tendencia
a la fuga. Para esto, las variables continuas fueron categorizadas, mientras que las variables ordinales y
nominales se mantuvieron con la misma estructura.
Debido a que se posee una gran cantidad de variables explicativas, se presenta el análisis descriptivo
sólo de aquellas variables que presentaron un K-S mayor a 5 % y/o que son de interés para la Institución
Financiera. Estas variables las denotaremos como V1 , V2 , . . . , V15 y el detalle del análisis de estas se en-
cuentra en el Anexo A.2.1. Del cuadro 3.1, que a continuación muestra, podemos ver que en general los
valores del estadı́stico K-S son bajos, ya que se esperarı́a obtener variables donde este indicador fuese los
más cercano al 100 %. En este caso, casi el 50 % de las variables se encuentra bajo el 10 %, rescatando
las variables V2 , V10 , V8 , V4 , V1 y V15 como aquellas que presentarı́an una mayor capacidad de discrim-
inación entre las poblaciones de clientes con tendencia de fuga y no fuga. Es importante notar, que no
siempre que se tiene un alto K-S se tendrá además un alto Information Value, ya que el concepto de este
último indicador se relaciona con la cantidad de información que aporta la variable al modelo. Lo ideal
es que ambos indicadores sean altos y es por esto que las variables antes mencionadas se presentaron en
ese orden, partiendo por la que más podrı́a discriminar por si sola.
46
K-S Inf. Value
V1 10, 23 % 4, 64 %
V2 16, 34 % 13, 71 %
V3 8, 12 % 2, 91 %
V4 10, 71 % 5, 03 %
V5 5, 89 % 1, 91 %
V6 3, 61 % 2, 40 %
V7 5, 18 % 3, 30 %
V8 11, 84 % 6, 87 %
V9 7, 14 % 2, 84 %
V10 13, 92 % 12, 77 %
V11 8, 12 % 3, 43 %
V12 9, 50 % 5, 44 %
V13 3, 35 % 1, 76 %
V14 5, 53 % 2, 27 %
V15 10, 40 % 0, 11 %
Cuadro 3.1: Análisis Descriptivo Muestra Balanceada
Hay que tener claro que esto se presenta como un análisis previo al modelamiento, presentándose
como una descripción de variables y no como un criterio de selección de estas.
47
3.4. Modelos Ajustados a los Datos
3.4.1. Selección de Variables
Para que los modelos obtenidos mediante las distintas metodologı́as sean comparables se utilizarán
las mismas variables en cada uno de ellos, donde buscando el mejor ajuste e interpretación en cada una
de las metodologı́as se ingresarán como variables continuas, categóricas o transformadas en variables
Dummies. Las variables a utilizarse serán seleccionadas en el Análisis de Regresión Logı́stica.
3.4.2. Regresión Logı́stica
Previo a realizar el modelamiento de Regresión, se transformaron las variables en dummies para su

mejor interpretación en el modelo, dejando como categorı́a de referencia la que tuviese una Tasa de Fuga
más similar a la general, correspondiente en este caso al 50 %.
Es importante mencionar para una lectura más clara del modelo, que los nombres de las variables
dummies será de la forma Vi cj , donde i corresponde a la identificación de la variable proveniente y j
indica la categorı́a que esta representa dentro de la variable Vi . Esto se encuentra determinado dentro del
detalle del análisis descriptivo bivariado que se encuentra en el Anexo A.2.1.
Se obtiene un modelo logı́stico en el software SPSS 15.0 utilizando el método de selección de va-
riables Stepwise, modelando la No Fuga de Clientes. Posterior a esto, para perfeccionar el modelo, es
adecuado revisar la coherencia entre los coeficientes del modelo obtenidos y las Tasas de Fuga de acuerdo
a la categorı́a seleccionada como referencia en cada variable, eliminando aquella categorı́a (representada
en una variable dummy) que no cumpla con lo establecido. Con coherente se refiere a cuando el coefi-
ciente de una variable es positivo y a su vez, la tasa de fuga de esa variable es mayor a la tasa de fuga de
la variable dejada como base o de referencia, y por el contrario cuando el coeficiente de una variable es
negativo.
Luego de este análisis, se obtiene el modelo presentado en la tabla 3.2 y sus indicadores de discrim-
inancia son un K-S de 21,87 % y un IV de 30,6 %, lo cual plantea que el modelo presenta un nivel de
discriminancia moderado.
Ahora para evaluar si el modelo obtenido es adecuado para la población de clientes, se ajusta el mo-
delo a la base completa, realizándose previamente un análisis descriptivo similar al aplicado a la muestra
balanceada (Los resultados de esta se encuentran en Anexo A.2.2.), de esto se obtiene que los datos pre-
sentan un comportamiento similar en ambos casos, lo cual nos permite hacer coherente la aplicación del
48
modelo obtenido de la muestra a la base completa, sin embargo, los resultados obtenidos en el modelo
no fueron los esperados debido a la gran variación de las ponderaciones de cada variable entregadas por
el modelo, por lo cual se ajustó un nuevo modelo, donde ingresaremos las mismas variables usadas en el
modelo antiguo. Este último modelo es el que se consideró como modelo final, con un K-S de 18,93 % y
un IV de 22,9 %. La descripción del modelo se encuentra en el cuadro 3.2, donde se observa que si bien
los indicadores son menores al modelo obtenido en la muestra, cumple también con la coherencia de los
signos de los coeficientes en relación a las respectivas tasas de fuga.
Muestra Base Completa

Variables Coeficiente Significancia Coeficiente Significancia
V1 c1 0,080 0,56 0,067 0,52
V1 c3 -0,351 0,00 -0,244 0,00
V2 cna 0,874 0,01 0,536 0,04
V2 c1 0,372 0,00 0,365 0,00
V2 c3 -0,231 0,00 -0,153 0,00
V5 c2 0,254 0,00 0,182 0,00
V6 c2 0,823 0,00 0,630 0,00
V7 c1 -0,098 0,40 -0,160 0,03
V7 c3 0,492 0,00 0,415 0,00
V9 c1 -0,397 0,00 -0,282 0,00
V9 c3 0,028 0,72 0,045 0,41
V10 c1 -0,158 0,05 -0,004 0,94
V10 c4 0,251 0,01 0,279 0,00
Constante 0,051 0,53 4,174 0,00
Cuadro 3.2: Comparación de los Modelos Logı́sticos obtenidos en la muestra y la base completa
Finalmente, como es posible que el costo computacional al utilizar la base de datos completa sea
muy alto, se tomarán 3 muestras, incluyendo la tomada para el análisis previo, en las cuales se realizarán
los diversos modelamientos y comparación resultados. En estas muestras al igual que para la muestra
tomada inicialmente, se considerarán todos los casos de clientes con tendencia a fuga y una muestra de
clientes sin esta tendencia, completando una muestra balanceada de 4482 casos.
Cabe mencionar que como se toman 3 muestras, es necesario realizar cierta validación de estas,
para asegurarnos si las muestras son representativas de nuestra población total de clientes. Esto se re-
49
alizará comparando los modelos obtenidos en cada muestra, esperando que los resultados sean similares.
Es por esto que a continuación se presenta el modelo logı́stico final aplicado a las 3 muestras. Los resul-
tados obtenidos se presentan en la siguiente tabla:
Base Completa Muestra 1 Muestra 3 Muestra 2

Variables Coeficientes del Modelo
V1 c1 0,067 0,080 0,041 0,087
V1 c3 -0,244 -0,351 -0,336 -0,362
V2 cna 0,536 0,874 0,631 0,895
V2 c1 0,365 0,372 0,496 0,377
V2 c3 -0,153 -0,231 -0,116 -0,195
V5 c2 0,182 0,254 0,231 0,244
V6 c2 0,630 0,823 0,797 0,812
V7 c1 -0,160 -0,098 -0,042 -0,118
V7 c3 0,415 0,492 0,509 0,487
V9 c1 -0,282 -0,397 -0,300 -0,397
V9 c3 0,045 0,028 0,101 0,025
V10 c1 -0,004 -0,158 -0,013 -0,165
V10 c4 0,279 0,251 0,226 0,253
Constante 4,174 0,051 -0,099 0,053
Cuadro 3.3: Comparación de los coeficientes de los Modelos Logı́sticos obtenidos en la base completa y
las muestras 1, 2 y 3
Podemos observar que los coeficientes mantienen el mismo signo y el valor es similar entre las
muestras y con los coeficientes del modelo final, correspondiente al modelo con la base completa. Esto
ocurre a excepción de los interceptos, lo cual no es de mayor importancia ya que no son significativos. Se
consideran además los intervalos de confianza del 95 % de los coeficientes β en las 3 muestras. De ma-
nera gráfica en las figuras 3.1 y 3.2 se observa que los intervalos obtenidos para cada variable dentro de
las muestras se cruzan, es decir, las ponderaciones estimadas para cada atributo del cliente se encuentran
en un intervalo similar, concordando con las conclusiones de similitud en los resultados obtenidos en las
3 muestras al observar los valores de cada coeficiente. Cabe mencionar que la similitud entre la muestra
1 y 2 es mayor que la existente con la tercera muestra. Más detalle de los Intervalos de Confianza en el
anexo A.3.
50
Figura 3.1: Intervalos de Confianza del 95 % de los coeficientes β en las 3 muestras
51
Figura 3.2: Intervalos de Confianza del 95 % de los coeficientes β en las 3 muestras
En relación a sus indicadores (cuadro 3.4) se observa una similitud, siendo la primera muestra la
cual presenta los mejores resultados en cuanto a su discriminancia, es decir, posee una mayor capacidad
de discriminar a los clientes con y sin tendencia de fuga (K-S) y la información que entrega el modelo
también es mayor (IV).
Base Completa Muestra 1 Muestra 3 Muestra 2

K-S 18,93 % 21,87 % 20,57 % 21,42 %
I-V 22,9 % 30,60 % 26,70 % 29,70 %
Cuadro 3.4: Comparación de los Indicadores de los Modelos Logı́sticos obtenidos en la base completa y
las muestras 1, 2 y 3
52
Se observa además el comportamiento de las predicciones en la figura 3.3, las cuales son muy seme-
jantes, debido a que las medianas son similares en los 3 casos y en general, la distribución y variabilidad
de las poblaciones son muy parecidas. A través de estos boxplot también es posible comprender el porque
se obtienen bajos valores del estadı́stico K-S, ya que las medianas de ambas poblaciones son cercanas
y las cajas del gráfico se cruzan. En el caso de que las cajas no se cruzaran uno podrı́a esperar que los
modelos obtuvieran mejores indicadores.
Figura 3.3: Boxplot: Comparación del modelo logı́stico en las 3 muestras
Mı́nimo 1er Cuartil Mediana Media 3er Cuartil Máximo

Muestra 1 0,234 0,400 0,495 0,500 0,587 0,888
Muestra 2 0,235 0,396 0,492 0,500 0,586 0,888
Muestra 3 0,288 0,393 0,475 0,500 0,590 0,873
Cuadro 3.5: Medidas de Tendencia Central y de Posición: Modelo Logı́stico
53
Y finalmente revisaremos las curvas ROC y sus áreas bajo la curva. Podemos ver en la figura 3.4
que dada la forma de la curva, los modelos no presenta una buena capacidad predictiva, donde para de-
terminar un punto de corte comparable en los 3 casos, consideraremos una sensibilidad de 0,609 y una
especificidad de 0,601 en la primera muestra, lo cual nos entrega un punto de corte de 0,494. Esto nos
indica que para probabilidades superiores a este punto consideraremos a los clientes con una tendencia
de no fuga, y de fuga en caso contrario. Tomando este punto de corte para los modelos de las 3 muestras
se obtiene un porcentaje de mala clasificación como se observa en el cuadro 3.6, donde en los 3 casos se
obtienen tasas similares, lo cual también sucede con el área bajo la curva.
Figura 3.4: Curva ROC: Comparación del modelo Logı́stico en las 3 muestras
54
Índice C % MC
Muestra 1 0,6342 39,53
Muestra 2 0,6448 39,49
Muestra 3 0,6471 39,98
Cuadro 3.6: Comparación de Índice C y Porcentaje de Mala Clasificación para los 3 modelos
En base a todo el análisis anterior, podemos concluir que la variabilidad de la población de buenos
clientes se puede captar a través del muestreo, ya que las muestras arrojan modelos muy similares entre
ellos.
3.4.3. Árboles de Clasificación
En esta sección se utiliza el software Clementine 8.1., que corresponde a un complemento del soft-
ware SPSS. Para la obtención de los árboles de clasificación ingresaremos las variables de forma continua
en las 3 muestras, para luego compararlos de manera gráfica y mediante sus indicadores de discriminan-
cia. El algoritmo utilizado fue C.5 obteniéndose los árboles que se muestran en las figuras 3.5, 3.6 y 3.7.
Podemos ver que los árboles de clasificación entrenados con las muestras 1 y 2 poseen las mismas
reglas de clasificación, lo cual no ocurre con el árbol de la tercera muestra, ya que a pesar de que los
nodos terminales provienen de las mismas variables, V6 y V9 , las reglas de clasificación iniciales se crean
a partir de otras variables. Debido a esto, podrı́amos pensar que la muestra 3 es distinta a las otras, y
por ende, debemos tener cuidado si esta tendencia se repite en los otros modelos, ya que traerı́a como
consecuencia que la población de clientes presenta un variabilidad que no es posible captarla a través de
muestreos.
55
Figura 3.5: Árbol de Decisión correspondiente a la Muestra 1
56
57
58
En relación a los indicadores de los modelos, podemos ver que son bastante similares, a excepción
del Coeficiente de Gini e Índice C de la tercera muestra, lo cual refleja la diferencia que esta muestra
tiene en relación a las otras. En general, los árboles de clasificación presentan indicadores bajos, por lo
que su poder de discriminación no es muy bueno.
M1 M2 M3
K-S 21,3 % 21,0 % 21,4 %
IV 21,6 % 21,2 % 21,4 %
Gini 22,53 % 22,30 % 17,14 %
Indice C 61,27 % 61,15 % 58,57 %
%MC 39,36 % 39,51 % 37,51 %
Cuadro 3.7: Comparación de los 3 árboles de clasificación en relación a sus Indicadores
59
3.4.4. Naı̈ve Bayes
Para la aplicación de esta metodologı́a se utiliza el Software R 2.5.1., introduciendo las variables
categorizadas para su mejor interpretación. Para realizar una comparación entre los modelos obtenidos
en las 3 muestras se presentan los siguientes Boxplot separados de acuerdo a la tendencia del cliente en
relación a la fuga, esto para ver la discriminación de los distintos modelos.
Figura 3.8: Boxplot: Comparación del modelo Naive Bayes en las 3 muestras
60
Mı́nimo 1er Cuartil Mediana Media 3er Cuartil Máximo
Muestra 1 0,138 0,334 0,481 0,499 0,661 0,923
Muestra 2 0,138 0,338 0,481 0,499 0,660 0,922
Muestra 3 0,179 0,340 0,453 0,498 0,668 0,918
Cuadro 3.8: Medidas de Tendencia Central y de Posición: Modelo Naive Bayes
De la figura 3.8 y del cuadro 3.8 se observa que los 3 modelos son muy similares, ya que las proba-
bilidades estimadas se presentan con rangos y medianas similares en todos los casos. Coherente con esto
se presentan los indicadores del cuadro 3.9, tomando casi los mismos valores en cada muestra.
M1 M2 M3
K-S 21,7 % 21,5 % 19,7 %
IV 46,5 % 47,9 % 46,0 %
% MC 39,22 % 39,37 % 40,85 %
Cuadro 3.9: Comparación de las 3 muestras en relación a sus Indicadores
Por otro lado, se revisan las probabilidades estimadas de cada variable, esto en las 3 muestras. A
modo de ejemplo se presenta en los cuadros 3.10 y 3.11 la comparación de las variables V5 y V6 , las
demás se encuentran en el anexo A.4. Podemos ver que las probabilidades son casi idénticas, lo cual
ocurre también con el resto de las variables.
Y es en base a esto que se concluye que las muestras tomadas son similares entre ellas y por ende
representativas de la población de clientes.
Muestra 1 Muestra 2 Muestra 3

1 2 1 2 1 2
Fuga 0,7916109 0,2083891 0,7902722 0,2097278 0,7893797 0,2106203
No Fuga 0,7304775 0,2695225 0,7300312 0,2699688 0,7340473 0,2659527
Cuadro 3.10: Comparación de las Probabilidades Estimadas de la Variable V5 en las 3 muestras
61
Muestra 1 Muestra 2 Muestra 3
1 2 1 2 1 2
Fuga 0,95850067 0,04149933 0,9589469 0,0410531 0,96117805 0,03882195
No Fuga 0,92235609 0,07764391 0,92369478 0,07630522 0,92904953 0,07095047
Cuadro 3.11: Comparación de las Probabilidades Estimadas de la Variable V6 en las 3 muestras
3.4.5. Support Vector Machines
Para la aplicación de esta metodologı́a se utiliza el Software R 2.5.1. Con la finalidad de obtener el
mejor modelo, se entrena la SVM con distintos costos de penalización, es decir C = {1, 10, 102 , 103 , 104 },
utilizando los kernel Lineal y Gaussiano e ingresando las variables continuas, categorizadas y dummies
sin mezclarlas. Se entrenarán las 3 muestras de igual forma, donde primero se realizará la comparación
entre modelos dentro de la misma muestra y posteriormente la comparación de los mejores modelos en-
tre muestras, seleccionándose finalmente el modelo óptimo, el cual se comparará posteriormente con las
otras metodologı́as.
Los resultados obtenidos en la primera muestra se presentan en el cuadro 3.12 donde se puede ob-
servar que para el caso continuo, se obtienen mejores resultados cuando se utiliza el Kernel Gaussiano,
lo cual indica que el comportamiento de los datos no es lineal, esto se confirma en el hecho que mientras
mayor sea la ponderación dada a la parte no lineal del problema de optimización, correspondiente al
costo C, mejor son los indicadores, pasando de un K-S de 29 % a 45,4 %, de un porcentaje de mala clasi-
ficación ( %MC) de 36,12 % a 27,7 %, donde también disminuye la cantidad de vectores de soporte, lo
cual significa que la separación entre ambas poblaciones, en nuestro caso, de fuga y no fuga de clientes,
es mayor. En contraste con el Kernel Gaussiano, el caso con Kernel Lineal no presenta una mejorı́a al
aumentar la ponderación del caso no lineal dentro del problema de optimización, manteniéndose casi
constante ha medida que se aumenta el costo. Se intentó aumentar el costo para el caso del Kernel Gaus-
siano para evaluar si se conseguı́a obtener un modelo mejor, pero el costo computacional cuando se
utilizan costos superiores al 10.000 es muy alto, por lo cual no fue posible revisar si seguı́a mejorando o
lograba una estabilización, como ocurre con el caso lineal.
62
VARIABLES CONTINUAS
C K-S %MC Número de VS
Kernel Lineal 1 21,0 % 43,10 % 3.906
10 21,0 % 40,87 % 3.987
100 21,0 % 40,85 % 3.941
1.000 21,0 % 40,83 % 3.939
10.000 21,1 % 40,71 % 3.942
Kernel Gaussiano 1 29,0 % 36,12 % 3.653
10 32,1 % 34,13 % 3.550
100 34,5 % 32,95 % 3.477
1.000 37,8 % 31,28 % 3.408
10.000 37,2 % 30,58 % 3.339
100.000 41,7 % 29,36 % 3.220
Cuadro 3.12: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 1
Para el caso de las variables Discretas (Cuadro 3.13), al igual que para el caso anterior, el Kernel
Gaussiano se presenta con mejores caracterı́sticas que el Kernel Lineal , pero el Kernel Gaussiano al
aumentar el costo C no mejora tan sustancialmente como con las variables continuas, obteniéndose un
K-S máximo de 32 %, con una tasa de mala clasificación del 34 %. En relación a los resultados con Ker-
nel Lineal, nuevamente se observa que los indicadores se mantienen constantes y además, para costos
superiores a 100 el costo computacional que se requiere es muy alto, traduciéndose en que el tiempo que
se necesita para correr el programa excede las 5 horas, no lográndose obtener resultados para el costo
1.000 y 10.000.
63
VARIABLES CATEGORIZADAS
Kernel Lineal 1 20,3 % 40,00 % 3.828
10 21,0 % 39,64 % 3.838
100 20,9 % 39,87 % 3.829
1000 COSTO COMPUTACIONAL MUY ALTO
10 28,1 % 36,16 % 3.600
100 30,3 % 35,02 % 3.538
1000 31,7 % 34,24 % 3.516
10000 32,0 % 34,02 % 3.455
Y finalmente, en relación a los resultados obtenidos con las variables Dummies (Cuadro 3.14) se
mantiene que los resultados con Kernel Gaussiano son mejores que con el Kernel Lineal. Pero en este
caso, la mejorı́a de los indicadores sólo se observa pasado del costo 1 al 10, posteriormente el aumento
del costo no representa una mejorı́a del modelo, obteniéndose un K-S máximo de 29,8 % y un porcentaje
de mala clasificación de 35 %. Y en cuanto a los resultados del Kernel Lineal, se comportan de manera
muy similar al categorizado, disminuyendo levemente los indicadores, pero a su vez disminuye el número
de Vectores de Soporte, lo cual es favorable para el modelo.
64
VARIABLES DUMMY
Kernel Lineal 1 20,1 % 40,37 % 3.770
10 19,6 % 40,87 % 3.795
100 20,0 % 40,87 % 3.779
10 29,0 % 35,47 % 3.516
100 29,0 % 35,09 % 3.448
1000 29,8 % 35,09 % 3.442
10000 29,8 % 35,09 % 3.416
Finalmente para comparar los 3 casos, se presentan los siguientes gráficos que comparan los es-
tadı́sticos K-S obtenidos ha medida que aumenta el costo para las variables Continuas, Categorizadas
y Dummies. Podemos ver en la figura 3.9, que los modelos entrenados con el Kernel Gaussiano son
mejores que con el Kernel Lineal, esto se ve reflejado en que al aumentar el costo en los tres casos, la
curva del K-S es más alta. Además es importante notar que el Kernel Gaussiano cuando es entrenado
además con las variables continuas presenta una notable mejorı́a en sus indicadores, en este caso repre-
sentados a través del K-S, lo cual no ocurre cuando se utilizan los otros tipos de variables ni cuando se
entrena con el Kernel Lineal.
65
Figura 3.9: Gráfico Comparativo del Modelo SVM utilizando las variables Continuas, Categorizadas y
Dummies K-S versus C. Muestra 1
Ahora, revisaremos que ocurre con el comportamiento de las 3 muestras. De las figuras 3.10 y 3.11
podemos ver que las 3 muestras presentan un comportamiento similar, por lo tanto estas muestras son
similares entre ellas y representativas de la población. El detalle de los resultados de la muestra 2 y 3 se
encuentra en el anexo A.5.
Por otro lado, al aumentar el costo, independiente del tipo de variable, el K-S llega a un punto donde
deja de crecer, lo cual se traduce en que se ha encontrado el mejor modelo, y por ende que no es posible
encontrar un mejor modelo a partir de un determinado costo. Es por esto que la tarea es encontrar el costo
C que minimize el costo computacional y que a su vez maximize los resultados del modelo. Además,
se presenta el mismo comportamiento con el Kernel Gaussiano y las variables continuas, lo que podrı́a
representar una ventaja cuando se poseen variables continuas.
66
67
Por último, antes de pasar a la etapa de comparación de modelos, dada la gran cantidad de modelos
obtenidos de SVM, se seleccionan 2, los más óptimos utilizando el Kernel Lineal y Gaussiano. Estos
son el SVM con Kernel Lineal y un costo de C = 100 y el SVM con Kernel Gaussiano con un costo de
C = 10000, ya que como se plantea anteriormente, logran minimizar el costo computacional y a su vez
maximizar su poder de discriminación entre los clientes fugados y no fugados.
3.5. Predicción de Nuevos Clientes
En esta sección se presentan los resultados obtenidos al predecir la tendencia de nuevos clientes uti-
lizando las 4 metodologı́as utilizadas en el desarrollo de la tesis. Esto permitirá una mejor comprensión
del estudio, además de ser otro punto a evaluar al momento de seleccionar un modelo como el óptimo.
Al momento de predecir, el modelo logı́stico, naı̈ve bayes y el árbol de clasificación nos entregan
una regla visible del como predecir, ya sea a través de ponderaciones para las variables o de reglas de
decisión. En el caso de support vector machines, si bien el modelo no entrega una regla tangible, si nos
permite predecir. Esto se logra entrenando el modelo con la base original, pero ingresando las clientes
que se desean predecir para la estimación de las probabilidades y clasificación en las respectivas clases.
Consideremos para la predicción 10 clientes nuevos, a los cuales se les calcula su probabilidad de
fuga y grupo de pertenencia. Los resultados obtenidos se encuentran en el cuadro 3.15, donde se ob-
serva que la tasa de mala clasificación se mantiene similar a los resultados obtenidos en la muestra de
entrenamiento, donde el Support Vector Machine con kernel gaussiano mantiene una tasa de mala clasi-
ficación inferior a las demás metodologı́as. Por otro lado, se observa que tanto para Naı̈ve Bayes como
SVM, existen casos donde la probabilidad de fuga es baja, sin embargo se clasifican como No Fugados.
Esto ocurre ya que tanto las probabilidades de fuga como no fuga del cliente son bajas, pero de igual
forma se clasifica en la clase de más alta probabilidad. En relación al árbol de clasificación podemos ver
que dentro de las metodologı́as utilizadas es la única en la cual no se puede estimar la probabilidad de
fuga.
68
LOGIT NAIVE BAYES SVM GUASSIANO ÁRBOL
ID Tend. Clasificación Probabilidad Clasificación Probabilidad Clasificación Probabilidad Clasificación
1 NF F 0,3908984 NF 0,38193259 NF 0,68743576 F
2 F F 0,45591784 NF 0,41161329 F 0,65570108 F
3 F F 0,25238661 F 0,18885962 F 0,64265538 F
4 NF NF 0,75876536 NF 0,81311525 NF 0,62498978 NF
5 F NF 0,50645563 F 0,57586629 F 0,62120765 NF
6 NF NF 0,65536207 F 0,57055685 NF 0,61910148 NF
7 NF F 0,39953138 NF 0,33474733 NF 0,6076523 F
8 NF NF 0,66732508 F 0,72384956 NF 0,60086324 F
9 NF NF 0,74424344 NF 0,8248319 NF 0,5993399 NF
10 F NF 0,48585974 NF 0,42971644 F 0,59723286 F
11 NF NF 0,69309545 F 0,77062029 F 0,40236587 NF
12 F NF 0,53335206 F 0,39445216 F 0,40077106 NF
13 NF F 0,43108289 NF 0,39008915 NF 0,39864258 F
14 F F 0,44879438 NF 0,43108622 F 0,39079611 F
15 F F 0,29832361 NF 0,2445403 NF 0,38536347 F
16 NF NF 0,68640319 NF 0,5711811 NF 0,36074444 NF
17 NF NF 0,61277908 NF 0,48582364 NF 0,36067726 NF
18 F F 0,46397831 NF 0,41253752 F 0,35901649 F
19 F F 0,36793864 NF 0,29888561 NF 0,33722186 F
20 NF NF 0,58008576 NF 0,69114677 F 0,31180138 NF
%MC 30 % 45 % 20 % 30 %
Cuadro 3.15: Tabla de las probabilidades estimadas de no fuga y clasificación de los 10 nuevos clientes.
F=Fuga y NF=No Fuga
Y finalmente este análisis permite comprender que a pesar de que el SVM se considera una caja
negra por no entregar información tangible para la estimación de probabilidades, de igual forma nos
permite la predicción asociada a nuevos clientes, pudiendo ser considerada como metodologı́a para este
estudio.
69
3.6. Comparación de Modelos
Como fue posible concluir en la sección anterior, en todas las metodologı́as se obtienen mode-
los similares en las 3 muestras, de esta forma concluimos que las muestras son representativas de la
población total de clientes, los cuales en nuestro caso corresponden a un perfil de buen cliente. Esto nos
permite realizar la comparación de los modelos obtenidos por las distintas metodologı́as analizando tan
sólo los resultados obtenidos en una de las muestras analizadas, permitiéndonos generalizar los resulta-
dos obtenidos a la población total de clientes. Se considera para esto la primera muestra y sus análisis.
Para realizar la comparación entre las metodologı́as planteadas revisaremos los indicadores tales
como el estadı́stico K-S, Coeficiente de Gini, ı́ndice C y la tasa de mala clasificación para cada modelo
y posteriormente se revisará la curva de ganancia asociada a cada uno de estos. De esta forma podremos
observar cual de los modelos se comporta mejor, analizando posteriormente sus ventajas y desventa-
jas para ası́ optar por el modelo que mejor nos permita predecir la tendencia del cliente. Es importante
mencionar que como las metodologı́as Naı̈ve Bayes y Support Vector Machine nos entregan las probabi-
lidades asociadas a la fuga y no fuga del cliente, se selecciona para el análisis la probabilidad asociada a
la no fuga para ser coherentes con el estudio
En el cuadro 3.16 se encuentran los indicadores antes mencionados, donde claramente se observa la
mejor capacidad de discriminancia (K-S, IV), predicción (Índice C) y de mala clasificación ( % MC) del
modelo SVM con Kernel Gaussiano. Es importante seleccionar un modelo con un K-S mı́nimo de 30 %,
lo cual ocurre unicamente con el modelo antes mencionado, por lo que podemos estar en condiciones de
utilizarlo para la predicción de fuga de clientes. Por otro lado, como era de esperarse, los resultados para
el modelo de regresión logı́stica son similares con el SVM con kernel lineal, ya que ambos se basan en
una estructura lineal. Pero en general los modelos presentan indicadores muy semejantes, resultando el
SVM Gaussiano como nuestra primera alternativa de modelamiento.
K-S GINI Índice C % M.C.

Arbol 21,29 % 22,53 % 61,27 % 37,51 %
Naive Bayes 21,73 % 27,88 % 63,94 % 39,22 %
Logistico 22,00 % 29,42 % 64,71 % 39,53 %
SVM Lineal 20,84 % 27,79 % 63,90 % 39,87 %
SVM Gaussiano 41,86 % 57,04 % 78,52 % 29,36 %
Cuadro 3.16: Tabla comparativa de los modelos implementados para la Predicción de Fuga de Clientes
70
Gráficamente también podemos observar que los modelos se comportan muy similares, a excepción
del SVM Gaussiano, el cual si bien no presenta una curva suavizada, si alcanza mejores resultados.
(Figura 3.12)
Figura 3.12: Gráfico de Ganancias: Comparación de los modelos implementados
Finalmente, se realiza un resumen de las caracterı́sticas de cada metodologı́a, ya que al igual que
los resultados en cuanto al poder de discriminación de cada modelo y el conocimiento de las ventajas y
desventajas de cada uno de ellos al momento de interpretar o implementar, presenta un factor importante
para la toma de decisión del mejor modelo.
En cuanto al modelo logı́stico, el hecho de ser una técnica clásica y ampliamente utilizada posee
la ventaja de ser de fácil implementación en las distintas áreas y empresas de trabajo, permitiendo a su
vez una simple interpretación del modelo, ya que la metodologı́a nos entrega la ponderación que posee
cada variable dentro del este, llevándonos a conocer de manera clara la importancia de cada variable
en relación a la probabilidad estimada y clasificación del cliente en una tendencia de fuga o no fuga.
Además al permitirnos la obtención de las ponderaciones de cada variable, es posible la creación de una
ScoreCard, que consiste en un grupo de las caracterı́ticas determinadas para predecir, en nuestro caso, la
fuga o no fuga de clientes, donde a cada atributo se le asignan puntos basados en un análisis estadı́sticos,
ası́ el puntaje total de un cliente será la suma de los puntajes para cada atributo presente en la ScoreCard.
De esta forma, la toma de decisiones se basará en el puntaje total del cliente, resultando simple crear
71
una segmentación de clientes y una forma estándar de evaluar a estos. Por otro lado, esta metodologı́a
incluye un método de selección de variables, lo cual ayuda a optimizar los recursos computacionales
y a minimizar la cantidad de variables que ingresan al modelo, eliminando aquellas que entreguen un
menor aporte al resultado final. Pero su desventaja es que debido a que es un modelo que forma parte de
los Modelos Lineales Generalizados, asume una linealidad que muchas veces no existe, lo cual lleva a
obtener indicadores más bajos y por lo tanto, una menor capacidad predictiva y/o de discriminación de
los clientes.
Revisando ahora las caracterı́sticas que posee el árbol de clasificación, lo primero que sale a relucir
es su simplicidad, ya que gracias a su representación gráfica permite su utilización a personas que no
poseen grandes conocimientos estadı́sticos, pero el hecho de que sea sensible al algoritmo con el cual
se construye el árbol y de que necesita una gran cantidad de datos, en especial para no tener poca infor-
mación en los nodos terminales, hace que esta metodologı́a no se plantee como la mejor alternativa al
momento de modelar, al menos en este tipo de información, donde los resultados no pueden depender
tanto del individuo que ejecute el modelo, sino de la metodologı́a utilizada, y como muchas veces no se
tiene un fundamento teórico que nos haga decidir cual será el mejor algoritmo dada las caracterı́sticas
las variables, se vuelve una mala alternativa.
En cuanto a Naı̈ve Bayes, nos encontramos con una metodologı́a que nos permite obtener de manera
simple y con un costo computacional mı́nimo, la obtención de probabilidades estimadas que representan
la probabilidad de no fuga de los clientes. Pero la desventaja es que la simplicidad y rapidez se debe
a un supuesto de independencia condicional, que nos lleva a plantear que las variables explicativas o
caracterı́sticas de nuestros clientes son condicionalmente independientes uno del otro dada la Tendencia
de Fuga, lo cual no se asemeja a la realidad.
Y finalmente, en relación a los Support Vector Machines, se pudo comprobar que el costo computa-
cional que requiere es altı́simo, no permitiéndonos trabajar con la base completa de los clientes, ni tam-
poco aumentar el costo C de igual forma en todos los Kernel. Sin embargo esta es una limitante que surge
por no contar con un software especializado en Data Mining. Por otro lado el problema de optimización
juega un rol fundamental en la obtención de los resultados, para lo cual se encuentra programado con
algoritmos de optimización complejos y completos, y ası́ obtener los más óptimos resultados de clasifi-
cación. Una desventaja que presenta esta metodologı́a es que está dentro de lo que se conoce como ”caja
negra”, es decir que a pesar de entregarnos los Multiplicadores de Lagrange, los vectores de soporte, en-
tre otras cosas, no nos permite conocer de manera concreta los resultados internos que se van generando
en el proceso de optimización, sin embargo esto no representa una limitante al momento de predecir, ya
72
que como se muestra en la sección anterior, es posible clasificar a nuevos clientes y obtener su proba-
bilidad asociada, obteniéndose además los mejores resultados, reflejado en sus indicadores y ganancia
observada en la figura 3.12. En cuanto a algunas propiedades interesantes que posee esta metodologı́a se
encuentra el que permite una interpretación gráfica de los conceptos teóricos como separadores lineales
y no lineales, margen, Support Vectors, entre otros, además se puede utilizar la formulación Dual del
problema de optimización para crear una función discriminante no lineal mediante las funciones de Ker-
nel y puede emplearse en bases de datos con valores fuera de rango, dado que este método utiliza sólo
un subconjunto de objetos (los Support Vectors) para construir la función discriminante, lo que evita que
valores extremos determinen la solución encontrada.
En base a los resultados obtenidos en cada modelo, visto a través de la curva de ganancia de cada
modelo (figura 3.12) y sus indicadores, junto con las ventajas y desventajas de cada modelamiento, es
que se selecciona como modelo óptimo al SVM con Kernel Gaussiano y costo C = 10000.
3.7. Análisis del Modelo Seleccionado
En esta sección analizaremos el modelo seleccionado para la predicción de Fuga de Clientes Buenos.
Este modelo corresponde al SVM con Kernel Gaussiano y costo C = 10000, ya que si bien no nos per-
mite obtener las ponderaciones o coeficientes de cada variable, es el modelo con mejor capacidad de
discriminación, lo cual nos permite determinar con mayor seguridad la tendencia que tiene el cliente, lo
cual nos permite continuar con el estudio de la segmentación de estos clientes de acuerdo a su tasa de
fuga, y ası́ posteriormente revisar las posibles pérdidas en montos para la institución financiera causada
por el abandono o fuga del cliente.
Para esto es que realizaremos la agrupación de los clientes de acuerdo a su probabilidad estimada,
donde es importante mencionar que estas representan la probabilidad de que el cliente no presente un
abandono, por lo tanto, obtendremos que mientras más alta sea su probabilidad estimada es menos prob-
able que el cliente se fugue.
73
Se realiza en primera instancia una segmentación de clientes diviéndolos en 10 partes iguales, con-
siderando como variable de agrupación a la probabilidad estimada. Si la segmentación fuese adecuada
se esperarı́a que ha medida que aumenta la probabilidad, aumentara también el odds y disminuyera la
tasa de fuga. En nuestro caso no se logra esta relación de manera perfecta, a causa del segundo y tercer
segmento, es por esto que se decide juntar estos segmentos, obteniéndose lo siguiente:
Casos Porcentaje Porcentaje Acumulado
Rango Clase Fuga No Fuga Total Fuga No Fuga Fuga No Fuga Tasa de Fuga Odds K-S IV GINI
31,18 % 49,37 % 0,40 362 86 448 16,15 % 3,84 % 16,15 % 3,84 % 80,80 % 0,24 12,32 % 34,8 %
49,37 % 49,42 % 0,49 722 174 896 32,22 % 7,76 % 48,37 % 11,60 % 80,58 % 0,24 36,77 % 1,2 % 0,025
49,42 % 49,51 % 0,49 263 186 449 11,74 % 8,30 % 60,11 % 19,90 % 58,57 % 0,71 40,21 % 0,1 % 0,018
49,51 % 49,70 % 0,50 233 215 448 10,40 % 9,59 % 70,50 % 29,50 % 52,01 % 0,92 41,01 % 0,0 % 0,026
49,70 % 50,21 % 0,50 225 223 448 10,04 % 9,95 % 80,54 % 39,45 % 50,22 % 0,99 41,10 % 0,5 % 0,035
50,21 % 50,73 % 0,50 199 250 449 8,88 % 11,16 % 89,42 % 50,60 % 44,32 % 1,26 38,82 % 11,0 % 0,040
50,73 % 50,80 % 0,51 112 336 448 5,00 % 14,99 % 94,42 % 65,60 % 25,00 % 3,00 28,83 % 19,6 % 0,029
50,80 % 50,84 % 0,51 80 368 448 3,57 % 16,42 % 97,99 % 82,02 % 17,86 % 4,60 15,98 % 35,0 % 0,026
50,84 % 68,74 % 0,60 45 403 448 2,01 % 17,98 % 100,00 % 100,00 % 10,04 % 8,96 0,00 % 0,0 % 0,018
2241 2241 4482 100,00 % 100,00 % 50,00 % 1,00 41,10 % 65,6 % 56,5 %
Cuadro 3.17: Tabla de Distribución de casos Fugados y No Fugados según las Probabilidades Estimadas.
Índice C de 78,16 %
Se puede observar que posterior a la segmentación, el modelo se mantiene con un K-S de 41 %,

lo cual nos indica que se mantiene con una discriminancia favorable para predecir la tendencia de los
buenos clientes en relación a la fuga o abandono de la cartera. Cabe mencionar que un modelo de predic-
ción aceptable debe tener como mı́nimo un K-S de 30 %, donde mientras más alto sea, mejor será su
capacidad de separar las muestras, en este caso de Fuga y No Fuga. De manera similar, el coeficiente de
Gini mientras más cercano a 100 % mayor poder de discriminación tendrá el modelo. En este caso se ob-
tuvo un Gini de 56,3 % lo cual corresponde a un poder de discriminación medio. Para apreciar de mejor
forma la relación inversa de la tasa de fuga y el odds, se presenta el gráfico siguiente, donde podemos ver
que si bien los primeros 2 segmentos son similares, la tendencia de disminuir la tasa de fuga a medida
que aumenta la probabilidad se cumple. Cabe mencionar que mientras más pendiente tengan las tasas
de fuga, mejor será la discriminancia del modelo, ya que la diferencia entre la tasa de fuga del primer
segmento será mucho mayor que la del último segmento. Por otro lado, en la figura 3.13 se observan 3
segmentos definidos, los cuales corresponden a los segmentos de clientes con una alta Tasa de Fuga (Ro-
jo), mediana Tasa de Fuga (Naranjo) y baja Tasa de Fuga(Amarillo), de esta forma, es posible cumplir
con el interés de aplicar estrategias de retención adecuadas para cada tipo de cliente.
Para la segmentación de clientes buenos que poseen una Alta Tasa de Fuga, es necesario aplicar
acciones inmediatas, tales como ofrecer tasas más bajas, el aumento de cupo en sus tarjetas, reprogramar
su crédito, contactarse para analizar su satisfacción a través de un ejecutivo, entre otras cosas. En el caso
de la segmentación de clientes con una Mediana Tasa de Fuga, se plantean acciones más a largo plazo,
74
tales como mailing, ofertas comerciales o incluso las mismas acciones del segmento anterior pero no con
un contacto directo. Y en relación al último segmento, más que aplicarse alguna acción en particular,
serı́a importante mantenerlos en observación.
Figura 3.13: Comportamiento de la Tasa de Fuga y Odds según las Probabilidades Estimadas
Complementario a lo anterior, se presenta la figura 3.14, del cual se observa que si la institución
financiera lograse retener aquellos clientes que pertenecen al segmento ”Alta Tasa de Fuga”, estarı́an
reteniendo al 50 % de los clientes con tendencia a la fuga en contraste con un 10 % de clientes sin ten-
dencia de abandono en el mismo segmento, lo cual refleja una buena discriminancia del modelo, en
especial cuando se refiere a este segmento. Si las diferencias en el resto de los segmentos hubiese sido
similar, el modelo presentarı́a mayores valores en sus indicadores. En base a esto podemos pensar que
a pesar de que el modelo no posee un K-S más alto, es capaz de discrimar de manera óptima a aquellos
clientes que requieren de forma inmediata una polı́tica de retención, ya que tienen una alta tasa de fuga.
75
Figura 3.14: Probability Plot, separación de Probabilidades Estimadas para Clientes Fugados y No Fu-
gados
Posteriormente se analizan los saldos adeudados a cierre de mes del total de clientes por cada seg-
mento, para ver que porcentaje de estos proviene de los clientes con tendencia de fuga. En el cuadro 3.18
podemos observar que el 74, 26 % de los saldos totales del primer segmento provienen de los clientes
con una alta tendencia de fuga, lo cual representa la importancia de retenerlos, que como se menciona
anteriormente, son aquellos a los cuales es necesario aplicar politicas comerciales inmediatas. De manera
similar, en el segundo segmento el 43, 97 % de los saldos provienen de los clientes con mediana tasa de
fuga y en el tercer segmento el 17, 58 % de los saldos provienen de los clientes con una baja tendencia
de fuga. Es claro ver que mientras más alta sea la tendencia de abandono, más alto será el saldo asociado
a estos clientes, lo cual es lógico, ya que las instituciones financieras buscan captar buenos clientes que
incrementen sus ingresos, que justamente son aquellos que tienen una mayor deuda y un buen compor-
tamiento financiero.
Segmento Alta Tasa Fuga Segmento Media Tasa Fuga Segmento Baja Tasa Fuga
Saldo Total Clientes 1.617.899.078 1.464.945.727 1.539.679.056
Saldo Clientes con Tendencia de Fuga 1.201.446.687 644.084.072 270.695.046
Saldo Clientes sin Tendencia de Fuga 416.452.391 820.861.655 1.268.984.010
Porcentaje de pérdida 74,26 % 43,97 % 17,58 %
Cuadro 3.18: Segmentos de Clientes en relación a los montos
76
C AP ÍTULO 4
Conclusión
Al finalizar este trabajo se observa que se llevaron a cabo todos los objetivos, pasando desde una
revisión de las metodologı́as en estudio, llegando a la obtención de un modelo óptimo para la predicción
de fuga de los buenos clientes de una cierta Institución Financiera Chilena.
Recordemos que el primer objetivo estaba enfocado a comparar metodologı́as que nos permitier-
an la predicción de fuga de los clientes en una institución financiera. Es por esto que se llevo a cabo
una revisión de los modelos más clásicos como son la Regresión Logı́stica y los Árboles de Decisión,
y una descripción más detallada de Naı̈ve Bayes y Support Vector Machine. En relación a esta últi-
ma, recordemos que esta metodologı́a parte principalmente resolviendo un problema de discriminación,
donde posteriormente debido a los buenos resultados obtenidos se plantea una forma para la estimación
de probabilidades, o más bien, de las probabilidades a posteriori de cada una de las clases, permitiéndonos
enfrentar también el problema desde un enfoque de predicción, tanto el caso lineal como no lineal. Prin-
cipalmente esta técnica se basa en encontrar una división de nuestra población de clientes, donde por un
lado se maximize el margen de separación de las poblaciones y por otro se minimice el error de clasifi-
cación. En relación a Naı̈ve Bayes se observa que es una metodologı́a que se basa en la independencia
condicional entre las variables explicativas dada la variable de interés, lo cual simplifica la obtención de
probabilidades, pero a su vez, el supuesto no hace coherente su aplicación en la mayorı́a de los problemas
de clasificación reales.
Posterior al estudio de las metodologı́as se observaron sus ventajas y desventajas. Entre estas se
observa que el modelo logı́stico, al igual que Naı̈ve Bayes, nos permite obtener las ponderaciones de
cada variable, haciendo simple la interpretación del modelo, de manera similar, una técnica más simple
es el árbol de clasificación, el cual nos entrega reglas de decisión en forma gráfica. Y por el contrario el
modelo SVM no nos permite obtener ningún tipo de coeficiente de las variables, comportándose como
77
una caja negra, pero sin embargo nos permite predecir, que es el objetivo final del modelamiento. Por otro
lado, el modelo de regresión logı́stico presenta una caracterı́stica importante que es la implementación
de un método de selección de variables, seleccionándose sólo aquellas variables que signifiquen un real
aporte para la predicción. Los árboles también presentan esta caracterı́stica, pero no es un método efi-
ciente debido a que depende mucho del algoritmo que se utilice. En relación a los modelos Naı̈ve Bayes
y Support Vector Machine, el primero a pesar de ser simple y sin costo computacional, require tener un
gran número de datos de entrenamiento, en especial cuando se trata de estudios donde el evento de in-
terés es poco común, dada la forma de los estimadores de los parámetros. Y en cuanto al SVM, presentan
un alto costo computacional debido a los algoritmos de optimización que utiliza, pero a su vez presenta
varias alternativas de modelamiento, considerando kernel y costos distintos, dando una gran gama de
opciones para encontrar el mejor modelo y que optimice a su vez el costo.
El segundo objetivo se relaciona directamente con la obtención del mejor modelo para la predicción
de fuga, donde en primera instancia se presenta un problema relacionado con la dimensión de la base
de datos de clientes, lo cual se resuelve tomando 3 muestras aleatorias y revisando si la variabilidad de
la base original es captada por estas muestras. Se pudo concluir de manera favorable, que los modelos
resultantes son similares, a excepción de un caso en los árboles de clasificación, pero no se prestó mayor
atención esto, ya que los otros modelos presentaron una similitud casi perfecta. Una vez resuelto este
problema, se pasa a la comparación de modelos utilizando los resultados de la primera muestra. En el
caso del SVM se seleccionan 2 modelos, el primero entrenado con un kernel lineal y costo de 100 y
el segundo con el kernel gaussiano y un costo de 10000. Es importante mencionar que los costos com-
putacionales no permitieron el modelamiento de ciertas combinaciones de kernel-costo, pero esto no fue
un impedimento para observar las tendencias de estos modelos. La comparación final se realiza entre el
modelo de regresión logı́stica, árbol de clasificación, modelo naı̈ve bayes, SVM lineal con un costo de
penalización de 100 y SVM gaussiano con un costo de 10000, mediante indicadores de discriminancia
tales como el estadı́stico K-S y Coeficiente de Gini, de poder predictivo como el ı́ndice C, revisando
también su tasa de mala clasificación y su curva de ganancia. Se obtuvo que efectivamente uno de los
modelos de SVM es el que presenta mejores caracterı́sticas para la predicción de fuga de clientes, este es
el SVM gaussiano, con un K-S de 41,9 %, Gini de 57 %, un 78,5 % de área bajo la curva y un 29,3 % de
mala clasificación. En relación a los otros modelos, presentan indicadores bastante similares, incluyendo
al SVM lineal, lo cual nos dice que los datos no poseen un comportamiento lineal, favoreciendo al SVM
gaussiano, que incluye una parte no lineal ponderada por el costo C, que en nuestro caso se presenta alto,
coherente con la necesidad del problema.
78
En relación al tercer y último objetivo, asociado a la implementación del modelo de fuga selecciona-
do, no fue posible implementar en la institución financiera el modelo seleccionado como óptimo, debido
a que no se contaba con un software adecuado, no pudiéndose obtener resultados para la población com-
pleta de clientes. Es por esto que para los resultados entregados al banco se utilizó la Regresión Logı́stica,
modelo que se dejo finalmente dentro de la institución como análisis previo para un futuro estudio, de-
bido a que el K-S obtenido se mantenı́a bajo el 30 %. Se plantea para mejorar el modelo logı́stico la
inclusión de otro tipo de variables, con las cuales no se pudo contar ya que la obtención de estas im-
plicaban un costo monetario para la institución. Se plantea además buscar otro criterio de inclusión de
variables, asociado esto con el perfil que se busco modelar.
A pesar de no implementar el modelo en el banco se continua paralelamente con análisis del SVM
debido a sus buenos resultados en la muestra. Los análisis posteriores al modelamiento guardan relación
con la obtención de una segmentación de los clientes y las consecuencias monetarias del abandono en
cada uno de los segmentos, obteniéndose ası́ una agrupación de clientes en un comportamiento de Alta,
Mediana y Baja Tasa de Fuga, considerando que mientras más alta sea la probabilidad estimada, más
baja es la tasa de abandono, lo cual es lógico ya que se está modelando la no fuga de los clientes. Com-
plementario a lo anterior, se observa que si la institución financiera lograse retener a los clientes con una
alta tasa de fuga, estarı́an reteniendo al 50 % de los clientes con tendencia a la fuga y al 10 % de clientes
sin tendencia de abandono en el mismo segmento, lo cual refleja una buena discriminancia del modelo,
al menos en este segmento, ya que estas diferencias no se ocasionan en el resto. Esto nos plantea que
a pesar de que el modelo no posee un K-S más alto, es capaz de discrimar de buena manera a aquellos
clientes que requieren de forma inmediata una polı́tica de retención, correspondientes a los que tienen un
alta tasa de fuga.
Y finalmente se analizan los saldos del total de clientes por cada segmento, para ver que porcenta-
je de estos proviene de los clientes con tendencia de fuga, observándose que el 74, 26 % de los saldos
totales del primer segmento provienen de los clientes con una alta tendencia de fuga, presentando otro
motivo de peso para llevar a cabo el estudio de estos casos para la implementación de polı́ticas eficaces
para su fidelidad. En el caso del segundo segmento, el 43, 97 % de los saldos provienen de los clientes
con mediana tasa de fuga y en el tercer segmento el 17, 58 % de los saldos provienen de los clientes con
una baja tendencia de fuga. Esto nos muestra que mientras más alta sea la tendencia de abandono, más
alto será el saldo asociado a estos clientes, lo cual es lógico, ya que las instituciones financieras buscan
captar buenos clientes que incrementen sus ingresos, que justamente son aquellos que tienen una mayor
deuda y un buen comportamiento financiero.
79
Estudios Futuros
En relación a los estudios futuros, se plantea el continuar con el estudio de los Support Vector
Machines, principalmente enfocando a tres áreas.
Debido a que en los modelos SVM se obtienen un alto número de vectores sobre los hiperplano
canónicos, se plantea como una necesidad futura el estudio de estos modelos, incorporando una
técnica que permita manejar el número de estos vectores de soporte. A esta metodologı́a se le
conoce con el nombre de ν - Support Vector Classification, donde ν es un parámetro de control de
estos vectores y del error de entrenamiento.
Por otro lado, serı́a de interés continuar la investigación de otras técnicas para la predicción de
las probabilidades a posteriori, analizando los supuestos, resultados, ventajas y desventajas de la
utilización de cada una de ellas.
Finalmente es necesaria la búsqueda de métodos de selección de variables que se puedan incorporar

dentro del problema de optimización del SVM.
Y en relación a la continuidad del estudio de la Fuga de Clientes, serı́a interesante determinar la

rentabilidad futura de los Clientes, utilizando por ejemplo, la metodologı́a ”Life Time Value”.
80
A P ÉNDICE A
Anexo
A.1. Conceptos asociados a Support Vector Machine
A.1.1. Concepto de Hiperplano
Un hiperplano se define como una variedad lineal cuya dimensión es una unidad menor que la del
espacio vectorial que la contiene. Por ejemplo, en un espacio de dimensión 1 como una recta, el hiper-
plano corresponde a un punto, el cual divide la recta en dos lı́neas, o en un caso de dimensión 2, tal como
el plano xy, el hiperplano corresponderı́a a una recta, dividiendo el plano en dos mitades.
En el caso de Vapnik, considera la clase de hiperplanos en algún espacio del producto punto
X
H; hw, xi + b = wi x i + b
i
.
Donde propone algoritmos de aprendizaje para problemas que son separables con hiperplanos. De
todos los posibles hiperplanos, existe un óptimo que da el margen de separación más grande entre
cualquier punto de entrenamiento.
A.1.2. Espacio de Hilbert
Corresponde a una generalización del espacio euclidiano. Este generalización permite que nociones
técnicas algebraicas y geométricas aplicables a espacios de dimensión 2 y 3 se extiendan a una dimen-
sión arbitraria, incluyendo a espacios de dimensión infinita. Todos los espacios finito-dimensionales con
producto interno (tales como el espacio euclı́deo) con el producto escalar ordinario) son espacios Hilbert.
81
A.1.3. Condiciones Karush-Kuhn-Tucker (KKT)
Las condiciones de optimalidad de Karush-Kuhn-Tucker buscan garantizar la existencia de una solu-

ción óptima para problemas de programación no-lineal y corresponden a
∂L ∂f (x̄) Pm ∂g (x̄)
= + j=1 µj j ≥ 0 ∀i = 1, . . . , n
∂xi ∂xi ∂xi
∂f (x̄) Pm ∂g (x̄)
x̄i ∂L = x̄i + j=1 µj j = 0 ∀i = 1, . . . , n
∂xi ∂xi ∂xi
x̄i ≥0 ∀i = 1, . . . , n
∂L
∂µj = gj (x̄) − bj ≤ 0 ∀j = 1, . . . , m
∂L
x̄i ∂µ j
= x̄i (gj (x̄) − bj ) =0 ∀j = 1, . . . , m
µj ≥0 ∀j = 1, . . . , m
donde f (x) y gj (x) son funciones diferenciables que satisfacen ciertas condiciones de regularidad.
Estas son condiciones necesarias y sólo garantizan optimalidad global si se cumplen además condi-
ciones de convexidad en f (x) y gj (x).
82
A.2. Estadı́stica Descriptiva: Aplicación a los clientes de la Institución Fi-
nanciera
A.2.1. Análisis Muestra Balanceada
El análisis descriptivo de las variables explicativas se presentan a continuación:
Caracterı́stica: V1
Casos Porcentaje Porcentaje Acumulado Indicadores
Categorı́a V. Dummy No Fuga Fuga Total No Fuga Fuga No Fuga Fuga Fuga Rate K-S Inf. Value
1 c1 173 113 286 7,72 % 5,04 % 7,72 % 5,04 % 39,51 % 2,68 % 1,14 %
2 c2 801 632 1.433 35,74 % 28,20 % 43,46 % 33,24 % 44,10 % 10,22 % 1,79 %
3 c3 1.267 1.496 2.763 56,54 % 66,76 % 100,00 % 100,00 % 54,14 % 0,00 % 1,70 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 10,22 % 4,63 %
Porcentaje % Acumulado
NA cna 33 16 49 1,47 % 0,71 % 1,47 % 0,71 % 32,65 % 0,76 % 0,55 %
1 c1 929 580 1.509 41,45 % 25,88 % 42,93 % 26,60 % 38,44 % 16,33 % 7,34 %
2 c2 798 895 1.693 35,61 % 39,94 % 78,54 % 66,53 % 52,86 % 12,00 % 0,50 %
3 c3 481 750 1.231 21,46 % 33,47 % 100,00 % 100,00 % 60,93 % 0,00 % 5,33 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 16,33 % 13,71 %
1 c1 690 872 1.562 30,79 % 38,91 % 30,79 % 38,91 % 55,83 % 8,12 % 1,90 %
2 c2 1.551 1.369 2.920 69,21 % 61,09 % 100,00 % 100,00 % 46,88 % 0,00 % 1,01 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 8,12 % 2,91 %
NA cna 33 16 49 1,47 % 0,71 % 1,47 % 0,71 % 32,65 % 0,76 % 0,55 %
1 c1 1.383 1.160 2.543 61,71 % 51,76 % 63,19 % 52,48 % 45,62 % 10,71 % 1,75 %
2 c2 825 1.065 1.890 36,81 % 47,52 % 100,00 % 100,00 % 56,35 % 0,00 % 2,73 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 10,71 % 5,03 %
83
1 c1 1.637 1.769 3.406 73,05 % 78,94 % 73,05 % 78,94 % 51,94 % 5,89 % 0,46 %
2 c2 604 472 1.076 26,95 % 21,06 % 100,00 % 100,00 % 43,87 % 0,00 % 1,45 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 5,89 % 1,91 %
1 c1 2.067 2.148 4.215 92,24 % 95,85 % 92,24 % 95,85 % 50,96 % 3,61 % 0,14 %
2 c2 174 93 267 7,76 % 4,15 % 100,00 % 100,00 % 34,83 % 0,00 % 2,26 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 3,61 % 2,40 %
1 c1 148 220 368 6,60 % 9,82 % 6,60 % 9,82 % 59,78 % 3,21 % 1,27 %
2 c2 1.727 1.771 3.498 77,06 % 79,03 % 83,67 % 88,84 % 50,63 % 5,18 % 0,05 %
3 c3 366 250 616 16,33 % 11,16 % 100,00 % 100,00 % 40,58 % 0,00 % 1,97 %
2.241 2.241 4.114 100,00 % 100,00 % 50,00 % 5,18 % 3,30 %
NA cna 33 16 49 1,47 % 0,71 % 1,47 % 0,71 % 32,65 % 0,76 % 0,55 %
1 c1 869 621 1.490 38,78 % 27,71 % 40,25 % 28,42 % 41,68 % 11,83 % 3,72 %
2 c2 691 760 1.451 30,83 % 33,91 % 71,08 % 62,34 % 52,38 % 8,75 % 0,29 %
3 c3 648 844 1.492 28,92 % 37,66 % 100,00 % 100,00 % 56,57 % 0,00 % 2,31 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 11,83 % 6,87 %
1 c1 471 631 1.102 21,02 % 28,16 % 21,02 % 28,16 % 57,26 % 7,14 % 2,09 %
2 c2 1.160 1.080 2.240 51,76 % 48,19 % 72,78 % 76,35 % 48,21 % 3,57 % 0,26 %
3 c3 610 530 1.140 27,22 % 23,65 % 100,00 % 100,00 % 46,49 % 0,00 % 0,50 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 7,14 % 2,84 %
NA cna 19 12 31 0,85 % 0,54 % 0,85 % 0,54 % 38,71 % 0,31 % 0,14 %
1 c1 513 773 1.286 22,89 % 34,49 % 23,74 % 35,03 % 60,11 % 11,29 % 4,76 %
2 c2 555 614 1.169 24,77 % 27,40 % 48,51 % 62,43 % 52,52 % 13,92 % 0,27 %
3 c3 476 460 936 21,24 % 20,53 % 69,75 % 82,95 % 49,15 % 13,21 % 0,02 %
4 c4 678 382 1.060 30,25 % 17,05 % 100,00 % 100,00 % 36,04 % 0,00 % 7,58 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 13,92 % 12,77 %
Caracterı́stica: V11 1
1 c1 818 636 1.454 36,50 % 28,38 % 36,50 % 28,38 % 43,74 % 8,12 % 2,04 %
2 c2 747 780 1.527 33,33 % 34,81 % 69,83 % 63,19 % 51,08 % 6,65 % 0,06 %
3 c3 676 825 1.501 30,17 % 36,81 % 100,00 % 100,00 % 54,96 % 0,00 % 1,32 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 8,12 % 3,43 %
NA cna 369 265 634 16,47 % 11,83 % 16,47 % 11,83 % 41,80 % 4,64 % 1,54 %
-1 c1 172 198 370 7,68 % 8,84 % 24,14 % 20,66 % 53,51 % 3,48 % 0,16 %
0 c2 1.118 983 2.101 49,89 % 43,86 % 74,03 % 64,52 % 46,79 % 9,50 % 0,78 %
1 c3 582 795 1.377 25,97 % 35,48 % 100,00 % 100,00 % 57,73 % 0,00 % 2,96 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 9,50 % 5,44 %
84
NA cna 205 130 335 9,15 % 5,80 % 9,15 % 5,80 % 38,81 % 3,35 % 1,52 %
0 c1 1.851 1.940 3.791 82,60 % 86,57 % 91,74 % 92,37 % 51,17 % 0,62 % 0,19 %
1 c2 185 171 356 8,26 % 7,63 % 100,00 % 100,00 % 48,03 % 0,00 % 0,05 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 3,35 % 1,76 %
1 c1 422 546 968 18,83 % 24,36 % 18,83 % 24,36 % 56,40 % 5,53 % 1,43 %
2 c2 1.783 1.676 3.459 79,56 % 74,79 % 98,39 % 99,15 % 48,45 % 0,76 % 0,30 %
No Calculable cnc 3 3 6 0,13 % 0,13 % 98,53 % 99,29 % 50,00 % 0,76 % 0,00 %
NA cna 33 16 49 1,47 % 0,71 % 100,00 % 100,00 % 32,65 % 0,00 % 0,55 %
2.241 2.241 4.482 100,00 % 100,00 % 50,00 % 5,53 % 2,27 %
NA cna 1 - 1 0,04 % 0,00 % 0,04 % 0,00 % 0,00 % 0,04 %
1 c1 453 650 1.103 20,21 % 29,00 % 20,26 % 29,00 % 58,93 % 8,75 % 3,17 %
2 c2 542 579 1.121 24,19 % 25,84 % 44,44 % 54,84 % 51,65 % 10,40 % 0,11 %
NA cna 1.245 1.012 2.257 55,56 % 45,16 % 100,00 % 100,00 % 44,84 % 0,00 % 2,15 %
2.241 2.241 2.225 100,00 % 100,00 % 50,00 % 10,40 % 3,28 %
A.2.2. Análisis Muestra Completa

Casos Porcentaje Porcentaje Acumulado Indicadores
1 c1 10.972 113 11.085 7,13 % 5,04 % 7,13 % 5,04 % 1,02 % 2,09 % 0,73 %
2 c2 53.623 634 54.257 34,87 % 28,29 % 42,00 % 33,33 % 1,17 % 8,67 % 1,37 %
3 c3 89.201 1.494 90.695 58,00 % 66,67 % 100,00 % 100,00 % 1,65 % 0,00 % 1,21 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 8,67 % 3,31 %
NA cna 1.748 16 1.764 1,14 % 0,71 % 1,14 % 0,71 % 0,91 % 0,42 % 0,20 %
1 c1 61.411 576 61.987 39,93 % 25,70 % 41,07 % 26,42 % 0,93 % 14,65 % 6,27 %
2 c2 54.175 897 55.072 35,23 % 40,03 % 76,29 % 66,44 % 1,63 % 9,85 % 0,61 %
3 c3 36.462 752 37.214 23,71 % 33,56 % 100,00 % 100,00 % 2,02 % 0,00 % 3,42 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 14,65 % 10,50 %
1 c1 113.874 1.769 115.643 74,04 % 78,94 % 74,04 % 78,94 % 1,53 % 4,90 % 0,31 %
2 c2 39.922 472 40.394 25,96 % 21,06 % 100,00 % 100,00 % 1,17 % 0,00 % 1,02 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 4,90 % 1,34 %
1 c1 143.768 2.154 145.922 93,48 % 96,12 % 93,48 % 96,12 % 1,48 % 2,64 % 0,07 %
2 c2 10.028 87 10.115 6,52 % 3,88 % 100,00 % 100,00 % 0,86 % 0,00 % 1,37 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 2,64 % 1,44 %
85
1 c1 10.262 223 10.485 6,67 % 9,95 % 6,67 % 9,95 % 2,13 % 3,28 % 1,31 %
2 c2 119.032 1.770 120.802 77,40 % 78,98 % 84,07 % 88,93 % 1,47 % 4,87 % 0,03 %
3 c3 24.502 248 24.750 15,93 % 11,07 % 100,00 % 100,00 % 1,00 % 0,00 % 1,77 %
153.796 2.241 145.552 100,00 % 100,00 % 1,44 % 4,87 % 3,12 %
1 c1 32.493 619 33.112 21,13 % 27,62 % 21,13 % 27,62 % 1,87 % 6,49 % 1,74 %
2 c2 79.650 1.083 80.733 51,79 % 48,33 % 72,92 % 75,95 % 1,34 % 3,03 % 0,24 %
3 c3 41.653 539 42.192 27,08 % 24,05 % 100,00 % 100,00 % 1,28 % 0,00 % 0,36 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 6,49 % 2,34 %
NA cna 2.803 29 2.832 1,82 % 1,29 % 1,82 % 1,29 % 1,02 % 0,53 % 0,18 %
1 c1 37.650 758 38.408 24,48 % 33,82 % 26,30 % 35,12 % 1,97 % 8,82 % 3,02 %
2 c2 35.713 613 36.326 23,22 % 27,35 % 49,52 % 62,47 % 1,69 % 12,95 % 0,68 %
3 c3 32.310 456 32.766 21,01 % 20,35 % 70,53 % 82,82 % 1,39 % 12,29 % 0,02 %
4 c4 45.320 385 45.705 29,47 % 17,18 % 100,00 % 100,00 % 0,84 % 0,00 % 6,63 %
153.796 2.241 156.037 100,00 % 100,00 % 1,44 % 12,95 % 10,53 %
A.3. Intervalos de Confianza del 95 % de coeficientes del Modelo Logı́stico
Variables V1 c1 V1 c3 V2 cna V2 c1 V2 c3 V5 c2 V6 c2
Base Completa Lim. Inferior 0,873 0,711 1,033 1,268 0,774 0,897 1,146
Lim. Superior 1,308 0,864 2,828 1,637 0,951 1,106 1,524
Muestra 1 Lim. Inferior 0,827 0,614 1,278 1,217 0,676 0,728 1,062
Lim. Superior 1,417 0,808 4,493 1,729 0,932 1,001 1,557
Lim. Superior 1,431 0,799 4,585 1,736 0,966 0,994 1,559
Lim. Superior 1,362 0,820 3,572 1,960 1,043 1,156 1,518
Cuadro A.1: Intervalo de Confianza 95, 0 % para EXP(B)
86
Variables V7 c1 V7 c3 V9 c1 V9 c3 V10 c1 V10 c4
Base Completa Lim. Inferior 1,079 1,512 0,678 0,940 0,738 1,323
Lim. Superior 1,333 2,331 0,840 1,164 0,985 1,733
Muestra 1 Lim. Inferior 1,111 1,737 0,571 0,883 0,722 1,362
Lim. Superior 1,495 2,984 0,792 1,198 1,140 1,961
Lim. Superior 1,480 2,957 0,792 1,193 1,117 1,951
Lim. Superior 1,463 2,930 0,872 1,285 1,196 1,993
Cuadro A.2: Intervalo de Confianza 95, 0 % para EXP(B)
A.4. Probabilidades asociadas a Naı̈ve Bayes
Se presentan a continuación las probabilidades estimadas para las variables V1 , V2 , V7 , V9 y V10 .
Fuga No Fuga
Muestra 1 1 0,04997769 0,07719768
2 0,28201696 0,35742972
3 0,66800535 0,5653726
Muestra 2 1 0,048639 0,07585899
2 0,2811245 0,35787595
3 0,6702365 0,56626506
Muestra 3 1 0,04997769 0,07719768
2 0,28201696 0,35742972
3 0,66800535 0,5653726
Cuadro A.3: Probabilidades estimadas de la Variable V1
87
Fuga No Fuga
Muestra 1 1 0,00713967 0,01472557
2 0,25881303 0,41454708
3 0,39937528 0,35609103
4 0,33467202 0,21463632
Muestra 2 1 0,00713967 0,01472557
2 0,25792057 0,41231593
3 0,40562249 0,35832218
4 0,32931727 0,21463632
Muestra 3 1 0,00713967 0,01204819
2 0,25702811 0,41900937
3 0,40026774 0,33199465
4 0,33556448 0,23694779
Fuga No Fuga
Muestra 1 1 0,09817046 0,06604195
2 0,7902722 0,77063811
3 0,11155734 0,16331995
Muestra 2 1 0,09950915 0,06559572
2 0,78804105 0,77063811
3 0,1124498 0,16376618
Muestra 3 1 0,09950915 0,07228916
2 0,78982597 0,75814369
3 0,11066488 0,16956716
88
Fuga No Fuga
Muestra 1 1 0,2815707 0,210174
2 0,4819277 0,5176261
3 0,2365016 0,2721999
Muestra 2 1 0,2806783 0,2092816
2 0,480589 0,5162874
3 0,2387327 0,2744311
Muestra 3 1 0,276216 0,2168675
2 0,4832664 0,4988844
3 0,2405176 0,2842481
Fuga No Fuga
Muestra 1 1 0,00535475 0,00847836
2 0,3449353 0,22891566
3 0,27398483 0,2476573
4 0,20526551 0,21240518
5 0,17045962 0,30254351
Muestra 2 1 0,00580098 0,00803213
2 0,34448907 0,22891566
3 0,27264614 0,24810353
4 0,20571174 0,21195895
5 0,17135208 0,30298974
Muestra 3 1 0,01294065 0,02231147
2 0,33824186 0,23873271
3 0,2735386 0,22356091
4 0,20348059 0,21642124
5 0,1717983 0,29897367
89
A.5. Tablas comparativas de Support Vector Machine
VARIABLES CONTINUAS
Kernel Lineal 1 20,7 % 41,18 % 3.954
10 20,8 % 41,20 % 3.953
100 20,8 % 41,18 % 3.954
1.000 20,7 % 41,18 % 3.856
10.000 20,7 % 41,03 % 3.853
10 31,0 % 34,13 % 3.532
100 35,2 % 33,06 % 3.471
1.000 37,3 % 31,48 % 3.425
10.000 41,7 % 29,83 % 3.339
Cuadro A.8: Análisis de Discriminancia y Óptimalidad del Modelo SVM. Muestra 2
VARIABLES DISCRETAS
Kernel Lineal 1 20,5 % 40,04 % 3.837
10 20,4 % 40,45 % 3.848
100 20,9 % 40,09 % 3.848
10 28,4 % 35,85 % 3.593
100 30,4 % 35,00 % 3.536
1000 31,7 % 34,20 % 3.493
10000 32,0 % 33,98 % 3.472
90
VARIABLES DUMMY
Kernel Lineal 1 20,0 % 41,03 % 3.778
10 20,3 % 41,03 % 3.811
100 19,9 % 41,03 % 3.796
10 29,0 % 35,54 % 3.511
100 29,9 % 35,07 % 3.440
1000 29,9 % 35,07 % 3.437
10000 29,9 % 35,07 % 3.425
VARIABLES CONTINUAS
Kernel Lineal 1 20,5 % 42,79 % 4.026
10 20,7 % 42,86 % 4.027
100 20,7 % 42,86 % 4.027
1.000 20,8 % 42,86 % 4.025
10.000 20,5 % 42,92 % 4.025
10 36,3 % 32,19 % 3.434
100 39,4 % 30,76 % 3.332
1.000 42,0 % 29,67 % 3.230
10.000 45,6 % 27,51 % 3.139
91
VARIABLES DISCRETAS
Kernel Lineal 1 19,6 % 40,74 % 3.885
10 19,5 % 40,74 % 3.898
100 19,5 % 40,74 % 3.883
10 27,6 % 36,76 % 3.631
100 29,5 % 35,36 % 3.593
1000 30,7 % 34,64 % 3.524
10000 31,1 % 34,44 % 3.482
VARIABLES DUMMY
Kernel Lineal 1 19,7 % 40,89 % 3.772
10 19,2 % 40,89 % 3.800
100 19,2 % 40,89 % 3.779
10 28,0 % 36,07 % 3.514
100 29,0 % 35,49 % 3.442
1000 29,0 % 35,49 % 3.439
10000 29,0 % 35,49 % 3.417
92
A.6. Programa para Naı̈ve Bayes y SVM
xxxxxxxxxxxxxxxxxxxxxxxxx LIBRERIAS xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
library(e1071) //* Naive Bayes *//

library(kernlab) //* SVM *//
xxxxxxxxxxxxxxxxxxxxxxxx ADJUNTAR LOS DATOS xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

M1 = read.csv(”NombreArchivo.csv”, header=T, sep=”;”,dec=”,”)
attach(M1)
names(M1)
xxxxxxxxxxxxxxxxxxxxxxxx SUPPORT VECTOR MACHINE xxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxx KERNEL GAUSSIANO xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C=1
modelo10 = ksvm(DEP ., data=baseSVM.Ma, type = ”C-svc”, kernel = rbfdot”, C = 1,
prob.model = TRUE)
modelo10
prob10=predict(modelo10,baseSVM.Ma,type=”probabilities”)
p10=prob10[,2] //* Considero No Fuga*//
boxplot(p10 DEP, xlab=”No Fuga”, ylab=”Probabilidades Estimadas”, names=c(”Fuga”,”No Fuga”),
col=c(”green”,”blue”),main=,”Boxplot: Modelo SVM Kernel Gaussiano”,sub=”C=10”)
xxxxxxxxxxxxxxxxxxxxxxxxxxx KERNEL LINEAL xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
C=1
modelo20 = ksvm(DEP ., data=baseSVM.M1, type = ”C-svc”, kernel = ”vanilladot”, C = 1,
prob.model = TRUE)
modelo20
prob20=predict(modelo20,baseSVM.M1,type=”probabilities”)
p20=prob20[,2] //* Considero No Fuga*//
boxplot(p20 DEP, xlab=”No Fuga”, ylab=”Probabilidades Estimadas”, names=c(”Fuga”,”No Fuga”),
col=c(”green”,”blue”), main=,”Boxplot: Modelo SVM Kernel Gaussiano”,sub=”C=1”)
93
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx NAIVE BAYES xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
//* INGRESANDO TODAS LAS VARIABLES CATEGORICAS *//
modeloNB=naiveBayes(dep .,data=baseSVM.Ma)
modeloNB
//* PROBABILIDAD ESTIMADA *//

probabilidad=predict(modeloNB,baseSVM.Ma[,-1],type=raw”)
summary(probabilidad)
pNB=probabilidad[,2] //* Considero No Fuga *//
//* CLASIFICACION DE LAS OBSERVACIONES *//
prob=predict(modeloNB,baseSVM.Ma[,-1])
clas1=table(prob, dep)
tasa.aciertoaNB=(clas1[1,1]+clas1[2,2])/sum(clas1)
tasa.aciertoaNB
94
Bibliografı́a
[1] Daemont Quest (2005). ’Churn’: Cómo reducir el abandono de Clientes. The Marketing Intelli-
gence Review.
[2] Daemont Quest (2004). Prevention and Retention, Strategies Report Churn. The Marketing Intelli-
gence Review.
[3] Breiman; Friedman; Olshen; Stone. (1984). Classification an Regression Trees. Wodsworth.
[4] Hothorn, T.; Hornik, K.; Zeisleis, A. Party: A laboratory for recursive Partitioning.
[5] Hosmer, DW. ; Lemeshow, S. (2000). Applied Logistic Regression. John Wiley & Sons (2nd edi-
tion). New York.
[6] Zhang, H., The Optimaly of Naı̈ve Bayes. Faculty of Computer Science. University of New
Brunswick. Canada.
[7] Ng, A. Y.; Jordan, M. I. On Discriminative v/s Generative Classifiers: A Comparison of Logistic
Regression and Naı̈ve Bayes.
[8] Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. (2008). A Practical Guide to Support Vector Classificaction.
National Taiwan University. Taiwan.
[9] Hsu, C.-W.; Chang, C.-C.; Lin, C.-J. (2008). Decomposition Method for Linear Support Vector
Machines. National Taiwan University. Taiwan.
[10] Burges, C. (2000). A Tutorial on Support Vector Machines for Pattern Recognition. Bell Laborato-
ries.
95
[11] Mangasarian, O. L.; Musicant, D. (2001). Lagrangian Support Vector Machines. Journal of Ma-
chine Learning Research 1.
[12] Claeskens, G.; Croux, C.; Van Kerckhoven, J. (2008). An Information Criterion for Variable Selec-
cion in Support Vector Machines. Journal of Machine Learning Research 9.
[13] Platt, J. C. (1999). Probabilistic Outputs for Support Vector Machines and Comparisons to Regu-
larized Likelihood Methods. Microsoft Research.
[14] Hastie, T.; Tibshirani, R. Classification by Pairwise Coupling, University of Toronto.
[15] Wahba, G. (1999). Advances in Kernel Methods - Support Vector Learning. 69-88. Cambrifge. MA.
[16] Karatzoplan, A.; Meyer, D.; Hormik, K. (2006). Support Vector Machine in R. Journal of Statistical
Software (vol. 15).
[17] Vapnik, V. N. (1999). The Nature of Statistical Learning Theory (Second edition).
[18] Mitchell, T. M. (2006). Machine Learning (Chapter 1).
[19] Alarcón, S. M. (2007). Utilización de Support Vector Machine no Lineal y Selección de Atributos
para Credit Scoring. Tesis para optar al grado de magı́ster en gestión de operaciones. Santiago:
Universidad de Chile, Facultad de Ciencias Fı́sicas y Matemáticas, Departamento de Ingenierı́a
Industrial.
[20] Seebach, C. (2006). Condiciones de KKT(Clase 15). Chile: Pontificia Universidad Católica. Escuela
de Ingenierı́a. Departamento de Ingenierı́a Industrial y Sistemas.
96

Tesis Metodos Parametricos y No Parametricos para Prediccion de Fuga de Clientes

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tesis Metodos Parametricos y No Parametricos para Prediccion de Fuga de Clientes

Cargado por

Copyright:

Formatos disponibles

Universidad de Santiago de Chile

2. Teorı́a de Modelos de Predicción 6

Desde el punto de vista de un problema de clasificación financiero, se tendrá un conjunto de observa-

A continuación se presentan los objetivos del proyecto de tesis.

1.1.1. Objetivo General

1.1.2. Objetivos Especı́ficos

Comparar distintas metodologı́as de predicción basadas tanto en el análisis clásico (Regresión

Seleccionar un modelo óptimo basándonos en indicadores de Discriminación tales como Gini,

Implementar el modelo de predicción de fuga seleccionado en la Institución Financiera.

Teorı́a de Modelos de Predicción

2.1. Árboles de Decisión

Los árboles de decisión corresponden a métodos de aprendizaje inductivos supervisados no paramétri-

Un árbol de clasificación consta de los siguientes elementos:

Nodos intermedios: engendran dos o más segmentos descendientes inmediatos.

2.2. Regresión Logı́stica

En el caso de la regresión lineal se tiene,

En el caso de la regresión logı́stica, la diferencia es causada por la naturaleza de la variable respuesta

y clasifica a Y = 1 en caso contrario.

2.3. Naı̈ve Bayes

Consideraremos un problema aprendizaje supervisado en el cual nosotros deseamos estimar una

Independencia Condicional 2.3.1. Dado las variables aleatorias X1 , X2 y Y , diremos que X1 es

P (X1 |X2 , Y ) = P (X1 |Y )

Ahora aplicando la Independencia Condicional al clasificador, se asume que X1 , . . . , Xn son todos

A continuación veremos en detalle la descripción de los parámetros y el como se realizará su es-

2.3.1. Naı̈ve Bayes para atributos discretos

θijk = P (Xi = xij |Y = yk ) (2.10)

En este caso se tendrán K parámetros, donde K − 1 son independientes.

Para la estimación del parámetro θijk dado un conjunto de entrenamiento, se tiene

Ahora, en relación a la estimación de πk , se tiene,

2.3.2. Naı̈ve Bayes para atributos continuos

µik = E[Xi |Y = yk ] (2.16)

2.4. Support Vector Machines

Dado un conjunto de entrenamiento xi ∈ Rm ; i = 1, . . . , m e yi ∈ {−1, 1}; i = 1, . . . , m, variable

Las cuales pueden ser reescritas como:

Las observaciones donde se cumple la igualdad, i.e., →

Figura 2.2: Esquema de las SVM

Ahora, para construir el problema de optimización y definir el margen de separación, consideraremos

De igual forma, podemos plantear el problema desde un enfoque matricial,

De esta forma, es necesario plantear el Lagrangiano asociado al problema de minimización, el cual

A partir de (2.25), se pueden plantear las condiciones de optimalidad de Karush-Kuhn-Tucker

Las condiciones KKT asociadas a este problema son:

La solución αi0 del problema de optimización determina el valor óptimo w0 :

2.4.2. Caso No Lineal

Algunos ejemplos de kernel que cumplen con la condición anterior son:

K(x, x0 ) = (scale · hx, x0 i + of f set)grado

K(x, x0 ) = exp (−σkx − x0 k2 )

Figura 2.3: Aplicación de una función kernel a un espacio de entrada

yi (wT φ(xi ) + b) ≥ 1 − ξi (2.34)

Armando el lagrangiano del problema primal,

A partir de este Langrangiano podemos plantear las condiciones de optimalidad de KKT:

Se puede escribir la función de decisión como:

donde pi será la probabilidad a posteriori.

Ahora, considerando el Teorema de Bayes, se obtiene,

p(f |y = −1) · p(y = −1)

La regresión logı́stica desea estimar una función f : X → Y , o de manera equivalente P (Y |X),

donde P (Y = 1|X) = 1 − P (Y = 0|X)

donde la sumatoria de (2.46) puede ser desarrollada como,

(Xi − µi0 )2 − (Xi − µi1 )2

donde las ponderaciones wi ; ∀i : 1, . . . , n están dados por,

Las variables categóricas son:

Marital status (Estado Civil): Divorced, Married-AF-spouse, Married-civ-spouse, Married-spouse-

Relationship (Estado Parental): Husband, Not-in-family, Other-relative, Own-child, Unmarried y

Race (Raza): Amer-Indian, Asian-Islander, Black, White y Other.

Sex (Sexo): Female and Male.