Está en la página 1de 225

UNIVERSIDAD DE CHILE

FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS


ESCUELA DE POSTGRADO

PLAN PARA ENFOCAR LAS CAMPAÑAS BANCARIAS


UTILIZANDO DATAMINING

MAURICIO PASCUAL DE LUCA VENEGAS

MIEMBROS DE LA COMISIÓN EVALUADORA

SR. LUIS ZAVIEZO SCHWARTZMAN : PROFESOR GUÍA


SR. DANIEL ESPARZA CARRASCO
SR. MANUEL VERGARA TRINCADO

TESIS PARA OPTAR AL GRADO DE


MAGISTER EN GESTIÓN Y DIRECCIÓN DE EMPRESAS

SANTIAGO DE CHILE
JULIO, 2006
RESUMEN
El objetivo último de la tesis consiste en demostrar que mediante datamining es posible
elaborar un plan para enfocar la estrategia comercial en los productos de créditos de
consumo, tarjetas y líneas de crédito de un Banco pequeño que carece de un
datawarehouse. La hipótesis consiste en el supuesto de que el conjunto de bases de
datos operacionales que forzosamente cualquier Banco debe poseer proveen
información suficiente para elaborar un plan de datamining como el que se desea
construir. El desarrollo de la tesis, en tanto, consiste en detallar paso a paso con una
metodología de datamining (CRISP-DM) como formular un plan para enfocar las
campañas bancarias mediante una segmentación de riesgo y rentabilidad basada en
modelos predictivos generados a partir de los datos de las bases operacionales antes
mencionadas. Finalmente, la principal conclusión que se obtiene como resultado de la
investigación consiste en que la tesis planteada en un comienzo es válida, por cuanto
es posible construir un plan como el deseado.

La investigación desarrollada no ha pretendido elaborar modelos predictivos


específicos, puesto que para ello hubiese sido necesario disponer de datos concretos
de un conjunto masivo de clientes, información cuyo acceso está severamente
restringido por la ley de secreto bancario. Por lo tanto, las indicaciones que se entregan
en este informe son genéricas, puramente conceptuales, no están dirigidas a ningún
Banco específico y no se basan en ningún conjunto de datos de ningún grupo de
personas.

Se ha empleado la metodología CRISP-DM para la elaboración del plan de datamining


por corresponder a un estándar ampliamente utilizado en proyectos de minería de
datos. Por otro lado, dado que hubiese sido imposible ilustrar el plan de datamining sin
recurrir a alguna herramienta de datamining específica, se ha usado Clementine de
SPSS por hacer posible la representación de flujos de datos de manera gráfica y por su
gran capacidad para trabajar con una amplia gama de bases de datos operacionales de
distintos proveedores.
AGRADECIMIENTOS

Quisiera dedicar este trabajo a mi madre, Isolina Venegas, quien a través de su ejemplo
de enorme generosidad hacia sus hijos me enseñó a enfrentar la vida con esfuerzo,
bondad y sencillez. Quisiera también agradecer al MBA de la Universidad de Chile por
transmitirme un deseo genuino de contribuir a la sociedad con todo mi talento,
creatividad y energía, puesto que en dicho deseo he encontrado la fuente de un
liderazgo auténtico y orientador en mi vida profesional.
INDICE

1 INTRODUCCIÓN......................................................................................................14

2 DIAGNÓSTICO DEL PROBLEMA...........................................................................17


2.1 Los productos ................................................................................................17
2.1.1 Créditos de consumo....................................................................................18
2.1.2 Tarjetas de crédito........................................................................................18
2.1.3 Líneas de crédito ..........................................................................................19
2.2 El mercado......................................................................................................19
2.3 La industria.....................................................................................................20
2.4 La tecnología ..................................................................................................35
2.5 Enfoques de las campañas bancarias .........................................................35
2.5.1 Orientación operacional................................................................................36
2.5.2 Orientación estratégica.................................................................................40

3 OBJETIVOS DE LA INVESTIGACIÓN ....................................................................42

4 DEFINICIONES PREVIAS .......................................................................................44


4.1 El término “datamining” o “minería de datos”............................................44
4.2 El término “modelo” ......................................................................................45
4.3 Definición del concepto de técnica de modelamiento................................46
4.4 Definición del concepto de proyecto de datamining ..................................46
4.5 Definición del concepto de plan de datamining ..........................................47

5 HIPÓTESIS DE TRABAJO ......................................................................................48


5.1 Supuestos sobre disponibilidad de información ........................................48
5.2 Supuestos tecnológicos................................................................................49
5.3 Supuestos sobre el marco regulatorio.........................................................49
5.4 Supuestos de negocios.................................................................................50
5.5 Supuestos operacionales..............................................................................51

6 METODOLOGÍA DE TRABAJO ..............................................................................53


6.1 Metodologías de datamining.........................................................................53
6.1.1 Metodología SEMMA....................................................................................53
6.1.2 Metodología CRISP-DM ...............................................................................54
6.2 Razones para utilizar CRISP-DM...................................................................57
7 PRIMERA FASE DEL PLAN: COMPRENSIÓN DEL NEGOCIO ............................59
7.1 Determinar los objetivos de negocios (tarea 1a).........................................61
7.1.1 Background (output 1a.1) .............................................................................61
7.1.2 Objetivos de negocios: focalizarse en nichos y crecer sujeto a un nivel
mínimo de riesgo (output 1a.2) ....................................................................63
7.1.3 Criterios de éxito de negocios: porcentaje de aumento en los montos
ofrecidos en las campañas y monto de pérdida esperada de éstas
(output 1a.3).................................................................................................64
7.2 Evaluar la situación (tarea 1b) ......................................................................65
7.2.1 Inventario de recursos (output 1b.1).............................................................65
7.2.2 Requerimientos, suposiciones y restricciones (output 1b.2).........................66
7.2.3 Riesgos y contingencias (output 1b.3)..........................................................67
7.2.4 Terminología (output 1b.4) ...........................................................................69
7.2.4.1 Definición de cliente malo desde un punto de vista crediticio ...............70
7.2.4.2 Definición de rentabilidad potencial de un cliente..................................71
7.2.4.3 Definición de cliente sin gran rentabilidad potencial..............................72
7.2.4.4 Definición de carga financiera ...............................................................74
7.2.5 Costos y beneficios (output 1b.5) .................................................................74
7.3 Determinar los objetivos de datamining (tarea 1c) .....................................75
7.3.1 Objetivos de datamining: estimar el riesgo crediticio y la rentabilidad
potencial de los clientes (output 1c.1) ..........................................................75
7.3.2 Criterios de éxito de datamining: errores tipo I y tipo II (output 1c.2)............77
7.4 Producir el plan del proyecto (tarea 1d).......................................................78
7.4.1 Plan del proyecto (output 1d.1).....................................................................78
7.4.2 Evaluación inicial de herramientas y técnicas (output 1d.2) .........................79

8 SEGUNDA FASE DEL PLAN: COMPRENSIÓN DE LOS DATOS .........................81


8.1 Recolectar datos iniciales (tarea 2a) ............................................................82
8.1.1 Reporte de recolección de datos iniciales (output 2a.1) ...............................82
8.1.2 Datos necesarios para el proyecto: lista de atributos de los clientes............83
8.1.2.1 Grupo de variables demográficas (A)....................................................84
8.1.2.2 Grupo de variables de renta (B) ............................................................85
8.1.2.3 Grupo de variables de vínculo con el cliente (C) ...................................85
8.1.2.4 Grupo de variables de ingresos contables generados por cliente (D) ...85
8.1.2.5 Grupo de variables de comportamiento (E)...........................................86
8.1.2.6 Grupo de variables de deudas (F).........................................................87
8.1.3 Fuentes de datos disponibles y suficientes para el proyecto........................88
8.2 Describir los datos (tarea 2b)........................................................................91
8.2.1 Reporte de descripción de datos (output 2b.1).............................................91
8.3 Explorar los datos (tarea 2c) .........................................................................92
8.3.1 Reporte de exploración de datos (output 2c.1).............................................93
8.4 Verificar la calidad de los datos (tarea 2d) ..................................................93
8.4.1 Reporte de calidad de los datos (output 2d.1)..............................................94

9 TERCERA FASE DEL PLAN: PREPARACIÓN DE LOS DATOS ..........................95


9.1 Conjunto de datos (output 3z.1) ...................................................................96
9.1.1 Obtención automatizada del conjunto de datos en Clementine....................97
9.1.1.1 Símbolos usados en Clementine para procesar datos ........................100
9.1.1.2 Flujo de datos que obtiene base de variables predictivas ...................103
9.2 Descripción del conjunto de datos (output 3z.2) ......................................115
9.3 Seleccionar los datos (tarea 3a) .................................................................115
9.3.1 Razones para la inclusión o exclusión de datos (output 3a.1)....................115
9.4 Limpiar los datos (tarea 3b) ........................................................................117
9.4.1 Reporte de limpieza de los datos (output 3b.1) ..........................................117
9.5 Construir datos (tarea 3c) ...........................................................................118
9.5.1 Atributos derivados (output 3c.1)................................................................118
9.5.1.1 Estimación de las deudas con otras instituciones financieras .............119
9.5.2 Registros generados (output 3c.2) .............................................................119
9.6 Integrar los datos (tarea 3d) ........................................................................120
9.6.1 Datos mezclados (output 3d.1)...................................................................120
9.7 Formatear los datos (tarea 3e) ....................................................................121
9.7.1 Datos reformateados (output 3e.1).............................................................121

10 CUARTA FASE DEL PLAN: MODELAMIENTO ................................................122


10.1 Seleccionar la técnica de modelamiento (tarea 4a) ..................................123
10.1.1 Técnica de modelamiento (output 4a.1)..................................................123
10.1.2 Regresión logística .................................................................................124
10.1.2.1 Representación de modelos mediante regresión logística ..............129
10.1.2.2 Refinamiento iterativo de los modelos de regresión logística ..........131
10.1.3 Redes neuronales...................................................................................132
10.1.3.1 Representación de modelos mediante redes neuronales................136
10.1.3.2 Refinamiento iterativo de los modelos de redes neuronales ...........139
10.1.3.3 Cálculo con red neuronal de probabilidad de que un cliente sea
malo.................................................................................................145
10.1.4 Árboles de decisión.................................................................................148
10.1.4.1 Representación de modelos mediante árboles de decisión.............150
10.1.4.2 Refinamiento de los modelos de árboles de decisión......................158
10.1.5 Comparación de las técnicas de modelamiento......................................160
10.1.6 Supuestos de modelamiento (output 4a.2) .............................................161
10.2 Generar el diseño de las pruebas (tarea 4b)..............................................161
10.2.1 Diseño de las pruebas (output 4b.1) .......................................................161
10.3 Construir un modelo (tarea 4c) ...................................................................163
10.3.1 Establecer los parámetros (output 4c.1) .................................................163
10.3.2 Modelos (output 4c.2) .............................................................................163
10.3.3 Generación automatizada de modelos en Clementine ...........................163
10.3.3.1 Símbolos usados en Clementine para generar modelos .................164
10.3.3.2 Descripción del diagrama en Clementine que genera un modelo....166
10.3.4 Descripción del modelo (output 4c.3)......................................................168
10.3.4.1 Modelo de riesgo especificado usando regresión logística..............169
10.3.4.2 Modelo de rentabilidad especificado usando regresión logística .....171
10.3.4.3 Modelo de riesgo especificado usando redes neuronales ...............172
10.3.4.4 Modelo de rentabilidad especificado usando redes neuronales ......173
10.3.4.5 Modelo de riesgo especificado usando árboles de decisión ............174
10.3.4.6 Modelo de rentabilidad especificado usando árboles de decisión ...177
10.3.4.7 Variables válidas en los tres tipos de modelos antes explicados.....177
10.4 Evaluar el modelo técnicamente (tarea 4d) ...............................................181
10.4.1 Evaluación técnica del modelo y de los objetivos de datamining de
estimar el riesgo crediticio y la rentabilidad potencial de los clientes
(output 4d.1) ...........................................................................................181
10.4.2 Principales medidas estadísticas para evaluar modelos técnicamente ..182
10.4.2.1 Divergencia......................................................................................183
10.4.2.2 Estadístico de Kolmogorov-Smirnov (K-S).......................................184
10.4.2.3 Curva ROC o de Trade-off...............................................................185
10.4.2.4 Receiver Operating Characteristic (ROC)........................................186
10.4.2.5 Razón Odds/Score ..........................................................................187
10.4.3 Evaluación técnica automatizada de modelos utilizando Clementine .....188
10.4.4 Establecer los parámetros revisados (output 4d.2).................................190

11 QUINTA FASE DEL PLAN: EVALUACIÓN DE NEGOCIOS .............................191


11.1 Evaluar los resultados de negocios (tarea 5a) ..........................................192
11.1.1 Evaluación de negocios de resultados de datamining y de los
objetivos de negocios de focalizarse en nichos y crecer sujeto a un
nivel mínimo de riesgo (output 5a.1).......................................................192
11.1.2 Modelos aprobados (output 5a.2) ...........................................................200
11.2 Revisar el proceso de datamining (tarea 5b) .............................................200
11.2.1 Revisión del proceso de datamining (output 5b.1) ..................................201
11.3 Determinar los próximos pasos (tarea 5c).................................................201
11.3.1 Lista de las acciones posibles (output 5c.1) ...........................................201
11.3.2 Decisión (output 5c.2) .............................................................................202

12 SEXTA FASE DEL PLAN: DESPLIEGUE DE LOS RESULTADOS ..................203


12.1 Planificar el despliegue (tarea 6a) ..............................................................204
12.1.1 Plan de despliegue (output 6a.1) ............................................................204
12.1.2 Automatización de la fase de despliegue utilizando Clementine.............205
12.2 Planificar el monitoreo y la mantención (tarea 6b) ...................................206
12.2.1 Plan de monitoreo y mantención (output 6b.1) .......................................206
12.3 Producir el reporte final (tarea 6c)..............................................................207
12.3.1 Reporte final (output 6c.1) ......................................................................207
12.3.2 Presentación final (output 6c.2) ..............................................................208
12.4 Revisar el proyecto (tarea 6d) .....................................................................208
12.4.1 Documentación de la experiencia (output 6d.1)......................................208

13 CONCLUSIÓN ....................................................................................................209

14 BIBLIOGRAFÍA...................................................................................................212
INDICE DE FIGURAS

Figura 1.1 Tema de tesis planteado en forma redonda en cuanto a objetivo,


desarrollo y conclusiones ........................................................................15

Figura 2.1 Crecimiento de los productos de consumo bancarios, 1998-2004..........17

Figura 2.2 Porcentaje de participación de las colocaciones de los distintos


Bancos del sistema financiero chileno, Julio del 2005 ............................21

Figura 2.3 Comparación entre Bancos grandes y pequeños de la razón de


eficiencia (gastos de apoyo oper. / resultado oper.), 2000-2005.............21

Figura 2.4 Comparación entre Bancos medianos y pequeños de la razón de


eficiencia (gastos de apoyo oper. / resultado oper.), 2000-2005............22

Figura 2.5 Evolución del margen de intereses del sistema financiero chileno
como un todo, periodo 2000-2005 ..........................................................23

Figura 2.6 Comparación entre Bancos grandes y pequeños de la razón de


margen de intereses / colocaciones, periodo 2000-2005........................24

Figura 2.7 Comparación entre Bancos medianos y pequeños de la razón de


margen de intereses / colocaciones, periodo 2000-2005........................25

Figura 2.8 Comparación del margen de intereses sobre colocaciones entre


Bancos de clientes preferenciales y Bancos pequeños, periodo
2000-2005 ...............................................................................................26

Figura 2.9 Comparación de la rentabilidad sobre patrimonio de Bancos


grandes y pequeños, periodo 2000-2005................................................27

Figura 2.10 Comparación de la rentabilidad sobre patrimonio de Bancos


medianos y pequeños, periodo 2000-2005 .............................................27

Figura 2.11 Evolución de las colocaciones totales del sistema financiero


chileno, desglosadas por tipo, periodo 2000-2004.................................28

Figura 2.12 Comparación del crecimiento anual de colocaciones de los Bancos


medianos y pequeños, periodo 2000-2005 .............................................29
Figura 2.13 Matriz de crecimiento-participación de las colocaciones de los
distintos Bancos en Chile, Julio 2004-Julio 2005 ....................................30

Figura 2.14 Tasas de créditos de consumo, hipotecarios y comerciales, periodo


2002-2005 ...............................................................................................31

Figura 2.15 Composición del margen operacional bruto de los distintos Bancos,
Julio 2005................................................................................................32

Figura 2.16 Porcentaje de los distintos tipos de créditos sobre el total de


colocaciones de cada Banco, Febrero 2005 ...........................................33

Figura 2.17 Ranking de Bancos por colocaciones de consumo, Febrero 2005 .........34

Figura 2.18 Enfoque operacional de comunicación en un proyecto de


datamining...............................................................................................39

Figura 6.1 Fases y Tareas del Modelo CRISP-DM ..................................................55

Figura 7.1 Tareas y outputs de la fase de comprensión del negocio, primera


fase del proyecto de datamining según metodología CRISP-DM ...........59

Figura 7.2 Ganancias extras obtenidas por cada transacción de la tarjeta de


crédito de un cliente, cuando éste tiene varios años de antigüedad .......71

Figura 8.1 Tareas y outputs de la fase de comprensión de los datos, segunda


fase del proyecto de datamining según metodología CRISP-DM ...........81

Figura 8.2 Seis grupos de variables candidatas a ser consideradas en los


modelos (nótese que sólo un grupo corresponde a variables de
deudas) ...................................................................................................84

Figura 9.1 Tareas y outputs de la fase de preparación de los datos, tercera


fase del proyecto de datamining según metodología CRISP-DM ...........95

Figura 9.2 Flujo de datos en Clementine que obtiene la base de datos final
para construir un modelo predictivo ........................................................99

Figura 9.3 Gran flujo de datos de Clementine mostrando la obtención de una


base de variables predictivas a partir de distintas fuentes de datos .....102
Figura 9.4 Flujo de datos en Clementine que obtiene las deudas de los
clientes con el Banco y que fueron informadas a la SBIF hace dos
meses ...................................................................................................104

Figura 9.5 Flujo de datos en Clementine que estima las deudas de un cliente
con terceros ..........................................................................................105

Figura 9.6 Flujo de datos en Clementine que obtiene los saldos actuales de
las cuentas, tanto antes como después del envío del D01 hace dos
meses ...................................................................................................106

Figura 9.7 Flujo de datos en Clementine que obtiene los saldos actualizados
de las cuentas reportadas hace dos meses en el D01 enviado a la
SBIF ......................................................................................................107

Figura 9.8 Flujo de datos en Clementine que obtiene las deudas actualizadas
de los clientes con el Banco..................................................................108

Figura 9.9 Flujo de datos en Clementine que separa los clientes “nuevos” (de
hace menos de dos meses) de los clientes antiguos ............................110

Figura 9.10 Flujo de datos en Clementine que estima las deudas con terceros
de los clientes “nuevos” (de menos de dos meses de antigüedad).......111

Figura 9.11 Flujo de datos en Clementine que obtiene las deudas de los
clientes tanto con el Banco como con terceros .....................................112

Figura 9.12 Flujo de datos en Clementine que mezcla los datos de las deudas
de los clientes, de su renta y de sus características demográficas.......113

Figura 9.13 Flujo de datos en Clementine que obtiene la base de variables


predictivas .............................................................................................114

Figura 10.1 Tareas y outputs de la fase de modelamiento, cuarta fase del


proyecto de datamining según metodología CRISP-DM.......................122

Figura 10.2 Clientes buenos y malos versus carga financiera .................................125

Figura 10.3 Proporción de clientes malos por clase de carga financiera .................125

Figura 10.4 Un modelo matemático simple para una neurona.................................132


Figura 10.5 Funciones de activación de una neurona: función escalonada (a) y
función sigmoidal (b) .............................................................................133

Figura 10.6 Unidades con una función de activación escalonada que pueden
representar distintas puertas lógicas.....................................................134

Figura 10.7 Una red neuronal con dos inputs, un nivel oculto de dos unidades y
una salida..............................................................................................135

Figura 10.8 Gráfico del output de un perceptrón con dos unidades de entrada y
una función de activación sigmoidal......................................................137

Figura 10.9 El resultado de combinar dos funciones sigmoidales para obtener


una cordillera.........................................................................................138

Figura 10.10 El resultado de combinar dos cordilleras para producir un cerro ..........139

Figura 10.11 Perceptrón con una unidad de salida....................................................140

Figura 10.12 Red neuronal con un nivel oculto y dos unidades de salida..................142

Figura 10.13 Ejemplo de árbol de decisión que permite clasificar a los clientes en
buenos y malos .....................................................................................149

Figura 10.14 Ejemplos de clientes clasificados como buenos o malos......................152

Figura 10.15 Clasificación de conjunto de datos de entrenamiento mediante el


atributo de comuna ...............................................................................153

Figura 10.16 Clasificación de conjunto de datos de entrenamiento mediante


atributos de renta y rotación de empleo ................................................154

Figura 10.17 Árbol de decisión generado por algoritmo a partir de los ejemplos
del conjunto de datos de entrenamiento ...............................................155

Figura 10.18 Función información y promedio geométrico entre la proporción de


ejemplos positivos y negativos en un conjunto de datos.......................157

Figura 10.19 Flujo de datos en Clementine que genera modelos y predicciones a


partir de una base final para alimentar el modelo predictivo .................164

Figura 10.20 Flujo de datos en Clementine que obtiene un conjunto de datos de


entrenamiento .......................................................................................166
Figura 10.21 Flujo de Datos en Clementine que genera modelos a partir de un
conjunto de datos de entrenamiento .....................................................167

Figura 10.22 Factores considerados en la divergencia de un modelo de puntaje:


cuanto se separan y se superponen las distribuciones de buenos y
malos ....................................................................................................183

Figura 10.23 Estadígrafo K-S, calculado como la máxima distancia entre las
distribuciones de buenos y malos de un modelo de puntaje.................184

Figura 10.24 Curvas de trade-off de dos modelos de puntaje....................................185

Figura 10.25 Estadígrafo ROC de un modelo de puntaje, calculado como el área


bajo la curva de trade-off ......................................................................186

Figura 10.26 Razón de Odds/Score de un modelo de puntaje...................................187

Figura 10.27 Flujo de datos en Clementine que obtiene un conjunto de datos de


prueba para validar un modelo..............................................................188

Figura 10.28 Flujo de datos en Clementine que entrega notas y predicciones de


de riesgo y rentabilidad potencial para un conjunto de clientes ............189

Figura 11.1 Tareas y outputs de la fase de evaluación de negocios, quinta fase


del proyecto de datamining según metodología CRISP-DM .................191

Figura 11.2 Segmentos de riesgo y rentabilidad ......................................................194

Figura 11.3 Orientación operacional de las campañas bancarias............................195

Figura 11.4 Funciones continua y escalonada que describen el aumento del


riesgo de los clientes al aumentar su carga financiera..........................197

Figura 12.1 Tareas y outputs de la fase de despliegue, sexta y última fase del
proyecto de datamining según metodología CRISP-DM.......................203

Figura 12.2 Flujo de datos en Clementine que obtiene una base de clientes con
notas de riesgo y rentabilidad a partir de una base de variables
predictivas .............................................................................................205

Figura 12.3 Flujo de datos en Clementine que obtiene una base de ofertas
comerciales a partir de una base con notas de riesgo y rentabilidad....206
1 INTRODUCCIÓN

El presente documento describe como mediante datamining es posible enfocar las


campañas de un Banco pequeño que no cuenta con un datawarehouse. Todo ello para
los productos de créditos de consumo, tarjetas y líneas de crédito. Se describe cómo a
partir de ciertas bases operacionales de un Banco es posible construir modelos de
datamining capaces de calcular puntajes de riesgo y rentabilidad de sus clientes, y
cómo a partir de tales puntajes pueden identificarse distintos segmentos susceptibles
de ser atacados con ofertas diferenciadas.

El objetivo del autor del presente trabajo1 no ha sido elaborar modelos predictivos de la
rentabilidad de los clientes ni de su desempeño crediticio, puesto que para ello hubiese
sido necesario disponer de los datos de los clientes de algún Banco, cosa que ha
escapado totalmente al ámbito de definición de la investigación. El objetivo, en cambio,
ha sido relatar cómo es posible elaborar un plan para que un Banco pequeño construya
e implemente modelos de datamining que le ayuden a enfocarse en nichos de mercado
específicos. Por ende, el foco de la tesis no se encuentra en la descripción de modelos
predictivos específicos, sino que en la forma de elaborar un plan para construir tales
modelos. Por lo tanto, las indicaciones que se entregan en este informe son genéricas,
puramente conceptuales, no están dirigidas a ningún Banco específico y no se basan
en ningún conjunto de datos de ningún grupo de personas. En consecuencia no se ha
pedido ni obtenido autorización de ninguna institución ni persona para utilizar en este
informe datos confidenciales, tales como información sujeta a secreto bancario.

El presente informe se ha planteado en forma “redonda” en cuanto a objetivos,


desarrollo y conclusiones, en el sentido de cerrar un ciclo que parte de un objetivo,
consistente en demostrar la validez de una tesis, para finalmente arribar a la conclusión
de que la tesis es válida. En efecto, en forma similar a la demostración de un teorema
geométrico la investigación se ha dividido en cuatro pasos, como se ilustran en la figura
1.1 dada abajo: formulación de la tesis a demostrar, formulación de las hipótesis que se
emplearán en la demostración, desarrollo de la demostración propiamente dicha, y
finalmente la conclusión con respecto a la validez de la tesis. Por lo tanto, el desarrollo
apunta específicamente a alcanzar el objetivo planteado en la tesis. Las conclusiones,

1
Mauricio De Luca, ingeniero civil de industrias y diploma académico en la especialidad de ingeniería en
computación de la Pontificia Universidad Católica de Chile (mpdeluca@puc.cl)

14
por su parte, establecen si la tesis es válida o falsa, y se derivan directamente del
desarrollo de la demostración.

Figura 1.1 Tema de tesis planteado en forma redonda en cuanto a objetivo,


desarrollo y conclusiones2

La tesis que se pretende demostrar es la siguiente: mediante herramientas de


datamining puede elaborarse un plan para enfocar las campañas en un Banco pequeño
que carece de un datawarehouse, de manera de permitir a la institución segmentar a
sus clientes y crecer. El objetivo último y principal de esta investigación no es otro que
demostrar dicha tesis. El capítulo 3 entrega objetivos secundarios que permiten
alcanzar dicho objetivo principal.

La principal hipótesis de trabajo, por su parte, consiste en el supuesto de que existe un


conjunto de bases de datos operacionales que forzosamente cualquier Banco debe

2
Fuente: elaboración propia

15
poseer y que proveen información necesaria y suficiente para realizar estudios de
datamining. Existen también otras hipótesis de trabajo que son necesarias para poder
satisfacer el objetivo de la tesis y las cuales se detallan en el capítulo 5.

El desarrollo de la tesis, en tanto, consiste en detallar paso a paso con una metodología
de datamining (CRISP-DM) como formular un plan para enfocar las campañas,
construyendo modelos predictivos de riesgo y rentabilidad a partir de datos de bases
operacionales. El desarrollo de la tesis es dividido en los capítulos 7 al 12,
correspondiendo cada uno a las distintas fases en las que se divide un proyecto de
datamining en la metodología CRISP-DM.

La principal conclusión, por lo tanto, consiste en que la tesis planteada en un comienzo


de la investigación es válida, por cuanto en el desarrollo se demuestra que es
efectivamente posible construir un plan para enfocar las campañas bancarias mediante
herramientas de datamining. El capítulo 13 entrega también otras conclusiones
importantes que se deducen de la investigación.

El resto del documento está dividido como sigue: el capítulo 2 ofrece un diagnóstico del
problema de las campañas bancarias, el capítulo 3 define los objetivos de la
investigación (lo cual calza con la primera etapa de formulación de la tesis dada en la
figura 1.1). El capítulo 4 entrega definiciones previas que se utilizarán en el resto del
documento. El capítulo 5 detalla las hipótesis de trabajo (lo cual corresponde a la
segunda etapa de la tesis dada en la figura 1.1). El capítulo 6 se refiere a la
metodología que se utiliza en la formulación del plan de datamining, junto a las razones
para su elección. El desarrollo de la tesis, tercera etapa en el esquema entregado en la
figura 1.1, se entrega en los capítulos 7 al 12. El capítulo 13 corresponde a la cuarta y
última etapa de la figura 1.1 y resume las conclusiones de la investigación. Finalmente
el capítulo 14 entrega la bibliografía.

16
2 DIAGNÓSTICO DEL PROBLEMA

A continuación se entrega la descripción del negocio de las campañas bancarias en los


productos de líneas de crédito, tarjetas de crédito y créditos de consumo.

2.1 Los productos

Las campañas de consumo bancarias contemplan la promoción de múltiples productos


dirigidos a distintos tipos de mercado. Tres de dichos productos serán abordados en el
presente estudio: los créditos de consumo, las tarjetas de crédito y las líneas de crédito.
Los análisis se enfocarán solamente en el mercado de las personas naturales sin giro, y
los créditos no incluirán préstamos para prepagar otras deudas.

El siguiente gráfico muestra el crecimiento de los mencionados productos durante los


últimos años. Puede observarse como las cuentas corrientes y los créditos de consumo
han mostrado un sostenido crecimiento, en tanto que el número de las tarjetas de
crédito ha caído:

Figura 2.1 Crecimiento de los productos de consumo bancarios, 1998-20043

A continuación se describe el panorama de cada producto.

3
Fuente: EL DIARIO FINANCIERO, Bancos Salen a la Caza de Nuevos Segmentos para Rentabilizar su
Negocio, 28/03/2005

17
2.1.1 Créditos de consumo
Los Bancos utilizan para colocar sus créditos de consumo canales tales como el
contacto telefónico y el marketing directo, al mismo tiempo que medios de publicidad
como los avisos en diarios, radio y televisión. Algunos Bancos, invitan a sus clientes a
retirar en sucursales un préstamo que ya está autorizado. Otros, en cambio, han
llegado incluso a hacer uso de las llamadas “preaprobaciones automáticas”, en virtud
de las cuales los ejecutivos llaman a sus clientes para ofrecerles depositar en su cuenta
corriente un crédito que ya está aprobado. Las campañas de créditos de consumo
incluyen tasas preferenciales, premios y beneficios.

2.1.2 Tarjetas de crédito


Las tarjetas de crédito bancarias han enfrentado una creciente y dura competencia por
parte de las tarjetas de retail. Ello queda de manifiesto por el hecho de que el número
total de tarjetas bancarias es menos de un tercio de los ocho millones de tarjetas
emitidas por las multitiendas y cadenas de supermercados. Como resultado de dicha
competencia el número de tarjetas de crédito se ha estancado desde el 2003 y los
Bancos en respuesta se han visto obligados a realizar agresivas campañas. Las
colocaciones por tarjetas de crédito en junio del 2004 representaban un nada
despreciable 23% de los préstamos de consumo totales del sistema financiero4.

El objetivo fundamental de los Bancos detrás de las campañas de tarjetas es el de


fidelizar al cliente. La idea que subyace al concepto de fidelización es que el cliente
utilice en forma más intensiva las tarjetas, a la vez que el resto de los productos
bancarios. Como consecuencia de las campañas de fidelización entre 1999 y el 2004 el
número promedio de transacciones anuales por tarjeta pasó de 16 a 195.

Las tarjetas bancarias generan ingresos por múltiples conceptos, entre ellos la tarifa
mensual por mantención que debe pagar el cliente, al igual que las comisiones que
debe pagar el comerciante por cada transacción. Generan también el cobro de
intereses por dos causas: los montos utilizados de la tarjeta, y los montos de las líneas
de crédito que son empleadas con el propósito de pagar las tarjetas. Ello explica por
qué existe tanto interés por parte de los Bancos en ofrecer rebajas de intereses o de

4
Fuente: EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar Clientes,
20/01/2005
5
Fuente: Informe de Estabilidad Financiera, Banco Central, primer semestre 2006

18
precios con tal de fomentar el uso de las tarjetas. Al fin de cuentas los ingresos
generados por mantenciones, comisiones e intereses superan las rebajas.

2.1.3 Líneas de crédito


Son un producto estrechamente ligado a las cuentas corrientes, las cuales constituyen
el principal “gancho” para ofrecer otros productos bancarios, como las tarjetas de
crédito o los créditos de consumo.

El sistema financiero aumentó su número de cuentas corrientes sólo 5,25% durante el


20046, crecimiento provocado en su mayor parte por la reactivación en el consumo de la
economía. La participación que cada Banco posee sobre el número total de cuentas
corrientes ha sufrido pocas variaciones los últimos años debido al escaso crecimiento
del número de cuentas corrientes y a la fuerte competencia en los segmentos de
mercado bancarizados El 24% de las cuentas corrientes las posee el Banco de Chile,
posición seguida muy de cerca por el Banco Santander y por el BCI, que detentan un
16%. Bastante más atrás les siguen el Banco Estado, con un 10% y el BBVA, con un
5,5%7.

2.2 El mercado

En Chile existe un gran número de personas no bancarizadas. De los siete millones de


personas que componen la fuerza laboral en Chile, sólo 1,3 millones tienen cuenta
corriente8. Chile es uno de los países menos bancarizados de Latinoamérica. Es así
como mientras en el país existen 0,1 cuentas corrientes por habitante, en México ellas
superan las 0,28 y en Brasil las 0,459. Chile presenta 0,38 tarjetas de débito y crédito
por habitante, mientras que Argentina tiene un índice el doble mayor, al tiempo que
Brasil alcanza un índice de 0,810. En este panorama los Bancos se han esforzado por
crecer hacia los segmentos de menores ingresos y por competir en ellos con las casas
comerciales. Con ese propósito han abierto divisiones especializadas, como es el caso
del Santander, el BCI, el BBVA, el Chile, Corpbanca, Citibank y el Banco del Desarrollo.
Adicionalmente los Bancos han hecho alianzas con casas comerciales. Tal es el caso
6
Fuente: EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar Clientes,
20/01/2005
7
Fuente: idem. a la anterior
8
Fuente: idem. a la anterior
9
Fuente: idem. a la anterior
10
Fuente: idem. a la anterior

19
del Santander con el Banco Paris, del BancoEstado con D&S, del BCI con Falabella y
del Banco Chile con Falabella y Ripley.

Es posible distinguir varios mercados objetivo a los que pueden dirigirse las campañas
de créditos de consumo, tarjetas o líneas de crédito. El primero es el conjunto de
clientes que poseen créditos de consumo con el Banco próximos a expirar, o que han
sido pagados en su mayor parte. El segundo mercado está conformado por los clientes
que son deudores del Banco en algún producto, pero que carecen de alguno de los
otros productos considerados en este estudio. El tercer mercado está constituido por las
personas que no son clientes del Banco y que no poseen créditos de consumo, tarjetas
ni líneas de éste. Existen, no obstante, muchas distinciones que es posible percibir en
los clientes y que los diferencian profundamente del resto. Existen, por ejemplo, clientes
que tienen sólo depósitos a plazo en el Banco, otros que tienen créditos hipotecarios,
otros que son empresas o personas con giro, profesionales jóvenes, etc.

El presente estudio se ha enfocado sólo en los clientes que son deudores del Banco en
algún producto y que son personas naturales sin giro. Por otro lado, se supondrá que
las campañas a las cuales se aplique el plan descrito en este documento no
contemplarán créditos destinados a prepagar otras deudas. Por lo tanto, el estudio se
concentrará sólo en los clientes con capacidad para adquirir deudas adicionales a
aquellas que ya poseen.

2.3 La industria

Existen tres grandes Bancos que concentran más de la mitad del total de las
colocaciones del sistema: el Santander, el Chile y el Estado. Los siguen tres Bancos
medianos: el BCI, el BBVA y Corpbanca, que en conjunto tienen más de la cuarta parte
de las colocaciones totales. El resto de los Bancos, que pueden con propiedad
clasificarse como pequeños, tienen en total una cuarta parte de las colocaciones. Como
se mostrará a continuación, los gastos operacionales, las rentabilidades y las tasas de
crecimiento de los Bancos dependen fuertemente de su tamaño.

El siguiente gráfico muestra la participación de mercado sobre las colocaciones totales


de los distintos Bancos que componen el sistema financiero nacional:

20
Figura 2.2 Porcentaje de participación de las colocaciones de los distintos
Bancos del sistema financiero chileno, Julio del 200511

La siguiente figura compara los gastos operacionales de Bancos grandes y pequeños:

Figura 2.3 Comparación entre Bancos grandes y pequeños de la razón de


eficiencia (gastos de apoyo oper. / resultado oper.), 2000-200512

11
Fuente: tabla del anexo A, la cual contiene datos extraídos de los volúmenes de Julio de los años 2004
y 2005 de la revista Información Financiera de la SBIF
12
Fuente: tabla del anexo B, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF

21
El gráfico anterior ha mostrado cómo los Bancos grandes, a excepción del Banco del
Estado, obtienen gastos operacionales permanentemente por debajo del promedio de la
industria, en tanto que los Bancos pequeños tienen gastos muy superiores. Ello se
explica por las fuertes economías de escala presentes en el negocio Bancario, lo cual
queda reafirmado por el hecho de que aun los Bancos medianos presentan gastos
operacionales consistentemente por debajo de los bancos pequeños, como puede
apreciarse en el siguiente gráfico:

Figura 2.4 Comparación entre Bancos medianos y pequeños de la razón de


eficiencia (gastos de apoyo oper. / resultado oper.), 2000-200513

Tal vez el BBVA escapa un poco a la tendencia de los Bancos medianos, sin embargo
ello puede explicarse por una orientación particular hacia el negocio hipotecario.

Por otro lado, en la industria bancaria nacional los márgenes de intereses, que se
generan por la diferencia entre los intereses que los Bancos cobran por las
colocaciones y los intereses que pagan por las captaciones, han caído debido a la
fuerte competencia, como se revela en el siguiente gráfico:

13
Fuente: tabla del anexo B, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF

22
Figura 2.5 Evolución del margen de intereses del sistema financiero chileno
como un todo, periodo 2000-200514

Entre julio del 2000 y julio del 2005 el margen de intereses sobre el resultado
operacional bruto bajó desde 80,8% a 73,8%15 , presentando, por lo tanto, una
reducción de un 7% del resultado operacional bruto. Ello fue más que compensado por
la disminución en los gastos operacionales, que bajaron de un 60,2% a un 51,7% del
resultado operacional bruto (vale decir un 8,5% del resultado operacional bruto)16. Esto
se ha traducido en un aumento de la rentabilidad para el sistema financiero como un
todo. No obstante, mientras los Bancos grandes y medianos han bajado sus gastos
operacionales, ese no ha sido el caso de los Bancos pequeños.

La disminución de los márgenes de intereses tampoco ha afectado a todos los Bancos


por igual. El siguiente gráfico muestra como los Bancos grandes han bajado en forma
constante sus márgenes de intereses, convergiendo hacia los márgenes de intereses
de los Bancos pequeños, que no han variado significativamente:

14
Fuente: tabla del anexo C, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF
15
Fuente: Revista Información Financiera, SBIF, julio del 2000 y julio del 2005
16
Fuente: Revista Información Financiera, SBIF, julio del 2000 y julio del 2005

23
Figura 2.6 Comparación entre Bancos grandes y pequeños de la razón de
margen de intereses / colocaciones, periodo 2000-200517

El nivel consistentemente inferior de los márgenes de intereses de los Bancos


pequeños hace pensar que éstos no son capaces de competir sino ofreciendo tasas
inferiores. Ello es estratégicamente preocupante para los Bancos pequeños por dos
motivos:

1.- Claramente los Bancos pequeños no pueden competir por precio (margen de
intereses) con los Bancos grandes, que disponen de mayores economías de escala.

2.- Los Bancos grandes muestran una tendencia creciente a disminuir sus márgenes de
intereses, acercándose a aquellos de los Bancos pequeños, lo que puede interpretarse
como una disminución generalizada de los precios de la industria. De esa forma, la
diferenciación por precio de los Bancos pequeños es algo que está en vías de
desaparecer.

Contrastando los márgenes de intereses de los Bancos pequeños y medianos es


posible observar las mismas tendencias anteriores, como se ilustra en la figura 2.7:

17
Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF

24
Figura 2.7 Comparación entre Bancos medianos y pequeños de la razón de
margen de intereses / colocaciones, periodo 2000-200518

Una clave para sobrevivir pueden darla el BankBoston y el Citibank, que a pesar de
tener un tamaño reducido cuentan con márgenes de intereses muy por sobre aquellos
que presentan el resto de los Bancos pequeños. Los altos márgenes de intereses de los
dos Bancos antes mencionados pueden explicarse por su orientación a un segmento de
clientes preferenciales que están dispuestos a pagar un precio mayor al de mercado por
recibir un servicio diferenciado. De ahí surge un argumento presente en las hipótesis de
trabajo sobre las que se basa esta investigación: los Bancos pequeños para poder
competir se ven enfrentados a dos posibilidades, una de las cuales calza con lo que
han logrado el BankBoston y el Citibank, y que consiste en focalizarse en un nicho de
mercado específico donde es posible alcanzar márgenes de intereses (precios) por
sobre los de un mercado competitivo. La otra posibilidad para competir es bastante
obvia y consiste en crecer y alcanzar por esa vía mayores economías de escala.

La siguiente figura permite contrastar los márgenes de intereses del Citibank y del
BankBoston con los del resto de los bancos pequeños:

18
Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF

25
Figura 2.8 Comparación del margen de intereses sobre colocaciones entre
Bancos de clientes preferenciales y Bancos pequeños, periodo 2000-200519

Las economías de escala parecen afectar no sólo gastos operacionales y márgenes de


intereses, sino que también las rentabilidades de las instituciones. En efecto, los
grandes Bancos, a excepción del Banco del Estado, obtienen permanentemente en el
tiempo rentabilidades sobre capital y reservas muy superiores a aquellas que consiguen
los Bancos pequeños. El caso del Banco del Estado, sin embargo, es enteramente
explicable por su rol social, por lo que sus resultados no invalidan la observación antes
realizada. En efecto, la baja rentabilidad del BancoEstado puede explicarse debido a
una masiva participación en el negocio hipotecario para la vivienda social, y en una
enorme cartera de clientes de bajos ingresos, entre otras características.

Si se compara la rentabilidad sobre capital y reservas de los Bancos grandes y


pequeños, por un lado, y de los Bancos medianos y pequeños, por otro, es posible
observar un patrón similar que refuerza la convicción de que existen fuertes economías
de escala en el negocio. Los siguientes gráficos comparan las rentabilidades sobre
capital y reservas de los Bancos pequeños con las de los Bancos grandes y medianos.

19
Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF

26
Figura 2.9 Comparación de la rentabilidad sobre patrimonio de Bancos
grandes y pequeños, periodo 2000-200520

Figura 2.10 Comparación de la rentabilidad sobre patrimonio de Bancos


medianos y pequeños, periodo 2000-200521

20
Fuente: tabla del anexo E, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000
al 2005 de la revista Información Financiera de la SBIF
21
Fuente: idem. a la anterior

27
Por otro lado, es preciso notar que el sistema financiero chileno como un todo ha
crecido durante el periodo 2000-2004, y ello tanto en los productos hipotecarios, como
en las colocaciones para empresas o de consumo, como lo muestra la siguiente figura:

Figura 2.11 Evolución de las colocaciones totales del sistema financiero


chileno, desglosadas por tipo, periodo 2000-200422

No obstante, dicho crecimiento no ha sido homogéneo. No es posible verificar, sin


embargo, que los Bancos grandes crecieran más que los pequeños debido al
aprovechamiento de sus fuertes economías de escala, por cuanto su crecimiento fue
impactado por las grandes fusiones entre el Banco Edwards y el Chile, por un lado, y el
Banco Santander y el Santiago, por otro. A pesar de ello, es posible deducir tal
aprovechamiento de las economías de escala al comparar los Bancos medianos con los
pequeños, puesto que el crecimiento de los medianos fue mayor durante el periodo
1999-2004. En efecto, exceptuando el Security, todos los demás Bancos pequeños
mostraron un comportamiento errático en el crecimiento de sus colocaciones, frente a
22
Fuente: tabla del anexo G, la cual contiene datos extraídos del volumen de Febrero del 2005 de la
revista Información Financiera de la SBIF

28
un avance sostenido de los Bancos medianos que finalizó el periodo 1999-2005 con
tasas por sobre el 10% anual. El crecimiento, por lo tanto, también muestra evidencias
de la existencia de fuertes economías de escala. La figura 2.12 permite constatar este
hecho:

Figura 2.12 Comparación del crecimiento anual de colocaciones de los Bancos


medianos y pequeños, periodo 2000-200523

Es posible observar el vínculo que existe entre tamaño y crecimiento utilizando una
matriz del Boston Consulting Group, en la cual los Bancos se clasifican en cuatro
grupos de acuerdo a su participación de mercado y a su porcentaje de crecimiento.
Todos los Bancos grandes pueden clasificarse como “vacas lecheras”, por cuanto
presentan una alta participación de mercado, superior al 6%, y un bajo crecimiento,
inferior al 15% anual. La totalidad de los Bancos medianos, en tanto, pueden
clasificarse como “estrellas”, con un crecimiento por sobre el 15% y un porcentaje de
participación sobre el total de las colocaciones superior al 6%. Los Bancos pequeños,
por su parte, pueden ser divididos en dos grupos: los poco atractivos (BICE, Citibank y
Scotiabank), con tasas de crecimiento inferiores al 15% al año; y las incógnitas

23
Fuente: tabla del anexo F, la cual contiene datos extraídos de los volúmenes de Julio de los años 1999
al 2005 de la revista Información Financiera de la SBIF

29
(Security, BankBoston y Bco. del Desarrollo), con tasas de crecimiento sobre el 15%. El
siguiente gráfico ilustra la matriz:

Figura 2.13 Matriz de crecimiento-participación de las colocaciones de los


distintos Bancos en Chile, Julio 2004-Julio 200524

Hasta el momento se había podido constatar que los Bancos pequeños eran
consistentemente menos atractivos que los Bancos medianos o grandes, no obstante
ha surgido una nueva distinción entre los Bancos pequeños: las incógnitas y los poco
atractivos. Para poder explicar las diferencias en el desempeño entre estos dos grupos
de Bancos es preciso notar que estas instituciones no sólo difieren por su tamaño, sino
que también por sus orientaciones a distintos tipos de negocios, mercados y productos.
Dichas orientaciones juegan un papel fundamental en las diferencias de crecimiento y
de rentabilidad observadas entre los Bancos pequeños.

Algunos Bancos están orientados preferentemente a las pequeñas y medianas


empresas, otros, a las colocaciones de consumo para personas, y aun otros a los
créditos hipotecarios para la vivienda. Dichas diferencias de orientación se traducen

24
Fuente: tabla del anexo A, la cual contiene datos extraídos de los volúmenes de Julio de los años 2004
y 2005 de la revista Información Financiera de la SBIF

30
directamente en diferencias en ingresos, por cuanto cada negocio opera con tasas de
interés muy distintas. Por otro lado, para la mayoría de los Bancos nacionales el
margen de intereses contribuye al resultado operacional bruto en más de un 70%25.

El siguiente gráfico ilustra como las tasas de interés de las colocaciones de consumo
para personas naturales (tarjetas de crédito, líneas de crédito y créditos de consumo)
superan en mucho a las tasas hipotecarias y a las tasas de los créditos comerciales.

Figura 2.14 Tasas de créditos de consumo, hipotecarios y comerciales, periodo


2002-200526

Es por esta razón que las colocaciones de consumo, que representan menos del 25%
del total de las colocaciones del sistema financiero27, contribuyen a los ingresos
bancarios en un porcentaje mucho mayor.

Es posible clasificar también a los Bancos de acuerdo a los porcentajes de los ingresos
operacionales que son generados por intereses, por comisiones o por otros ingresos
operacionales. El siguiente diagrama ilustra esa clasificación, pudiendo observarse
como los Bancos que muestran los mayores ingresos porcentuales por concepto de
intereses son aquellos con orientación a clientes preferenciales (vale decir el

25
Fuente: Revista Información Financiera, SBIF, Julio 2005
26
Fuente: tabla del anexo H, la cual contiene datos extraídos de los volúmenes del 2005 del Informe de
las Tasas de los Principales Productos de Consumo de la SBIF y del Informe de Mutuos Hipotecarios
Endosables de la SBIF
27
Fuente: Revista Información Financiera, SBIF, Julio 2005

31
BankBoston y el Citibank). Por otro lado, los Bancos más orientados a los créditos
hipotecarios, vale decir el BBVA y el BancoEstado, son aquellos con menores
contribuciones de los intereses al resultado operacional.

Figura 2.15 Composición del margen operacional bruto de los distintos Bancos,
Julio 200528

En la figura 2.16 dada más adelante se grafican los porcentajes que representan los
diversos tipos de crédito sobre el total de colocaciones de cada Banco. Los Bancos
pueden clasificarse en cuatro grupos en base a dicha figura: A, B, C y D. Las
instituciones del grupo A, que no son otras que los Bancos de las casas comerciales, se
orientan preferentemente a las colocaciones de consumo. El grupo B, en tanto, aglutina
fundamentalmente a los Bancos grandes y medianos, y en él las colocaciones de
consumo representan menos del 25% del total, al tiempo que las colocaciones para
empresas se ubican entre el 50% y el 70%. El grupo C incluye a pequeños Bancos
28
Fuente: tabla del anexo I, la cual contiene datos extraídos del volumen de Julio del 2005 de la revista
Información Financiera de la SBIF

32
orientados a las colocaciones de consumo, que superan el 25% del total. El grupo D
incluye a la mayoría de los Bancos pequeños, los cuales se enfocan fundamentalmente
en ofrecer créditos a las empresas.

Figura 2.16 Porcentaje de los distintos tipos de créditos sobre el total de


colocaciones de cada Banco, Febrero 200529

Cabe notar que los Bancos del grupo C calzan casi perfectamente con los Bancos poco
atractivos de la matriz de crecimiento/participación. Ello debiera ser particularmente
preocupante, puesto que los Bancos de las casas comerciales son especialistas en
créditos de consumo, y su importancia y participación en el negocio se incrementa día a
día. Ante tal escenario el futuro para los Bancos del grupo C se augura poco
auspicioso, a menos que se enfoquen en nichos de mercado específicos, como lo ha
hecho el Citibank.

29
Fuente: tabla del anexo J, la cual contiene datos extraídos del volumen de febrero del 2005 del Informe
de Colocaciones por Actividad Económica de la SBIF, y del volumen del 2005 del Informe de Mutuos
Hipotecarios Endosables de la SBIF

33
Como la siguiente figura lo consigna, la orientación de ciertos Bancos los hace aparecer
entre los Bancos medianos en el ranking de colocaciones de consumo, a pesar de
tratarse sólo de Bancos pequeños en términos de colocaciones totales. Tal es el caso
del Scotiabank y del Citibank. Resulta notoria también la presencia en el ranking de los
Bancos de las casas comerciales, que ya superan a muchos Bancos pequeños en
cuanto a colocaciones de consumo. Claramente se avecinan días difíciles para los
Bancos del grupo C que no consigan diferenciarse, producto de una previsible dura
competencia por parte de los Bancos de las casas comerciales.

Figura 2.17 Ranking de Bancos por colocaciones de consumo, Febrero 200530

Las diferencias entre los Bancos grandes y pequeños muestran que el negocio bancario
está dominado por fuertes economías de escala. Ante dicho escenario resulta

30
Fuente: volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF

34
imprescindible para los Bancos pequeños crecer o enfocarse en nichos de mercado
susceptibles de ser atacados con servicios diferenciados.

2.4 La tecnología

Frente a la dura competencia los Bancos nacionales están invirtiendo millones de


dólares en sistemas computacionales capaces de identificar las necesidades de los
clientes y elaborar lo que se conoce como “segmentación inteligente”. El objetivo de la
segmentación inteligente no es el de entregar más productos y servicios, sino que de
entregar lo que necesita cada cliente.

El Banco de Chile ha invertido US$ 50 millones en el proyecto Plan Neos, plataforma


tecnológica que compatibilizará mayores ritmos de crecimiento con mejor calidad de
servicio, además de mayor rapidez para crear productos nuevos y disminuciones en los
costos. La segmentación inteligente permitirá aumentar la productividad para enfrentar
la caída de los márgenes de intereses en la industria. Los Bancos BBVA y Santander ya
cambiaron sus plataformas tecnológicas para entrar a la “smart customization”, mientras
que el Security y el Citibank están trabajando en ello. Prácticamente ningún banco
chileno sigue segmentando a sus clientes bajo el criterio de renta y promedio de
operaciones sin atender a las reales necesidades financieras de las personas.

Existen disponibles en el mercado herramientas de datamining ofrecidas por grandes


proveedores de software, como son el IBM DB2 Intelligent Miner, el Oracle Data Mining,
y el Computer Associates CleverPath Predictive Analysis Server 3.0. No obstante, las
herramientas líderes de datamining son el Enterprise Miner 5.1 de SASS y Clementine
8.5 de SPSS31 . En el presente estudio se ilustra cómo es posible construir modelos de
datamining utilizando Clementine.

2.5 Enfoques de las campañas bancarias

La alta competencia entre los bancos nacionales los ha impulsado a implementar CRMs
analíticos capaces de orientar las campañas de consumo en forma altamente
sofisticada hacia las necesidades de los clientes. Al mismo tiempo, sistemas de
información conectados a datawarehouses han hecho posible determinar hasta qué
punto pueden extenderse en forma rentable las condiciones de las ofertas. Ello ha dado
31
Fuente: Data Mining Tools, METAspectrum Market Summary, META Group, September 2004,
www.metagroup.com

35
lugar a campañas bancarias concebidas como una herramienta estratégica clave, y
puede hablarse con propiedad de que en su diseño existe una orientación o un enfoque
“estratégico”. No obstante, dicho enfoque convive con otros que poseen Bancos
carentes de foco y liderazgo, instituciones abocadas principalmente a cumplir los
compromisos del día a día. Los enfoques asociados a tales instituciones pueden
denominarse “operacionales”.

La entrada al mercado bancario de las multitiendas, con la consiguiente masificación de


los servicios bancarios hacia el segmento socio-económico C3 ha transformado el
negocio financiero en una actividad donde las economías de escala son claves para
establecer una ventaja competitiva sostenible en el tiempo. A pesar de lo antes
mencionado, junto a los grandes Bancos conviven en la industria nacional instituciones
que poseen una pequeña participación de mercado, y que por su tamaño no pueden
competir en el negocio masivo. Como se ha mencionado al final de la sección 2.3, es
imprescindible para dichos Bancos crecer o escoger un nicho de mercado particular. No
obstante, y paradójicamente, el tamaño de tales instituciones no justifica una inversión
en un datawarehouse, ni en costosos CRMs analíticos. Como resultado, el Área
Comercial de tales empresas al intentar focalizarse no se ve apoyada por sistemas
informáticos, y ante la presión por cumplir metas debe renunciar por completo a cumplir
dicho objetivo. Adicionalmente, un tamaño limitado en el negocio bancario obliga a
reducir los costos al máximo, destinando los recursos preferentemente a las actividades
esenciales en el corto plazo, vale decir, las actividades operacionales de otorgamiento
de crédito. Es así como surge en los bancos pequeños el peligro de abordar su gestión
con un enfoque más operacional que estratégico.

A continuación se dan mayores detalles sobre ambos enfoques u orientaciones, el


estratégico y el operacional:

2.5.1 Orientación operacional

El enfoque operacional juega en contra de la definición e implementación de una


estrategia comercial focalizada, en la medida que hace que la organización se estanque
en la resolución de operaciones del día a día y en la discusión de pequeños temas que
consumen todo su tiempo. Por otro lado, un esquema de comunicación con un enfoque
operacional está diseñado para evitar fraudes, por lo que establece un gran número de

36
niveles jerárquicos, cada uno con atribuciones de otorgamiento de montos de crédito
mayores. Bajo tal esquema la comunicación entre personas de diferentes niveles
jerárquicos es difícil o inexistente. Dicha forma de trabajar, ideal para controlar el
préstamo de dinero, dificulta la comunicación entre áreas y la innovación,
imprescindibles para implementar campañas eficaces.

Es posible que un Banco pequeño caiga en la trampa de realizar sus campañas con un
enfoque operacional, en cuyo caso el Área Comercial y el Área de Riesgo de Crédito
realizarán su labor descoordinadamente. Es probable que el Área Comercial defina su
propio plan para orientar las campañas, sin tener presente consideraciones de riesgo. A
su vez, es también probable que el Área de Riesgo de Crédito defina criterios de riesgo
aceptables, pero sin mezclarlos con los criterios del Área Comercial.

Bajo un enfoque operacional es probable que las campañas operen de una forma
descrita por los siguientes puntos:

1.- El Área Comercial define parámetros comerciales para cada uno de los productos
(como la edad de los clientes que serán considerados, los montos mínimos y máximos
de las ofertas, el segmento socioeconómico y en general el perfil de los cliente-objetivo
desde un punto de vista comercial).

2.- Luego de definidos dichos parámetros, el Área Comercial solicita al Área de Riesgo
de Crédito la generación de una base de campañas con montos preaprobados.

3.- La labor del Área de Riesgo de Crédito es la de aplicar filtros sobre los clientes
potenciales de manera de descartar aquellos que no cumplen con ciertas políticas de
riesgo (tales como edad mayor a 70 años; poseer deuda morosa, vencida o castigada
en el registro de deudas de la SBIF; poseer cheques u otros documentos protestados
en el Boletín de Informes Comerciales; poseer un ingreso inferior a un valor
determinado; tener un Dicom score inferior a un mínimo; tener índices de
endeudamiento hipotecario y no hipotecario acordes con los límites máximos definidos,
etc.).

4.- El Área de Riesgo de Crédito calcula para cada cliente el monto que es posible
ofrecer en conformidad a las políticas de crédito. En dicho cálculo en ningún momento
se considera la pérdida esperada asociada al préstamo ofrecido a cada cliente, por

37
cuanto bajo un esquema operacional no existen formas de calcular la probabilidad de
pérdida de los préstamos dirigidos a cada cliente individual.

Como resultado de los cuatro puntos anteriores, y de la descoordinación existente entre


el Área Comercial y el Área de Riesgo de Crédito, las campañas bancarias se
realizarían sin segmentar a los clientes por criterios de riesgo y rentabilidad potencial.
Así, se entregaría una oferta estándar a todos los clientes que cumpliesen con los
criterios de riesgo definidos por el Área de Riesgo de Crédito.

Se ha mencionado que un Banco que realiza sus campañas con un enfoque


operacional no dispone de formas de estimar la probabilidad de pérdida de los
préstamos asociados a cada cliente. Ello obedece a que normalmente los Bancos
utilizan las provisiones para estimar dichas probabilidades. No obstante, las provisiones
se calculan a partir de las pérdidas esperadas de grupos en verdad muy grandes de
clientes, y en consecuencia constituyen malas estimaciones de las probabilidades de
pérdida vinculadas a cada cliente individual. De esa forma, un Banco que realiza sus
campañas con un enfoque operacional no puede calcular apropiadamente la pérdida
total esperada de una campaña, y en consecuencia tampoco puede calcular el nivel de
riesgo que asume al realizar una. Sin disponer de una forma de medir en forma certera
el nivel de riesgo de una campaña, malamente un Banco podrá aumentar los montos
ofrecidos a sus clientes sujeto todo ello a la satisfacción de un cierto nivel de riesgo.

Un enfoque operacional constituye una forma pensar, de enfrentar los problemas y de


tomar decisiones, y surge como consecuencia de años de experiencia en el manejo de
operaciones que deben ser resueltas en cuestión de minutos. Dicho enfoque ofrece una
visión bastante limitada de los problemas, al intentar encontrar soluciones inmediatas,
sin asignar tiempo a descubrir y resolver las causas de fondo.

Bajo un enfoque operacional existe una división del trabajo en la cual hay quienes
toman las decisiones y definen la estrategia, y quienes son simples entes ejecutores de
dichas decisiones y estrategias. En tal escenario un profesional que trate de realizar
datamining puede verse del todo incapacitado, si no se le hace partícipe de las
decisiones, ni de los motivos de dichas decisiones. La siguiente figura muestra como un
esquema de comunicación operacional, ideal para controlar el préstamo de dinero, se
vuelve inapropiado en un proyecto de datamining, al impedir a un profesional que

38
intenta desarrollar minería de datos el acceder a la información necesaria para dicha
labor:

Figura 2.18 Enfoque operacional de comunicación en un proyecto de


datamining32

La labor comercial y de marketing es intrínsecamente no operacional, puesto que exige


conocer las necesidades de los clientes, pronosticar su comportamiento futuro y
detectar oportunidades de negocios a partir de señales. Todo ese conocimiento, valioso
en extremo, es difícil de ser transmitido de otra forma que mediante la interacción cara a
cara del profesional que trata de realizar datamining con los profesionales del Área
Comercial. No obstante, el esquema de comunicación del enfoque operacional impide
dicha interacción.

Al vivir en un ambiente de rápidos cambios tecnológicos la forma de resolver problemas


no necesariamente debe ser la misma que en el pasado. No obstante, la costumbre
adquirida a lo largo de años de tratar temas operacionales de una determinada forma

32
Fuente: elaboración propia

39
constituye una fuente importante de inercia. Es posible incluso argumentar que las
cosas deben hacerse de un modo particular porque la experiencia dice que deben
hacerse así, sin atender a mayor razonamiento ni análisis. El enfoque operacional
conduce a una cierta forma de arrogancia en materias de conocimiento. En efecto, al no
ser capaz de ver más allá de los problemas inmediatos, las causas inmediatas y las
soluciones inmediatas, existe la tendencia a creer que todo lo que se ve es todo lo que
es necesario saber. Dicha creencia de “saberlo todo” constituye una enorme barrera al
aprendizaje, a la innovación y al espíritu crítico, aptitudes que son todas fundamentales
para poder mejorar cualquier proceso de negocios.

El enfoque operacional nace del trabajo con procedimientos definidos, con estándares
de respuesta claros, como en una cadena de ensamblaje donde cada operario sabe
bien qué debe hacer y le corresponde hacer exactamente eso, ni un ápice más ni un
ápice menos. El enfoque operacional no se ajusta bien a procesos que viven una etapa
de grandes cambios, donde los estándares del pasado ya no son válidos, o dónde los
pasos a seguir no están claros y deben ser redefinidos.

Efectos anexos del enfoque operacional son el concentrar un número excesivo de


funciones en unas pocas personas, al crear incentivos para que algunos acumulen
conocimiento clave del negocio sin compartirlo con otros, y sin que nadie pueda
ejecutar dichas funciones salvo ellos.

El enfoque operacional, ideal para evitar fraudes y para controlar el riesgo de los
préstamos de dinero, puede impedir la realización de datamining y con ello puede
dificultar a un Banco crecer y realizar buenos negocios.

2.5.2 Orientación estratégica


Bajo un enfoque estratégico debiera ser posible dirigir ofertas distintas a diferentes
segmentos de riesgo y rentabilidad potencial. Con una orientación estratégica también
debiera observarse coordinación y comunicación fluida entre el Área Comercial y el
Área de Riesgo de Crédito, por lo que ambas áreas debieran trabajar unidas en la
definición conjunta de una segmentación de los clientes en base a criterios de riesgo y
rentabilidad. Para implementar dicha segmentación sería necesario contar con formas
de estimar el nivel de riesgo de los clientes y su rentabilidad potencial. Dichas
estimaciones claramente no debieran basarse en definiciones arbitrarias de puntajes,

40
sino que en probabilidades de que los clientes se transformaran en el futuro en malos
en términos crediticios, o en personas sin gran rentabilidad potencial. Una
segmentación semejante utilizaría el conocimiento que el Banco posee sobre las
características de sus clientes en mejor forma que el enfoque operacional.

41
3 OBJETIVOS DE LA INVESTIGACIÓN

El objetivo principal de la investigación es dar un ejemplo de cómo mediante


herramientas de datamining puede elaborarse un plan para enfocar las campañas en un
Banco pequeño que carece de un datawarehouse, de manera de permitir a la institución
segmentar a sus clientes y crecer.

Se pretende mostrar como a partir de bases de datos operacionales de un Banco es


posible construir modelos predictivos del comportamiento de riesgo de los clientes y de
su rentabilidad potencial, y cómo dichos modelos pueden calcular puntajes de riesgo y
de rentabilidad para los distintos clientes. Se desea mostrar cómo es posible a partir de
dichos puntajes clasificar a los clientes en distintos segmentos de riesgo y rentabilidad y
cómo es posible enfocar las campañas bancarias dirigiendo ofertas diferenciadas a
cada uno de aquellos segmentos. Del mismo modo, se desea ilustrar como mediante
los modelos predictivos antes mencionados un Banco puede crecer satisfaciendo un
nivel mínimo de riesgo.

Por lo tanto, objetivos secundarios de la investigación son los siguientes:

Objetivo s1: Mostrar como a partir de bases de datos operacionales de un Banco es


posible construir un modelo predictivo del riesgo crediticio de sus clientes, el cual debe
calcular un puntaje de riesgo para cada individuo.

Objetivo s2: Mostrar como a partir de bases de datos operacionales de un Banco es


posible construir un modelo predictivo de la rentabilidad potencial de sus clientes, el
cual debe calcular un puntaje de rentabilidad para cada individuo.

Objetivo s3: Mostrar cómo es posible clasificar a los clientes en distintos segmentos de
riesgo y rentabilidad potencial, y cómo es posible dirigir una oferta diferenciada para
cada uno de esos segmentos.

Objetivo s4: Mostrar cómo un Banco puede crecer satisfaciendo un nivel mínimo de
riesgo, utilizando para ello puntajes calculados por modelos predictivos de riesgo de
crédito y de rentabilidad potencial de los clientes.

El objetivo del presente trabajo no consiste en elaborar modelos predictivos específicos


de la rentabilidad de los clientes ni de su desempeño crediticio. El objetivo, en cambio,
se centra en la descripción genérica de cómo es posible elaborar un plan para que un

42
Banco pequeño construya e implemente modelos de datamining que le ayuden a
enfocarse en nichos de mercado. Por ello, las indicaciones que se entregan son
genéricas, puramente conceptuales, no están dirigidas a ningún Banco específico y no
se basan en ningún conjunto de datos de ningún grupo de personas.

43
4 DEFINICIONES PREVIAS

Dado que el tema de esta tesis gira en torno a la utilización de datamining en las
campañas bancarias y a un plan para construir modelos, es preciso primero que nada
dar una definición de los términos datamining y modelo.

4.1 El término “datamining” o “minería de datos”

A continuación se entregan algunas definiciones tomadas de la literatura:

“Data Mining – (1) The process of utilizing the results of data exploration to adjust or
enhance business strategies. It builds on the patterns, trends, and exceptions found
through data exploration to support the business. It is also known as data harvesting. (2)
A technique using software tools geared for the user who typically does not know
exactly what he’s searching for, but is looking for particular patterns or trends. Data
mining is the process of sifting through large amounts of data to produce data content
relationships. This is also known as data surfing”33.

“Data Mining, as we use the term, is the exploration and analysis, by automatic or
semiautomatic means, of large quantities of data in order to discover meaningful
patterns and rules”34.

“Using advanced techniques in mathematics and artificial intelligence, data mining


uncovers complex patterns or models in data. Those models are then used to help solve
business problems that come up in direct marketing, credit-risk evaluation, fraud
detection and other areas”35.

“Data mining uses sophisticated statistical analysis and modeling techniques to uncover
patterns and relationships hidden in organizational databases – patterns that ordinary
methods might miss”36.

33
Fuente: Data Warehousing Technology Glossary, Applied Technology Group, 1997
34
Fuente: BERRY, M. J. A., LINOFF, G., Data Mining Techniques for Marketing, Sales, and Customer
Support, John Wiley & Sons, Inc., 1997
35
Fuente: WILSON, L., Canadian Bank Mines for Gold, Computerworld, 1997
36
Fuente: Introduction to Data Mining and Knowledge Discovery, Two Cross Corporation, 1998

44
“Data Mining [is] the process of efficient discovery of nonobvious valuable information
from a large collection of data”37.

El común denominador en todas las definiciones es el descubrimiento de relaciones


útiles en grandes conjuntos de datos. La definición del concepto de datamining que se
utilizará en este documento es la de un conjunto de técnicas aplicadas al proceso de
extracción y presentación de conocimiento que yace implícito en grandes conjuntos de
datos, que es desconocido y útil en términos de negocios, y que permite predecir en
forma automatizada el comportamiento de los clientes.

En una de las referencias se ha utilizado el término “modelo” en el sentido de un


complejo patrón de relaciones presentes en los datos, al tiempo que se ha mencionado
que el propósito del datamining sería descubrir tales patrones. En otra definición se ha
mencionado que para descubrir dichos patrones se utilizan “técnicas de modelamiento”.
A continuación se entregarán definiciones de los mencionados conceptos de “modelo” y
de “técnicas de modelamiento”.

4.2 El término “modelo”

Se entiende por modelo de datamining, o simplemente por modelo, a un algoritmo


construido a partir de una muestra de datos y que permite realizar estimaciones o
predicciones sobre otros datos, distintos de aquellos de la muestra antes mencionada,
pero similares. Un modelo, como todo algoritmo, puede por lo tanto ser implementado
mediante un sistema informático o un programa computacional. No obstante, un modelo
puede también ser visto como una función matemática que describe la relación entre un
conjunto de campos o variables presentes en los datos. Las estimaciones o
predicciones sobre otros datos son obtenidas mediante la mencionada función. Sin
embargo, dado que una función matemática no siempre puede ser expresada en forma
explícita, es más apropiado concebir a un modelo como el algoritmo que permite
calcular dicha función. Mediante dicho algoritmo un modelo permite representar
cualquier complejo patrón de relaciones presentes en los datos. En el presente informe
los modelos tendrán por propósito predecir si un cliente bueno se transformará en malo
en un horizonte determinado de tiempo, y si un cliente en el futuro se transformará en
alguien con sin rentabilidad potencial o no.
37
Fuente: BERSON, A., SMITH S. J., Data Warehousing, Data Mining, and OLAP, McGraw-Hill, 1997

45
4.3 Definición del concepto de técnica de modelamiento

Se entiende por técnica de modelamiento a una forma particular de especificar un


modelo, incluyendo el conjunto de supuestos asociados a dicha forma de
especificación. Así, algunas técnicas de modelamiento corresponden a una ecuación
matemática entre un conjunto de variables, más un conjunto de supuestos sobre dichas
variables. Tal es el caso de técnicas de modelamiento como la regresión lineal y la
regresión logística. Otras técnicas de modelamiento, en cambio, corresponden más bien
a algoritmos que calculan un resultado a partir de los valores de un conjunto de
variables. Tal es el caso de técnicas de modelamiento como las redes neuronales y los
árboles de decisión. Las redes neuronales obtienen dicho resultado a partir de
funciones no lineales, ya sea escalonadas o sigmoidales, aplicadas sobre los valores de
las variables. Los árboles de decisión obtienen el resultado mediante funciones lógicas
del tipo “if … then … else”.

Clementine permite construir modelos con una amplia gama de técnicas de


modelamiento, incluyendo las mencionadas. La sección 10.1 describe las tres técnicas
de modelamiento que más se ajustan al problema de enfocar las campañas bancarias
(regresión logística, redes neuronales y árboles de decisión).

4.4 Definición del concepto de proyecto de datamining

Un proyecto de datamining corresponde al conjunto de actividades concretas que se


realizan por parte de una institución determinada con el fin de elaborar modelos que
pretenden descubrir patrones en un conjunto de datos específicos. Un proyecto de
datamining para enfocar las campañas bancarias, por lo tanto, debe ser llevado a cabo
por un Banco, debe realizarse sobre el conjunto de datos específicos de los clientes de
ese Banco, y debe constar de actividades que efectivamente tengan lugar dentro de las
labores de dicho Banco. Un proyecto de datamining, por lo tanto, es algo real, tangible
en términos de plazos incurridos, costos en dinero involucrados, recursos
computacionales específicos utilizados y personas que han participado o participan en
él. A diferencia de un plan de datamining, un proyecto de datamining no es una simple
elaboración conceptual, puesto que se refiere a algo que ha ocurrido, o que tiene lugar
efectivamente en la historia cotidiana de una empresa.

46
4.5 Definición del concepto de plan de datamining

En contraposición al concepto dado previamente, un plan de datamining es un conjunto


de actividades conceptuales diseñadas para guiar un proyecto de datamining. Si bien
un plan de datamining debe contemplar plazos, presupuesto y personas asignadas,
dichos elementos no corresponden a algo que tiene o ha tenido lugar, sino que
simplemente son estimaciones de lo que debiera ocurrir en un proyecto de datamining.
Mientras un proyecto de datamining tiene vida en la historia real, cotidiana de una
empresa, un plan de datamining no existe más que en el papel.

El presente documento describe cómo construir un plan de datamining para enfocar las
campañas de un Banco en los productos de créditos de consumo, tarjetas y líneas de
crédito. Las indicaciones de este documento pueden traducirse en un plan de
datamining concreto para un Banco específico, no obstante para ello es preciso definir
plazos, presupuesto, personas y recursos a utilizar. La implementación de dicho plan
puede a su vez traducirse en un proyecto de datamining, mediante la ejecución de cada
una de las actividades establecidas en el plan.

47
5 HIPÓTESIS DE TRABAJO

Como se ha mencionado en el capítulo que versa sobre los objetivos de esta


investigación, el presente documento elabora un plan de datamining que no está
dirigido a ningún Banco específico y que, por lo tanto, no se basa en ningún conjunto de
datos de ningún grupo de personas. En ausencia de datos específicos sobre los cuales
basarse, el presente trabajo se fundamenta en un conjunto de supuestos, los cuales se
detallan en este capítulo. Es preciso considerar, por ende, que las conclusiones de esta
investigación serán válidas sólo en la medida que se cumplan dichos supuestos.

5.1 Supuestos sobre disponibilidad de información

El plan de datamining planteado supone que el Banco no posee un datawarehouse y no


puede por lo tanto disponer de información histórica masiva sobre sus clientes que se
remonte a varios años. De esa forma los modelos de datamining sólo pueden
alimentarse de bases de datos operacionales y de sus respaldos en cintas. Es por ello
que la principal hipótesis de trabajo que se emplea en la presente investigación consiste
en dar por hecho el que existe un conjunto de bases operacionales que cualquier Banco
debe poseer y que proveen de información necesaria y suficiente para realizar los
estudios de datamining planteados. El capítulo 8 describe la información que contienen
dichas bases operacionales, a las cual se denomina “fuentes de datos” y que
corresponden a las siguientes: “Informe de la SBIF”, “Informe D01 enviado a la SBIF”,
“Saldos el día de envío del D01”, “Productos”, “Saldos actuales”, “Rentas de clientes”,
“Características demográficas”, “Factores estimados de carga” y finalmente “Ingresos
contables por cliente”. Todos esas bases de datos proveen de información actualizada
sobre las operaciones y los clientes del Banco, a excepción de la fuente de datos
“Saldos el día de envío del D01”, la cual corresponde a una foto de las bases de datos
operacionales el día de envío del informe D01 a la SBIF hace dos meses.

A parte de la información provista por todas las bases operacionales antes


mencionadas, y que contiene todas las variables necesarias para predecir en el
momento el comportamiento de riesgo y de rentabilidad futuros de los clientes, es
preciso también poseer la misma información pero de un periodo de un año atrás. Ello
es necesario no con el fin de utilizar los modelos predictivos, sino que con el fin de
elaborarlos. A tal respecto, una hipótesis de trabajo consiste en dar por hecho el que es

48
posible rescatar los respaldos de cintas con la información de un año atrás de todas las
fuentes de datos.

Los supuestos sobre disponibilidad de información son utilizados en el capítulo 9, al


momento de describir la obtención del conjunto de datos necesario para construir
modelos de datamining de riesgo y rentabilidad (output 3z.1). Dichos supuestos son
utilizados también en el capítulo 10, al derivar la especificación de los modelos
propuestos y comentar el conjunto de variables empleadas en ellos (output 4c.3).

5.2 Supuestos tecnológicos

No se realizan supuestos con respecto a los proveedores de las bases de datos


operacionales, puesto que la herramienta de datamining usada en esta investigación
(Clementine) se ajusta por igual a una amplia gama de bases de datos (Sybase, Oracle,
DB2, SQL Server, Access, Fox Pro, bases de texto, bases de datos en COBOL, etc.),
las cuales pueden residir en una amplia variedad de plataformas (Windows NT, Unix,
Linux, AS400, etc.).

Un supuesto importante, en cambio, se realiza con respecto a la disponibilidad de


Clementine en la Institución financiera, lo cual significa un costo de unos US$ 75.000
por licencia.

5.3 Supuestos sobre el marco regulatorio

Se supone que existe un conjunto mínimo de bases de datos que cualquier banco debe
forzosamente poseer y cuya utilización no viola el secreto bancario y está en
conformidad con las leyes y reglamentos que rigen a la Banca. Muy en particular se
supone que la base de datos con las deudas consolidadas de 4.500.000 de chilenos
que elabora mensualmente la SBIF puede ser usada por los Bancos sin necesidad de
pedir la autorización a ninguna persona (dicha base de datos corresponde a la fuente
de datos denominada “Informe de la SBIF”, descrita en el capítulo 8).

Se supone que no existe una legislación antidiscriminación que rija el otorgamiento de


crédito, y que impida basar la toma de decisiones en características de los clientes tales
como el sexo, la edad, la profesión, la comuna de residencia, u otras. A tal respecto es
preciso señalar que la legislación americana contempla leyes antidiscriminación de ese
tipo, por lo que en los Estados Unidos los modelos predictivos de comportamiento de

49
crédito no pueden incluir características como el sexo o el grupo étnico. Se supondrá no
sólo que dicha legislación no existe en Chile, sino que tampoco existirá en el mediano
plazo.

5.4 Supuestos de negocios

En esta investigación se supondrá que un Banco pequeño en el ambiente competitivo


actual vigente en Chile tiene sólo dos alternativas para sobrevivir: enfocarse en nichos
de mercado específicos o crecer. Dicho supuesto se fundamenta, en primer término, en
el hecho de que el mercado bancario chileno es una industria con fuertes economías de
escala, como ha quedado demostrado en el capítulo 2 al comparar los márgenes de
intereses, gastos operacionales, tasas de crecimiento y rentabilidades de los Bancos
grandes, medianos y pequeños. En segundo lugar, dicho supuesto se fundamenta en la
persistente tendencia a la baja que muestran los márgenes de intereses de los Bancos
grandes y medianos, unido todo ello al hecho de que la mayoría de los Bancos
pequeños cuentan con márgenes de intereses por debajo de aquellos de sus
competidores. Ello puede ser interpretado como una disminución generalizada de
precios por parte de los Bancos grandes y medianos en un ambiente en donde la
mayoría de los Bancos pequeños compiten por precio. Claramente no es posible para
los Bancos pequeños competir por precio con instituciones que poseen mayores
economías de escala, y por lo tanto surgen dos posibilidades para ellos: adquirir
mayores economías de escala mediante crecimiento o aumentar los precios mediante
un servicio diferenciado dirigido a nichos de mercado específicos. En tercer lugar, el
supuesto de que un Banco pequeño tenga como únicas alternativas para sobrevivir el
enfocarse en nichos o crecer encuentra sustento en la observación de que las
instituciones focalizadas en clientes preferenciales puedan mantener márgenes de
intereses consistentemente por sobre los del resto de la industria (como es el caso del
Citibank y del BankBoston).

Los supuestos antes descritos son utilizados en el capítulo 7, al momento de definir los
objetivos de negocios del proyecto de datamining (output 1a.2), y que son precisamente
focalizarse en nichos de mercado y crecer sujeto a un nivel mínimo de riesgo. A la luz
de los supuestos realizados, los objetivos de negocios planteados para el proyecto
adquieren sentido estratégico y no son simplemente metas arbitrarias.

50
Por otro lado, un supuesto de negocios adicional lo constituye el que el presente
estudio se enfoque sólo en los clientes deudores del Banco en algún producto y sólo en
las personas naturales sin giro. Del mismo modo, se da por hecho que las campañas a
las cuales se aplique el plan descrito en este documento no contemplarán créditos
destinados a prepagar otras deudas. No se considerarán, en consecuencia, ofertas
para los productos denominados “créditos de reciclaje” ni “créditos grúa”, y que están
destinados respectivamente a prepagar créditos de la propia institución o de otras
instituciones. Por lo tanto, como se ha mencionado en la sección 2.2, el estudio se
concentrará sólo en los clientes con capacidad para adquirir deudas adicionales a
aquellas que ya poseen. Estos supuestos son utilizados en el capítulo 7, al momento de
definir los conceptos de cliente “malo” desde un punto de vista crediticio y de cliente “sin
gran rentabilidad potencial”. Muy en particular, el hecho de dejar fuera de las campañas
a las personas sin capacidad de adquirir nuevas deudas se usa para clasificar como
“sin rentabilidad potencial” a ese tipo de clientes.

5.5 Supuestos operacionales

Se supone que el presente plan de datamining se elabora para un Banco pequeño que
realiza sus campañas con un enfoque operacional similar al descrito en el capítulo 2. Se
supondrá que el Área Comercial y el Área de Riesgo de Crédito ejecutan su labor
descoordinadamente: definiendo la primera su propio plan para orientar las campañas,
pero sin tener presente consideraciones de riesgo, y estableciendo la segunda criterios
de riesgo aceptables, pero sin mezclarlos con aspectos comerciales. En consecuencia
se supondrá que las campañas bancarias se realizan entregando una oferta estándar a
todos los clientes que cumplen con ciertos criterios de riesgo, sin segmentar por riesgo
y rentabilidad potencial.

Se supondrá también que bajo un esquema operacional no existen modelos capaces de


calcular la probabilidad de pérdida de los préstamos dirigidos a cada cliente, o en el
mejor de los casos dicha probabilidad se estima a partir de las provisiones asignadas a
cada cartera de clientes. No obstante, dado que las provisiones se calculan a partir de
las pérdidas estimadas de grandes carteras de clientes, ellas no constituyen, por lo
tanto, una buena estimación de la probabilidad de pérdida asociada a cada cliente
individual. En consecuencia, las provisiones no permiten calcular en forma precisa la

51
probabilidad de pérdida asociada al monto total ofrecido en una campaña. En ausencia
de un modelo capaz de medir adecuadamente el nivel de riesgo de una campaña por la
vía de estimar la pérdida asociada al monto ofrecido en ésta, un Banco no podrá
aumentar los montos ofrecidos sujeto todo ello a la satisfacción de un cierto nivel de
riesgo.

En la sección 11.1 se mostrará como los supuestos operacionales antes descritos


hacen posible concluir que el plan de datamining planteado en este documento permite
efectivamente que un Banco pueda crecer. Ello se debe a que un Banco al realizar sus
campañas con un enfoque operacional limita sus posibilidades de crecimiento. Como se
verá en la misma sección 11.1, el plan de datamining planteado en este documento
permite a un Banco pequeño superar esas limitaciones.

52
6 METODOLOGÍA DE TRABAJO

Un proyecto de datamining, como todo proyecto, requiere de la aplicación de una cierta


metodología estructurada para obtener resultados exitosos. La utilización de una
metodología facilita la planificación y dirección del proyecto, permitiendo realizar un
mejor seguimiento del mismo. A continuación se describen las principales metodologías
que se pueden emplear en la elaboración del presente plan para enfocar las campañas
bancarias, mencionando sus fortalezas y debilidades, para luego detallar las razones
por las que se escogió CRISP-DM en esta investigación.

6.1 Metodologías de datamining

Las principales metodologías de planificación de proyectos de datamining son SEMMA


y CRISP-DM, y se basan en la división del proyecto de datamining en fases. Son en
cierta forma similares al modelo espiral del ciclo de vida de desarrollo de software.

6.1.1 Metodología SEMMA


Es una metodología de datamining desarrollada por SAS. Su nombre corresponde a las
iniciales de sus cinco fases principales (Sample, Explore, Modify, Model, Assess), las
cuales se detallan a continuación:

Fase de muestreo: La primera fase extrae una muestra representativa de la población


que se pretende estudiar y sobre la cual se realizará el análisis. La representatividad de
la muestra es fundamental en este método, ya que de no cumplirse invalida todos los
resultados del modelo de datamining. La metodología SEMMA exige calcular el nivel de
confianza de cada muestra considerada en el estudio de datamining.

Fase de exploración de los datos: luego de escoger las muestras representativas en


esta fase se debe proceder a una exploración de la información con el propósito de
simplificar al máximo el problema. La simplificación se consigue mediante herramientas
gráficas de despliegue de los datos, y mediante técnicas estadísticas que establecen
las correlaciones entre las variables. De esa labor de simplificación se espera optimizar
la eficiencia del modelo de datamining que se construya, al incluir en él sólo las
variables que son realmente explicativas.

53
Fase de manipulación de los datos: luego de finalizada la exploración de los datos se
procede a darles el formato adecuado para poder alimentar el modelo que se desarrolle
en la fase siguiente.

Fase de modelado: esta fase se alimenta de las variables explicativas definidas y


formateadas en las fases anteriores, y persigue encontrar una relación entre dichas
variables y aquellas que se espera predecir. Mediante esa relación se espera realizar
inferencias que tengan un cierto nivel de confianza. Las técnicas utilizadas para
establecer la relación entre las variables incluyen métodos estadísticos tradicionales
tales como el análisis discriminante, métodos de agrupamiento y análisis de regresión,
como así también métodos de inteligencia artificial como las redes neuronales, las
técnicas adaptativas, la lógica difusa, los árboles de decisión o las reglas de asociación,
entre otras.

Fase de evaluación de los resultados: en esta fase se evalúa la validez de los


resultados obtenidos en la fase anterior. Para ello se utilizan tests de bondad de ajuste,
al igual que otros métodos estadísticos que contrastan los resultados obtenidos en la
muestra usada en las fases anteriores con los resultados que se obtienen luego con
otras muestras distintas.

6.1.2 Metodología CRISP-DM


Esta metodología contiene un conjunto de actividades seleccionadas en base a la
experiencia de ensayo y error recogida a través de numerosos proyectos por
profesionales de DaimlerChrysler, SPSS y NCR. Dichas actividades están ordenadas
en primer lugar horizontalmente en seis fases sucesivas que recorren toda la vida del
proyecto de datamining, desde la definición de los objetivos del negocio que se
pretende obtener hasta la vigilancia y el mantenimiento del modelo que se proponga e
implemente. Cada una de esas fases se ha subdividido a su vez en tareas ordenadas
en un esquema jerárquico, desde un mayor a un menor nivel de detalle.

Las tareas generales se componen a su vez de actividades específicas, y de un


conjunto de resultados concretos. La metodología CRISP-DM constituye, por lo tanto,
un mapa de ruta que permite determinar qué actividades desarrollar en qué etapa de
manera de alcanzar los objetivos finales del proyecto. A continuación se entrega una

54
figura con las fases de esta metodología y sus correspondientes tareas, para luego
describirlas en mayor detalle.

Figura 6.1 Fases y Tareas del Modelo CRISP-DM38

Fase de comprensión del negocio: se centra en la comprensión de los objetivos del


proyecto de datamining desde un punto de vista de negocios. Esta fase es equivalente,
por lo tanto, a una fase de análisis de requerimientos de un proyecto de desarrollo de
software, y es importante, puesto que el cliente puede no tener claro qué es lo que
quiere. Las tareas a realizar en esta fase incluyen determinar los objetivos de negocios,
evaluar la situación del proyecto en términos de recursos, restricciones y suposiciones,

38
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000

55
determinar objetivos de datamining que traduzcan a criterios técnicos los objetivos de
negocios, y finalmente producir el plan del proyecto.

Fase de comprensión de los datos: comprende la recolección inicial de datos,


identificando la calidad de éstos y estableciendo las relaciones más evidentes entre
ellos. Incluye la tarea de recolección de datos iniciales, en la cual deben describirse los
datos en términos de número de registros, número de campos por registro y significado
de cada campo. Incluye también la tarea de descripción de los datos en términos de
tipo, distribución, tablas de frecuencia y estadígrafos. Tareas adicionales de esta fase
son la exploración de los datos mediante gráficos y tablas, y la verificación de la calidad
de los mismos. Los chequeos sobre la calidad de los datos deben efectuarse para
asegurar la consistencia de información proveniente de bases de datos distintas,
proporcionadas por entidades distintas y con fechas de proceso distintas.

Fase de preparación de los datos: en esta fase debe construirse una base de datos, la
cual debe contener todas las características consideradas candidatas para estimar el
valor de una variable que se espera predecir. Esta fase incluye la tarea de selección de
los datos a los que se va a aplicar la técnica de modelamiento, la tarea de limpieza de
los mismos de manera de alcanzar el nivel de calidad requerido por las técnicas de
datamining que se seleccionen, la tarea de construir datos adicionales, la tarea de
integrar diferentes bases de datos, y la tarea de formatear los datos. La fase de
preparación de los datos debe entregar datos que estén en un formato adecuado para
la técnica de modelamiento que se empleará en la fase siguiente. Por ello, la fase de
modelamiento puede requerir volver a la fase de preparación de datos una o más
veces.

Fase de modelamiento: esta es la fase medular del proyecto de datamining y consiste


en descubrir una relación entre un conjunto de variables y una variable que se espera
predecir. Contempla la selección de una técnica de modelamiento, entre las cuales
pueden mencionarse las redes de Kohonen o modelos K-Mean para clustering, árboles
C5 o árboles C&R para segmentación, redes neuronales o regresión logística para
predicción, inducción de reglas generalizada para descubrimiento de patrones y análisis
de factores para reducir la complejidad de los datos, entre otras. Entre sus tareas se
encuentran la selección de la técnica de modelamiento, la generación del diseño de las

56
pruebas del modelo, la construcción del mismo, y finalmente, la evaluación técnica a la
que debe someterse el modelo a través de criterios estadísticos.

Fase de evaluación de negocios: en la fase de modelamiento se evalúa el modelo en


forma técnica en relación a factores tales como su precisión y generalidad. En esta
fase, en cambio, debe evaluarse el nivel de satisfacción de los objetivos de negocios
perseguidos por el proyecto de datamining. Incluye la tarea de evaluar los resultados, la
tarea de revisar el proceso de datamining y finalmente la tarea de determinar los
próximos pasos a seguir (momento en el que debe decidirse si debe darse por
terminado el proyecto de datamining y entrar a la fase de despliegue, si deben iniciarse
iteraciones adicionales, o si debe iniciarse un nuevo proyecto de minería de datos).

Fase de despliegue del modelo: en esta fase deberá definirse una estrategia para
implementar los resultados de la minería de datos. Incluye las tareas de planificar el
despliegue del modelo, de planificar el monitoreo y la mantención de los modelos, de
generar el reporte final del proyecto, y de revisar el proyecto en relación a evaluar lo
que ocurrió correctamente y lo que necesita ser mejorado.

6.2 Razones para utilizar CRISP-DM

La metodología SEMMA se centra más en las características estadísticas del desarrollo


de un modelo de datamining, mientras que la metodología CRISP-DM posee una visión
más amplia respecto a los objetivos de negocios del proyecto. Para aquellos que han
trabajado en proyectos informáticos, la metodología CRISP-DM parecerá más familiar y
con mayores posibilidades de éxito. De hecho, en un proyecto informático es norma
básica de análisis estructurado el realizar una fase de análisis de requerimientos que
tenga en consideración los objetivos de negocio que se pretenden alcanzar. La omisión
de una buena fase de análisis de requerimientos puede provocar que se desarrollen
sistemas de información excelentes en los aspectos técnicos, pero que no resuelvan los
problemas reales de los usuarios. En ese sentido la metodología SEMMA parece haber
sido desarrollada como un agregado de un paquete de software estadístico SAS, en
cambio la metodología CRISP-DM, por no estar vinculada a ninguna herramienta
específica, parece haber sido diseñada con el real propósito de ayudar a guiar la labor
de datamining. Esta diferencia surge desde la primera fase del proyecto de datamining,
puesto que la metodología SEMMA comienza realizando un muestreo de datos,

57
mientras que la metodología CRISP-DM se inicia efectuando un análisis del problema
desde un punto de vista de negocios. La metodología CRISP-DM es más próxima a una
metodología de gestión de proyectos, pudiendo por ello integrarse en mejor forma a
proyectos cuyo ámbito dentro de la empresa sea más amplio que el simple manejo
estadístico.

La metodología SEMMA está muy ligada a los productos SAS, donde se encuentra
implementada, en tanto que la metodología CRISP-DM ha sido diseñada como una
metodología no vinculada a ningún proveedor de software, siendo su distribución
gratuita, por lo que es posible utilizarla con múltiples herramientas de business
intelligence, entre ellas Clementine de SPSS.

A todas las razones dadas anteriormente para justificar la elección de CRISP-DM debe
agregarse que es uno de los estándares más ampliamente utilizados en minería de
datos hoy en día.

58
7 PRIMERA FASE DEL PLAN: COMPRENSIÓN DEL NEGOCIO

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de comprensión del negocio de la metodología CRISP-DM, junto a los resultados o
outputs que deben obtenerse de la ejecución de cada una de ellas:

Figura 7.1 Tareas y outputs de la fase de comprensión del negocio, primera


fase del proyecto de datamining según metodología CRISP-DM39

Pasar por alto esta fase traería como consecuencia el que se invertiría gran esfuerzo y
tiempo en responder las preguntas de negocios equivocadas. Algunos ejemplos de

39
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000

59
posibles interrogantes de negocios que pueden motivar un estudio de datamining
referido a las campañas bancarias son las siguientes:

- ¿Es posible focalizar las campañas en determinados segmentos en términos de


riesgo de crédito y de rentabilidad potencial?.

- ¿Cómo es posible crecer en los segmentos de mercado ya definidos?.

- ¿Es posible determinar el máximo de deuda que pueden contraer los clientes de un
Banco sin sobrepasar un nivel aceptable de riesgo de crédito?.

Las preguntas anteriores definen un problema de negocios, susceptible de ser resuelto


de diversas formas, al entregar distintas respuestas a las interrogantes planteadas. Los
supuestos operacionales, dados en el capítulo 5, dan por hecho que el Banco al cual se
aplica el presente plan responderá a las preguntas anteriores con un rotundo “no es
posible con el enfoque operacional vigente”. Sin embargo, mediante la elaboración de
un plan de datamining es posible dar una solución distinta al problema, al entregar
mecanismos para responder afirmativamente a las preguntas antes presentadas. El
presente documento se aboca precisamente a dar indicaciones sobre como construir un
plan de datamining.

A continuación se describen las tareas de esta fase y sus resultados, entregando


consejos y recomendaciones que han sido tomados conjuntamente de la experiencia y
reflexión del autor de este documento y de los conceptos presentados en la guía de
usuario CRISP-DM40. Adicionalmente, se desarrollan en este capítulo con particular
detalle aquellos resultados que son más importantes para un plan de datamining
dirigido a las campañas bancarias y que corresponden a aspectos específicos de éstas.
Tal es el caso del background del proyecto de datamining (output 1a.1), de los objetivos
de negocios que debieran perseguirse con dicho proyecto (output 1a.2), de los criterios
de éxito de negocios (output 1a.3), de los principales riesgos que podrían amenazar
semejante proyecto (output 1b.3), de la terminología más relevante para el mismo
(output 1b.4), de sus costos y beneficios (output 1b.5), de los objetivos de datamining
(output 1c.1) y de los criterios de éxito de datamining asociados (output 1c.2). Por otro
lado, dado que el plan de datamining que se elabora en el presente documento es
40
Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas,
SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

60
genérico y no se basa en el caso de ningún Banco específico, sólo es posible dar una
descripción también conceptual y genérica de los resultados que se refieren al
inventario de recursos del proyecto (output 1b.1), a los requisitos, supuestos y
restricciones del mismo (output 1b.2), al plan detallado del proyecto (output 1d.1) y a la
evaluación inicial de las herramientas y técnicas disponibles (output 1d.2).

7.1 Determinar los objetivos de negocios (tarea 1a)

Esta tarea corresponde a una labor de comprensión de qué es lo que el cliente del
proyecto de datamining quiere conseguir desde una perspectiva de negocios. Por
clientes de datamining se hace referencia a aquellos altos ejecutivos bancarios que
están interesados en que el proyecto de minería de datos sirva para algo (ya sea
aumentar la rentabilidad, la tasa de crecimiento del Banco o cualquier objetivo que se
espere conseguir a través del proyecto). Esta fase es equivalente, por lo tanto, a la
etapa de análisis de requerimientos de un proyecto de desarrollo de un sistema de
información y es importante, puesto que el cliente puede no tener claro qué es lo que
quiere.

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

7.1.1 Background (output 1a.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado debe
documentar el conocimiento que se posea sobre la situación de negocios de la
organización al comienzo del proyecto de datamining. Entre las actividades que es
preciso desarrollar para obtener este output se encuentran las siguientes:

- Conseguir o elaborar diagramas organizacionales que permitan identificar las


principales divisiones, departamentos y equipos de trabajo que se verían de algún
modo vinculados al proyecto de datamining. Es preciso recolectar y actualizar dichos
diagramas con los nombres y las dependencias jerárquicas de los responsables de
cada una de las unidades. Cabe señalar que en un ambiente de negocios en
permanente cambio los diagramas organizacionales disponibles en una empresa
frecuentemente se encontrarán desactualizados.

- Identificar las personas claves en el negocio y sus roles.

61
- Identificar un auspiciador interno (un auspiciador financiero y usuario principal).

- Identificar las unidades de negocios que se verían impactadas por el proyecto de


datamining (por ejemplo: Marketing, Área Comercial, Área de Riesgo de Crédito, Área
de Operaciones).

- Identificar el área funcional del problema.

- Describir el problema en términos generales. En este caso, el problema consiste en


orientar las campañas en tarjetas, líneas y créditos, de manera tal de permitir a un
Banco pequeño focalizarse en nichos de mercado y crecer.

- Determinar si existe conocimiento dentro de las unidades de negocios respecto al


hecho de que se va a realizar un proyecto de datamining, y si es necesario publicitar la
minería de datos como una tecnología clave.

- Clarificar los prerrequisitos del proyecto.

- Identificar grupos objetivo para presentar el resultado del proyecto (por ejemplo,
determinar si se espera un reporte escrito para la alta gerencia o un sistema en
ejecución que sea utilizado por usuarios finales).

- Identificar las necesidades del usuario y sus expectativas.

- Describir la solución que se emplee para resolver el problema. A tal respecto, en el


capítulo 5 se ha mencionado que se supone que el Banco realiza sus campañas con un
enfoque operacional. Como se ha señalado en el mismo capítulo, bajo tal enfoque las
campañas se orientan a los clientes sin distinguir segmentos de riesgo y rentabilidad
potencial, y sin poder medir adecuadamente las pérdidas esperadas.

- Describir las ventajas y desventajas de la solución al problema que esté siendo


utilizada. En este punto es preciso mencionar que el Banco, al orientar sus campañas
con un enfoque operacional, asumirá desventajas que incluirán el desaprovechar
oportunidades de negocios e incurrir en operaciones no rentables. No obstante, la
desventaja más grave del enfoque operacional la constituye el que no permite disponer
de un modelo capaz de medir adecuadamente el nivel de riesgo de una campaña (por
la vía de estimar la pérdida asociada al monto ofrecido en ésta). Con dicha falencia un
Banco no podrá aumentar los montos ofrecidos sujeto todo ello a la satisfacción de un
cierto nivel de riesgo, y en consecuencia limitará sus posibilidades de crecimiento.

62
De todas las actividades antes mencionadas, la selección de un patrocinador es
fundamental. Si bien de acuerdo a la metodología CRISP-DM el éxito de un proyecto de
datamining dependerá de que se satisfagan objetivos de negocios y sus
correspondientes criterios de éxito, ello puede ser en gran parte secundario. En efecto,
si bien un Banco se beneficia como un todo al alcanzar determinados objetivos de
negocios, ello puede ser total y absolutamente indiferente para el patrocinador de un
proyecto de datamining. La pregunta no debiera ser tanto cómo un proyecto puede
beneficiar a la empresa, sino que cómo puede beneficiar los intereses de su
patrocinador. Un proyecto puede ser excelente en términos de alcanzar objetivos de
negocios de un Banco, no obstante sin un buen patrocinador puede estar de cualquier
modo condenado al fracaso. Los Bancos son instituciones enormes, y el beneficio
general para la institución se traducirá en éxito para un proyecto sólo en la medida que
los objetivos de negocios que éste permita alcanzar se traduzcan en un beneficio
tangible para el patrocinador del proyecto y sus intereses.

7.1.2 Objetivos de negocios: focalizarse en nichos y crecer sujeto a un nivel


mínimo de riesgo (output 1a.2)
Este resultado es el segundo de la tarea de determinar los objetivos de negocios (tarea
1a). Debe describir el objetivo principal del cliente desde una perspectiva de negocios.
Entre las actividades que es preciso desarrollar para obtener este output se encuentran:

- Describir informalmente el problema que se intenta resolver a través del proyecto de


datamining. A este respecto puede decirse que el problema consiste, en virtud de los
supuestos de negocios realizados en el capítulo 5, en que un Banco pequeño se ve
enfrentado a dos únicas posibilidades para competir: focalizarse en nichos de mercado
o crecer.

- Especificar en forma tan precisa como sea posible todas las interrogantes de negocios
que se pretenden responder mediante el proyecto de datamining. Dichas interrogantes
son aquellas planteadas a inicios del capítulo, las cuales pueden expresarse como los
objetivos de negocios de focalizarse en nichos de mercado y crecer sujeto a un nivel
mínimo de riesgo.

- Especificar cualquier otro requerimiento de negocios que se espere satisfacer


mediante el proyecto de datamining. A tal respecto es preciso señalar que el objetivo de

63
negocios de focalización corresponde a la meta de identificar segmentos de riesgo y
rentabilidad con características distintas a las de los clientes promedio. El objetivo de
negocios de crecimiento, por su parte, corresponde a la meta de aumentar tanto los
montos ofrecidos de créditos de consumo, como los montos ofrecidos en cupos en las
tarjetas y líneas de crédito, sujeto todo ello a satisfacer un nivel mínimo de riesgo.

- Especificar los beneficios de negocios esperados que se obtendrían de los resultados


del proyecto de datamining. Dichos beneficios debieran ser alcanzables y realistas. En
relación con este punto conviene indicar que el objetivo de crecer se ha traducido en la
meta específica de aumentar los montos ofrecidos y no en incrementar las ventas, por
cuanto éstas en un periodo determinado dependerán de muchos factores que son
exógenos a un modelo de datamining (tales como el monto invertido en publicidad, la
eficacia de la fuerza de ventas, la receptividad de los clientes, etc.). En cambio, el
modelo de datamining si puede determinar los montos ofrecidos en los créditos de
consumo, como así también los aumentos de cupos de las tarjetas y líneas de crédito.
No obstante, se espera que, ceteris paribus, el aumento de los montos ofrecidos en las
campañas bajo la restricción de satisfacer un cierto nivel mínimo de riesgo se traduzca
en el beneficio indirecto para el Banco de crecer en sus colocaciones.

7.1.3 Criterios de éxito de negocios: porcentaje de aumento en los montos


ofrecidos en las campañas y monto de pérdida esperada de éstas (output 1a.3)
Este resultado es el tercero de la tarea de determinar los objetivos de negocios (tarea
1a). Describe los criterios que serán utilizados para calificar como exitoso el resultado
del proyecto de datamining desde un punto de vista de negocios. Los objetivos pueden
ser específicos y fácilmente medibles, tales como el aumento de los montos ofrecidos
en las campañas, o generales y subjetivos, como la focalización en determinados
segmentos de mercado. Entre las actividades que es preciso desarrollar para obtener
este resultado se encuentran las siguientes:

- Especificar los criterios de éxito de negocios. Cada uno de los criterios de éxito debe
estar relacionado con al menos uno de los objetivos de negocios. En relación al objetivo
de crecer, debe definirse un porcentaje de aumento en los montos ofrecidos a través de
créditos de consumo, como así también en los montos de los aumentos de los cupos de
las tarjetas y de las líneas de crédito. Relacionado también al objetivo de crecer

64
satisfaciendo un nivel mínimo de riesgo, debe definirse un nivel de riesgo en la forma de
una pérdida esperada para una campaña (calculada como monto en deuda vencida o
castigada luego de transcurrido cierto tiempo).

- Identificar quien evalúa los criterios de éxito. Ello es importante para evaluar el
cumplimiento del objetivo de identificar segmentos de riesgo y rentabilidad con
características distintas a las de los clientes promedio, puesto que es difícil expresar tal
objetivo en términos numéricos.

7.2 Evaluar la situación (tarea 1b)

Esta tarea consiste en realizar una investigación exhaustiva sobre los recursos,
restricciones y suposiciones que debieran ser considerados al momento de elaborar el
plan del proyecto de datamining. Las descripciones de los resultados que se deben
obtener como fruto de esta tarea se entregan a continuación:

7.2.1 Inventario de recursos (output 1b.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en una lista de todos recursos disponibles para el proyecto, incluyendo los siguientes:

- Recursos de personal (tales como expertos del negocio y de los datos, disponibilidad
de soporte técnico y de personal de datamining)

- Recursos de datos (tales como accesos a datamarts, a bases de datos operacionales


o al rescate de información operacional respaldada en cinta)

- Recursos computacionales (tales como servidores en los cuales pueden correr los
procesos de datamining, capacidad de almacenamiento en disco para guardar muestras
de datos necesarias para los estudios de datamining y acceso a redes de alta velocidad
para comunicar equipos servidores y clientes involucrados en el procesamiento de
datamining)

- Recursos de software (tales como herramientas de datamining, y otro software


relevante). En el presente documento se utiliza Clementine de SPSS para ilustrar la
construcción del plan de datamining.

Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran las siguientes:

65
- Identificar el hardware que se utilizará.

- Establecer la disponibilidad de dicho hardware para el proyecto de datamining. Es


preciso tener presente que muchos servidores y bases de datos no se encuentran
disponibles durante la jornada laboral por estar destinados 100% a funciones
operacionales. No obstante, tal vez sea posible tener acceso a ellos durante la noche o
los fines de semana.

- Evaluar si el programa de mantenimiento de sistemas entra en conflicto con la


disponibilidad del hardware para el proyecto de datamining. A tal respecto es preciso
considerar que los procesos de mantenimiento y respaldo se ejecutan normalmente
durante la noche, o los fines de semana, que son precisamente los horarios más
probables en los que se otorgará acceso al hardware.

- Identificar el hardware disponible para la herramienta de datamining a ser utilizada.

- Identificar las fuentes de datos.

- Identificar los tipos de fuentes de datos (si se trata de fuentes online, expertos,
documentación escrita, etc.).

- Identificar a los administradores de sistemas, a los administradores de las bases de


datos y al staff de soporte técnico para eventuales consultas.

- Identificar a los analistas de mercado, a los expertos en datamining y a los estadísticos


que puedan colaborar en el proyecto, y chequear su disponibilidad. Ello es importante
pues el proyecto puede necesitar staff técnico en momentos imprevisibles.

7.2.2 Requerimientos, suposiciones y restricciones (output 1b.2)


Este resultado es el segundo de la tarea de evaluar la situación (tarea 1b). De acuerdo
a la guía de usuario de la metodología CRISP-DM, este output incluye una lista de
todos los requerimientos del proyecto, incluyendo el cronograma de término, la calidad
y completitud de los resultados, la seguridad de la información y los aspectos legales.
En este punto es de vital importancia asegurarse que está permitido utilizar los datos
que se pretenden ocupar. El resultado incluye también una lista de todas las
suposiciones realizadas por el proyecto, las cuales pueden corresponder tanto a
suposiciones sobre los datos, sujetas a verificación, como suposiciones no verificables
realizadas sobre el negocio. Es particularmente importante detallar las suposiciones si

66
ellas establecen condiciones sobre la validez de los resultados del proyecto. Asimismo,
el resultado debe incluir todas las restricciones establecidas en el proyecto, y que
pueden involucrar la no disponibilidad de recursos para llevar a cabo algunas tareas.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran:

- Identificar todos los requerimientos sobre plazos que deben cumplirse en el proyecto
de datamining.

- Identificar todos los requerimientos sobre completitud, precisión y mantención de los


modelos de datamining resultantes.

- Identificar los requerimientos sobre seguridad, restricciones legales, privacidad y


generación de reportes del proyecto.

- Clarificar y explicitar todas las suposiciones del proyecto de datamining, incluyendo


aquellas implícitas.

- Elaborar una lista de suposiciones realizadas sobre la calidad de los datos (por
ejemplo, precisión y disponibilidad).

- Elaborar una lista de suposiciones sobre los factores externos al proyecto de


datamining que podrían afectar su éxito (por ejemplo: asuntos económicos, productos
competitivos, avances técnicos).

- Elaborar una lista de todas las suposiciones realizadas sobre la necesidad de explicar
el modelo a sus usuarios (por ejemplo: las suposiciones que dicen relación a cómo
debiera ser presentado el modelo y sus resultados a la alta gerencia y a su
patrocinador).

- Identificar las restricciones de acceso a las fuentes de datos.

- Identificar las restricciones presupuestarias del proyecto de datamining (costos fijos,


costos de implementación, etc.).

7.2.3 Riesgos y contingencias (output 1b.3)


Este resultado es el tercero de la tarea de evaluar la situación (tarea 1b). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output incluye un listado de los
riesgos que pueden afectar el proyecto, impactando sus plazos, sus costos o su

67
resultado final. Incluye también un listado de los correspondientes planes de
contingencia diseñados para mitigar dichos riesgos. Entre las actividades que es
preciso desarrollar para obtener este resultado se encuentran:

- Identificar los riesgos de negocios (tales como fusiones, adquisiciones, entrada de


nuevos competidores al mercado).

- Identificar riesgos organizacionales.

- Identificar riesgos financieros.

- Identificar riesgos técnicos.

- Identificar riesgos que dependan de los datos y de las fuentes de datos (por ejemplo,
baja calidad de los datos).

- Determinar las condiciones bajo las cuales cada uno de los riesgos puede ocurrir.

- Desarrollar planes de contingencia.

Con respecto a los riesgos organizacionales es preciso tener en consideración el poder


de las “cofradías” dentro de los departamentos de crédito de un Banco pequeño. Se
entiende por “cofradía” a un conjunto de ejecutivos unidos por estrechos vínculos de
confianza y que actúan tratando de acaparar todas las responsabilidades y todo el
conocimiento necesario para el funcionamiento bancario. El éxito de las cofradías
radica en primer lugar en su capacidad para enquistarse profundamente en los
procesos operacionales bancarios, de manera de no permitir el reemplazo de sus
miembros sin afectar severamente la continuidad de las operaciones de la empresa. En
segundo lugar, su éxito depende de su habilidad para asfixiar el surgimiento de
cualquier rival al dominio absoluto que ejercen sobre el conocimiento y el manejo de las
operaciones bancarias. Los proyectos de datamining, por el hecho de automatizar la
toma de decisiones, y prescindir de ese modo de la experiencia humana, pueden
encontrar oposición por parte de tales grupos. Para neutralizar su oposición es preciso
contar con el firme respaldo de un líder bancario.

La cultura de negocios puede presentar también riesgos concretos a la realización de


un proyecto de datamining. Así, por ejemplo, el desprecio de cualquier actividad de
carácter técnico puede provocar que un proyecto de datamining sea equiparado a la
simple manipulación de datos, y por lo tanto sea catalogado como una actividad de

68
segundo orden. La creencia de que es atributo privativo de los jefes el pensar y de los
subordinados simplemente ejecutar puede también frustrar las iniciativas de un
profesional que intente desarrollar datamining, al verse éste imposibilitado de realizar
cualquier labor por iniciativa propia. La importancia que se da a las relaciones
personales de confianza por sobre el profesionalismo puede también ir en contra de
quien intenta realizar datamining, si ésta persona no cuenta con el firme respaldo de
patrocinadores dentro de la organización.

Existe el riesgo de que un proyecto de datamining deje de ser auspiciado por su


patrocinador, al considerar que se ha invertido demasiado tiempo trabajando con los
datos sin conseguir nada tangible. Dicha decisión puede encontrar respaldo en el
consejo y la opinión de profesionales que, habiendo trabajado con Access o Excel en
otras instituciones, están acostumbrados a realizar manipulación de datos de manera
no estructurada y rápida. El problema surge debido a que normalmente en los
proyectos de datamining más del 90% del esfuerzo se realiza en las primeras fases del
mismo41, en particular en la preparación de los datos. Ello provoca que este tipo de
proyectos sea en general subestimado en cuanto a coste y tiempo. El problema se
agrava en el caso de una institución financiera que carece de un datawarehouse, por
cuanto el nivel de esfuerzo que es preciso realizar para integrar datos provenientes de
bases de datos distintas, residentes en plataformas distintas, y con datos referidos a
periodos distintos, supera en mucho al que correspondería llevar a cabo en otras
circunstancias.

7.2.4 Terminología (output 1b.4)


Este resultado es el cuarto de la tarea de evaluar la situación (tarea 1b). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output consiste en un glosario de
términos relevantes para el proyecto, y debe incluir al menos dos componentes: un
glosario de terminología relevante del negocio, y un glosario de terminología de
datamining. Entre las actividades que es preciso desarrollar para obtener este resultado
se encuentran:

41
Fuente: Jumpstart Clementine Training Brochure, Data Mining Jumpstart, Data Mining Projects
Clementine, SPSS, 2004

69
- Chequear la disponibilidad de glosarios existentes, o de lo contrario comenzar su
bosquejo.

- Conversar con expertos en la materia para comprender su terminología.

- Familiarizarse con la terminología de negocios.

A continuación se entregan las definiciones de mayor relevancia para el plan de


datamining de las campañas bancarias.

7.2.4.1 Definición de cliente malo desde un punto de vista crediticio


Para construir un modelo del nivel de riesgo de un cliente debe calcularse la
probabilidad de que éste se transforme en un cliente “malo” dentro de un determinado
periodo de tiempo. Es importante, por lo tanto, arribar a una definición de qué se
entiende por “cliente malo”. En la presente investigación se considerará “malo” en
términos crediticios a toda persona que cumpla alguna de las siguientes características:

- Haber presentado deuda directa vencida o deuda directa castigada en los últimos 12
meses de los informes de la SBIF.

- Presentar saldo de capital castigado con el Banco.

- Presentar monto de cartera vencida con el Banco.

- Presentar una deuda renegociada con el Banco que provenga con certeza de créditos
vencidos o castigados.

- Figurar con alguna cuenta “varios deudores” en el Banco, la cual con certeza
provenga de más de 60 días de mora en alguna tarjeta de crédito.

- Figurar en el denominado “file negativo” del Banco, que reúne al conjunto de clientes
con los que éste no desea operar.

- Figurar en el listado de los clientes cuyas cuentas hayan sido cerradas en el pasado
por el Banco.

A la lista dada anteriormente pueden agregarse condiciones adicionales, las cuales


pueden aprovechar la experiencia que el Banco posea para identificar a personas que
efectivamente correspondan a clientes “malos” desde un punto de vista crediticio.
Dichas condiciones pueden reflejar también diferentes expectativas del Banco con
respecto a qué clientes esté dispuesto a considerar como demasiado riesgosos.

70
7.2.4.2 Definición de rentabilidad potencial de un cliente
La rentabilidad potencial corresponde al valor actual neto de los flujos de efectivo que
generaría un cliente para el Banco, en el caso de que dicha institución fuese capaz de
vender a dicha persona el máximo de los servicios que eventualmente aquel estaría
dispuesto a contratar en el futuro.

La rentabilidad potencial trata de ser explotada por lo que se conoce como fidelización.
Detrás del concepto de fidelización se encuentra la idea de ofrecer productos que
constituyan un “gancho” para atraer a los clientes, a los cuales brindar a futuro otros
servicios financieros, hasta agotar su rentabilidad potencial. Por lo tanto, principalmente
la fidelización intenta provocar la conservación de los clientes por muchos años.

Figura 7.2 Ganancias extras obtenidas por cada transacción de la tarjeta de


crédito de un cliente, cuando éste tiene varios años de antigüedad42

La figura 7.2 muestra la importancia que tiene conservar a los clientes, por cuanto los
flujos de efectivo que genera un cliente antiguo de una tarjeta de crédito bancaria son

42
Fuente: REICCHELD, SASSER, Zero Defections Come to Quality, HBR, 1990

71
mucho mayores que aquellos que genera un cliente nuevo. El gráfico muestra que los
clientes entregan sólo ganancias básicas el primer año (constituidas por cobros de
mantención y por un nivel de utilización reducido de las tarjetas). A partir del segundo
año los clientes comienzan a generar ganancias adicionales por distintos conceptos:
aumento de la utilización de los cupos de las tarjetas, aumento de las transacciones con
ellas, uso más eficiente de los servicios bancarios, entrega de recomendaciones de los
servicios del Banco a otras personas, o pago de sobreprecios por determinados
servicios. Mientras las ganancias básicas son las mismas, independientemente de la
antigüedad del cliente, las ganancias extra que se producen son mucho mayores en los
clientes más antiguos.

Las ganancias no básicas surgen precisamente de la utilización por parte del Banco de
la rentabilidad potencial de los clientes. Mientras mayor sea la rentabilidad potencial de
éstos, mayores serán las ganancias no básicas que podrían obtenerse. Un Banco que
sea incapaz de conservar a sus clientes, no podrá tampoco aprovechar su rentabilidad
potencial. Concentrando los esfuerzos de las campañas en los clientes con mayor
rentabilidad potencial será posible conservar a éstos por muchos años y de esa forma
será posible también aprovechar efectivamente su rentabilidad potencial.

7.2.4.3 Definición de cliente sin gran rentabilidad potencial


Para construir un modelo de rentabilidad potencial es preciso calcular la probabilidad de
que un cliente se transforme en alguien “sin una gran rentabilidad potencial” dentro de
un determinado periodo de tiempo. Es preciso, por lo tanto, llegar a una definición de
qué se entiende por alguien “sin una gran rentabilidad potencial”. Nótese que para
construir un modelo de rentabilidad potencial no es necesario calcular la rentabilidad
potencial de los clientes, pues basta simplemente identificar aquellas condiciones en las
cuales un cliente puede clasificarse como “sin gran rentabilidad potencial”.

Dado que la rentabilidad potencial corresponde al valor actual neto de los flujos de
efectivo que generaría un cliente para el Banco, un cliente “sin gran rentabilidad
potencial” será alguien que sin lugar a dudas posea un valor actual neto muy bajo para
el Banco.

En la presente investigación se entenderá por cliente sin una gran rentabilidad potencial
a toda persona que cumpla alguna de las condiciones siguientes, cada una de las

72
cuales va indisolublemente ligada a un valor presente del cliente que es claramente
muy bajo para el Banco:

- La conjunción de las siguientes características: no ser profesional, poseer un ingreso


mensual inferior a un monto determinado (por ejemplo: $500.000) y no ser lo
suficientemente joven para cambiar de actividad (presentar una edad superior a, por
ejemplo, 40 años).

- La conjunción de las siguientes características: ser profesional, poseer un ingreso


mensual inferior a un monto determinado (por ejemplo: $300.000) y no ser profesional
joven (presentar una edad superior a un número determinado de años, por ejemplo: 30
años).

- Ejercer determinadas profesiones y oficios que son mal remunerados, que tampoco
permiten a las personas aumentar sus ingresos significativamente en el futuro, y en los
cuales las personas tradicionalmente tienden a desempeñarse durante toda su vida (por
ejemplo: personal de orden y seguridad).

- La conjunción de las siguientes características: no poseer patrimonio, ser mayor a una


edad determinada (por ejemplo: 40 años) y poseer un ingreso inferior a un monto
determinado (por ejemplo: $300.000).

- La conjunción de las siguientes características: ser hombre y ser una persona mayor
(con una edad por sobre los 70 años, por ejemplo).

- La conjunción de las siguientes características: ser mujer y ser una persona mayor
(con una edad por sobre los 65 años, por ejemplo).

- Ser un cliente “malo” en términos de riesgo de crédito.

- Poseer una capacidad residual de endeudamiento menor a un millón de pesos.

A la lista dada anteriormente pueden agregarse condiciones adicionales, las cuales


pueden aprovechar la experiencia que el Banco posea para identificar a personas que
efectivamente correspondan a clientes “sin gran rentabilidad potencial” desde su
perspectiva. Dichas condiciones pueden reflejar también diferentes expectativas del
Banco con respecto a qué clientes esté dispuesto a considerar como personas sin
atractivo.

73
7.2.4.4 Definición de carga financiera
La carga financiera corresponde al porcentaje de los ingresos que una persona debe
destinar a solventar sus deudas, y constituye información fundamental tanto para
evaluar el nivel de riesgo del cliente como su rentabilidad potencial. En la medida que
una persona contrae progresivamente más deudas, el monto que debe reservar al pago
de éstas aumenta, al mismo tiempo que disminuye la proporción de su salario que
puede destinar al pago de otros servicios. Claramente en la medida que la carga
financiera de un cliente aumenta, mayor es también su riesgo de crédito y menor es su
rentabilidad potencial.

7.2.5 Costos y beneficios (output 1b.5)


Este resultado es el quinto de la tarea de evaluar la situación (tarea 1b). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output consiste en un análisis de
costo-beneficio, el cual debe comparar los costos del proyecto de datamining con el
beneficio potencial que reportaría para el negocio en el caso de ser exitoso. Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentran:

- Estimar los costos de la recolección de datos.

- Estimar los costos de desarrollar e implementar una solución de datamining.

- Identificar los beneficios que se obtendrían por la realización del proyecto de


datamining.

Antes de mencionar el principal beneficio del proyecto de datamining es preciso


considerar que los modelos que se elaboren deben estimar el riesgo crediticio y la
rentabilidad potencial de los clientes. Como se describe en la sección 7.3, ello proviene
del hecho que los objetivos de negocios del proyecto de datamining definidos en la
sección 7.1, y que consisten en enfocarse en nichos de mercado y crecer, se traducen
en objetivos de datamining de estimar el riesgo y la rentabilidad de los clientes.

El mayor beneficio aportado por el plan de datamining de las campañas bancarias es


estratégico y consiste en permitir a un Banco focalizarse en nichos de mercado y crecer
mediante la clasificación de sus clientes por criterios de riesgo y rentabilidad. Dicha
clasificación es fundamental para un Banco pequeño, si se aceptan los supuestos de
negocios dados en la sección 5.4, y según los cuales las dos opciones para sobrevivir

74
de una institución semejante son enfocarse en nichos de mercado o crecer. En efecto,
los puntajes de riesgo y rentabilidad que los modelos de datamining permiten asignar a
los clientes son útiles en ambos casos, tanto para enfocarse en nichos como para
crecer. En primer lugar, es posible identificar distintos segmentos de mercado a partir
de los puntajes de riesgo y rentabilidad. En segundo lugar, como se demuestra en la
sección 11.1, los mencionados puntajes permiten aumentar el dinero que es posible
ofrecer a los clientes en condiciones ventajosas para el Banco, al mismo tiempo que se
satisface un nivel mínimo de riesgo. De esa forma, los puntajes permiten también a un
Banco crecer por la vía de aumentar los montos ofrecidos en las campañas.

7.3 Determinar los objetivos de datamining (tarea 1c)

Esta tarea corresponde a la traducción a términos técnico-estadísticos de los objetivos


de negocios que se pretende alcanzar con el proyecto de datamining. Las descripciones
de los resultados que se deben obtener como fruto de esta tarea se entregan a
continuación:

7.3.1 Objetivos de datamining: estimar el riesgo crediticio y la rentabilidad


potencial de los clientes (output 1c.1)
Este output consiste en una descripción de los objetivos de datamining que hacen
posible alcanzar los objetivos de negocios perseguidos por el proyecto. Entre las
actividades que es preciso desarrollar para obtener este output se encuentran:

- Traducir los objetivos de negocios a objetivos de datamining

- Especificar el tipo de problema de datamining. En este caso los modelos de riesgo de


crédito y de rentabilidad potencial que se plantean son netamente modelos predictivos.

El primer objetivo de negocios perseguido por el proyecto de datamining, y que no es


otro que focalizarse en nichos de mercado, puede implementarse identificando distintos
segmentos de mercado que diferencien entre si por el riesgo y la rentabilidad de sus
clientes. Así, el objetivo de negocios de focalización puede traducirse en los objetivos
de datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes.

El segundo objetivo de negocios perseguido por el proyecto de datamining, que


consiste en crecer sujeto a un nivel mínimo de riesgo, requiere de los siguientes
cálculos previos:

75
1. Especificar el nivel de riesgo asociado a los montos ofrecidos en una campaña.

2. Determinar el monto de dinero a ofrecer en las campañas sujeto a un nivel mínimo


de riesgo (especificado usando el cálculo del punto anterior).

Como se explica a continuación, el primer cálculo puede traducirse en los objetivos de


datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes.
Como se ha detallado en la sección 7.1 al describir los criterios de éxito de negocios
(output 1a.3), la satisfacción de un nivel mínimo de riesgo para las campañas se
especifica en la forma de una pérdida esperada (calculada como monto en deuda
vencida o castigada luego de transcurrido cierto tiempo). La pérdida esperada para un
monto ofrecido a un cliente puede calcularse como el producto del monto ofrecido y de
la probabilidad de que dicho cliente se transforme en “malo” dentro de un determinado
horizonte de tiempo. No obstante, dicha probabilidad depende tanto del monto ofrecido
como de la rentabilidad potencial del cliente. Mientras mayor sea el monto ofrecido a un
cliente, mayor será la probabilidad de que se transforme en “malo”, puesto que el
cliente estará más endeudado en el caso de aceptar la oferta y en consecuencia será
más riesgoso. Por otro lado, mientras mayor rentabilidad potencial posea un cliente,
mayor será su capacidad de seguirse endeudando sin volverse más riesgoso, y en
consecuencia menor será el aumento de la probabilidad de que él se transforme en
“malo” al aumentar su nivel de endeudamiento. Por todo lo antes mencionado, para
especificar el nivel de riesgo asociado a los montos ofrecidos en una campaña es
preciso estimar el riesgo crediticio y la rentabilidad potencial de los clientes.

El segundo cálculo antes mencionado, que consiste en determinar el monto de dinero a


ofrecer en las campañas sujeto a un nivel de mínimo riesgo, también puede traducirse
en los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad potencial
de los clientes. En efecto, mediante un modelo de programación no lineal es posible
especificar el problema. Se desea maximizar el monto total a ofrecer en la campaña
sujeto a la restricción de que las pérdidas totales sean iguales a un monto determinado.
La función objetivo puede especificarse simplemente como la sumatoria de los montos
a ofrecer a cada cliente. La pérdida de la campaña puede escribirse como la sumatoria
del monto a ofrecer a cada cliente multiplicado por la probabilidad de que dicho cliente
se transforme en “malo” luego de aceptar el monto ofrecido. Dado que la mencionada
probabilidad dependerá de la rentabilidad potencial y del nivel de riesgo de cada cliente

76
antes de aceptar la oferta, se tendrá que la solución del modelo de programación
requerirá de estimaciones del nivel de riesgo y de la rentabilidad potencial de los
clientes. Restricciones adicionales de tal modelo son que los montos deben ser
positivos y que la carga financiera de cada cliente no puede exceder el 100% de sus
ingresos luego de aceptar la oferta. La especificación detallada de tal modelo de
programación se entrega en la sección 11.1, al mostrar como los puntajes calculados
con los modelos de riesgo y rentabilidad potencial permiten alcanzar los objetivos de
negocios del plan de datamining. No obstante, con lo que se ha mencionado es
evidente que el problema de determinar los montos de dinero a ofrecer en las
campañas sujeto a un nivel mínimo de riesgo requiere necesariamente estimar el riesgo
y la rentabilidad de los clientes.

En resumen, los dos objetivos de negocios del proyecto de datamining pueden


traducirse en los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad
potencial de los clientes.

7.3.2 Criterios de éxito de datamining: errores tipo I y tipo II (output 1c.2)


Este resultado es el segundo de la tarea de determinar los objetivos de datamining
(tarea 1c). De acuerdo a la guía de usuario de la metodología CRISP-DM, este output
corresponde a un conjunto de criterios técnicos para considerar exitoso un proyecto de
datamining (por ejemplo, un cierto nivel de precisión en las predicciones de los modelos
desarrollados). Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran:

- Especificar los criterios para la evaluación de los modelos (por ejemplo, precisión de
los modelos, desempeño de éstos y nivel de complejidad).

- Definir benchmarks para los criterios de evaluación.

Los criterios de éxito de datamining pueden incluir cualquiera de las medidas


estadísticas usadas para evaluar los modelos técnicamente y detalladas en el capítulo
10. No obstante, criterios de éxito razonables para los modelos de datamining de las
campañas bancarias deben incluir cotas para dos tipos de error. En un modelo de
riesgo el primero de ellos, o error tipo I, proviene de clasificar como bueno a un cliente
que será malo. El segundo, o error tipo II, surge al clasificar como malo a un cliente que
será bueno. Análogamente, en los modelos de rentabilidad el error tipo I se comete al
77
calificar como cliente con gran rentabilidad potencial a un cliente sin ella, en tanto que el
error tipo II ocurre al clasificar como cliente sin gran rentabilidad potencial a un cliente
que si poseerá una gran rentabilidad potencial.

Los modelos de riesgo calcularán notas o puntajes de riesgo, que corresponderán a


probabilidades de que los clientes se transformen en malos en un cierto horizonte de
tiempo. Para calificar como bueno a un cliente se utilizará una nota o probabilidad
mínima, denominada “puntaje de corte”. Al fijar un “puntaje de corte” para un modelo de
riesgo determinado, y aplicar dicho modelo a un conjunto de datos de prueba se
obtendrán errores tipo I y tipo II en la forma de porcentajes sobre el total de los clientes
de la muestra. Los criterios de éxito de datamining a tal respecto permitirán determinar
si los resultados de un modelo de riesgo son aceptables o no. Conclusiones análogas
se obtienen para los modelos de rentabilidad potencial. En efecto, los modelos de
rentabilidad potencial calcularán notas o puntajes de rentabilidad, que corresponderán a
probabilidades de que los clientes se transformen en personas “sin gran rentabilidad
potencial” en el futuro. Para calificar como “sin gran rentabilidad potencial” a un cliente
se utilizará una nota o probabilidad mínima, denominada también “puntaje de corte”. Al
fijar un “puntaje de corte” para un modelo de rentabilidad potencial, y aplicar dicho
modelo a un conjunto de datos de prueba se obtendrán errores tipo I y tipo II en la
forma de porcentajes sobre el total de los clientes de la muestra.

7.4 Producir el plan del proyecto (tarea 1d)

Esta tarea corresponde a la realización de una carta Gantt del proyecto de minería de
datos, junto a la cual debe describirse el plan con el que se espera alcanzar los
objetivos de datamining y los objetivos de negocios.

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

7.4.1 Plan del proyecto (output 1d.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a una lista de todas las etapas a ser ejecutadas en el proyecto, junto a su
duración, recursos requeridos, inputs, outputs y dependencias. Debe hacerse explícita
la repetición y el retroceso a la etapa anterior propias de las fases de modelamiento y

78
de evaluación de negocios. Como parte del plan de datamining es también importante
analizar las dependencias entre los plazos y los riesgos. Es preciso detallar los
resultados de los análisis de riesgos en términos de acciones y recomendaciones sobre
los pasos a seguir en caso de contingencia. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:

- Definir el plan inicial del proyecto de datamining y discutir la factibilidad con todo el
personal involucrado en el proyecto.

- Reunir en un proceso coherente todos los objetivos identificados y todas las técnicas
de datamining seleccionadas, de manera de responder las preguntas de negocios y de
satisfacer los criterios de éxito del proyecto.

- Estimar el esfuerzo y los recursos necesarios para alcanzar y generar la solución del
proyecto de datamining. Se postula que entre un 50% y un 70% del tiempo en un
proyecto de datamining debiera destinarse a la fase de preparación de los datos,
mientras que tan solo un porcentaje ubicado entre un 10% y un 20% debiera dirigirse a
las fases de Modelamiento, Evaluación y Comprensión del Negocio. El porcentaje
asignado a la fase de Despliegue debiera encontrarse entre un 5% y un 10% del tiempo
total del proyecto.

- Identificar los pasos críticos.

- Resaltar los puntos de toma de decisiones.

- Resaltar los puntos de revisión de los resultados del proyecto.

- Identificar las principales iteraciones dentro del flujo de fases y tareas de datamining.

7.4.2 Evaluación inicial de herramientas y técnicas (output 1d.2)


Este resultado es el segundo de la tarea de producir el plan del proyecto (tarea 1d). De
acuerdo a la guía de usuario de la metodología CRISP-DM, este output consiste en una
evaluación inicial de las herramientas y técnicas de datamining que es posible utilizar.
Debe seleccionarse una herramienta de datamining que soporte varios métodos para
diferentes etapas del proyecto. Es importante evaluar las herramientas y técnicas
tempranamente en el proyecto, puesto que la elección de las herramientas y técnicas
influenciará todo el proyecto. Entre las actividades que es preciso desarrollar para
obtener este resultado se encuentran:

79
- Crear una lista de criterios para seleccionar las herramientas y técnicas de datamining.

- Escoger las herramientas y técnicas de datamining.

- Evaluar qué tan apropiadas son las técnicas de datamining.

- Revisar y priorizar técnicas de datamining aplicables de acuerdo a la evaluación de


soluciones alternativas.

En la presente investigación se ha escogido Clementine de SPSS como herramienta de


datamining para ilustrar la elaboración de un plan de minería de datos, la cual soporta
una amplia variedad de técnicas de datamining. Entre aquellas técnicas que se ajustan
mejor a la construcción de modelos predictivos de riesgo y rentabilidad se encuentran la
regresión logística, las redes neuronales y los árboles de decisión, las cuales se
explican en detalle en la sección 10.1, incluyendo una tabla con sus ventajas y
desventajas.

80
8 SEGUNDA FASE DEL PLAN: COMPRENSIÓN DE LOS DATOS

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de comprensión de los datos de la metodología CRISP-DM, junto a los resultados o
outputs que deben obtenerse de la ejecución de cada una:

Figura 8.1 Tareas y outputs de la fase de comprensión de los datos, segunda


fase del proyecto de datamining según metodología CRISP-DM43

A continuación se describen las tareas de esta fase y sus resultados, entregando


consejos y recomendaciones elaborados a partir de la reflexión del autor de este

43
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000

81
documento y de la guía de usuario de CRISP-DM44. Como se ha señalado en el
capitulo 3, esta tesis no se basa en ningún conjunto de datos de ningún grupo de
personas. Por ello no pueden entregarse indicaciones específicas sobre los reportes de
descripción, de exploración, o de calidad de los datos (outputs 2b.1, 2c.1 y 2d.1). Sin
embargo, en virtud de los supuestos dados en el capítulo que versa sobre las hipótesis
de trabajo es posible dar una descripción de las fuentes de datos que todo Banco debe
poseer y que proveen de información necesaria y suficiente para la realización de
estudios de datamining sobre las campañas bancarias. En consecuencia, como parte
de la explicación del reporte de recolección de los datos iniciales (output 2a.1), se
entregan en este capítulo las descripciones de todas las variables necesarias para
construir los modelos de datamining planteados en esta investigación, de igual modo
que todas las fuentes de datos que se utilizarán.

8.1 Recolectar datos iniciales (tarea 2a)

Esta tarea consiste en la realización de una recopilación de los datos necesarios para el
proyecto de datamining, utilizando para ello la lista de recursos disponibles elaborada
en la tarea 1b de la fase de comprensión del negocio. La recolección debe incluir la
carga de los datos en la herramienta de datamining, si ello ayuda a comprender la
información (como puede ser el caso de no existir un diccionario de datos que entregue
el significado de cada campo de una base de datos).

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

8.1.1 Reporte de recolección de datos iniciales (output 2a.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en una lista de los datos que serán utilizados en el proyecto. Asimismo dicha lista debe
incluir los requerimientos de selección de datos que sea preciso realizar para obtener
información más detallada que la disponible. El reporte de recolección de datos debe
definir también si algunos atributos son más importantes que otros, al mismo tiempo

44
Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas,
SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

82
que esbozar una evaluación sobre la calidad de los datos. Entre las actividades que es
preciso desarrollar para obtener este resultado se encuentran:

- Planificar qué información se necesitará (por ejemplo: solo atributos disponibles o


información adicional).

- Chequear si toda la información que se necesita para alcanzar los objetivos de


datamining está actualmente disponible.

- Especificar los criterios de selección de datos (determinar qué atributos son


necesarios para alcanzar los objetivos de datamining y qué atributos han sido
identificados como irrelevantes). Es preciso tener presente que los datos recolectados
de diferentes fuentes pueden provocar problemas de calidad cuando son mezclados
debido a inconsistencias de formatos o a la presencia de datos inválidos.

- Seleccionar las tablas o archivos de interés para el proyecto de datamining.

- Seleccionar datos dentro de cada tabla o archivo de interés para el proyecto.

- Determinar el número de meses pasados que debieran ser usados para seleccionar
los datos del proyecto de datamining (por ejemplo: aun si hay información disponible de
36 meses puede que sólo 18 meses de historia sean relevantes para la investigación).

- Determinar cómo se pueden obtener los atributos que faltan y que son relevantes para
el proyecto de datamining.

- Describir cómo extraer los datos (por ejemplo, vía un muestreo aleatorio simple).

El conjunto de atributos de los clientes que son necesarios para construir modelos
predictivos se entrega a continuación:

8.1.2 Datos necesarios para el proyecto: lista de atributos de los clientes

En base a la experiencia y al conocimiento del negocio de otorgamiento de crédito a


personas es posible identificar variables que, independientemente de qué grupo de
clientes se trate, son relevantes para construir modelos predictivos de riesgo y
rentabilidad. El modelo de datamining que se persigue construir corresponde a un
sistema experto que pretende simular el razonamiento de los ejecutivos comerciales y
de crédito. Por lo tanto, se han incluido en este punto sólo las variables que son
relevantes para dichos ejecutivos y que pueden encontrarse con facilidad en las bases
83
de datos operacionales de cualquier Banco. A continuación se entregará el conjunto de
88 variables candidatas a integrar los modelos predictivos de riesgo y rentabilidad
potencial, clasificadas en distintos grupos de acuerdo al tipo de característica del cliente
al que se refieren. El siguiente diagrama muestra dichas 88 variables clasificadas en
seis grupos:

Figura 8.2 Seis grupos de variables candidatas a ser consideradas en los


modelos (nótese que sólo un grupo corresponde a variables de deudas)45

8.1.2.1 Grupo de variables demográficas (A)

- Región. - Cantidad de hijos. - Universidad.


- Provincia. - Cantidad de cargas. - Régimen conyugal.
- Comuna. - Nivel educacional. - ¿Tiene datos de edad?.
- Sexo. - Actividad económica. - Edad.
- Estado civil. - Profesión.

45
Fuente: elaboración propia

84
8.1.2.2 Grupo de variables de renta (B)

- Patrimonio. - Renta. - ¿Es independiente?.


- ¿Tiene un bien raíz?. - Tipo de renta (fija/var.).l
- ¿Tiene datos de renta?. - Antigüedad de la renta. L

8.1.2.3 Grupo de variables de vínculo con el cliente (C)


Variables de tipo de relación del cliente con el Banco
- Tipo de cliente (cliente en convenio, cliente estándar, etc.).
- Antigüedad del cliente.

Servicios contratados con el Banco


- ¿Tiene líneas de crédito del Banco?.
- Fecha más remota de apertura de línea de crédito hoy vigente con el Banco.
- ¿Tiene tarjetas del Banco?.
- Fecha más remota de otorgamiento de tarjeta de crédito hoy vigente con el Banco.
- Monto original de las tarjetas de crédito del Banco que el cliente posee.
- ¿Tiene créditos no hipotecarios en el Banco?.
- Fecha más remota de otorgamiento de crédito no hipotecario vigente con el Banco.
- Monto original adeudado en créditos no hipotecarios del Banco.
- Plazo máximo de créditos no hipotecarios hoy vigentes con el Banco.
- ¿Tiene créditos hipotecarios del Banco?.
- Fecha más remota de otorgamiento de crédito hipotecario hoy vigente con el Banco.
- Monto original adeudado en créditos hipotecarios hoy vigentes con el Banco.
- Plazo máximo de créditos hipotecarios hoy vigentes con el Banco.

8.1.2.4 Grupo de variables de ingresos contables generados por cliente (D)


- Ingresos contables generados por el cliente por concepto de mantención, spread de
intereses, comisiones y otros ingresos en líneas de crédito.
- Ingresos contables generados por el cliente por concepto de mantención, spread de
intereses, comisiones y otros ingresos en tarjetas de crédito.
- Ingresos contables generados por el cliente por concepto de spread de intereses,
comisiones y otros ingresos en créditos no hipotecarios.
- Ingresos contables generados por el cliente por concepto de spread de intereses,
comisiones y otros ingresos en créditos hipotecarios.
85
8.1.2.5 Grupo de variables de comportamiento (E)
Variables de comportamiento del cliente con el Banco
- En qué tramo de morosidad se encuentra el cliente con el Banco (menos de treinta
días de mora, entre 30 y 60 días, entre 60 y 90 días o más de 90 días).
- Monto en mora.
- ¿Presenta deuda vencida con el Banco?.
- ¿Presenta capital castigado con el Banco?.
- Máximo de días de mora en los productos del Banco.
- ¿Cliente está en "file negativo"?.
- ¿Cliente presenta cuenta cerrada por el Banco?.
- Cliente presenta créditos renegociados que provienen de incapacidad de pago.
- Cliente presenta créditos repactados que no provienen de incapacidad de pago.
- Cliente presenta deuda de varios deudores proveniente de una tarjeta caída.
- Cliente presenta deuda de varios deudores proveniente de una línea caída.

Variables históricas de comportamiento en el sistema financiero


Los siguientes campos se han obtenido del informe SBIF y de las bases del Banco:
- Promedio de la deuda directa morosa en el sistema financiero los últimos 3 meses.
- Promedio de la deuda directa vencida en el sistema financiero los últimos 3 meses.
- Promedio de la deuda indirecta vencida en el sistema financiero los últimos 3 meses.
- Promedio del saldo de la deuda directa castigada en el sistema financiero los
últimos 3 meses.
- Promedio del saldo de la deuda indirecta castigada en el sistema financiero los
últimos 3 meses.
- Promedio de la deuda directa morosa en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio de la deuda directa vencida en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio de la deuda indirecta vencida en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 6 meses atrás y los últimos 3 meses.

86
- Promedio del saldo de la deuda indirecta castigada en el sistema financiero en un
periodo comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio de la deuda directa morosa en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio de la deuda directa vencida en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio de la deuda indirecta vencida en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio del saldo de la deuda indirecta castigada en el sistema financiero en un
periodo comprendido entre 15 meses atrás y los últimos 6 meses.

Variables de comportamiento del cliente en boletines


- Cheques protestados.
- Otros documentos protestados en el Boletín Comercial.
- Morosidades informadas al Boletín Comercial.

8.1.2.6 Grupo de variables de deudas (F)


Deudas del cliente con el Banco
- Saldo vigente en las líneas de crédito del Banco.
- Cupo disponible en las líneas de crédito del Banco.
- Saldo vigente en las tarjetas de crédito del Banco.
- Cupo disponible en las tarjetas de crédito del Banco.
- Saldo vigente en créditos no hipotecarios del Banco.
- Saldo vigente en créditos hipotecarios del Banco.

Deudas del cliente con otras instituciones


- Deuda comercial en otros bancos.
- Deuda de consumo en otros bancos.
- Deuda hipotecaria en otros bancos.
- Cupo disponible en líneas y tarjetas de crédito de otros bancos.

87
Variables de las deudas históricas en el sistema financiero
Los siguientes campos han sido obtenidos del informe SBIF
- Deuda directa vigente en el último mes del último informe de la SBIF.
- Monto de línea de crédito disponible en el último mes del último informe SBIF.
- Promedio de la deuda directa vigente en un periodo comprendido entre 6 meses
atrás y los últimos 3 meses.
- Promedio del monto de línea de crédito disponible en un periodo comprendido entre
6 meses atrás y los últimos 3 meses.
- Promedio de la deuda directa vigente en un periodo comprendido entre 15 meses
atrás y los últimos 6 meses.
- Promedio del monto de línea de crédito disponible en un periodo comprendido entre
15 meses atrás y los últimos 6 meses.

Variables de leverage y de carga financiera


Estas variables son sólo para aquellos clientes que poseen renta
- Nivel de leverage hipotecario total del cliente. El leverage hipotecario se calcula
como la deuda hipotecaria dividida por la renta.
- Nivel de leverage no hipotecario total del cliente. El leverage no hipotecario se
calcula como la deuda no hipotecaria dividida por la renta.
- Estimación de la carga financiera del cliente.

A continuación se detalla el contenido de cada una de las fuentes de datos utilizadas en


la presente investigación y que necesariamente deben estar disponibles en las bases
operacionales de cualquier Banco.

8.1.3 Fuentes de datos disponibles y suficientes para el proyecto

Un supuesto fundamental de las hipótesis de trabajo ha consistido en que existen bases


de datos operacionales que cualquier Banco debe poseer y que proveen información
suficiente para realizar los estudios de datamining contemplados en esta investigación.
La descripción de la información contenida en dichas fuentes de datos se entrega a
continuación:

Informe de la SBIF: corresponde al informe de deudas de cada cliente en el sistema


financiero chileno. Es un archivo que entrega mensualmente la SBIF a los Bancos y el
88
cual incluye las deudas consolidadas de 4,5 millones de personas. Dicho informe
reporta la deuda castigada, vencida, morosa y vigente, junto al cupo disponible en
líneas y en tarjetas de cada persona. Se proveen todos esos datos para 13 meses
distintos y consecutivos, con un desfase de dos meses entre el último mes y el
presente.

Informe D01 enviado a la SBIF: corresponde a un informe que mensualmente todos los
Bancos están obligados a enviar a la SBIF, y que detalla las deudas que cada uno de
sus clientes mantiene con ellos, clasificadas en deudas de consumo, comerciales e
hipotecarias, cada una dividida en deuda vigente o vencida y subdividida en cuentas de
activo y de orden. Se reporta además en este informe la deuda castigada del cliente
con el Banco. Adicionalmente, para poder identificar qué deudas del archivo de
operaciones fueron reportadas a la SBIF y bajo qué criterio, esta fuente de datos debe
además incorporar información que detalla para cada cuenta asociada a una operación
(intereses, capital, etc.) el monto que es reportado a la SBIF en el D01 bajo una de las
categorías siguientes:

- Deuda directa vigente por créditos comerciales en cuentas de activo


- Deuda directa vencida por créditos comerciales en cuentas de activo
- Deuda directa vigente por créditos comerciales en cuentas de orden
- Deuda directa vencida por créditos comerciales en cuenta de orden
- Deuda directa vigente por créditos de consumo en cuentas de activo
- Deuda directa vencida por créditos de consumo en cuentas de activo
- Deuda directa vigente por créditos de consumo en cuentas de orden
- Deuda directa vencida por créditos de consumo en cuentas de orden
- Deuda directa vigente por créditos hipotecarios para la vivienda en ctas. de activo
- Deuda directa vencida por créditos hipotecarios para la vivienda en ctas. de activo
- Deuda directa vigente por créditos hipotecarios para la vivienda en ctas. de orden
- Deuda directa vencida por créditos hipotecarios para la vivienda en ctas. de orden

Saldos el día de envío del D01: corresponde a una base de datos operacional con la
información, el día del envío del informe D01 a la SBIF hace dos meses, de cada uno
de los productos que tiene vigente cada cliente con el Banco. Debe contener la fecha
de otorgamiento del producto, su fecha de extinción, el monto original en pesos de los

89
créditos otorgados, el saldo operacional, el monto impago en los distintos tramos de
morosidad, el monto del capital vencido, el monto del capital castigado, el saldo
disponible en pesos de las líneas y tarjetas, la tasa de interés anual del producto, el
plazo en meses de éste y el tipo de producto al que se refiere.

Productos: corresponde a un archivo que contiene una lista de códigos de productos en


los que el Banco asume una posición acreedora y que son clasificados en créditos de
consumo, créditos comerciales, créditos hipotecarios, líneas o tarjetas de crédito. En
este archivo se identifican también los créditos que provienen de incapacidad de pago
de los clientes (como es el caso de los créditos “varios deudores” entregados a clientes
que no pudieron pagar tarjetas o líneas de crédito vencidas). Es preciso señalar que
otras fuentes de datos contienen información sobre los productos, como es el caso de
los “Saldos el día de envío del D01” y de los “Saldos actuales”, no obstante los archivos
operacionales de los Bancos pueden ser inmensamente complejos, por lo que es de
cualquier forma necesario disponer de una tabla de clasificación de los productos a
partir de su código. Esta fuente de datos denominada “Productos” constituye
precisamente dicha tabla de clasificación.

Saldos actuales: corresponde a una base de datos operacional con la información, el


día presente, de cada uno de los productos que tiene vigente cada cliente con el Banco.
Al igual que los “Saldos el día de envío del D01” debe contener la fecha de
otorgamiento del producto, su fecha de extinción, el monto original en pesos, el saldo
operacional, el monto impago en los distintos tramos de morosidad, el monto del capital
vencido, el monto del capital castigado, el saldo disponible en pesos de las líneas y
tarjetas, la tasa de interés anual del producto, el plazo en meses de éste y el tipo de
producto del que se trate.

Rentas de clientes: corresponde a una base de datos con la información financiera de


cada cliente, incluyendo la fecha de su último estado financiero declarado, su
patrimonio, si posee un bien raíz, su renta, el tipo de renta (fija o variable) y si se trata
de un trabajador dependiente o independiente.

Características demográficas: corresponde a la integración de múltiples archivos y


bases de datos operacionales del Banco. Contiene información demográfica tal como el
estado civil, el número de hijos, el nivel educacional, la profesión, el tipo de cliente, la

90
Universidad y el régimen conyugal. Los campos fundamentales que debe incluir esta
fuente de datos son las fechas de nacimiento, las naturalezas jurídicas de las personas,
el campo que indica si se trata de un cliente que presenta alguna cuenta cerrada por el
Banco, y el campo que señala si éste se encuentra en el denominado “File Negativo”.

Factores estimados de carga: corresponde a un archivo de parámetros que contiene los


porcentajes estimados de carga financiera a asignar a la deuda de los clientes con otras
instituciones en las categorías hipotecaria y no hipotecaria.

Ingresos contables por cliente: corresponde generalmente a un datamart que registra


los ingresos que percibe el Banco anualmente por cada cliente en cada producto por
concepto de cobro de mantención, spread de la tasa de interés sobre el costo de fondo,
comisiones por uso de Redbank, cheques y otras transacciones, seguros asociados a
las cuentas y otros ingresos.

8.2 Describir los datos (tarea 2b)

En esta tarea deberán describirse los datos en términos de tipo, distribución, tablas de
frecuencia, valores máximo y mínimo, y estadígrafos tales como el promedio, la
varianza, la asimetría y la curtosis, entre otros.

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

8.2.1 Reporte de descripción de datos (output 2b.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado describe
los datos que han sido obtenidos, incluyendo su formato y cantidad en términos de
número de registros y de campos de cada tabla. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:

- Analizar el volumen de los datos.

- Identificar los datos y el método de captura.

- Accesar las fuentes de datos.

- Utilizar análisis estadísticos de ser éstos necesarios para describir los datos.

91
- Realizar un reporte de las tablas que se utilizarán en el proyecto junto a sus
relaciones.

- Chequear la consistencia del volumen de los datos, su multiplicidad y complejidad.

- Verificar que los datos contengan datos consistentes en texto libre.

- Verificar la accesibilidad y la disponibilidad de los atributos o campos de las tablas.

- Verificar los tipos de atributos o campos (numéricos, simbólicos, etc.).

- Chequear los rangos de valores de los atributos o campos.

- Analizar las correlaciones entre los atributos.

- Comprender el significado en términos de negocios de cada atributo y de sus valores.

- Para cada atributo, calcular los estadísticos básicos (promedio, máximo, mínimo,
desviación estándar, varianza, asimetría, curtosis).

- Analizar los estadísticos básicos y relacionar los resultados con un significado en


términos de negocios.

- Determinar si es relevante cada atributo para los distintos objetivos de datamining.

- Entrevistar a expertos en la materia para recoger su opinión respecto de la relevancia


de cada atributo o campo a ser utilizado en el proyecto. Verificar si es necesario
balancear los datos, dependiendo de la técnica de modelamiento utilizada.

- Analizar las relaciones entre las distintas llaves de las tablas de datos a usar en el
proyecto.

- Revisar los supuestos y los objetivos del proyecto.

- Actualizar la lista de supuestos si es necesario.

8.3 Explorar los datos (tarea 2c)

Esta tarea corresponde a un conjunto de análisis de los datos realizados mediante el


empleo de gráficos y tablas. A partir de dichos análisis puede obtenerse información
valiosa sobre la composición de la cartera de clientes de un Banco, sobre tendencias
interesantes y sobre oportunidades de negocios no visualizadas previamente. Dichos
análisis pueden también estar dirigidos directamente al cumplimiento de los objetivos de

92
datamining, como así también al refinamiento de la descripción de los datos o a la
verificación de la calidad de los mismos.

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

8.3.1 Reporte de exploración de datos (output 2c.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este output consiste en
una descripción de los resultados de la tarea de exploración de los datos, incluyendo
los primeros descubrimientos o las hipótesis iniciales y su impacto sobre el resto del
proyecto. El reporte puede también incluir gráficos que indiquen las características de
los datos o que conduzcan a la obtención de subconjuntos de datos interesantes para
exámenes ulteriores. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran:

- Analizar en detalle las propiedades de aquellos atributos que sean particularmente


interesantes.

- Identificar las características de las subpoblaciones.

- Formar supuestos para futuros análisis.

- Evaluar la información y los descubrimientos que se han elaborado previamente en el


reporte de descripción de los datos (output 2b.1).

- Armar hipótesis sobre los datos.

- Transformar las hipótesis en objetivos de datamining, si es posible.

- Clarificar los objetivos de datamining o hacerlos más precisos.

- Ejecutar análisis básicos para verificar las hipótesis sobre los datos.

8.4 Verificar la calidad de los datos (tarea 2d)

Esta tarea consiste en examinar la calidad de los datos, chequeando que éstos estén
completos, que no tengan valores faltantes y que cubran todos los casos requeridos. Si
los datos contienen errores, debe determinarse qué tan frecuentes son éstos, y si hay
valores faltantes es preciso investigar cómo están representados, dónde ocurren, y qué

93
tan comunes son. Las descripciones de los resultados que deben obtenerse como fruto
de esta tarea se entregan a continuación:

8.4.1 Reporte de calidad de los datos (output 2d.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a una lista de chequeos sobre la calidad de los datos. Si en los datos hay
problemas de calidad, este output debe contener una lista de las posibles soluciones.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran las siguientes:

- Identificar valores especiales que pueden asumir los campos de los datos y realizar un
catálogo de su significado.

- Revisar las llaves y los atributos de las tablas de los datos.

- Chequear cobertura de los datos (todos los valores que pueden estar representados).

- Chequear si calzan los significados de los atributos con los valores que contienen.

- Identificar los atributos faltantes y los campos en blanco.

- Revisar atributos con un mismo significado, pero que presentan valores distintos.

- Chequear las desviaciones que se producen con respecto al grueso de valores de un


conjunto de datos, y decidir si una desviación particular corresponde o no a un “ruido”.

- Chequear qué tan plausibles son los valores que presentan los campos de los datos
(por ejemplo: todos los campos no pueden tener los mismos o casi los mismos valores).

- Revisar todos los atributos que permiten elaborar conclusiones que caen en conflicto
con el sentido común (por ejemplo: carga financiera superior a un 100%).

- Usar distintos tipos de gráficos para mostrar las inconsistencias en los datos.

- Si los datos están almacenados en archivos de texto plano, chequear qué delimitador
es utilizado y si es usado en forma consistente en todos los atributos. Chequear el
número de campos en cada registro y ver si coinciden.

- Chequear consistencias y redundancias entre diferentes fuentes de datos.

- Planificar cómo manejar el ruido en los datos. Excluir, si es necesario, algunos datos.

- Detectar el tipo de ruido que se presenta en los datos y qué atributos son afectados.

94
9 TERCERA FASE DEL PLAN: PREPARACIÓN DE LOS DATOS

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de preparación de los datos de la metodología CRISP-DM, junto a los resultados o
outputs que deben obtenerse de la ejecución de cada una de ellas:

Figura 9.1 Tareas y outputs de la fase de preparación de los datos, tercera fase
del proyecto de datamining según metodología CRISP-DM46

46
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000

95
El conjunto de tareas de la fase de preparación de los datos, junto a sus
correspondientes resultados se describen a continuación. Se entregan consejos y
recomendaciones que recogen conceptos de la guía de usuario CRISP-DM47 a la vez
que aportes extraídos de la experiencia y reflexión del autor de este documento.

Esta investigación, como se ha señalado antes, no emplea ningún conjunto de datos,


por lo que sólo podrán entregarse indicaciones conceptuales y generales sobre los
resultados que requieren manipulación de datos concretos. Tal es el caso de las
razones para la inclusión o exclusión de datos en el estudio (output 3a.1), del reporte de
limpieza de datos (output 3b.1), de los registros generados (output 3c.2) y de los datos
reformateados (output 3e.1). En cambio, el supuesto sobre la existencia de fuentes de
datos con información suficiente para ésta investigación permite entregar indicaciones
detalladas sobre cómo generar el output 3z.1, a la vez que sobre la descripción de ese
resultado (output 3z.2). De igual modo, mediante el empleo de atributos derivados
(output 3c.1) y de datos mezclados (output 3d.1) es posible también en este capítulo
mostrar cómo pueden estimarse las deudas de los clientes con otras instituciones
financieras a partir de la información disponible en las fuentes de datos.

Dos de los resultados de esta fase no están vinculados a ninguna tarea específica y se
describen en primer lugar (output 3z.1 y 3z.2).

9.1 Conjunto de datos (output 3z.1)

De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste


en el conjunto de datos que son usados para el modelamiento y para la mayor parte del
trabajo de análisis del proyecto de datamining. En la obtención de este resultado es
preciso realizar un esfuerzo considerable al no disponer de un datawarehouse que
almacene toda la información histórica necesaria para construir modelos predictivos de
riesgo y rentabilidad. Tal esfuerzo debe concentrarse en la integración de datos
provenientes de sistemas computacionales distintos y que presentan necesariamente
inconsistencias debido a que contienen información obtenida en fechas distintas.

47
Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas,
SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

96
9.1.1 Obtención automatizada del conjunto de datos en Clementine

En esta sección se ilustrará como en un Banco carente de un datawarehouse es posible


construir una base de datos con toda la información necesaria para elaborar modelos
predictivos de riesgo o rentabilidad. Dicha base de datos, que corresponde al output
3z.1 del modelo CRISP-DM, será denominada “base final para construir modelo
predictivo” y constará de las siguientes componentes:

a.- Los valores observados hoy de las variables que se esperaba predecir hace un año.

b.- El conjunto de valores de las variables predictivas en igual periodo.

La idea de la presente investigación es desarrollar modelos que a partir de las variables


predictivas hace un año (punto “b” del output 3z.1), sean capaces de estimar el valor
que tendrían en la actualidad las variables a predecir. Dichas estimaciones pueden
contrastarse con los valores observados hoy de aquellas variables (punto “a” del output
3z.1). Se espera construir modelos a partir de las variables del punto “b” cuyas
estimaciones no difieran mucho de las observaciones del punto “a”.

Las variables a predecir son dos: la condición del cliente de ser “malo” en términos de
crédito, y la condición del cliente de ser alguien “sin gran rentabilidad potencial”. El
conjunto de valores de las variables predictivas observables cuando todas las fuentes
de datos tienen fecha de un año atrás se denominará “base de variables predictivas
hace un año”. Por el contrario, el conjunto de valores de las variables predictivas
observables cuando todas las fuentes de datos tienen fecha de hoy se denominará
“base de variables predictivas hoy”. Mientras la “base de variables predictivas hace un
año” permite estimar el valor que tendrían hoy las variables a predecir, la “base de
variables predictivas hoy”, permite estimar el valor que ellas tendrían dentro de un año.

Por la forma como se han definido en la sección 7.2.4 los conceptos de cliente “malo” y
de cliente “sin gran rentabilidad potencial”, los valores de las variables del punto “a” del
output 3z.1 pueden determinarse a partir de la “base de variables predictivas hoy”. En
efecto, cada una de las características que debe poseer un cliente para ser clasificado
como “malo”, o “sin gran rentabilidad potencial” puede determinarse mediante simple
observación de grupos de variables presentes en la “base de variables predictivas hoy”,
sin mediar estimación ni predicción alguna, como se muestra a continuación:

97
Las características de un cliente “malo”, las cuales se detallan a continuación, pueden
todas observarse a partir del grupo de variables de comportamiento:

- Haber presentado deuda directa vencida o deuda directa castigada en los últimos 12
meses de los informes de la SBIF.

- Presentar saldo de capital castigado con el Banco.

- Presentar monto de cartera vencida con el Banco.

- Presentar una deuda renegociada con el Banco que provenga con certeza de créditos
vencidos o castigados.

- Figurar con alguna cuenta “varios deudores” en el Banco, la cual con certeza
provenga de más de 60 días de mora en alguna tarjeta de crédito.

- Figurar en el denominado “file negativo” del Banco, que reúne al conjunto de clientes
con los que éste no desea operar.

- Figurar en el listado de clientes cuyas cuentas han sido cerradas por el Banco.

En cambio, las características de un cliente “sin gran rentabilidad potencial”, y que se


detallan a continuación, pueden observarse a partir de grupos de variables
demográficas, de renta, de comportamiento y de deudas:

- La conjunción de no ser profesional, poseer un ingreso mensual inferior a un monto


determinado y no ser lo suficientemente joven para cambiar de actividad.

- La conjunción de ser profesional, poseer un ingreso mensual inferior a un monto


determinado y no ser profesional joven.

- Ejercer determinadas profesiones y oficios que son mal remunerados, que no permiten
a las personas aumentar sus ingresos significativamente en el futuro, y en los cuales los
sujetos tienden a desempeñarse durante toda su vida.

- La conjunción de no poseer patrimonio, ser mayor a una edad determinada y poseer


un ingreso inferior a un monto determinado.

- Ser hombre y ser una persona mayor.

- Ser mujer y ser una persona mayor.

- Ser un cliente “malo” en términos de riesgo de crédito.

98
- Poseer una capacidad residual de endeudamiento menor a un millón de pesos.

La figura 9.2 muestra como es posible elaborar en Clementine el output 3z.1 a partir de
la “base de variables predictivas hace un año” y de la “base de variables predictivas
hoy”. El flujo de datos, a parte de servir como un diagrama explicativo, constituye un
programa computacional de procesamiento de datos.

Figura 9.2 Flujo de datos en Clementine que obtiene la base de datos final para
construir un modelo predictivo48

El nodo etiquetado “Valor hoy de variables que se esperaba predecir hace un año” es
utilizado para calcular los valores de las variables que establecen la condición del
cliente de ser “malo” y de ser alguien “sin gran rentabilidad potencial”. Dichos valores
son calculados a partir de los registros del nodo etiquetado “Base de variables
predictivas hoy”. Luego, de los registros obtenidos se seleccionan solamente los
campos adicionales recién calculados, lo cual se efectúa en el nodo etiquetado
“Selecciona sólo variables que se esperaba predecir hace un año”. Se obtiene de esa
manera lo que corresponde a la parte “a” del output 3z.1, la cual se mezcla con los
registros del nodo “Base de variables predictivas hace un año”, que aporta la parte “b”
del output 3z.1. Se obtiene finalmente una “Base final para construir modelo predictivo”,
que corresponde al output 3z.1

A continuación se entrega el significado de los distintos símbolos utilizados en los flujos


en Clementine, para luego describir el funcionamiento completo del flujo de datos que
obtiene una base de variables predictivas.
48
Fuente: elaboración propia

99
9.1.1.1 Símbolos usados en Clementine para procesar datos
Los distintos símbolos usados en los diagramas en Clementine se explican agrupados
en conjuntos con características similares. Los símbolos que se entregan a la derecha
de cada par de íconos se utilizan en este documento para resaltar nodos al momento
de ser explicados en los diagramas.

Supernodos definidos por el usuario:

Los siguientes íconos con forma de estrella, denominados “supernodos”, representan


nodos definidos por el usuario en Clementine y resumen por sí solos flujos de datos
completos. Pueden procesar, depurar, reemplazar o mezclar datos, cambiar su formato
o calcular campos. Si bien pueden llegar a ser arbitrariamente complejos, es posible
concebirlos como simples cajas negras que reciben datos en un input, realizan alguna
labor sobre ellos, y arrojan datos en un output.

Estos íconos reciben como input un flujo de datos online proveniente


de otro nodo en Clementine y luego de procesarlo entregan como
output otro conjunto de datos online, para que éste sea usado a su
vez por otros nodos.

Éstos iconos no reciben sus inputs vía online de otros nodos de


Clementine, sino que directamente de bases de datos. Constituyen,
por lo tanto, los nodos de input de un flujo de datos en Clementine.

Estos íconos reciben online un input de datos proveniente de otros


nodos en Clementine, y luego de procesarlo guardan sus resultados
directamente en bases de datos. Constituyen, por lo tanto, los nodos
de output de un flujo de datos en Clementine.
Flujos de datos:
Estas flechas representan datos que fluyen online en Clementine
desde el output de un nodo hasta el input de otro nodo. Para facilitar
la comprensión de los diagramas en este documento los flujos de
datos casi siempre van de izquierda a derecha.

100
Archivos de parámetros:
Estos íconos representan archivos de que no contienen información
de las bases de datos operacionales propiamente tales, sino tan sólo
parámetros (como la clasificación de los productos, los factores
estimados de carga financiera a asignar a los distintos tipos de
clientes, etc.). Corresponden a pequeños archivos de texto.

Nodos de operaciones sobre los registros o campos:

Los siguientes íconos con forma de hexágono vienen predefinidos en Clementine y


tienen en común el realizar operaciones ya sea sobre los registros de los flujos de
datos, o sobre sus campos (atributos). Dichas operaciones pueden corresponder a la
selección de algunos campos o registros, o a distintas formas de mezclar los datos:

Este icono recibe como input un flujo de datos con un conjunto de


campos (atributos) para cada cliente y entrega como output el mismo
conjunto de datos, sin agregar ni eliminar ningún cliente, pero
habiendo eliminado algunos campos.

Este icono recibe como input un flujo de datos con un conjunto de


campos para cada cliente y entrega como output el mismo conjunto de
datos, pero habiendo eliminado algunos clientes.

Este icono representa la mezcla de dos flujos de datos recibidos como


input, entregando en el output los campos que aporta para cada
cliente tanto el primer como el segundo flujo. En la modalidad “anti-
join” permite seleccionar los registros de clientes del primer flujo que
no están presentes en los registros del segundo flujo.

Este icono representa también la mezcla de dos flujos de datos


recibidos como input, con la diferencia de que en este caso cada flujo
provee exactamente los mismos campos, pero referidos a conjuntos
completamente distintos de clientes. Este icono entrega en el output
los registros de los clientes que recibe en ambos inputs, sin agregar ni
eliminar ningún campo a ningún cliente.

101
En la figura 9.2 se ha hecho referencia a bases de variables predictivas con datos
actuales y con datos válidos hace un año. Ambas bases pueden obtenerse con el flujo
de datos de la figura 9.3 dada abajo, alimentando apropiadamente dicho diagrama con
fuentes de datos con información vigente hoy, o por el contrario vigente hace un año.
Las fuentes de datos con información hace un año pueden obtenerse a partir los
respaldos en cinta de las bases operacionales. El diagrama 9.3 ilustra cómo obtener
una de tales “bases de variables predictivas” a partir de la mezcla, procesamiento y
depuración de las fuentes de datos que cualquier Banco debe necesariamente poseer,
y que se resaltan a la izquierda de la figura. La “base de variables predictivas”, en tanto,
se obtiene en la esquina inferior derecha luego de un largo procesamiento.

Figura 9.3 Gran flujo de datos de Clementine mostrando la obtención de una


base de variables predictivas a partir de distintas fuentes de datos49

49
Fuente: elaboración propia

102
9.1.1.2 Flujo de datos que obtiene base de variables predictivas
En primer lugar, el flujo de datos trata de determinar las deudas que el cliente tiene con
otras instituciones financieras, para lo cual se requiere conocer las deudas del cliente
con el Banco y que fueron informadas a la SBIF hace dos meses. La idea fundamental
que se utiliza para estimar las deudas del cliente con otras instituciones es que no es
posible conocer dichas deudas hoy, pero si es posible conocer las obligaciones que
hace dos meses tenía el cliente en el sistema financiero. Ello se debe a que el informe
que elabora la SBIF, y que contiene las deudas consolidadas en el sistema financiero
de 4,5 millones de chilenos, es entregado a los Bancos con un desfase de dos meses.
Restando a las deudas que hace dos meses tenía el cliente en el sistema financiero
aquellas deudas que en igual periodo tenía el cliente con el propio Banco es posible
obtener con exactitud las deudas de los clientes con otras instituciones hace dos
meses. A falta de mayor información esa es la mejor estimación para las deudas que
una persona tiene con terceros hoy.

La figura 9.4, dada abajo, muestra como se obtienen las deudas del cliente con el
Banco y que fueron informadas a la SBIF hace dos meses. El diagrama es el mismo
antes entregado en la figura 9.3, con la salvedad de que en la figura la porción del
diagrama que se está analizando es resaltada en un pequeño recuadro en la esquina
superior izquierda. Dicho recuadro es ampliado en un cuadro de detalle en la esquina
inferior derecha. Los registros de la fuente de datos etiquetada “Saldos el día de envío
del D01” se mezclan con el archivo de parámetros titulado “Productos”, de manera tal
de considerar sólo los saldos de cuentas que corresponden efectivamente a productos
de créditos y no a otro tipo de productos o cuentas. Además, el cruce con el nodo
“Productos” permite clasificar los saldos en créditos comerciales, hipotecarios, de
consumo o cupos de líneas o tarjetas. El resultado de dicha mezcla se cruza a su vez
con el “Informe D01 enviado a la SBIF”, de manera que cada ítem reportado a la SBIF
(ya sea como interés, capital o monto en mora), pueda ser atribuido a un producto que
el cliente tenía vigente con el Banco hace dos meses. Así, se arriba al nodo “Deudas de
cliente con el Banco informadas a la SBIF”, cuyos registros almacenan entre sus
campos a una porción de las deudas que presentaban los clientes en el sistema
financiero hace dos meses, porción que corresponde efectivamente a deudas con el
propio Banco.

103
Figura 9.4 Flujo de datos en Clementine que obtiene las deudas de los clientes
con el Banco y que fueron informadas a la SBIF hace dos meses50

De acuerdo al plan para estimar las deudas de los clientes con otras instituciones se
mezcla el flujo de datos conseguido hasta este momento y titulado “Deudas de cliente
con el Banco informadas a la SBIF” con la fuente de datos etiquetada “Informe de la
SBIF” y que contiene las deudas consolidadas de los clientes en el sistema financiero
hace 2 meses. Restando a dichas deudas consolidadas las obligaciones de los clientes
con el propio Banco hace dos meses, se obtiene una estimación para las deudas de los
clientes con otras instituciones en el nodo “Deudas de clientes con terceros”, como se
muestra abajo en la figura 9.5. Es preciso notar, sin embargo, que dicho nodo no
contiene las deudas con terceros de aquellos clientes que nunca figuraron en el informe

50
Fuente: elaboración propia

104
D01 enviado a la SBIF hace dos meses. Dicha falencia se solucionará más adelante
(concretamente en el diagrama descrito en la figura 9.9).

Figura 9.5 Flujo de datos en Clementine que estima las deudas de un cliente
con terceros51

Se ha obtenido hasta este momento una estimación de las deudas de los clientes con
terceros a partir de las deudas informadas a la SBIF hace dos meses. Sin embargo, en
el caso de las deudas que mantienen los clientes con el propio Banco puede conocerse
el saldo actualizado de dichas obligaciones. Los siguientes diagramas tienen por
propósito precisamente obtener las deudas actualizadas de los clientes con el Banco.

En el diagrama 9.6 se mezclan en primer término los “Saldos actuales” de las cuentas
con los “Productos”, con el fin de clasificar las deudas en créditos comerciales, deudas

51
Fuente: elaboración propia

105
hipotecarias, créditos de consumo, cupos de tarjetas o líneas. Luego dichas deudas son
divididas entre aquellas que corresponden a deudas de cuentas que existían antes del
envío del archivo D01 a la SBIF hace dos meses, y aquellas que son obligaciones
contraídas por los clientes con el Banco hace menos de dos meses, y que por lo tanto
no fueron enviadas en el D01. Ambas bifurcaciones corresponden a los nodos
etiquetados “Saldos de cuentas creadas antes del envío del D01” y “Saldos de cuentas
creadas después del envío del D01”, como se muestra a continuación:

Figura 9.6 Flujo de datos en Clementine que obtiene los saldos actuales de las
cuentas, tanto antes como después del envío del D01 hace dos meses52

Los datos del nodo “Saldos de cuentas creadas antes del envío del D01” servirán para
actualizar las obligaciones que tenían los clientes con el Banco hace dos meses y que

52
Fuente: elaboración propia

106
por lo tanto aparecen entre las deudas consolidadas de los clientes en el último informe
de la SBIF. El diagrama 9.7 muestra esa actualización, mezclando el flujo “Saldos de
cuentas creadas antes del envío del D01” con los registros provenientes del nodo que
cruza “Informe D01 enviado a la SBIF” y la mezcla de “Saldos el día de envío del D01” y
“Productos”. El resultado es etiquetado “Saldos actualizados de cuentas reportadas en
el D01 enviado a la SBIF”.

Figura 9.7 Flujo de datos en Clementine que obtiene los saldos actualizados de
las cuentas reportadas hace dos meses en el D01 enviado a la SBIF53

El siguiente diagrama muestra como se consolidan la totalidad de deudas de los


clientes con el Banco, tanto aquellas que se refieren a cuentas informadas a la SBIF
hace dos meses como aquellas que el cliente contrajo posteriormente. Ello se obtiene

53
Fuente: elaboración propia

107
mediante la mezcla del resultado del nodo “Saldo de cuentas creadas después del
envío del D01” y del nodo “Saldos actualizados de cuentas reportadas en el D01
enviado a la SBIF”. El resultado es denominado “Deudas de clientes con el Banco”.

Figura 9.8 Flujo de datos en Clementine que obtiene las deudas actualizadas
de los clientes con el Banco54

El lector habrá podido observar que el nodo “Saldos actuales” ya contenía las deudas
actualizadas de los clientes con el Banco. No parece muy inteligente separar los
registros de dicho nodo en “Saldos de cuentas creadas antes del envío del D01 y
“Saldos de cuentas creadas después del envío del D01”, para luego volver a unir ambos
conjuntos de registros en el nodo “Deudas de clientes con el Banco”. La separación y
posterior unión de registros se realiza con el propósito de descartar errores en los

54
Fuente: elaboración propia

108
archivos operacionales. En efecto, si una cuenta fue creada antes de la fecha de envío
del D01 hace dos meses, entonces necesariamente debiera aparecer entre los registros
del nodo “Informe D01 enviado a la SBIF”, o de lo contrario correspondería a un error
en los archivos operacionales, y debiera por lo tanto ser descartada. En este caso se
supone que los registros del nodo “Informe D01 enviado a la SBIF” no presentan los
errores que se observan en los datos operacionales del nodo “Saldos actuales”. Ello se
fundamenta en el hecho de que la información provista a la SBIF debe pasar por
exhaustivos procesos de depuración previos.

Si bien el número de errores en los datos puede ser muy reducido, es preciso
considerar que mecanismos como el antes descrito son vitales en datamining para
limitar su impacto. En efecto, aun cuando los datos puedan contener un 2% de datos
erróneos, ello puede ser totalmente inaceptable para construir modelos que traten de
detectar a clientes malos en una cartera (debe tenerse en consideración que los
clientes “malos” representarán generalmente un porcentaje inferior a un 2% de la
cartera55). La reducción de los errores presentes en la muestra que se empleará para
construir un modelo es uno de los medios para mejorar la predictibilidad de dicho
modelo.

Siguiendo con la explicación del flujo de datos que genera el output 3z.1, es preciso
notar que hasta este momento se han obtenido dos cosas importantes con los
diagramas de Clementine:

- Las deudas actualizadas del cliente con el Banco


- Una estimación de las deudas con terceros de los clientes que figuraron en el D01
enviado a la SBIF hace dos meses.

Falta, no obstante, un tercer elemento para obtener las deudas totales de los clientes,
tanto con el Banco como con terceros: el conjunto de deudas con terceros de aquellos
clientes recientes que nunca figuraron en el D01 enviado a la SBIF hace dos meses.
Dichos clientes recientes se denominarán “nuevos” de aquí en adelante. El siguiente
diagrama muestra la mezcla de los nodos “Deudas de clientes con terceros” y “Deudas
de clientes con el Banco”, para luego clasificar los resultados en “clientes nuevos” (con
menos de dos meses en el Banco) y “clientes antiguos”:

55
El autor del presente documento sugiere limitar los errores en los datos a niveles inferiores a 0,1%.

109
Figura 9.9 Flujo de datos en Clementine que separa los clientes “nuevos” (de
hace menos de dos meses) de los clientes antiguos56

El flujo explicado hasta este punto nunca ha rescatado las deudas del informe SBIF de
aquellos clientes que son “nuevos”. En efecto, en el flujo de datos se han obtenido
únicamente los registros del informe de la SBIF que corresponden a clientes que
figuraron en el informe D01 enviado hace dos meses, en circunstancias que los clientes
“nuevos” nunca estuvieron en dicho informe. Para obtener una estimación de las
deudas con terceros de esos clientes será preciso cruzar el nodo “clientes nuevos” con
el nodo “Informe de la SBIF”. Las estimaciones de las deudas de los clientes “nuevos”
con terceros no será otra cosa que la totalidad de las deudas de dichos clientes en el
último informe de la SBIF. Dichas estimaciones se muestran en el siguiente diagrama a
través del nodo denominado “Deuda con terceros de clientes nuevos”:
56
Fuente: elaboración propia

110
Figura 9.10 Flujo de datos en Clementine que estima las deudas con terceros de
los clientes “nuevos” (de menos de dos meses de antigüedad)57

En la figura 9.10 el recuadro superior que se utiliza para explicar el flujo de datos está
constituido por dos áreas disjuntas con borde sinusoidal, las cuales luego de ser
ampliadas aparecen en la parte inferior del diagrama en un cuadro de detalle. Dicha
representación no tiene otro propósito que mostrar el cuadro de detalle con un nivel de
aumento que facilite la lectura. Una representación análoga para el área a ser explicada
se utiliza en la figura 9.11, la cual muestra como se obtiene una base general de
clientes a partir de la unión de los registros del nodo “clientes antiguos” y del nodo
“Deudas con terceros de clientes nuevos”. El resultado es etiquetado “Deudas de
clientes con el Banco y terceros”.

57
Fuente: elaboración propia

111
Figura 9.11 Flujo de datos en Clementine que obtiene las deudas de los clientes
tanto con el Banco como con terceros58

Hasta el momento pareciera que el diagrama en Clementine tuviese por propósito


simplemente estimar adecuadamente las deudas de los clientes y en verdad ese ha
sido principalmente el foco hasta ahora. No obstante, es preciso indicar que junto con
los flujos de datos descritos hasta este momento deben necesariamente viajar campos
que no corresponden a deudas y que son vitales para construir la base de variables
predictivas. Entre esos campos se encuentran las variables del tipo de relación del
cliente con el Banco (antigüedad, tipo de cliente, etc.), los servicios contratados con el
Banco y las variables de comportamiento histórico (morosidades, deudas vencidas,
etc.). A parte de esos campos es preciso también enriquecer el flujo de datos con

58
Fuente: elaboración propia

112
variables demográficas y de renta, lo cual se realiza a través del flujo de datos descrito
en la figura 9.12 dada abajo:

Figura 9.12 Flujo de datos en Clementine que mezcla los datos de las deudas de
los clientes, de su renta y de sus características demográficas59

El diagrama 9.12 muestra la mezcla del nodo “Deudas de clientes con el Banco y
terceros” con la fuente de datos “Rentas de clientes”. El resultado de la mezcla anterior
aparece en la figura bajo la etiqueta “¿Existe renta?”, y es mezclado a su vez con la
fuente de datos “Características demográficas”. El resultado final es denominado “¿Está
en file negativo?” por permitir, entre otras cosas, identificar a los clientes impedidos de
operar con el Banco. El siguiente diagrama, en tanto, muestra la obtención de la base
de variables predictivas a partir del flujo de datos antes descrito.

59
Fuente: elaboración propia

113
Figura 9.13 Flujo de datos en Clementine que obtiene la base de variables
predictivas60

El conjunto de datos recibido de las etapas anteriores a través del nodo “¿Está en file
negativo” es mezclado con los registros de la fuente de datos denominada “Factores
estimados de carga”. Dicha fuente de datos contiene, para distintos tramos de renta,
una estimación de la carga financiera que un cliente promedio tendría por cada 100
pesos de deuda en el sistema financiero, distinguiendo la deuda en categorías
“hipotecaria” y “no hipotecaria”. El resultado de la mezcla permite calcular el nivel de
carga financiera de cada cliente, lo cual es realizado en el nodo que aparece en el
diagrama bajo la etiqueta “Carga financiera”. Finalmente, la mezcla del nodo “Carga
financiera” con la fuente de datos “Ingresos contables por cliente” genera la “Base de
variables predictivas” final, como indica la figura en el margen inferior derecho.
60
Fuente: elaboración propia

114
En las secciones previas se ha discutido ampliamente cómo es posible obtener el
conjunto de datos correspondiente al output 3z.1 de la fase de preparación de los datos,
sirviéndose para ello de la herramienta de datamining utilizada en el presente
documento (Clementine). En las secciones siguientes continuarán describiéndose los
distintos resultados que deben obtenerse y las distintas tareas que deben realizarse
como parte de la fase de preparación de los datos del proyecto de datamining.

9.2 Descripción del conjunto de datos (output 3z.2)

Este resultado es el segundo de esta fase del proyecto de datamining que no está
vinculado directamente a ninguna tarea, y corresponde a la descripción del output 3z.1,
denominado en este documento “Base final para construir modelo predictivo”.

El output 3z.1 debe contener toda la información que a priori se considera relevante
para elaborar un modelo capaz de predecir el comportamiento futuro del cliente en
términos de riesgo y de rentabilidad potencial. El output 3z.1 debe poseer, por lo tanto,
90 campos, incluyendo un campo para cada una de las 88 variables descritas en el
capítulo 8. Además debe incluir dos campos adicionales para las variables que se
espera predecir, y que son la condición de ser “malo” en términos de riesgo y de ser un
cliente “sin gran rentabilidad potencial”.

9.3 Seleccionar los datos (tarea 3a)

Esta tarea consiste en escoger los datos que serán utilizados en el proyecto de
datamining. Los criterios de selección deberán incluir tanto la relevancia para los
objetivos de datamining, como las restricciones técnicas y de calidad (tales como los
límites en la capacidad de almacenamiento de los datos).

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

9.3.1 Razones para la inclusión o exclusión de datos (output 3a.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en una lista de todos los datos a ser usados o a ser excluidos en el proyecto de
datamining, junto a las razones que justifican dichas decisiones. Entre las actividades
que es preciso desarrollar para obtener este resultado se encuentran las siguientes:

115
- Recolectar datos adicionales de diferentes fuentes, tanto internas como externas a la
institución.

- Ejecutar tests de significancia y de correlación para decidir si los distintos campos


debieran ser incluidos o no.

- Reconsiderar los criterios de selección de los datos a la luz de la experiencia que se


haya tenido sobre la calidad de éstos. Decidir si se deben incluir o excluir otros
conjuntos de datos.

- Reconsiderar los criterios de selección de los datos a la luz de la experiencia que se


haya tenido en una fase de modelamiento posterior (por ejemplo: pueden requerirse
conjuntos de datos adicionales para aumentar la capacidad predictiva del modelo de
datamining).

- Seleccionar diferentes subconjuntos de datos (por ejemplo: sólo datos que reúnan
ciertas condiciones).

- Considerar el uso de técnicas de muestreo, lo cual puede ser necesario si una


solución involucra la reducción del tamaño del conjunto de datos de prueba, o si la
herramienta de datamining es incapaz de manejar el conjunto de datos completo.

- A partir de los criterios de selección de datos, decidir si uno o más atributos son más
importantes que otros y ponderarlos de acuerdo a ello. Basar la ponderación en el
contexto del problema (por ejemplo: en base a la utilización que se haga de los
atributos). Puede también ser útil tener muestras ponderadas para dar distinta
importancia a diferentes atributos o a diferentes valores del mismo atributo. Más
adelante, en el capítulo 10, se describe cómo puede ser deseable tener conjuntos de
datos de entrenamiento con una proporción de clientes “malos” mayor a la proporción
de clientes “buenos”, aun cuando en la realidad los clientes malos representen menos
de un 2% de la cartera.

- Documentar las razones para la inclusión o exclusión de atributos.

- Chequear las técnicas disponibles para el muestreo de datos.

Es importante señalar que en esta etapa del proyecto es preciso disminuir al máximo el
número de variables con que se alimentarán los modelos de datamining a desarrollar en
la fase siguiente. Si bien los modelos de regresión logística pueden ser refinados

116
iterativamente de manera de considerar sólo las variables realmente relevantes, y los

árboles de decisión permiten descartar los atributos irrelevantes mediante la “poda χ 2 ”,


los modelos de redes neuronales no otorgan igual ventaja. Por otro lado, aun cuando
las técnicas de modelamiento permitan descartar atributos, puede simplificarse
enormemente el trabajo de generación de un modelo disminuyendo en esta fase el
número de las variables a considerar. Además existe un fenómeno, conocido como
“sobreajuste”, que puede afectar por igual a cualquier técnica de modelamiento, y en
virtud del cual los modelos tratan de replicar errores o ruidos aleatorios de los datos, de
manera de imitar lo más posible una muestra de datos particular. El sobreajuste
incorpora a los modelos variables que son irrelevantes, y que perjudican su
predictibilidad. Para evitar el fenómeno deben realizarse análisis de manera de
considerar en los modelos sólo las variables que son realmente relevantes.

9.4 Limpiar los datos (tarea 3b)

Esta tarea pretende mejorar la calidad de los datos, de manera de alcanzar el nivel de
calidad requerido por las técnicas de datamining que se seleccionen en la fase
siguiente del proyecto. Esta tarea puede involucrar la selección de subconjuntos de
datos que no presenten errores, como así también la inserción de valores por omisión
en el caso de existir datos faltantes.

La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:

9.4.1 Reporte de limpieza de los datos (output 3b.1)


De acuerdo a la guía de usuario CRISP-DM este resultado describe las acciones
tomadas para enfrentar los problemas de calidad de datos y que fueron reportados
durante la ejecución de la tarea 2d de la fase anterior del proyecto. Este output debe
también identificar los problemas de calidad de los datos que están aun vigentes. En
este punto se debe determinar también si los datos con errores serán utilizados en el
proyecto y deben describirse las posibles consecuencias que ello podría traer sobre los
resultados de datamining. Entre las actividades que es preciso desarrollar para obtener
este resultado se encuentran las siguientes:

117
- Reconsiderar el tratamiento que se dará a los distintos tipos de ruido que se hayan
observado en los datos

- Corregir, resolver o ignorar el ruido presente en los datos

- Determinar cómo manejar valores especiales, y qué significado atribuirles. Los valores
especiales pueden conducir a muchos resultados extraños y deben ser examinados
cuidadosamente. Ejemplos de valores especiales pueden surgir de información que no
fue preguntada a los clientes o que no fue respondida por éstos. También pueden
encontrarse valores especiales cuando los datos son truncados (por ejemplo 00 para la
edad de 100 años).

- Reconsiderar los criterios de selección de datos a la luz de la experiencia que se haya


tenido con respecto a la limpieza de datos. Decidir si se deben incluir o excluir otros
conjuntos de datos.

9.5 Construir datos (tarea 3c)

Esta tarea incluye la generación de atributos derivados a partir de otros campos, como
es el caso de los promedios o de la carga financiera estimada. Incluye también el
cambio de los formatos de los campos existentes, como puede ser el caso de la
transformación de la renta y la edad en categorías de renta y de edad. La
transformación de variables numéricas en variables discretas es necesaria para permitir
a los algoritmos de modelamiento entregar resultados en tiempos razonables (como es
el caso de las redes neuronales).

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

9.5.1 Atributos derivados (output 3c.1)


De acuerdo a la guía de usuario CRISP-DM este resultado consiste en nuevos atributos
que se han construido a partir de uno o más campos existentes en un mismo registro.
Un ejemplo de atributo derivado es la edad, calculada a partir de la fecha de
nacimiento. Entre las actividades que es preciso desarrollar para obtener este resultado
se encuentran las siguientes:

- Decidir si algún atributo debiera ser normalizado.

118
- Determinar cómo pueden ser construidos o ingresados los datos faltantes. Determinar
el tipo de construcción (por ejemplo mediante un promedio, interpolando, o a partir de
un modelo predictivo).

- Agregar nuevos atributos a los datos.

Importantes atributos derivados son las estimaciones de las deudas de los clientes con
otras instituciones financieras, las cuales se explican a continuación:

9.5.1.1 Estimación de las deudas con otras instituciones financieras


Las obligaciones de un cliente con otras instituciones financieras se pueden estimar
como las deudas consolidadas de dicha persona en el último informe SBIF menos las
deudas que ésta persona mantuvo con el Banco y que debieron ser reportadas al
organismo supervisor en el mismo periodo. Si bien parece un proceso simple, se
complica porque la fecha del último informe de la SBIF está desfasada dos meses con
respecto al presente. Por otro lado, las deudas que son informadas por el Banco a la
Superintendencia no están clasificadas exactamente en la misma forma que las
obligaciones en el informe de la SBIF. Así, es difícil a priori saber con exactitud qué
porcentaje de cada deuda del informe SBIF provino de qué obligación del cliente con el
Banco. Para identificar qué deudas del archivo de operaciones fueron reportadas a la
SBIF y bajo qué criterio deberá utilizarse información empleada en la elaboración del
informe D01. Dicha información debe contener para cada cuenta asociada a una
operación (intereses, capital, etc.) el monto que es reportado a la SBIF bajo distintas
categorías de deuda vencida o vigente y de cuentas de activo o de orden. El proceso de
estimación de las deudas con otras instituciones, por lo tanto, no es inmediato, y es de
esperar que se produzcan errores. No obstante, es preciso limitar dichos errores a
niveles aceptables, menores al 1%, para asegurar que las muestras permitan elaborar
modelos confiables.

9.5.2 Registros generados (output 3c.2)


Este resultado es el segundo de la tarea de construir datos (tarea 3c). De acuerdo a la
guía de usuario CRISP-DM este output corresponde a registros que incorporan nueva
información, que de otra forma no estaría presente en las muestras empleadas para
realizar datamining (por ejemplo: habiendo segmentado los datos puede ser útil

119
incorporar un registro adicional para un cliente prototipo de cada segmento). Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentra:

- Chequear las técnicas disponibles para generar datos, si es que éstas se requieren
(por ejemplo: mecanismos para determinar las características de los “clientes-prototipo”
de cada segmento).

9.6 Integrar los datos (tarea 3d)

En esta tarea se combina la información de múltiples bases de datos, archivos y tablas.


Ello es necesario para obtener ciertos valores, como es el caso de las deudas
estimadas de los clientes con otras instituciones. La descripción del resultado que debe
obtenerse como fruto de esta tarea se entrega a continuación:

9.6.1 Datos mezclados (output 3d.1)


Este resultado corresponde a la obtención de conjuntos de datos a partir dos o más
tablas que tienen información distinta sobre los mismos clientes, sobre los mismos
productos o sobre las mismas operaciones. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran las siguientes:

- Chequear que las herramientas de integración sean capaces de mezclar las fuentes
de datos como se requiere.

- Integrar las fuentes de datos y almacenar el resultado.

- Reconsiderar los criterios de selección de datos a la luz de la experiencia que se haya


tenido en la integración de datos. Determinar si se deben incluir o excluir nuevos
conjuntos de datos.

Como se ha ilustrado al comienzo de este capítulo, la mezcla de datos se utiliza


intensivamente en la generación del output 3z.1, al integrar registros provenientes de
una amplia gama de fuentes de datos distintas. La mezcla de datos permite también
elaborar estimaciones de las deudas de los clientes con otras instituciones financieras,
por cuanto éstas se construyen a partir de diversas fuentes de datos (las bases
operacionales del Banco, los informes D01 enviados a la SBIF y los reportes con las
deudas consolidadas de las personas que dicho organismo supervisor entrega
mensualmente).

120
9.7 Formatear los datos (tarea 3e)

En esta tarea se realizan modificaciones sobre los datos que no alteran su significado,
pero que pueden ser necesarias para trabajar con la herramienta de datamining. Un
ejemplo puede ser el cambio de la variable RUT desde tipo texto a número, a fin de
mezclar información sobre un mismo cliente contenida en dos tablas, en una de las
cuales el RUT es numérico y en la otra, texto. La descripción del resultado que debe
obtenerse como fruto de esta tarea se entrega a continuación:

9.7.1 Datos reformateados (output 3e.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde al conjunto de datos cuya representación computacional ha sido cambiada
sin modificar su significado. Entre las actividades que es preciso desarrollar para
obtener este resultado se encuentran las siguientes:

- Cambiar el orden de los campos de los registros.

- Ordenar los registros.

- Reformatear el almacenamiento interno de los valores (por ejemplo: de texto a


número).

121
10 CUARTA FASE DEL PLAN: MODELAMIENTO

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de modelamiento de la metodología CRISP-DM, junto a sus resultados:

Figura 10.1 Tareas y outputs de la fase de modelamiento, cuarta fase del


proyecto de datamining según metodología CRISP-DM61

A continuación se describen las distintas tareas que es preciso realizar en esta fase
junto a los resultados que deben obtenerse de cada una. Se entregan asimismo

61
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000

122
consejos y recomendaciones extraídos de la guía de usuario CRISP-DM62 y de la
experiencia y reflexión del autor de este documento. Puesto que esta tesis no se basa
en ningún conjunto de datos, no pueden, por lo tanto, entregarse indicaciones
específicas con respecto a los resultados que requieren de la manipulación de datos
concretos. Así ocurre con los supuestos de modelamiento (output 4a.2), con la
definición de los parámetros de los modelos (output 4c.1) y con el establecimiento de
los parámetros revisados (output 4d.2). En cambio, en este capítulo se ofrece una
extensa descripción de las tres técnicas de modelamiento (output 4a.1) que se ajustan
mejor al caso de las campañas bancarias. Así mismo, al explicar el diseño de las
pruebas (output 4b.1) se dan también indicaciones prácticas referidas a las campañas
bancarias. Del mismo modo al describir el output 4c.3 se explican las formas de
especificar los modelos de riesgo y de rentabilidad con cada una de las tres técnicas de
modelamiento antes mencionadas. Posteriormente, al momento de comentar la
evaluación técnica de los modelos (output 4d.1) se detallan las principales medidas
estadísticas que es posible utilizar, a la vez que se explica cómo automatizar el proceso
de evaluación técnica mediante el empleo de Clementine.

10.1 Seleccionar la técnica de modelamiento (tarea 4a)

Como primer paso en el modelamiento es preciso seleccionar la técnica que se utilizará.


Las distintas técnicas disponibles deben evaluarse en relación a su capacidad para
alcanzar los objetivos de datamining, teniendo en cuenta las restricciones de recursos
del proyecto. No debe olvidarse que no todas las herramientas y técnicas son aplicables
a cada tarea, para ciertos problemas solo algunas técnicas son apropiadas. Puede ser
el caso que solo una herramienta o técnica esté disponible para resolver el problema, y
aun aquella puede no ser del todo técnicamente la mejor alternativa para el problema
en cuestión. La descripción de los resultados que se deben obtener como fruto de esta
tarea se entrega a continuación:

10.1.1 Técnica de modelamiento (output 4a.1)


Corresponde a la descripción de la técnica de modelamiento que se utilizará en el
proyecto de datamining. Entre las actividades que es preciso desarrollar para obtener
62
Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas,
SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

123
este resultado se encuentra decidir sobre las técnicas apropiadas de datamining,
teniendo en mente la herramienta de software escogida (Clementine en este caso).

Entre las técnicas de modelamiento más apropiadas para desarrollar modelos


predictivos de riesgo y rentabilidad se encuentran la regresión logística, las redes
neuronales y los árboles de decisión, y las tres son soportadas por Clementine. En las
secciones siguientes se describirán en detalle esas tres técnicas, indicando
específicamente como construir modelos predictivos de riesgo y rentabilidad, y cómo
dichos modelos pueden ser refinados a través de diversos mecanismos.

10.1.2 Regresión logística


La regresión logística es un método estadístico adaptado al estudio del vínculo entre
una variable cualitativa y un conjunto de variables cuantitativas. La regresión logística
es similar a la regresión múltiple y es utilizada con frecuencia cuando la variable
dependiente es binaria, como es el caso de la clasificación de los clientes en buenos y
malos en términos crediticios, o clientes con potencial y sin potencial en términos de
rentabilidad. El método puede utilizarse también cuando las variables explicativas son
cualitativas, reemplazando los valores de cada variable cualitativa por un índice. En el
modelo más simple de regresión logística la variable dependiente Y es binaria, en tanto
que la única variable explicativa X es numérica, por ejemplo:

X : carga financiera
Y : condición de bueno o malo en términos de riesgo de crédito (0: bueno, 1: malo)

Se denotan las observaciones de las variables con letras minúsculas:

x : observación de la variable X para el caso de un cliente cualquiera


y : observación de la variable Y para el caso de un cliente cualquiera

Ahora bien, las observaciones x e y referidas a un cliente específico i se denotan


como xi e yi , respectivamente. De las variables aleatorias {Y1 ,Y2 ...Yn } se obtienen
r
n observaciones independientes denotadas por el vector y = ( y1 , y2 ...yn ) , y que
corresponden a la condición de buenos o malos de n clientes distintos. El conjunto de
r
las variables explicativas de todos esos clientes se denomina x = ( x1 , x2 ...xn ) .

124
No es posible visualizar con claridad la existencia de una relación entre X e Y si las
observaciones antes obtenidas se representan contrastadas con los valores de la carga
financiera de cada cliente, como muestra el siguiente gráfico:

Figura 10.2 Clientes buenos y malos versus carga financiera63

En cambio, si se divide la variable carga financiera en clases y se calcula para cada una
la proporción de clientes malos, se obtiene una gráfica bastante más instructiva:

Figura 10.3 Proporción de clientes malos por clase de carga financiera64

63
Fuente: elaboración propia a partir del libro de TENENHAUS, Michele, Méthodes Statistiques en
Gestion, Editorial Dunod, France, 1996
64
Fuente: idem. a la anterior

125
Puede estimarse la probabilidad de que un cliente sea malo dada una carga financiera
a partir de la proporción de clientes malos por clase. Por otro lado la mencionada
( )
probabilidad condicional es igual a la esperanza E Y x , como lo demuestran las

( )
siguientes ecuaciones: E Y x = P Y = 1 x ( )* 1 + P(Y = 0 x )* 0 = P(Y = 1 x )
( )
El modelo de regresión lineal E Y x = α + βx no es aconsejable para representar la

condición de buenos y malos de los clientes por varias razones:

1.- El modelo de regresión lineal entrega predicciones para la variable dependiente


fuera del intervalo [0, 1].
d (E (Y x ))
2.- La derivada debiera tender a cero cuando x tiende a cero o a uno.
dx
3.- Las variables dependientes binarias violan supuestos del modelo de regresión lineal,
por cuanto sus errores no son normales sino binomiales y tampoco tienen una varianza
constante (puesto que aquella es una función del valor a predecir).

El modelo de regresión logística permite representar de mejor manera E Y x . El ( )


supuesto básico del modelo consiste en describir las probabilidades como una función
logística de las variables explicativas. En el caso de una única variable explicativa la
probabilidad de que un cliente i sea malo, denotada como πi , debe cumplir:

α + βxi
πi = E (Y xi ) = P(Y = 1 xi ) =
e
α + βxi
1+ e
En lugar de modelar las probabilidades πi directamente, se prefiere modelar una

transformación de ellas denominada logit, la cual se muestra en la siguiente ecuación


bajo la notación g ( xi ) para remarcar su dependencia de xi :

 π 
g ( xi ) = ln  i  = α + βxi
 1 - πi 
En la jerga de los modelos automatizados de decisión de crédito se conoce como
1 − πi
“odds” al término . Puede observarse que el modelo de regresión logística es
πi
lineal en el logaritmo de los “odds”.
126
Los parámetros α y β del modelo de regresión logística pueden estimarse mediante
el método de máxima verosimilitud. La función verosimilitud no es otra cosa que la
probabilidad de obtener valores de la variable Y , probabilidad expresada en forma tal
que las variables explicativas X se suponen fijas y los parámetros α y β se
consideran variables. Dada una muestra de n clientes, con un conjunto de valores de
r
las variables explicativas denotado por el vector x = ( x1 , x2 ...xn ) y un conjunto de
r
valores de las variables dependientes denotado por y = ( y1 , y2 ...yn ) , el método de

máxima verosimilitud obtiene los parámetros α y β que hacen que el valor de la


función verosimilitud sea máximo. Dicho de otro modo, el método obtiene los
parámetros del modelo de regresión que hacen más probable la obtención de una
muestra. Para obtener la función verosimilitud de un conjunto de variables
r
y = ( y1 , y2 ...yn ) correspondientes a la condición de buenos o malos de n clientes
distintos, es preciso notar que las probabilidades de que un cliente i sea bueno o malo

pueden ser escritas como potencias de yi , como muestran las siguientes ecuaciones:

1− yi
P ( yi = 0 ) = (1 - πi ) = (1 - πi ) = (1 - πi )
1

yi
P( yi = 1) = πi = (πi ) = (πi )
1

y 1− yi
En ambos casos pueden escribirse las probabilidades como: (πi ) (1 - πi )
i

Si las variables {Y1 ,Y2 ...Yn } son independientes entre si, la probabilidad de obtener los
r
resultadosy = ( y1 , y2 ...yn ) se obtiene multiplicando las probabilidades de obtener
r
cada yi . Por ello, la función verosimilitud de obtener y = ( y1 , y2 ...yn ) puede

escribirse, en tal caso, como sigue:

 n 
r 
L( y ) =  ∏
 i =1
y 1− y
(πi ) i (1 - πi ) i 


 
Para determinar los parámetros que hacen que dicha función sea máxima puede
r
igualarse a cero el gradiente de la función verosimilitud L ( y ) con respecto al vector de

127
r
parámetros β = (α , β ) . No obstante, normalmente se prefiere trabajar con el logaritmo
r
de la función verosimilitud, que se denotará como l ( y ) y que puede calcularse como lo
indica la siguiente ecuación:

 n 
r r 
l ( y ) = ln(L ( y )) = ln ∏
 i =1
yi
(πi ) (1 - πi )
1 − yi 


 
r r
Dado que la función logaritmo es monótona creciente, L ( y ) y l ( y ) son maximizadas
r r
por los mismos valores de β , por lo que se maximizará l ( y ) para obtener los

ˆr
estimadores β = (αˆ , βˆ ) de los parámetros del modelo. Utilizando las propiedades de
los logaritmos es posible escribir la ecuación anterior de manera más simple:

 n  π  yi 

∏  (1 - πi )
r
l ( y ) = ln  i

 1 - πi 
 i =1  
n
  π   n
= ∑  yi ∗ ln

i
 i   i =1
1 - π ∑
  + ln(1 - πi )
i =1 
r r
Luego puede expresarse l ( y ) en términos de los parámetros β , utilizando las

ecuaciones siguientes:

 α + βxi 

ln(1 − πi ) = ln 1 −
e 
= ln

 1 

 1 + e α + βxi   α + βxi 
   1 + e 
 α + βxi 
= −ln 1 + e 
 
 π 
ln  i  = α + βxi
 1 - πi 
r
Finalmente se obtiene la siguiente expresión para l ( y) :
n n
 α + βxi 
∑ ∑ 1 + e
r
l ( y) = ( yi ∗ (α + βxi )) − ln 
i =1 i =1
 

128
r r
Calculando el gradiente de l ( y ) con respecto a los parámetros β , evaluando luego

dicho gradiente en los estimadores β de los parámetros del modelo e igualando las

ecuaciones resultantes a cero, se obtendrá el conjunto de ecuaciones:

∇l (βr) βˆr = 0r
Dichas ecuaciones permiten obtener los estimadores de máxima verosimilitud y pueden
escribirse en este caso como sigue:
r r n n α + βxi
∂l ( β y ) e
∂α
= ∑ ∑ yi −
α + βxi
i =1 i =1 1 + e
n n
= ∑ yi − ∑ πi = 0
i =1 i =1
r r n n  α + βxi 
∂l ( β y )  e 
∂β
= ∑ xi yi − ∑ xi ∗
1+ e
α + βxi 
i =1 i =1  
n n
= ∑ xi yi − ∑ xiπi = 0
i =1 i =1

Este sistema de ecuaciones no tiene solución analítica y requiere de un proceso


numérico iterativo para resolverlas. Dicho proceso puede no converger a una solución.

10.1.2.1 Representación de modelos mediante regresión logística


El modelo que se ha descrito hasta este punto puede ser generalizado para k variables
explicativas, correspondientes a distintas características de cada cliente. El conjunto de
dichas variables será resumido en una sola variable explicativa vectorial, como lo

muestra la fórmula: X = ( X 1 , X 2 ...X k ) . Un conjunto de observaciones de dichas

variables, referidas todas a un mismo cliente i se denotará por xi = ( xi1 , xi2 ...xik ) . La

probabilidad de que un cliente i sea malo, en este caso, queda descrita por la siguiente

129
función logística: g ( xi ) = β0 + β1 xi1 + ⋅ ⋅ ⋅ + βk xik , donde g ( xi ) es la transformación

logit. Las probabilidades πi , por lo tanto, deberán cumplir:

g ( xi )
πi =
e
g ( xi )
1+ e
Al igual que en el modelo simple de regresión logística, en este caso el logaritmo de la
función verosimilitud podrá también expresarse mediante la fórmula:

 n  π  yi 

∏ (1 - πi )
r
l ( y ) = ln 

i 

 1 - πi  
 i =1  
n
  π   n
= ∑  yi ∗ ln

i
 i   i =1
1 - π ∑
  + ln(1 - πi )
i =1 

La cual puede representarse en términos de los parámetros ,


utilizando para ello las siguientes ecuaciones:

 g ( xi ) 

ln(1 − πi ) = ln 1 −
e 
= ln

 1 

 1 + e g ( xi )   g (x ) 
   1+ e i 
 g (x ) 
= −ln 1 + e i 
 
 π 
ln  i  = g ( xi )
 1 - πi 
r
Finalmente se obtiene la siguiente expresión para l ( y) :

n n
g ( xi ) 
∑ ( yi ∗ g ( xi )) − ∑ ln 1 + e
r
l ( y) = 
i =1 i =1
 

Por lo que las ecuaciones ∇l (βr) βˆr = 0r se convierten en:

130
r r n n g ( xi )
∂l ( β y ) e
∂β0
= ∑ ∑yi −
g ( xi )
i =1 i =1 1 + e
n n
= ∑ yi − ∑ πi = 0
i =1 i =1
r r n n  g ( xi ) 
∂l ( β y )  j e 
∂β j
= ∑ j
xi yi − ∑
 xi ∗ g (x ) 
i =1 i =1  1+ e i 
n n
= ∑ xi yi − ∑ xij πi = 0 ∀j ∈{1,...k}
j

i =1 i =1
ˆ ˆ ˆ
Los estimadores de los parámetros vienen dados por: β = β
r
ˆ
0 , β1 ,...βk( )
10.1.2.2 Refinamiento iterativo de los modelos de regresión logística
Para refinar el modelo de regresión logística es importante incorporar en él solo las
variables que son realmente predictivas, por cuanto el resto sólo contribuye a aumentar
los errores entre las observaciones y las predicciones. Por ello es preciso determinar el
aporte de cada variable al modelo, para lo cual existen diversos tests, entre ellos el test
de Wald, el test de Score, y test de razón de verosimilitud, siendo éste último el más
utilizado. En el test de razón de verosimilitud se calcula el estadístico G :

Verosimilitud sin la variable 


G = −2 ∗ ln 
 Verosimilitud con la variable 
Bajo la hipótesis H 0 de que el coeficiente β j de la variable j en g ( x) es igual a 0,
2
G sigue una distribución χ con un grado de libertad. Por tablas de dicha distribución
es posible rechazar la hipótesis H 0 con un nivel de significancia que puede ser fijado
a partir de la realidad del negocio, por ejemplo un 5%. Ahora bien, es posible constatar
2
por tablas de la distribución χ con un grado de libertad que con un nivel de
significancia de 5% G debe ser menor a 0,0039321. Por lo tanto, con un nivel de
significancia de 5% corresponde eliminar del modelo la variable j si G es mayor a

dicho valor. De esta manera es posible refinar el modelo en forma progresiva,

131
incluyendo en él sólo las variables más significativas y descartando el resto. Una vez
eliminada la variable j vuelven a estimarse los parámetros de las variables restantes

resolviendo nuevamente el sistema de ecuaciones:


r r
l (β) ˆ = 0
r
β
r
Dicho sistema deberá ser reescrito, por cuanto β y xi ya no tendrán coeficientes ni

términos para la variable eliminada. El proceso de eliminación continúa hasta que ya no


es posible eliminar variables con el nivel de significancia escogido.

10.1.3 Redes neuronales


Desarrolladas por McCulloch y Pitts en 1943, se basan en nodos o unidades, que
corresponden a un modelo matemático del funcionamiento de una neurona.

Figura 10.4 Un modelo matemático simple para una neurona65

El diagrama 10.4 ilustra uno de tales nodos. Los nodos de las redes neuronales se
comunican mediante enlaces dirigidos. Un enlace del nodo j al nodo i propaga la

variable de activación a j desde j hasta i . Cada enlace tiene un peso W j,i asociado,
el cual sirve para determinar la intensidad y el signo de la conexión. El nodo i calcula
un promedio ponderado de las variables que recibe a través de los enlaces de entrada,
65
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

132
utilizando los pesos W j,i como factores de ponderación. La siguiente fórmula expresa

dicho promedio, el cual se denomina ini :

ini = ∑ (W j,i * a j )
j

El nodo evalúa la función de activación g sobre el promedio ponderado ini antes


calculado, obteniendo el resultado ai , que será comunicado a otras unidades mediante
los enlaces de salida. La siguiente fórmula muestra el cálculo de ai :

 

ai = g (ini ) = g 
 j
∑(
W j,i * a j )


 
Las flechas de la izquierda de la figura 10.4 corresponden a enlaces de entrada que
recibe el nodo i desde nodos j . El nodo recibe además una variable con un valor fijo

a0 a través de una conexión especial con un peso W0,i , el cual se denomina “sesgo”.
El nodo i se “gatilla” cuando una combinación lineal de sus inputs sobrepasa cierto
umbral, el cual viene determinado por el “sesgo” W0,i .

Figura 10.5 Funciones de activación de una neurona: función escalonada (a) y


función sigmoidal (b)66

66
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

133
El diagrama 10.5 muestra dos funciones de activación de una neurona. La función de
activación permite a un nodo arrojar un resultado sólo cuando los inputs son los
correctos. A continuación se muestra como los nodos de una red neuronal pueden ser
utilizados para representar funciones booleanas a través de distintos inputs a j y

“sesgos” W0,i .

Figura 10.6 Unidades con una función de activación escalonada que pueden
representar distintas puertas lógicas67

Las redes neuronales pueden servir incluso para representar funciones vectoriales,
mediante la utilización no sólo de una, sino de múltiples unidades de salida. De ese
modo los múltiples inputs de una red neuronal pueden conectarse a los resultados
arrojados por otra red neuronal cuyo output sea vectorial.

Existen dos clases de redes neuronales: las acíclicas y las cíclicas o recurrentes. Una
red acíclica entrega una función calculada exclusivamente a partir de sus inputs. Una
red cíclica, en cambio, entrega valores que además dependen del estado interno de la
red, el cual a su vez depende de los inputs previos que ésta haya recibido. Una red
cíclica, además, se retroalimenta de sus propios outputs, por lo que se comporta como
un sistema dinámico capaz de alcanzar un estado estable, de oscilar entre
determinados estados, o de funcionar como un sistema caótico. La siguiente figura

67
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

134
muestra una red neuronal acíclica con dos unidades de entrada, una unidad de salida y
dos unidades “ocultas” (vale decir, que no son unidades ni de entrada ni de salida):

Figura 10.7 Una red neuronal con dos inputs, un nivel oculto de dos unidades y
una salida68

r
(
Dado un vector de input x = x 1 , x 2 ) para la red neuronal, el conjunto de valores que
entregan las unidades de entrada “1” y “2” de la red (los resultados de los nodos de

entrada) se establecen en a1 y a2 iguales a los inputs recibidos, vale decir a1 = x 1 y

a2 = x 2 . Los nodos 3 y 4, denominados “unidades ocultas”, en tanto, arrojan las


salidas a3 y a4 , cuyos valores se calculan como indican las siguientes ecuaciones:
a3 = g (W1,3∗a1 +W2,3∗a2 )
a4 = g (W1,4 ∗a1 +W2,4 ∗a2 )

La salida final de la red neuronal, a5 , se calcula como sigue:

a5 = g (W3,5 ∗a3 +W4,5 ∗a4 )

Expresión que es también equivalente a:

a5 = g (W3,5 ∗g (W1,3∗a1 +W2,3∗a2 )+W4,5 ∗g (W1,4 ∗a1 +W2,4 ∗a2 ))

68
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

135
Puede observarse como el resultado de la red neuronal acíclica es una función que
r
(
depende tan solo de los inputs x = x 1 , x 2 ) y de los parámetros W j,i . Por lo tanto,
r
escribiendo el vector de pesos comoW , puede expresarse el resultado que arroja una
r r r
red neuronal como una función que depende de x y W , lo cual se denota por h r ( x ) .
W

10.1.3.1 Representación de modelos mediante redes neuronales


Las redes neuronales pueden representar cualquier tipo de función, incluyendo
funciones probabilísticas y lógicas, y en particular pueden ser utilizadas para clasificar
clientes y para predecir su comportamiento. Para asignar a los clientes notas de riesgo
o de rentabilidad basta dividir el output de la red neuronal en varios tramos, y asignar
una nota particular si el output se encuentra dentro de un tramo.

A continuación se explica como una red neuronal puede ser utilizada para predecir el
que un cliente se transforme en “malo” en el futuro. La idea central se encuentra en
modelar una función que asuma el valor “1” solamente cuando las variables explicativas
del comportamiento del cliente hagan posible predecir que éste no será un buen cliente.

Dado un conjunto de variables {X 1 , X 2 ...X k } candidatas a explicar el que un cliente

se transforme en “malo” en un determinado horizonte de tiempo, se desea construir una


r
red neuronal cuyo resultado h r ( x ) sea “1” en aquella región del espacio
W

{X 1 , X 2 ...X k } en el que sea más probable que el cliente se vuelva efectivamente

“malo”. Por ello, a continuación se mostrará como las redes neuronales, al alimentarse
del resultado de otras redes neuronales, pueden arrojar un valor cercano a “1” en zonas
del espacio de variables que son progresivamente más complejas. Se dirá que la red
neuronal se “gatilla” en aquella región en la que arroja un resultado de “1”.

En primer lugar, en la figura 10.8 dada abajo, se muestra como mediante una red

neuronal con dos inputs x1 y x2 se puede representar un función simple que asume el
valor 1 en una mitad del plano x1 , x2 , y el valor cero en la otra mitad. Posteriormente
se mostrará como una red neuronal alimentada con dos inputs a1 y a2 , ambos
resultados de otras redes neuronales, puede “gatillarse” en regiones más complejas,

136
como son una franja intersección de dos semiplanos, o en un área finita del espacio

x1 , x 2 .

Figura 10.8 Gráfico del output de un perceptrón con dos unidades de entrada y
una función de activación sigmoidal69

Se entiende por perceptrón a una red neuronal simple, que carece de nodos ocultos. La

figura 10.8 muestra los resultados de un perceptrón, que para valores bajos de x1 se
“gatilla” cuando x2 alcanza un valor de 4. En cambio, cuando se está en presencia de
valores más altos de x1 , el perceptrón se gatilla con valores mucho menores de x2 .
Dicho comportamiento se debe a que el perceptrón arroja un resultado “1” cuando una
combinación lineal de sus inputs sobrepasa cierto umbral. Una combinación lineal de

x1 , x2 divide el espacio de los inputs en dos áreas, que en realidad son dos
semiplanos, en uno de los cuales se gatillará el perceptrón.

69
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

137
Una red neuronal que reciba como input los resultados de dos perceptrones como el
anterior puede entregar un output con forma de “cordillera”, como se ilustra en la figura:

Figura 10.9 El resultado de combinar dos funciones sigmoidales para obtener


una cordillera70

Para formar la “cordillera” el primer perceptrón se “gatilla” en el espacio de los inputs


que está en rojo, mientras que el segundo perceptrón lo hace en la zona achurada en
verde. Por lo tanto, el nodo de salida de la red neuronal se gatilla en la región dada por
la intersección de los dos semiplanos anteriores, la cual es una franja que se resalta en
amarillo.

Abajo, en la figura 10.10 se muestra la salida con forma de “cerro” que es posible
obtener de una unidad que se alimenta con los resultados en forma de “cordillera” de
dos redes neuronales como la antes descrita. Alimentando una red neuronal con inputs
en forma de “cerro” es posible generar una salida con múltiples “montañas” ubicadas
sobre puntos específicos del espacio de variables de entrada.

70
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

138
Figura 10.10 El resultado de combinar dos cordilleras para producir un cerro71

Con un solo nivel de unidades ocultas y suficientes nodos en dicho nivel es posible
representar cualquier función continua con el nivel de precisión que se desee, en tanto
que con dos niveles de unidades ocultas es posible representar aun cualquier función
discontinua.

10.1.3.2 Refinamiento iterativo de los modelos de redes neuronales


r
Ajustando los pesos W es posible cambiar la función que la red neuronal calcula. El
“aprendizaje” de la red neuronal se realiza precisamente modificando dichos
parámetros de manera de reducir progresivamente la diferencia entre el valor que se
r
espera obtener de la función h r ( x ) y el valor que ésta efectivamente entrega.
W

A continuación se describe primero un algoritmo iterativo para ajustar los pesos de una
red neuronal acíclica sin unidades ocultas (vale decir, un perceptrón), para luego
extrapolar dicho algoritmo a una red con un nivel de unidades ocultas. Se entrega
finalmente un algoritmo para ajustar los pesos de una red neuronal acíclica con
múltiples niveles de unidades ocultas. Para facilitar la primera fase de explicación del

71
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

139
algoritmo se entrega la siguiente figura que representa un perceptrón con cuatro
unidades de entrada y una unidad de salida:

Figura 10.11 Perceptrón con una unidad de salida72

El error al cuadrado que se obtiene en un ejemplo de entrenamiento utilizado para


ajustar el perceptrón se define como sigue:

( )
2
1 1 r
E = Err ≡ y − h r ( x )
2
2 2 W

Donde y representa el resultado a obtener si la red funcionara correctamente, mientras


r
que h r ( x ) corresponde al resultado que el perceptrón efectivamente calcula. El input
W
r
del perceptrón viene dado por el vector x .
r
Puede obtenerse el vector de pesos W que minimiza el error al cuadrado mediante el
método del gradiente. Utilizando dicho método los pesos se actualizan usando la
ecuación siguiente73:

( )
r r r
W ' ' = W ' + α ∗ ∇E W r r '
W =W

72
Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Approach, Second Edition,
Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
73
Fuente: HILLIER F., LIEBERMAN G., Investigación de Operaciones, Séptima edición, Capítulo 13,
Programación no Lineal, McGraw-Hill Interamericana, 2002

140
r
Donde α es un parámetro conocido como tasa de aprendizaje. Los vectores W'' y
r r
W ' corresponden al vector de pesos W ajustado en iteraciones sucesivas. En tanto
r
W y el gradiente del error al cuadrado vienen dados por los siguientes vectores:

 ∂E 
 
 W1,i   ∂W1,i 
 
 ...  r  ... 
( )
r 
W=   ∇E W = 
 W j,i  ∂E 
   
 ...etc.   ∂W j,i 
   ...etc. 
 

Cada uno de los términos del gradiente puede verse como la contribución que cada
W j,i entrega al error al cuadrado total, y es equivalente a las expresiones siguientes:

∂E ∂Err
= Err ∗
∂W j,i ∂W j,i
  
∑( )
∂   
= Err ∗  y − g W j,i * x j 
∂W j,i   j 
  
= − Err ∗ g' (ini ) ∗ x j

Donde x j corresponde a uno de los inputs que recibe el perceptrón desde sus
r
unidades de entrada, y forma parte, por lo tanto, del vector x de input. En tanto g' es

la derivada de la función de activación logística.

Si se denomina ∆i o “error modificado” al siguiente término: ∆i = Err ∗ g' (ini ) , puede


verse como la contribución al error al cuadrado del peso W j,i corresponde al resultado

x j del nodo j multiplicado por el error modificado del nodo i .

El algoritmo de ajuste de los pesos prosigue para cada ejemplo del conjunto de datos
de entrenamiento. Cuando se ha aplicado a todos los ejemplos se habla de que se ha
completado un “periodo”. El algoritmo continua completando “periodos” hasta que se

141
alcanza algún criterio de término (por ejemplo: cuando las variaciones consecutivas de
r r
los pesos W ' y W '' son ya muy pequeñas).

Ahora se deducirá un algoritmo similar aplicado a una red neuronal que contiene
unidades ocultas. Para ello es preciso notar que en el caso de tener una red neuronal
con uno o más niveles de unidades ocultas no existe a priori una interpretación clara
para los errores de las salidas de dichas unidades debido a que no existen
observaciones que permitan realizar una comparación. Es necesario, por lo tanto,
calcular la contribución al error de la red neuronal completa que realiza la salida de una
unidad oculta. A continuación se derivará dicha contribución a partir de la minimización
de la suma de los errores al cuadrado de una red neuronal con un único nivel de
unidades ocultas y varios nodos de salida, como la red de la figura:

Figura 10.12 Red neuronal con un nivel oculto y dos unidades de salida74

El error al cuadrado observado para un ejemplo de prueba usado para entrenar la red
neuronal puede expresarse a través de la siguiente ecuación:

1 1
∑ ∑ ( yi − ai )
2
E= Erri2 =
2 2
i i

74
Fuente: elaboración propia

142
Donde yi es el resultado a obtener si la red funcionara correctamente, mientras que ai

corresponde al resultado que la red efectivamente calcula. La suma se realiza sobre los
nodos i de las unidades de salida. La componente del gradiente de ese error al
cuadrado con respecto a un peso específico W j,i en el nivel de salida viene dado por:

∂E ∂a ∂g (ini )
= −( yi - ai ) i = −( yi - ai )
∂W j,i ∂W j,i ∂W j,i
∂ini
= −( yi - ai )g' (ini )
∂W j,i

∂  
= −( yi - ai )g' (ini )
∂W j,i  ∑ (W j,i a j )
 j 
= −( yi - ai )g' (ini ) ∗ a j = − a j ∆ i

Para obtener la contribución al error al cuadrado de los pesos Wk, j que conectan las

unidades de entrada k a las unidades ocultas j es preciso realizar la sumatoria

completa de las derivadas parciales sobre todos los nodos de salida, por cuanto cada
valor de salida ai puede verse afectado por los cambios en Wk, j .

Antes, al obtener el gradiente con respecto a W j,i se utilizó que los resultados de un

nodo j del nivel oculto no dependían de los pesos W j,i en el nivel de salida i , en

∂a j
otras palabras: = 0 . Ahora bien, al calcular el gradiente con respecto a los pesos
∂W j,i

Wk, j del nivel de entrada k será preciso considerar que los resultados a j del nivel

∂a j ∂g (in j )
oculto si dependerán de los pesos Wk, j , o en otras palabras: = ≠0
∂Wk, j ∂Wk, j
Con ello en mente las componentes del gradiente obtenidas al derivar el error al
cuadrado con respecto a Wk, j vienen dadas por las expresiones siguientes, en las que

el gradiente se escribe finalmente en términos de los resultados de los nodos de


entrada :
143
∂E    
 ( yi - ai ) ∂ai  = −  ( yi - ai ) ∂g (ini ) 
∂Wk, j
=−
∑ ∂Wk, j  ∑
 ∂Wk, j 
i  i 
 ∂ini 
∑
= −  ( yi - ai )g' (ini )
∂Wk, j 
i 
  
∂ 
∑( )


= −  ∆i
∂Wk, j 
W j,i a j  

i   j 
 ∂a j   ∂g (in j ) 

= −  ∆iW j,i

 = −  ∆iW j,i

∂Wk, j   ∑ ∂Wk, j 

i  i 
 ∂in j 
=−
∑
 ∆iW j,i g' (in j ) 
∂Wk, j 
i 
 ∂   

= −  ∆iW j,i g' (in j )
 ∑(
 Wk, j ak
∂Wk, j 
) 
i   k 
=− ∑ (∆iW j,i g' (in j ) ∗ ak ) = −ak ∆ j
i

La última ecuación muestra la contribución que realiza a la suma de los errores al


cuadrado de la red completa un peso Wk, j correspondiente a un vínculo que recibe la

unidad oculta j . Dicha contribución corresponde al resultado ak del nodo k


multiplicado por un factor que es similar al error modificado antes definido, y que
corresponde a la expresión siguiente:

∆ j = g' (in j ) ∗ ∑ (W j,i*∆i )


i
Si la expresión anterior se acepta como definición de “error modificado” de los nodos
que son unidades ocultas, inductivamente puede obtenerse que la contribución de
cualquier peso W j,i a la suma de los errores al cuadrado de la red neuronal vendrá
dada por el producto del resultado del nodo j por el error modificado del nodo i .

144
r
Puede obtenerse el vector de pesos W que minimiza el error al cuadrado mediante el
método del gradiente, actualizando los pesos a través de la ecuación:

( )
r r r
W ' ' = W ' + α ∗ ∇E W r r '
W =W
El algoritmo de “ajuste” de los pesos a través de la red neuronal con varios niveles de
unidades ocultas procede en forma análoga al algoritmo antes presentado.

10.1.3.3 Cálculo con red neuronal de probabilidad de que un cliente sea malo
En una sección anterior se ha mostrado como las redes neuronales pueden predecir el
que un cliente se vuelva “malo” en el futuro, imitando para ello una función que asume
el valor “1” solamente cuando las variables explicativas hacen posible predecir que el
cliente no será un buen cliente. En esta sección se muestra como las redes neuronales
pueden ser usadas también para calcular la probabilidad de que un cliente sea bueno o
malo en términos crediticios o de rentabilidad en un determinado horizonte de tiempo.
La idea central radica en que al utilizar funciones de activación logísticas el resultado de
cada neurona puede interpretarse en forma probabilística. En efecto, una red neuronal
con una función de activación logística puede interpretarse como una red bayesiana.

Las redes bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables

aleatorias y cuyos arcos denotan dependencia. Así, una flecha de un nodo A a un nodo

B indica que la variable aleatoria B depende directamente de la variable A. Se dice en


tal caso que A es padre de B. En una red bayesiana un nodo correspondiente a una
i
variable aleatoria X tiene una probabilidad condicional de asumir el valor xi que se

P xi Padres X   , donde Padres X  representa el conjunto de


i i
denota como
    
i
todas las variables cuyos nodos son padres del nodo de X . Con dichas definiciones

(
la probabilidad de obtener los valores x 1 , x 2 ... x k ) de un grupo de variables aleatorias
{X 1 , X 2 ...X k } se representa por: P(x1 , x 2 ...x k ) = ∏ P xi Padres X  
i
  
i

145
Un perceptrón que trata de reproducir una variable binaria puede ser visto como una
red bayesiana. Es posible apreciar esto con claridad si se piensa en el output de la
función logística como la probabilidad condicional de obtener un resultado “1” dados los
valores de los inputs. Bajo este punto de vista las redes neuronales que tratan de
modelar el que un cliente sea malo dentro de un determinado horizonte de tiempo en el
fondo no hacen sino calcular la probabilidad condicional de que dicho cliente sea malo
r
dado que las variables de input x han asumido determinados valores.

Ahora bien, si es posible interpretar el resultado de una red neuronal como una
probabilidad condicional cabe preguntarse qué tipo de estimación de dicha probabilidad
se obtiene al aplicar el algoritmo de refinamiento iterativo que se ha entregado en la
sección anterior. Como se mostrará a continuación, el algoritmo que minimiza los
errores entre las observaciones y los resultados de una red neuronal no hace otra cosa
que maximizar la función verosimilitud de las observaciones consideradas en los
ejemplos de entrenamiento. En otras palabras, las probabilidades condicionales que
r
entrega una red neuronal utilizan estimadores de W que han sido obtenidos mediante
el método de máxima verosimilitud al aplicar el algoritmo iterativo de refinamiento de la
red sobre una base de ejemplos de entrenamiento.
r
A continuación se calculará el gradiente con respecto a W de la función verosimilitud
del resultado y que arroja un perceptrón con una única unidad de salida al recibir los
r
inputs x . Se mostrará que dicho gradiente posee una dirección contraria al gradiente
del error al cuadrado que es usado en el algoritmo de refinamiento iterativo de las redes
neuronales. Por ello, es claro que al minimizar el error al cuadrado de las observaciones
no se hace otra cosa sino maximizar la función verosimilitud del resultado y.

La función verosimilitud puede escribirse en forma diferenciable notando que


independientemente del valor de y la probabilidad condicional de observar ese
r
resultado dado un conjunto de valores de las variables de entrada x vendrá dado por la
ecuación siguiente:

( ) (
r y
)
r 1− y
P( y ) = hWr ( x ) 1 − hWr ( x )

Ello viene del hecho de poder escribir las probabilidades como sigue:

146
r r 1
( r y
P( y = 1) = hWr ( x ) = hWr ( x ) = hWr ( x ) ) ( )
( r
) (
r 1
) (
r 1− y
P( y = 0 ) = 1 − hWr ( x ) = 1 − hWr ( x ) = 1 − hWr ( x ) )
El logaritmo de la función verosimilitud estará descrito por:

 r y
( ) (
r 1− y 
L = ln hWr ( x ) 1 − hWr ( x )  )
 
En vez de maximizar la función verosimilitud se puede maximizar el logaritmo de dicha
función. El gradiente del logaritmo de la función verosimilitud vendrá dado por:

∂L
=
∂   r r y
(
 ln hW ( x ) 1 − hWr ( x )
∂Wj,i ∂Wj,i  
) (
r 1 − y 
  )

=

∂Wj,i
( r
( ) r
y ∗ ln hWr ( x ) + (1 − y ) ∗ ln 1 − hWr ( x ) ( ))

=y
( r
∂ln hWr ( x ) ) + (1 − y ) ∂ln(1 − hWr (xr ))
∂Wj,i ∂Wj,i
r r
y ∂hWr ( x )
1− y ∂hWr ( x )
= r ∗ − r ∗
hWr ( x ) ∂Wj,i 1 − hWr ( x ) ∂Wj,i

=
( r
) r

r
y 1 − hWr ( x ) − (1 − y )hWr ( x ) ∂hWr ( x )
r r
(
hW ( x ) 1 − hW ( x )
r r )
∂Wj,i
r r
y − hWr ( x ) ∂hWr ( x )
= ∗
r
( r
hWr ( x ) 1 − hWr ( x ) ) ∂Wj,i
r
Err ∂hWr ( x )
= ∗
r
( r
hWr ( x ) 1 − hWr ( x ) ) ∂Wj,i

r
Esta última expresión puede simplificarse aun más considerando que h r ( x ) es una
W
función logística, y que la derivada de una función logística debe cumplir la ecuación:

147
r
g' = g ∗ (1 − g ) . Así se tiene que la derivada del resultado h r ( x ) con respecto a W j,i
W
puede escribirse como sigue:
r r
∂hWr ( x )
∂hWr ( x ) ∂ (ini )
= ∗
∂Wj,i ∂ini ∂Wj,i
 
r
( r
)
= hWr ( x ) 1 − hWr ( x ) ∗

∑(


∂Wj,i 
Wj,i * x j )


 j 
r
( r
)
= hWr ( x ) 1 − hWr ( x ) ∗ x j

∂L
Por lo que se obtiene finalmente que: = Err ∗ x j
∂Wj,i

Puede verse que el gradiente obtenido tiene sentido contrario a la dirección de ajuste
de los coeficientes en la ecuación del procedimiento de minimización de los errores al
cuadrado dado en la sección anterior. Se puede concluir, por lo tanto, que el algoritmo
que minimiza la suma de los errores al cuadrado del perceptrón maximiza la
verosimilitud de las observaciones utilizadas para construir el modelo. Si bien ello no se
mostrará en esta sección, la conclusión anterior no sólo es válida para un perceptrón,
sino que también para redes neuronales con múltiples niveles de unidades ocultas.

10.1.4 Árboles de decisión

Un árbol de decisión recibe como input un conjunto de atributos y entrega una decisión,
que puede ser vista también como una predicción del output dados los inputs. Los
inputs y los outputs de un árbol de decisión pueden ser discretos o continuos, no
obstante en esta sección se supondrán inputs discretos y outputs booleanos. Un árbol
llega a una decisión luego de aplicar en cada nodo un test a un atributo. Cada rama
corresponde a uno de los valores posibles de dicho atributo. Las hojas entregan el
output del árbol.

A continuación se entrega un ejemplo de un árbol de decisión que permite clasificar a


los clientes como “buenos” o “malos” en términos de crédito. La decisión del árbol arroja
un “Si” en las hojas si un cliente es “bueno”. La lista de atributos que constituyen el
input del árbol, y que permiten tomar la decisión son los siguientes: morosidad, tiene

148
aval?, cliente antiguo?, rotación empleo, renta, profesión, dependiente?, patrimonio,
comuna, y finalmente, deuda.

Figura 10.13 Ejemplo de árbol de decisión que permite clasificar a los clientes en
buenos y malos75

Cada uno de los nodos del árbol, representados en el diagrama mediante cajas, está
etiquetado con el nombre de un atributo, indicando con ello que en él se aplica un test a
los valores de dicho atributo. Así, por ejemplo, el nodo “morosidad” prueba el valor del
atributo del mismo nombre, entregando como output el resultado del subárbol que
comienza en la rama etiquetada con el valor que haya asumido dicho atributo. Si la
morosidad de un cliente es baja, el nodo “morosidad” entregará como output el
resultado del subárbol que comienza en la rama etiquetada “baja”, análogamente si la
morosidad es “alta”, el nodo entregará el resultado del subárbol que comienza con la
rama etiquetada como “alta”. El árbol que sigue la rama “baja” de uno de los nodos

75
Fuente: elaboración propia

149
etiquetados “morosidad” es una hoja, graficada como un círculo en el diagrama, y por lo
tanto entrega una decisión final del árbol (en este caso un “Si”).

Ejemplos específicos de clientes son procesados por el árbol partiendo de la raíz,


siguiendo luego las ramas que correspondan a los valores asumidos por los atributos
del cliente hasta llegar a una hoja. Por ejemplo, un cliente con renta media y sin deudas
será clasificado como cliente bueno (vale decir, se alcanzará un output “Si” en una
hoja). Puede notarse como el árbol de decisión no utiliza los atributos comuna y
profesión, puesto que ambos son considerados irrelevantes para clasificar a un cliente
en términos de riesgo de crédito.

10.1.4.1 Representación de modelos mediante árboles de decisión


Cualquier función booleana puede ser representada mediante un árbol de decisión. Ello
puede conseguirse trivialmente haciendo corresponder cada fila de la tabla de verdad
de una función lógica con una ruta en el árbol de decisión, desde la raíz hasta una de
sus hojas. Ello da lugar a un árbol de decisión exponencialmente grande, por cuanto
una tabla de verdad tiene una cantidad exponencial de filas. No obstante lo anterior,
muchas funciones booleanas pueden ser representadas con árboles más pequeños.
Existen, de cualquier modo, funciones que requieren árboles exponencialmente
grandes, como la función paridad, que retorna “1” si un número par de inputs son “1”, y
la función mayoría, que retorna “1” si más de la mitad de los inputs son “1”. Por ello los
árboles de decisión son adecuados para representar ciertas funciones y no otras, lo
cual es importante al momento de tratar de construir árboles de decisión que sean
consistentes con conjuntos de datos.

Dados k ejemplos de inputs de una función booleana, con sus correspondientes


outputs, se desea construir un árbol de decisión que sea capaz de replicar dichos
outputs al recibir los mismos inputs que la función booleana. El problema radica en que
no existe una sola forma de generar un árbol de decisión semejante, sino muchas. En
general el número de árboles de decisión que es posible construir dado un input
booleano de n atributos es exponencialmente grande. En efecto, una tabla de verdad
con n atributos booleanos tendrá 2 n filas. Para cada una de dichas filas el árbol de
decisión podrá entregar uno de dos resultados booleanos posibles, por lo tanto habrá
n
un total de 2 2 árboles de decisión distintos para un input de n atributos. Por ello los
150
algoritmos de construcción de árboles de decisión a partir de conjuntos de datos deben
ser particularmente “inteligentes”.

Una forma que parecería a primera vista “inteligente” de construir un árbol de decisión
sería el generar el árbol más pequeño y simple posible que fuese consistente con los
ejemplos de la función booleana. Sin embargo, el problema de encontrar dicho árbol es
intratable computacionalmente para cualquier definición razonable de “pequeño” o
“simple”. A continuación se describirá un algoritmo razonable y tratable
computacionalmente para construir árboles de decisión sobre n atributos que se
ajusten a los resultados de un conjunto de ejemplos. El algoritmo entregado se
denomina “algoritmo de aprendizaje de árboles de decisión”, no obstante existen
algoritmos de uso comercial que ofrecen un desempeño superior, y cuya exacta
implementación está encircuitada dentro de herramientas de software específicas. Tal
es el caso del algoritmo C5, encircuitado en Clementine entre otras herramientas.

Un ejemplo de un árbol de decisión booleano consiste de un input dado por un vector

X = ( X 1 , X 2 ...X k ) de atributos y un output booleano y . Un ejemplo para un cliente

específico i viene dado por el par de valores xi = ( xi1 , xi2 ...xik ) e yi .

Un conjunto de 12 ejemplos de clientes clasificados utilizando el árbol de decisión de la


figura 10.13 se entrega a continuación en la figura 10.14. Los ejemplos positivos son
aquellos en los cuales el output del árbol de decisión corresponde a un “Si”, en tanto
que los ejemplos negativos son aquellos en los que corresponde a un “No”. Si se utiliza
el conjunto de ejemplos de la figura para inducir un árbol de decisión que sea
consistente con ellos, se hablará entonces de dichos ejemplos en términos de “conjunto
de datos de entrenamiento”.

Existe una forma trivial para construir un árbol de decisión que sea consistente con el
conjunto de datos de entrenamiento: asignar una hoja del árbol a cada uno de los
ejemplos, con una ruta que desde la raíz aplique un test sobre cada atributo, siguiendo
siempre las ramas correspondientes a los valores asumidos por el ejemplo.
Desafortunadamente un árbol construido así no puede decir mucho sobre otros
ejemplos distintos de los del conjunto de entrenamiento, puesto que en realidad no
hace sino memorizar las observaciones, sin extrapolar ningún patrón.

151
Figura 10.14 Ejemplos de clientes clasificados como buenos o malos76

Por el contrario, el “algoritmo de aprendizaje de árboles de decisión” es un mecanismo


razonable para construir un árbol. La idea central reside en escoger para el nodo raíz el
atributo que divida en mejor forma el conjunto de datos. Luego de escogido el primer
atributo, puede aplicarse sucesivamente el algoritmo a los atributos restantes. Con ello
se espera reducir el número de tests que es necesario realizar para clasificar los datos y
consecuentemente disminuir el nivel de complejidad del árbol resultante. La figura
siguiente muestra la división del conjunto de datos que realiza el atributo comuna.

76
Fuente: elaboración propia a partir del libro de RUSSELL, Stewart, NORVIG, Peter, Artificial
Intelligence, a Modern Aprroach, Second Edition, Chapter 18, Learning Decision Trees, Prentice Hall,
2003

152
Figura 10.15 Clasificación de conjunto de datos de entrenamiento mediante el
atributo de comuna77

Para cualquiera de los valores de comuna posibles asumidos en los ejemplos del
conjunto de entrenamiento se tiene que existen tantos ejemplos positivos como
negativos. Claramente el atributo comuna no divide de buena forma el conjunto de
datos. La figura 10.16 dada abajo, en cambio muestra la división del conjunto de datos
de entrenamiento que realiza el atributo renta. Cuando la renta es baja, todos los
ejemplos observados en el conjunto de entrenamiento son negativos, en tanto que
cuando es alta, todos los ejemplos son positivos. Por lo tanto es posible clasificar
perfectamente a los clientes cuando su renta es baja o alta, y resulta por ende claro que
el atributo renta permite clasificar de mejor forma a los clientes. No obstante, cuando los
ejemplos del conjunto de entrenamiento presentan renta media se tiene una mezcla de
resultados positivos y negativos, por lo que la información contenida en el atributo renta
no es suficiente para clasificar a los clientes, y es preciso mirar algún atributo adicional.
En la figura se muestra como clasificar a los clientes que han presentado renta media
observando su rotación en el empleo. Si ésta es baja, todos los casos corresponden a
ejemplos negativos. En cambio, si la rotación es alta se tiene nuevamente una mezcla
de resultados y se requiere, en consecuencia, mirar atributos adicionales.

77
Fuente: elaboración propia

153
Figura 10.16 Clasificación de conjunto de datos de entrenamiento mediante
atributos de renta y rotación de empleo78

En el algoritmo recursivo de construcción del árbol se tienen los casos siguientes:


- Si existen tanto ejemplos positivos como negativos, se debe escoger el atributo que
divide en mejor forma el conjunto de ejemplos.
- Si todos los ejemplos son positivos o negativos, entonces se estará en una hoja.
- Si no quedan ejemplos, significa que no se ha observado un caso semejante en el
conjunto de datos entrenamiento. Se recomienda entregar como output un valor
calculado como la función booleana mayoría aplicada a las clasificaciones
realizadas por el nodo padre.
- Si no quedan ya más atributos para continuar con el algoritmo de construcción del
árbol, pero existe una mezcla de ejemplos negativos como positivos, ello indica que
los datos contienen errores, que los atributos no proveen suficiente información para

78
Fuente: elaboración propia

154
clasificar por completo los ejemplos, o bien que los resultados que se trata de
modelar son no determinísticos. En cualquier caso una forma de enfrentar el
problema es escoger como output la función booleana mayoría aplicada a la
clasificación de los ejemplos restantes.

El algoritmo de construcción de un árbol de decisión como se ha descrito da como


resultado la figura 10.17 cuando se aplica al caso de los ejemplos de la figura 10.14.

Figura 10.17 Árbol de decisión generado por algoritmo a partir de los ejemplos
del conjunto de datos de entrenamiento79

Cabe notar que el árbol obtenido es bastante más simple que el de la figura 10.13, que
se utilizó para generar los 12 ejemplos del conjunto de entrenamiento. Con mayor
número de ejemplos en el conjunto de entrenamiento es posible arribar a un árbol de
decisión más parecido al árbol original que sirvió para generar los datos. Es preciso
decir también que el árbol de decisión generado es consistente con el conjunto de datos
de entrenamiento de la figura 10.14, pero no tiene por qué ser consistente con ejemplos

79
Fuente: elaboración propia a partir del libro de RUSSELL, Stewart, NORVIG, Peter, Artificial
Intelligence, a Modern Aprroach, Second Edition, Chapter 18, Learning Decision Trees, Prentice Hall,
2003

155
que no hayan estado en dicho conjunto. Por ello un árbol de decisión estará sujeto a
error al enfrentarse a nuevos ejemplos.

La especificación completa del algoritmo descrito exige una forma de determinar la


capacidad que posee un atributo para dividir los ejemplos del conjunto de
entrenamiento en mejor o peor forma. Se desea encontrar una función que permita
determinar qué atributo divide en mejor forma los datos. Dos conjuntos de datos bien
divididos tendrán sólo ejemplos positivos o sólo ejemplos negativos. Por el contrario,
conjuntos mal divididos tendrán una mezcla de ejemplos positivos y negativos. Mientras
mayor sea la diferencia entre la proporción de ejemplos positivos y la proporción de
ejemplos negativos dentro de cada conjunto de datos, mejor será la división que se
haya efectuado. Una forma de enfrentar el problema es mediante la función
“información”. Si la probabilidad de obtener un ejemplo positivo dentro de un conjunto
de datos es “1”, claramente no se necesita información adicional para clasificar los
datos, análogamente si dicha probabilidad es “0”. Ahora bien, se requerirá un máximo
de información adicional para clasificar los datos cuando sea igualmente probable
obtener un ejemplo positivo o un ejemplo negativo.

Si se tiene un conjunto de n respuestas posibles vi , cada una con una probabilidad de


ocurrencia P(vi ) , la función información queda descrita por la ecuación siguiente80:
n
I (P(v1 ),... P(vn )) = ∑ − (P(vi )log 2 P(vi ))
i =1
El lado derecho de la ecuación anterior puede escribirse como el logaritmo de una
cierta forma de promedio geométrico, como se muestra a continuación:
n
I (P(v1 ),... P(vn )) = −log 2 ∏ (P(vi ))P(vi )
i =1
Ahora bien, en funciones con un output booleano, como es el caso de un árbol de
decisión que clasifica a los clientes en buenos o malos, sólo se tendrán dos resultados
posibles. Si se denota con p la cantidad de resultados positivos y con n la cantidad
de resultados negativos en un conjunto de datos, la función información queda:

80
Fuente: SHANNON, C. E., WEAVER, W., The Mathematical Theory of Communication, University of
Illinois Press, 1949

156
 p n 
 p n    p  p+n  n  p+n 
I  ,  = −log 2      
 p+n p+n  p + n   p + n  
 
La función información, por lo tanto, corresponderá a un logaritmo de una cierta forma
de promedio geométrico entre la proporción de ejemplos positivos y la proporción de
ejemplos negativos. La siguiente figura grafica la función información y el promedio
geométrico antes descrito en función de la proporción de ejemplos positivos:

Figura 10.18 Función información y promedio geométrico entre la proporción de


ejemplos positivos y negativos en un conjunto de datos81

El promedio geométrico alcanzará su mínimo cuando ambas proporciones sean iguales,


y su máximo cuando una de dichas proporciones sea igual a cero. La función
información descrita hasta este punto permite conocer la cantidad adicional de
información necesaria para clasificar los clientes de un árbol de decisión dado que se
conoce la proporción de ejemplos positivos. No obstante, lo que se desea conocer es
cuanto contribuye un atributo a disminuir dicha información requerida. Para ello se
recurre a los conceptos de “ganancia” y de “resto” de información requerida, los cuales
se definen en los párrafos siguientes.

81
Fuente: elaboración propia

157
Se tiene un conjunto de datos con p resultados positivos y n resultados negativos. Un
atributo A divide un conjunto de datos en v grupos, de acuerdo al valor que asume.
Un grupo i de esos v grupos tiene pi resultados positivos y ni resultados negativos.
Se tendrá que un ejemplo escogido aleatoriamente mostrará el valor i del atributo con
pi + ni
una probabilidad dada por: . Por lo tanto, el valor esperado de la información
p+n
restante necesaria para clasificar un ejemplo luego de haber aplicado el test a un
atributo A vendrá dado por:
v
pi + ni  pi ni 
Resto( A) = ∑ p+n
I 
p + n
,
 i i i ip + n

i =1
La ganancia de información obtenida al aplicar el test sobre un atributo A será:

 p n 
Ganancia ( A) = I  ,  − Resto( A)
 p+n p+n
La función ganancia de información permite comparar atributos, como puede
comprobarse con la renta y comuna de los ejemplos de la figura 10.14:

2 2 4 
Ganancia( Renta ) = 1 −  I (0 ,1) + I (1,0 ) + I  ,  = 0 ,541
4 6
 12 12 12  6 6 
2 1 1 2 2 
Ganancia(Comuna ) = 1 −  I  ,  + I  ,  + I  ,  + I  ,  = 0
2 1 1 4 2 2 4
 12  2 2  12  2 2  12  4 4  12  4 4 
El atributo renta divide al conjunto de datos de entrenamiento en mejor forma que el
atributo comuna, por cuanto la ganancia de información requerida para clasificar datos
es mayor si se utiliza el atributo renta que si se usa el atributo comuna.

10.1.4.2 Refinamiento de los modelos de árboles de decisión


2
Es posible aplicar un algoritmo denominado “poda χ ” que previene el que un nodo
A del árbol de decisión sea “dividido” en subárboles a través del testeo de atributos
2
que no son claramente relevantes. Los árboles de decisión construidos con “poda χ ”
se comportan significativamente mejor que los árboles construidos sin ser podados

158
2
cuando los datos contienen gran cantidad de ruido. La “poda χ ” permite definir un
nodo del árbol como hoja, aun cuando los datos en dicho nodo no corresponden sólo a
2
ejemplos positivos o sólo a ejemplos negativos. Para aplicar la “poda χ ” es preciso
determinar cuando un atributo es irrelevante.

Si se dividiera un conjunto de ejemplos utilizando un atributo irrelevante, se esperaría


que los subconjuntos resultantes tuviesen aproximadamente la misma proporción de
ejemplos positivos y negativos que el conjunto original. Por lo tanto, la ganancia de
información sería cercana a cero. Por ello la ganancia de información permite descubrir
atributos irrelevantes. Cabe, no obstante preguntarse cuánto debiera ser la ganancia de
información mínima de un atributo para considerarlo relevante. Para ello se utiliza un
test de significancia.

Bajo la hipótesis H 0 de que el atributo A es irrelevante, la ganancia de información


del atributo para un conjunto de datos de entrenamiento infinitamente grande debiera
ser cero. Es preciso calcular, bajo la hipótesis H 0 , la probabilidad de que una muestra
de tamaño v exhiba una desviación con respecto a la distribución esperada de
ejemplos positivos y negativos. Puede calcularse dicha desviación comparando los
números de ejemplos positivos pi y negativos ni en cada subconjunto en el cual el
atributo A asume el valor i , con los números esperados p̂i y n̂i que se obtendrían
asumiendo irrelevancia del atributo. Dado que un ejemplo escogido aleatoriamente
pi + ni
mostrará el valor i del atributo A con una probabilidad dada por , los valores
p+n
p +n p +n
esperados de p̂i y n̂i vendrán dados por: ˆpi = p ∗ i i y nˆ i = n ∗ i i . Una
p+n p+n
medida conveniente para la desviación total vendrá dada por la fórmula:

v  ( p − ˆp ) 2 (n − nˆ ) 2 
D= ∑  i
 ˆpi
i + i
nˆ i
i 

i =1  

159
2
Bajo la hipótesis H 0 el valor de D distribuye χ con v − 1 grados de libertad. La
probabilidad de que el atributo sea realmente irrelevante puede ser calculada con la
2
ayuda de las tablas de la distribución χ .

10.1.5 Comparación de las técnicas de modelamiento


A continuación se entregan las ventajas y desventajas de las tres técnicas descritas
previamente, de manera de facilitar la elección de alguna técnica particular:

Ventajas Desventajas

- Exige que no existan correlaciones


- Permite identificar con claridad los
importantes entre los atributos.
atributos más relevantes que afectan
la decisión de crédito y qué tan - El sistema de ecuaciones del
Regresión logística

importante es cada uno. gradiente del logaritmo de la función


verosimilitud no tiene solución
- Mediante el test de razón de
analítica y el algoritmo para
verosimilitud permite refinar en forma
resolverlo puede no converger.
iterativa el modelo de manera de
seleccionar sólo los atributos más - Sirve para representar una cierta
relevantes. forma de relación entre las variables
de input y de output, descrita por la
- Permite que los atributos asuman
ecuación de regresión, pero no otro
valores continuos.
tipo de relaciones.
- No provee un mecanismo para
Redes neuronales

- No requiere de mayor análisis


descartar los atributos menos
estadístico.
relevantes.
- Son capaces de detectar y replicar
- Construye cajas negras que reciben
virtualmente cualquier tipo de
inputs y predicen outputs, pero que
relación entre los inputs y los
no permiten observar exactamente
outputs, por compleja que esta sea.
qué pasa en su interior.
- Si bien puede predecir un valor
- Pueden ser traducidos en términos booleano, presenta dificultad para
Árboles de decisión

de conjuntos de reglas fácilmente calcular outputs continuos.


comprensibles y trasnscribibles en
la forma de políticas de crédito o - Si los atributos son continuos el
manuales de procedimientos. algoritmo para seleccionar el punto
2 de división de un atributo puede
- Entrega el mecanismo de “poda χ ” requerir un enorme esfuerzo en
que permite descartar los atributos términos de cálculo computacional.
irrelevantes.
- Sirven sólo para algunas funciones.

160
En las secciones anteriores se han detallado las principales técnicas de modelamiento
aplicables al caso de las campañas bancarias, ello como parte de la descripción del
output 4a.1 de la tarea de seleccionar la técnica de modelamiento (tarea 4a) de cuarta
fase del proyecto de datamining. En las secciones siguientes se describen los
resultados y tareas restantes de dicha fase del proyecto.

10.1.6 Supuestos de modelamiento (output 4a.2)


Este resultado es el segundo de la tarea de seleccionar la técnica de modelamiento
(tarea 4a). De acuerdo a la guía de usuario de la metodología CRISP-DM, este output
corresponde al conjunto de suposiciones realizadas sobre la calidad, los valores o el
formato de los datos y que son impuestas por la técnica de modelamiento seleccionada.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran las siguientes:

- Definir cualquier supuesto sobre los datos que esté implícito en la técnica de
datamining escogida (por ejemplo: calidad, formato, distribución de las variables).

- Comparar dichos supuestos con aquellos del reporte de descripción de los datos.

- Asegurarse de que los supuestos se cumplen y retroceder a la fase de preparación de


los datos si es necesario.

10.2 Generar el diseño de las pruebas (tarea 4b)

Esta tarea consiste en una definición del procedimiento que se utilizará para probar la
calidad y validez del modelo. El diseño de las pruebas debe especificar qué datos
deberán ser separados del resto para conformar el conjunto de datos de entrenamiento
con el que se construirá el modelo. Deberá especificarse también qué datos formarán el
conjunto de datos de prueba con el que se validará el modelo antes construido.

La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:

10.2.1 Diseño de las pruebas (output 4b.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde al plan elaborado para el entrenamiento y la evaluación de los modelos de
datamining. Una componente principal del plan consiste en decidir cómo dividir el

161
conjunto de datos disponible en un conjunto de datos de entrenamiento y un conjunto
datos de prueba. Entre las actividades que es preciso desarrollar se encuentran:

- Chequear el diseño de las pruebas separadamente para cada objetivo de datamining.

- Decidir los pasos necesarios para ejecutar cada prueba (número de iteraciones, etc.).

- Preparar los datos requeridos para las pruebas (el conjunto de datos de entrenamiento
y el conjunto de datos de prueba).

Los algoritmos generadores de modelos tratan de minimizar los errores o diferencias


entre las observaciones y las predicciones, dándole igual peso a cada observación. No
obstante, en términos crediticios es inmensamente peor cometer el error de clasificar
como bueno a un cliente malo (error tipo 1) que de clasificar como malo a un cliente
bueno (error tipo 2). Por ello el conjunto de datos de entrenamiento debe estar
adecuadamente balanceado, y sería incluso deseable tener más clientes malos que
buenos en la muestra, de manera tal de privilegiar en la generación de los modelos la
minimización del error tipo 1. Existe, no obstante, un inconveniente en la utilización de
muestras desbalanceadas que minimicen el error tipo 1, y es que los clientes malos son
en verdad escasos en una cartera de clientes (generalmente corresponde a un 1% de la
cartera). Por otro lado la experiencia señala que se necesitan al menos 1.000 clientes
malos para poder construir un modelo confiable. Si a eso se agrega que luego de ser
generado todo modelo debe ser validado en un conjunto de datos de prueba, se tiene
que son necesarios en total unos 2.000 clientes malos. Debe considerarse, además,
que un Banco pequeño tendrá tan solo 100.000 clientes o menos, de los cuales sólo
1.000 o 2.000 serán malos. Puede concluirse, por lo tanto, que no existe mucho margen
de maniobra para escoger muestras desbalanceadas y puede considerarse que un
conjunto de datos de entrenamiento balanceado (con igual número de clientes malos
que de buenos) es suficientemente apropiado para generar un modelo realista.

En este punto es importante señalar además que el conjunto de datos de prueba usado
para validar los modelos no debe tener datos en común con el conjunto de datos de
entrenamiento utilizado en la generación de dichos modelos. De lo contrario la
evaluación de los modelos pierde toda validez, tendiendo a favorecer a los modelos
sobreajustados.

162
10.3 Construir un modelo (tarea 4c)

En esta tarea debe ejecutarse la herramienta de modelamiento sobre el conjunto de


datos de entrenamiento. Se obtendrá un modelo especificado por un conjunto de
parámetros. La descripción de los resultados que se deben obtener como fruto de esta
tarea se entrega a continuación:

10.3.1 Establecer los parámetros (output 4c.1)


En cualquier herramienta de modelamiento hay un gran número de parámetros que
deben ser ajustados. De acuerdo a la guía de usuario de la metodología CRISP-DM,
este resultado corresponde a una lista de los parámetros y sus valores, junto a las
razones por las que fueron elegidos dichos valores. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:

- Establecer los parámetros iniciales.

- Documentar las razones para escoger aquellos valores.

10.3.2 Modelos (output 4c.2)


Este resultado es el segundo de la tarea de construir un modelo (tarea 4c). De acuerdo
a la guía de usuario de la metodología CRISP-DM, este output corresponde a modelos
generados luego de correr la herramienta de datamining sobre el conjunto de datos de
entrenamiento. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran las siguientes:

- Correr la técnica seleccionada de datamining sobre el conjunto de datos de


entrenamiento, de manera tal de generar el modelo de datamining.

- Procesar los resultados de datamining arrojados por el modelo (por ejemplo: editar las
reglas en el caso de un árbol de decisión).

10.3.3 Generación automatizada de modelos en Clementine


El siguiente diagrama muestra un flujo de datos en Clementine capaz de generar
modelos y apoyar el proceso de validación de los mismos. La generación de los
modelos parte de la fuente de datos denominada “Base final para construir modelo
predictivo”, que corresponde al output 3z.1 antes descrito en este documento, y que se
muestra a la izquierda en la figura 10.19. Los modelos generados se ubican en la
163
esquina superior derecha, en tanto que las predicciones conseguidas y que sirven para
validar dichos modelos se entregan en la parte inferior de la misma figura.

Figura 10.19 Flujo de datos en Clementine que genera modelos y predicciones a


partir de una base final para alimentar el modelo predictivo82

10.3.3.1 Símbolos usados en Clementine para generar modelos


El significado de los íconos usados en el diagrama y no explicados anteriormente se
entrega a continuación. Los íconos que aparecen a la derecha de cada par de símbolos
se utilizan en los diagramas para resaltar nodos que están siendo explicados.

Selección de muestras:
Este icono selecciona una muestra del flujo de datos que recibe
como input.

82
Fuente: elaboración propia

164
Nodos generadores de modelos:

Los siguientes íconos representan nodos que reciben como input un conjunto de datos
de entrenamiento, donde cada registro corresponde a una lista de valores de las
variables predictivas más un valor de la variable que se espera predecir. A partir de esa
información cada uno de éstos nodos genera un modelo predictivo, el cual es entregado
como output en la forma de nodo.

Este icono genera un modelo de regresión logística a partir de los


conjuntos de valores de las variables predictivas y de la variable a
predecir.

Este icono, en cambio, genera un modelo de red neuronal.

Este icono genera un modelo de árbol de decisión.

Nodos de modelos generados:

Los siguientes íconos representan modelos predictivos que ya han sido generados por
alguno de los nodos antes descritos. Cada uno de ellos puede ser utilizado en
Clementine de la misma forma que los nodos predefinidos por el software, sin
necesidad de programar su funcionamiento. Estos nodos al recibir como input un
conjunto de valores de las variables predictivas para un cliente en particular arrojan una
predicción para la variable a predecir.

Este icono representa un modelo de regresión logística que ha sido


generado por el usuario.

Este icono representa un modelo de red neuronal que ha sido


generado por el usuario.

Este icono representa un modelo de árbol de decisión que ha sido


C C generado por el usuario.
5.0 5.0

165
10.3.3.2 Descripción del diagrama en Clementine que genera un modelo
El diagrama en Clementine que permite generar modelos se explica en dos fases:
primero la obtención de un conjunto de datos de entrenamiento (figura 10.20), y luego la
generación del modelo a partir de dicho conjunto de datos (figura 10.21).

Figura 10.20 Flujo de datos en Clementine que obtiene un conjunto de datos de


entrenamiento83

En la figura 10.20 el nodo “Base final para construir modelo predictivo” del recuadro
contiene datos tanto de una base de variables predictivas de hace un año, como de las
clasificaciones de la base de clientes hoy. Dicha clasificación divide a los clientes en
“buenos” o “malos” y en “clientes con gran rentabilidad potencial” o “clientes sin gran
rentabilidad potencial”. Como primer paso del diagrama los distintos campos de dicha
base son transformados en variables discretas. Dicha labor, que ocurre en el nodo
denominado “Transforma en categorías”, se realiza para facilitar la iteración de los
algoritmos de generación de modelos. Los registros resultantes son divididos en

83
Fuente: elaboración propia

166
aquellos correspondientes a los clientes malos y a los clientes buenos (los cuales son
seleccionados en el diagrama por los nodos “Clientes malos hoy” y “Clientes buenos
hoy”, respectivamente)84. Posteriormente, el flujo de datos en Clementine procede a
construir el conjunto de datos de entrenamiento que se utilizará en la generación de los
modelos, para lo cual se selecciona el 50% de los clientes malos y el resultado se
mezcla con el nodo “1% de muestra de buenos”. Los porcentajes han sido escogidos
para asegurar la obtención de una muestra balanceada para la generación de modelos
predictivos (por cuanto el 1% de los clientes buenos es tan numeroso como el 50% de
los clientes malos). La muestra balanceada se obtiene en el diagrama en el nodo
etiquetado como “Conjunto de datos de entrenamiento”.

La figura 10.21 dada abajo, en tanto, ilustra la segunda fase de la generación de


modelos en Clementine:

Figura 10.21 Flujo de Datos en Clementine que genera modelos a partir de un


conjunto de datos de entrenamiento85

84
Una acción análoga es necesaria para trabajar con clientes con gran rentabilidad potencial y clientes sin
gran rentabilidad potencial
85
Fuente: elaboración propia

167
La muestra antes obtenida se resalta mediante la etiqueta “Conjunto de datos de
entrenamiento” a la izquierda del diagrama. En la mitad superior de la figura, en tanto,
se resaltan los nodos generadores de modelos, bajo la etiqueta “Generación de
modelos”. Estos nodos generadores de modelos reciben como input el conjunto de
datos de entrenamiento y al momento de ser ejecutados por el usuario entregan como
output “nodos generados”. Cada “nodo generado” puede entenderse como un
programa, que puede ser utilizado en Clementine de igual forma que cualquier otro
nodo predefinido. Los “nodos generados” son depositados por los nodos generadores
en la esquina superior derecha del diagrama, donde aparecen resaltados con la
etiqueta “Modelos generados”.

10.3.4 Descripción del modelo (output 4c.3)


Este resultado es el tercero de la tarea de construir un modelo (tarea 4c). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output corresponde a una
descripción del modelo resultante y a una evaluación de su precisión esperada, su
robustez y sus posibles defectos. Incluye también una descripción de la interpretación
del modelo. Entre las actividades que es preciso desarrollar para obtener este resultado
se encuentran las siguientes:

- Describir cualquier característica del modelo que pueda ser útil en el futuro.

- Registrar los valores establecidos de los parámetros que se han utilizado para producir
el modelo.

- Dar una descripción detallada del modelo.

- Para modelos basados en reglas, realizar una lista de todas las reglas producidas más
cualquier estimación del porcentaje de clientes que sería cubierto por cada regla.

- Para las redes neuronales realizar una lista de cualquier información técnica sobre el
modelo (tal como la topología) y cualquier descripción del comportamiento del modelo
obtenida durante el proceso de modelamiento (tal como la precisión o la sensibilidad
esperada del modelo).

- Describir el comportamiento del modelo y su interpretación.

- Establecer conclusiones sobre los patrones descubiertos en los datos (si es que éstos
existen).

168
A continuación se entregan las meta-especificaciones de los modelos de riesgo y de
rentabilidad perseguidos por esta investigación, utilizando para ello las tres técnicas de
modelamiento descritas previamente: regresión logística, redes neuronales y árboles de
decisión.

10.3.4.1 Modelo de riesgo especificado usando regresión logística


A continuación se describe como puede especificarse el modelo de riesgo de crédito
como un modelo de regresión lineal.

Cada cliente tendrá un conjunto de características resumidas en la variable explicativa


vectorial X , definida de la forma siguiente:

X = ( X A1 , X A2 ...X A14 ,
X B1 , X B2 ...X B7 ,
X C1 , X C2 ...X C15 ,
X D1 , X D2 ...X D4 ,
X E1 , X E2 ...X E29 ,
X F1 , X F2 ...X F19 )

Cada una de las componentes de dicho vector es una variable que representa una
determinada característica, lo cual puede resumirse de la forma siguiente:

{ X A1 , X A2 ...X A14 } Variables demográficas

{ X B1 , X B2 ...X B7 } Variables de renta

{ X C1 , X C2 ...X C15 } Variables de vínculo con el cliente

{ X D1 , X D2 ...X D4 } Variables de ingresos contables generados por un cliente

{ X E1 , X E2 ...X E29 } Variables de comportamiento del cliente

{ X F1 , X F2 ...X F19 } Variables de deudas del cliente

169
El conjunto de observaciones de dichas variables para un cliente particular i se denota
como sigue:

xi = ( xiA1 , xiA2 ...xiA14 ,


xiB1 , xiB2 ...xiB7 ,
xiC1 , xiC2 ...xiC15 ,
xiD1 , xiD2 ...xiD4 ,
xiE1 , xiE2 ...xiE29 ,
xiF1 , xiF2 ...xiF19 )

La variable dependiente, denotada por Y , describe la condición de bueno o malo de un


cliente en términos de riesgo de crédito (0: bueno, 1: malo). Se denotan las
observaciones de dicha variable para un cliente i como yi .

Con estas definiciones la estimación que entrega un modelo de regresión logística para
la probabilidad de que un cliente i sea malo, dado que presenta características

descritas por el vector xi , vendrá dada por:

g ( xi )
πi =
e
g ( xi )
1+ e
r T
( xi ) . El vector (1 xi )
T
Donde g ( xi ) corresponde a la ecuación g ( xi ) = β • 1 es

el vector (1 xi ) transpuesto: un vector cuyo primer elemento es el número “1” y todos


los elementos restantes son componentes del vector xi .

La razón para agregar el número “1” al vector xi se debe a que se desea incorporar el

parámetro β0 en g ( xi ) , a pesar de que este parámetro no vaya acompañado de


r
ninguna componente de xi . A continuación se entrega la definición de los vectores β y

(1 xi ) en términos de sus componentes:

170
r
β = ( β0 , β A1,β A2 ...β A14 , (1 xi ) = (1, xiA1 , xiA2 ...xiA14 ,
βB1,βB 2 ...β B7 , xiB1 , xiB2 ...xiB7 ,
βC 1,βC 2 ...βC 15 , xiC1 , xiC2 ...xiC15 ,
β D1 ,β D 2 ...β D 4 ,
xiD1 , xiD2 ...xiD4 ,
β D1 ,β D 2 ...β D 29 ,
xiE1 , xiE2 ...xiE29 ,
β F 1 ,β F 2 ...β F 19 )
xiF1 , xiF2 ...xiF19 )
r
Los coeficientes β se obtienen de resolver numéricamente el sistema de ecuaciones:

∇ r r
l (β) ˆ = 0
r
β
r
l ( y ) con respecto
Dicho sistema de ecuaciones se obtiene calculando el gradiente de
r r̂
a los parámetros β , evaluado luego dichos parámetros en los estimadores β e

igualando finalmente las ecuaciones resultantes a cero, donde:


n n
 g ( xi ) 
∑ ∑ 1 + e
r
l ( y) = ( yi ∗ g ( xi ) ) − ln 
i =1 i =1
 

En tanto xi e yi representan observaciones de una muestra de n clientes escogidos


en el conjunto de datos de entrenamiento.

El modelo tal y como se ha descrito acá tiene 88 variables, las cuales claramente están
mutuamente correlacionadas entre si. No obstante, un modelo de regresión lineal
requiere que las variables no tengan correlaciones importantes, pues de lo contrario el
modelo tiende a tratar de replicar los “ruidos” contenidos en la muestra. Para evitar
dicho inconveniente es preciso depurar el modelo, dejando en él solamente las
variables que son más predictivas. Una forma de realizar dicho proceso consiste en
determinar el aporte de cada variable al modelo mediante el test de razón de
verosimilitud que se ha descrito antes en este documento.

10.3.4.2 Modelo de rentabilidad especificado usando regresión logística


El modelo de rentabilidad potencial puede especificarse en forma análoga a como se ha
hecho en el caso del modelo de riesgo de crédito. La única diferencia radica en que la

171
variable dependiente Y describe la condición de ser o no un cliente con gran
rentabilidad potencial (0: con gran rentabilidad potencial, 1: sin gran rentabilidad
potencial). Se denotan las observaciones de dicha variable para un cliente i como yi .

La variable xi , en tanto, corresponde a una observación de la variable explicativa

vectorial X para un cliente particular i , definida del mismo modo que en el modelo de
riesgo de crédito. La estimación que entrega un modelo de regresión logística para la
probabilidad de que un cliente i no tenga una gran rentabilidad potencial dado que

posee un conjunto de características descritas por la variable xi viene dada por:

g ( xi )
πi =
e
g ( xi )
1+ e
Donde g ( xi ) se obtiene en la misma forma que en el caso del modelo de riesgo.

10.3.4.3 Modelo de riesgo especificado usando redes neuronales


El conjunto de datos de entrenamiento utilizado para construir el modelo de red
neuronal de riesgo de crédito debe contener para cada cliente el conjunto de variables
predictivas (que son las mismas descritas anteriormente para especificar el modelo de
Y , que describe la condición de
regresión logística) además de la variable a predecir
r
bueno o malo de un cliente en términos de crédito (0: bueno, 1: malo). La variable x
corresponde a una observación para un cliente particular de la variable explicativa
vectorial X , definida como sigue:

X = ( X A1 , X A2 ...X A14 ,
X B1 , X B2 ...X B7 ,
X C1 , X C2 ...X C15 ,
X D1 , X D2 ...X D4 ,
X E1 , X E2 ...X E29 ,
X F1 , X F2 ...X F19 )

Cada una de las componentes de dicho vector son variables que representan una
determinada característica, y que pueden resumirse de la forma siguiente:
172
{ X A1 , X A2 ...X A14 } Variables demográficas

{ X B1 , X B2 ...X B7 } Variables de renta

{ X C1 , X C2 ...X C15 } Variables de vínculo con el cliente

{ X D1 , X D2 ...X D4 } Variables de ingresos contables generados por un cliente

{ X E1 , X E2 ...X E29 } Variables de comportamiento del cliente

{ X F1 , X F2 ...X F19 } Variables de deudas del cliente

La estimación que entrega un modelo de red neuronal para la probabilidad condicional


de que un cliente sea malo en términos de crédito dado que posee un conjunto de
r r
características descritas por la variable x viene dada por h r ( x ) . Las redes
W
neuronales a veces son denominadas “modelos opacos” por constituir cajas negras
cuyo contenido no puede interpretarse. Se ha mencionado que ellas pueden concebirse
r
como redes bayesianas, en las que la función h r ( x ) de cada unidad puede ser vista
W
como una probabilidad condicional de ocurrencia de un evento dados los valores de las
variables de input. No obstante, en la práctica a menos que el software de datamining
permita definir una topología exacta no es posible dar un significado claro a los
resultados de las unidades ocultas de la red. Clementine, que es la herramienta de
datamining que es utilizada en este documento, no permite definir la topología de las
redes neuronales más allá del número de niveles de las unidades ocultas. Por ello no
tiene sentido en esta sección especificar la topología para el modelo de riesgo.

Usualmente la forma de alcanzar un modelo satisfactorio con redes neuronales consiste


en realizar muchas pruebas con distintos números de niveles de unidades ocultas y
distintos parámetros alfa de aprendizaje, entre otros parámetros. No obstante, sólo es
posible especificar el modelo en términos fijos de esos parámetros disponiendo de los
datos concretos usados en la generación del modelo.

10.3.4.4 Modelo de rentabilidad especificado usando redes neuronales


El conjunto de datos de entrenamiento utilizado para construir el modelo de red
neuronal de rentabilidad potencial debe contener para cada cliente el conjunto de
variables predictivas (que son las mismas descritas anteriormente para especificar el

173
modelo de regresión logística) y la variable a predecir Y , que describe la condición de
ser o no un cliente con gran rentabilidad potencial (0: con gran rentabilidad potencial, 1:
r
sin gran rentabilidad potencial). La variable x corresponde a una observación para un
cliente particular de la variable explicativa vectorial X , definida en la misma forma que
para los modelos antes descritos. La estimación que entrega un modelo de red
neuronal para la probabilidad condicional de que un cliente no tenga una gran
rentabilidad potencial dado que posee un conjunto de características descritas por la
r r
variable x viene dada por h r ( x ) .
W

10.3.4.5 Modelo de riesgo especificado usando árboles de decisión


Un árbol de decisión puede ser especificado de distintas formas, una de las cuales es a
través de la descripción de sus nodos, ramas y hojas, (lo que se conoce como TREE
RESULT FORMAT en Clementine) y otra es a través de un conjunto de reglas (lo que
se conoce como RULESET RESULT FORMAT en Clementine). A continuación se
entrega la sintaxis de ambas definiciones utilizadas por Clementine en los outputs de
sus modelos de árboles de decisión C586. En cualquier caso los árboles son
especificados en un lenguaje similar, cuya sintaxis consta de los siguientes símbolos:

“<” y “>” rodean un identificador de un símbolo no terminal. Un símbolo no terminal


puede ser traducido a un conjunto de palabras claves y otros identificadores
“==” indica la definición de un identificador no terminal a su izquierda en términos de
palabras clave e identificadores a la derecha.
“|” se usa para separar elementos de una lista. Un identificador definido como una lista
de ítems separados por “|” puede ser traducido usando cualquiera de los ítems de la
lista.

“*” indica cero o más instancias del identificador ubicado a su izquierda.

Especificación utilizando TREE RESULT FORMAT:


Bajo esta especificación el árbol consiste de un número de líneas en las que cada una
contiene un test seguido de dos puntos. Cada línea corresponde a una hoja o a una
rama. Si hay cualquier cosa después de los dos puntos, la línea es un nodo hoja y el

86
Fuente: CLEMENTINE 7.0 User’s Guide, SPSS, 2002

174
ítem ubicado después de los dos puntos corresponde a una “clasificación” (output del
árbol de decisión). En el caso de un nodo rama, el test contenido en la línea se aplicará
a uno de los posibles valores de un atributo, por ejemplo del atributo A . Las líneas
siguientes a dicho nodo rama corresponderán a tests aplicados a otros atributos, o al
mismo atributo A . Dependiendo de qué atributo se trate es posible identificar si la línea
siguiente corresponde a un nodo “hijo”, “hermano” o “tío” del nodo rama de la línea
anterior. A continuación se entrega la sintaxis y un ejemplo de esta especificación.

Sintaxis TREE RESULT FORMAT:


<Rama> == <Atributo> <Comparación> <Valor> :
<Hoja> == <Atributo> <Comparación> <Valor> : <Clasificación>
<Comparación> == ‘=’ | ‘>’ | ‘<=’ | ‘<’

Ejemplo dado en la figura 10.17 en el formato TREE RESULT FORMAT


Renta = baja : No
Renta = media :
Rotación_empleo = baja : No
Rotación_empleo = alta :
Comuna = ‘Concepción’ : Si
Comuna = ‘Valpo.’ : No
Comuna = ‘Viña’ : Si
Comuna = ‘Stgo.’ :
Cliente_antiguo? = nuevo : No
Cliente_antiguo? = antiguo : Si
Renta = alta : Si

Especificación utilizando RULESET RESULT FORMAT:


En esta especificación un conjunto de reglas es descrito también en un lenguaje similar
a un lenguaje de programación. Dentro de cada conjunto de reglas debe haber cero o
más reglas. Cada regla consiste en una línea que empieza con la palabra reservada
“Rule”, seguida por un número de regla y por dos puntos, y luego por cero o más
condiciones. Luego de las condiciones la regla termina con la palabra reservada “class”,
a continuación de la cual se entrega una “clasificación” (output del árbol). Un conjunto
de reglas termina con la clasificación por omisión, la cual comienza con las palabras
reservadas “Default class” y luego por un output del árbol.

175
Sintaxis RULESET RESULT FORMAT:
<Regla> == Rule <número de regla> : <Condición>*
Î class <Clasificación>
<Condición> == <Campo> <Comparación> <Valor> :
<Comparación> == ‘=’ | ‘>’ | ‘<=’ | ‘<’

Ejemplo dado en la figura 10.17 en el formato RULESET RESULT FORMAT


Rule 1 : Renta = baja Rule 6 : Renta = media
Î class No Rotación_empleo = alta
Rule 2 : Renta = media Comuna = ‘Stgo.’
Rotación_empleo = baja Cliente_antiguo? = nuevo
Î class No Î class No
Rule 3 : Renta = media Rule 7 : Renta = media
Rotación_empleo = alta Rotación_empleo = alta
Comuna = ‘Concepción’ Comuna = ‘Stgo.’
Î class Si Cliente_antiguo? = antiguo
Rule 4 : Renta = media Î class Si
Rotación_empleo = alta Rule 8 : Renta = alta
Comuna = ‘Valpo.’ Î class Si
Î class No
Default class : No
Rule 5 : Renta = media
Rotación_empleo = alta
Comuna = ‘Viña’
Î class Si

El modelo de riesgo puede especificarse de cualquiera de las dos formas antes


presentadas. Dicho modelo para cada cliente en el conjunto de datos de entrenamiento
recibe una variable explicativa vectorial X , definida en la misma forma que para los
modelos de regresión logística o redes neuronales, más la variable Y que se espera
predecir, y la cual describe la condición de ser o no un cliente malo en términos de
crédito (0: bueno, 1: malo). Las notas de riesgo de los clientes pueden fijarse a partir de
las probabilidades estimadas de que un cliente clasificado en cada hoja sea “malo”.
Dicha información es calculada por Clementine al procesar el conjunto de datos de

176
entrenamiento, a partir de los porcentajes observados de clientes “malos” en cada nodo
sobre el total de los clientes que han sido clasificados en dicho nodo.

10.3.4.6 Modelo de rentabilidad especificado usando árboles de decisión


En este caso el árbol de decisión puede ser especificado también de las dos formas
dadas anteriormente (TREE RESULT FORMAT o RULESET RESULT FORMAT). La
variable a predecir Y describe en este caso la condición de ser o no un cliente con gran
rentabilidad potencial (0: con gran rentabilidad potencial, 1: sin gran rentabilidad
potencial). Las notas de rentabilidad de los clientes pueden fijarse a partir de las
probabilidades estimadas de clasificar a clientes como “sin gran rentabilidad potencial”
en cada hoja del árbol, información que Clementine entrega con cada árbol generado.

10.3.4.7 Variables válidas en los tres tipos de modelos antes explicados


A continuación se entrega la descripción completa de las variables que alimentan los
tres tipos de modelos antes especificados:

Variables demográficas:
X A1 Región X A8 Nivel educacional

X A2 Provincia X A9 Actividad económica

X A3 Comuna X A10 Profesión

X A4 Sexo X A11 Universidad

X A5 Estado civil X A12 Régimen conyugal

X A6 Cantidad de hijos X A13 ¿Tiene datos de edad?

X A7 Cantidad de cargas X A14 Edad

Variables de renta:

X B1 Patrimonio X B5 Tipo de renta (fija o variable)

X B2 ¿Tiene un bien raíz? X B6 Antigüedad de la renta

X B3 ¿Tiene datos de renta? X B7 ¿Es trabajador independiente?

X B4 Renta

177
Variables de vínculo con el cliente:

X C1 Tipo de cliente (cliente en convenio, cliente estándar, etc.)

X C2 Antigüedad del cliente

X C3 ¿Tiene líneas de crédito del Banco?

X C4 Fecha más remota de apertura de línea de crédito hoy vigente con el Banco

X C5 ¿Tiene tarjetas del Banco?

X C6 Fecha más remota de otorgamiento de tarjeta de crédito vigente con el Banco

X C7 Monto original de las tarjetas de crédito del Banco que el cliente posee

X C8 ¿Tiene créditos no hipotecarios en el Banco?

X C9 Fecha más remota de otorgamiento de crédito no hipot. vigente con el Banco

X C10 Monto original adeudado en créditos no hipotecarios del Banco


X C11 Plazo máximo de créditos no hipotecarios hoy vigentes con el Banco
X C12 ¿Tiene créditos hipotecarios del Banco?
X C13 Fecha más remota de otorgamiento de crédito hipot. hoy vigente con el Banco

X C14 Monto original adeudado en créditos hipotecarios hoy vigentes con el Banco
X C15 Plazo máximo de créditos hipotecarios hoy vigentes con el Banco

Variables de ingresos contables por cliente:

X D1 Ingresos contables generados por el cliente por concepto de mantención,


spread de intereses, comisiones y otros ingresos en líneas de crédito

X D2 Ingresos contables generados por el cliente por concepto de mantención,


spread de intereses, comisiones y otros ingresos en tarjetas de crédito

X D3 Ingresos contables generados por el cliente por concepto de spread de


intereses, comisiones y otros ingresos en créditos no hipotecarios

X D4 Ingresos contables generados por el cliente por concepto de spread de


intereses, comisiones y otros ingresos en créditos hipotecarios

178
Variables de comportamiento del cliente:

X E1 En qué tramo de morosidad se encuentra el cliente con el Banco

X E2 Monto en mora

X E3 ¿Presenta deuda vencida con el Banco?

X E4 ¿Presenta capital castigado con el Banco?

X E5 Días de mora en productos del Banco

X E6 ¿Cliente está en "file negativo"?

X E7 ¿Cliente presenta cuenta cerrada por el Banco?

X E8 Presenta créditos renegociados que provienen de incapacidad de pago

X E9 Presenta créditos repactados que no provienen de incapacidad de pago

X E10 Presenta deuda de varios deudores proveniente de una tarjeta caída


X E11 Presenta deuda de varios deudores proveniente de una línea caída
X E12 Promedio de la deuda directa morosa en el sistema financiero los últimos 3
meses

X E13 Promedio de la deuda directa vencida en el sistema financiero los últimos 3


meses

X E14 Promedio de la deuda indirecta vencida en el sistema financiero en los últimos


3 meses

X E15 Promedio del saldo de la deuda directa castigada en el sistema financiero los
últimos 3 meses

X E16 Promedio del saldo de la deuda indirecta castigada en el sistema financiero los
últimos 3 meses

X E17 Promedio de la deuda directa morosa en el sistema financiero en un periodo


comprendido entre 6 meses atrás y los últimos 3 meses

X E18 Promedio de la deuda directa vencida en el sistema financiero en un periodo


comprendido entre 6 meses atrás y los últimos 3 meses

X E19 Promedio de la deuda indirecta vencida en el sistema financiero en un periodo


comprendido entre 6 meses atrás y los últimos 3 meses

179
X E20 Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 6 meses atrás y los últimos 3 meses

X E21 Promedio del saldo de la deuda indirecta castigada en el sistema financiero en


un periodo comprendido entre 6 meses atrás y los últimos 3 meses

X E22 Promedio de la deuda directa morosa en el sistema financiero en un periodo


comprendido entre 15 meses atrás y los últimos 6 meses

X E23 Promedio de la deuda directa vencida en el sistema financiero en un periodo


comprendido entre 15 meses atrás y los últimos 6 meses

X E24 Promedio de la deuda indirecta vencida en el sistema financiero en un periodo


comprendido entre 15 meses atrás y los últimos 6 meses

X E25 Promedio del saldo de la deuda directa castigada en el sistema financiero en un


periodo comprendido entre 15 meses atrás y los últimos 6 meses

X E26 Promedio del saldo de la deuda indirecta castigada en el sistema financiero en


un periodo comprendido entre 15 meses atrás y los últimos 6 meses

X E27 Cheques protestados


X E28 Otros documentos protestados en el Boletín Comercial

X E29 Morosidades informadas al Boletín Comercial

Variables de deuda del cliente:

X F1 Saldo vigente en las líneas de crédito del Banco

X F2 Cupo disponible en las líneas de crédito del Banco

X F3 Saldo vigente en las tarjetas de crédito del Banco

X F4 Cupo disponible en las tarjetas de crédito del Banco

X F5 Saldo vigente en créditos no hipotecarios del Banco

X F6 Saldo vigente en créditos hipotecarios del Banco

X F7 Deuda comercial en otros bancos

X F8 Deuda de consumo en otros bancos

X F9 Deuda hipotecaria en otros bancos

X F10 Cupo disponible en líneas y tarjetas de crédito de otros bancos

180
X F11 Deuda directa vigente en el último mes del último informe SBIF
X F12 Monto de línea de crédito disponible en el último informe SBIF

X F13 Promedio de la deuda directa vigente en un periodo comprendido entre 6


meses atrás y los últimos 3 meses

X F14 Promedio del monto de línea de crédito disponible en un periodo comprendido


entre 6 meses atrás y los últimos 3 meses

X F15 Promedio de la deuda directa vigente en un periodo comprendido entre 15


meses atrás y los últimos 6 meses

X F16 Promedio del monto de línea de crédito disponible en un periodo comprendido


entre 15 meses atrás y los últimos 6 meses

X F17 Nivel de leverage hipotecario total del cliente, el cual se calcula como la deuda
hipotecaria dividida por la renta

X F18 Nivel de leverage no hipotecario total del cliente, el cual se calcula como la
deuda no hipotecaria dividida por la renta

X F19 Estimación de la carga financiera del cliente

10.4 Evaluar el modelo técnicamente (tarea 4d)

Esta tarea se encarga de evaluar el modelo para asegurar que satisface tanto los
criterios de éxito de datamining (output 1c.2) como los criterios de las pruebas (output
4b.1). Corresponde a una evaluación puramente técnica y estadística, basada en el
resultado de las tareas de modelamiento. Difiere por tanto de la subsiguiente fase de
evaluación de negocios del modelo de datamining precisamente por su enfoque técnico.
La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:

10.4.1 Evaluación técnica del modelo y de los objetivos de datamining de estimar


el riesgo crediticio y la rentabilidad potencial de los clientes (output 4d.1)
De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a un resumen de los resultados de la tarea de evaluar el modelo técnicamente (tarea
4d). Debe incluir listas de cualidades de los modelos generados (por ejemplo, en
términos de precisión) y rankings de calidad de los modelos generados. Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentran:

181
- Evaluar los resultados del modelo con respecto a los criterios de éxito de datamining
(output 1c.2), muy en particular con respecto a los errores tipo I y tipo II definidos en la
sección 7.3, y expresados como porcentaje de un conjunto de datos de prueba. En este
punto es preciso fijar un “puntaje de corte”, o nota mínima que permite clasificar como
bueno a un cliente87, y calcular los errores tipo I y tipo II que se obtengan para un
conjunto de datos de prueba. En un modelo de riesgo el error tipo I proviene de
clasificar como bueno a un cliente que será malo, mientras que el error tipo II surge al
clasificar como malo a un cliente que será bueno88.

- Validar los resultados del modelo siguiendo la estrategia de pruebas (output 4b.1).

- Comparar e interpretar los resultados obtenidos en la validación.

- Crear rankings de resultados con respecto a los criterios de evaluación técnica.

- Seleccionar los mejores modelos.

- Obtener comentarios sobre los modelos por parte de expertos en la materia.

- Chequear que tan plausible es cada modelo.

- Verificar el impacto que tendría la implementación de un modelo para los objetivos de


datamining de estimar el riesgo crediticio y la rentabilidad de los clientes.

- Determinar si la información descubierta por cada modelo es nueva y útil.

- Verificar la confiabilidad de los resultados de los modelos.

- Si hay una descripción verbal del modelo generado, por ejemplo vía reglas, evaluar si
las reglas son lógicas o factibles, o si contrarían el sentido común.

- Comprender por qué una determinada técnica de modelamiento y ciertos valores de


los parámetros conducen a buenos o a malos resultados.

10.4.2 Principales medidas estadísticas para evaluar modelos técnicamente


A continuación se da un conjunto de medidas estadísticas que pueden ser usadas para
comparar modelos predictivos, entregando para cada una sus ventajas y desventajas.
87
Análogamente un puntaje de corte es la nota mínima para calificar a un cliente como “con gran
rentabilidad potencial”
88
Análogamente lo mismo es válido para los modelos de rentabilidad. El error tipo I se comete al calificar
como cliente con gran rentabilidad potencial a un cliente sin ella, en tanto que el error tipo II ocurre al
clasificar como cliente sin gran rentabilidad potencial a un cliente que si poseerá una gran rentabilidad
potencial

182
10.4.2.1 Divergencia
La divergencia puede usarse para medir la separación de la distribución de clientes
malos de la distribución de clientes buenos. Un modelo que entregue mayor divergencia
que otro será capaz de separar mejor a los clientes buenos de los malos a través de las
notas de riesgo, en otras palabras será capaz de distinguir mejor a los clientes malos de
los buenos. La distribución de clientes malos puede estimarse a partir del histograma de
frecuencia de los puntajes de riesgo de los clientes malos. La distribución de clientes
buenos puede aproximarse análogamente a partir de un histograma de los puntajes de
clientes buenos. La divergencia D de dos modelos se calcula como sigue:

2
(µ − µ )
D= m b
(
1 2
2
σ m + σ b2 )
Donde µb y σ b2 son la media y la varianza de la distribución de puntaje de los clientes

buenos y 2 son la media y la varianza de la distribución de puntaje de los


µm y σ m
clientes malos.

Figura 10.22 Factores considerados en la divergencia de un modelo de puntaje:


cuanto se separan y se superponen las distribuciones de buenos y malos89

89
Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight
Series, 1999

183
Entre las ventajas de este estadístico se encuentran el que considera las distribuciones
de puntajes completas para realizar la comparación de modelos. Toma en
consideración la separación de los dos grupos de clientes, buenos y malos, al igual que
las varianzas de sus distribuciones. Entre sus desventajas están el que tal vez no
identifica el mejor modelo para una determinada “nota de corte”, entendiendo esta
última como la nota mínima aceptable para aprobar una decisión de otorgamiento de
crédito. Ello proviene del hecho de que si bien un modelo puede separar mejor a los
clientes malos de los buenos en términos generales, ello no garantiza que para una
nota específica tal modelo separe mejor que el resto a los clientes buenos de los malos.

10.4.2.2 Estadístico de Kolmogorov-Smirnov (K-S)


Este estadístico mide la diferencia máxima entre las curvas de probabilidad acumulada
del puntaje de dos grupos de clientes, por ejemplo: clientes buenos y malos.

Figura 10.23 Estadígrafo K-S, calculado como la máxima distancia entre las
distribuciones de buenos y malos de un modelo de puntaje90

Mientras mayor sea el estadístico K-S de un modelo, mejor será la capacidad de dicho
modelo para separar a los clientes buenos de los malos. Este estadístico tiene la
ventaja de ser fácil de interpretar. Sus desventajas incluyen el medir la separación de

90
Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight
Series, 1999

184
dos distribuciones de probabilidad en un solo punto y el ser un método que depende
fuertemente de cual sea la elección de las bandas de puntaje. No obstante, la mayor
desventaja radica en que el punto de máxima separación entre las distribuciones de
buenos y malos puede estar lejos del puntaje de corte que esté siendo utilizado para
tomar decisiones de otorgamiento de crédito. Un modelo puede separar en general
mejor que el resto a los clientes buenos de los malos por tener un estadístico K-S más
elevado, no obstante ello no garantiza que dicho modelo sea mejor que el resto
distinguiendo a los clientes buenos de los malos para un puntaje de riesgo específico
(por ejemplo: un “puntaje de corte” mínimo usado para otorgar crédito).

10.4.2.3 Curva ROC o de Trade-off


Los orígenes de la curva ROC o de Trade-off se remontan a 1905, cuando Max O.
Lorenz desarrolló la curva que lleva su nombre para mostrar la desigualdad en la
distribución del ingreso. Los puntos sobre la curva de Lorenz graficaban declaraciones
del tipo: “el 80% de todos los hogares percibe sólo un 20% de la riqueza”. El eje
horizontal de la curva representaba el porcentaje acumulado de hogares considerados,
ordenados de menor a mayor nivel socioeconómico, mientras que el eje vertical
ilustraba el porcentaje de la riqueza que percibían los hogares.

Figura 10.24 Curvas de trade-off de dos modelos de puntaje91

91
Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight
Series, 1999

185
La curva ROC (Receiver Operating Characteristic Curve), conocida también como curva
de trade-off, es análoga a la curva de Lorenz, con la salvedad de que ordena a los
clientes de mayor a menor nota. Luego de ordenados éstos, para cada nota debe
contarse el número de clientes “P” con un puntaje igual o menor a dicha nota, a la vez
que el número de clientes malos “M” con un puntaje igual o inferior. La curva ROC se
obtiene graficando M v/s P, expresados en términos de porcentajes sobre el total de
clientes malos y sobre el total de clientes de la población, respectivamente. Entre las
ventajas de la curva ROC están el permitir comparar visualmente la efectividad de dos
modelos, del mismo modo que realizar comparaciones de distintos “puntajes de corte”.

La figura 10.24 muestra la curva ROC para dos modelos, A y B. A presenta un mejor
desempeño que B, puesto que para el X % de la población con peores notas B
identifica solamente Z % de los malos, en tanto que A logra reconocer Y %. La línea
aleatoria ordena a los clientes por puntajes con distribución uniforme de probabilidad.

10.4.2.4 Receiver Operating Characteristic (ROC)


Este estadígrafo resume el área bajo una curva de trade-off. Mientras mayor sea el
área, mejor será el modelo.

Figura 10.25 Estadígrafo ROC de un modelo de puntaje, calculado como el área


bajo la curva de trade-off92

92
Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight
Series, 1999

186
Entre las ventajas de este estadístico están el proveer un valor cuantitativo, y el permitir
comparar curvas de trade-off completas, considerando toda la población. Cuando las
curvas de trade-off se cruzan, ayuda a indicar qué modelo es más efectivo en términos
globales. Entre sus desventajas están que no permite indicar qué modelo puede
separar en mejor forma a los clientes buenos de los malos para un puntaje de riesgo
determinado (por ejemplo: un “puntaje de corte” mínimo usado para otorgar crédito).

10.4.2.5 Razón Odds/Score


Este estadístico grafica el logaritmo de los “odds” para cada puntaje. Los “odds” para un
determinado puntaje corresponden al número de clientes buenos dividido por el número
de clientes malos que se observan con ese puntaje. La gráfica obtenida es altamente
dependiente de la escala arbitraria de puntaje que calcule un modelo.

Este estadístico puede ser usado para comparar el desempeño de un mismo modelo a
lo largo del tiempo, o para comparar el desempeño de un mismo modelo sobre
segmentos de clientes distintos. Entre sus ventajas están el mostrar la capacidad de
ordenamiento por puntaje que posee un modelo. Entre sus desventajas figuran el que
no provee de información sobre la distribución subyacente (como la curva de trade-off),
y el que no permite comparar modelos distintos con escalas de puntajes distintas.

Figura 10.26 Razón de Odds/Score de un modelo de puntaje93

93
Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight
Series, 1999

187
10.4.3 Evaluación técnica automatizada de modelos utilizando Clementine
A continuación se muestra como Clementine ayuda a automatizar la obtención del
resultado 4d.1, correspondiente a la evaluación técnica de los modelos. En el diagrama
10.27 se ilustra como seleccionar una muestra para validar los modelos, la cual se
denomina “conjunto de datos de prueba”. En la figura Clementine toma de los nodos
etiquetados “Clientes malos hoy” y “Clientes buenos hoy” todos aquellos registros que
no fueron seleccionados para conformar el conjunto de datos de entrenamiento.

Figura 10.27 Flujo de datos en Clementine que obtiene un conjunto de datos de


prueba para validar un modelo94

El nodo etiquetado “50% restante de muestra de malos” realiza una mezcla especial de
sus inputs conocida como “antijoin”, que lo que hace es seleccionar todos aquellos
registros del nodo “Clientes malos hoy” que no se encuentran entre los registros del
nodo “50% de muestra de malos” (los cuales fueron utilizados en el conjunto de datos
de entrenamiento). El nodo etiquetado “99% restante de muestra de buenos” realiza

94
Fuente: elaboración propia

188
una mezcla análoga empleando la modalidad “antijoin” de manera de no utilizar los
registros empleados en el conjunto de datos de entrenamiento.

Figura 10.28 Flujo de datos en Clementine que entrega notas y predicciones de


de riesgo y rentabilidad potencial para un conjunto de clientes95

La figura 10.28 muestra como los modelos generados que aparecen en la esquina
superior derecha pueden ser “enchufados” al conjunto de datos de prueba. En efecto, el
conjunto de datos de prueba aparece conectado a un grupo de modelos que figuran
sobre la etiqueta “Utilización de modelos”, obteniendo notas de riesgo o rentabilidad
potencial en los nodos sobre la etiqueta “Predicciones”. Dichas notas corresponden
efectivamente a predicciones o estimaciones de las probabilidades de que los clientes
se transformen en “malos” o en personas “sin gran rentabilidad potencial”. Al clasificar
con aquellas notas de riesgo y rentabilidad potencial un conjunto de clientes contenidos
en el conjunto de datos de prueba es posible utilizar las distintas medidas estadísticas
para evaluar los modelos técnicamente (divergencia, estadístico K-S, etc., las cuales se

95
Fuente: elaboración propia

189
han detallado en la sección 10.4.2). Del mismo modo, a partir de los puntajes
calculados para el conjunto de datos de prueba, y habiendo definido puntajes de corte
para los modelos de riesgo y de rentabilidad potencial es posible calcular los errores
tipo I y tipo 2 definidos en la sección 7.3 (output 1c.2).

10.4.4 Establecer los parámetros revisados (output 4d.2)


Este resultado es el segundo de la tarea de evaluar el modelo técnicamente (tarea 4d).
De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a un chequeo de los valores establecidos para los parámetros y a un afinamiento
iterativo de dichos parámetros mediante retornos sucesivos a la tarea de construcción
de modelos (tarea 4c). Entre las actividades que es preciso desarrollar para obtener
este resultado se encuentra el ajustar los parámetros para obtener el mejor modelo.

190
11 QUINTA FASE DEL PLAN: EVALUACIÓN DE NEGOCIOS

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de evaluación de negocios de la metodología CRISP-DM, junto a los resultados que
deben obtenerse de la ejecución de cada una de ellas:

Figura 11.1 Tareas y outputs de la fase de evaluación de negocios, quinta fase


del proyecto de datamining según metodología CRISP-DM96

A continuación se describen las tareas de esta fase y sus correspondientes resultados,


entregando consejos y recomendaciones tomados de la guía de usuario CRISP-DM97 y
de la experiencia y reflexión del autor de este documento. Dado que el plan de
datamining planteado es conceptual y no se refiere a ningún Banco en particular, son
96
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000
97
Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas,
SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

191
también genéricas y conceptuales todas las indicaciones que se entregan con respecto
a los modelos aprobados (output 5a.2), a la revisión del proceso (output 5b.1) a la lista
de acciones posibles (output 5c.1) y a la decisión a tomar en esta fase (output 5c.2). Se
entregan, en cambio, comentarios referidos a las campañas bancarias al describir la
evaluación de negocios de los resultados de datamining (output 5a.1), por cuanto para
dichas campañas se han definido en este documento dos objetivos de negocios
concretos.

11.1 Evaluar los resultados de negocios (tarea 5a)

En las tareas previamente descritas se evaluaba el modelo de datamining en relación a


factores tales como su precisión y generalidad. En esta tarea, en cambio, debe
evaluarse el nivel de satisfacción de los objetivos de negocios perseguidos por el
proyecto de datamining. Si el modelo es deficiente en cuanto al cumplimiento de dichos
objetivos debe determinarse si existe alguna razón que lo explique. Las descripciones
de los resultados que se deben obtener como fruto de esta tarea se entregan a
continuación:

11.1.1 Evaluación de negocios de resultados de datamining y de los objetivos de


negocios de focalizarse en nichos y crecer sujeto a un nivel mínimo de riesgo
(output 5a.1)
De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a un resumen de los resultados de la evaluación de negocios en términos de criterios
de éxito, incluyendo una declaración final sobre si el proyecto satisfizo los objetivos de
negocios iniciales. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran las siguientes:

- Comprender los resultados de los modelos.

- Interpretar los resultados de los modelos en términos de la aplicación que se les dará.

- Evaluar el impacto de los resultados de datamining para los objetivos de negocios.

- Evaluar los resultados de datamining con respecto a los criterios de éxito de negocios,
vale decir, verificar si el proyecto consiguió los objetivos de negocios originales. Muy en
especial es preciso chequear el cumplimiento de los criterios de éxito de negocios

192
(output 1a.3) de aumentar los montos ofrecidos en las campañas en un porcentaje
determinado y de acotar las pérdidas esperadas de éstas en una cifra determinada.

- Rankear resultados de datamining con respecto a los criterios de éxito de negocios.

- Verificar si hay nuevos objetivos a ser tratados en el proyecto o en nuevos proyectos.

- Establecer conclusiones para futuros proyectos de minería de datos.

En los supuestos de negocios de la investigación se ha mencionado que se aceptan


sólo dos formas para competir para un Banco pequeño en el competitivo ambiente
bancario actual: alcanzar economías de escala mediante crecimiento o focalizarse en
nichos de mercado específicos. Dos han sido por lo tanto los objetivos de negocios que
se han definido para este proyecto de datamining en el capítulo de comprensión del
negocio: la labor de focalización propiamente tal, y el crecimiento sujeto a un nivel
mínimo de riesgo. En este punto deben evaluarse los resultados de los modelos de
datamining con respecto a dichos objetivos.

En primer término, en la evaluación de negocios deberá determinarse si los modelos


predictivos permiten efectivamente identificar segmentos de riesgo y rentabilidad con
características distintas a las de los clientes promedio. Ello será posible en la medida
que los clientes estén esparcidos en distintos segmentos, y no aglutinados en uno solo.
No obstante, como se menciona en el capítulo 7, es difícil expresar el objetivo de
focalización en términos numéricos, por lo que debe identificarse a algún profesional
que evalúe los criterios de éxito a ese respecto, y entregue un juicio sobre su nivel de
cumplimiento. La figura 11.2 ilustra cómo es posible clasificar a los clientes en distintos
segmentos en base a sus puntajes de riesgo y rentabilidad.

Es claro que identificando segmentos como los de la figura 11.2 puede dirigirse una
oferta diferenciada a cada segmento (por ejemplo: créditos de consumo con tasas
preferenciales sólo para el segmento “riesgo bajo, alta rentabilidad”).

Por otro lado, un esquema multisegmentos como el dado en la figura 11.2 permite
apoyar la implementación de una orientación estratégica de las campañas, entendida
como se ha descrito en el capítulo 2.

193
Figura 11.2 Segmentos de riesgo y rentabilidad98

En segundo término, en la evaluación de negocios debe determinarse si los modelos


predictivos permiten a un Banco crecer satisfaciendo un nivel mínimo de riesgo. Con tal
propósito, es preciso recurrir a los supuestos operacionales dados en las hipótesis de
trabajo, y de acuerdo a los cuales el Banco realiza sus campañas con una orientación
operacional. Como se ha mencionado en la sección 5.5, bajo un enfoque operacional
no existen modelos capaces de calcular la probabilidad de pérdida de los préstamos
dirigidos a cada cliente, y en consecuencia no es posible estimar la probabilidad de
pérdida asociada al monto total ofrecido en una campaña. Como ya se mencionó en la
misma sección, en ausencia de un modelo capaz de medir en forma certera el nivel de
riesgo de una campaña (vale decir, la pérdida asociada al monto ofrecido en ésta), un
Banco no podrá maximizar los montos ofrecidos a sus clientes sujeto todo ello a la
satisfacción de un cierto nivel de riesgo. En esta sección se mostrará como un esquema
multisegmentos de riesgo y rentabilidad permite alcanzar un mejor desempeño, al hacer
posible maximizar los montos ofrecidos para un cierto nivel de riesgo.

Bajo un enfoque operacional las campañas bancarias se realizan sin segmentar a los
clientes por criterios de riesgo y rentabilidad potencial, entregando una oferta estándar
a todos quienes cumplan ciertos criterios de riesgo. La siguiente figura ilustra una
segmentación semejante:

98
Fuente: elaboración propia

194
Figura 11.3 Orientación operacional de las campañas bancarias99

La utilización de un esquema multisegmentos como el ilustrado en la figura 11.2 permite


que un Banco con el enfoque operacional dado en la figura 11.3 crezca por tres razones
distintas:

1. Existe un segmento de la figura 11.2 que no recibe oferta alguna en la figura 11.3, y
que puede ser objeto de una oferta diferenciada.

2. El esquema multisegmentos hace posible identificar el potencial de negocios de los


clientes vía las notas de rentabilidad, lo que facilita orientar los esfuerzos de las
campañas hacia los clientes con mayor potencial.

3. El esquema multisegmentos permite aumentar los montos ofrecidos a los clientes


satisfaciendo un nivel mínimo de riesgo. Como se ha explicado en la sección 7.1 al
describir los criterios de éxito de negocios (output 1a.3), dicho nivel mínimo de
riesgo puede establecerse como un monto esperado de pérdidas en cada campaña.
Para cada cliente el monto de pérdida esperada se calcula como el monto ofrecido a
dicho cliente multiplicado por la probabilidad de que dicho cliente se transforme en
“malo” en el futuro (la cual corresponde en forma biunívoca a un puntaje de riesgo).
Dicha probabilidad aumentará al incrementarse la carga financiera del cliente, en el
caso de que éste acepte el monto ofrecido. Por lo tanto, la maximización de los
montos ofrecidos sujeta a satisfacer un determinado nivel de riesgo corresponderá a
99
Fuente: elaboración propia

195
un problema de programación no lineal, en la medida que la restricción contempla la
multiplicación de las variables por probabilidades que dependen de las mismas
variables. A continuación se entregará una especificación de un modelo de
programación no lineal que permite estimar los montos a ofrecer en las campañas, a
la vez que se dan algunas indicaciones sobre como resolverlo. De cualquier forma la
resolución de semejante problema escapa a los objetivos de esta investigación. En
esta sección simplemente se desea mostrar como los puntajes de riesgo y
rentabilidad permiten especificar matemáticamente el problema de determinar los
montos a ofrecer en una campaña, satisfaciendo un determinado nivel de riesgo. Si
bien el problema especificado puede ser difícil de resolver en forma exacta, su sola
especificación ya permite comparar distintas soluciones posibles, por lo que hace
posible escoger la mejor solución entre ellas. Por lo tanto, la especificación del
problema permite por si sola cumplir el objetivo de aumentar los montos ofrecidos en
una campaña sujeto a satisfacer un cierto nivel de riesgo.

Sea xi el monto ofrecido en una campaña a un cliente i . Sea pi2 la probabilidad de


que un cliente se transforme en “malo” en el futuro (la cual corresponde en forma

biunívoca a un puntaje de riesgo). La mencionada probabilidad pi2 deberá calcularse


teniendo en consideración el aumento en el endeudamiento del cliente al aceptar el
monto ofrecido. Mientras mayor sea el aumento de la carga financiera de un cliente,
mayor será el aumento de su nivel de riesgo. Por otro lado, mientras mayor sea la
rentabilidad potencial de un cliente, mayor será también su capacidad para incrementar
su nivel de endeudamiento sin deteriorar su nivel de riesgo. Por lo tanto, el aumento del
nivel de riesgo de un cliente será función no lineal del cambio en su nivel de carga
financiera, al mismo tiempo que función no lineal de su rentabilidad potencial, como lo
muestra la figura 11.4.

El aumento de riesgo de los clientes producto de la aceptación de una oferta se


denomina ∆pi , el cual se define como la razón entre el cambio en la probabilidad de
que el cliente i se transforme en “malo” y el máximo cambio que podría verificarse en

dicha probabilidad. Por lo tanto, los valores posibles para ∆pi se encuentran entre 0%
y 100%.

196
Figura 11.4 Funciones continua y escalonada que describen el aumento del
riesgo de los clientes al aumentar su carga financiera100

Si se denota como pi1 la probabilidad de que el cliente i se transforme en “malo” antes


de aceptar la oferta realizada en la campaña, entonces ∆pi vendrá dado por la fórmula
siguiente:

pi2 - pi1
∆pi =
1 - pi1

La función ∆pi puede obtenerse a partir de los datos de un conjunto de clientes. La


forma más simple de describir dicha función es a través de un conjunto de tablas, las
cuales deben entregar una estimación de ∆pi para cada par de valores de rentabilidad
potencial y de aumento de la carga financiera.

El puntaje de rentabilidad potencial del cliente i se denota ri en la figura 11.4, en tanto

que el aumento en la carga financiera de los clientes al aceptar el monto ofrecido en


una campaña se denomina ∆qi . Denotando como I i el ingreso mensual de un cliente

100
Fuente: elaboración propia

197
i y como Cuota ( xi ) la cuota que correspondería pagar mensualmente a dicho cliente
por un monto ofrecido xi , se tendrá que ∆qi vendrá dado por la siguiente relación:

Cuota ( xi )
∆qi =
Ii
Claramente ∆qi debe ser mayor que 0. Por otro lado, denotando como qi la carga
financiera del cliente i antes de aceptar el monto ofrecido en la campaña, debe tenerse

que la suma entre qi y ∆qi deberá ser menor a 1 (puesto que no puede superar el
100% de los ingresos de un cliente).

Con las definiciones dadas previamente es posible expresar como un modelo de


programación no lineal el problema de determinar los montos a ofrecer en las
campañas, satisfaciendo al mismo tiempo un nivel de riesgo dado por una pérdida
esperada de P :
n
Max ∑
xi i =1
xi

s.a.
n
∑ (xi ∗ pi ) = P2

i =1
(
pi2 = pi1 + ∆pi 1 - pi1( ))
Cuota ( xi )
∆qi = ∀i ∈{1,...n}
Ii
xi ≥ 0 ∀i ∈{1,...n}
qi + ∆qi ≤ 1 ∀i ∈{1,...n}

Denotando por Cuota -1 la función inversa de la función Cuota ( xi ) , es posible escribir


el problema anterior de manera que las variables sean los aumentos ∆qi de las cargas
financieras de los clientes al aceptar los montos ofrecidos. En efecto, se tendrá

xi = Cuota -1 (∆qi ∗ I i ) , por lo que el problema de optimización podrá expresarse como


se muestra a continuación:

198
n

Max Cuota -1 (∆qi ∗ I i )
∆qi i =1
s.a.
n
∑ Cuota - (∆qi ∗ Ii ) ∗ (pi + ∆pi (1 - pi )) = P
1 1 1

i =1
0 ≤ ∆qi ∀i ∈{1,...n}
qi + ∆qi ≤ 1 ∀i ∈{1,...n}

Algunas formas de de resolver el modelo anterior, como son el método del gradiente y
las condiciones de Karush-Kuhn-Tucker, requerirán que la función ∆pi esté expresada
en forma continua y diferenciable. No obstante, es posible entregar una forma ingenua y
fácilmente comprensible de resolver el modelo anterior si ∆qi puede asumir
únicamente valores discretos, y si ∆pi es una función escalonada. Dicha solución
consiste en probar todas las posibles combinaciones de valores para el conjunto de
variables ∆qi . Si los valores que ∆qi puede asumir se limitan a tan solo 11 números

posibles (0%, 10%... 100%), entonces se tendrán 11n combinaciones posibles, un


número en verdad enorme. Si bien tal solución ingenua es impracticable
computacionalmente para cualquier conjunto de clientes, puede implementarse para un
conjunto de segmentos de clientes limitado, (10 segmentos, o n = 10 , por ejemplo)101.

La optimización antes ilustrada no puede ser implementada con un enfoque operacional


de las campañas, sin distinción de segmentos de riesgo/rentabilidad. Un esquema
operacional de las campañas puede filtrar clientes que no cumplen con determinados
criterios de riesgo, pero no puede determinar la probabilidad de pérdida asociada a
cada cliente, por lo que tampoco puede obtener la pérdida esperada para una
campaña, y en consecuencia no puede obtener el máximo monto a ofrecer a los
clientes satisfaciendo un nivel mínimo de riesgo.

101
En efecto, si un computador puede realizar millones de operaciones por segundo, podrá realizar 1110
operaciones en unas 7 horas.

199
Bajo un esquema operacional la máxima cuota que puede pagar un cliente se
determina a partir de las políticas de crédito del Banco, lo cual no necesariamente debe
ser lo más adecuado, en particular porque en ningún momento se utiliza el nivel de
rentabilidad potencial de los clientes.

En resumen, puede observarse, por lo tanto, que mediante modelos predictivos que
calculan puntajes de riesgo y rentabilidad pueden construirse segmentaciones que
ayuden a que un Banco crezca y controle un nivel mínimo de riesgo.

El objetivo de aumentar los montos ofrecidos en las campañas puede medirse


directamente de los resultados del modelo de datamining. No obstante, es preciso
esperar mínimo un año y medio para verificar si el nivel de riesgo de los clientes
considerados en las campañas satisfizo efectivamente el nivel mínimo estipulado en los
criterios de éxito de negocios (output 1a.3). Ello se debe a que la experiencia señala
que los clientes pueden tardar años en transformarse en “malos”. En efecto, los clientes
que reciben un crédito de consumo y que dejan de pagarlo sólo lo harán luego de
transcurrido un mínimo de dos años. Por ello el objetivo de crecimiento debe medirse no
sólo en el corto plazo, sino que también en el largo plazo.

11.1.2 Modelos aprobados (output 5a.2)


Este resultado es el segundo de la tarea de evaluar los resultados de negocios (tarea
5a). Después de evaluar un modelo con respecto a los criterios de éxito de negocios
eventualmente se obtendrán modelos aprobados (si se da el caso que los modelos
generados cumplan con los criterios requeridos).

11.2 Revisar el proceso de datamining (tarea 5b)

En esta tarea es preciso revisar en forma acuciosa si algún factor o actividad


importantes del proyecto de datamining fueron pasados por alto. Constituye una
revisión de calidad realizada no sobre los datos, sino que sobre el proceso que generó
los resultados de datamining.

La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:

200
11.2.1 Revisión del proceso de datamining (output 5b.1)
De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a un resumen de la revisión del proceso de datamining. Es un documento
que contiene pistas para descubrir actividades que han sido olvidadas o que debieran
ser repetidas. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran las siguientes:

- Dar una visión general del proceso de datamining utilizado.

- Analizar el proceso de datamining, respondiendo en retrospectiva si fue o no


necesaria cada fase del proyecto y si se ejecutó óptimamente.

- Determinar de qué forma podría ser mejorado el proceso de datamining.

- Identificar posibles fallas en el proceso de datamining.

- Identificar pasos del proceso de datamining que podrían conducir a error.

- Identificar posibles acciones alternativas en el proceso de datamining.

11.3 Determinar los próximos pasos (tarea 5c)

De acuerdo a lo obtenido a través de la evaluación de negocios de los resultados de


datamining y de la revisión del proceso de datamining, en este punto debe decidirse si
debe darse por terminado el proyecto y entrar a la fase de despliegue, si deben iniciarse
iteraciones adicionales, o bien si debe iniciarse un nuevo proyecto de minería de datos.

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

11.3.1 Lista de las acciones posibles (output 5c.1)


Para conseguir este resultado deben realizarse las siguientes actividades:

- Realizar una lista de las acciones ulteriores a emprender en el proyecto de datamining


junto a las razones a favor y en contra de cada opción asociada.

- Analizar el potencial de despliegue de cada resultado de datamining.

- Estimar el potencial de mejoramiento del actual proceso de datamining.

- Verificar si los recursos restantes permiten iteraciones adicionales del proceso de


datamining, o si por el contrario deben obtenerse recursos adicionales.

201
- Recomendar alternativas de continuación del proyecto de datamining.

- Refinar el plan del proceso de datamining.

11.3.2 Decisión (output 5c.2)


Este resultado es el segundo de la tarea de determinar los próximos pasos (tarea 5c).
De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a una descripción de la decisión en términos de cómo proceder a continuación, junto a
las razones que justifican tal medida. Entre las actividades que es preciso desarrollar
para obtener este resultado se encuentran las siguientes:

- Realizar un ranking de las acciones posibles.

- Seleccionar una de las acciones posibles.

- Documentar las razones que justifican la elección.

202
12 SEXTA FASE DEL PLAN: DESPLIEGUE DE LOS RESULTADOS

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de despliegue de la metodología CRISP-DM, junto a los resultados que deben
obtenerse de la ejecución de cada una de ellas:

Figura 12.1 Tareas y outputs de la fase de despliegue, sexta y última fase del
proyecto de datamining según metodología CRISP-DM102

A continuación se describen las tareas de esta fase y sus resultados, entregando


consejos y recomendaciones dados en la guía de usuario CRISP-DM103 y tomados de

102
Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ,
Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc.,
2000

203
la experiencia y reflexión del autor de este documento. En virtud de que el plan de
datamining que se ha elaborado en el presente documento es conceptual y no se basa
en ningún caso específico de ningún Banco, son también conceptuales las
recomendaciones entregadas para el plan de monitoreo y mantención (output 6b.1),
para el reporte y la presentación finales (outputs 6c.1 y 6c.2) y para la documentación
de la experiencia (output 6d.1). Un caso distinto corresponde al plan de despliegue
(output 6a.1), que se describe en este capítulo aportando antecedentes sobre cómo es
posible automatizar la implementación de los modelos de las campañas dentro de los
sistemas informáticos de un Banco sin incurrir en costos de desarrollo de software.

12.1 Planificar el despliegue (tarea 6a)

Esta tarea toma los resultados de la evaluación del modelo de datamining y elabora una
estrategia para desplegar el modelo en el negocio. Se debe determinar cómo propagar
a los usuarios la información generada por el modelo, y cómo desplegar los resultados
de éste dentro de los sistemas informáticos de la empresa. Deben también identificarse
problemas que pudiesen surgir al desplegar los resultados de datamining. Las
descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:

12.1.1 Plan de despliegue (output 6a.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado es un
resumen de la estrategia de despliegue del modelo de datamining. Dicho resumen debe
incluir los distintos pasos a seguir en el despliegue y señalar cómo ejecutarlos. Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentran:

- Resumir los resultados desplegables.


- Desarrollar planes alternativos de despliegue de los resultados de datamining.
- Para cada modelo obtenido decidir qué plan de despliegue aplicar.
- Determinar cómo se propagará a los usuarios el nuevo conocimiento descubierto.
- Determinar cómo se desplegarán los resultados de los modelos dentro de los
sistemas informáticos de la organización.

103
Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en
CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas,
SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

204
- Determinar cómo se monitoreará la utilización de los resultados de los modelos y
cómo se medirán sus beneficios.
- Identificar posibles problemas que podrían surgir al desplegar los resultados.

12.1.2 Automatización de la fase de despliegue utilizando Clementine


En la fase de despliegue del modelo debe implementarse éste. Gracias a las facilidades
proporcionadas por Clementine ello no implica un costo adicional en términos de
desarrollo de software. De hecho, los modelos generados en la fase de modelamiento
son almacenados en “nodos”, que no son otra cosa sino programas computacionales
listos para usar. La figura 12.2 muestra cómo utilizar esos programas:

Figura 12.2 Flujo de datos en Clementine que obtiene una base de clientes con
notas de riesgo y rentabilidad a partir de una base de variables predictivas104

104
Fuente: elaboración propia

205
La figura 12.2 contiene el mismo diagrama que se ha utilizado en el capítulo 9 para
obtener una base de variables predictivas, con la salvedad que se ha agregado uno de
los mencionados “nodo-programa” en la esquina inferior derecha bajo la etiqueta
“Modelo”. Al “enchufar” a la base de variables predictivas uno de esos nodos-programa
se obtienen notas de riesgo o de rentabilidad de los clientes. Dichas “notas” de riesgo y
de rentabilidad potencial permiten a su vez generar ofertas automáticamente a través
de Clementine, como se ilustra abajo en la figura 12.3:

Figura 12.3 Flujo de datos en Clementine que obtiene una base de ofertas
comerciales a partir de una base con notas de riesgo y rentabilidad105

12.2 Planificar el monitoreo y la mantención (tarea 6b)

En esta tarea debe determinarse cómo se monitoreará la precisión del modelo y sus
resultados, y cuándo deben dejar de utilizarse éstos. El monitoreo y la mantención son
en extremo importantes en el caso de las campañas bancarias, puesto que los
resultados de datamining se vuelven parte del trabajo operacional cotidiano de un
Banco. Un buen plan de mantención ayuda a evitar el peligro del uso incorrecto de los
resultados de datamining. Las descripciones de los resultados que se deben obtener
como fruto de esta tarea se entregan a continuación:

12.2.1 Plan de monitoreo y mantención (output 6b.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a un resumen de la estrategia de monitoreo y mantención, y debe incluir

105
Fuente: elaboración propia

206
los pasos necesarios y cómo ejecutarlos. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:

- Chequear qué podría cambiar en el ambiente en el mediano y largo plazo.

- Verificar cómo se monitoreará la precisión del modelo y sus resultados.

- Establecer cuándo debe dejarse de utilizar un modelo de datamining. Identificar los


criterios para ello. Establecer qué debiera pasar si un modelo o resultado de datamining
ya no pudiese ser utilizado (actualizar el modelo, comenzar un nuevo proyecto de
datamining, etc.).

- Determinar si cambiarán en el tiempo los objetivos de negocios que se persiguen con


la utilización del modelo. Documentar completamente el problema inicial que el modelo
intentaba resolver.

Como se ha visto en el capítulo sobre la evaluación de negocios, sólo en el largo plazo


es posible verificar el cumplimiento del objetivo de negocios de crecimiento sujeto a un
nivel mínimo de riesgo. Por ello el éxito y aceptación de los modelos de datamining
planteados en este documento sólo podrán visualizarse en el largo plazo. Es vital, por lo
tanto, contar no sólo con el firme compromiso de la institución financiera y de su
auspiciador para implementar, monitorear y mantener los modelos de datamining de las
campañas bancarias, sino que también es preciso que dicho compromiso sea de largo
aliento.

12.3 Producir el reporte final (tarea 6c)

Esta tarea corresponde a la elaboración de un reporte final con un resumen del


proyecto y sus experiencias. Las descripciones de los resultados que se deben obtener
como fruto de esta tarea se entregan a continuación:

12.3.1 Reporte final (output 6c.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde al informe final escrito del proyecto de datamining e incluye todos los
entregables previos, a la vez que resume y organiza sus resultados.

207
12.3.2 Presentación final (output 6c.2)
Este resultado es el segundo de la tarea de producir el reporte final (tarea 6c). De
acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde a
una reunión al final del proyecto en la cual los resultados del proyecto de datamining
son presentados a su auspiciador.

12.4 Revisar el proyecto (tarea 6d)

En esta tarea corresponde evaluar lo que ocurrió correctamente y lo que ocurrió mal en
el proyecto de minería de datos, lo que se hizo bien y lo que necesita ser mejorado. La
descripción del resultado que se debe obtener como fruto de esta tarea se entrega a
continuación:

12.4.1 Documentación de la experiencia (output 6d.1)


De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a un resumen de las experiencias más importantes adquiridas durante el
proyecto (por ejemplo: defectos, enfoques conducentes a error, o pistas para
seleccionar técnicas de datamining en situaciones similares).

208
13 CONCLUSIÓN

De la investigación completa puede concluirse que mediante herramientas de


datamining puede elaborarse un plan para enfocar las campañas en un Banco pequeño
que carece de un datawarehouse, de manera de permitir a la institución segmentar a
sus clientes y crecer. Ello ha quedado demostrado al detallar cómo elaborar un plan
semejante a partir de las hipótesis de trabajo. Por lo tanto, la tesis que se pretendía
demostrar en un comienzo es válida, si se aceptan los supuestos realizados en materia
de disponibilidad de información, de tecnología, de marco regulatorio, de negocios y de
operaciones. De este modo el objetivo principal de la investigación se ha cumplido.

Se han extraído también conclusiones relevantes de cada una de las seis fases en las
que se ha dividido el desarrollo de la tesis. Dichas conclusiones se detallan a
continuación:

1. De la fase de comprensión del negocio puede concluirse que es importante


identificar los objetivos de negocios que se espera conseguir con el proyecto de
datamining, de manera tal de hacer posible la validación de sus resultados contra
dichos objetivos. Ello está pensado para garantizar que los resultados de la minería
de datos no sólo sean técnicamente válidos, sino que además tengan significado
desde un punto de vista de negocios. Así también de la fase de comprensión del
negocio puede concluirse que no es posible realizar estudios de datamining sin
contar con el respaldo decidido de alguna gerencia, como única forma de neutralizar
los riesgos organizacionales y de timing del proyecto. En directa relación con lo
antes mencionado se encuentra una conclusión aun más fundamental, y que
establece que el éxito de un proyecto de datamining depende no sólo de que se
satisfagan ciertos objetivos de negocios del Banco, sino que en mucho mayor
medida de que se logren beneficios tangibles para el patrocinador del proyecto y sus
intereses.

2. De la fase de comprensión de los datos puede concluirse que a priori las


características más relevantes para predecir el nivel de riesgo crediticio de los
clientes y su rentabilidad potencial incluyen aspectos demográficos, renta, nivel de
vínculo entre el cliente y el Banco, los ingresos contables generados por el cliente,
su comportamiento crediticio pasado, y su nivel de deudas. Todas esas

209
características aparecen como las más importantes en opinión de las personas que
han trabajado como ejecutivos de crédito, y es información que está disponible en
las bases operacionales de cualquier Banco (aceptando los supuestos dados en las
hipótesis de trabajo).

3. De la fase de preparación de los datos se concluye que puede ser inmenso el


esfuerzo destinado a integrar los datos necesarios para el estudio y a eliminar sus
inconsistencias, por cuanto al no existir un datawarehouse es preciso mezclar datos
provenientes de bases de datos operacionales residentes en sistemas distintos y
con información de fechas distintas. La literatura establece que más del 90% del
tiempo empleado en un proyecto de datamining debe utilizarse en las fases previas
al modelamiento, principalmente en las fases de comprensión y preparación de los
datos. Como consecuencia de ello es posible que los riesgos organizacionales y de
timing del proyecto, detectados en la fase de comprensión del negocio, se
materialicen en la forma de un boicot al proyecto de minería de datos.

4. De la fase de modelamiento puede concluirse que es posible elaborar modelos


predictivos del riesgo de crédito y de la rentabilidad potencial de los clientes, usando
para ello técnicas de datamining como la regresión logística, las redes neuronales o
los árboles de decisión. Se ha mostrado que dichos modelos pueden calcular
puntajes de riesgo y de rentabilidad para los clientes. Por lo tanto, se han satisfecho
los dos objetivos secundarios s1 y s2 descritos en el capítulo 3, que versa sobre los
objetivos de la investigación.

5. En la fase de evaluación de negocios se ha mostrado que es posible clasificar a los


clientes en distintos segmentos en base a sus puntajes de riesgo y rentabilidad, y
que puede dirigirse una oferta diferenciada a cada uno de esos segmentos. Por lo
tanto, se ha cumplido el objetivo secundario s3 descrito en el capítulo 3. En la misma
fase se ha mostrado que un Banco puede utilizar los puntajes de riesgo y
rentabilidad para crecer, satisfaciendo al mismo tiempo un nivel mínimo de riesgo.
Dicho crecimiento puede verificarse mediante una oferta a segmentos sin ella,
mediante la orientación de los esfuerzos de las campañas hacia los clientes con
mayor rentabilidad potencial, y a través del aumento de los montos ofrecidos a los
clientes. Por lo tanto, se ha cumplido también el objetivo secundario s4 descrito en
el capítulo 3. Se concluye entonces de la fase de evaluación de negocios que

210
mediante datamining un Banco puede focalizarse en segmentos de clientes
clasificados por riesgo y rentabilidad, y que puede crecer satisfaciendo un nivel
mínimo de riesgo.

6. De la fase de despliegue puede concluirse que el éxito de los modelos de


datamining de las campañas bancarias y el logro de sus objetivos de negocios sólo
podrán visualizarse en el largo plazo, por lo que es vital contar no sólo con el firme
compromiso de la institución financiera para implementar y monitorear un modelo de
datamining, sino que también es preciso que dicho compromiso sea de largo aliento.
Ello se debe a que la experiencia señala que los clientes pueden tardar años en
presentar problemas de pago, por lo que sólo es posible en el largo plazo verificar
que el objetivo de crecimiento sujeto a un nivel mínimo de riesgo satisfaga
efectivamente dicho nivel de riesgo.

Entre las recomendaciones que pueden entregarse a partir de los resultados de esta
investigación destacan el buscar un apoyo firme y decidido de la gerencia de un Banco
antes de comenzar un proyecto de datamining. En particular ello debe traducirse en dos
resultados concretos. En primer lugar un presupuesto relevante para la investigación, lo
suficientemente cuantioso para brindar estatus al proyecto y para comprometer al
Banco en su éxito. En segundo lugar es preciso recibir el nombramiento de un cargo
dentro de la estructura organizacional del Banco para garantizar el éxito del proyecto de
datamining. Ello obedece al hecho de que los Bancos son instituciones altamente
jerarquizadas, en las que para realizar cualquier tipo de proyecto es preciso disponer de
un nivel jerárquico adecuado. Aun en el caso de tratarse de un proyecto realizado por
consultores externos, éstos deben recibir el respaldo de la organización en la forma de
un nombramiento de jefes o gerentes de proyecto. Se recomienda en todo caso realizar
los estudios de datamining a través de consultorías externas, de manera tal de tratar de
evitar los ataques que pudiesen provenir desde dentro de la institución.

211
14 BIBLIOGRAFÍA

1. ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac


Insight Series, 1999.
2. B ERRY, M. J. A., LINOFF, G., Data Mining Techniques for Marketing, Sales, and
Customer Support, John Wiley & Sons, Inc., 1997.
3. BERSON, A., SMITH S. J., Data Warehousing, Data Mining, and OLAP, McGraw-
Hill, 1997.
4. CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas,
REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step
Data Mining Guide, SPSS Inc., 2000.
5. CLEMENTINE 7.0 User’s Guide, SPSS, 2002
6. Data Mining with Confidence, SPSS Inc., 1999.
7. Data Mining Tools, METAspectrum Market Summary, META Group, September
2004, www.metagroup.com
8. Data Warehousing Technology Glossary, Applied Technology Group, 1997.
9. EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar
Clientes, 20/01/2005.
10. EL DIARIO FINANCIERO, Bancos Deben Construir Economías de Escala,
28/01/2005.
11. EL DIARIO FINANCIERO, Banco de Chile Lidera Mercado de Cuentas Corrientes
con 24%, 29/03/2005.
12. EL DIARIO FINANCIERO, Bancos Salen a la Caza de Nuevos Segmentos para
Rentabilizar su Negocio, 28/03/2005.
13. EL DIARIO FINANCIERO, BBVA va tras Segmentos que no están Bancarizados,
17/03/2005.
14. EL DIARIO FINANCIERO, Banco del Desarrollo Lanza Área de Consumo,
28/04/2005.
15. EL DIARIO FINANCIERO, Las Fusiones de los Bancos Elevaron Eficiencia del
Sistema, 19/04/2005.
16. EL DIARIO FINANCIERO, La Alternativa de Bancos a la Baja de los Spreads,
02/05/2005.

212
17. EL DIARIO FINANCIERO, Filiales de Bancos Arremeten en Competencia por
Clientes, 11/05/2005.
18. EL DIARIO FINANCIERO, Los Bancos Extranjeros han Inyectado Mayor
Competencia al Mercado, 05/06/2005.
19. EL DIARIO FINANCIERO, Bancos y Multitiendas Olvidan sus Diferencias por
Conveniencia Mutua, 06/06/2005.
20. EL DIARIO FINANCIERO, Bancos en Alerta por Posible Regulación de Tarjetas
del Comercio, 16/06/2005.
21. EL DIARIO FINANCIERO, Bank of America, Reportaje, 12/05/2006
22. HALLBERG, Garth, OGILVY, David, Todos Los Consumidores No Son Iguales,
Capítulo 3: Por qué no Todos los Consumidores Han Sido Creados Iguales, Deusto,
1999.
23. HILLIER F., LIEBERMAN G., Investigación de Operaciones, Séptima edición,
McGraw-Hill Interamericana, 2002
24. Informe de Colocaciones por Actividad Económica, SBIF, febrero 2005.
25. Informe de Estabilidad Financiera, Banco Central, primer semestre 2006
26. Informe Tasas Principales Productos de Consumo, SBIF, 2005.
27. Informe Mutuos Hipotecarios Endosables, SBIF, 2005.
28. Introduction to Data Mining and Knowledge Discovery, Two Cross Corporation,
1998.
29. Jumpstart Clementine Training Brochure, Data Mining Jumpstart, Data Mining
Projects Clementine, SPSS, 2004.
30. KOTLER, Philip, Dirección de Marketing, Décima Edición, Capítulo 9: Identificación
de Segmentos de Mercado y Selección de Mercados Meta, Pearson Educación, 2001.
31. KRAFT, Holger, KROISANDT, Gerald, MÜLLER, Marlene, Redesigning Ratings:
Assessing the Discriminatory Power of Credit Scores under Censoring, Fraunhofer
Institut für Techno und Wirtschaftsmathematik (ITWM), June, 2004.
32. LAMBIN, Jean-Jacques, Marketing Estratégico, Capítulo 6: El Análisis de las
Necesidades a través de la Segmentación, McGraw-Hill Interamericana, 1996.
33. PÉREZ, Cesar, Técnicas Estadísticas con SPSS, Prentice Hall, 2001.
34. REICHHELD, Frederick, El Efecto de la Lealtad del Cliente, Capítulo 2: Economía
de la Lealtad del Cliente, Editorial Norma, 1996.
35. REICCHELD, SASSER, Zero Defections Come to Quality, HBR, 1990.
213
36. REVISTA INFORMACIÓN FINANCIERA, SBIF, julio 1999, julio 2000, julio 2001,
julio 2002, julio 2003, julio 2004, julio 2005.
37. RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Approach,
Second Edition, Prentice Hall, 2003.
38. RUST, Roland, ZEITHAML, Valerie, LEMON, Katherine, Driving Customer Equity :
How Customer Lifetime Value is Reshaping Corporate Strategy, The Free Press, June
2000.
39. SHANNON, C.E., WEAVER, W., The Mathematical Theory of Communication,
University of Illinois Press, 1949
40. TENENHAUS, Michele, Méthodes Statistiques en Gestion, Editorial Dunod,
France, 1996.
41. WILSON, L., Canadian Bank Mines for Gold, Computerworld, 1997.

214
ANEXOS
Anexo A Colocaciones totales de los Bancos del sistema financiero chileno,
Julio del 2005106

Colocaciones totales
(en miles de millones Valores en %
de pesos)
Bancos 2004 2005 Participación Crecimiento
Banco de Chile 6.350 7.275 17,7 14,6
Grandes

Banco Santander 8.568 9.467 23,0 10,5


Banco del Estado 4.704 5.390 13,1 14,6
BCI 4.099 4.938 12,0 20,5
Medianos

Corpbanca 2.241 2.724 6,6 21,6


BBVA 2.736 3.171 7,7 15,9
BICE 954 1.048 2,6 9,8
Security 1.017 1.307 3,2 28,6
Pequeños

Citibank 800 848 2,1 6,0


BankBoston 796 967 2,4 21,5
Scotiabank 1.142 1.188 2,9 4,0
B. del Desarrollo 1.324 1.582 3,9 19,5
Otros 1.286 1.221 3,0 -5,1
Sistema financiero 36.016 41.126 100 14,2

106
Fuente: volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF
Anexo B Comparación entre Bancos de la razón de eficiencia (gastos de
apoyo operacional / resultado operacional bruto), periodo 2000-2005107

Valores en %

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05
Bancos
Bco. de Chile 52,1 49,3 56,6 51,6 44,5 48,2
Grandes

Santander 49,0 45,1 43,2 44,6 44,5 41,0


Bco. Estado 70,3 66,6 65,2 63,9 61,0 58,9
BCI 65,0 54,9 55,2 48,5 50,7 51,4
Medianos

Corpbanca 64,3 46,6 43,1 39,2 37,6 40,7


BBVA 67,6 59,6 61,0 55,1 57,9 56,7
BICE 56,0 50,1 58,0 57,7 64,2 60,8
Bco. Security 56,9 57,7 60,2 49,6 50,2 48,2
Pequeños

Citibank 74,0 59,3 56,9 60,9 66,0 85,3


BankBoston 71,6 53,1 68,5 68,2 70,7 69,2
Scotiabank 73,8 68,6 73,0 67,9 68,8 68,3
B. del Desarrollo 61,2 55,9 54,6 52,4 47,7 51,3
Sistema financiero 60,2 52,2 54,6 52,5 50,7 51,7

107
Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Anexo C Evolución del margen de intereses del sistema financiero, periodo
2000-2005108

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05
Margen de intereses 833 1.037 1.064 940 1.118 1.091
millones de pesos
Cifras en miles de

Comisiones netas 157 193 204 254 254 274

Resultado operacional
1.031 1.280 1.302 1.338 1.426 1.479
bruto
Resultado operacional
128 373 327 397 455 502
neto
Margen de intereses /
80,8 81,1 81,7 70,2 78,4 73,8
Valores en %

Resultado oper. bruto


Margen de intereses /
651,2 278,3 325,5 236,9 245,8 217,3
Resultado oper. neto
Gastos apoyo oper. /
60,2 52,2 54,6 52,5 50,7 51,7
Resultado oper. bruto

108
Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
109
Grandes Medianos Pequeños

BCI
BICE
Anexo D

BBVA
Citibank

Corpbanca
Scotiabank

BankBoston

Banco de Chile
Banco Security
B. del Desarrollo

Banco Santander
Banco del Estado
Sistema financiero

Jul-00 102 99 112 72 46 39 16 12 54 14 26 21 833

Margen de Jul-01 116 141 117 85 53 53 20 15 70 31 24 27 1.037


intereses Jul-02 188 140 140 86 51 63 18 18 59 25 24 28 1.064
(en miles de
millones de Jul-03 164 232 111 98 54 50 16 19 50 21 22 31 940
pesos) Jul-04 192 275 138 107 62 60 19 20 64 32 24 35 1.118
Jul-05 189 280 137 116 60 54 18 25 52 31 24 38 1.091
sobre colocaciones, periodo 2000-2005109

Jul-00 3.309 3.113 3.270 2.239 1.099 1.381 722 664 1.011 382 967 1.003 26.320
Jul-01 3.644 3.420 3.664 2.545 1.315 1.705 784 786 1.094 481 1.016 1.015 29.489
Colocaciones
(en miles de Jul-02 5.776 3.541 3.875 3.072 1.538 1.907 785 776 1.051 654 1.138 1.123 31.068
millones de Jul-03 5.980 7.722 4.258 3.508 1.940 2.277 819 932 988 745 1.182 1.259 32.801
pesos)
Jul-04 6.350 8.568 4.704 4.099 2.241 2.736 954 1.017 800 796 1.142 1.324 36.016
Jul-05 7.275 9.467 5.390 4.938 2.724 3.171 1.048 1.307 848 967 1.188 1.582 41.126
Jul-00 3,1 3,2 3,4 3,2 4,1 2,8 2,2 1,7 5,4 3,7 2,7 2,1 3,2

Margen de Jul-01 3,2 4,1 3,2 3,3 4,1 3,1 2,6 2,0 6,4 6,4 2,4 2,6 3,5
intereses / Jul-02 3,3 4,0 3,6 2,8 3,3 3,3 2,3 2,4 5,6 3,8 2,1 2,5 3,4
Colocaciones
(valores Jul-03 2,7 3,0 2,6 2,8 2,8 2,2 1,9 2,1 5,1 2,9 1,8 2,4 2,9
en %) Jul-04 3,0 3,2 2,9 2,6 2,8 2,2 2,0 2,0 8,0 4,0 2,1 2,6 3,1

Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Jul-05 2,6 3,0 2,5 2,3 2,2 1,7 1,8 1,9 6,1 3,2 2,0 2,4 2,7
Comparación entre Bancos de la razón de margen de intereses
Anexo E Comparación de la razón utilidad del ejercicio sobre capital y
reservas de los distintos Bancos, periodo 2000-2005110

Valores en %

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05
Bancos
Banco de Chile 27,8 28,6 10,5 24,2 32,0 35,2
Grandes

Banco Santander 24,0 26,7 31,5 22,1 22,6 28,0


Banco del Estado 8,7 9,8 7,4 8,6 9,7 10,8
BCI 11,6 21,6 18,5 27,3 27,6 27,2
Medianos

Corpbanca 8,0 21,0 21,2 16,7 16,4 14,3


BBVA 9,5 7,5 9,1 12,8 13,0 14,0
BICE 9,0 25,1 15,9 18,1 13,9 17,2
Banco Security 12,1 10,9 9,5 15,9 17,0 16,2
Pequeños

Citibank 1,8 12,9 18,0 16,0 10,8 5,0


BankBoston 5,7 18,0 6,9 10,8 9,7 7,9
Scotiabank 3,9 6,3 9,7 11,5 10,4 8,6
B. del Desarrollo 10,0 10,6 7,7 7,5 12,8 12,2
Sistema financiero 11,1 19,3 17,1 17,3 18,6 18,8

110
Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Anexo F Comparación del crecimiento anual de las colocaciones de los
Bancos, periodo 2000-2005111

Valores en %

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05
Bancos
Bco. de Chile 9,9 10,1 58,5 3,5 6,2 14,6
Grandes

Santander 3,3 9,9 3,5 118,1 11,0 10,5


Bco. Estado 4,9 12,0 5,8 9,9 10,5 14,6
BCI 6,6 13,7 20,7 14,2 16,8 20,5
Medianos

Corpbanca 4,2 19,7 17,0 26,2 15,5 21,6


BBVA 11,4 23,5 11,9 19,4 20,1 15,9
BICE 23,6 8,7 0,1 4,3 16,5 9,8
Bco. Security 25,2 18,5 -1,3 20,1 9,1 28,6
Pequeños

Citibank -3,7 8,2 -3,9 -6,0 -19,1 6,0


BankBoston 22,8 25,8 36,1 13,9 6,8 21,5
Scotiabank -9,6 5,1 12,0 3,9 -3,4 4,0
B. del Desarrollo 5,9 1,3 10,6 12,1 5,2 19,5
Sistema financiero 6,5 12,0 5,4 5,6 9,8 14,2

111
Fuente: volúmenes de Julio de los años 1999 al 2005 de la revista Información Financiera de la SBIF
Anexo G Evolución de las colocaciones totales del sistema financiero
desglosadas por tipo, periodo 2000-2004112

Nov-00

Nov-01

Nov-02

Nov-03

Nov-04
Créditos de consumo (a) 2.617 2.705 3.193 3.499 5.198
millones de pesos
Cifras en miles de

Créditos hipotecarios para


4.935 5.320 5.870 6.386 7.139
la vivienda (b)
Colocaciones de empresas
17.676 20.645 20.726 21.302 22.601
(estimado como (c ) - (a) - (b) )

Total (c) 25.228 28.671 29.789 31.187 34.939

Créditos de consumo 10,4 9,4 10,7 11,2 14,9


Valores en %

Créditos hipotecarios para


19,6 18,6 19,7 20,5 20,4
la vivienda

Colocaciones de empresas 70,1 72,0 69,6 68,3 64,7

Total 100 100 100 100 100

112
Fuente: volumen de Febrero del 2005 de la revista Información Financiera de la SBIF
Anexo H Tasas de créditos de consumo, hipotecarios y comerciales, periodo
2002-2005113

crédito
Líneas de

crédito
Tarjetas de

hata 200 UF
consumo
Créditos de
(*)
comerciales
Créditos
Mutuos hipotecarios

años
1a8
Mutuos
años
8 a 12
Mutuos
años
12 a 20
Mutuos
20 años
más de
Mutuos
Jul-02 27,0 34,1 26,9 16,7 6,5 7,4 7,0 6,7
Ago-02 26,2 33,4 26,0 15,6 6,5 7,0 6,9 6,8
Sep-02 26,0 33,4 25,0 14,9 6,3 6,9 6,9 6,8
Oct-02 26,0 33,0 25,1 16,0 6,0 7,0 7,0 7,0
Nov-02 26,3 32,8 25,6 15,3 6,2 6,9 7,0 7,4
Dic-02 27,0 32,8 23,7 14,2 6,2 6,8 7,0 6,8
Ene-03 26,8 33,9 25,6 17,2 6,2 6,8 7,0 7,0
Feb-03 26,8 33,4 25,6 17,1 6,1 6,6 6,8 7,0
Mar-03 25,3 33,2 23,2 13,0 5,9 6,6 6,7 7,2
Abr-03 25,4 32,3 24,2 14,2 5,7 6,5 6,8 7,1
May-03 25,9 31,6 23,8 13,5 5,7 6,7 6,8 7,0
Jun-03 26,2 30,9 24,0 14,3 5,7 6,2 6,7 7,0
Jul-03 28,7 31,9 23,1 13,8 6,1 6,3 6,7 7,1
Ago-03 28,0 32,6 22,4 13,6 5,7 5,9 6,6 7,2
Sep-03 28,0 33,0 21,7 13,2 5,4 6,0 6,7 7,1
Oct-03 27,9 33,0 21,5 13,3 5,6 6,0 6,5 6,8
Nov-03 27,9 33,0 22,3 13,6 5,5 5,6 6,3 6,4
Dic-03 28,6 33,3 21,9 12,7 7,0 5,2 6,4 6,5
Ene-04 26,2 33,6 22,9 14,0 5,4 5,6 6,1 6,5
Feb-04 27,7 33,6 23,5 12,0 5,2 5,4 5,4 6,3
Mar-04 27,6 34,0 20,8 11,0 5,1 5,4 5,5 6,3
Abr-04 28,1 33,9 21,3 11,4 4,9 5,3 5,9 6,2
May-04 28,3 33,4 22,2 11,6 4,2 5,0 5,5 6,1
Jun-04 28,3 33,3 22,3 12,0 4,0 4,5 4,9 5,4
Jul-04 28,7 33,3 21,3 11,9 4,1 4,5 4,6 5,2
Ago-04 28,7 33,5 21,1 11,5 4,3 4,5 4,7 5,0
Sep-04 28,4 33,6 20,0 11,3 4,1 4,6 4,7 4,6
Oct-04 28,2 33,9 20,3 11,6 4,1 4,8 4,9 5,1
Nov-04 28,6 33,5 21,2 12,1 4,4 4,5 4,9 4,9
Dic-04 28,5 31,8 21,0 12,1 4,2 4,5 4,9 4,9
Ene-05 29,3 32,5 20,5 13,0 4,6 4,8 5,1 4,7
Feb-05 30,2 32,4 21,8 13,3 4,4 5,1 5,2 5,3
Mar-05 30,2 32,9 21,1 12,4 4,5 4,8 5,2 5,3
Abr-05 31,1 33,6 21,7 13,1 4,3 4,9 5,2 5,1
May-05 31,7 34,2 22,2 13,9 4,4 4,7 5,4 6,0
Jun-05 31,9 35,0 22,3 14,0 4,6 5,0 5,4 5,3
Jul-05 31,8 35,2 21,9 14,0 4,4 4,8 5,3 5,2
Ago-05 31,7 35,5 21,8 13,9 4,0 4,7 5,3 5,0
(*) Tasas de los créditos de consumo entre 2000 y 5000 UF

113
Fuente: volúmenes del 2005 del Informe de las Tasas de los Principales Productos de Consumo de la
SBIF y del Informe de Mutuos Hipotecarios Endosables de la SBIF
Anexo I Composición del margen operacional bruto de los distintos Bancos,
Julio 2005114

7,7
15,0

3,1

1,5
9,3
5,1
5,7
12,3
4,7

4,8

6,1
-4,9

7,7
Otros ingresos operacionales /
Resultado operacional bruto
Valores en %

21,4
17,6
19,6
20,8

21,0
17,6
12,4
15,9

22,6
20,7
18,5
12,5

16,7
Comisiones netas /
Resultado operacional bruto

73,5

68,1
76,7

74,5

77,7
78,3

73,2
73,8
64,0
79,7

81,1

75,9
88,2
Margen de intereses /
Resultado operacional bruto

257

201
156

1.479
366

24
32

52
85
75

64

32
35
Resultado operacional bruto

26

49

227
15
41

2
6

6
26
12

1
-3
Total otros ingresos oper.
(a) + (b) + (c ) + (d) + (e) + (f)
13

25
7

114
21

1
3

3
13
6

2
-2
0
Otros ingresos (f)
Cifras en miles de millones de pesos

-3

-4
-2

-32
-4

-1
-1

-1
-2
-4

-3
-1
-1
Corrección
monetaria neta (e)
-5

2
2

-23
-13

0
0

0
-2
0

-1
0
-1
Otros ingresos
de operación netos (d)
20

13
7

89
22

0
1

3
12

1
1
Recuperación de
colocaciones castigadas (c)
-5

2
-1

16
4

0
1

1
3

1
Diferencias de cambio -3
netas (b)
6

12
1
12

2
2

0
63
0

2
1
1
Diferencias de precio
netas (a)
55

39
32
64

4
4

11
274
18

10
6
7

Comisiones netas
189

137
116
280

60
54
18
25

1.091
52
31
24
38

Margen de intereses
B. del Desarrollo
Sistema financiero
Bco. Security
Bco. de Chile

BankBoston
Bco. Estado

Scotiabank
Corpbanca
Santander

Citibank
BBVA
BICE
Bancos

BCI

Grandes Medianos Pequeños

114
Fuente: volumen de Julio del 2005 de la revista Información Financiera de la SBIF
Anexo J Porcentaje de los distintos tipos de créditos sobre el total de
colocaciones de cada Banco, Febrero 2005115

Cifras en miles de
Valores en %
millones de pesos

Créditos de consumo (a)

la vivienda (b)
Créditos hipotecarios para

(estimado como (c ) - (a) - (b) )


Colocaciones de empresas

Total (c)

Créditos de consumo

la vivienda
Créditos hipotecarios para

Colocaciones de empresas

Total
Bancos
Banco de Chile 1.422 749 4.051 6.222 22,9 12,0 65,1 100
Grandes

Banco Santander 1.134 1.848 5.059 8.042 14,1 23,0 62,9 100
Banco del Estado 541 2.202 2.236 4.978 10,9 44,2 44,9 100
BCI 380 741 3.017 4.139 12,6 17,2 70,2 100
Medianos

Corpbanca 292 180 1.821 2.293 12,7 7,8 79,4 100


BBVA 249 790 1.711 2.750 9,1 28,7 62,2 100
BICE 29 35 793 857 3,4 4,0 92,5 100
Banco Security 20 38 1.090 1.148 1,8 3,3 94,9 100
Citibank 264 61 478 803 32,9 7,6 59,5 100
Pequeños

BankBoston 158 198 443 799 19,8 24,8 55,4 100


Scotiabank 343 106 668 1.117 30,7 9,5 59,8 100
Banco del Desarrollo 35 241 1.109 1.384 2,5 17,4 80,1 100
Banco Ripley 83 14 8 105 79,1 13,7 7,2 100
Banco Falabella 216 52 1 270 80,2 19,4 0,5 100
Banco Paris 103 0 8 111 93,1 0,0 6,9 100
Sistema financiero 5.435 7.262 23.092 35.788 15,2 20,3 64,5 100

115
Fuente: volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la
SBIF, y volumen del 2005 del Informe de Mutuos Hipotecarios Endosables de la SBIF

También podría gustarte