Modelo Estadistico para Generar Un Scoring Kat

MODELO ESTADISTICO PARA GENERAR UN SCORING, QUE PERMITA
OTORGAR EL BENEFICIO DE TASA DE INTERES A LOS ASOCIADOS CON
VIGENCIA CREDITICIA DE UNA COOPERATIVA DE AHORRO Y CREDITO.
MATILDE PULIDO JAIMES
ANGELA KATERINE RANGEL LEAL
UNIVERSIDAD INDUSTRIAL DE SANTANDER

FACULTAD DE CIENCIAS
ESCUELA DE MATEMÁTICAS
ESPECIALIZACIÓN EN ESTADISTICA
BUCARAMANGA
2020
MODELO ESTADISTICO PARA GENERAR UN SCORING, QUE PERMITA
OTORGAR EL BENEFICIO DE TASA DE INTERES A LOS ASOCIADOS CON
VIGENCIA CREDITICIA DE UNA COOPERATIVA DE AHORRO Y CREDITO.
MATILDE PULIDO JAIMES, ANGELA KATERINE RANGEL LEAL
Trabajo de grado para optar al título de Especialista en Estadística
Directora
Deicy Villalba Rey
Msc en Estadística
UNIVERSIDAD INDUSTRIAL DE SANTANDER

FACULTAD DE CIENCIAS
ESCUELA DE MATEMÁTICAS
ESPECIALIZACIÓN EN ESTADISTICA
BUCARAMANGA
2020
CONTENIDO
INTRODUCCIÓN………………………………………………………………………..
1. CAPITULO 1 ………………………………………………………………………
1.1 OBJETIVO GENERAL………………………………………………….
1.2 OBJETIVOS ESPECIFICOS…………………………………………
1.3 JUSTIFICACIÓN……………………………………………………..
1.4 ANTECEDENTES……………………………………………………
1.5 MARCO TEORICO…………………………………………………
1.5.1 Tasa de Interés………………………….
1.5.2 Factores determinantes de la tasa de interés………..
1.5.3 Margen de Intermediación……………….
1.5.4 Tipos de tasa de interés de crédito……………
1.5.5 Comité de tasas (procedimiento interno)……………….
1.5.6 Limites sobre las tasas de interés
1.5.7 Clasificación de los créditos……………..

1.5.7.1 Crédito de Consumo ……………….
1.5.7.2 Crédito de Comercial ……………….
1.5.7.3 Crédito de Microcrédito ……………….
1.5.7.4 Crédito de Vivienda ……………….
1.5.8 Modelo de Scoring ……………….
1.5.9 Análisis de Clúster ……………….
1.5.10 Regresión logística Ordinal u Ordenada ……………….
2. CAPITULO 2 METODOLOGIA……………………………….
2.1 DESCRIPCIÓN DE VARIABLES………………………………………..
2.1.1 Variables Cuantitativas …………………………………………………..
2.1.2 Variables Cualitativas………………………………………………..
2.2 DEPURACIÓN DE LA BASE DE DATOS………………………….
3. CAPÍTULO 3 ANALISIS EXPLORATORIO……………………………………….
3.1 ANÁLISIS DESCRIPTIVO ………………………………………….
3.1.1 Resumen de Variables Estudiadas ………………………………
3.1.2 Matriz de correlación…………………………………
3.1.3 Detección de observaciones influyentes……………………….
3.2 ANÁLISIS DE CLUSTER………………………………………………

3.2.1 Medida de Distancia ………………………………………..
3.2.2 Estimación del número de grupos……………..
3.3.3 Aplicación algoritmo CLARA………………..
3.2.4 Variables Seleccionadas………………..
3.2.5 Identificación del clúster asignado a cada asociado……………
3.2.6 Comportamiento de las variables según el clúster …………………..
3.2.7 Análisis para el perfilamiento de asociados……………………
3.2.7.1 Genero…………………….
3.2.7.2 Calidad de la Cartera……………………..
3.2.7.3 Estrato Socio económico …………………
3.3 ANÁLISIS DE REGRESIÓN LOGISTICO MULTINOMIAL ………
3.3.1 Educación definida…………………….
CONCLUSIONES……………………………………………………………………..
BIBLIOGRAFIA……………………………………………………………………..
INTRODUCCIÓN
El sector financiero en su búsqueda por captar usuarios, encamina dicha actividad
brindando diversos beneficios como la flexibilización en la compra de cartera, además de otras
modalidades como lo es, ofreciendo tasas de interés atractivas y competitivas frente a las demás
entidades financieras.
Ante esta situación la cooperativa de ahorro y crédito sobre la cual se realizará el análisis
estadístico, evalúa una a una las operaciones con el objetivo de replantear la tasa inicialmente
otorgada ante las solicitudes aprobadas por los analistas de crédito, o ante los requerimientos
individualizados de asociados que optan por cambiar de entidad y cancelen de manera anticipada
el crédito vigente.
Por estas razones es importante conocer el perfil del asociado, cuál ha sido su
comportamiento de pago, la tasa que ha manejado en otros créditos y cuál es el nivel de recursos
de ahorro que mantiene en la entidad, ya que la presente investigación pretende identificar los
perfiles potenciales de crédito con el objetivo de otorgarle un beneficio en la tasa de interés
activa.
De esta manera se plantea construir un modelo de scoring, a través de un Logit ordinal,
para analizar variables de los asociados y definir posibilidad de otorgar o no el beneficio, aplicar
un beneficio básico y aplicar un beneficio premium.

1. CAPITULO 1
1.1 Objetivo General
Aplicar un modelo de scoring que permita identificar asociados potenciales que presenten
buen hábito de pago y tengan rotación de crédito en la Cooperativa, para asignarles un beneficio
en la reducción de puntos porcentuales a la tasa de interés de crédito, mediante técnicas
estadísticas multivariadas.
1.2 Objetivos Específicos
 Realizar un análisis exploratorio de la información crediticia de los asociados para el
periodo de estudio.
 Aplicar la técnica de clúster para clasificar los asociados en tres grupos “Premium”,
“Básicos” y “no aplica”, con base en las características asociadas al comportamiento
crediticio del asociado.
 Plantear un modelo de regresión logística multinomial con las principales variables de
estudio, para determinar la predicción del beneficio de tasa de interés.
1.3 JUSTIFICACIÓN
Los mercados financieros buscan día a día estar más cerca de los usuarios y satisfacer sus
necesidades financieras, ofreciendo productos atractivos y beneficios, como es la reducción de la
tasa de interés de crédito que a través de la compra de cartera y otras líneas de crédito (libre
consumo, libranzas, tarjetas de crédito, etc.), así mismo, unificar las obligaciones financieras, en
caso de tener más de un crédito activo en el sector financiero, ampliando su plazo y mejorando el
flujo de caja del deudor. Ante esta situación, la Cooperativa conformó un comité de tasas de
crédito que le permita atender oportunamente las solicitudes de aquellos asociados que solicitan
una disminución en su tasa de interés del crédito vigente con la Cooperativa, o recoger cartera de
otras entidades financieras, o aquellos asociados que buscan prepagar el crédito, es decir; pagar
de forma anticipada la totalidad del saldo del crédito.
En estos casos se procede a evaluar la posibilidad de disminuir la tasa actual del crédito en
unos puntos porcentuales, de acuerdo al perfil del asociado, comportamiento de pago, tasa de
interés actual y novedades históricas, buen hábito de ahorro, esta es una forma de incentivar y
retener a los asociados potenciales.
Considerando lo anterior y factores influyentes que demandan operatividad y tiempo en
reevaluar las solicitudes de crédito, el presente trabajo tiene como finalidad, diseñar un modelo
scoring que aportará a la cooperativa la automatización del proceso de beneficio a asignar en cada
caso.
Será importante para el área de gerencia financiera para dar cumplimiento ante la
superintendencia solidaria que mediante requerimiento solicita fijar los criterios técnicos y
señalar los procedimientos en la asignación de la tasa de interés y la reducción de la misma;
además se usará ampliamente por el área comercial, además se convierte en una herramienta útil
al momento de aprobar el crédito ya que se indicarán los descuentos aplicados en la tasa de
intereses. Con lo anterior, se justifica el objetivo de la entidad para fidelizar al asociado potencial
a través del otorgamiento de tasa de interés preferencial previamente a la aceptación del mismo.
1.4 ANTECEDENTES
La técnica de credit scoring tiene una gran aplicación en el campo financiero como
alternativa a las técnicas tradicionales de evaluación de crédito (poco eficientes) ante el gran
volumen de solicitudes de crédito.
A continuación, se reportan algunas investigaciones relacionadas con la calificación del
crédito, cobranza de crédito, simulación de nuevos productos o deserción de clientes.
Arango & Restrepo (2017) plantearon un modelo scoring capaz de predecir la probabilidad de
incumplimiento del deudor, basado en regresión logística con base en información de la entidad
estudiada, que contiene 23 variables cualitativas y cuantitativas de un grupo de cliente en un
periodo determinado. El análisis se realizó sobre cuatro técnicas para modelos scoring como
análisis discriminante, modelo probabilístico, logístico y redes neuronales artificiales, en donde el
modelo seleccionado fue el de regresión logística ya que acertó en más del 99% de las veces para
predecir un incumplimiento.
Delgado, Cardona y Gil (2017) realizaron el diseño de un modelo de scoring para el
manejo eficiente de la cartera en una agencia de cobranzas en Colombia. Se utilizó un modelo de
regresión logística con una base de datos de 16.000 clientes morosos de bancos, cooperativas y
empresas de servicios públicos. Los resultados indicaron que, según las características
socioeconómicas, la morosidad, los ingresos y el endeudamiento, el 50% de la cartera comercial,
de consumo y microcrédito son recuperables. Se concluyó que los modelos de scoring son de
gran utilidad para la gestión financiera, dado que facilita la implementación de políticas de ventas
en términos de plazos y cupos, además de realizar seguimientos más individualizados a sus
clientes.
En la investigación realizada por Delgado (2016) se consideró una segmentación de los
clientes de una cooperativa, para mejorar los procesos comerciales y de mercadeo buscando
impactar los resultados de la empresa. Para ello se usó las herramientas de clústering, donde la
selección de variables obedeció al conocimiento del mercado, la información que la cooperativa
tiene de sus clientes en las bases de datos y la experiencia en el manejo de las mismas. Los
resultados al ejecutar el procedimiento de análisis de conglomerados en dos fases, fueron, tres
clúster “El deudor independiente”, “el deudor asalariado” y “el inversionista de estrato”, que se
vio útil para el área comercial ya que son fuentes importantes en la redefinición de las estrategias
de venta.
El trabajo de investigación realizado por Jerez (2016) explora las asociaciones existentes
entre la venta de productos y las exigencias para acceder a los servicios en una entidad prestadora
de ahorro y crédito. Los datos fueron tomados de una encuesta de servicio, la cual indagó con sus
asociados diversos atributos de la cooperativa y se identificó las variables que son determinantes
en la compra. Los resultados en la ejecución del análisis de correspondencia múltiple reflejaron la
venta de productos de ahorros altamente relacionada con la venta de productos de crédito.
Tumbia, Martínez y Beltrán (2016) identificaron los segmentos más representativos de
los clientes a los que se les desembolsó un crédito con destino libre inversión en una entidad
financiera, mediante un análisis de correspondencia múltiple y un análisis por método jerárquico
aglomerativo. El estudio concluyó que el número óptimo de clusters son tres y que los
principales factores de agrupación fueron la tasa de interés, el monto desembolsado y el segmento
dentro del cual el banco clasifica a sus clientes.
Martínez (2015) realizó un modelo de scoring para facilitar la política de concesión de
préstamos. Utilizó datos de solicitudes de tarjeta de crédito realizadas por clientes extranjeros de
una entidad bancaria, bajo un modelo se scoring a partir de la metodología logit a una muestra del
30 % del total de clientes a los que fue aprobada una tarjeta de crédito, 7.274 observaciones, para
las variables independientes usaron el método stpewise que realiza una secuencia de estadísticos
F para determinar la inclusión o no de las variables, el resultado fue enfocado en determinar los
clientes incumplidos y cumplidos, posteriormente aplicaron el cálculo de puntuaciones, a lo que
concluyeron que las variables que más aportan al score con tasa de mora, la nacionalidad y el
pasivo.
Adicionalmente, en la tesis realizada por Ochoa, Galeano y Agudelo (2010), cuyo
objetivo fue el definir perfiles de prestatarios propensos al incumplimiento de sus obligaciones y
perfiles de prestatarios de buen comportamiento, se implementó una metodología de análisis
discriminante para la construcción de un modelo scoring de otorgamiento de crédito para cierta
base de una cooperativa financiera que contiene el histórico de créditos de 24786 personas, con
fecha de corte a noviembre de 2009, donde se identificaron 30 variables con relación a cada
registro de clientes de la entidad; uno de los resultados importantes es tener en cuenta que el
analista en ningún caso debe conocer las variables que en mayor medida aportan para que se
otorgue el crédito, pues este podrá acomodar variables a su tamaño para obtener un resultado. Así
mismo, concluyó que el poder predictivo del modelo promueve la acumulación de información
enfocada a la actualización permanente de los historiales crediticios, a lo que recomienda que
entre mayor sea la información con la que se cuente, mejor será la predicción que arroje el
modelo.
En cuanto a la aplicación de técnicas de árboles de clasificación, se destaca el trabajo de
Granda y Niño (2016) que diseñaron un framework para mejorar la gestión de cobranza en el
programa de microcrédito de una cooperativa financiera , la cual parte de una base de asociados
con información histórica de variables sociodemográficas, financiera, otorgamiento y
comportamiento de crédito, seguidamente calcularon el default o incumplimiento dado de un

cliente bueno y cual es malo, luego realizaron el análisis de las variables de manera descriptiva y
aplicaron las técnicas estadística de árboles de clasificación, análisis discriminantes y regresión
logística. Los resultados permitieron una clasificación correcta superior al 90% en los tres
modelos, además elaboraron la tabla de score distribución que permitió identificar los puntos de
corte de probabilidad de default , es así como aportaron una reducción considerable en la
operatividad y se aumentó la productividad en los cobros de cartera en riesgo, esta investigación
ayudó en la comprensión de la herramienta para facilitar la mejor decisión en el beneficio que se
espera brindar con el trabajo.
1.5 MARCO TEÓRICO
El Banco de la República como autoridad monetaria, cambiaria y crediticia, y con base a
la Ley 31 de 1992, tiene como función estudiar las medidas monetarias, crediticias y bancarias
con el fin de regular la circulación monetaria y el nivel de liquidez en el mercado financiero y
regula el costo de los créditos. Para lograr esto, el artículo 18 de la misma ley señala que las
instituciones financieras y los intermediarios en las operaciones de mercado abierto y cambiario
están obligadas a suministrarle al Banco información de carácter general y particular de sus
operaciones, y los datos que permitan estimar su situación financiera.
Dicho fenómeno se conoce en la literatura económica como el “ciclo de deuda de corto
plazo”. Cuando una economía genera niveles bajos de riqueza, los bancos centrales disminuyen
sus tasas de interés para permitir a más personas acceder a créditos a través de los Bancos
Privados en lo que se denomina un “ciclo recesivo”. Una vez la economía se dinamiza, los
Bancos Centrales aumentan sus tasas en lo que se conoce como un “ciclo de recuperación”.
La tasa de interés de Colombia ha disminuido consistentemente desde septiembre de
2016, del 7.75% al 4,25%. Esta reducción significa que la economía colombiana enfrenta un ciclo
recesivo, donde más crédito e incentivos a la creación de empresas son requeridas para poner la
economía en marcha tras la crisis de petróleo de 2015 y la reforma tributaria de 2017.
Tanto como los Bancos Privados ajustan sus tasas de interés para el público y los
emprendedores, la Reserva Federal presta dinero a cada Banco Central de acuerdo a lo que se
denomina el “ciclo de deuda de largo plazo” que depende del estado de las finanzas
internacionales (Rodríguez D. Economía tu dinero).
1.5.1 Tasa de Interés
En Colombia la Junta Directiva del Banco de la República define la tasa de intervención de
política monetaria que el banco cobra a las entidades financieras por los préstamos que les hace
mediante las operaciones de mercado abierto (OMA) y sus decisiones tienen vigencia a partir del
día hábil siguiente a la sesión de la Junta.
Esta tasa es el principal mecanismo de intervención de política monetaria usado por el Banco
de la República para efectuar la cantidad de dinero que circula en la economía (Banco de la
República).
La tasa de interés puede concebirse, en rigor, como una media de las muchas tasas del
mercado ponderada según la importancia de cada crédito, depósito y colocación dentro del total.
Esto no significa despreciar la diferencia entre las distintas tasas. En particular, las tasas
nominales activas o de colocación de los bancos superan en 10 puntos los riesgos y los plazos en
función de diversas expectativas. Con todo tenemos la percepción de que, al menos en Colombia,
los movimientos relativos de las distintas tasas no son tan fuertes como para restarle importancia
al examen del promedio. En lo que sigue supondremos que tiene pertinencia la discusión sobre
los determinantes y efectos de la “tasa media de interés” y, más aún si podemos que hay un
indicador relativamente adecuado de sus movimientos y niveles (Posada C. Banco de la
República)
Es el precio del dinero en el mercado financiero. Al igual que el precio de cualquier producto,
cuando hay más dinero la tasa baja y cuando hay escasez sube. Cuando la tasa de interés sube, los
demandantes desean comprar menos, es decir, solicitan menos recursos en préstamo a los
intermediarios financieros, mientas que los oferentes buscan colocar más recursos (en cuentas de
ahorros, CDT, etc). Lo contrario sucede cuando baja la tasa: los demandantes del mercado
financiero solicitan más créditos, y los oferentes retiran sus ahorros. Existen dos tipos de tasas de
interés: La tasa pasiva o de captación: es la que pagan los intermediarios financieros a los
oferentes de recursos por el dinero captado y la tasa activa o de colocación: es la que reciben los
intermediarios financieros de los deudores por los préstamos otorgados. Siempre es mayor,
porque la diferencia con la tasa de captación es la que permite al intermediario financiero cubrir
los costos administrativos, dejando además una utilidad. Esta última asociada al estudio del
trabajo.
1.5.2 Factores determinantes de la tasa de interés de crédito
Las tasas de interés de colocación son aquellas que aplican para los diferentes tipos de créditos
y productos que otorgan las diferentes entidades financieras a sus clientes. Dentro de los
diferentes tipos de crédito se tienen: créditos de vivienda, créditos de consumo, créditos
comerciales (ordinario, preferencial y tesorería), microcrédito, tarjetas de crédito, sobregiros,
créditos especiales.
El Banco de la República calcula y publica los datos semanales y mensuales de tasas y montos
de las diferentes modalidades de crédito de los establecimientos de crédito vigilados por la
Superintendencia Financiera de Colombia, para esto utiliza el Formato 088 dentro del cual las
entidades registran las nuevas operaciones denominadas en moneda legal y realizada durante la
semana. La información se publica con periodicidad semanal y mensual desde 3 de mayo de
2002, y se presentan por modalidad de crédito, subcuentas y subcuentas criterio Banco de la
República por tipo de entidad y para el total de entidades. Adicionalmente, las tasas de
colocación consolidadas con periodicidad mensual presentan información desde marzo de 1998,
y de la tasa de interés activa total, la cual dejó de calcularse en el mes de abril de 2001 (Fuente
Banco de la República)
A partir de la información de tasas y montos reportados en el formato 088 por parte de los
establecimientos de crédito vigilados por la Superintendencia Financiera de Colombia se calculan
los agregados de tasas activas. La metodología de cálculo consiste en tasas promedio ponderadas
por los desembolsos y sumatorias de montos que permiten agregar la información por categorías
de crédito, plazos, entidades y semanas. Es decir:
∑ r i qi
i=1
n
∑ qi
i=1
Donde n = es el número de establecimientos de crédito que reportan, r i es la tasa
promedio de la operación de crédito de la entidad i, q i es el desarrollo del crédito a la tasa r i de
la entidad i
Las tasas de interés publicadas se clasifican en:

 Tasas promedio ponderadas y sumatorias de los montos de los créditos de vivienda, de
consumo, microcrédito, comerciales (ordinario, preferencial o corporativo y de tesorería),
de tarjetas de crédito, de los descubiertos en cuenta corriente bancaria, de los especiales
acordados según las Leyes 550 de 1999 y 617 de 2000 por tipo de entidad y total de
entidades. - Tasas promedio ponderadas y sumatorias de los montos de las subcuentas por
tipo de entidad y total de entidades
 Tasas promedio ponderadas y sumatorias de los montos de las subcuentas agregadas
criterio Banco de la República por tipo de entidad y total de entidades. Las subcuentas
criterio BR hacen referencia a:
Tasa de interés de colocación Banco de la República: Calculado como el promedio
ponderado por monto de las tasas de crédito de: consumo, preferencial, ordinario y tesorería.
Debido a la alta rotación de este último tipo de crédito, su ponderación se estableció como la
quinta parte de su desembolso semanal. Esto último debido a la alta volatilidad tanto en tasas
como en montos observada en este tipo de créditos.
Tasa de interés de comercial Banco de la República: Calculado como el promedio
ponderado por monto de las tasas de crédito de: preferencial, ordinario y tesorería. Debido a la
alta rotación de este último tipo de crédito, su ponderación se estableció como la quinta parte de
su desembolso semanal.
Tasa de interés de colocación: Calculado como el promedio ponderado por monto de las
tasas de crédito de: consumo, preferencial, ordinario y tesorería. Banco de la República (s.f)
Tasas de Colocación. Obtenido de http://www.banrep.gov.co/tasas-colocacion.
1.5.3 Margen de intermediación.

El margen de intermediación bancaria es un término que hace referencia a la diferencia que
existe entre los intereses que paga el banco a quien ha solicitado el dinero y los que cobra a quien
se lo presta.
1.5.4 Tipos de tasa de interés de crédito
Las tasas de interés pueden ser fijas y mantenerse estables mientras dura la inversión o se
devuelve el préstamo, o variables y actualizarse cada período de tiempo con base en algún
indicador de referencia, por ejemplo, la DTF.
Cuando la tasa es variable, se le adiciona un spread o puntos adicionales a la tasa de referencia
para obtener la tasa de interés, de allí que muchas veces se indique que la entidad financiera
presta a la DTF + unos puntos de spread.
1.5.5 Comité de Tasas (interno)
Con el objetivo de evitar que la Cooperativa otorgue créditos a asociados que presentan alto
riesgo de incumplimiento, se evalúan diversas variables a través del scoring de créditos, el cual le
asigna una calificación indicando si éste es aceptable o no para tomar crédito.
Estos asociados que inicialmente toman crédito, posteriormente requiere que la Cooperativa
les ajuste la tasa de interés, disminuyéndola en unos puntos porcentuales, mejorar algunas de las
condiciones del crédito o prepagar la obligación en su totalidad porque otra entidad financiera les
presenta una mejor oferta o disponen del capital total para pagar el saldo del crédito. En estos
casos; si el asociado lo requiere, el comité de tasas de crédito evalúa nuevamente el perfil del
asociado, revisando su comportamiento de pago, el historial de operaciones anteriores, nivel de
ingresos, actividad económica, entre otras, para determinar si le otorga el beneficio de reducirle la
tasa de interés.
1.5.6 Límites sobre las tasas de interés
Las entidades financieras, las Cooperativas de ahorro y crédito entre otras, deben regirse en
todo a las tasas certificadas por la Superintendencia Financiera de Colombia, quien emite la tasa
máxima de interés que pueden cobrar. Entidad que en ejercicio de sus atribuciones legales y en
especial de lo dispuesto en los Decretos 519 de 2007, 919 de 2008; 3819 de 2008, expide dicho
certificado.
En el evento en que la tasa de interés cobradas supere esos límites podría incurrirse en el delito
de usura registrado en el artículo 305 del Código Penal, el cual se configura cuando se recibe o
cobre, directa o indirectamente, a cambio de préstamo de dinero o por concepto de venta de
bienes o servicios a plazo, utilidad o ventaja que exceda en la mitad del Interés Bancario
Corriente que para los períodos correspondientes estén cobrando los bancos.
En el evento de presentarse un cobro de intereses superando la tasa de usura la denuncia de tal
situación se debe instaurar ante la Fiscalía General de la Nación, entidad a la cual le corresponde
investigar conductas punibles, calificar los procesos y acusar ante los jueces y tribunales
competentes a los presuntos infractores de la ley penal, bien de oficio o por denuncia presentada
ante alguna de las autoridades competentes.
En caso de que el interés convenido excede dicho límite durante la vida de un crédito, deberá
ajustarse inmediatamente para el período correspondiente, sin que se requiera un acuerdo de
voluntades, dado el carácter de orden público de la norma. Entonces, la disminución en el interés
aplicado por la entidad financiera deberá reflejarse durante los periodos de causación en que la
tasa convenida supere la tasa de usura.
1.5.7 Clasificación de los créditos

1.5.7.1 Crédito de consumo:
Los créditos de consumo están dirigidos a personas naturales para financiar la adquisición de
bienes o servicios. Es decir; recoge los créditos otorgados para compras comunes de los hogares,
como la compra de un vehículo, muebles, viajes, entre otros.
1.5.7.2 Crédito Comercial
Es una modalidad de crédito que se busca financiar en el corto plazo, a la compañías
comerciales, que requieren de capital de trabajo para la adquisición de bienes o pago de
servicios orientados a la operación de la misma compañía. Así mismo se puede llegar a
utilizar para refinanciar pasivos con otras entidades financieras y proveedores de corto
plazo.
1.5.7.3 Microcrédito
Son operaciones de crédito, otorgadas a microempresas cuya unidad de explotación económica
realizada por persona natural o jurídica, en actividades empresariales, agropecuarias, industriales,
comerciales o de servicios rurales o urbanos.
1.5.7.4 Vivienda
Son créditos de vivienda, independientemente del monto, aquellos otorgados a personas
naturales, destinados a la adquisición de vivienda nueva o usada, o a la construcción de vivienda
individual.
1.5.8 Modelos de scoring
Desde los años 60 las entidades financieras han utilizado scoring de crédito en sus actividades
como principal herramienta para evaluar el riesgo que representa un cliente cuando requiere un
crédito, estas técnicas permiten analizar su historial crediticio y predecir el comportamiento del
cliente en función de una característica o varias características observadas en el tiempo de
vinculación con la entidad. Los modelos de scoring son claramente métodos mucho más
sofisticados pues brindan mayor información acerca de las relaciones entre las variables,
proporcionando la viabilidad del crédito, que monto de crédito se otorgará y bajo qué
condiciones, por lo tanto, es estos modelos se cometan menos errores, al ser menos drásticos al
momento de clasificar los individuos.
El presente trabajo se desarrolla con el fin de hallar un modelo que permita otorgar a los
asociados preferenciales un beneficio en la tasa de interés de la cooperativa, con el objetivo de
mejorar el proceso de asignación de tasa para el mejoramiento del proceso mediante tres
herramientas estadísticas. A continuación, se exponen los elementos teóricos referentes a los
métodos estadísticos que se usaran en el contenido del trabajo.
1.5.9 Análisis de Clúster
Esta es una técnica que busca agrupar los individuos que presenten mayor homogeneidad
(similares o próximos entre sí) y que mediante la medida de similitud permite ir clasificando a los
individuos en unos u otros grupos, encontrando relación entre las variables.

Fuente: Elaboración Propia
Etapas de un análisis de clasificación o clúster.
1. Selección de las variables
Las variables se tienen en cuenta de acuerdo a su relevancia en los objetivos del estudio, lo que
permite la configuración de los grupos con una composición específica. Estas variables deben
presentar una métrica continua -aunque pueden ser cualitativas de tipo binario (dicotómicas, con
valores 0/1) o bien pueden ser datos de frecuencias. Generalmente, al previo análisis de clúster se
realiza un análisis factorial de componentes principales o de correspondencias, esta nueva
variable factorial obtiene los valores para cada individuo para proceder a la clasificación, esto con
el objetivo de obtener una nube de puntos donde los individuos se disponen de acuerdo a las
características que más les discriminan y los hacen diferentes, con las ventajas incorrelación
estadística. Al seleccionar las variables es necesario hacer comparable su métrica
estandarizándolas, lo que permite hacer comparaciones de las unidades.
2. Elección de la medida de proximidad
Se debe tener claro el criterio de proximidad o de distancia, ya que es importante en la formación
de los grupos. Hay variedad medidas que se representan como índices diversos donde se debe
tener en cuenta el nivel de medida de las variables. Las medidas o coeficientes de proximidad se
pueden dividir en cuatro grupos: Medidas de distancia, Coeficientes de correlación, Medidas de
asociación para variables binarias, Medidas de similitud probabilística.
2.1 Medidas de Distancia
Expresión en términos de distancia, el individuo i es más parecido a k que a j.

La definición de la métrica de similitud / distancia será distinta en función del tipo de dato y de la
interpretación semántica que el investigador realice. Entre están medidas se encuentran de
similaridad o disimilaridad.
Dentro de las medidas de similaridad que miden la proximidad entre dos elementos,
conforme aumenta su valor, aumentará la similaridad entre los individuos. En muchas ocasiones
los indicadores de similitud se basan en coeficientes de correlación o de asociación y coeficientes
de congruencia.
Coeficiente de Correlación de Pearson. Es un índice utilizado para medir el grado de
relación de dos variables preferiblemente cuantitativas. Además, reporta un valor de correlación
cercano a 0 como un indicador de que no hay relación lineal, un valor de correlación cercano a 1
es porque existe correlación y un valor mayor a cero que se acerque a 1 da una mayor correlación
positiva entre los datos.
ΣZxZy
r=
N
Fuente: (Gallardo, 2011)
Coeficiente de Congruencia. Basados en el producto escalar de dos vectores, o la suma
de los productos cruzados. El producto escalar puede interpretarse como el producto de la
longitud del vector Xj por la longitud de la proyección de Xi sobre Xj. El coseno del ángulo es
una medida de similaridad entre Xi y Xj, con valores entre -1 y 1 en virtud de la desigualdad de
Schwarz.
p
∑ xr j ys j
j=1
C= p p
√∑ √∑
j=1
x ⋅ 2
rj
j=1
y 2s j
Fuente: (Gallardo, 2011)
Respecto a las medidas de disimilitud o las medidas de distancia, que en su efecto cuanto
mayor es el valor de la misma es mayor la diferencie entre los datos.
Entre las medidas más utilizadas se mencionan:
Distancia Euclídea al cuadrado. sabiendo que X (individuo con dos características) y Y
(individuo con dos características), se utilizada para identificar que tanto se parece X a Y ó en
cuanto se diferencia en cada característica y esas discrepancias quiero medir en un solo valor ,
entonces se suma y eleva al cuadrado.
ⅆ2 ( x , y )
Distancia Euclídea. es la raíz a la suma de los cuadrados de la diferencia entre los valores
de cada individuo.
2
ⅆ ( x , y )= √ ∑ ( x− y )
En el clustering a todos los individuos se deben convertir en valores adimensionales.
dato−valor mínimo dato

z= =
valor máximo−valor mínimo u
Se establece que todos los métodos parten de la Matriz de Distancia, la cual es de orden
n*n , en donde n= Número de individuos ó empresas ó establecimientos.
ẟ11 ẟ12 … ẟ1 n
ẟ21 ẟ22 …. ẟ2 n
Δ=⌈ … ⌉
…
…
ẟn 1 ẟn 2 … … ẟnn
3. Elección del método de Clasificación
Cada método puede generar soluciones distintas, a partir del mismo conjunto de datos
analizados, cada uno de ellos emplea criterios diferentes en la conformación de los grupos, por
esto, es importante conocer las características propias de cada método para seleccionar el más
apropiado de acuerdo a la problemática tratada. Estos métodos de clasificación se dividen en:
Jerárquicos, No jerárquicos y Mixtos.
4. Clasificación y número de grupos:
El grupo se determina dependiendo si la investigación es más hipotética y teniendo en cuenta
las características del método clasificatorio puede o no exigir inicialmente, buscando determinar
y validar cuantos grupos formarán parte de la clasificación final.
Se detallan los siguientes tres grupos:
a. El proceso de aglomeración proporciona la información relativa al proceso de
clasificación en cada etapa de participación de las unidades. El número total de etapas
seguidas es igual al número de casos menos uno. En cada etapa se calcula un valor que
indica la distancia en las que se forman las particiones. Al producirse un salto importante
en cada escala, es porque se han unido dos grupos con diferencias internas, en este caso al
decidir el número de grupos se debe tener en cuenta el criterio de retener la partición
anterior a la partición que se forma con un salto importante en el índice, es por esto que el
dendrograma se corta a ese nivel.
b. Proporción de varianza explicada por cada partición. La partición en un número de grupos
asociada a una proporción de varianza explicada mayor en relación a otra partición con
menor número de grupos, o cuando el aumento de varianza explicada es poco importante,
se puede determinar el número de grupos adecuados.
c. El criterio teórico. Al determinar el número de grupos se debe tener en cuenta un criterio
teórico de interpretabilidad, que justifica y da sentido al contenido de los grupos que
resultan en una agregación pertinente.
5. Validación e interpretación de los resultados:
Es importante realizar validación a los resultados de un análisis clasificatorio, teniendo en cuenta
el carácter exploratorio y la diversidad de soluciones posibles que se puedan presentar. En caso
de combinar el análisis de clasificación con un análisis factorial previo se pueden adicionar
variaciones en función de las decisiones en número y contenido de los factores.
Algunos criterios para validar los resultados
a. Coeficiente de correlación cophenético de Goodman y Kruskal. es un indicador de la
posición de los distintos grupos a través del cual podemos realizar comparaciones entre
diferentes dendrogramas de los diversos métodos de clasificación, a la vez que no sirve
para fijar una medida de ajuste entre los datos de partida y la estructura del dendrograma.
b. Simulación de Montecarlo. A partir de números aleatorios se genera una nueva matriz a
la de los datos originales, se efectúa un análisis clasificatorio y se comparan los
resultados.
c. Comparación de métodos distintos entre sí.
Mediante el proceso de validación se busca asegurar que la decisión sobre la tipología final
sea coherente, pertinente y estable, a su vez, existen otras técnicas descriptivas para la
interpretación de los resultados, como son las tablas estadísticas que relacionen las tipologías
obtenidas con las variables que han actuado de criterios clasificatorios, con otras que puedan ser
de interés. Al relacionarse con variables cualitativas se puede realizar un análisis de tablas de
contingencia o diferencia de proporciones y al tener variables cuantitativas se realiza un análisis
de comparaciones de medias.
1.5.10 Regresión Logística Ordinal u Ordenada
Modelos de regresión logística. Son modelos estadísticos que permiten conocer la
relación entre una variable dependiente cualitativa, dicotómica (regresión logística binaria o
binomial) o más de dos categorías (regresión logística multinomial o regresión logística ordinal)
y entre variables explicativas independientes, ya sean cualitativas o cuantitativas.
Modelo de Regresión Logística Multinomial. Es utilizado en modelos con variables
dependientes de tipo nominal con más de dos categorías (politómica) y es una extensión
multivariante de la regresión logística binaria clásica. Las variables independientes pueden ser
continuar (covariables) o categóricas (factores).
Al analizar estos modelos, se elige una categoría como referencia de la variable
dependiente o de respuesta y se modelan varias ecuaciones simultáneamente, una para cada una
de las restantes categorías respecto a la de referencia.
Requisitos y etapas de la regresión logística:

 Recodificar las variables independientes categóricas u ordinales en variables ficticias o
simuladas y la variable dependiente.
 Evaluar efectos de confusión y de interacción del modelo explicativo.
 Evaluar la bondad de ajuste de los modelos.
 Analizar la fuerza y significancia de los coeficientes, los exponenciales y estadísticos de
prueba.
En el modelo de regresión logística multinomial, la variable dependiente presenta más de dos
categorías, y al considerarse una variable respuesta politómica (Y) con más de dos categorías de
respuesta que se denota por Y 1 ,Y 2 , … .Y K .
Se busca explicar la probabilidad de cada categoría de respuesta en función de un conjunto de
covariables X = { Y 1 , Y 2 , … . Y n } observadas. Es decir, ajustar un modelo de la forma;
p j( x) = P [ Y =Y J ./ X=x ] =f j ( x ) ∀ j=1 , … , k
Para cada vector x de valores observados de las variables explicativas X.
Cuando la variable respuesta es politómica, la distribución de Bernoulli se convierte en una
distribución multinomial de parámetros las probabilidades de cada una de las categorías de
k
respuesta. Así; ( Y/ X = x ) M (1; p 1(x), …, Pk (x)), siendo ∑ pj ( x ) =1.
j=1
Para un modelo lineal, se obtiene (2k) transformaciones logit para comparar cada par de categorías
de la variable respuesta, que sería de este tipo:
p i (x)
[ ]
ln
p i ( x )+ p j ( x ) pi (x)
p j(x )
p i ( x )+ p j ( x )
.
=
ln
[ ]
pi( x ) ,
.
∀ i, j=1, … k (i≠ j)
Esta ecuación representa el logaritmo de la ventaja de respuesta Y i frente a Y j condicionado a las
observaciones de las variables independientes que caen en uno de ambos niveles.
Para construir el modelo logit de respuesta multinomial se puede considerar (k -1)
transformaciones logit básicas, definidas con respecto a una categoría de referencia, tomando
como referencia la última Yk. Así las transformaciones logit generalizadas se definen como;
p j(x )
Lj (x) = ln
[ ]
pk ( x )
∀ j = 1,…. K - 1 , siendo Lj (x) el logaritmo de la ventaja de respuesta el
logaritmo de la ventaja de respuesta Yj dado que las observaciones de las variables
independientes caen en la categoría Yj o en la Yk.
El modelo lineal para cada una de las transformaciones logit generalizadas, para n variables
explicativas, es así:
n
Lj ( x )=∑ bsj x s=x b j ∀ j=1 , … . , k−1
s=0
Para cada vector de valores observados de las variables explicativas con X = (Xo, X1, X2,….
Xn) con Xo = 1 y bj = (boj, b1, … bnj) el vector de parámetros asociado a la categoría Yj.
Interpretación del modelo. Cuando la variable explicativa predictora es categórica, se
puede incluir en el modelo variables independientes categóricas, se incorporan mediante el diseño
asociadas a variables dummies.

Al tener la variable categórica A con categorías A1, …. Ap. Al realizar la transformación a
variables de diseño mediante el método parcial que asigna un 1 a la variable asociada a cada
categoría y un cero 0 a las otras, y tomando como categoría de referencia la primera, obtenemos
p-1 variables que se denotan como X Am ( m=2 ,… p ) . Para el modelo se deben incorporar todas las
variables que se consideren importantes, independientemente de si se ha demostrado o no
significación estadística en un análisis univariado.
2. CAPÍTULO 2
METODOLOGÍA
En el capítulo se concentra en la gestión de los datos y la definición de las variables.
Además, se presenta la necesidad de evaluar la calidad de la información previamente al análisis
estadístico, con la exposición de los criterios para la depuración de la base de datos.
2.1 Descripción de Variables
Basados en la información suministrada por la cooperativa de ahorro y crédito, que consta
de los créditos vigentes (activos) a cierre de diciembre de 2019, la cual se depuró, adicionalmente
se toma información socio demográfica proveniente de la base única de clientes de la
cooperativa, evaluando los pesos asignados a cada una de las 19 variables a estudiar.
2.1.1 Variables Cuantitativas
 Edad: Número de años de cada asociado

 Antigüedad: es la cantidad de años que tiene los asociados a la fecha de corte vinculado
con la cooperativa
 Activos: corresponde a los activos líquidos que reporta el asociado en la base única de
clientes.
 Pasivos: corresponde a los pasivos líquidos que reporta el asociado en la base única de
clientes.
 Ingresos: es el rubro que el asociado recibe de manera mensual según su oficio
 Saldo Depósitos: corresponde a la suma del valor acumulado en cdat, ahorros y aportes,
que el asociado presenta a la fecha de corte (diciembre 2019).
 Apalancamiento: Porcentaje que mide la capacidad de endeudamiento del asociado
(pasivos / activos)
 Prepagos: Corresponde al número de créditos pagados por anticipado ante el plan de
pagos establecido.
 Créditos: es el número de créditos que el asociado ha tenido en la cooperativa durante los
últimos cinco años
 Valor Desembolso: es el valor del crédito desembolsado
 Valor Promedio desembolso: es el valor promedio de los créditos en los últimos cinco
años
 Tasa Efectiva Anual: corresponde a la tasa aplicada al crédito desembolsado
 Días de Mora cierre: es el número de días en estado moroso que presenta el asociado en
el crédito desembolsado.
 Plazo: corresponde al periodo acordado para pagar las operaciones de crédito, hace
referencia al número de cuotas fijadas por el asociado para pagar la totalidad del crédito
vigente.
 Cuotas pagadas: corresponde al número de cuotas canceladas según la frecuencia de
pago pactada a la fecha de corte diciembre 2019.
 Cuotas pendientes: corresponde al número de cuotas por pagar, es la diferencia entre el
plazo y las cuotas pagadas, a la fecha de corte diciembre 2019.
2.1.2 Variables Cualitativas
 Género: Característica general común que se divide en tres categorías femenino,
masculino y no definido, este último hace referencia a los asociados identificados como
persona jurídica.
 Estrato: ubicación del domicilio de los asociados dentro de la sociedad, esta variable se
divide en 7 categorías: 0 no definido, 1 bajo- bajo, 2 bajo, 3 medio-bajo, 4 medio, 5
medio -alto, 6 Alto, 7 alto personas jurídicas.
 Calidad de la Cartera: corresponde al tipo de calificación de la cartera de acuerdo a los
días de mora, la cual se clasifica en 4 categorías A son los créditos que presentan riesgo
normal de mora hasta 30 días, B es la calificación de riesgo aceptable hasta 60 días de
mora, C es la calificación de riesgo regular por mora hasta 90 días, D es la calificación del
riesgo sobresaliente para mora que tiene un límite de hasta 120 días y la calificación E
significa el riesgo más alto dentro de la cartera, que es incobrable para mora mayores a
120 días.
2.2 Depuración de la base de Datos

La cantidad de créditos vigentes a corte de diciembre de 2019 es de 160.760, según
identificación previa se decide realizar una serie de filtros, buscando congruencia en los datos, a
continuación, se describe algunos criterios que serán filtrados:
Los créditos bajo el destino económico “cupo activo”, son créditos que por su plan de pagos
presenta alta volatilidad, porque su saldo se activa de manera rotativa, de esta manera se
eliminaron 52.620 registros.
Los créditos que al momento de establecer las condiciones de pago presentan beneficio
en la misma, estos son los desembolsados bajo el código de producto “Finagro”, “Vivienda
empleados”, “Vivienda empleados segunda vez”, “Crediaportes al 80%”, “Créditos al 200%”,
“Reciprocidad en Cdats”, “Programado largo plazo” y “Crediprima” que se eliminan 9.744
registros.
Los créditos reestructurados es el siguiente criterio de eliminación, con 4.049, hace
referencia a aquellos créditos que han sufrido cambios en las condiciones de otorgamiento o en la
ampliación del plazo y monto.
Los créditos con saldo en cero pesos, ya que al corte de generada la información son
reflejados, son 439 registros que se eliminan por tratarse del pago anticipado (prepago) del
crédito, que consiste en reembolsar todo el financiamiento antes del periodo pactado.
Los créditos duplicados se filtran 8.490 registros, que corresponde al número de créditos a
nombre del mismo asociado ya sea por el mismo destino o por otro. En este sentido permanecen
los créditos que contienen la cuantía mayor y conserva sus datos iniciales, respecto a las variables
de saldo depósitos, edad, género, estrato, activos, pasivos, ingresos.

Los Ingresos menores a un salario mínimo legal vigente se eliminan ya que por política de
otorgamiento de crédito es un requisito contar con este ingreso, se reducen 1.545 registros.
Respecto a los registros en activos y pasivos se identifican valores atípicos que no
corresponde a la realidad, se asumen errores operativos en digitación por parte de los asesores
que al momento de diligenciar estos datos los realizan basados en cumplir un requisito y no se
por muestra el comportamiento real de los bienes, se depuran 16.903 activos y 17.936 en pasivos.
Basados en el indicador de apalancamiento (pasivos / activos) se evidencia porcentajes
atípicos, superiores al 100%, a lo cual se filtran 2.071 registros.
Se evidencia que 5.919 registros corresponden a montos desembolsados por la línea 1
(libranza), que ya presenta un beneficio en tasa, además el respaldo de la pagaduría incentiva a
que estos registros se otorguen son tal beneficio.
Respecto a los créditos de Presta U, se filtran 1.371 registros, toda vez que comprenden
créditos con ciertas campañas en becas y auxilio económico en la apertura de aportes por parte
del fondo de solidaridad de la cooperativa en estudio.
Se filtran 1.089 registros que según el plazo pactado para terminar su crédito es de seis (6)
meses, ya que el retorno de los intereses es muy corto plazo. Posterior a depurar los anteriores
criterios, la base de datos para realizar el estudio es de 33.428 registros.
3. CAPÍTULO 3
ANALISIS EXPLORATORIO
Dicho análisis está basado en gráficos y estadísticos que permiten examinar la
distribución de los datos, identificando particularidades como los valores atípicos,
concentraciones de valores y forma de distribución.

En primera medida el análisis se realiza de manera univariada, pero los resultados
obtenidos no aportaban conclusiones significativas. Por lo tanto, se realiza un análisis
multivariado aplicando la técnica análisis de Clúster.
En la segunda parte se efectúa el análisis de regresión logística multinomial basados en la
variable respuesta arrojada en el clúster, que contiene tres categorías nombradas “Premium”,
“Básico” y “No aplica”.
Durante el tratamiento de los datos, se utilizó los comandos básicos para los análisis descriptivos
y el paquete FactoMiner, ade4, MASS, psych, rgl, ggplot2, grid, REdaS, psych, GPArotation,
factoextra, datasets, lme4, lattice, cluster del software R-estudio.
3.1 ANÁLISIS DESCRIPTIVO
Con el fin de analizar los datos conceptualizados en el anterior capitulo, se realiza el
análisis descriptivo para extraer conclusiones sobre el comportamiento de las variables utilizadas
en el estudio.
3.1.1 Resumen de Variables estudiadas

Tabla 1. Resultados descriptivos de variables
Al analizar la variable edad, se evidencia que la población en estudio refleja una edad promedio
en los asociados de 45,43 años, la edad mínima es de 18 años y la máxima de 88 años, respecto a
la antigüedad de los asociados presentan un promedio de 4,82 años, cabe resaltar que la
antigüedad máxima asciende a 51 años, lo que se supone que corresponden a asociados
fidelizados. Por otro lado, en variables las variables que representan el comportamiento de los
resultados financieros de los asociados y que al momento de una solicitud de crédito dan a
conocer a la entidad financiera, los Activos que disponen los asociados tiene un valor mínimo de
$5.000.000 y el máximo de $800.000.000, con un activo promedio de $133.696.216 pesos. El
valor del pasivo mínimo es de $830.000 y el máximo de $612.213.658 pesos, con un pasivo
promedio de $25.468.959 pesos. En cuento a los ingresos mensuales del asociado, que son
provenientes de las ventas de sus negocios, salarios, pensiones, arriendo entre otros. El ingreso
promedio se evidencia en $8.109.893, ocupando una fuerte concentración del 75% en montos de
inferiores a $7.000.000, adicionalmente se refleja un valor máximo que asciende a $726.000.000.
Por último, apalancamiento es una variable calculada de los pasivos sobre los activos, es decir;
las deudas que presentan frente al respaldo que tienen para cumplir con sus obligaciones, y se
concentra en los índices del 7% y 34%, lo que indica que los asociados tienen un respaldo
adecuado para cubrir con sus obligaciones.
Correspondiente a los recursos que tienen los asociados en la Cooperativa, a través de sus
cuentas de ahorros, CDATs, y aportes, el saldo mínimo de ahorros son $524 y el máximo que
tiene un asociado es de $370.168.144, con un promedio de $1.248.184. El 75% de los asociados
presentan menos de un prepago, esto se refiere a las obligaciones financieras que el asociado ha
pagado en su totalidad anticipada a la fecha de su vencimiento. Durante los últimos cinco años el
75% de los asociados ha presentado 3 créditos, ya sean por diversos montos, plazos o líneas de
crédito y de los asociados el máximo que ha tenido crédito durante este lapso de tiempo han sido
87 créditos.
El 75% de los asociados manejan un valor de desembolso por debajo de $20.000.000,
siendo el mínimo de $1.000.000 y el máximo de $700.000.000 es cual es un dato atípico para esta
variable. Respecto al promedio del valor de créditos, se evidencia que el promedio es de
$12.683.184, con un mínimo de $118.886 y un máximo de $300.000.000, esto representa una
gran variabilidad de los datos.
El promedio de la tasa efectiva anual es del 22.56% con una minina del 11.20% y máxima
de 42.60%, las cuales son asignadas de acuerdo al destino económico, el plazo y el monto por el
cual se otorgue el crédito, en cuanto a los días de mora el promedio es de 17 días , con un
máximo de 2.658 días, el 75% de los asociados presentan cero días de mora, lo que indica un
buen habito de pago pago dentro de los datos analizados, el plazo está representado por los meses
a los que fue otorgada la operación de crédito, es decir un crédito de 1 año es equivalente a un
plazo de 12 meses y se evidencia un mínimo de 7 meses y un máximo de 180 meses, en su
promedio asciende a 46 meses. Respecto a las cuotas pagadas se puede explorar que la media es
de 14 cuotas, y el 75% de los asociados llevan 22 cuotas pagas. La última variable cuantitativa
cuotas pendientes refleja un promedio de 32 meses y un máximo de 154 cuotas, se determina que
en promedio los asociados tienen más cuotas pendientes que las cuotas pagadas, a su vez el 75%
de los asociados presentan por debajo de 46 cuotas pendientes. Lo que quiere decir que estima
que el recaudo de cartera cumpla con el plan de pagos acordado al inicio de cada obligación
financiera.
En cuanto a la descripción de las variables categóricas, se involucra genero conformado
por 18.804 hombres, 14503 mujeres y 121 personas jurídicas, que al relacionar con la antigüedad
presentan un promedio 5 años y un máximo de 51 años, según el estrato socioeconómico se
encuentra discriminado en : 1 el cual abarca 3.993, 2 con 11.377, 3 con 11.008, 4 con 5.694 , 5
con 915 , 6 con 240 y el ultimo estrato 7 con 201, presentando mayor concentración de asociados
en los estratos 2 y 3 denominamos como Bajo y Medio-bajo , respecto a la cartera está clasificada
en A con 31.552, 403 con B , 204 con C, 297 en d y 972 en E, lo que indica un fuerte
concentración en cartera saludable que es la catalogada como A.
3.1.2 Matriz de Correlaciones
La tabla 2 refleja los resultados de la matriz de correlación. En donde se analiza la relación
negativa y/o positiva entre las variables, determinando que variables como activos, pasivo, valor
desembolso, saldo promedio crédito. Pasivos presenta correlación mayor a 0,5 con; activo y valor
desembolso. Numero de crédito con crédito prepagados, valor desembolso con saldo promedio de
crédito. Plazo presenta correlación con cuotas pendientes están moderadamente positiva
relacionadas entre sí. Por lo tanto, estas variables miden la misma destreza en sus características y
aportan un escenario óptimo para identificar el asociado potencial.

Tabla 2. Matriz de correlación de variables numéricas
3.1.3 Detección de observaciones influyentes

Al realizar interacciones previas en el análisis de clúster, se evidencia que los asociados definidos
como “persona jurídica”, poseen valores diferentes en variables como “promedio de créditos”,
“activos” e “ingresos”. Por lo tanto, se procede a excluir 121 datos del posterior agrupamiento y
se concluye estos asociados reflejan valores superiores y diferentes al resto de la población, por
lo que podrían clasificar automáticamente en el grupo óptimo para dar beneficio.
En la figura 9 se muestra la representación gráfica que resume el proceso de agrupación para los
asociados “Persona Jurídica”, en donde es difícil visualizar la diferencia de los tres grupos y el
resultado es una mala clasificación por consecuencia de la heterogeneidad de los datos.
Cluster Dendrogram
2
1
H eigh t
0
09 119 505 567
9759 744 677
9 90 64 41
333 999152 147 340
972 15 41
332 177 389 107 805
9 18 94 33
333 018790 974 668
3 9 76 37
401 87 19
121 755 926 392 729
22 8822 55 29
5223
333 668922 379 739
7 1 12 81
8960 27 71
8 30 86 83
334 780404 624 256
1 8 48 32
446
387227781
0 5 94 76
3321
333 787849 260 464
5 3 39 20
33 675 513 626 099

7 3 17 24
3 0 40 77
60 790 645 871
8 7 05 32
2 0 36 11
712
7 13 67
2 08 94 23
333 178530 522 550
5 5 753 777
53
8 16 04
7 9 259 418
679
33 678 087 792 029
8 29 83
766
333 132145 768 213
26818
95 473 166
19 70
99 54 50
58 12 87
38 42 41
90
34 13 41
71 03 07
22 29
04 77 91
29 818 660
27 365 812
59 196 657
35
87 219 853
75 726 106
69
81 08 97
5605219
4
33 47
334 994
333 83
334 95
33 902
333 62
323 833
333 52
32 350
233 05
333 877
433 00
331 56
333 97
33 951
134 14
432065
434 02
33 76 04
313 25
333 88 49
333 27
322 17 80
333 54
333 113
333 63 39
333 44
33 83
332 560 37
333 83
331 965
33 47 63
323 72
333 729 86
212 99
321 378
233 640 79
23697
4
-1
Figura 9. Dendograma datos “persona Jurídica”
3.2 ANALISIS DE CLUSTER

Con relación al tratamiento de la información, resultado de la depuración (mencionada en el
literal 2.2) y análisis exploratorio (mencionado en el literal 3.1) , se contó con una base de 33.307
datos, con el propósito de originar el agrupamiento de los asociados.
3.2.1 Medida de Distancia

Conocedores del análisis exploratorio donde se detectó presencia de datos outliers, se aplica la
distancia Euclídea como medida de similitud o cercanía entre los asociados.
3.2.2 Estimación del número de grupos

El número de grupos (k), fue determinado inicialmente por el investigador, a su vez contemplado
en uno de los objetivos específicos. Se estimaron tres grupos para diferenciar a los asociados
según la similitud en el comportamiento financiero.
3.2.3 Aplicación Algoritmo Clara

Definido el número de grupos (k =3), seguidamente se opta por utilizar el método K-
medoids, basados en el análisis de dos criterios.
Criterio 1: Al ejecutar inicialmente el método jerárquico presento errores en el
agrupamiento, que se propagaron en la construcción del dendograma, no siendo posible su
reajuste y por ende no se visualizó la caracterización ideas de los asociados.
Criterio 2: El algoritmo de clasificación no jerárquica soportó la robustez de la base de
datos utilizada que asciende a 33.307 datos, además se basó en la minimización de la suma total
de las distancias en lugar de la suma de cuadrados de distancias, identificando así, el punto más
centralmente ubicado en cada grupo.
3.2.4 Variables Seleccionadas

Inicialmente, buscando una reducción de variables se realizó un análisis multivariado
aplicando la técnica ACP (componentes principales) para las dieciséis (16) variables cuantitativas
y para las tres (3) variables categóricas, para estas últimas se creó un factor que almacena las
categorías en la forma de un vector, pero al final no se logró explicar mayor proporción en la
variabilidad total, arrojando un 47.3% para las dos primeras dimensiones.
Después de ejecutar y explorar los resultados obtenidos, se realiza la selección de
variables para el análisis de clúster, bajo el algoritmo CLARA (clustering for large applications)
donde se determinó que las siguientes variables predominan en la consecución de los clústeres.
Para enriquecer el trabajo, adicionalmente se utilizaron tres variables para identificar perfiles de
los asociados y así enfocar estrategias comerciales definidas.
VARIABLES
VARIABLES
VARIABLES UTILIZADAS
UTILIZADAS EN EL
ESTUDIADAS ANALISIS
ANALISIS CLUSTER
CATEGORICO
Edad Activos Edad
Años de Antigüedad Pasivos Genero
Activos Saldo de Depósitos Estrato
Pasivos Apalancamiento
Ingresos Valor Desembolso
Saldo de Depósitos Saldo Prom. Créditos
Apalancamiento Tasa Efectiva
Créditos Prepagados Plazo
Número de Créditos Días de Mora
Valor Desembolso
Saldo Promedio
Créditos
Tasa Efectiva
Días de Mora
Plazo
Cuotas pagadas
Cuotas pendientes
Genero
Estrato
Calidad de la Cartera
3.2.5 Identificación del clúster asignado a cada asociado
xxxxxx
3.2.5.1 Ejecución de interacciones
Al ingresar los datos en el código de R, bajo el algotimo “clara” de clasificación no
jerárquico se presentan las opciones que resultaron de cinco interacciones previas al
agrupamiento final del estudio.
 Clúster dejando menos variables (activos, pasivos, ingresos, saldo depósitos,

apalancamiento, valor desembolso, saldo promedio de créditos, tasa , días de mora y
plazo) y sin estandarizando, el cual proporcionó el 44.9% de explicación de los datos.
 Clúster dejando las mismas variables (activos, pasivos, ingresos, saldo depósitos,
apalancamiento, valor desembolso, saldo promedio de créditos, tasa, días de mora y
plazo) y estandarizadas previamente, el cual proporcionó el 36.1% de explicación de los
datos.
 Clúster utilizando todas las variables estandarizadas (edad, activos, pasivos, ingresos,
saldo depósitos, créditos prepagados , número de créditos, cuotas pagadas, cuotas
pendientes , antigüedad, apalancamiento, valor desembolso, saldo promedio de créditos,
tasa , días de mora y plazo) el cual proporcionó el 36.9% de explicación de los datos
 Clúster utilizando todas las variables sin estandarizar (edad, activos, pasivos, ingresos,
saldo depósitos, créditos prepagados, número de créditos, cuotas pagadas, cuotas
pendientes, antigüedad, apalancamiento, valor desembolso, saldo promedio de créditos,
tasa , días de mora y plazo) el cual proporcionó el 36.1% de explicación de los datos
 Por último, clúster con menos variables y sin estandarizar (activos, pasivos, saldo
depósitos, apalancamiento, valor desembolso, saldo promedio de créditos, tasa y plazo) el
cual proporcionó el 56.2% de explicación de los datos
En la figura 10, se muestra el resumen de clúster seleccionado para el estudio.

Figura 10. Resumen del cluster
Al correr nuevamente el modelo tomando como variables; activo, pasivo, saldos depósitos,
apalancamiento, valor desembolso, saldo promedio de crédito, tasa efectiva y plazo, las cuales
nos explican el 56,2%, siendo el modelo que presenta una correlación moderada entre las
variables.
Para el grupo 1 está conformado por 14.511, con un isolation de 1,545820, lo que
indicando que las distancias entre los individuos es menor frente al grupo 2, es decir se presenta
una menor circunferencia.
Para el grupo 2 está conformado por 10.328 individuos con un isolation de 1,975972, lo
que indicando que las distancias entre los individuos son menores frente al grupo 3, el promedio
de los datos es más alto que el grupo 1, dándose una mayor distancia entre los individuos.
Indicando que los individuos se encuentran un poco más dispersos del punto medio y representan
una dispersión respecto al centroide.

El grupo 3, está conformado con 4.384 asociados, los cuales presentan una mayor
distancia frente a los dos grupos anteriores y se da una circunferencia más dispersa, indicando
que los datos se encuentran mucho más alejados del punto central o del centroide.
Lo que indica es lo que se ve en los gráficos, el grupo 3 es el de mayor dispersión.
Cluster plot
15
10
Dim2 (15.9%)
cluster
1
2
3
5
-5
0 5 10 15 20
Dim1 (40.3%)
Grafico 5. Plot del cluster seleccionado
 Resumen de todos los datos

 Resumen del clúster 1
Clúster 1
De acuerdo a las características de los asociados se identifica que este clúster es catalogado como
“no aplica”, ya que su comportamiento respecto a los demás clústeres presenta menor similitud
para aplicar al beneficio, principalmente según los días de mora son superiores a 16 días.

Clúster 2
Se cataloga como “Básico”, el cual lo integra los asociados con días de mora menores a 15 días,
presentan un plazo de crédito promedio de 48 meses, con un promedio de crédito de $13.200.000,
Principalmente con depósitos intermedios entre $220.000 a $1.300.000 y con activos entre
$110.000.000 y $266.399.000, a los cuales se les ofrecerá beneficio en la tasa de interés.
Clúster 3
Se ha catalogado como “Premium” a los asociados que presentan menos de 5 días de mora los
cuales reflejan un buen habito de pago, su plazo de crédito en promedio es de 50 meses, lo que
nos permite tener un retorno acorde al plazo total, son asociados representativos por el valor del
desembolso de crédito con un promedio de $37.000.000, su valor de activos en promedio oscila
en $411.000.000, en cuanto al saldo promedio de créditos se encuentra en $28.000.000. Por lo
tanto, se les ofrecerá el beneficio en la tasa de interés.
3.2.6 Comportamiento de las variables según el clúster
Es el valor de crédito desembolsado por el

6e+08
asociado, el cual se observa que para el cluster
V A LO R _D E S E M B O LS O
1, presentan un sesgo a la derecha y los datos

4e+08 cluster
1
2 se encuentran muy alejados de la media.
3
2e+08
Presentando una concentración en el bigote, lo
que indica que el valor de desembolso es más
disperso y se encuentra entre el 50% y el

0e+00
1 2 3
cluster
75%.
Mediante la caja y bigotes se puede observar que los asociados tienen mayor dispersión en la
variable valor desembolso entre el 50% y 75%, frente al 25% y 50%. El bigote de la derecha es
más largo que el bigote de la izquierda dándose una mayor dispersión del valor de desembolso, a
su vez presenta un dato atípico. Es muy similar lo que ocurre con el clúster 2, sin embargo, en
este grupo no se presentan datos atípicos.

Mediante el clúster 3, la variable presenta un comportamiento diferente, entre Q1 y Q3 presentan
la misma distribución frente al Q2, a su vez el bigote de la derecha es más largo dándose una
mayor dispersión frente al clúster 1 y 3, presentando datos extremos, pero no atípicos.
1.00 Respecto a la variable apalancamiento

Mediante la siguiente gráfica se observa que
0.75
A p a la n c a m ie n to
cluster
los tres clústeres presentan una distribución
1
0.50
2
3
de las observaciones con asimetría a la
derecha. Se presenta mayor dispersión en el

0.25
0.00 apalancamiento en el clúster 3, frente al

1 2 3
cluster
clúster 1 y 2. Por otra parte, el clúster 3 y 2,
presentan un apalancamiento promedio menor frente al clúster 1.
Para el clúster 2 y 3, el 50% de las observaciones

150
del plazo de crédito se encuentran entre el Q1 y Q3,
y su promedio es muy cercano del uno al otro,

cluster
PLAZO
100 1
2
diferente sucede con los datos extremos y atípicos
3
que se presenta en el clúster 3. El comportamiento

50
del clúster 1, son diferentes a pesar que tratan de
0
compartir el Q3. Este clúster, presenta una mayor
1 2 3
cluster
dispersión en el plazo entre el 50% y 75% de los
asociados, y el bigote de la derecha es más largo que el de la izquierda, por ello por ello hay más
dispersión en el plazo.
La tasa de interés presenta comportamiento

0.4
diferente en los tres clúster; en el clúster 1 las
tasas de interés que manejan los asociados es
mucho más dispersa entre el rango del 50% y el

0.3
cluster
TASA_EA
2
3 75% a diferencia del primer rango, a su vez
0.2
mediante el bigote de la derecha se observa
mayor concentración de la tasa que el lado
0.1 derecho el cual se da mayor dispersión,

1 2 3
cluster
dándose una tasa máxima del 42% y un
promedio del 24%. La tasa de interés mediante el clúster 2, presenta un promedio de la tasa del
21%, dándose una mayor dispersión de la tasa entre el rango el Q2 y Q3, que el Q2 y el Q1. A su
vez se observa una mayor dispersión en la tasa representado por el bigote derecho. Este clúster
presenta datos extremos. En el clúster 3, entre el Q1, Q2 y Q2, Q3, se observa que es muy
similar la dispersión en la tasa de interés que manejan los asociados, sin embargo, aquí se dan
más datos extremos indicando que hay asociados, aunque son pocos que tienen tasas más altas, la
tasa más baja que se da en la población estudiada se encuentra en este clúster con una tasa del
18,49%.
Al observar la variable ingresos para
el clúster 1 y 2, se refleja que los

6e+08
ingresos presentan una fuerte
concentración en montos inferiores a

cluster
4 smmlv, en los tres primeros
Ingresos
4e+08
1
2
3 cuartiles, siendo los valores
2e+08
subsecuentes atípicos y/o extremos
con una alta dispersión.
0e+00
El cluster 3 que está conformado por
1 2 3
cluster 4.383 asociados, los cuales presentan
un promedio de ingreso superior a los
dos clústeres anteriores y se da más concentración entre el Q1 y Q2, frente al Q3. Así mismo,
tienen ingresos extremos y atípicos en sus salarios.
8e+08
El clúster 1, los asociados que
forman parte del clúster 1,

6e+08
tienen una concentración de sus
cluster
activos entorno a la media del
Activos
1
4e+08
2
clúster, es decir a $38 millones
3
en promedio, y presentan mayor
dispersión significativa sobre el

2e+08
0e+00
1 2 3
cluster
Q3, como se observa en la gráfica. A través del clúster 2, se observan que los asociados que lo
conforman tienen activos que no son tan dispersos entre el Q1, y Q3. Se da una mayor dispersión
de los activos sobre el Q3, frente al primer Q1. Mediante el cluster 3, se observa que los activos
comprendidos entre el 25% y el 50% son más concentrados frente al 50% y 75%, dándose un
promedio de $411. 432.921. Así mismo, el bigote derecho es más pronunciado que el izquierdo,
dándose una mayor dispersión de los datos los cuales son denominados extremos y atípicos el
cual presenta un dato máximo de $800millones.
Los asociados tienen una baja

6e+08
concentración entre el 25% y el 50%, y es
más alta la concentración del 50% al
75%. Así mismo hay una alta

4e+08
concentración de datos en el bigote
cluster
1 derecho, dándose una alta presencia de
Pasivos
2
3 datos extremos y atípicos. A diferencia de
2e+08 los asociados que forman parte del cluster
2, tienen obligaciones con terceros, las
cuales no presentan datos tan
ampliamente extremos como el cluster 1.

0e+00
1 2 3
cluster Por otra parte, en el cluster 3, el 50% de
los asociados presentan pasivos de 80
millones (Q3- Q1), el bigote del lado derecho es más largo frente al izquierdo lo que refleja una
alta dispersión en los cuales se presentan datos extremos y algunos atípicos, siendo el máximo de
$612millones en deudas.
El cluster 1, se observa que entre el Q1 y Q3,

2000
hay una alta concentración de los días de
cluster mora. Sin embargo, el 25% de los datos

1
Dias_de_mora
2 tienen una alta dispersión entre los días de

3
1000
mora, y tienen datos atípicos, hay asociados
que presentan días de mora alta, los cuales
son créditos que tienen alta morosidad y se
encuentran en estados pre jurídico o jurídico.

0
1 2 3
cluster El cluster 2 y 3, son asociados que tienen
una alta concentración de asociados que no
presentan mora, así mismo, el día de mora máximo son 15 días. Siendo estos asociados que
mantienen una cartera saludable.
3e+08
En el cluster 1, se observa que el 50% de los
asociados presentan un saldo promedio de

2e+08
Saldo_Promedio_creditos
$7millones. El cluster 2, es de $ 11.150Mil

cluster
1
2 y el cluster 3, es de $25.182millones. En los

3
1e+08
0e+00
1 2 3
cluster
tres cluster se presenta dispersión entre los datos reflejado en el bigote derecho, en una menor
proporción el cluster 2.
Así mismo, el clúster 3 y 1, presentan datos atípicos. Y se da una mayor concentración en el 25%
del bigote derecho en el clúster 3
50
En el clúster 1, hay asociados que no han
cumplido un año de antigüedad en la

40
Cooperativa, el 50% de los asociados tiene 5
30
años, con un promedio de 3 años. Así mismo,
cluster
Años_antiguedad
1 se da una mayor concentración en el bigote

2
20
3 derecho. Se presentan datos atípicos siendo el
máximo de 45 años.
10
En el cluster 2, el 50% de los asociados,
presentan una antigüedad de 6 años, y 8 años

0
en el cluster 3. En los dos clústeres se da
1 2 3
cluster
mayor concentración de asociados entre el Q2
y Q3. Así mismo en el Q3, se da mayor
concentración en el 25% del bigote derecho frente al cluster 2. Y los dos cluster presentan datos
extremos, reflejando que hay asociados que tiene una antigüedad mayor a 9 años, la máxima para
el cluster 3 es de 49 años como asociado de la Cooperativa.

3.2.7 Análisis para perfilamiento de Asociados
3.2.7.1 Genero
La distribución de los asociados según el género la

Genero según clúster
100
mayor proporción corresponde al personal

Masculino
Femenino
masculino en los tres grupos, para el grupo 1 con

80
el 56.89%, el grupo 2 con el 55.79% y el 3 con el

60
56.13% y las mujeres representan una proporción

40
similar, en el grupo 1 con el 43.10%, el grupo 2

20
con el 44.20% y el grupo 3 con el 43.86%.

0
1 2 3
3.2.7.2 Calidad de la cartera
Calidad Cartera según clúster

100
E
D
C
80
B Respecto a la calidad de la cartera los grupos están

A
60
concentrados en los asociados con un buen habito
de pago con un 94.40% para el grupo 1, 94.51%

40
para el grupo 2 y 94.13% para el grupo 3. Este

20
comportamiento es catalogado como cartera

0
1 2 3
saludable, basados en las políticas internas de la
cooperativa en estudio.
3.2.7.3 Estrato Socioeconómico
En cuanto a la distribución del estrato

Estrato Cartera según clúster
100
socioeconómico, los grupos se distribuyen en

7
6
5
similares proporciones, concentrando la
80
4
3
2
1 mayor población en dos niveles “Bajo” con el
60
35.77% para el primer grupo, 32.45% para el

40
segundo grupo y 31.29% para el tercer grupo

20
y en el “Medio Bajo” con el 33.01% para el

0
1 2 3 primer grupo, 33.20% y 32.82%
respectivamente.
3.3 ANALISIS MODELO LOGIT MULTINOMIAL
para evitar el sesgo del cluster 3 se realizó una división en la base de datos (esto mismo se hizo
para el ordinal y no fue solución) de la siguiente manera: Se tomó una base de entrenamiento
(con la cual se formularon los diferentes modelos) de 12.286 individuos, conformados por el 80%
del clúster 3 (3507 individuos), 40% del cluster 2 (4131 individuos) y el 25% del cluster 1 (4648
individuos) y una base de datos para la evaluación del modelo de 21021 datos. Con esta última se
evaluó que tan bien el modelo detecta cada uno de los grupos. Le hice el análisis al último
modelo planteado (tiene el menor AIC) y tiene un nivel de buena agrupación en la mayoría de los
grupos de forma aceptable.

Interpretación de los
coeficientes:
Al aumentar los ingresos aumenta la probabilidad de estar en la categoría dos o tres respecto a la
categoría uno (no aplica). De igual forma se observa con el aumento en los años de antigüedad o
en el aumento del tiempo de plazo de pago del crédito. En el caso de los día de mora, la relación
es inversa (singo negativo de los coeficientes), al disminuir los días de mora, aumenta la
probabilidad de estar en la categoría dos o tres.
En cuanto a la tabla de clasificación tenemos un porcentaje global de buena clasificación del
37,1% (baja), sin embargo, al revisar la clasificación correcta por grupos tenemos que el modelo
clasifica correctamente en un 67.87% (9466/13947)a la población de No recibir beneficio,

clasifica correctamente en un 54,07% (3351/6197) a la población clasificada en el Beneficio
Básico y en un 46,29% (406/877) a quienes están clasificados en Plus.
Interpretación de los exponenciales de los coeficientes:

Al aumentar en un millón los ingresos, aumenta en 8,68% la probabilidad de obtener el beneficio
Básico (categoría 2) en comparación con no aplicársele beneficio. Por cada aumento en un millón
de pesos en los ingresos, aumenta en un 14,42% la probabilidad de obtener el beneficio Plus, en
comparación con no tener Beneficio. También se observa que por cada año de más en la
antigüedad en la cooperativa, es 4,55% más probable de obtener un beneficio Básico y un 6,73%
más probable que se obtenga el Beneficio Plus. En el caso del plazo, por cada mes de más,
aumenta en 2,23% probabilidad de obtener el beneficio Básico y en un 3,15% la probabilidad de
obtener Beneficio Plus, en comparación con no tener Beneficio. Por cada día de mora, disminuye
en un 12,9% (100 -87,10) la probabilidad de obtener Beneficio Básico y en un 15,59% la
probabilidad de tener Beneficio Plus.

Pueden así mismo sacar algunos perfiles: Por ejemplo, un asociado con tantos ingresos, tantos
años de antigüedad, tantos días de mora y tanto plazo…pueden variar alguna de las variables y
mirar las comparaciones. Hallan entonces la probabilidad de pertenecer al grupo Básico (armen
las ecuaciones del modelo), de pertener al grupo Plus (según las ecuaciones que se arman con los
coeficientes) y lo que queda será la probabilidad de no tener beneficio…
Los seudo r cuadrados son: 19,06% el de McFadden

34,06% el seudo R cuadrado de Máxima Verosimilitud (ML) y de 38,37% el Seudo R cuadrado
de Cragg y Uhler's (CU). Valores típicos en una modelación multinomial múltiple.
Ingresos*Dias_de_mora effect plot

3
2
1
0e+00
1e+08
2e+08
3e+08
4e+08
5e+08
6e+08
7e+08 0e+00
1e+08
2e+08
3e+08
4e+08
5e+08
6e+08
7e+08
Dias_de_mora = 0 Dias_de_mora = 510 Dias_de_mora = 1000 Dias_de_mora = 1500 Dias_de_mora = 2000
1.0
0.8
cluster (probability)
0.6
0.4
0.2
0.0
0e+00
1e+08
2e+08
3e+08
4e+08
5e+08
6e+08
7e+08 0e+00
1e+08
2e+08
3e+08
4e+08
5e+08
6e+08
7e+08 0e+00
1e+08
2e+08
3e+08
4e+08
5e+08
6e+08
7e+08
Ingresos
El gráfico deja ver que en clientes con no morosidad, el aumento de los ingresos aumenta
considerablemente la probabilidad de obtener beneficio Plus. Los clientes con alta morosidad
(más de 510 días de mora) no reciben beneficio alguno, a pesar del nivel de ingresos.
Años_antiguedad*Dias_de_mora effect plot
3
2
1
0 10 20 30 40 50 0 10 20 30 40 50
Dias_de_mora = 0 Dias_de_mora = 510 Dias_de_mora = 1000 Dias_de_mora = 1500 Dias_de_mora = 2000
1.0
0.8
0.6
0.4
0.2
0.0
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Años_antiguedad
En el caso de años de antigüedad se observa que en clientes no morosos o con pocos días de
mora, al aumentar los años de permanencia en la cooperativa la probabilidad de obtener el
beneficio plus aumenta considerablemente, disminuyendo de igual forma la probabilidad de no
obtener beneficio. Los clientes con alta morosidad no se ven beneficiados a pesar de la
antigüedad en la cooperativa.
Dias_de_mora*Años_antiguedad effect plot
3
2
1
0 500 1000 1500 2000 0 500 1000 1500 2000

Años_antiguedad = 0 Años_antiguedad = 10 Años_antiguedad = 20 Años_antiguedad = 30 Años_antiguedad = 50
1.0
0.8
0.6
0.4
0.2
0.0
0 500 1000 1500 2000 0 500 1000 1500 2000 0 500 1000 1500 2000
Dias_de_mora
REFERENCIAS BIBLIOGRÁFICAS
De la fuente F. Santiago, Análisis de conglomerados -Fac. Ciencias Económicas y Empresariales
UAM –Universidad Autónoma de Madrid, (2011), disponible en:

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOM
ERADOS/conglomerados.pdf
Hand, D.J. and Henley, W.E. (1997) Statistical Classification Methods in Consumer Credit
Scoring: A Review. Journal of Royal Statistical Society, 160, 523-541.
https://doi.org/10.1111/j.1467-985X.1997.00078.x
Delgado Diego Julián, Segmentación de clientes mediante análisis Conglomerados- Universidad
Industrial de Santander, (2015), disponible en:
http://noesis.uis.edu.co/bitstream/123456789/38756/1/163516.pdf
Dueñas Ricardo, Introducción al sistema financiero y Bancario -Fac. Ciencias Económicas –
Politécnico Grancolombiano Institución Universitaria Member of Whitney, (2008), disponible
en: https://crear.poligran.edu.co/publ/00008/SFB.pdf
Dueñas Ricardo, Introducción al sistema financiero y Bancario -Fac. Ciencias Económicas –
Politécnico Grancolombiano Institución Universitaria Member of Whitney, (2008), disponible
en: https://crear.poligran.edu.co/publ/00008/SFB.pdf
Vásconez Espinosa Gustavo, Scoring, una herramienta para la evaluación de crédito-
Confederación Alemanda de Cooperativas, (2012), disponible en:
https://es.slideshare.net/gustavovasconez/scoring-una-herramienta-para-evaluacin-de-
microcrdito?next_slideshow=2
Dr. Dabós Marcelo, Credit Scoring -Escuela de Negocios –Universidad de Belgrano, (2015),
disponible en:
https://mba.americaeconomia.com/sites/mba.americaeconomia.com/files/credit_scoring.pdf
Martínez Zapata David, Desarrollo y validación de modelo de scoring de admisión para tarjetas
de crédito con metodología de inferencia de Denegados -Universidad Carlos III de Madrid,
Puerta de Toledo (2015), disponible en:
https://www.fundacionmapfre.org/documentacion/publico/i18n/catalogo_imagenes/imagen_id.c
md?idImagen=1102733
Arango Duque Laura y Restrepo Baena Daniel, Diseño de un modelo de scoring para el
otorgamiento de crédito de consumo en una compañía de financiamiento Colombiana, Escuela de
Economía y Finanzas, Universidad Eafit, (2017), disponible en:
https://repository.eafit.edu.co/bitstream/handle/10784/12434/Laura_ArangoDuque_Daniel_Restr
epoBaena_2017.pdf?sequence=2.
Grazt Diana, Caracterización de los clientes de una entidad financiera por medio del Análisis de
Correspondencias, Escuela de Matemáticas, Universidad Industrial de Santander, (2013),
disponible en: http://noesis.uis.edu.co/jspui/bitstream/123456789/38759/1/148304.pdf
Hernández Nathaline, Jaimes Gendler y Mosquera Jemay, Caracterización sectorial y laboral de
las cooperativas en el municipio de Pamplona, Facultad de Ciencias Economicas y
Empresariales, Universidad de Pamplona, (2015), disponible en:
http://revistas.unipamplona.edu.co/ojs_viceinves/index.php/FACE/article/view/2650
Rodríguez, D.E. (2017, 2 de noviembre). Cómo funcionan las tasas de interés del Banco Central.
Economía tu dinero. Recuperado de https://latinamericanpost.com/es/17340-como-funcionan-las-
tasas-de-interes-del-banco-central
Banco de la República (diciembre 2019). Tasas de interés de política monetaria. Recuperado
https://www.banrep.gov.co/es/estadisticas/tasas-interes-politica-monetaria
Posada, C.E. Banco de la República. Las tasas de interés en Colombia. Recuperado
https://www.banrep.gov.co/es/tasa-interes-colombia
Banco de la República (s.f) Tasas de Colocación. Obtenido de
https://www.banrep.gov.co/es/estadisticas/tasas-colocacion
Banco de la República (2019) – Informe semanal de tasas de interés activas o de colocación.
Recuperado https://www.banrep.gov.co/sites/default/files/manual-usuario-tasas-de-
colocacion.pdf
Superintendencia financiera de Colombia (2012, 16 de diciembre). Relación de conceptos,
boletín jurídico. Recuperado https://www.superfinanciera.gov.co/jsp/16026
Ochoa. C. (2015, 18 de mayo) Muestreo probabilístico, muestreo por conglomerados. Netquest.
Recuperado de https://www.netquest.com/blog/es/blog/es/muestreo-probabilistico-muestreo-
conglomerados
Fernández S. (2011) Análisis conglomerados Facultad ciencias económicas y empresariales.
Universidad Autónoma de Madrid. Recuperado de
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/CONGLOM
ERADOS/conglomerados.pdf
López P. (2015) Análisis de regresión logística. Universidad Autónoma de Barcelona.
Recuperado de libro Metodología de la investigación social cuantitativa
López P. (2015) Análisis de regresión logística. Universidad Autónoma de Barcelona.
Recuperado de un deposito digital de documentos, Metodología de la investigación social
cuantitativa
Lopera E. (2018) los arboles de decisión como herramienta para el análisis de riesgos de los
proyectos. Maestría en Gerencia de Proyectos.

Modelo Estadistico para Generar Un Scoring Kat

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelo Estadistico para Generar Un Scoring Kat

Cargado por

Copyright:

Formatos disponibles

MODELO ESTADISTICO PARA GENERAR UN SCORING, QUE PERMITA

OTORGAR EL BENEFICIO DE TASA DE INTERES A LOS ASOCIADOS CON

VIGENCIA CREDITICIA DE UNA COOPERATIVA DE AHORRO Y CREDITO.

MATILDE PULIDO JAIMES

ANGELA KATERINE RANGEL LEAL

UNIVERSIDAD INDUSTRIAL DE SANTANDER

OTORGAR EL BENEFICIO DE TASA DE INTERES A LOS ASOCIADOS CON

VIGENCIA CREDITICIA DE UNA COOPERATIVA DE AHORRO Y CREDITO.

MATILDE PULIDO JAIMES, ANGELA KATERINE RANGEL LEAL

Trabajo de grado para optar al título de Especialista en Estadística

Deicy Villalba Rey

UNIVERSIDAD INDUSTRIAL DE SANTANDER

1.1 OBJETIVO GENERAL………………………………………………….

1.2 OBJETIVOS ESPECIFICOS…………………………………………

1.5 MARCO TEORICO…………………………………………………

1.5.1 Tasa de Interés………………………….

1.5.2 Factores determinantes de la tasa de interés………..

1.5.3 Margen de Intermediación……………….

1.5.4 Tipos de tasa de interés de crédito……………

1.5.5 Comité de tasas (procedimiento interno)……………….

1.5.6 Limites sobre las tasas de interés

1.5.7 Clasificación de los créditos……………..

1.5.7.2 Crédito de Comercial ……………….

1.5.7.3 Crédito de Microcrédito ……………….

1.5.7.4 Crédito de Vivienda ……………….

1.5.8 Modelo de Scoring ……………….

1.5.9 Análisis de Clúster ……………….

1.5.10 Regresión logística Ordinal u Ordenada ……………….

2.1 DESCRIPCIÓN DE VARIABLES………………………………………..

2.1.1 Variables Cuantitativas …………………………………………………..

2.1.2 Variables Cualitativas………………………………………………..

2.2 DEPURACIÓN DE LA BASE DE DATOS………………………….

3. CAPÍTULO 3 ANALISIS EXPLORATORIO……………………………………….

3.1 ANÁLISIS DESCRIPTIVO ………………………………………….

3.1.1 Resumen de Variables Estudiadas ………………………………

3.1.2 Matriz de correlación…………………………………

3.1.3 Detección de observaciones influyentes……………………….

3.2 ANÁLISIS DE CLUSTER………………………………………………

3.2.2 Estimación del número de grupos……………..

3.3.3 Aplicación algoritmo CLARA………………..

3.2.4 Variables Seleccionadas………………..

3.2.5 Identificación del clúster asignado a cada asociado……………

3.2.6 Comportamiento de las variables según el clúster …………………..

3.2.7 Análisis para el perfilamiento de asociados……………………

3.2.7.2 Calidad de la Cartera……………………..

3.2.7.3 Estrato Socio económico …………………

3.3 ANÁLISIS DE REGRESIÓN LOGISTICO MULTINOMIAL ………

3.3.1 Educación definida…………………….

El sector financiero en su búsqueda por captar usuarios, encamina dicha actividad

brindando diversos beneficios como la flexibilización en la compra de cartera, además de otras

perfiles potenciales de crédito con el objetivo de otorgarle un beneficio en la tasa de interés

De esta manera se plantea construir un modelo de scoring, a través de un Logit ordinal,

un beneficio básico y aplicar un beneficio premium.

1.1 Objetivo General

en la reducción de puntos porcentuales a la tasa de interés de crédito, mediante técnicas

1.2 Objetivos Específicos

 Realizar un análisis exploratorio de la información crediticia de los asociados para el

“Básicos” y “no aplica”, con base en las características asociadas al comportamiento

crediticio del asociado.

 Plantear un modelo de regresión logística multinomial con las principales variables de

estudio, para determinar la predicción del beneficio de tasa de interés.

necesidades financieras, ofreciendo productos atractivos y beneficios, como es la reducción de la

de forma anticipada la totalidad del saldo del crédito.