Está en la página 1de 106

ANLISIS DEL RIESGO

DE CRDITO
COMERCIAL EN PYMES
MEDIANTE TCNICAS
DE MINERA DE DATOS
TRABAJO FIN DE MSTER
Mster Universitario en Ingeniera de Anlisis de Datos, Mejora
de Procesos y Toma de Decisiones
Autor: Manuel Terrdez Gurrea
Directores:
Dra. Ana Mara Debn Aucejo
Dr. ngel Alejandro Juan Prez

Septiembre de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

AGRADECIMIENTOS
Aquello que conseguimos con
esfuerzo nos hace mejores.
Sebastin lvaro.

En primer lugar, me gustara dar las gracias a los directores de este Trabajo Fin de Mster:
A Ana, por su cercana y disponibilidad.
A ngel, por su eterna confianza y paciencia conmigo.
A ambos, por supuesto, por la completa y exhaustiva labor de direccin y revisin.
Adems, hay otra serie de personas a las que tambin les debo un agradecimiento:
scar Domnguez, por facilitar la idea que fue el germen de esta investigacin.
Renatas Kyzis y Gabriel Foix, por su asesoramiento en materia financiera.
Marcial Terrdez, por la revisin ortogrfica y de estilo.

Este trabajo est dedicado a mis padres y mi hermano, apoyo y ejemplo constante.

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

NDICE GENERAL

AGRADECIMIENTOS....................................................................................................................... 3
NDICE GENERAL............................................................................................................................ 5
NDICE DE TABLAS ......................................................................................................................... 7
NDICE DE GRFICOS ................................................................................................................... 11
1.INTRODUCCIN ........................................................................................................................ 13
1.1.Motivacin ........................................................................................................................ 13
1.2.Objetivos ........................................................................................................................... 14
1.3.Estructura del documento ................................................................................................ 14
2.REVISIN BIBLIOGRFICA ........................................................................................................ 15
2.1.Crdito comercial .............................................................................................................. 15
2.2.Medicin del riesgo ........................................................................................................... 18
2.3.Relacin entre el crdito comercial y la gestin del riesgo .............................................. 18
3.METODOLOGA......................................................................................................................... 21
3.1.Descripcin del problema ................................................................................................. 21
3.2.Tcnicas estadsticas utilizadas ......................................................................................... 22
3.2.1.Tcnicas paramtricas ................................................................................................ 22
3.2.1.1.Regresin logstica .............................................................................................. 22
3.2.1.2.Anlisis discriminante.......................................................................................... 23
3.2.2.Tcnicas no paramtricas........................................................................................... 24
3.2.2.1.rboles de decisin ............................................................................................. 24
3.2.2.2.Vecinos ms prximos......................................................................................... 25
3.2.2.3.Redes neuronales ................................................................................................ 26
3.3.Medidas de bondad de ajuste ........................................................................................... 27
3.4.Validacin .......................................................................................................................... 29
4.ENFOQUE METODOLGICO UTILIZADO................................................................................... 31

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.1.Introduccin ...................................................................................................................... 31
4.2.Descripcin de la base de datos ........................................................................................ 32
4.3.Descripcin de la muestra ................................................................................................. 33
4.4.Desarrollo de la modelizacin ........................................................................................... 35
4.4.1.Fase I.- Modelo binario .............................................................................................. 35
4.4.1.1.Obtencin de la medida de nivel de riesgo (variable dependiente) ................... 35
4.4.1.2.Obtencin de las variables independientes ........................................................ 37
4.4.1.3.Estrategia de validacin ...................................................................................... 38
4.4.1.4.Modelizacin ....................................................................................................... 40
4.4.1.4.1.Regresin logstica ....................................................................................... 40
4.4.1.4.2.Anlisis discriminante .................................................................................. 45
4.4.1.4.3.rbol con tcnica CRT .................................................................................. 47
4.4.1.4.4.rbol con tcnica CHAID .............................................................................. 50
4.4.1.4.5.Vecinos ms prximos (kNN) ....................................................................... 52
4.4.1.4.6.Red neuronal (Perceptrn multicapa). MLP ................................................ 53
4.4.1.4.7.Comparativa de modelos (AUC) ................................................................... 57
4.4.1.5.Validacin del rbol CHAID ................................................................................. 58
4.4.1.6.Interpretacin del rbol CHAID ........................................................................... 60
4.4.2.Fase II.- Modelo ordinal ............................................................................................. 62
4.4.2.1.Obtencin de la medida de nivel de riesgo (variable dependiente) ................... 62
4.4.2.2.Obtencin de las variables independientes ........................................................ 62
4.4.2.3.Modelizacin ....................................................................................................... 63
4.4.2.4.Validacin ............................................................................................................ 68
4.4.1.5.Interpretacin ..................................................................................................... 70
5.CONCLUSIONES ........................................................................................................................ 71
5.1.Prximos pasos y trabajos futuros .................................................................................... 72
5.2.Publicaciones generadas ................................................................................................... 72
BIBLIOGRAFA .............................................................................................................................. 73
ANEXO I. ANLISIS PRELIMINARES .............................................................................................. 79
ANEXO II. REGLAS DEL RBOL CHAID .......................................................................................... 97
ANEXO III. RESULTADOS DEL BALANCEO DE LA MUESTRA ....................................................... 103

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

NDICE DE TABLAS
Tabla 4.1. Frecuencia de la variable Sector en la muestra de desarrollo ................................... 34
Tabla 4.2. Frecuencia de la variable Tamao en la muestra de desarrollo ................................. 35
Tabla 4.3. Frecuencia de la variable Size en la muestra de desarrollo ....................................... 35
Tabla 4.4. Rating MORE ............................................................................................................... 36
Tabla 4.5. Frecuencia de la variable respuesta en la muestra de desarrollo .............................. 36
Tabla 4.6. Listado de variables independientes .......................................................................... 37
Tabla 4.7. Descriptivos de las variables independientes en la muestra de desarrollo ............... 38
Tabla 4.8. Frecuencia de la variable Sector en la muestra de entrenamiento ........................... 39
Tabla 4.9. Frecuencia de la variable Size en la muestra de entrenamiento ............................... 39
Tabla 4.10. Frecuencia de la variable respuesta en la muestra de entrenamiento .................... 39
Tabla 4.11. Frecuencia de la variable Sector en la muestra de validacin ................................. 39
Tabla 4.12. Frecuencia de la variable Size en la muestra de validacin ..................................... 40
Tabla 4.13. Frecuencia de la variable respuesta en la muestra de validacin ............................ 40
Tabla 4.14. Coeficientes del modelo logstico inicial .................................................................. 41
Tabla 4.15. Proceso stepwise inicial ............................................................................................ 42
Tabla 4.16. Resultado del test de Hosmer-Lemeshow del modelo logstico inicial .................... 42
Tabla 4.17. Matriz de confusin del modelo logstico inicial ...................................................... 42
Tabla 4.18. Matriz de correlaciones de las variables continuas del modelo logstico inicial ...... 43
Tabla 4.19. Inversa de la matriz de correlaciones inicial............................................................. 43
Tabla 4.20. Coeficientes del modelo logstico revisado .............................................................. 43
Tabla 4.21. Proceso stepwise revisado........................................................................................ 44
Tabla 4.22. Resultado del test de Hosmer-Lemeshow del modelo logstico revisado................ 44
Tabla 4.23. Matriz de confusin del modelo logstico revisado .................................................. 44
Tabla 4.24. Matriz de correlaciones de las variables continuas del modelo logstico revisado . 45
Tabla 4.25. Inversa de la matriz de correlaciones revisada ........................................................ 45
Tabla 4.26. Proceso del anlisis discriminante ............................................................................ 46
Tabla 4.27. Coeficientes de las funciones discriminantes de Fischer ......................................... 46
Tabla 4.28. Matriz de confusin del anlisis discriminante ........................................................ 47
Tabla 4.29. Matriz de confusin del modelo CRT ....................................................................... 49
Tabla 4.30. Medidas de riesgo del modelo CRT .......................................................................... 49

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.31. Importancia de las variables en el modelo CRT........................................................ 49


Tabla 4.32. Matriz de confusin del modelo CHAID ................................................................... 52
Tabla 4.33. Medidas de riesgo del modelo CHAID ...................................................................... 52
Tabla 4.34. Matriz de confusin del modelo vecino ms prximo .......................................... 53
Tabla 4.35. Definicin de la red neuronal ................................................................................... 54
Tabla 4.36. Matriz de confusin de la red neuronal ................................................................... 56
Tabla 4.37. Importancia de las variables en la red neuronal ...................................................... 56
Tabla 4.38. Comparativa de modelos mediante el valor del AUC............................................... 58
Tabla 4.39. Valor del AUC de la validacin .................................................................................. 59
Tabla 4.40. Matriz de confusin del rbol CHAID en la validacin ............................................. 59
Tabla 4.41. Frecuencia de la variable respuesta en poblacin de validacin out-of-time.......... 60
Tabla 4.42. Frecuencia de la variable Tamao en poblacin de validacin out-of-time ............ 60
Tabla 4.43. Frecuencia de la variable MORE_Gr8 en la muestra de desarrollo .......................... 62
Tabla 4.44. Coeficientes del modelo logstico ordinal inicial ...................................................... 63
Tabla 4.45. Significatividad del modelo logstico ordinal inicial.................................................. 64
Tabla 4.46. Bondad de ajuste del modelo logstico ordinal inicial .............................................. 64
Tabla 4.47. Matriz de confusin del modelo logstico ordinal inicial .......................................... 64
Tabla 4.48. Coeficientes de correlacin del modelo logstico ordinal inicial .............................. 65
Tabla 4.49. Coeficientes del modelo logstico ordinal modificado ............................................. 65
Tabla 4.50. Significatividad del modelo logstico ordinal modificado ......................................... 66
Tabla 4.51. Bondad de ajuste del modelo logstico ordinal inicial .............................................. 66
Tabla 4.52. Matriz de confusin del modelo logstico ordinal modificado ................................. 66
Tabla 4.53. Coeficientes de correlacin del modelo logstico ordinal modificado ..................... 67
Tabla 4.54. Distancia Chi-cuadrado entre los modelos logsticos ordinales ............................... 67
Tabla 4.55. Coeficiente de correlacin entre los regresores del modelo logstico modificado .. 67
Tabla 4.56. Coeficientes del modelo logstico ordinal inicial en validacin ................................ 68
Tabla 4.57. Significatividad del modelo logstico ordinal inicial en validacin ........................... 68
Tabla 4.58. Bondad de ajuste del modelo logstico ordinal inicial en validacin........................ 69
Tabla 4.59. Coeficientes del modelo logstico ordinal modificado en validacin ....................... 69
Tabla 4.60. Significatividad del modelo logstico ordinal modificado en validacin .................. 69
Tabla 4.61. Bondad de ajuste del modelo logstico ordinal modificado en validacin ............... 70
Tabla A1.1. Frecuencia de la variable Tamao en la muestra de desarrollo .............................. 79
Tabla A1.2. Frecuencia de la variable Size en la muestra de desarrollo ..................................... 79

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A1.3. Frecuencia de la variable Sector_act en la muestra de desarrollo .......................... 80


Tabla A1.4. Frecuencia de la variable Sector en la muestra de desarrollo ................................. 80
Tabla A1.5. Frecuencia de la variable RatingMORE en la muestra de desarrollo ....................... 80
Tabla A1.6. Frecuencia de la variable MORE_Gr8 en la muestra de desarrollo ......................... 81
Tabla A1.7. Frecuencia de la variable MORE_Bin en la muestra de desarrollo .......................... 81
Tabla A1.8. Descriptivos de la variable Antigedad (Age) en la muestra de desarrollo ............. 82
Tabla A1.9. Percentiles de la variable Antigedad (Age) en la muestra de desarrollo ............... 82
Tabla A1.10. Descriptivos de la variable Periodo medio de pago en la muestra de desarrollo.. 84
Tabla A1.11. Percentiles de la variable Periodo medio de pago en la muestra de desarrollo ... 84
Tabla A1.12. Descriptivos de la variable Log_DAP en la muestra de desarrollo ......................... 87
Tabla A1.13. Percentiles de la variable Log_DAP en la muestra de desarrollo ........................... 87
Tabla A1.14. Descriptivos de variables continuas transformadas en la muestra de desarrollo . 89
Tabla A1.15. Listado de casos anmalos identificados por SPSS ................................................ 90
Tabla A1.16. Casos anmalos identificados por SPSS y variables que generan la anomala ...... 91
Tabla A1.17. Resumen del resultado del anlisis cluster k-medias (k=5) ................................... 92
Tabla A1.18. Listado de casos pertenecientes al cluster 5 .......................................................... 92
Tabla A1.19. Matriz de correlaciones de las variables continuas ............................................... 93
Tabla A1.20. Test de diferencia de medias de la variable Log_AP_AR segn MORE_Bin ........... 94
Tabla A1.21. Coeficientes de correlacin de Log_AP_AR vs MORE_Bin ..................................... 95
Tabla A1.22. Media y desviacin estndar de Log_AP_AR segn grupos de MORE_Bin............ 96
Tabla A3.1. AUC del modelo balanceado .................................................................................. 104
Tabla A3.2. Riesgo del modelo balanceado con validacin cruzada ......................................... 104
Tabla A3.3. Matriz de confusin del modelo balanceado ......................................................... 105
Tabla A3.4. Matriz de confusin del modelo sin balancear con punto de corte en 0.2 ........... 105
Tabla A3.5. Coeficiente de correlacin entre los modelos con y sin balanceo ......................... 105
Tabla A3.6. AUC del modelo balanceado en la muestra de validacin ..................................... 106

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

10

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

NDICE DE GRFICOS
Grfico 3.1. Curvas ROC .............................................................................................................. 28
Grfico 4.1. rbol CRT ................................................................................................................. 48
Grfico 4.2. rbol CHAID ............................................................................................................. 51
Grfico 4.3. Modelo vecino ms prximo ................................................................................ 53
Grfico 4.4. Red neuronal ........................................................................................................... 55
Grfico 4.5. Comparativa de modelos mediante curvas ROC ..................................................... 57
Grfico 4.6. Curva ROC de la validacin ...................................................................................... 59
Grfico A1.1. Histograma de la variable Antigedad (Age) en la muestra de desarrollo ........... 83
Grfico A1.2. Boxplot de la variable Antigedad (Age) en la muestra de desarrollo ................. 83
Grfico A1.3. Histograma de la variable Periodo medio de pago en la muestra de desarrollo .. 85
Grfico A1.4. Boxplot de la variable Periodo medio de pago en la muestra de desarrollo ........ 85
Grfico A1.5. Histograma de la variable Log_DAP en la muestra de desarrollo ......................... 88
Grfico A1.6. Boxplot de la variable Log_DAP en la muestra de desarrollo ............................... 88
Grfico A1.7. Boxplot de la variable Log_AP_AR segn grupos de MORE_Bin ........................... 96
Grfico A3.1. Curva ROC del modelo balanceado ..................................................................... 104
Grfico A3.2. Curva ROC del modelo balanceado en la muestra de validacin ........................ 106

11

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

12

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

1.INTRODUCCIN

En este captulo se explican la motivacin y los objetivos del trabajo; as mismo, tambin se
ofrece una breve descripcin de su estructura.

1.1.Motivacin
La gestin del crdito comercial (en adelante, TC, por las siglas de su denominacin en ingls,
Trade Credit) es un asunto de gran importancia para el negocio, especialmente en las
pequeas y medianas empresas (pymes), pues representa una parte importante de los activos
de las empresas.
El crdito comercial es una modalidad de financiacin que surge como consecuencia del
aplazamiento del pago de una compraventa de bienes o de una prestacin de servicios y en la
que el vendedor acta como prestamista y el comprador como prestatario. Se trata de un
instrumento que facilita el intercambio comercial, sobre todo entre las empresas, y supone,
por tanto, un soporte de la actividad econmica: al vendedor le permite ofrecer plazos de pago
que mejor se adaptan a las necesidades de sus clientes y al comprador le ofrece la posibilidad
de poder operar sin la restriccin asociada a la situacin de tesorera. (Garca-Vaquero y
Alonso, 2011).
Sin embargo, es un tema relativamente poco tratado en la literatura cientfica, si lo
comparamos por ejemplo con la gestin del riesgo de crdito bancario, sobre la cual existe
abundante bibliografa. De acuerdo a la revisin de los antecedentes realizada en el captulo 2,
se puede concluir que los motivos son diversos, destacando especialmente dos: la escasez de
datos disponibles sobre TC, y el hecho de tratarse de un producto poco estructurado y por
tanto difcilmente generalizable.
A pesar de esto, es un tema de creciente inters, y especialmente en las dos ltimas dcadas
ha habido un aumento significativo del nmero de artculos que lo tratan desde alguna de las
mltiples perspectivas que ofrece. De hecho, estudios recientes vinculan la gestin del TC y los
retrasos en el pago con la liquidacin y la quiebra de las empresas, pues la concesin de

13

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

crdito comercial implica asumir cierto riesgo de crdito, debido a la exposicin al


incumplimiento de pago.

1.2.Objetivos
En este trabajo pretendemos estudiar la relacin entre la gestin del crdito comercial y el
nivel de riesgo en las pymes, dado que se trata de un problema de gran inters financiero, y
que adems no est suficientemente analizado desde un punto de vista cuantitativo. Para
llevar a cabo el estudio, se aplicarn tcnicas estadsticas recientes como los rboles de
decisin, pues resultan muy fciles de utilizar por el decisor no experto.
Como fuente de datos para el anlisis, utilizaremos la base de datos SABI (Sistema de Anlisis
de Balances Ibricos), que contiene abundante informacin sobre las pymes espaolas. A
partir de dicha informacin, crearemos un modelo multivariante que trate de explicar el nivel
de riesgo a partir de medidas del uso de crdito comercial, as como otras variables tanto
financieras como no financieras.
Todo ello desde la hiptesis de que utilizar un modelo adecuado permitir disminuir el riesgo
asumido por la empresa con respecto a la opcin de basar su estrategia de riesgo en el
establecimiento de reglas homogneas para todos los clientes.

1.3.Estructura del documento


El presente documento se estructura de la siguiente forma: en el captulo 2 se realiza una
revisin bibliogrfica para determinar el estado de la cuestin; en el captulo 3 se describe el
problema que se va a tratar, y las metodologas que se van a utilizar para resolverlo; en el
captulo 4 se explica de manera exhaustiva la metodologa utilizada (descripcin de la base de
datos, tcnicas estadsticas aplicadas, validacin, etc.); en el captulo 5 se explican brevemente
las conclusiones del trabajo; posteriormente se relacionan las referencias bibliogrficas, y por
ltimo se ofrecen los anexos.

14

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

2.REVISIN BIBLIOGRFICA

En este captulo se realiza una revisin bibliogrfica para determinar los antecedentes y la
situacin actual del problema que se abordar en los siguientes captulos, distinguiendo tres
apartados: el crdito comercial, la gestin (y medicin del riesgo), y la relacin entre ambos.

2.1.Crdito comercial
Para mayor informacin sobre las caractersticas ms habituales de los contratos de TC, en la
que no nos centraremos en este trabajo, son interesantes algunos estudios como Pike y Cheng
(2001), Giannetti et al. (2011) y Garca-Vaquero y Alonso (2011). Pike y Cheng (2001) se basan
en los resultados de una encuesta sobre las prcticas y polticas de las grandes empresas del
Reino Unido en cuanto a la gestin de crdito, para detectar la tipologa de empresas que con
ms frecuencia hacen uso del TC, y tambin la influencia del contexto y las decisiones polticas.
Giannetti et al. (2011) analizan las caractersticas del TC y su relacin con el tipo de producto,
el coste y las relaciones entre bancos y empresas. Por su parte, Garca-Vaquero y Alonso
(2011) hacen una introduccin sobre los aspectos contractuales, institucionales y jurdicos que
regulan el crdito comercial en Espaa.
Y para obtener datos y estadsticas sobre el alcance de su uso en los diversos entornos, son
recomendables los siguientes informes: Fraser (2008), Credit Management Research Centre
(2008) y, en Espaa, Garca-Vaquero y Alonso (2011). Fraser (2008), en un informe que
pertenece a la gua de usuario de la UK Survey of SME Finance, analiza los datos obtenidos
en la encuesta desde un punto de vista esencialmente descriptivo, si bien lo complementa con
un interesante anlisis economtrico en el que se combinan diversas medidas relacionadas con
los prstamos. El Credit Management Research Centre (2008) ofrece un informe similar al
anterior, y contiene un amplio apartado en el que se analiza especficamente la informacin
sobre crdito comercial. Por otro lado, Garca-Vaquero y Alonso (2011), en un informe del
Servicio de Estudios del Banco de Espaa, proporcionan datos estadsticos sobre la importancia
del crdito comercial en Espaa y su evolucin temporal, por sector de actividad y tamao de
empresa.

15

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Son mltiples las teoras econmico-financieras acerca de los determinantes para el uso del
TC, las cuales se resumen en Seifert et al. (2013), donde se proporciona una revisin
bibliogrfica exhaustiva. No obstante, seguidamente ofrecemos un breve resumen de las
diversas teoras.
Habitualmente se ha considerado el TC una forma de financiacin alternativa a otras ms
consolidadas (financiacin bancaria, p. ej.) cuando existen dificultades para acceder a estas
(Emery, 1984, Fissman y Love, 2003), especialmente en pases no muy bancarizados y con
mercados financieros poco desarrollados (Demirguc-Kunt y Maksimovic, 2002), resultando
atractiva incluso a pesar de que se le supone un mayor coste en general, si bien puede ser un
medio efectivo de discriminar precios mediante descuentos por pronto pago (Petersen y Rajan,
1997). Por ejemplo, Fissman y Love (2003) obtienen que industrias con una mayor
dependencia del TC crecen ms rpidamente en los pases con un sector financiero
relativamente poco desarrollado. Sin embargo, esto no quiere decir que el TC no sea relevante
en los pases desarrollados. Por ejemplo, en la dcada de los ochenta en Estados Unidos, el
volumen del TC se estimaba dos veces mayor que el volumen del crdito de consumo y siete
veces mayor que el volumen de los bonos corporativos y estatales (Lee y Stowe, 1993). Cuat
(2007) indica que para las empresas medianas del Reino Unido y las empresas pequeas de
Estados Unidos, una cuarta parte de los activos totales y la mitad de los pasivos a corto plazo
se atribuyen al TC. Deloof y Jegers (1999) encuentran que las empresas belgas consideran el TC
como una importante alternativa tambin para los pasivos a largo plazo. Adems, el TC se
considera como una garanta de calidad del producto que se ofrece por los proveedores con
historial corto o sin reputacin alguna, y que tratan de asegurarse una mayor proporcin del
mercado para sus productos (Lee y Stowe, 1993, Long et al., 1993, Klapper et al., 2012). Sin
embargo, otros estudios (Giannetti et al., 2011, Klapper et al., 2012) argumentan que el uso
del TC se debe al poder de mercado que ostentan los compradores potentes, que tienen
capacidad de negociar condiciones de financiacin favorables. Tambin se considera una
forma de mitigar los problemas de asimetra de informacin entre las empresas y sus
proveedores de fondos (Ng et al., 1999). En la misma lnea, Burkart y Ellingsen (2004)
argumentan que el TC conlleva un menor grado de riesgo moral que el crdito bancario. En
efecto, al obtener el crdito en mercancas, el prestatario tiene una menor facilidad de
desviarse de sus obligaciones contractuales que el beneficiario del crdito bancario. As mismo,
el TC puede considerarse como una externalidad positiva que permite a los bancos evaluar
oportunamente el riesgo crediticio de sus clientes y facilitar financiacin de proyectos de
inversin (Biais y Gollier, 1997). Y otros estudios argumentan que se puede utilizar como
herramienta de marketing para fortalecer las relaciones con los clientes, e incluso atraer
nuevos (Paul y Wilson, 2006).
Mediante el uso de tcnicas estadsticas, se ha obtenido evidencia emprica para confirmar
algunas de las teoras anteriormente citadas, como que el TC permite reducir los problemas de
informacin asimtrica entre las empresas y sus financiadores, que las empresas que ms
conceden TC son las que menos lo reciben, o que el TC y el bancario pueden ser sustitutivos o
complementarios. (Rodrguez, 2003 y 2006).

16

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Van der Wijst y Hol (2002) tambin obtienen evidencia emprica acerca de que las empresas
que ofrecen TC asumen el papel de intermediarios financieros, pero sin embargo llegan a la
conclusin de que depende ms de factores operativos que de factores financieros; adems,
aportan otros resultados empricos interesantes, como son la fuerte influencia del sector
industrial, o el hecho de que los dos puntos de vista (cliente y proveedor) se ven afectados por
los determinantes en el mismo sentido, no en sentido contrario como se podra prever.
En la misma lnea, Paul y Guermat (2010), utilizando modelos de regresin lineal para medir el
nivel y la profundidad del TC mediante seis mtricas diferentes, obtienen evidencia emprica
para confirmar las teoras de los costes de transaccin (TC ayuda a reducir tanto los costes de
transaccin como la necesidad de los clientes de mantener altos saldos en efectivo o convertir
activos lquidos en dinero en efectivo) y financiacin (la demanda de TC depende de la tasa de
inters implcita y el coste de las fuentes de financiacin alternativas), pero no las de los costes
de operacin (cuanto ms largos son los ciclos de produccin y ventas, ms tiempo debe
esperar la empresa para cobrar, y de ah la necesidad de recurrir al TC) y el entorno
empresarial (las condiciones macroeconmicas influyen en la demanda de TC).
Otros enfoques ligeramente distintos, pero igualmente interesantes, son aquellos que se
centran en la informacin que las empresas manejan sobre sus clientes a la hora de ofrecerles
TC y su uso para establecer los trminos de la financiacin (Uchida et al., 2006), o los que
analizan el doble punto de vista del TC, como proveedor y como cliente (Van der Wijst y Hol,
2002).
Por otra parte, Wilson (1996) haba examinado las prcticas de gestin de crdito adoptadas
por las pymes en el Reino Unido, encontrando una fuerte relacin entre las buenas prcticas
de gestin de crdito y el rendimiento empresarial. Por ejemplo, informa de una fuerte
relacin entre la eficiencia en la gestin del ciclo de caja y la rentabilidad, y muestra que las
empresas con problemas de retraso en el pago son en general ms dependientes de la
financiacin a corto plazo y ms pobres en trminos de prcticas de gestin de crdito.
En la misma lnea, Garca-Teruel y Martnez-Solano (2007) analizan una amplia muestra de
pymes espaolas mediante el uso de modelos de datos de panel, obteniendo evidencia
emprica sobre los efectos de la gestin del capital circulante en la rentabilidad de las pymes
espaolas, concluyendo que los directivos pueden crear valor reduciendo el periodo medio de
cobro a clientes, y que la reduccin del ciclo de efectivo incrementa la rentabilidad de la
empresa.
Deloof (2003) deriva una conclusin semejante a partir de una muestra de las empresas
belgas. Ms concretamente, el autor concluye que la rentabilidad de las empresas depende
inversamente de las cuentas pendientes de cobrar, las cuentas pendientes de pagar y los
inventarios.
Por otro lado, Martnez-Sola et al. (2012) analizan el efecto de la poltica de TC en el valor
burstil de la empresa, concluyendo que existe una relacin cncava: positiva para valores
bajos de inversin en TC, y negativa para valores altos.

17

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

2.2.Medicin del riesgo


Por lo que respecta a las metodologas ms habituales para medir el riesgo de crdito, las
primeras investigaciones sobre prediccin del impago o la insolvencia empresarial se centraron
en determinar cules eran los ratios contables ms predictivos, principalmente utilizando
Anlisis Discriminante Mltiple (MDA) o modelos logsticos (logit/probit). Generalmente, los
ratios utilizados como predictores se calculan un ao antes del evento (impago o quiebra), y
por tanto se trata de modelos estticos.
Altman (1968) y Ohlson (1980) se consideran las obras seminales en este mbito. Altman
utiliz MDA, y esta tcnica ha sido tambin utilizada en un gran nmero de trabajos
posteriores, tales como Deakin (1972) y Micha (1984). Posteriormente, Ohlson introdujo la
regresin logstica, que tiene algunas ventajas sobre el anlisis discriminante segn veremos
en la seccin 3.2.1.1, por lo que una gran cantidad de estudios han seguido esta lnea (Aziz et
al, 1988; Becchetti y Sierra, 2002).
Unos aos ms tarde se empezaron a introducir las tcnicas de machine learning y minera de
datos en el mbito financiero, especialmente los rboles de decisin (Frydman et al., 1985) y
las redes neuronales (Coats y Fant, 1991).
Una excelente recopilacin de las diversas metodologas utilizadas para estudiar la
problemtica del fracaso empresarial la podemos encontrar en Balcaen y Ooghe, 2006.
La mayora de estos estudios analizan grandes empresas que cotizan en Bolsa, y por tanto en
ocasiones no slo utilizan ratios contables sino tambin informacin de mercados burstiles.
Sin embargo, la informacin de mercado no est disponible para las pymes, que requieren
herramientas y metodologas de gestin del riesgo desarrolladas especficamente para ellas, y
la investigacin en este sentido es relativamente escasa.
La crisis financiera actual ha renovado el inters por la investigacin y el desarrollo de este tipo
de modelos para todos los sectores empresariales (Altman et al. 2010), y de ah que ciertos
estudios recientes, mediante el uso de tcnicas estadsticas, han contribuido al conocimiento
de los indicadores que anticipan la insolvencia en la pyme, tanto financieros (Correa et al.,
2003; Altman y Sabato, 2007) como no financieros (Grunert et al., 2004; Altman et al., 2010).
Fantazzini y Figini (2008) proponen un enfoque no paramtrico basado en el anlisis de
supervivencia, mediante un modelo random-forest.

2.3.Relacin entre el crdito comercial y la gestin del riesgo


Por todo ello, no sorprende que una lnea de investigacin reciente y de gran inters, en la que
se enmarca este trabajo, sea la que vincula la gestin del TC y los retrasos en el pago con la
liquidacin y la quiebra de las empresas, o con la refinanciacin (o reestructuracin) de la
deuda (Wilner, 2000; Cuat, 2002), pues la concesin de TC implica asumir cierto riesgo de
crdito, debido a la exposicin al incumplimiento de pago, por lo que puede tener efectos
negativos sobre la rentabilidad y la liquidez (Cheng y Pike, 2003).

18

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Sin embargo, los trabajos que han vinculado el uso del crdito comercial con los procesos de
liquidacin e insolvencia por los que puede atravesar una empresa han sido
fundamentalmente tericos y poco contrastados empricamente debido, entre otras razones, a
lo relativamente reciente de su publicacin. La mayor disponibilidad de datos con mayor grado
de detalle que proporcionan las bases actuales podra, sin duda, contribuir a obtener evidencia
emprica que apoyara estos modelos. (Rodrguez, 2008).
La problemtica del retraso en el pago ha sido tratada en el mercado britnico (Peel et al.,
2000; Wilson, 2008) y el australiano (Drever y Drive, 2004), mediante estudios descriptivos de
encuestas centradas en los factores que los empresarios perciben como impedimentos para
mejorar el desempeo de sus negocios.
Poutziouris et al. (2005) obtienen algunas conclusiones interesantes como que la gestin del
TC ofrecido (como proveedor) es crtica para la supervivencia y el xito del negocio, o que las
pymes no son proactivas en su gestin del crdito y existe una clara carencia en la aplicacin
de modelos de riesgo (83% no clasifican a sus clientes segn categoras de riesgo).
Algunos estudios recientes han mostrado que las empresas con restricciones crediticias que
encaran problemas de liquidez de sus clientes tienen mayor probabilidad de impagar a sus
proveedores, y por tanto se produce una cadena de dificultades en el pago (Boissay y Gropp,
2013). No obstante, la dificultad de obtencin de datos representativos del comportamiento
de pago en las relaciones entre empresas provoca que esta interesantsima lnea de
investigacin, que trata de encontrar evidencias empricas de la relacin entre la gestin del TC
y el riesgo, no est lo suficientemente desarrollada.

19

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

20

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

3.METODOLOGA

En este captulo vamos a realizar una descripcin del problema que se pretende abordar, as
como de las tcnicas estadsticas que pueden emplearse para el estudio cuantitativo del
mismo.

3.1.Descripcin del problema


Por todo lo comentado en el captulo 2, y como se ha reflejado en la introduccin,
consideramos que estudiar la relacin entre la gestin del TC y el nivel de riesgo en las pymes
supone un problema de gran inters financiero, y que adems no est suficientemente
analizado desde un punto de vista estadstico.
Por gestin del TC entendemos, no slo el nivel de uso de TC en relacin con otras medidas
tales como activos o ventas, sino tambin los periodos de cobro y pago, y otros aspectos
relacionados.
De acuerdo con Altman et al. (2010), las principales causas de quiebra empresarial en las
pymes son una capitalizacin insuficiente y la falta de planificacin. Pero quiebra y cierre son
conceptos distintos (quiebra implica cierre, pero no al contrario, pues el cierre empresarial
puede deberse a otros motivos).
As mismo, hay multitud de conceptos relacionados con un riesgo alto, tales como insolvencia,
bancarrota, quiebra, impago, etc. Todos ellos son similares, pero no exactamente iguales,
aunque en un entorno de modelizacin estadstica pueden considerarse intercambiables, ya
que habitualmente se transforman en una variable binaria, donde 1 indica la ocurrencia del
evento, y 0 su ausencia. En este trabajo usaremos el trmino impago, y en consecuencia el
riesgo se determinar calculando la probabilidad de impago (en adelante, PD, por las siglas de
su denominacin en ingls, Probability of Default), o bien alguna otra medida similar o
equivalente a ella.
Tradicionalmente se ha considerado que hay varios factores que afectan a la PD, tales como el
apalancamiento, la rentabilidad o el flujo de caja (cash-flow) de la empresa. Un modelo de

21

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

calificacin (scoring) trata de combinar las diferentes fuentes de informacin con el fin de
obtener una evaluacin precisa de la PD.
Como se ha comentado anteriormente, lo habitual es observar la situacin de la empresa (en
default o no) en un momento dado, y obtener la informacin contable un ao antes (en
ocasiones el horizonte temporal es mayor). El modelo de scoring debera predecir una PD alta
para aquellas empresas cuya situacin un ao despus es default, y una PD baja para las que
no estn en default.

3.2.Tcnicas estadsticas utilizadas


3.2.1.Tcnicas paramtricas
Como se ha puesto de manifiesto en la seccin 2.2, las tcnicas clsicas ms habitualmente
utilizadas para afrontar este tipo de problemas son la regresin logstica y el anlisis
discriminante (Harrell, 2010; Uriel, 1995). En esta seccin vamos a describir estas y otras
tcnicas paramtricas que se han utilizado en la modelizacin de nuestro problema.

3.2.1.1.Regresin logstica
Los modelos de regresin logstica (logit) se ajustan bien al problema definido, debido a que la
variable respuesta es binaria, y con ellos se obtiene una puntuacin entre 0 y 1, que se puede
interpretar como la PD del individuo
Una puntuacin o score (combinacin lineal de los regresores) resume la informacin
contenida en los factores que afectan a la PD, por ejemplo:

y mediante la funcin logstica,

o, equivalentemente,

se transforma la puntuacin en PD.


Una forma habitual de estimacin de los coeficientes del modelo es el mtodo de mxima
verosimilitud.
Los coeficientes (bi) del modelo indican la importancia de cada predictor en la explicacin de la
probabilidad estimada de incumplimiento, pero su interpretacin no es tan inmediata como en
los modelos lineales. Lo que se hace en la prctica es analizar el signo de los coeficientes. Si es
positivo o negativo, significar que incrementos en la variable asociada causan,
respectivamente, incrementos o disminuciones en P (aunque desconocemos la magnitud de

22

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

los mismos). Por ello, en los modelos logit se suelen utilizar otros dos conceptos para
profundizar en la interpretacin: cociente u odds, y odds-ratio.
Se llama odds al cociente

que obviamente refleja la probabilidad de que ocurra un evento dividida entre la probabilidad
de que no ocurra. Tomando logaritmos, obtenemos una expresin lineal del modelo

donde se aprecia que cada bi se puede interpretar como la variacin en el trmino logit
(logaritmo del cociente de probabilidades) causada por una variacin unitaria en xi
(suponiendo constantes el resto de variables).
Cuando se hace referencia al incremento unitario en una de las variables explicativas del
modelo, aparece el concepto de odds-ratio como el cociente entre los dos odds asociados (el
obtenido tras realizar el incremento y el anterior al mismo). As, si suponemos que ha habido
un incremento unitario en la variable xi, tendremos:

El test de Hosmer-Lemeshow se utiliza habitualmente para valorar la bondad de ajuste del


modelo. La muestra se divide en 10 grupos, y se compara en cada uno de ellos la probabilidad
esperada con la observada, proporcionando un estadstico que sigue una distribucin Chi
cuadrado con 8 grados de libertad, y obteniendo un p-valor que se utiliza para aceptar o
rechazar la hiptesis nula de un correcto ajuste del modelo.
De la expresin anterior se deduce que un coeficiente bi cercano a cero (o, equivalentemente,
un odds-ratio cercano a uno) significar que cambios en la variable explicativa xi asociada no
tendrn efecto alguno sobre la variable dependiente.
Se trata de una forma muy sencilla pero til de expresar la relacin entre variables categricas,
y por tanto de interpretar un modelo de regresin logstica.
Dos son las principales ventajas de esta tcnica con respecto al anlisis discriminante a la hora
de analizar el problema que nos ocupa: por un lado, las hiptesis bsicas son menos estrictas;
por otro, la conversin de la puntuacin a probabilidad (PD, en este caso) es inmediata, como
se ha discutido previamente.
Si las categoras de la variable respuesta son ms de dos y tienen un orden lgico, se puede
ajustar un modelo de regresin logstica ordinal. Se diferencia del caso binario en que se
compara el odds-ratio de estar en una categora respecto a otras, pero teniendo en cuenta el
orden.

3.2.1.2.Anlisis discriminante

23

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

El objetivo de esta tcnica es encontrar reglas de asignacin de individuos a una clase dentro
de una clasificacin predeterminada, suponiendo que cada clase viene definida por una
distribucin de probabilidad distinta de las restantes.
La variable dependiente es una variable categrica que toma tantos valores como grupos
existentes. La informacin de las variables explicativas o clasificadoras se sintetiza en unas
funciones (llamadas discriminantes) que son las que se utilizan en el proceso de clasificacin.
La funcin discriminante de Fischer busca la combinacin lineal de variables que maximiza la
varianza de la separacin entre dos clases respecto de la varianza dentro de las clases. Es el
criterio ms frecuente, aunque no el nico, para realizar el anlisis discriminante.
Una forma habitual de presentar los resultados es ofrecer los coeficientes de las funciones
discriminantes para cada grupo (siendo k el nmero de variables incluidas en la funcin):

Cuando se utilizan estas funciones, se clasifica a un individuo en el grupo para el que la funcin
sea mayor. Una ventaja de esta tcnica es que los coeficientes pueden ser fcilmente
interpretados en trminos econmicos.
El principal inconveniente es que requiere ciertas hiptesis como la normalidad y la
independencia de las variables explicativas, as como la homocedasticidad entre grupos.

3.2.2.Tcnicas no paramtricas
Pero hay otras tcnicas no paramtricas que pueden ser utilizados para abordar este
problema, como los rboles de decisin, las redes neuronales, vecino ms prximo, etc. (Berry
y Linoff, 1997; Hernndez et al, 2004).

3.2.2.1.rboles de decisin
Un rbol de decisin es un conjunto de condiciones organizadas en una estructura jerrquica,
de manera que la decisin final se puede determinar siguiendo las reglas que se cumplen
desde la raz del rbol hasta alguno de sus nodos finales. Una de las grandes ventajas de esta
tcnica es que las opciones posibles a partir de una determinada condicin son excluyentes, lo
cual permite analizar una situacin y, siguiendo el rbol de decisin apropiadamente, llegar a
una sola accin o decisin a tomar. (Hernndez et al, 2004)
La tarea de aprendizaje para la cual los rboles de decisin se adecuan mejor es la clasificacin,
para lo cual utilizan la tcnica de particin (es decir, el algoritmo va construyendo el rbol
aadiendo particiones o divisiones sucesivas de cada nodo, que pueden ser nominales o por
intervalos, segn la naturaleza del atributo sea nominal o continua), siendo el criterio de
seleccin de las particiones lo que diferencia los principales algoritmos utilizados.
Dado que el nmero de particiones puede ser muy amplio y que los algoritmos no se
replantean las divisiones ya construidas, es importante buscar un criterio de seleccin que
permita elegir bien la mejor particin en cada caso. Existen mltiples criterios de seleccin,
como el del error esperado, el del ndice de Gini, el del cociente de verosimilitudes

24

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Un problema relativamente frecuente de los rboles de decisin es el del sobreajuste, y para


evitarlo surge el concepto de poda, que consiste en eliminar algunos nodos que se consideren
demasiado especficos.
Los rboles de decisin se han adaptado a otras tareas distintas de la clasificacin, como la
regresin o la estimacin de probabilidades, sin ms que utilizar una funcin de dominio real
en lugar de discreto, y etiquetar los nodos del rbol con valores reales. Las principales tcnicas
de construccin de rboles, como CART o CRT (Classification and Regression Tree) y CHAID
(Chi-squared Automatic Interaction Detector) se adaptan bien a este cometido: el primero
realiza particiones binarias y asigna a cada nodo una media y una varianza, intentando
seleccionar las particiones que reduzcan las varianzas de los nodos filiales, mientras que el
segundo realiza particiones no binarias y usa un test Chi2 para determinar la particin ptima.
Otras diferencias importantes entre ambas tcnicas son que CART genera el rbol completo y
luego lo poda si hay sobreajuste, mientras que CHAID intenta parar antes de que se produzca
el sobreajuste; y que el tratamiento de las variables continuas en CHAID se hace mediante
rangos o intervalos.
Los algoritmos de este tipo, por su carcter voraz y su estructura divide y vencers, se
comportan bien con grandes volmenes de datos.
Una medida habitual de la precisin predictiva de los rboles es el riesgo. Para variables
dependientes categricas, la estimacin de riesgo es la proporcin de casos clasificados
incorrectamente despus de corregidos, respecto a las probabilidades previas y los costes de
clasificacin errnea; mientras que para variables dependientes de escala, la estimacin de
riesgo corresponde a la varianza dentro del nodo. Por tanto, a menor valor de riesgo, mayor
precisin en la estimacin.

3.2.2.2.Vecinos ms prximos
El mtodo de los k vecinos ms prximos utiliza las observaciones de la muestra de
entrenamiento ms prximas a un individuo x en el espacio de entrada para formar la
prediccin . En concreto, se define como sigue:

donde Nk(x) es el entorno de x definido por los k puntos xi ms cercanos en la muestra de


entrenamiento. La proximidad implica el uso de una mtrica, que suele ser una funcin de
distancia (eucldea, Chebychev, Mahalanobis)
Es decir, encontramos las k observaciones ms prximas a x y promediamos sus respuestas (en
el caso lineal), o bien asignamos la clase mayoritaria entre ellas (en el caso discreto).
Este tipo de tcnicas tiene la ventaja de que no impone ninguna hiptesis en los datos
subyacentes, y por tanto pueden adaptarse a cualquier situacin. Por el contrario, su principal
desventaja radica en que cualquier subregin en la frontera de decisin depende de unos
pocos puntos de entrada y sus posiciones concretas, lo cual provoca gran inestabilidad, y

25

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

puede generar ruido innecesario en casos en los que las fronteras de decisin sean
aproximadamente lineales.

3.2.2.3.Redes neuronales
Las redes neuronales artificiales son un mtodo de aprendizaje cuya finalidad inicial era emular
los procesadores biolgicos de la informacin. El trmino red neuronal se aplica a una familia
de modelos relacionada de manera aproximada, que se caracteriza por un gran espacio de
parmetros y una estructura flexible, y que proviene de los estudios sobre el funcionamiento
del cerebro. Conforme fue creciendo la familia, se disearon la mayora de los nuevos modelos
para aplicaciones no biolgicas, aunque gran parte de la terminologa asociada refleja su
origen.
Una de las grandes ventajas de las redes neuronales es que pueden aproximar una amplia
gama de modelos estadsticos sin tener que fijar de antemano las hiptesis sobre las relaciones
entre las variables dependientes e independientes. En lugar de eso, la forma de las relaciones
se determina durante el proceso de aprendizaje. Si una relacin lineal entre las variables
dependientes e independientes es adecuada, los resultados de la red neuronal deberan
aproximarse lo mximo posible a los del modelo de regresin lineal. Sin embargo, si una
relacin no lineal es ms adecuada, la red neuronal se aproximar automticamente a la
estructura correcta del modelo.
El inconveniente que supone esta flexibilidad radica en que las ponderaciones sinpticas de
una red neuronal no pueden interpretarse fcilmente. Por tanto, si se pretende explicar el
proceso subyacente que produce las relaciones entre las variables dependientes e
independientes, sera mejor usar un modelo estadstico tradicional. Sin embargo, si la
interpretacin del modelo no es importante, pueden obtenerse rpidamente modelos con
buenos resultados mediante estas tcnicas.
La estructura o arquitectura habitual de una red neuronal se compone de unidades (neuronas)
conectadas entre s formando capas, que combinan los datos de entrada (inputs) y
proporcionan un nico dato de salida (output). Esta combinacin se denomina funcin de
activacin. El output permanece en un valor bajo hasta que los inputs combinados alcanzan un
umbral, y entonces se produce la activacin (el output pasa a tener un valor alto).
La funcin de activacin consta de dos partes: la funcin de combinacin (generalmente, una
suma ponderada de los inputs) y la funcin de transferencia, que transmite el valor de la
funcin de combinacin al output.
El principal tipo de red neuronal para el aprendizaje supervisado es el llamado perceptrn
multicapa (MLP por las siglas de su denominacin en ingls, MultiLayer Perceptron). El
conjunto de datos de entrada es propagado hacia adelante hasta que la activacin alcanza las
neuronas de la capa de salida. Entonces se compara la respuesta calculada por la red con la
real, y se ajustan los pesos (este proceso se conoce como entrenamiento de la red). Entre la
capa de entrada y la de salida puede haber otras intermedias ocultas. Las funciones de
transferencia utilizadas habitualmente son la sigmoidal y la tangente hiperblica.

26

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

3.3.Medidas de bondad de ajuste


En lugar del conocido R2 o coeficiente de determinacin, adecuado para modelos lineales, en
el caso de los modelos de respuesta discreta se puede utilizar el pseudo-R2, que tambin
ofrece valores entre 0 y 1, donde valores ms altos indican un mejor ajuste.
Sin embargo, en este trabajo vamos a utilizar una medida alternativa de bondad de ajuste que
tiene una relevancia cada vez mayor en el mbito de los modelos binarios: la curva ROC.
Una curva ROC es una tcnica para la visualizacin, organizacin y seleccin de clasificadores
basndose en su rendimiento. La curva ROC tiene su origen en la Teora de Deteccin de
Seales (Swets, 1996) y ha sido ampliamente aceptada en campos como la Psicologa (Metz,
1978) y la Medicina (Zweig, 1993). Recientemente se ha introducido en otros campos ms
relacionados con nuestro trabajo como la Economa (Sobehart, 2001) y la Minera de datos
(Hastie et al., 2001).
Las curvas ROC son particularmente tiles para comparar el poder clasificatorio de los
diferentes modelos ajustados a unos datos. Sus principales caractersticas estn bien descritas
en Fawcett (2006).
Para representar la curva es necesario definir los siguientes conceptos: sensibilidad (es la
probabilidad de que un modelo clasifique correctamente a un individuo con valor real de la
variable respuesta 0) y especificidad (es la probabilidad de que el modelo clasifique
correctamente a un individuo con valor real de la variable respuesta 1).
Para construir la curva ROC es necesario fijar un punto de corte (por ejemplo 0.5). En
consecuencia, se considerarn individuos clasificados como 1 todos aquellos cuya puntuacin
sea superior al punto de corte, mientras que se considerarn individuos clasificados como 0 los
que obtengan puntuacin menor.
Por tanto, la probabilidad de que un modelo clasifique correctamente a los individuos con
valor 0 (para ese punto de corte) ser el nmero de individuos con valor 0 cuya puntuacin sea
inferior a 0.5 entre el total de individuos con valor 0.
La curva ROC se obtiene representando, para cada punto de corte, los pares de puntos (1especificidad, sensibilidad). Es decir, para cada valor de punto de corte se representa en el eje
de abscisas el valor de 1-Especificidad (o tasa de falsa alarma: probabilidad de que el modelo
no clasifique correctamente a un individuo con valor 0) y en el eje de ordenadas el valor de
Sensibilidad (o tasa de acierto: probabilidad de que el modelo califique correctamente a un
individuo con valor 1).

27

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico 3.1. Curvas ROC


(Extrado de Studies on the Validation of Internal Rating Systems)

La evaluacin de la capacidad de prediccin del modelo se define por el rea bajo la curva ROC
(AUC, por sus siglas en ingls: Area Under Curve), calculada para todos los posibles puntos de
corte que clasifican los eventos en sus dos posibles estados. Dado que el AUC es una parte de
la zona del cuadrado de la unidad, su valor estar siempre entre 0 y 1; el modelo aleatorio
tiene un rea de 0.5. Cuanto mayor sea el AUC, mejor ser el clasificador.
El AUC es equivalente a otras medidas tales como el estadstico U de Mann-Whitney (U=AUC),
o el ndice de Gini (Gini=2AUC-1), tambin llamado estadstico de poder o accuracy ratio.
Por tanto, el AUC va a ser nuestro criterio principal para valorar la bondad de ajuste de los
modelos, si bien se mostrarn tambin las matrices de confusin (tablas de doble entrada con
la tasa de acierto del modelo en cada categora), y en ocasiones algn otro tipo de mtricas
que puedan servir de apoyo.
Cabe destacar que el AUC hace referencia a la correcta ordenacin de las empresas de acuerdo
a su riesgo, mientras que el porcentaje de aciertos depende obviamente del punto de corte
elegido (por defecto se establece en 0.5), y por tanto se puede ajustar a la hora de su
aplicacin segn se desee seguir una poltica de gestin del riesgo ms o menos conservadora.
Esto provoca que si el punto de corte se coloca en 0.5 y la muestra no est balanceada, los
porcentajes de clasificacin correcta que aparecen en las matrices de confusin tambin
estarn desbalanceados, si bien se pueden obtener valores ms equilibrados sin ms que
mover el punto de corte.

28

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

3.4.Validacin
El mtodo de validacin ms bsico y tradicional reserva un porcentaje de la base de datos
como conjunto de prueba (o validacin o test). El resto de los datos forman el conjunto de
entrenamiento, que se usa para construir el modelo. La divisin de los datos en estos dos
grupos debe ser aleatoria para que la estimacin sea correcta. Esta validacin es necesaria
para evitar que la precisin del modelo est sobreestimada por el hecho de proporcionar
mucho mejores resultados para el conjunto de entrenamiento que para el de test (problema
conocido como sobreajuste).
Un mtodo alternativo de validacin es el conocido como validacin cruzada, que se suele
implementar mediante el mtodo de los k pliegues (k-fold crossvalidation), el cual divide
aleatoriamente los datos en k grupos (frecuentemente k=10) de tamao similar. Un grupo se
reserva como conjunto de prueba, y con los k-1 restantes se construye un modelo, y se utiliza
para predecir el resultado de los datos del grupo reservado. Este proceso se repite k veces,
dejando cada vez un grupo diferente para la prueba. Finalmente, se construye un modelo con
todos los datos y se obtienen sus ratios de error y/o precisin promediando los k ratios
disponibles.
Una forma de validacin externa es la validacin out-of-time, que consiste en aplicar los
resultados del modelo obtenido con datos de un periodo temporal, a datos que hacen
referencia a otro periodo temporal distinto.

29

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

30

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.ENFOQUE METODOLGICO UTILIZADO

En este captulo llevaremos a la prctica las metodologas explicadas en el captulo 3,


aplicndolas a nuestros datos con el objetivo de obtener modelos multivariantes que
expliquen y predigan nuestra variable dependiente.

4.1.Introduccin
Como metodologa estadstica utilizaremos CRISP-DM (CRoss-Industry Standard Process for
Data Mining), un modelo de proceso de minera de datos que describe los enfoques comunes
que utilizan algunos expertos en este mbito, y que se ha convertido en un estndar en
proyectos en minera de datos. Se estructura en seis fases:

Comprensin del negocio: se ha desarrollado a lo largo del captulo 2, y se


resume en la seccin 3.1.
Comprensin de los datos: se desarrolla en la seccin 4.2.
Preparacin de los datos: se inicia en la seccin 4.3 (si bien los detalles se
pueden encontrar en el Anexo I) y se contina en las secciones 4.4.1.1 y 4.4.1.2
(modelo binario), 4.4.2.1 y 4.4.2.2 (modelo ordinal).
Modelado: se lleva a cabo en las secciones 4.4.1.4 (modelo binario) y 4.4.2.3
(modelo ordinal).
Evaluacin: se aborda en las secciones 4.4.1.5 (modelo binario) y 4.4.2.4
(modelo ordinal).
Explotacin: se desarrolla en las secciones 4.4.1.6 (modelo binario) y 4.4.2.5
(modelo ordinal).

Los anlisis estadsticos se realizarn con el programa SPSS (Statistical Package for Social
Sciences), en su versin 19.

31

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.2.Descripcin de la base de datos


Utilizaremos la base de datos SABI (Sistema de Anlisis de Balances Ibricos), propiedad de la
empresa INFORMA D&B, con la cual la Universidad Politcnica de Valencia tiene un acuerdo de
cesin de datos, para analizar la informacin de las pymes espaolas y determinar qu
variables estn relacionadas con el riesgo de crdito.
De acuerdo con Ferrer y Peset (2007), Quizs por la fiabilidad y calidad de sus fuentes de
informacin, [] SABI es fuente de referencia para los estudios sectoriales de las empresas
espaolas, y de hecho son mltiples los estudios que hacen uso de esta base de datos, entre
ellos diversos documentos del Banco de Espaa de temtica similar a este trabajo (Trucharte y
Marcelo, 2002; Ruano y Salas, 2004). Ya en el ao 2006, Ruano y Salas destacaban que
Aunque los criterios de seleccin de las empresas de la cartera no son de tipo estadstico
orientados a preservar la representatividad de la misma, el creciente tamao de la muestra de
empresas ha significado mejoras en la representatividad y la cobertura de la muestra.
Ciertamente, el tamao ha seguido creciendo en los ltimos aos, alcanzando actualmente
algo ms de un milln de empresas.
En cuanto a la definicin de pyme, utilizaremos la propuesta por la Unin Europea1, segn la
cual para que una empresa se considere pyme debe tener menos de 250 empleados, y adems
su cifra de ventas debe ser inferior a 50 millones de euros, o bien el total de activos de su
balance inferior a 43 millones de euros.
La idea de nuestro enfoque consiste en utilizar una medida del nivel de riesgo de las empresas
basada en indicadores financieros y contables, que haga el papel de variable dependiente, y
crear un modelo multivariante en el que las variables independientes sean algunos de los
principales factores objeto de estudio (medidas del uso de TC), as como otras variables no
financieras (caractersticas de la empresas tales como el sector de actividad, la antigedad,
etc.)
SABI no proporciona datos de incumplimientos de las empresas, y por tanto no permite
calcular la PD de forma intrnseca. No obstante, s que facilita diversas medidas del nivel de
riesgo de las empresas, entre las que destaca la PD calculada mediante MORE (Multi Objective
Rating Evaluation), metodologa de la compaa modeFinance que no es pblica.
Nuestro objetivo inicial, por tanto, sera desarrollar un modelo de calificacin alternativo a
MORE, basado en predictores relacionados con el TC, con una metodologa transparente y
replicable, bajo la hiptesis de que utilizar un modelo adecuado permitir disminuir el riesgo
asumido por la empresa con respecto a la opcin de basar su estrategia de riesgo en el
establecimiento de reglas homogneas para todos los clientes (y el modelo que se propone en
el presente trabajo sera el primer paso).
Es decir, se trata de disear un procedimiento para identificar la informacin relevante que
permita obtener indicadores de riesgo y, por tanto, un adecuado nivel de riesgo para cada
cliente.
1

http://ec.europa.eu/enterprise/policies/sme/facts-figures-analysis/sme-definition/index_es.htm

32

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.3.Descripcin de la muestra
Mediante la base de datos SABI, obtenemos una muestra aleatoria2 de 10106 pymes espaolas
de una poblacin de 487503 que cumple los siguientes requisitos: empresas (SA o SL) activas
espaolas (exceptuando Ceuta y Melilla), con nmero de empleados menor de 250 y
facturacin menor de 50 millones de euros o activo total menor de 43 millones de euros (de
acuerdo con la definicin de pyme de la UE), que tengan informacin de balance del ltimo
ejercicio contable (es decir, 2011), y que tengan informadas las partidas Deudores
comerciales y otras cuentas a cobrar y Acreedores comerciales y otras cuentas a pagar.
Estas dos ltimas partidas contienen la informacin clave relacionada con el TC, dado que ste
se contempla, como se ha explicado en la seccin 2.1, desde dos puntos de vista: como
proveedor y como cliente. Las cantidades que una empresa concede como proveedor a sus
clientes se recogen en la partida Deudores comerciales y otras cuentas a cobrar, mientras
que las que solicita como cliente a sus proveedores se recogen en Acreedores comerciales y
otras cuentas a pagar.
De la muestra obtenida se han excluido las empresas de reciente creacin (antigedad inferior
a 3 aos), dado que suelen alterar este tipo de estudios al no tener suficientemente
consolidados sus ratios contables ni su comportamiento de negocio en general, y de crdito
comercial en particular; las empresas que no cumplen la regla de validacin bsica en el
anlisis de balances (Activo=Pasivo); los registros con valor negativo de la variable Periodo
medio de pago, por considerarse errores ya que dicha variable se mide en das; y las
empresas para las que la variable Rating MORE no estaba informada, quedando
definitivamente 9208 registros.
Posteriormente, se han construido las variables candidatas a ser utilizadas como predictores,
que en su mayora son ratios que, tras el anlisis de la literatura previa, se consideran las
medidas ms habituales de la actividad relacionada con el TC. Estas variables se explican en la
siguiente seccin (concretamente, en el apartado 4.4.1.2).
Se ha analizado la distribucin de cada una de las variables continuas, y dado que presentan
valores extremos, se ha realizado un anlisis para detectar valores atpicos de forma
multivariante, tanto mediante la opcin del ndice de anomala del SPSS como mediante un
anlisis de cluster, sin observar ningn patrn definido.
Finalmente, dado que la mayora de variables continuas presentan distribuciones con gran
concentracin en valores pequeos pero largas colas positivas (circunstancia muy habitual
cuando tratamos con variables econmicas y financieras), se les ha aplicado la transformacin
logartmica para normalizar sus distribuciones. Posteriormente, se ha vuelto a analizar la
distribucin, sin observar ya valores atpicos.

Muestreo aleatorio simple. Fechas de acceso a la base de datos: 16/04/2013 y 24/04/2013 (por
limitaciones del nmero mximo de filas y columnas exportables desde SABI, se realizaron dos
extracciones distintas, que posteriormente se unieron en una nica base de datos).

33

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Para explorar la posible existencia de colinealidad, se ha realizado un anlisis de correlaciones


entre las variables continuas. Se observan correlaciones no muy elevadas: en su mayora
inferiores (en valor absoluto) a 0.5, y en cualquier caso siempre menores a 0.75. Por ello, se
considera que no existirn problemas graves de colinealidad a la hora de desarrollar los
modelos, y por tanto que es importante tener en cuenta todas las variables independientes, ya
que a priori explican una parte diferente de la variable dependiente.
Tambin se han creado dos variables categricas (generando las correspondientes variables
ficticias o dummy para utilizarlas en aquellos modelos que lo requieren): sector de actividad3
(con valores Agricultura, Industria, Construccin y Servicios) y tamao de la empresa4
(con los valores Micro, Pequea y Mediana).
El primer paso en un estudio estadstico de estas caractersticas es el anlisis descriptivo, que
puede consultarse de forma extensa en el Anexo I. A continuacin se muestran las principales
caractersticas de la muestra, mediante las tablas de frecuencias de las variables categricas
(Tablas 4.1 y 4.2):

Tabla 4.1. Frecuencia de la variable Sector en la muestra de desarrollo

En la tabla 4.1 se pueden ver las frecuencias absolutas y relativas (individuales y acumuladas)
de cada valor de la variable. Como se puede comprobar, casi dos tercios de las empresas
pertenecen al sector servicios, slo un 3% a la agricultura, y el resto se reparten ms o menos
equitativamente entre el sector industrial y el de la construccin.

Agricultura: CNAE 01-03, Industria: CNAE 05-39, Construccin: CNAE 41-43, Servicios: CNAE 45-99.
Segn la clasificacin del Instituto Aragons de Estadstica.
4
De acuerdo a la UE, una micro tiene menos de 10 empleados y cifra de ventas o balance inferior a 2
millones de , una empresa pequea tiene entre 10 y 49 empleados y cifra de ventas o balance inferior a
10 millones de , y una empresa mediana tiene entre 50 y 249 empleados, y cifra de ventas inferior a 50
millones de o balance inferior a 43 millones de .

34

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.2. Frecuencia de la variable Tamao en la muestra de desarrollo

Dado que la gran mayora de nuestras empresas (ms de tres cuartas partes) son micros, y que
una parte importante de ellas tiene muy pocos empleados, se ha decidido dividir esta
categora en dos subcategoras segn el nmero de empleados: por tanto, se crea la variable
Size, que consta de cuatro valores: 1 (Micros con 1 o 2 empleados), 2 (Micros con ms de 2
empleados), 3 (Pequeas) y 4 (Medianas). A continuacin se muestra su tabla de frecuencias
(Tabla 4.3):

Tabla 4.3. Frecuencia de la variable Size en la muestra de desarrollo

En esta tabla se pueden ver las frecuencias absolutas y relativas (individuales y acumuladas) de
cada valor de la variable Size.

4.4.Desarrollo de la modelizacin
Dividiremos este apartado en dos fases: en primer lugar (fase I, apartado 4.4.1),
simplificaremos el problema convirtiendo la variable dependiente en binaria. Posteriormente
(fase II, apartado 4.4.2), afrontaremos el problema original, con variable dependiente
categrica ordinal, con un enfoque distinto: partiremos de un modelo de scoring conocido, y
trataremos de valorar si el aporte de nuestro modelo resulta estadsticamente significativo y
til a la hora de explicar la variable dependiente.

4.4.1.Fase I.- Modelo binario


4.4.1.1.Obtencin de la medida de nivel de riesgo (variable dependiente)
El rating MORE consta de 10 categoras, representadas por los smbolos tradicionalmente
utilizados por las agencias de calificacin crediticia tipo Moodys, S&P o Fitch: desde AAA hasta
D. Concretamente, segn la informacin facilitada por modeFinance, la categorizacin es la
que se muestra en la tabla 4.4.
Para poder construir nuestro modelo, se utilizar una variable dependiente binaria, que hemos
denominado MORE_Bin, y que es una discretizacin del rating MORE en dos categoras: las
empresas de riesgo alto (aqullas que tienen una calificacin CC o inferior) frente a las de
riesgo bajo (el resto), asimiladas a los valores default (1) y no default (0), respectivamente.

35

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Rating
category

MORE
Rating

Assessment

Healthy
companies

AAA

The companys capacity to meet its financial commitments is extremely strong

AA

The company has a strong creditworthiness

The company has a high solvency

Balanced
companies

BBB

Capital structure and economic equilibrium are considered adequate

BB

The company is more vulnerable than companies rated BBB

Vulnerable
companies

The company presents vulnerable signals with regard to its fundamentals

CCC

The company has a dangerous disequilibrium on the capital structure and on


its economic and financial fundamentals

Risky
companies

CC

The company shows signals of high vulnerability

The company shows considerable pathological situations

The company has no longer the capacity to meet its financial commitments
Tabla 4.4. Rating MORE

En la tabla 4.5 se muestra la distribucin de frecuencias de la variable MORE_Bin en la muestra


de desarrollo.

Tabla 4.5. Frecuencia de la variable respuesta en la muestra de desarrollo

No existe un consenso claro sobre cundo considerar una muestra no balanceada, ni siquiera
sobre qu mtodo (sobremuestreo, inframuestreo, aplicacin de ponderaciones) utilizar para
balancear las muestras. Pero recientes estudios experimentales (Van Hulse et al., 2007; Menon
et al., 2013) sobre este mbito se centran principalmente en porcentajes inferiores al 10% de
la categora menos frecuente. Por tanto, pese a que la distribucin de los valores de la variable
respuesta en nuestra muestra no est equilibrada, consideramos que un porcentaje prximo al
20% en la categora menos frecuente es suficiente, y por tanto no es necesario balancear las
muestras5.

No obstante, una vez obtenido el modelo final se realiz una prueba de modelizacin (ver Anexo III)
balanceando la muestra mediante la aplicacin de ponderaciones, y los resultados obtenidos no
mejoraron los proporcionados sin balancear.

36

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.4.1.2.Obtencin de las variables independientes


En la tabla 4.6 se facilita un listado6 de las variables independientes o predictores (tanto su
denominacin en ingls como en castellano) y sus abreviaturas (para poder identificarlas en las
salidas que se proporcionen posteriormente):
Abreviatura
DAR
DAP
AR_Assets
AP_Liab
AP_AR
APGrowth
ARGrowth
SalesGrowth
Age
Sector
Size

Nombre de variable
Days accounts receivable
Days accounts payable
Accounts receivable/Total assets
Accounts payable/Total liabilities
Accounts payable/Accounts receivable
Accounts payable growth
Accounts receivable growth
Sales growth
Age (years)
Activity sector
Size

Traduccin al castellano
Periodo medio de cobro (das)
Periodo medio de pago (das)
Deudores/Activo
Acreedores/Pasivo
Acreedores/Deudores
Variacin de acreedores
Variacin de deudores
Variacin de ventas
Antigedad ( aos)
Sector de actividad
Tamao

Tabla 4.6. Listado de variables independientes

Como se puede comprobar y ya se ha comentado previamente, en su mayora estn


relacionadas con la gestin del TC, en particular las siguientes:
Las variables Deudores/Activo (Deudores comerciales y otras cuentas a cobrar/Total Activo) y
Acreedores/Pasivo (Acreedores comerciales y otras cuentas a pagar/Total Pasivo y Capital
Propio) se utilizan habitualmente como medida del volumen total de TC, mientras que
Acreedores/Deudores (Acreedores comerciales y otras cuentas a pagar/Deudores comerciales
y otras cuentas a cobrar) se utiliza como indicador de la posicin neta o equilibrio entre TC
como proveedor y cliente.
Por otro lado, Variacin de acreedores (Acreedores comerciales y otras cuentas a pagar del
ltimo ao/Acreedores comerciales y otras cuentas a pagar del ao anterior) y Variacin de
deudores (Deudores comerciales y otras cuentas a cobrar del ltimo ao/Deudores
comerciales y otras cuentas a cobrar del ao anterior) sirven para valorar los incrementos
relativos de estas partidas respecto al ao anterior.
Por ltimo, las variables Periodo medio de cobro (360*Deudores comerciales y otras cuentas a
cobrar/Importe neto de cifra de ventas) y Periodo medio de pago (360*Acreedores
comerciales y otras cuentas a pagar/Aprovisionamientos) se consideran otros dos factores
clave en la gestin del TC, pues indican los periodos medios (en das) de cobro a clientes y pago
a proveedores, respectivamente.
Pero tambin se han utilizado otras variables no estrictamente relacionadas con el TC, como
por ejemplo: tamao de la empresa, antigedad, sector de actividad o variacin de ventas.

Por Deudores se entiende la partida contable Deudores comerciales y otras cuentas a cobrar, y por
Acreedores, Acreedores comerciales y otras cuentas a pagar.

37

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Todas ellas son variables habituales en este tipo de estudios: el tamao de la empresa, la
antigedad (en aos) como factor que indica la consolidacin de la empresa en el mercado
(muchas veces asociada a la reputacin de la misma), el sector para valorar posibles
comportamientos diferentes segn la actividad desarrollada por cada empresa, y la variacin
de ventas (Importe neto de cifra de ventas del ltimo ao/Importe neto de cifra de ventas del
ao anterior) como indicador del cambio en el volumen de negocio.
Todas las variables se han obtenido para el ltimo cierre contable disponible, es decir, 2011.
Las variables de variacin se han calculado comparando 2011 con 2010.
A continuacin se muestra un resumen de las estadsticas descriptivas de las variables
independientes.

Tabla 4.7. Descriptivos de las variables independientes en la muestra de desarrollo

Estadsticas descriptivas (tamao de muestra, mnimo, mximo, media y desviacin estndar)


de las variables continuas transformadas mediante el logaritmo (salvo Age, que se mantiene
original) en la muestra de desarrollo.

4.4.1.3.Estrategia de validacin
Llegados a este punto, como el tamao muestral es suficientemente grande, se decide dividir
la muestra de desarrollo en dos submuestras de entrenamiento y validacin (de acuerdo a lo
comentado en la seccin 3.4), para poder realizar con posterioridad una validacin out-ofsample, sin perjuicio de que en cada proceso de modelizacin se realice a su vez otro tipo de
validacin, que en la medida de lo posible se realizar mediante validacin cruzada.
Se decide dividir la muestra dedicando un 70% de la misma (6449 registros) para el
entrenamiento de los modelos, y conservando el 30% restante (2759 registros) para la
validacin. La divisin se realiza de forma aleatoria.
Como se puede comprobar en las tablas 4.8 a 4.13, las principales caractersticas de una y otra
muestra son similares.

38

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.8. Frecuencia de la variable Sector en la muestra de entrenamiento

Distribucin de la variable Sector en la muestra de entrenamiento

Tabla 4.9. Frecuencia de la variable Size en la muestra de entrenamiento

Distribucin de la variable Size en la muestra de entrenamiento

Tabla 4.10. Frecuencia de la variable respuesta en la muestra de entrenamiento

Distribucin de la variable respuesta en la muestra de entrenamiento

Tabla 4.11. Frecuencia de la variable Sector en la muestra de validacin

39

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Distribucin de la variable Sector en la muestra de validacin; se puede comprobar que es muy


parecida a la de la muestra de entrenamiento mostrada en la tabla 4.8.

Tabla 4.12. Frecuencia de la variable Size en la muestra de validacin

Distribucin de la variable Size en la muestra de validacin; se puede comprobar que es muy


parecida a la de la muestra de entrenamiento mostrada en la tabla 4.9.

Tabla 4.13. Frecuencia de la variable respuesta en la muestra de validacin

Distribucin de la variable respuesta en la muestra de validacin; se puede comprobar que es


muy parecida a la de la muestra de entrenamiento mostrada en la tabla 4.10.

4.4.1.4.Modelizacin
Se han probado diferentes enfoques, tanto modelos estadsticos clsicos (anlisis
discriminante, regresin logstica) como tcnicas de minera de datos (rboles de clasificacin,
redes neuronales, vecino ms prximo).
A continuacin se muestra un resumen de los resultados obtenidos con cada modelo, con
especial atencin al que hemos considerado como mejor modelo y que por tanto ser nuestra
propuesta de modelo final. La seleccin de dicho modelo est basada en criterios de medidas
de bondad de ajuste ya explicados en la Seccin 3.3, sobre todo en la curva ROC y su
correspondiente AUC.
En el apartado 4.4.1.4.7 se ofrece el anlisis comparativo de todos los modelos de acuerdo a
las curvas ROC (grfico 4.5) y sus correspondientes AUC (tabla 4.38).

4.4.1.4.1.Regresin logstica
Como se puede comprobar en las tablas 4.14 y 4.17, el modelo de regresin logstica obtenido
mediante el mtodo stepwise consta de seis variables continuas ms una dummy, y con l se

40

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

obtiene un % de acierto del 83.6% (17% en la categora default). En la columna B de la tabla


4.14 se visualizan los coeficientes del modelo, y en la ltima columna, Exp(B), los odds-ratios,
que ayudan a interpretarlo. Se puede comprobar que las variables ms importantes son
Log_AP_AR y Log_AR_Assets.
La inversa de la matriz de correlaciones (tabla 4.19) proporciona valores muy altos en la
diagonal principal, lo cual advierte de problemas de colinealidad. Adems, el test de HosmerLemeshow (tabla 4.16) rechaza la hiptesis nula de un buen ajuste.
Dado que el mayor valor en la diagonal principal se da en la variable Log_AP_AR, la eliminamos
y modelizamos de nuevo.
En las tablas 4.20 y 4.23, se puede comprobar que el nuevo modelo obtenido mediante el
mtodo stepwise consta de cinco variables continuas ms una dummy, y con l se obtienen
resultados muy similares al anterior: 83.5% de acierto (16.5% en la categora default) y
AUC=0.76 (ver tabla 4.38). Mediante la tabla 4.20 se puede comprobar que las variables ms
importantes son Log_AP_Liab y Size.
La inversa de la matriz de correlaciones (tabla 4.25) ya no muestra problemas de colinealidad,
ya que el mayor valor de la diagonal principal es menor que 2. No obstante, el test de HosmerLemeshow (tabla 4.22) sigue rechazando la hiptesis nula de un buen ajuste.

Tabla 4.14. Coeficientes del modelo logstico inicial

En la tabla 4.14 se muestra el valor de los coeficientes, el error estndar, el valor del
estadstico del test de Wald y su p-valor, y los odds-ratio para las variables del modelo final
partiendo de todos los predictores.

41

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.15. Proceso stepwise inicial

En la tabla 4.15 se muestra el incremento del estadstico Chi-cuadrado y el del porcentaje de


acierto en la clasificacin para cada paso del proceso stepwise. As mismo, en la ltima
columna se informa de cul es la variable que entra en cada paso.

Tabla 4.16. Resultado del test de Hosmer-Lemeshow del modelo logstico inicial

Valor del estadstico Chi-cuadrado y su p-valor asociado en el test de Hosmer-Lemeshow. Se


puede comprobar que se rechaza la hiptesis nula para cualquier nivel de significacin
razonable (p-valor0).

Tabla 4.17. Matriz de confusin del modelo logstico inicial

En la tabla 4.17 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta.

42

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Tabla 4.18. Matriz de correlaciones de las variables continuas del modelo logstico inicial

En la tabla 4.18 se muestra la matriz de correlaciones de Pearson de las variables continuas del
modelo, as como su p-valor (2 colas) y el tamao muestral.
Log_AR_Assets
Log_AP_Liab
Log_AP_AR
Log_DAR
Log_SalesGrowth
Age

Log_AR_Assets
293,72
-229,76
307,50
6,39
1,36
0,09

Log_AP_Liab
-229,76
181,17
-241,72
-5,80
-1,33
0,04

Log_AP_AR
307,50
-241,72
325,21
9,12
1,97
0,06

Log_DAR
6,39
-5,80
9,12
2,99
0,63
-0,11

Log_SalesGrowth
1,36
-1,33
1,97
0,63
1,14
0,00

Age
0,09
0,04
0,06
-0,11
0,00
1,02

Tabla 4.19. Inversa de la matriz de correlaciones inicial

Como se puede comprobar en la presente tabla 4.19, se obtienen valores muy altos en la
diagonal principal para varias variables.

Tabla 4.20. Coeficientes del modelo logstico revisado

43

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla con el valor de los coeficientes, el error estndar, el estadstico del test de Wald y su pvalor asociado, y los odds-ratio para las variables del modelo final sin la variable Log_AP_AR.

Tabla 4.21. Proceso stepwise revisado

En esta tabla se muestra el incremento del estadstico Chi-cuadrado y el del porcentaje de


acierto en la clasificacin para cada paso del proceso stepwise. As mismo, en la ltima
columna se informa cul es la variable que entra en cada paso.

Valor del estadstico Chi-cuadrado y su p-valor asociado en el test de Hosmer-Lemeshow. Se


puede comprobar que se rechaza la hiptesis nula para cualquier nivel de significacin
razonable (p-valor0).
Tabla 4.22. Resultado del test de Hosmer-Lemeshow del modelo logstico revisado

Tabla 4.23. Matriz de confusin del modelo logstico revisado

Tabla con los porcentajes de acierto del modelo para cada categora de la variable respuesta.

44

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.24. Matriz de correlaciones de las variables continuas del modelo logstico revisado

En la tabla 4.24 se muestra la matriz de correlaciones de Pearson de las variables continuas del
modelo, as como su p-valor (2 colas) y el tamao muestral.

Log_AR_Assets
Log_AP_Liab
Log_SalesGrowth
Age
Log_DAP

Log_AR_Assets Log_AP_Liab Log_SalesGrowth


1,17
-0,50
-0,01
-0,50
1,45
-0,16
-0,01
-0,16
1,04
-0,06
0,14
0,02
0,20
-0,61
0,19

Age
-0,06
0,14
0,02
1,02
-0,02

Log_DAP
0,20
-0,61
0,19
-0,02
1,27

Tabla 4.25. Inversa de la matriz de correlaciones revisada

Como se puede comprobar en la presente tabla 4.25, se obtienen valores pequeos en la


diagonal principal para todas las variables.

4.4.1.4.2.Anlisis discriminante
Como se puede comprobar en la tabla 4.26, el anlisis discriminante proporciona una funcin
discriminante que consta de 8 variables, y con l se obtienen resultados parecidos a los de la
regresin logstica: 83.2% (17.3% en la categora default) de acierto en la clasificacin (tabla
4.28) y AUC=0.767 (tabla 4.38). El valor final de la lambda de Wilks es 0.87 (tabla 4.26).
Tambin se han obtenido los coeficientes de la funcin discriminante (tabla 4.27).

45

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.26. Proceso del anlisis discriminante

En la tabla 4.26 se puede comprobar qu variable entra en el modelo en cada paso, as como el
decremento secuencial en el valor de la lambda de Wilks.

Tabla 4.27. Coeficientes de las funciones discriminantes de Fischer

Tabla con los coeficientes de las funciones discriminantes para cada una de las dos categoras
de la variable respuesta. Como se ha puesto de manifiesto en el apartado 3.2.1.2, cuando se
utilizan las funciones generadas por estos coeficientes se clasifica a cada individuo en el grupo
para el que la funcin sea mayor.

46

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.28. Matriz de confusin del anlisis discriminante

En la tabla 4.28 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta. El porcentaje global no se muestra pero se calcula de forma inmediata sin
ms que sumar la diagonal principal y dividir entre el tamao muestral.

4.4.1.4.3.rbol con tcnica CRT


En este apartado se muestra un rbol de clasificacin basado en la tcnica CRT. Como se puede
comprobar en el grfico 4.1, se obtiene un rbol de 15 nodos, con tan slo 8 nodos finales, es
decir, muy sencillo. Los porcentajes de clasificacin correcta (tabla 4.29) son bastante altos
(85% en la muestra de test, con un 36% en la categora default), y el valor del riesgo (tabla
4.30) es bastante bajo (0.15 en la muestra de test). Sin embargo, el valor del AUC es de 0.745
(ver tabla 4.38), uno de los ms bajos de todos los modelos probados.
En cada nodo del grfico 4.1 se muestran el nmero de casos (y porcentaje respecto al total de
la muestra) en cada categora de la variable respuesta, as como el nmero total de elementos
del nodo. Bajo cada nodo parental se puede visualizar la variable que genera la divisin
posterior, y una medida de la mejora obtenida en la reduccin de la varianza; y sobre cada
nodo filial aparece el valor del punto de corte de la variable correspondiente.
Por otro lado, el hecho de que la poda (gracias a la cual se obtiene un rbol tan sencillo) sea
incompatible con la validacin cruzada obliga a volver a dividir la muestra de entrenamiento
en dos submuestras, lo cual genera dos rboles distintos que podran no ser idnticos.
Todo ello nos lleva a decantarnos como modelo final por el obtenido mediante la tcnica
CHAID (que presentamos en el siguiente apartado), si bien el algoritmo CRT proporciona un
rbol que con una gran sencillez alcanza resultados bastante satisfactorios.
En cuanto a su interpretacin, la variable ms importante (ver tabla 4.31) es el ratio
Acreedores/Pasivo, seguida del ratio Acreedores/Deudores y del incremento de ventas.

47

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Grfico 4.1. rbol CRT

48

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.29. Matriz de confusin del modelo CRT

En la tabla 4.29 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta, y en cada una de las dos submuestras.

Tabla 4.30. Medidas de riesgo del modelo CRT

Tabla que muestra la medida del riesgo (ver apartado 3.2.2.1) para ambas submuestras.

Tabla 4.31. Importancia de las variables en el modelo CRT

En la tabla 4.31 se relacionan las variables independientes segn su importancia en el modelo.

49

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.4.1.4.4.rbol con tcnica CHAID


En este apartado se muestra un rbol de clasificacin basado en la tcnica CHAID, con las
siguientes caractersticas: profundidad mxima establecida en 3 niveles, tamao mnimo de los
nodos de 20 unidades, estadstico Chi-cuadrado de Pearson como medida para decidir la unin
y particin de nodos, y divisin en 7 intervalos para las variables continuas.
En el grfico 4.2 se muestran las dos primeras ramas (17 nodos) del rbol, para las cuales se
ofrece una interpretacin en apartado 4.4.1.6. Debido a limitaciones de espacio no se ha
podido mostrar el rbol completo de forma grfica, pero en el Anexo II se proporciona el
cdigo generado para poder replicarlo. En cada nodo del grfico 4.2 se muestra la distribucin
en el nodo de cada categora de la variable respuesta. A la derecha de cada nodo parental se
puede visualizar la variable que genera la divisin posterior con sus correspondientes
intervalos.
El rbol completo tiene 32 nodos terminales, que podran ser considerados excesivos y por
tanto apuntar hacia un problema de sobreajuste. Para evitarlo, se llev a cabo una validacin
cruzada con 10 pliegues (10-fold Cross Validation), que proporcion unos resultados bastante
buenos de bondad de ajuste: AUC=0.792 (tabla 4.38), valor del riesgo (tabla 4.33) igual a 0.159
y 85% de xito global (tabla 4.32) al predecir la categora correcta, con un acierto razonable en
ambas categoras (25% en default y 98% en no default).
Por tanto, se trata del modelo con el que se obtienen los mejores resultados y que
proponemos como modelo final.

50

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Grfico 4.2. rbol CHAID

51

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.32. Matriz de confusin del modelo CHAID

En la tabla 4.32 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta.

Tabla 4.33. Medidas de riesgo del modelo CHAID

Tabla que muestra la medida del riesgo (ver apartado 3.2.2.1) del modelo final para la
validacin cruzada.

4.4.1.4.5.Vecinos ms prximos (kNN)


Como se puede observar en el grfico 4.3, el modelo obtenido con la tcnica de los k vecinos
ms prximos consta de tres variables (Log_AP_AR, Log_AR_Assets y Log_AP_Liab), y alcanza
el peor valor de AUC=0,66 (tabla 4.38), con un % de clasificacin correcta del 84% (21,4% en la
categora default).

52

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico 4.3. Modelo vecino ms prximo

Tabla 4.34. Matriz de confusin del modelo vecino ms prximo

En la tabla 4.34 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta. El porcentaje global no se muestra pero se calcula de forma inmediata sin
ms que sumar la diagonal principal y dividir entre el tamao muestral.

4.4.1.4.6.Red neuronal (Perceptrn multicapa). MLP


La red neuronal obtenida (grfico 4.4) mediante el mtodo MLP o multilayer perceptron
(perceptrn multicapa) utiliza las 10 variables originales, y tiene un total de 14 neuronas como
input (con una capa oculta de 5 unidades), siendo la funcin de activacin la tangente
hiperblica.

53

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Los resultados obtenidos son satisfactorios, con el segundo mejor valor del AUC (0,775) en la
tabla 4.38, y un porcentaje de clasificacin correcta (tabla 4.36) en la muestra de test de un
83,6% (23,3% en la categora default).
En cuanto a los principales predictores, la variable ms importante (ver tabla 4.37) es el ratio
Acreedores/Deudores, seguida del ratio Acreedores/Pasivo y del incremento de ventas.

Tabla 4.35. Definicin de la red neuronal

Tabla con los parmetros de definicin de la red neuronal (nmero de capas y de unidades en
cada capa, funciones de activacin y de error, etc.)

54

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Grfico 4.4. Red neuronal

55

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.36. Matriz de confusin de la red neuronal

Tabla que muestra los porcentajes de acierto del modelo para cada categora de la variable
respuesta, y en cada una de las dos submuestras.

Tabla 4.37. Importancia de las variables en la red neuronal

En la tabla 4.37 se relacionan las variables independientes segn su importancia en el modelo.

56

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4.4.1.4.7.Comparativa de modelos (AUC)


En este apartado se muestran conjuntamente las curvas ROC y sus correspondientes AUC para
todos los modelos utilizados. Como se puede observar en el grfico 4.5, los mejores resultados
se han obtenido con los rboles de clasificacin, dado que sus curvas ROC se sitan por encima
de las curvas del resto de modelos (lo cual implica una mejor discriminacin entre las
empresas de riesgo alto y las de riesgo bajo), y consecuentemente tienen un mayor AUC,
segn puede verse en la tabla 4.38.
Adems, hay que sealar que tienen una importante ventaja respecto a otros modelos pues
son muy sencillos de implementar e interpretar, al reemplazar las ecuaciones de los modelos
de regresin por un conjunto de reglas. Esta caracterstica supone una ayuda importante para
el proceso de decisin de los expertos en riesgo, pues les permite reducir el tiempo de sus
decisiones y, en consecuencia, su coste econmico.
Como se ha puesto de manifiesto en el apartado 4.4.1.4.4, el modelo con mejor AUC es el
obtenido mediante el rbol CHAID, y por tanto vamos a considerarlo como el modelo final
elegido. En consecuencia, los siguientes apartados de validacin e interpretacin se referirn
exclusivamente a dicho modelo.

Grfico 4.5. Comparativa de modelos mediante curvas ROC

57

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.38. Comparativa de modelos mediante el valor del AUC

En la tabla 4.38 se muestran los valores del AUC correspondientes a las curvas ROC mostradas
en el grfico 4.5. Se puede comprobar que el valor ms alto (y, por tanto, mejor) se obtiene
con el modelo del rbol CHAID, seguido del MLP (red neuronal), el MDA (anlisis
discriminante), el logit revisado, el rbol CRT y, por ltimo, del kNN (vecinos ms prximos).

4.4.1.5.Validacin del rbol CHAID


La validacin cruzada divide la muestra en un nmero de submuestras (o pliegues) disjuntas de
tamao similar. A continuacin, se generan los modelos de rbol, que no incluyen los datos de
cada submuestra. El primer rbol se basa en todos los casos excepto los correspondientes al
primer pliegue de la muestra; el segundo rbol se basa en todos los casos excepto los del
segundo pliegue de la muestra, y as sucesivamente. Para cada rbol se calcula el riesgo de
clasificacin errnea aplicando el rbol a la submuestra que se excluy al generarse ste. Este
mtodo genera un modelo de rbol nico y final, cuya estimacin de riesgo se calcula como
promedio de los riesgos de todos los rboles. En nuestro caso, este valor es 0.159 (Tabla 4.32
ya comentada previamente).
No obstante, para que los resultados resulten ms robustos, se ha realizado tambin una
validacin out-of-sample, tal y como se ha explicado en el apartado 4.4.1.3.
Se ha aplicado el modelo obtenido en el apartado 4.4.1.4.4 a la muestra de validacin,
obteniendo los resultados que aparecen seguidamente. Como se puede observar (grfico 4.6 y
tabla 4.39), se obtiene un AUC = 0.763, y un 85% de xito global (tabla 4.39) al predecir la
categora correcta (24.6% en default y 97.1% en no default). Consideramos que la merma en
bondad de ajuste es suficientemente pequea como para descartar problemas de sobreajuste.

58

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico 4.6. Curva ROC de la validacin

Tabla 4.39. Valor del AUC de la validacin

En la tabla 4.39 se muestra el valor del AUC correspondiente a la curva ROC mostrada en el
grfico 4.6, y que por tanto se refiere al modelo CHAID en la muestra de validacin.

Tabla 4.40. Matriz de confusin del rbol CHAID en la validacin

59

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

En la tabla 4.40 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta en la muestra de validacin. El porcentaje global no se muestra pero se
calcula de forma inmediata sin ms que sumar la diagonal principal y dividir entre el tamao
muestral (de validacin, en este caso).
Se ha intentado tambin realizar una validacin out-of-time, pero no ha sido posible pues la
poblacin7 que cumple las mismas condiciones que la utilizada para obtener la muestra de
desarrollo, pero con informacin de balance del ao 2012, tiene caractersticas bastante
diferentes en cuanto al tamao de las empresas y la proporcin de empresas con riesgo alto.
Esto es lgico debido a que existe un sesgo importante, dado que las empresas que
normalmente presentan sus cuentas antes son aqullas ms grandes y saneadas.

Tabla 4.41. Frecuencia de la variable respuesta en poblacin de validacin out-of-time

Distribucin de la variable respuesta en la muestra de validacin out-of-time; se puede


comprobar que es muy distinta a la de la muestra de desarrollo mostrada en la tabla 4.5.

Tabla 4.42. Frecuencia de la variable Tamao en poblacin de validacin out-of-time

Distribucin de la variable Tamao en la muestra de validacin out-of-time; se puede


comprobar que es muy distinta a la de la muestra de desarrollo mostrada en la tabla 4.2.

4.4.1.6.Interpretacin del rbol CHAID


En el grfico 4.2 se han mostrado las dos primeras ramas (17 nodos) del rbol, para las cuales
se ofrece una interpretacin en este apartado. Debido a limitaciones de espacio no se ha
podido mostrar el rbol completo de forma grfica, pero en el Anexo II se proporciona el
cdigo generado para poder replicarlo.

Fecha de acceso a la base de datos: 02/07/2013

60

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

La variable que provoca la primera divisin en el rbol, y que por tanto podemos considerar
como ms influyente, es el ratio Acreedores/Pasivo. Valores altos de este ratio implican mayor
riesgo, estando situados los puntos de corte, aproximadamente, en 0.2, 0.4 y 0.6 (tras
deshacer la transformacin logartmica). El sentido econmico de este resultado es claro: la
principal manera para compensar los acreedores es tener un pasivo que supere con creces lo
debido.
Resultados similares han sido obtenidos por Altman et al. (2010): Trade credit as a ratio of
total liabilities is higher in the failed subsample than in the non-failed sample. Small companies
that are restricted in bank credit may substitute trade credit where possible [] As expected,
both trade debt to total assets and trade credit to total liabilities are positive and significant8
Analizando los nodos 1 y 4 y sus filiales, observamos que cuando Acreedores/Pasivo es bajo
(inferior a 0.2) o alto (superior a 0.6), la segunda variable ms importante a tener en cuenta es
Acreedores /Deudores, siendo mayor el riesgo cuanto mayor sea este ratio, con los puntos de
corte situados en 1.6, 3.1 y 9.5, aproximadamente.
El sentido econmico es tambin lgico: cuanto mayor es el ratio entre lo que una empresa
debe a su proveedores y lo que le deben sus clientes, peor es su fondo de maniobra y por
tanto mayor su riesgo de tener dificultades econmico/financieras.
Dado que no es frecuente analizar el crdito comercial simultneamente desde los dos puntos
de vista que ofrece (proveedor y cliente), no se han encontrado referencias anteriores a esta
variable (se introduce, pero no resulta significativa, en Altman et al., 2010), si bien algunos
informes (Credit Management Research Centre, 2008) hablan de su importancia: Managing
the net trade credit position is critical9.
El hecho de que esta variable tenga un papel tan relevante en el modelo en detrimento de los
periodos medios de cobro y pago (la primera no entra en el modelo, la segunda s pero con
escasa importancia) parece sugerir que, a efectos de valorar el riesgo en las pymes espaolas,
es ms importante el volumen de crdito comercial que la gestin del mismo en lo relativo a
nmero medio de das de cobro y pago.
Sin embargo, cuando Acreedores/Pasivo toma valores medios (entre 0.2 y 0.6, nodos 2 y 3), la
segunda variable a tener en cuenta pasa a ser el Incremento de Ventas: por supuesto, a menor
valor de esta variable, mayor riesgo (puntos de corte variables).
Resultados similares han sido obtenidos por otros autores (Garca-Teruel y Martnez-Solano,
2007; Martnez-Sola et al., 2012), si bien construyen modelos para explicar el valor de la
empresa en lugar del riesgo: Growth, which could be an indicator of firms business
opportunities, is an important factor allowing firms to enjoy improved profitability, as we see

El crdito comercial como proporcin del total de pasivos es mayor en la submuestra de fallidos que
en la de no fallidos. Las pequeas empresas que tienen restringido el crdito bancario pueden sustituirlo
por crdito comercial cuando sea posible [...] Como era de esperar, tanto la deuda comercial respecto al
activo total como el crdito comercial respecto al pasivo total son positivos y significativos
9
La gestin de la posicin neta de crdito comercial es fundamental

61

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

in the positive sign for the variable SGROW (Sales Growth)10 y Growth is positively related to
the two proxies of firm value in all four cases11, respectivamente.
Las variables que no entran a formar parte del modelo son las siguientes: periodo medio de
cobro, sector y tamao.

4.4.2.Fase II.- Modelo ordinal


4.4.2.1.Obtencin de la medida de nivel de riesgo (variable dependiente)
En este caso utilizaremos la variable MORE_Gr8, que no es ms que la variable RatingMORE
original (ver Anexo I, tabla A1.5) con un par de modificaciones: se agrupan los tres niveles ms
altos, y se recodifican los niveles alfanumricos en valores numricos con orden lgico.

Tabla 4.43. Frecuencia de la variable MORE_Gr8 en la muestra de desarrollo

Tabla de frecuencias de la variable MORE_Gr8, transformacin de la variable original Rating


MORE (10 niveles alfanumricos) en una variable numrica de 8 niveles.

4.4.2.2.Obtencin de las variables independientes


Como se ha avanzado en el apartado 4.4, en este caso partiremos de un modelo de scoring
conocido, que utilizaremos como variable independiente principal, y trataremos de valorar si el
aporte del score obtenido mediante nuestro modelo del apartado 4.4.1 (introducido como
variable independiente adicional) resulta estadsticamente significativo y til a la hora de
explicar la variable dependiente.

10

El crecimiento, que podra ser un indicador de las oportunidades de negocio de la empresa, es un


factor importante que permite a las empresas disfrutar de una mayor rentabilidad, como vemos en el
signo positivo de la variable SGROW (crecimiento de ventas)
11
El crecimiento se relaciona positivamente con los dos indicadores del valor de la empresa en los
cuatro casos

62

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Se ha decidido utilizar como modelo de scoring el propuesto por Pozuelo et al. (2010), por
similitud de la poblacin (microempresas espaolas) y la fuente de datos (SABI) utilizadas, as
como por su proximidad temporal. Una ventaja de este modelo sobre el modelo de Altman es
que los ratios financieros utilizados por Altman en sus diversos estudios no son muy comunes
en los balances espaoles, pues el hecho de restringirse a empresas estadounidenses provoca
que las variables de balance utilizadas tengan difcil traslacin a la informacin contable
espaola. En consecuencia, algunos estudios (Lizrraga, 1998) hacen hincapi en la
aplicabilidad limitada del modelo de Altman para las empresas espaolas.
Por tanto, el modelo utilizado para calcular el score ser

siendo REN8=RO/FP, EF4=GF/PT, EF8=FP/PT y SOLVLP2=RGAI/PT, (RO:Resultados de


actividades ordinarias, FP:Fondos propios, GF:Gastos financieros, PT:Pasivo total y
RGAI:Resultados generados antes de impuestos).
Al tratarse de un modelo logstico, la transformacin a PD ser PD_PLV12 =
Cabe destacar dos aspectos de este modelo: a pesar de que el modelo final consta slo de
cuatro variables, es resultado de un exhaustivo proceso de modelizacin que parte de 73
variables originales e incluye un anlisis factorial previo; en el modelo no hay ninguna variable
que recoja caractersticas que puedan estar relacionadas con el TC.

4.4.2.3.Modelizacin
Se ha realizado una regresin ordinal para tratar de explicar MORE_Gr8 a partir de PD_PLV.
Como puede comprobarse en las siguientes tablas, los resultados del ajuste son bastante
buenos, con valores del Pseudo-R2 superiores a 0.7. Tambin se facilita la tabla de
contingencia con sus medidas asociadas, donde se puede observar una Gamma de 0.85 y una
Tau de Kendall de 0.74.

Tabla 4.44. Coeficientes del modelo logstico ordinal inicial

12

La denominacin PD_PLV hace referencia a sus autores (Pozuelo, Labatut y Veres)

63

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla que muestra los coeficientes del modelo con sus correspondientes intervalos de
confianza al 95%, as como el estadstico del test de Wald y su p-valor asociado. A diferencia
del caso binario, en el ordinal SPSS no proporciona los odds.

Tabla 4.45. Significatividad del modelo logstico ordinal inicial

En la tabla 4.45 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues su p-valor es muy prximo a cero.

Tabla 4.46. Bondad de ajuste del modelo logstico ordinal inicial

En cuanto a la bondad de ajuste, SPSS nos proporciona diversas formas de calcular el


estadstico Pseudo-R2. En este caso se han mostrado los estadsticos de Cox y Snell,
Nagelkerke y McFadden.

Tabla 4.47. Matriz de confusin del modelo logstico ordinal inicial

64

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

En la tabla 4.47 se puede visualizar el nmero de casos clasificados correcta e


incorrectamente. Se puede comprobar que la gran mayora de casos estn prximos a la
diagonal principal, lo cual indica una adecuada clasificacin.

Tabla 4.48. Coeficientes de correlacin del modelo logstico ordinal inicial

Tabla con los valores de las medidas de asociacin para tablas simtricas ordinales (Gamma y
tau de Kendall), y una medida de concordancia (ndice de Kappa).
Posteriormente, se realiza una regresin ordinal con la misma variable dependiente, pero
incluyendo como variable independiente el score proporcionado por nuestro modelo CHAID de
la fase 1. Como queda de manifiesto en las tablas siguientes, la inclusin en el modelo del
parmetro asociado a este factor resulta significativa, y mejoran todas las medidas de bondad
de ajuste, tanto el Pseudo-R2 como las medidas de asociacin de la tabla de contingencia.

Tabla 4.49. Coeficientes del modelo logstico ordinal modificado

En la tabla 4.49 se muestran los coeficientes del modelo con sus correspondientes intervalos
de confianza al 95%, as como el estadstico del test de Wald y su p-valor asociado. Se puede
comprobar que el p-valor del coeficiente de la variable CHAID est muy prximo a cero, y por
tanto resulta significativo para cualquier nivel de significacin razonable.

65

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.50. Significatividad del modelo logstico ordinal modificado

En la tabla 4.50 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues su p-valor es prximo a cero.

Tabla 4.51. Bondad de ajuste del modelo logstico ordinal inicial

Como puede comprobar en la presente tabla 4.51, las medidas de bondad de ajuste han
mejorado algo ms de dcima y media (respecto a la tabla 4.46) tras la inclusin de la nueva
variable.

Tabla 4.52. Matriz de confusin del modelo logstico ordinal modificado

En esta tabla se puede visualizar el nmero de casos clasificados correcta e incorrectamente.


Se puede comprobar que la gran mayora de casos estn prximos a la diagonal principal, lo
cual indica una adecuada clasificacin.

66

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.53. Coeficientes de correlacin del modelo logstico ordinal modificado

Como se puede comprobar en la presente tabla 4.53, las medidas de asociacin han mejorado
cerca de una dcima (respecto a la tabla 4.48) tras la inclusin de la nueva variable.
Tambin se ha realizado una matriz de distancias utilizando la distancia Chi2, mtrica habitual
en el anlisis de correspondencias. Es una forma de medir distancias entre perfiles, y su
formulacin es similar a la distancia eucldea, salvo porque dividimos cada cuadrado de la
diferencia entre coordenadas por su correspondiente elemento del perfil medio, de forma que
se puede considerar una distancia eucldea ponderada (Greenacre, 2008).
Como se puede comprobar en la tabla 4.54, la variable respuesta est ms prxima al
resultado del segundo modelo que al del primero.

Tabla 4.54. Distancia Chi-cuadrado entre los modelos logsticos ordinales

No hay problemas de colinealidad dado que el coeficiente de correlacin (tabla 4.55) entre
ambos regresores no es muy alto:

Tabla 4.55. Coeficiente de correlacin entre los regresores del modelo logstico modificado

67

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Coeficiente de correlacin de Pearson (y su p-valor asociado) entre las variables


independientes del modelo.
Por todo ello, consideramos que el aporte del score del modelo obtenido en la Fase 1 mejora
significativamente el modelo resultante final.

4.4.2.4.Validacin
Se ha procedido anlogamente a la Fase I, aplicando los modelos anteriormente obtenidos a la
muestra de validacin, y como se puede ver seguidamente, los resultados son muy similares a
los obtenidos en entrenamiento.

Tabla 4.56. Coeficientes del modelo logstico ordinal inicial en validacin

Tabla con los coeficientes del modelo y sus correspondientes intervalos de confianza al 95%,
as como el resultado del test de Wald.

Tabla 4.57. Significatividad del modelo logstico ordinal inicial en validacin

En la tabla 4.57 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues su p-valor est prximo a cero.

68

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.58. Bondad de ajuste del modelo logstico ordinal inicial en validacin

En cuanto a la bondad de ajuste, SPSS nos proporciona diversas formas de calcular el


estadstico Pseudo-R2, como ya se ha comentado en la tabla 4.46.

Tabla 4.59. Coeficientes del modelo logstico ordinal modificado en validacin

Tabla que muestra los coeficientes del modelo con sus correspondientes intervalos de
confianza al 95%, as como el resultado del test de Wald. Se puede comprobar que el p-valor
del coeficiente de la variable CHAID es prximo a cero, y por tanto resulta significativo para
cualquier nivel de significacin razonable.

Tabla 4.60. Significatividad del modelo logstico ordinal modificado en validacin

En la tabla 4.60 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues el p-valor est prximo a cero.

69

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla 4.61. Bondad de ajuste del modelo logstico ordinal modificado en validacin

Como se puede comprobar en la presente tabla 4.61, las medidas de bondad de ajuste han
mejorado aproximadamente dcima y media (respecto a la tabla 4.58) tras la inclusin de la
nueva variable.

4.4.1.5.Interpretacin
Como se puede comprobar en la tabla 4.45, slo se obtiene el valor de los coeficientes, no el
de los odds. Si los calculamos, podemos comprobar que el incremento producido en la variable
respuesta por cada dcima13 que aumenta la variable PD_PLV es aproximadamente el doble
(2.53 frente a 1.3) que el producido por un aumento similar en la variable CHAID. En ese
sentido, a igualdad del valor de CHAID, un aumento de una dcima en PD_PLV producir
aproximadamente un incremento de un nivel en la variable respuesta, mientras que a igualdad
de PD_PLV, el mismo efecto se obtendra con un aumento de dos dcimas en CHAID.

13

Teniendo en cuenta que las variables independientes estn calculadas como probabilidades y no
porcentajes, no tiene mucho sentido hablar de aumentos de una unidad, pues su valor estar siempre
entre 0 y 1.

70

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

5.CONCLUSIONES

En este trabajo se ha analizado la relacin entre la gestin del crdito comercial y el nivel de
riesgo en las pymes desde un punto de vista estadstico.
Utilizando la base de datos SABI, se ha extrado una muestra aleatoria de ms de 10000 pymes
espaolas, de las cuales se ha obtenido informacin del nivel de riesgo, as como otras
variables tanto financieras como no financieras. Se han utilizado diversas metodologas, tanto
paramtricas como no paramtricas, para crear modelos multivariantes que traten de explicar
el nivel de riesgo a partir, principalmente, de medidas del uso de crdito comercial.
Inicialmente se ha utilizado una variable dependiente binaria (riesgo alto vs. riesgo bajo), y se
han obtenido modelos que consiguen una elevada precisin en la ordenacin de las empresas
de acuerdo a su riesgo (score), alcanzando los mejores resultados mediante las tcnicas de
rboles de clasificacin.
Posteriormente, utilizando una variable dependiente ordinal (8 niveles) y un modelo de scoring
conocido como variable independiente, hemos construido un nuevo modelo incorporando el
resultado de nuestro score como variable independiente adicional, deduciendo que el aporte
de nuestro modelo resulta estadsticamente significativo a la hora de explicar la variable
dependiente, y adems mejora las medidas de bondad de ajuste.
Por tanto, mediante el presente trabajo se ha obtenido evidencia emprica de que el crdito
comercial es un buen indicador de riesgo, pues se han desarrollado modelos que alcanzan una
buena bondad de ajuste a la hora de explicar la variable dependiente binaria. As mismo, se ha
obtenido evidencia emprica de que el crdito comercial puede resultar un aporte interesante
y til a los modelos clsicos de scoring cuando tratamos con pymes, pues se ha comprobado
que la inclusin de variables relacionadas con su gestin puede mejorar el desempeo de
dichos modelos. Por todo ello, la conclusin ms importante de este trabajo desde el punto de
vista del negocio es que las pymes (y sus dirigentes) pueden reducir su riesgo gestionando
adecuadamente el TC, lo cual implica inicialmente ajustar el ratio Acreedores/Pasivo, dado que
sta es la variable ms relevante en el modelo.

71

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Adems, consideramos que nuestro trabajo contribuye a la relativamente escasa bibliografa


existente sobre la aplicacin de rboles de clasificacin al mbito del anlisis del riesgo de
crdito. El rbol de decisin se distingue por varios aspectos que proporcionan mejores
resultados prcticos que los modelos paramtricos. Los resultados finales de la utilizacin de
mtodos de rboles de clasificacin o de regresin se resumen en una serie de condiciones
lgicas (los nodos del rbol). La interpretacin de los resultados resulta muy simple. Esta
simplicidad es til no slo para la clasificacin rpida de las nuevas observaciones, sino
tambin porque produce un "modelo" mucho ms simple a la hora de explicar por qu ciertas
observaciones se clasifican en un grupo concreto.

5.1.Prximos pasos y trabajos futuros


En cuanto a la metodologa utilizada para clasificar las empresas de acuerdo a su nivel de
riesgo, si bien se ha probado con una amplia batera de tcnicas, quizs se podra valorar el uso
de otro tipo de algoritmos que funcionan bien en problemas de este estilo, donde las tcnicas
clsicas no suelen dar buenos resultados. Por ejemplo, redes bayesianas o support vector
machines14 (SVM).
Por lo que respecta a la obtencin de la medida del nivel de riesgo, el acceso a alguna base de
datos con informacin sobre incumplimientos de las empresas permitira calcular la PD de
forma intrnseca, y no depender de otro tipo de medidas sustitutorias. En Espaa existe la
CIRBE (Central de Informacin de Riesgos del Banco de Espaa), si bien no es de acceso pblico
(para consultas masivas) y adems tiene un sesgo hacia las empresas de mayor tamao.
Por otro lado, como se coment en la seccin 4.1, este trabajo pretende ser un primer paso de
un futuro anlisis cuyo objetivo final es ayudar a las empresas a reducir su riesgo global
mediante la aplicacin de reglas de gestin del riesgo personalizadas para cada cliente.
Estaramos hablando, por tanto, de optimizacin del riesgo de crdito comercial, utilizando
principalmente tcnicas de optimizacin como por ejemplo metaheursticas.

5.2.Publicaciones generadas

Terrdez, M., Juan, A., Kizys, R., Debn, A., Sawik, B., 2013, Trade Credit Risk Analysis in
Small and Medium Enterprises, Proceedings of the 5th Int. Conf. on Risk Analysis (ICRA5),
ISBN: 978-972-9473-71-5. (Tomar, Portugal. May 30 June 1).
Terrdez, M., Kyzis, R., Juan, A., Debn, A, Risk Scoring Models for Trade Credit in Small
and Medium Enterprises, Springer Proceedings in Mathematics & Statistics (en revisin)

14

No hay consenso sobre la traduccin al castellano, habindose propuesto, entre otras, mquinas de
vector soporte o mquinas de soporte vectorial.

72

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

BIBLIOGRAFA

Altman, E.I., 1968, Financial ratios, discriminant analysis and prediction of


corporate bankruptcy, The Journal of Finance 23, 589-609

Altman, E.I., Sabato, G. y Wilson, N., 2010, The value of non-financial information
in SME risk management, The Journal of Credit Risk 6, 1-33

Altman, E.I., y Sabato, G., 2007, Modeling credit risk for SMEs: evidence from the
US market. ABACUS 43, 332-357

Aziz, A., Emanuel, D.C. y Lawson, G.H., 1998, Bankruptcy prediction: an


investigation of cash flow based models, Journal of Management Studies 25, 419437

Balcaen, S. y Ooghe, H, 2006, 35 years of studies on business failure: an overview


of the classic statistical methodologies and their related problems, The British
accounting review 38, 63-94

Becchetti, L. y Sierra, J., 2002, Bankruptcy risk and productive efficiency in


manufacturing firms, Journal of Banking and Finance 27, 2099-2120

Berry, M.J.A. y Linoff, G., 1997, Data Mining Techniques, John Wiley & Sons

Biais, B., y Gollier, C., 1997, Trade credit and credit rationing, Review of Financial
Studies 10, 903-937.

Boissay, F y Gropp, R., 2013, Payment defaults and interfirm liquidity provision,
Review of Finance, 1-42, doi:10.1093/rof/rfs045

Burkart, M. y Ellingsen, T., 2004, In-kind finance: A theory of trade credit, American
Economic Review 94, 569-590

Cheng, N y Pike, R., 2003, The trade credit decision: evidence of UK firms,
Managerial and decision economics 24, 419-438

Coats, P.K. y Fant, L.F., 1991, A neural network approach to forecasting financial
distress, The Journal of Business Forecasting 10, 9-12

Correa, A., Acosta, M. y Gonzlez, A.L., 2003, La insolvencia empresarial: un


anlisis emprico para la pyme, Revista de Contabilidad 6, 47-79

Cuat, V., 2007, Trade credit: suppliers as debt collectors and insurance providers,
Review of Financial Studies 20, 491-527

73

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Deakin, E.B., 1972, A discriminant analysis of predictors of business failure, Journal


of Accounting Research 10, 167-179

Deloof, M., 2003, Does working capital management affect profitability of Belgian
firms?, Journal of Business Finance and Accounting 30, 573-587.

Deloof, M., Jegers, M., 1999, Trade credit, corporate groups, and the financing of
Belgian firms, Journal of Business Finance and Accounting 26, 945-966.

Demirguc-Kunt, A. y Maksimovic, V., 2002, Firms as financial intermediaries:


Evidence from trade credit data, University of Maryland Working Paper
(http://siteresources.worldbank.org/DEC/Resources/847971114437274304/TradeCredit2002.pdf)

Drever, M. y Drive, H., 2004, The late payment of trade credit for SMEs,
International Council for Small Business

Emery, G., 1984, A Pure Financial Explanation for Trade Credit, Journal of Financial
and Quantitative Analysis 19, 271-285

Fantazzini, D. y Figini, S., 2009, Random Survival Forest Models for SME Credit Risk
Measurement, Methodology and Computing in Applied Probability 11, 29-45

Fawcett, T., 2006. An introduction to ROC analysis. Pattern Recognition Letters 27,
861-874

Ferrer, A. y Peset, F., 2007, Anlisis de los directorios privados de informacin


empresarial espaola, El profesional de la informacin 16, 243-257

Fissman, R., Love, I., 2003, Trade credit, financial intermediary development, and
industry growth, Journal of Finance 58, 353-374.

Fraser, S., 2008, Small firms in the credit crisis. Evidence from the UK Survey of
SME Finance. Warwick Business School
(http://www2.warwick.ac.uk/fac/soc/wbs/research/csme/research/latest/small_fi
rms_in_the_credit_crisis_v3-oct09.pdf)

Frydman H., Altman E.I. y Kao D.L., 1985, Introducing recursive partitioning for
financial classification: The case of financial distress. Journal of Finance 40,269-291

Garca-Teruel, P. y Martnez-Solano, P., 2007, Effects of working capital


management on SME profitability, International Journal of Managerial Finance 3,
174-177

Garca-Vaquero, V. y Alonso, F., 2011, El crdito comercial en Espaa: importancia


relativa y evolucin reciente, Boletn Econmico del Banco de Espaa
(http://www.bde.es/f/webbde/SES/Secciones/Publicaciones/InformesBoletinesRe
vistas/BoletinEconomico/11/Feb/Fich/art5.pdf)

Giannetti, M., Burkart, M. y Ellingsen, T., 2011, What you sell is what you lend?
Explaining trade credit contracts, The review of financial studies

74

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Greenacre, M., 2008, La prctica del anlisis de correspondencias. Fundacin


BBVA.

Grunert, J., Norden, L. y Weber, M., 2004, The Role of Non-Financial Factors in
Internal Credit Ratings, Journal of Banking and Finance 29, 509-531

Harrell, F.E., 2010, Regression Modeling Strategies. Springer

Hastie, T, Tibshirani, R. y Friedman, J., 2001, The elements of statistical learning:


data mining, inference and prediction. Springer

Hernndez, J., Ramrez, M.J. y Ferri, C., 2004, Introduccin a la minera de datos,
Pearson Prentice Hall

Klapper, L., Laeven, L., y Rajan, R., 2012, Trade credit contracts, Review of
Financial Studies 25, 838-867.

Lee, Y.W., y Stowe, J.D., 1993, Product risk, asymmetric information and trade
credit, Journal of Financial and Quantitative Analysis 28, 285-300

Lizarraga, F., 1998, Modelos de previsin del fracaso empresarial: funciona entre
nuestras empresas el modelo de Altman de 1968?, Revista de Contabilidad 1, 137164

Long, M.S., Malitz, I.B. y Ravid, SA., 1993, Trade credit, quality guarantees, and
product marketability, Financial Management 22, 117127.

Martnez-Sola, C, Garca-Teruel, P.J. y Martnez-Solano, P., 2012, Trade credit


policy and firm value, IVIE Working Papers (Serie EC) 2012-01
(http://www.ivie.es/downloads/docs/wpasec/wpasec-2012-01.pdf)

Menon, A.K., Shivani, H.N. y Chawla, S., 2013, On the Statistical Consistency of
Algorithms for Binary Classification under Class Imbalance, Proc. ICML

Metz, C.E. and Kronman, H.B., 1980, Statistical significance tests for binormal ROC
curves, Journal of Mathematical Psychology 22, 218-243

Micha, B., 1984, Analysis of business failures in France, Journal of Banking and
Finance 8, 281-291

Ng, C.K., Smith, J.K. y Smith, R.L., 1999, Evidence on the Determinants of Credit
Terms Used in Interfirm Trade, Journal of Finance 54, 1109-1129

Ohlson, J., 1980, Financial ratios and the probabilistic prediction of bankruptcy,
Journal of Accounting Research 18, 109-131

Paul, S y Guermat, C., 2010, Trade Credit as Short-Term Finance in the UK, Centre
for Global Finance Working Paper 10/09
(http://www2.uwe.ac.uk/faculties/BBS/BUS/Research/CGF/CGF%20Working%20P
aper10%2009.pdf)

Paul, S. y Wilson, N., 2006, Trade Credit supply: An empirical investigation of


companies level data, Journal of Accounting-Business and Management 13, 85-113

75

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Peel, M.J., Wilson, N. and Howorth, C., 2000, Late payment and Credit
Management in the small firm sector: Some empirical evidence, International
Small Business Journal 18, 17-37

Petersen, M y Rajan, R., 1997, Trade credit: theories and evidence, Review of
financial studies 10, 661-691

Pike, R y Cheng, N., 2001, Credit management: an examination of policy choices,


practices and late payment in UK companies, Journal of Business Finance &
Accounting 28, 1013-1042

Poutziouris, P., Michaelas, N. y Soufani, K., Financial management of Trade Credits


in SMEs, Working paper. Concordia University
(http://www.efmaefm.org/efma2005/papers/241-soufani_paper.pdf)

Pozuelo, J., Labatut, G. y Veres, E., 2010, Anlisis descriptivo de los procesos de
fracaso empresarial en microempresas mediante tcnicas multivariantes, Revista
Europea de Direccin y Economa de la Empresa 19, 47-66

Rodrguez, O., 2003, Anlisis multivariante sobre el crdito comercial para una
muestra de PYMES canarias, Documento de trabajo 2003-11. Universidad de La
Laguna (http://fceye.ull.es/invest/docum/ull-ulpgc/DT2003-11.pdf)

Rodrguez, O., 2006, Trade Credit in Small and Medium Size Firms: An application
of the system estimator with panel data, Small Business Economics 27, 103-126

Rodrguez, O., 2008, El crdito comercial: marco conceptual y revisin de la


literatura, Investigaciones europeas de direccin y economa de la empresa 14, 3554

Ruano, S. y Salas, V., 2004, Indicadores de riesgo a partir de los resultados


contables de las empresas, Revista de Estabilidad Financiera n2, Banco de Espaa
(http://www.bde.es/f/webbde/Secciones/Publicaciones/InformesBoletinesRevista
s/RevistaEstabilidadFinanciera/04/Fic/estfin07_rev.pdf)

Ruano, S. y Salas, V., 2006, Morosidad de la deuda empresarial bancaria en


Espaa, 1992-2003, Documento de Trabajo n0622, Banco de Espaa
(http://www.bde.es/f/webbde/SES/Secciones/Publicaciones/PublicacionesSeriada
s/DocumentosTrabajo/06/Fic/dt0622.pdf)

Seifert, D., Seifert, R.W., Protopappa-Sieke, M., 2013, A review of trade credit
literature: Opportunities for research in operations, European Journal of
Operational Research, http://dx.doi.org/10.1016/j.ejor.2013.03.016

Sobehart, J.R. and Keenan, S.C., 2001, A practical review and test of default
prediction models, RMA Journal 84, 54-59

Swets, J.A., 1996, Signal detection theory and ROC analysis in psychology and
diagnostics: Collected papers, Lawrence Erlbaum Associates

Tarling, R., 2009, Statistical Modelling for Social Researchers. Routledge.

76

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Trucharte, C. y Marcelo, A., 2002, Un sistema de clasificacin (rating) de


acreditados, Revista de Estabilidad Financiera n2, Banco de Espaa
(http://www.bde.es/f/webbde/Secciones/Publicaciones/InformesBoletinesRevista
s/RevistaEstabilidadFinanciera/02/Fic/estfin02.pdf)

Uchida, H., Udell, G.F. y Watanabe, W., 2006, Are trade creditors relationship
lenders?, RIETI Discussion Paper Series
(http://www.rieti.go.jp/jp/publications/dp/06e026.pdf)

Uriel, E., 1995, Anlisis de datos. Series temporales y anlisis multivariante,


Editorial AC

Van der Wijst, N. y Hol, S., 2002, Trade Credit in Europe, European Working Group
on Financial Modeling (http://hermesmba.cc.ucy.ac.cy/conferences/ewgfm/papers/WijstHol.doc)

Van Hulse, J., Khoshgoftaar, T.M. y Napolitano, A., 2007, Experimental


perspectives on learning from imbalanced data, Proc. ICML

Wilner, B., 2000, The exploitation of relationships in financial distress: the case of
trade credit, The Journal of Finance 55, 153-178

Wilson, N., 1996, Credit management, late payment and the SME business
environment. A survey. Credit Management Research Group, University of
Bradford Management Centre (http://hdl.handle.net/10068/425962)

Wilson,N., 2008, An investigation into payment trends. Credit Management


Research Centre. University of Leeds (http://www.cmrc.co.uk/wpcontent/uploads/PaymentTrendsandBehaviour.pdf)

Zweig, M.H. and Campbell, G., 1993, Receiver-Operating Characteristic (ROC) plots:
a fundamental evaluation tool in clinical medicine, Clinical Chemistry 39, 561-577

Credit and debt management - 2008 Survey (2008. Credit Management Research
Centre, University of Leeds) (http://www.cmrc.co.uk/wpcontent/uploads/CreditandDebtSurvey2008.pdf)

Studies on the Validation of Internal Rating Systems, 2005, Bank for International
Settlements, Working Paper 14 (http://www.bis.org/publ/bcbs_wp14.pdf)

IBM SPSS Decision Trees (Manual), IBM Corporation


(ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/
es/client/Manuals/IBM_SPSS_Decision_Trees.pdf)

CRISP-DM 1.0. Step-by-step data mining guide, 2000, IBM Corporation


(ftp://ftp.software.ibm.com/software/analytics/spss/documentation/modeler/14.
2/en/CRISP_DM.pdf)

77

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

78

Septiembre
de 2013

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

ANEXO I. ANLISIS PRELIMINARES

1. Frecuencias de variables categricas


En este apartado se proporcionan las distribuciones de frecuencias de las variables categricas
en la muestra de desarrollo.

Tabla A1.1. Frecuencia de la variable Tamao en la muestra de desarrollo

Dado que la gran mayora de nuestras empresas (ms de tres cuartas partes) son micros, y que
una parte importante de ellas tiene muy pocos empleados, se ha decidido dividir esta
categora en dos subcategoras segn el nmero de empleados: por tanto, se crea la variable
Size, que consta de cuatro valores: 1 (Micros con 1 o 2 empleados), 2 (Micros con ms de 2
empleados), 3 (Pequeas) y 4 (Medianas).

Tabla A1.2. Frecuencia de la variable Size en la muestra de desarrollo

Tabla de frecuencias de la variable Size, transformacin de la variable Tamao, cuya tabla de


frecuencias se ha mostrado en la tabla A1.1.

79

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A1.3. Frecuencia de la variable Sector_act en la muestra de desarrollo

Como se puede comprobar en la tabla A1.3, casi dos tercios de las empresas pertenecen al
sector servicios, slo un 3% a la agricultura, y el resto se reparten ms o menos
equitativamente entre el sector industrial y el de la construccin.

Tabla A1.4. Frecuencia de la variable Sector en la muestra de desarrollo

En la tabla A1.4 se muestra la transformacin a variable numrica de la variable categrica


Sector_act, cuya tabla de frecuencias se ha mostrado en la tabla A1.3.

Tabla A1.5. Frecuencia de la variable RatingMORE en la muestra de desarrollo

80

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla de frecuencias de la variable RatingMORE original en la muestra de desarrollo. Como se


puede comprobar, se muestran los valores por orden alfabtico, que no se corresponde con el
orden lgico (ver tabla 4.4), de ah que sea necesario recodificar esta variable.

Tabla A1.6. Frecuencia de la variable MORE_Gr8 en la muestra de desarrollo

Tabla de frecuencias de la variable MORE_Gr8, transformacin de la variable original Rating


MORE (10 niveles alfanumricos) en una variable numrica de 8 niveles, en la que se han
juntado los tres niveles superiores.

Tabla A1.7. Frecuencia de la variable MORE_Bin en la muestra de desarrollo

Tabla de frecuencias de MORE_Bin, variable binaria que es una discretizacin del rating MORE
en dos categoras: las empresas de riesgo alto (aqullas que tienen una calificacin CC o
inferior) frente a las de riesgo bajo (el resto), asimiladas a los valores default (1) y no
default (0), respectivamente. Esta variable se utiliza como dependiente en los modelos
binarios.

2. Estadsticas descriptivas de variables continuas


A continuacin se muestra, a modo de ejemplo, el anlisis de las distribuciones de dos
variables independientes continuas, mediante el que se justifica por qu una de ellas no ha
sido transformada, y la otra (al igual que el resto) s.

81

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

2.1. Estadsticas y grficos descriptivos detallados de variables continuas originales. Ejemplos

Tabla A1.8. Descriptivos de la variable Antigedad (Age) en la muestra de desarrollo

Estadsticas descriptivas (media y su intervalo de confianza al 95%, media recortada al 5%,


mediana, varianza, desviacin estndar, mnimo, mximo, rango, rango intercuartlico,
asimetra y curtosis) de la variable Antigedad (Age) en la muestra de desarrollo.

Tabla A1.9. Percentiles de la variable Antigedad (Age) en la muestra de desarrollo

Percentiles de la variable Antigedad (Age) en la muestra de desarrollo.

82

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico A1.1. Histograma de la variable Antigedad (Age) en la muestra de desarrollo

Histograma de la variable Antigedad (Age) en la muestra de desarrollo. Se puede comprobar


que tiene una distribucin con cola larga a la derecha, pero las transformaciones habituales
(logaritmo, inversa, raz cuadrada) no mejoran la forma de la distribucin, por lo que se decide
mantener la variable original sin transformacin.

Grfico A1.2. Boxplot de la variable Antigedad (Age) en la muestra de desarrollo

83

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Boxplot de la variable Antigedad (Age) en la muestra de desarrollo, en el que se aprecia lo


mismo que en el grfico A1.1 ya comentado previamente.

Tabla A1.10. Descriptivos de la variable Periodo medio de pago en la muestra de desarrollo

Estadsticas descriptivas (media y su intervalo de confianza al 95%, media recortada al 5%,


mediana, varianza, desviacin estndar, mnimo, mximo, rango, rango intercuartlico,
asimetra y curtosis) de la variable Periodo medio de pago en la muestra de desarrollo.

Tabla A1.11. Percentiles de la variable Periodo medio de pago en la muestra de desarrollo

Percentiles de la variable Periodo medio de pago en la muestra de desarrollo.

84

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico A1.3. Histograma de la variable Periodo medio de pago en la muestra de desarrollo

Histograma de la variable Periodo medio de pago en la muestra de desarrollo. Se puede


comprobar que tiene una distribucin muy concentrada en valores pequeos, y con pocos
valores atpicos muy grandes (caractersticas habituales en variables financieras), por lo que se
decide transformarla mediante el logaritmo.

Grfico A1.4. Boxplot de la variable Periodo medio de pago en la muestra de desarrollo

85

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Boxplot de la variable Periodo medio de pago en la muestra de desarrollo, en el que se aprecia


lo mismo que en el grfico A1.3 ya comentado previamente.

86

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

2.2. Estadsticas y grficos descriptivos detallados de variable continua transformada. Ejemplo

Tabla A1.12. Descriptivos de la variable Log_DAP en la muestra de desarrollo

Estadsticas descriptivas (media y su intervalo de confianza al 95%, media recortada al 5%,


mediana, varianza, desviacin estndar, mnimo, mximo, rango, rango intercuartlico,
asimetra y curtosis) de la variable Log_DAP (transformacin logartmica de la variable original
Periodo medio de pago) en la muestra de desarrollo.

Tabla A1.13. Percentiles de la variable Log_DAP en la muestra de desarrollo

Percentiles de la variable Log_DAP en la muestra de desarrollo.

87

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico A1.5. Histograma de la variable Log_DAP en la muestra de desarrollo

Histograma de la variable Log_DAP en la muestra de desarrollo. Se puede comprobar que tiene


una distribucin mucho ms simtrica que la de la variable original Periodo medio de pago
(grfico A1.3), sin apenas valores atpicos. Tan slo un excesivo apuntamiento impide asegurar
que se trate de una distribucin Normal, pero se aproxima bastante.

Grfico A1.6. Boxplot de la variable Log_DAP en la muestra de desarrollo

88

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Boxplot de la variable Log_DAP en la muestra de desarrollo, en el que se aprecia lo mismo que


en el grfico A1.5 ya comentado previamente, y en comparacin con el grfico A1.4 se puede
comprobar el cambio en la distribucin al aplicar la transformacin logartmica.

3. Estadsticas descriptivas de variables continuas transformadas


En este apartado se muestran los descriptivos principales de las variables independientes que
entran definitivamente a formar parte del proceso de modelizacin.

Tabla A1.14. Descriptivos de variables continuas transformadas en la muestra de desarrollo

Estadsticas descriptivas (tamao de muestra, mnimo, mximo, media y desviacin estndar)


de las variables continuas transformadas mediante el logaritmo (salvo Age, que se mantiene
original) en la muestra de desarrollo.

4. Anlisis de valores atpicos


Se ha analizado la distribucin de cada una de las variables continuas, y dado que presentan
valores extremos, se ha realizado un anlisis para detectar valores atpicos de forma
multivariante, tanto mediante la opcin del ndice de anomala del SPSS como mediante un
anlisis de cluster, sin observar ningn patrn definido.

89

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A1.15. Listado de casos anmalos identificados por SPSS

Listado de los 25 casos cuyo ndice de anomala supera el valor 5. Se puede comprobar que no
hay ningn caso cuyo ndice de anomala sea mucho mayor que el resto.

90

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A1.16. Casos anmalos identificados por SPSS y variables que generan la anomala

Listado de casos mostrados en la tabla A1.15, junto a la variable en la cual dicho caso presenta
anomala, el impacto, el valor concreto y la norma de dicha variable. Se puede comprobar que
las variables en las cuales se presenta el mayor nmero de casos atpicos son las de
incremento.

91

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A1.17. Resumen del resultado del anlisis cluster k-medias (k=5)

Resultado del anlisis cluster de k-medias (con k=5), en el que se puede comprobar que el
cluster con menor nmero de casos es el 5, y se procede a analizar dichos casos.

00246
00295
00303
00334
00571
00959
01241
01574
01812
02031
02032
02378
02422

02559
02563
02696
03073
03231
03352
03562
03968
04176
04465
04644
04663
04885

05168
05459
10011
10545
10547
10770
10957
12114
12425
12566
12634
12733
13001

13086
13145
13391
13533
13673
14180
14675
15117
15223
15282
15347
15645
15779

Tabla A1.18. Listado de casos pertenecientes al cluster 5

Listado de los 52 casos pertenecientes al cluster 5. Se puede comprobar que no hay ningn
caso coincidente con el de la tabla A1.15. Una vez analizados los casos, no presentan
anomalas especiales.

92

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

4. Correlaciones entre variables continuas

Tabla A1.19. Matriz de correlaciones de las variables continuas

93

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Matriz de correlaciones entre las variables continuas transformadas. Se puede comprobar que las mayores (en torno a 0.7 en valor absoluto) se dan entre
las variables Log_DAR, Log_AP_AR y Log_AR_Assets, si bien en la gran mayora de casos se obtiene valores mucho menores. En el proceso de modelizacin
se tendrn en cuenta estos resultados.

5. Anlisis bivariado (relacin con variable respuesta). Ejemplo

Tabla A1.20. Test de diferencia de medias de la variable Log_AP_AR segn MORE_Bin

Resultados del test de diferencia de medias de la variable Log_AP_AR segn los dos grupos generados por los valores de MORE_Bin. El test de igualdad de
varianzas de Levene rechaza la hiptesis nula (p-valor 0), y por tanto nos fijaremos en la segunda fila (no se asume igualdad de varianzas)., en la que se
puede comprobar que el test t de igualdad de medias rechaza la hiptesis nula (p-valor 0); es decir, existen diferencias significativas entre las medias de la
variable en ambos grupos.

94

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A1.21. Coeficientes de correlacin de Log_AP_AR vs MORE_Bin

Valor de los coeficientes de correlacin no paramtricos ( de Kendall y de Spearman) entre las variables Log_AP_AR y MORE_Bin. Se puede comprobar
que en ambos casos el coeficiente es significativo, si bien su valor no es muy alto (menor que 0.3 en ambos casos).

95

Grfico A1.7. Boxplot de la variable Log_AP_AR segn grupos de MORE_Bin

Boxplot de la variable Log_AP_AR tomando como factor la variable MORE_Bin, en el que se


puede apreciar ciertas diferencias en la distribucin de Log_AP_AR segn los dos grupos
generados por los valores de MORE_Bin, si bien stas no son muy acusadas.

Tabla A1.22. Media y desviacin estndar de Log_AP_AR segn grupos de MORE_Bin

Estadsticas descriptivas (tamao muestral, media, desviacin estndar y error estndar de la


media) de la variable Log_AP_AR segn los dos grupos generados por los valores de
MORE_Bin.

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

ANEXO II. REGLAS DEL RBOL CHAID

/* Node 18 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR IS MISSING
OR (Log_AP_AR <= 0.4898585499062656)) AND (Age NOT MISSING AND (Age <= 12.155556))
THEN
Node = 18
Prediction = 0
Probability = 0.875549
/* Node 19 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR IS MISSING
OR (Log_AP_AR <= 0.4898585499062656)) AND (Age IS MISSING OR (Age > 12.155556 AND Age <=
23.9))
THEN
Node = 19
Prediction = 0
Probability = 0.940904
/* Node 20 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR IS MISSING
OR (Log_AP_AR <= 0.4898585499062656)) AND (Age NOT MISSING AND (Age > 23.9))
THEN
Node = 20
Prediction = 0
Probability = 0.972452
/* Node 21 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 2.256950620919347)) AND
(Age IS MISSING OR (Age <= 15.31944444444445))
THEN
Node = 21
Prediction = 0
Probability = 0.775701
/* Node 22 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 2.256950620919347)) AND
(Age NOT MISSING AND (Age > 15.31944444444445))
THEN
Node = 22
Prediction = 0
Probability = 0.892193
/* Node 23 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 2.256950620919347)) AND (Log_SalesGrowth NOT MISSING AND
(Log_SalesGrowth <= -0.1675529036462356))

97

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

THEN
Node = 23
Prediction = 0
Probability = 0.613333
/* Node 24 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 2.256950620919347)) AND (Log_SalesGrowth IS MISSING OR
(Log_SalesGrowth > -0.1675529036462356))
THEN
Node = 24
Prediction = 0
Probability = 0.821053
/* Node 25 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.3707967256720759)) AND (Log_AP_AR IS MISSING OR (Log_AP_AR <= 1.134006650480806))
THEN
Node = 25
Prediction = 0
Probability = 0.714286
/* Node 26 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.3707967256720759)) AND (Log_AP_AR NOT MISSING AND (Log_AP_AR > 1.134006650480806))
THEN
Node = 26
Prediction = 0
Probability = 0.500000
/* Node 27 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth > 0.3707967256720759 AND Log_SalesGrowth <= -0.06576281163162592)) AND (Log_AP_AR IS
MISSING OR (Log_AP_AR <= 0.0614167078606588))
THEN
Node = 27
Prediction = 0
Probability = 0.931818
/* Node 28 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth > 0.3707967256720759 AND Log_SalesGrowth <= -0.06576281163162592)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.0614167078606588 AND Log_AP_AR <= 1.134006650480806))
THEN
Node = 28
Prediction = 0
Probability = 0.840426
/* Node 29 */.

98

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth > 0.3707967256720759 AND Log_SalesGrowth <= -0.06576281163162592)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 1.134006650480806))
THEN
Node = 29
Prediction = 0
Probability = 0.703448
/* Node 30 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets NOT MISSING AND (Log_AR_Assets <= 4.165119609947118))
THEN
Node = 30
Prediction = 0
Probability = 0.735632
/* Node 31 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets NOT MISSING AND (Log_AR_Assets > 4.165119609947118 AND Log_AR_Assets <= -2.067593489045275))
THEN
Node = 31
Prediction = 0
Probability = 0.852459
/* Node 32 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets NOT MISSING AND (Log_AR_Assets > 2.067593489045275 AND Log_AR_Assets <= -1.539806563983183))
THEN
Node = 32
Prediction = 0
Probability = 0.931677
/* Node 33 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets IS MISSING OR (Log_AR_Assets > -1.539806563983183))
THEN
Node = 33
Prediction = 0
Probability = 0.971619
/* Node 34 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.1675529036462356)) AND (Log_AP_AR IS MISSING OR (Log_AP_AR <= 1.134006650480806))
THEN
Node = 34

99

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Prediction = 0
Probability = 0.731250
/* Node 35 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.1675529036462356)) AND (Log_AP_AR NOT MISSING AND (Log_AP_AR > 1.134006650480806))
THEN
Node = 35
Prediction = 1
Probability = 0.561644
/* Node 36 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.1675529036462356 AND Log_SalesGrowth <= 0.07933008317703703)) AND (Log_APGrowth IS
MISSING OR (Log_APGrowth <= 0.05556927251657228))
THEN
Node = 36
Prediction = 0
Probability = 0.905830
/* Node 37 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.1675529036462356 AND Log_SalesGrowth <= 0.07933008317703703)) AND (Log_APGrowth NOT
MISSING AND (Log_APGrowth > 0.05556927251657228))
THEN
Node = 37
Prediction = 0
Probability = 0.756757
/* Node 38 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth >
0.07933008317703703)) AND (Log_ARGrowth NOT MISSING AND (Log_ARGrowth <= 0.7489171196966938))
THEN
Node = 38
Prediction = 0
Probability = 0.758621
/* Node 39 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth >
0.07933008317703703)) AND (Log_ARGrowth IS MISSING OR (Log_ARGrowth > -0.7489171196966938
AND Log_ARGrowth <= 0.6095130422386631))
THEN
Node = 39
Prediction = 0
Probability = 0.953125
/* Node 40 */.

100

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth >
0.07933008317703703)) AND (Log_ARGrowth NOT MISSING AND (Log_ARGrowth >
0.6095130422386631))
THEN
Node = 40
Prediction = 0
Probability = 0.864407
/* Node 41 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR <= 0.4898585499062656)) AND (Log_SalesGrowth NOT MISSING AND
(Log_SalesGrowth <= -0.06576281163162592))
THEN
Node = 41
Prediction = 0
Probability = 0.696629
/* Node 42 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR <= 0.4898585499062656)) AND (Log_SalesGrowth IS MISSING OR
(Log_SalesGrowth > -0.06576281163162592 AND Log_SalesGrowth <= 0.2304312483321709))
THEN
Node = 42
Prediction = 0
Probability = 0.846939
/* Node 43 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR <= 0.4898585499062656)) AND (Log_SalesGrowth NOT MISSING AND
(Log_SalesGrowth > 0.2304312483321709))
THEN
Node = 43
Prediction = 0
Probability = 0.981481
/* Node 44 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 1.134006650480806)) AND
(Log_AR_Assets IS MISSING OR (Log_AR_Assets <= -0.6712323518185982))
THEN
Node = 44
Prediction = 0
Probability = 0.628378
/* Node 45 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 1.134006650480806)) AND
(Log_AR_Assets NOT MISSING AND (Log_AR_Assets > -0.6712323518185982))
THEN
Node = 45
Prediction = 1
Probability = 0.769231

101

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

/* Node 46 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 1.134006650480806 AND Log_AP_AR <= 2.256950620919347)) AND
(Log_AR_Assets IS MISSING OR (Log_AR_Assets <= -1.539806563983183))
THEN
Node = 46
Prediction = 0
Probability = 0.593103
/* Node 47 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 1.134006650480806 AND Log_AP_AR <= 2.256950620919347)) AND
(Log_AR_Assets NOT MISSING AND (Log_AR_Assets > -1.539806563983183))
THEN
Node = 47
Prediction = 1
Probability = 0.761905
/* Node 48 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR IS
MISSING OR (Log_AP_AR > 2.256950620919347)) AND (Log_DAP NOT MISSING AND (Log_DAP <=
5.027426856736093))
THEN
Node = 48
Prediction = 0
Probability = 0.622642
/* Node 49 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR IS
MISSING OR (Log_AP_AR > 2.256950620919347)) AND (Log_DAP IS MISSING OR (Log_DAP >
5.027426856736093))
THEN
Node = 49
Prediction = 1
Probability = 0.714286

102

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

ANEXO III. RESULTADOS DEL BALANCEO


DE LA MUESTRA

Tras balancear la muestra aplicando al modelo ponderaciones que respeten los porcentajes de
la variable respuesta, se obtiene un rbol CHAID con 32 nodos terminales con los siguientes
valores de bondad de ajuste: AUC=0.792 (tabla A3.1), idntico al del modelo sin balancear;
valor del riesgo de 0.278 (tabla A3.2), mayor que el del modelo sin balancear, y por tanto peor;
porcentaje de xito en la clasificacin (tabla A3.3) del 72.7%, inferior al del modelo sin
balancear, pero lgicamente con un mayor equilibrio entre las dos categoras (70.6% en
default y 73.2% en no default).
Estos ltimos efectos son lgicos, pero basta con mover el punto de corte en el modelo sin
balancear para obtener resultados muy similares. Por ejemplo, si lo fijamos en 0.2, se obtiene
(tabla A3.4) un porcentaje de acierto en la clasificacin del 74.6%, con 67.7% en default y
76.1% en no default.
De hecho, la correlacin entre el score obtenido por ambos modelos es muy alta (tabla A3.5),
del 0.93. Por otro lado, la validacin del modelo tambin proporciona resultados idnticos a
los del modelo sin balancear, con un AUC=0.763 (tabla A3.6).
Todo esto demuestra que el balanceo de la muestra no mejora los resultados obtenidos con la
muestra original sin balancear.

103

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico A3.1. Curva ROC del modelo balanceado

Tabla A3.1. AUC del modelo balanceado

Se puede comprobar que este valor es idntico al obtenido por el modelo CHAID sin balancear
en la tabla 4.37

Tabla A3.2. Riesgo del modelo balanceado con validacin cruzada

Se puede comprobar que este valor es superior al obtenido por el modelo CHAID sin balancear
en la tabla 4.32

104

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Tabla A3.3. Matriz de confusin del modelo balanceado

Se puede comprobar que estos valores difieren bastante de los obtenidos por el modelo CHAID
sin balancear (tabla 4.31), siendo ms equilibrados pero con un porcentaje global inferior. Esto
es lgico porque es precisamente el efecto buscado al balancear la muestra.

Tabla A3.4. Matriz de confusin del modelo sin balancear con punto de corte en 0.2

Se puede comprobar que estos valores son parecidos a los obtenidos en la tabla A3.3

Tabla A3.5. Coeficiente de correlacin entre los modelos con y sin balanceo

En la tabla A3.5 se puede comprobar que el coeficiente de correlacin de Pearson entre los
modelos CHAID con y sin balanceo es muy alto.

105

Anlisis del riesgo de crdito comercial en pymes mediante


tcnicas de minera de datos

Septiembre
de 2013

Grfico A3.2. Curva ROC del modelo balanceado en la muestra de validacin

Tabla A3.6. AUC del modelo balanceado en la muestra de validacin

Se puede comprobar que este valor es idntico al obtenido por el modelo CHAID sin balancear
en la tabla 4.38

106

También podría gustarte