Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE CRDITO
COMERCIAL EN PYMES
MEDIANTE TCNICAS
DE MINERA DE DATOS
TRABAJO FIN DE MSTER
Mster Universitario en Ingeniera de Anlisis de Datos, Mejora
de Procesos y Toma de Decisiones
Autor: Manuel Terrdez Gurrea
Directores:
Dra. Ana Mara Debn Aucejo
Dr. ngel Alejandro Juan Prez
Septiembre de 2013
Septiembre
de 2013
Septiembre
de 2013
AGRADECIMIENTOS
Aquello que conseguimos con
esfuerzo nos hace mejores.
Sebastin lvaro.
En primer lugar, me gustara dar las gracias a los directores de este Trabajo Fin de Mster:
A Ana, por su cercana y disponibilidad.
A ngel, por su eterna confianza y paciencia conmigo.
A ambos, por supuesto, por la completa y exhaustiva labor de direccin y revisin.
Adems, hay otra serie de personas a las que tambin les debo un agradecimiento:
scar Domnguez, por facilitar la idea que fue el germen de esta investigacin.
Renatas Kyzis y Gabriel Foix, por su asesoramiento en materia financiera.
Marcial Terrdez, por la revisin ortogrfica y de estilo.
Este trabajo est dedicado a mis padres y mi hermano, apoyo y ejemplo constante.
Septiembre
de 2013
Septiembre
de 2013
NDICE GENERAL
AGRADECIMIENTOS....................................................................................................................... 3
NDICE GENERAL............................................................................................................................ 5
NDICE DE TABLAS ......................................................................................................................... 7
NDICE DE GRFICOS ................................................................................................................... 11
1.INTRODUCCIN ........................................................................................................................ 13
1.1.Motivacin ........................................................................................................................ 13
1.2.Objetivos ........................................................................................................................... 14
1.3.Estructura del documento ................................................................................................ 14
2.REVISIN BIBLIOGRFICA ........................................................................................................ 15
2.1.Crdito comercial .............................................................................................................. 15
2.2.Medicin del riesgo ........................................................................................................... 18
2.3.Relacin entre el crdito comercial y la gestin del riesgo .............................................. 18
3.METODOLOGA......................................................................................................................... 21
3.1.Descripcin del problema ................................................................................................. 21
3.2.Tcnicas estadsticas utilizadas ......................................................................................... 22
3.2.1.Tcnicas paramtricas ................................................................................................ 22
3.2.1.1.Regresin logstica .............................................................................................. 22
3.2.1.2.Anlisis discriminante.......................................................................................... 23
3.2.2.Tcnicas no paramtricas........................................................................................... 24
3.2.2.1.rboles de decisin ............................................................................................. 24
3.2.2.2.Vecinos ms prximos......................................................................................... 25
3.2.2.3.Redes neuronales ................................................................................................ 26
3.3.Medidas de bondad de ajuste ........................................................................................... 27
3.4.Validacin .......................................................................................................................... 29
4.ENFOQUE METODOLGICO UTILIZADO................................................................................... 31
Septiembre
de 2013
4.1.Introduccin ...................................................................................................................... 31
4.2.Descripcin de la base de datos ........................................................................................ 32
4.3.Descripcin de la muestra ................................................................................................. 33
4.4.Desarrollo de la modelizacin ........................................................................................... 35
4.4.1.Fase I.- Modelo binario .............................................................................................. 35
4.4.1.1.Obtencin de la medida de nivel de riesgo (variable dependiente) ................... 35
4.4.1.2.Obtencin de las variables independientes ........................................................ 37
4.4.1.3.Estrategia de validacin ...................................................................................... 38
4.4.1.4.Modelizacin ....................................................................................................... 40
4.4.1.4.1.Regresin logstica ....................................................................................... 40
4.4.1.4.2.Anlisis discriminante .................................................................................. 45
4.4.1.4.3.rbol con tcnica CRT .................................................................................. 47
4.4.1.4.4.rbol con tcnica CHAID .............................................................................. 50
4.4.1.4.5.Vecinos ms prximos (kNN) ....................................................................... 52
4.4.1.4.6.Red neuronal (Perceptrn multicapa). MLP ................................................ 53
4.4.1.4.7.Comparativa de modelos (AUC) ................................................................... 57
4.4.1.5.Validacin del rbol CHAID ................................................................................. 58
4.4.1.6.Interpretacin del rbol CHAID ........................................................................... 60
4.4.2.Fase II.- Modelo ordinal ............................................................................................. 62
4.4.2.1.Obtencin de la medida de nivel de riesgo (variable dependiente) ................... 62
4.4.2.2.Obtencin de las variables independientes ........................................................ 62
4.4.2.3.Modelizacin ....................................................................................................... 63
4.4.2.4.Validacin ............................................................................................................ 68
4.4.1.5.Interpretacin ..................................................................................................... 70
5.CONCLUSIONES ........................................................................................................................ 71
5.1.Prximos pasos y trabajos futuros .................................................................................... 72
5.2.Publicaciones generadas ................................................................................................... 72
BIBLIOGRAFA .............................................................................................................................. 73
ANEXO I. ANLISIS PRELIMINARES .............................................................................................. 79
ANEXO II. REGLAS DEL RBOL CHAID .......................................................................................... 97
ANEXO III. RESULTADOS DEL BALANCEO DE LA MUESTRA ....................................................... 103
Septiembre
de 2013
NDICE DE TABLAS
Tabla 4.1. Frecuencia de la variable Sector en la muestra de desarrollo ................................... 34
Tabla 4.2. Frecuencia de la variable Tamao en la muestra de desarrollo ................................. 35
Tabla 4.3. Frecuencia de la variable Size en la muestra de desarrollo ....................................... 35
Tabla 4.4. Rating MORE ............................................................................................................... 36
Tabla 4.5. Frecuencia de la variable respuesta en la muestra de desarrollo .............................. 36
Tabla 4.6. Listado de variables independientes .......................................................................... 37
Tabla 4.7. Descriptivos de las variables independientes en la muestra de desarrollo ............... 38
Tabla 4.8. Frecuencia de la variable Sector en la muestra de entrenamiento ........................... 39
Tabla 4.9. Frecuencia de la variable Size en la muestra de entrenamiento ............................... 39
Tabla 4.10. Frecuencia de la variable respuesta en la muestra de entrenamiento .................... 39
Tabla 4.11. Frecuencia de la variable Sector en la muestra de validacin ................................. 39
Tabla 4.12. Frecuencia de la variable Size en la muestra de validacin ..................................... 40
Tabla 4.13. Frecuencia de la variable respuesta en la muestra de validacin ............................ 40
Tabla 4.14. Coeficientes del modelo logstico inicial .................................................................. 41
Tabla 4.15. Proceso stepwise inicial ............................................................................................ 42
Tabla 4.16. Resultado del test de Hosmer-Lemeshow del modelo logstico inicial .................... 42
Tabla 4.17. Matriz de confusin del modelo logstico inicial ...................................................... 42
Tabla 4.18. Matriz de correlaciones de las variables continuas del modelo logstico inicial ...... 43
Tabla 4.19. Inversa de la matriz de correlaciones inicial............................................................. 43
Tabla 4.20. Coeficientes del modelo logstico revisado .............................................................. 43
Tabla 4.21. Proceso stepwise revisado........................................................................................ 44
Tabla 4.22. Resultado del test de Hosmer-Lemeshow del modelo logstico revisado................ 44
Tabla 4.23. Matriz de confusin del modelo logstico revisado .................................................. 44
Tabla 4.24. Matriz de correlaciones de las variables continuas del modelo logstico revisado . 45
Tabla 4.25. Inversa de la matriz de correlaciones revisada ........................................................ 45
Tabla 4.26. Proceso del anlisis discriminante ............................................................................ 46
Tabla 4.27. Coeficientes de las funciones discriminantes de Fischer ......................................... 46
Tabla 4.28. Matriz de confusin del anlisis discriminante ........................................................ 47
Tabla 4.29. Matriz de confusin del modelo CRT ....................................................................... 49
Tabla 4.30. Medidas de riesgo del modelo CRT .......................................................................... 49
Septiembre
de 2013
Septiembre
de 2013
10
Septiembre
de 2013
Septiembre
de 2013
NDICE DE GRFICOS
Grfico 3.1. Curvas ROC .............................................................................................................. 28
Grfico 4.1. rbol CRT ................................................................................................................. 48
Grfico 4.2. rbol CHAID ............................................................................................................. 51
Grfico 4.3. Modelo vecino ms prximo ................................................................................ 53
Grfico 4.4. Red neuronal ........................................................................................................... 55
Grfico 4.5. Comparativa de modelos mediante curvas ROC ..................................................... 57
Grfico 4.6. Curva ROC de la validacin ...................................................................................... 59
Grfico A1.1. Histograma de la variable Antigedad (Age) en la muestra de desarrollo ........... 83
Grfico A1.2. Boxplot de la variable Antigedad (Age) en la muestra de desarrollo ................. 83
Grfico A1.3. Histograma de la variable Periodo medio de pago en la muestra de desarrollo .. 85
Grfico A1.4. Boxplot de la variable Periodo medio de pago en la muestra de desarrollo ........ 85
Grfico A1.5. Histograma de la variable Log_DAP en la muestra de desarrollo ......................... 88
Grfico A1.6. Boxplot de la variable Log_DAP en la muestra de desarrollo ............................... 88
Grfico A1.7. Boxplot de la variable Log_AP_AR segn grupos de MORE_Bin ........................... 96
Grfico A3.1. Curva ROC del modelo balanceado ..................................................................... 104
Grfico A3.2. Curva ROC del modelo balanceado en la muestra de validacin ........................ 106
11
12
Septiembre
de 2013
Septiembre
de 2013
1.INTRODUCCIN
En este captulo se explican la motivacin y los objetivos del trabajo; as mismo, tambin se
ofrece una breve descripcin de su estructura.
1.1.Motivacin
La gestin del crdito comercial (en adelante, TC, por las siglas de su denominacin en ingls,
Trade Credit) es un asunto de gran importancia para el negocio, especialmente en las
pequeas y medianas empresas (pymes), pues representa una parte importante de los activos
de las empresas.
El crdito comercial es una modalidad de financiacin que surge como consecuencia del
aplazamiento del pago de una compraventa de bienes o de una prestacin de servicios y en la
que el vendedor acta como prestamista y el comprador como prestatario. Se trata de un
instrumento que facilita el intercambio comercial, sobre todo entre las empresas, y supone,
por tanto, un soporte de la actividad econmica: al vendedor le permite ofrecer plazos de pago
que mejor se adaptan a las necesidades de sus clientes y al comprador le ofrece la posibilidad
de poder operar sin la restriccin asociada a la situacin de tesorera. (Garca-Vaquero y
Alonso, 2011).
Sin embargo, es un tema relativamente poco tratado en la literatura cientfica, si lo
comparamos por ejemplo con la gestin del riesgo de crdito bancario, sobre la cual existe
abundante bibliografa. De acuerdo a la revisin de los antecedentes realizada en el captulo 2,
se puede concluir que los motivos son diversos, destacando especialmente dos: la escasez de
datos disponibles sobre TC, y el hecho de tratarse de un producto poco estructurado y por
tanto difcilmente generalizable.
A pesar de esto, es un tema de creciente inters, y especialmente en las dos ltimas dcadas
ha habido un aumento significativo del nmero de artculos que lo tratan desde alguna de las
mltiples perspectivas que ofrece. De hecho, estudios recientes vinculan la gestin del TC y los
retrasos en el pago con la liquidacin y la quiebra de las empresas, pues la concesin de
13
Septiembre
de 2013
1.2.Objetivos
En este trabajo pretendemos estudiar la relacin entre la gestin del crdito comercial y el
nivel de riesgo en las pymes, dado que se trata de un problema de gran inters financiero, y
que adems no est suficientemente analizado desde un punto de vista cuantitativo. Para
llevar a cabo el estudio, se aplicarn tcnicas estadsticas recientes como los rboles de
decisin, pues resultan muy fciles de utilizar por el decisor no experto.
Como fuente de datos para el anlisis, utilizaremos la base de datos SABI (Sistema de Anlisis
de Balances Ibricos), que contiene abundante informacin sobre las pymes espaolas. A
partir de dicha informacin, crearemos un modelo multivariante que trate de explicar el nivel
de riesgo a partir de medidas del uso de crdito comercial, as como otras variables tanto
financieras como no financieras.
Todo ello desde la hiptesis de que utilizar un modelo adecuado permitir disminuir el riesgo
asumido por la empresa con respecto a la opcin de basar su estrategia de riesgo en el
establecimiento de reglas homogneas para todos los clientes.
14
Septiembre
de 2013
2.REVISIN BIBLIOGRFICA
En este captulo se realiza una revisin bibliogrfica para determinar los antecedentes y la
situacin actual del problema que se abordar en los siguientes captulos, distinguiendo tres
apartados: el crdito comercial, la gestin (y medicin del riesgo), y la relacin entre ambos.
2.1.Crdito comercial
Para mayor informacin sobre las caractersticas ms habituales de los contratos de TC, en la
que no nos centraremos en este trabajo, son interesantes algunos estudios como Pike y Cheng
(2001), Giannetti et al. (2011) y Garca-Vaquero y Alonso (2011). Pike y Cheng (2001) se basan
en los resultados de una encuesta sobre las prcticas y polticas de las grandes empresas del
Reino Unido en cuanto a la gestin de crdito, para detectar la tipologa de empresas que con
ms frecuencia hacen uso del TC, y tambin la influencia del contexto y las decisiones polticas.
Giannetti et al. (2011) analizan las caractersticas del TC y su relacin con el tipo de producto,
el coste y las relaciones entre bancos y empresas. Por su parte, Garca-Vaquero y Alonso
(2011) hacen una introduccin sobre los aspectos contractuales, institucionales y jurdicos que
regulan el crdito comercial en Espaa.
Y para obtener datos y estadsticas sobre el alcance de su uso en los diversos entornos, son
recomendables los siguientes informes: Fraser (2008), Credit Management Research Centre
(2008) y, en Espaa, Garca-Vaquero y Alonso (2011). Fraser (2008), en un informe que
pertenece a la gua de usuario de la UK Survey of SME Finance, analiza los datos obtenidos
en la encuesta desde un punto de vista esencialmente descriptivo, si bien lo complementa con
un interesante anlisis economtrico en el que se combinan diversas medidas relacionadas con
los prstamos. El Credit Management Research Centre (2008) ofrece un informe similar al
anterior, y contiene un amplio apartado en el que se analiza especficamente la informacin
sobre crdito comercial. Por otro lado, Garca-Vaquero y Alonso (2011), en un informe del
Servicio de Estudios del Banco de Espaa, proporcionan datos estadsticos sobre la importancia
del crdito comercial en Espaa y su evolucin temporal, por sector de actividad y tamao de
empresa.
15
Septiembre
de 2013
Son mltiples las teoras econmico-financieras acerca de los determinantes para el uso del
TC, las cuales se resumen en Seifert et al. (2013), donde se proporciona una revisin
bibliogrfica exhaustiva. No obstante, seguidamente ofrecemos un breve resumen de las
diversas teoras.
Habitualmente se ha considerado el TC una forma de financiacin alternativa a otras ms
consolidadas (financiacin bancaria, p. ej.) cuando existen dificultades para acceder a estas
(Emery, 1984, Fissman y Love, 2003), especialmente en pases no muy bancarizados y con
mercados financieros poco desarrollados (Demirguc-Kunt y Maksimovic, 2002), resultando
atractiva incluso a pesar de que se le supone un mayor coste en general, si bien puede ser un
medio efectivo de discriminar precios mediante descuentos por pronto pago (Petersen y Rajan,
1997). Por ejemplo, Fissman y Love (2003) obtienen que industrias con una mayor
dependencia del TC crecen ms rpidamente en los pases con un sector financiero
relativamente poco desarrollado. Sin embargo, esto no quiere decir que el TC no sea relevante
en los pases desarrollados. Por ejemplo, en la dcada de los ochenta en Estados Unidos, el
volumen del TC se estimaba dos veces mayor que el volumen del crdito de consumo y siete
veces mayor que el volumen de los bonos corporativos y estatales (Lee y Stowe, 1993). Cuat
(2007) indica que para las empresas medianas del Reino Unido y las empresas pequeas de
Estados Unidos, una cuarta parte de los activos totales y la mitad de los pasivos a corto plazo
se atribuyen al TC. Deloof y Jegers (1999) encuentran que las empresas belgas consideran el TC
como una importante alternativa tambin para los pasivos a largo plazo. Adems, el TC se
considera como una garanta de calidad del producto que se ofrece por los proveedores con
historial corto o sin reputacin alguna, y que tratan de asegurarse una mayor proporcin del
mercado para sus productos (Lee y Stowe, 1993, Long et al., 1993, Klapper et al., 2012). Sin
embargo, otros estudios (Giannetti et al., 2011, Klapper et al., 2012) argumentan que el uso
del TC se debe al poder de mercado que ostentan los compradores potentes, que tienen
capacidad de negociar condiciones de financiacin favorables. Tambin se considera una
forma de mitigar los problemas de asimetra de informacin entre las empresas y sus
proveedores de fondos (Ng et al., 1999). En la misma lnea, Burkart y Ellingsen (2004)
argumentan que el TC conlleva un menor grado de riesgo moral que el crdito bancario. En
efecto, al obtener el crdito en mercancas, el prestatario tiene una menor facilidad de
desviarse de sus obligaciones contractuales que el beneficiario del crdito bancario. As mismo,
el TC puede considerarse como una externalidad positiva que permite a los bancos evaluar
oportunamente el riesgo crediticio de sus clientes y facilitar financiacin de proyectos de
inversin (Biais y Gollier, 1997). Y otros estudios argumentan que se puede utilizar como
herramienta de marketing para fortalecer las relaciones con los clientes, e incluso atraer
nuevos (Paul y Wilson, 2006).
Mediante el uso de tcnicas estadsticas, se ha obtenido evidencia emprica para confirmar
algunas de las teoras anteriormente citadas, como que el TC permite reducir los problemas de
informacin asimtrica entre las empresas y sus financiadores, que las empresas que ms
conceden TC son las que menos lo reciben, o que el TC y el bancario pueden ser sustitutivos o
complementarios. (Rodrguez, 2003 y 2006).
16
Septiembre
de 2013
Van der Wijst y Hol (2002) tambin obtienen evidencia emprica acerca de que las empresas
que ofrecen TC asumen el papel de intermediarios financieros, pero sin embargo llegan a la
conclusin de que depende ms de factores operativos que de factores financieros; adems,
aportan otros resultados empricos interesantes, como son la fuerte influencia del sector
industrial, o el hecho de que los dos puntos de vista (cliente y proveedor) se ven afectados por
los determinantes en el mismo sentido, no en sentido contrario como se podra prever.
En la misma lnea, Paul y Guermat (2010), utilizando modelos de regresin lineal para medir el
nivel y la profundidad del TC mediante seis mtricas diferentes, obtienen evidencia emprica
para confirmar las teoras de los costes de transaccin (TC ayuda a reducir tanto los costes de
transaccin como la necesidad de los clientes de mantener altos saldos en efectivo o convertir
activos lquidos en dinero en efectivo) y financiacin (la demanda de TC depende de la tasa de
inters implcita y el coste de las fuentes de financiacin alternativas), pero no las de los costes
de operacin (cuanto ms largos son los ciclos de produccin y ventas, ms tiempo debe
esperar la empresa para cobrar, y de ah la necesidad de recurrir al TC) y el entorno
empresarial (las condiciones macroeconmicas influyen en la demanda de TC).
Otros enfoques ligeramente distintos, pero igualmente interesantes, son aquellos que se
centran en la informacin que las empresas manejan sobre sus clientes a la hora de ofrecerles
TC y su uso para establecer los trminos de la financiacin (Uchida et al., 2006), o los que
analizan el doble punto de vista del TC, como proveedor y como cliente (Van der Wijst y Hol,
2002).
Por otra parte, Wilson (1996) haba examinado las prcticas de gestin de crdito adoptadas
por las pymes en el Reino Unido, encontrando una fuerte relacin entre las buenas prcticas
de gestin de crdito y el rendimiento empresarial. Por ejemplo, informa de una fuerte
relacin entre la eficiencia en la gestin del ciclo de caja y la rentabilidad, y muestra que las
empresas con problemas de retraso en el pago son en general ms dependientes de la
financiacin a corto plazo y ms pobres en trminos de prcticas de gestin de crdito.
En la misma lnea, Garca-Teruel y Martnez-Solano (2007) analizan una amplia muestra de
pymes espaolas mediante el uso de modelos de datos de panel, obteniendo evidencia
emprica sobre los efectos de la gestin del capital circulante en la rentabilidad de las pymes
espaolas, concluyendo que los directivos pueden crear valor reduciendo el periodo medio de
cobro a clientes, y que la reduccin del ciclo de efectivo incrementa la rentabilidad de la
empresa.
Deloof (2003) deriva una conclusin semejante a partir de una muestra de las empresas
belgas. Ms concretamente, el autor concluye que la rentabilidad de las empresas depende
inversamente de las cuentas pendientes de cobrar, las cuentas pendientes de pagar y los
inventarios.
Por otro lado, Martnez-Sola et al. (2012) analizan el efecto de la poltica de TC en el valor
burstil de la empresa, concluyendo que existe una relacin cncava: positiva para valores
bajos de inversin en TC, y negativa para valores altos.
17
Septiembre
de 2013
18
Septiembre
de 2013
Sin embargo, los trabajos que han vinculado el uso del crdito comercial con los procesos de
liquidacin e insolvencia por los que puede atravesar una empresa han sido
fundamentalmente tericos y poco contrastados empricamente debido, entre otras razones, a
lo relativamente reciente de su publicacin. La mayor disponibilidad de datos con mayor grado
de detalle que proporcionan las bases actuales podra, sin duda, contribuir a obtener evidencia
emprica que apoyara estos modelos. (Rodrguez, 2008).
La problemtica del retraso en el pago ha sido tratada en el mercado britnico (Peel et al.,
2000; Wilson, 2008) y el australiano (Drever y Drive, 2004), mediante estudios descriptivos de
encuestas centradas en los factores que los empresarios perciben como impedimentos para
mejorar el desempeo de sus negocios.
Poutziouris et al. (2005) obtienen algunas conclusiones interesantes como que la gestin del
TC ofrecido (como proveedor) es crtica para la supervivencia y el xito del negocio, o que las
pymes no son proactivas en su gestin del crdito y existe una clara carencia en la aplicacin
de modelos de riesgo (83% no clasifican a sus clientes segn categoras de riesgo).
Algunos estudios recientes han mostrado que las empresas con restricciones crediticias que
encaran problemas de liquidez de sus clientes tienen mayor probabilidad de impagar a sus
proveedores, y por tanto se produce una cadena de dificultades en el pago (Boissay y Gropp,
2013). No obstante, la dificultad de obtencin de datos representativos del comportamiento
de pago en las relaciones entre empresas provoca que esta interesantsima lnea de
investigacin, que trata de encontrar evidencias empricas de la relacin entre la gestin del TC
y el riesgo, no est lo suficientemente desarrollada.
19
20
Septiembre
de 2013
Septiembre
de 2013
3.METODOLOGA
En este captulo vamos a realizar una descripcin del problema que se pretende abordar, as
como de las tcnicas estadsticas que pueden emplearse para el estudio cuantitativo del
mismo.
21
Septiembre
de 2013
calificacin (scoring) trata de combinar las diferentes fuentes de informacin con el fin de
obtener una evaluacin precisa de la PD.
Como se ha comentado anteriormente, lo habitual es observar la situacin de la empresa (en
default o no) en un momento dado, y obtener la informacin contable un ao antes (en
ocasiones el horizonte temporal es mayor). El modelo de scoring debera predecir una PD alta
para aquellas empresas cuya situacin un ao despus es default, y una PD baja para las que
no estn en default.
3.2.1.1.Regresin logstica
Los modelos de regresin logstica (logit) se ajustan bien al problema definido, debido a que la
variable respuesta es binaria, y con ellos se obtiene una puntuacin entre 0 y 1, que se puede
interpretar como la PD del individuo
Una puntuacin o score (combinacin lineal de los regresores) resume la informacin
contenida en los factores que afectan a la PD, por ejemplo:
o, equivalentemente,
22
Septiembre
de 2013
los mismos). Por ello, en los modelos logit se suelen utilizar otros dos conceptos para
profundizar en la interpretacin: cociente u odds, y odds-ratio.
Se llama odds al cociente
que obviamente refleja la probabilidad de que ocurra un evento dividida entre la probabilidad
de que no ocurra. Tomando logaritmos, obtenemos una expresin lineal del modelo
donde se aprecia que cada bi se puede interpretar como la variacin en el trmino logit
(logaritmo del cociente de probabilidades) causada por una variacin unitaria en xi
(suponiendo constantes el resto de variables).
Cuando se hace referencia al incremento unitario en una de las variables explicativas del
modelo, aparece el concepto de odds-ratio como el cociente entre los dos odds asociados (el
obtenido tras realizar el incremento y el anterior al mismo). As, si suponemos que ha habido
un incremento unitario en la variable xi, tendremos:
3.2.1.2.Anlisis discriminante
23
Septiembre
de 2013
El objetivo de esta tcnica es encontrar reglas de asignacin de individuos a una clase dentro
de una clasificacin predeterminada, suponiendo que cada clase viene definida por una
distribucin de probabilidad distinta de las restantes.
La variable dependiente es una variable categrica que toma tantos valores como grupos
existentes. La informacin de las variables explicativas o clasificadoras se sintetiza en unas
funciones (llamadas discriminantes) que son las que se utilizan en el proceso de clasificacin.
La funcin discriminante de Fischer busca la combinacin lineal de variables que maximiza la
varianza de la separacin entre dos clases respecto de la varianza dentro de las clases. Es el
criterio ms frecuente, aunque no el nico, para realizar el anlisis discriminante.
Una forma habitual de presentar los resultados es ofrecer los coeficientes de las funciones
discriminantes para cada grupo (siendo k el nmero de variables incluidas en la funcin):
Cuando se utilizan estas funciones, se clasifica a un individuo en el grupo para el que la funcin
sea mayor. Una ventaja de esta tcnica es que los coeficientes pueden ser fcilmente
interpretados en trminos econmicos.
El principal inconveniente es que requiere ciertas hiptesis como la normalidad y la
independencia de las variables explicativas, as como la homocedasticidad entre grupos.
3.2.2.Tcnicas no paramtricas
Pero hay otras tcnicas no paramtricas que pueden ser utilizados para abordar este
problema, como los rboles de decisin, las redes neuronales, vecino ms prximo, etc. (Berry
y Linoff, 1997; Hernndez et al, 2004).
3.2.2.1.rboles de decisin
Un rbol de decisin es un conjunto de condiciones organizadas en una estructura jerrquica,
de manera que la decisin final se puede determinar siguiendo las reglas que se cumplen
desde la raz del rbol hasta alguno de sus nodos finales. Una de las grandes ventajas de esta
tcnica es que las opciones posibles a partir de una determinada condicin son excluyentes, lo
cual permite analizar una situacin y, siguiendo el rbol de decisin apropiadamente, llegar a
una sola accin o decisin a tomar. (Hernndez et al, 2004)
La tarea de aprendizaje para la cual los rboles de decisin se adecuan mejor es la clasificacin,
para lo cual utilizan la tcnica de particin (es decir, el algoritmo va construyendo el rbol
aadiendo particiones o divisiones sucesivas de cada nodo, que pueden ser nominales o por
intervalos, segn la naturaleza del atributo sea nominal o continua), siendo el criterio de
seleccin de las particiones lo que diferencia los principales algoritmos utilizados.
Dado que el nmero de particiones puede ser muy amplio y que los algoritmos no se
replantean las divisiones ya construidas, es importante buscar un criterio de seleccin que
permita elegir bien la mejor particin en cada caso. Existen mltiples criterios de seleccin,
como el del error esperado, el del ndice de Gini, el del cociente de verosimilitudes
24
Septiembre
de 2013
3.2.2.2.Vecinos ms prximos
El mtodo de los k vecinos ms prximos utiliza las observaciones de la muestra de
entrenamiento ms prximas a un individuo x en el espacio de entrada para formar la
prediccin . En concreto, se define como sigue:
25
Septiembre
de 2013
puede generar ruido innecesario en casos en los que las fronteras de decisin sean
aproximadamente lineales.
3.2.2.3.Redes neuronales
Las redes neuronales artificiales son un mtodo de aprendizaje cuya finalidad inicial era emular
los procesadores biolgicos de la informacin. El trmino red neuronal se aplica a una familia
de modelos relacionada de manera aproximada, que se caracteriza por un gran espacio de
parmetros y una estructura flexible, y que proviene de los estudios sobre el funcionamiento
del cerebro. Conforme fue creciendo la familia, se disearon la mayora de los nuevos modelos
para aplicaciones no biolgicas, aunque gran parte de la terminologa asociada refleja su
origen.
Una de las grandes ventajas de las redes neuronales es que pueden aproximar una amplia
gama de modelos estadsticos sin tener que fijar de antemano las hiptesis sobre las relaciones
entre las variables dependientes e independientes. En lugar de eso, la forma de las relaciones
se determina durante el proceso de aprendizaje. Si una relacin lineal entre las variables
dependientes e independientes es adecuada, los resultados de la red neuronal deberan
aproximarse lo mximo posible a los del modelo de regresin lineal. Sin embargo, si una
relacin no lineal es ms adecuada, la red neuronal se aproximar automticamente a la
estructura correcta del modelo.
El inconveniente que supone esta flexibilidad radica en que las ponderaciones sinpticas de
una red neuronal no pueden interpretarse fcilmente. Por tanto, si se pretende explicar el
proceso subyacente que produce las relaciones entre las variables dependientes e
independientes, sera mejor usar un modelo estadstico tradicional. Sin embargo, si la
interpretacin del modelo no es importante, pueden obtenerse rpidamente modelos con
buenos resultados mediante estas tcnicas.
La estructura o arquitectura habitual de una red neuronal se compone de unidades (neuronas)
conectadas entre s formando capas, que combinan los datos de entrada (inputs) y
proporcionan un nico dato de salida (output). Esta combinacin se denomina funcin de
activacin. El output permanece en un valor bajo hasta que los inputs combinados alcanzan un
umbral, y entonces se produce la activacin (el output pasa a tener un valor alto).
La funcin de activacin consta de dos partes: la funcin de combinacin (generalmente, una
suma ponderada de los inputs) y la funcin de transferencia, que transmite el valor de la
funcin de combinacin al output.
El principal tipo de red neuronal para el aprendizaje supervisado es el llamado perceptrn
multicapa (MLP por las siglas de su denominacin en ingls, MultiLayer Perceptron). El
conjunto de datos de entrada es propagado hacia adelante hasta que la activacin alcanza las
neuronas de la capa de salida. Entonces se compara la respuesta calculada por la red con la
real, y se ajustan los pesos (este proceso se conoce como entrenamiento de la red). Entre la
capa de entrada y la de salida puede haber otras intermedias ocultas. Las funciones de
transferencia utilizadas habitualmente son la sigmoidal y la tangente hiperblica.
26
Septiembre
de 2013
27
Septiembre
de 2013
La evaluacin de la capacidad de prediccin del modelo se define por el rea bajo la curva ROC
(AUC, por sus siglas en ingls: Area Under Curve), calculada para todos los posibles puntos de
corte que clasifican los eventos en sus dos posibles estados. Dado que el AUC es una parte de
la zona del cuadrado de la unidad, su valor estar siempre entre 0 y 1; el modelo aleatorio
tiene un rea de 0.5. Cuanto mayor sea el AUC, mejor ser el clasificador.
El AUC es equivalente a otras medidas tales como el estadstico U de Mann-Whitney (U=AUC),
o el ndice de Gini (Gini=2AUC-1), tambin llamado estadstico de poder o accuracy ratio.
Por tanto, el AUC va a ser nuestro criterio principal para valorar la bondad de ajuste de los
modelos, si bien se mostrarn tambin las matrices de confusin (tablas de doble entrada con
la tasa de acierto del modelo en cada categora), y en ocasiones algn otro tipo de mtricas
que puedan servir de apoyo.
Cabe destacar que el AUC hace referencia a la correcta ordenacin de las empresas de acuerdo
a su riesgo, mientras que el porcentaje de aciertos depende obviamente del punto de corte
elegido (por defecto se establece en 0.5), y por tanto se puede ajustar a la hora de su
aplicacin segn se desee seguir una poltica de gestin del riesgo ms o menos conservadora.
Esto provoca que si el punto de corte se coloca en 0.5 y la muestra no est balanceada, los
porcentajes de clasificacin correcta que aparecen en las matrices de confusin tambin
estarn desbalanceados, si bien se pueden obtener valores ms equilibrados sin ms que
mover el punto de corte.
28
Septiembre
de 2013
3.4.Validacin
El mtodo de validacin ms bsico y tradicional reserva un porcentaje de la base de datos
como conjunto de prueba (o validacin o test). El resto de los datos forman el conjunto de
entrenamiento, que se usa para construir el modelo. La divisin de los datos en estos dos
grupos debe ser aleatoria para que la estimacin sea correcta. Esta validacin es necesaria
para evitar que la precisin del modelo est sobreestimada por el hecho de proporcionar
mucho mejores resultados para el conjunto de entrenamiento que para el de test (problema
conocido como sobreajuste).
Un mtodo alternativo de validacin es el conocido como validacin cruzada, que se suele
implementar mediante el mtodo de los k pliegues (k-fold crossvalidation), el cual divide
aleatoriamente los datos en k grupos (frecuentemente k=10) de tamao similar. Un grupo se
reserva como conjunto de prueba, y con los k-1 restantes se construye un modelo, y se utiliza
para predecir el resultado de los datos del grupo reservado. Este proceso se repite k veces,
dejando cada vez un grupo diferente para la prueba. Finalmente, se construye un modelo con
todos los datos y se obtienen sus ratios de error y/o precisin promediando los k ratios
disponibles.
Una forma de validacin externa es la validacin out-of-time, que consiste en aplicar los
resultados del modelo obtenido con datos de un periodo temporal, a datos que hacen
referencia a otro periodo temporal distinto.
29
30
Septiembre
de 2013
Septiembre
de 2013
4.1.Introduccin
Como metodologa estadstica utilizaremos CRISP-DM (CRoss-Industry Standard Process for
Data Mining), un modelo de proceso de minera de datos que describe los enfoques comunes
que utilizan algunos expertos en este mbito, y que se ha convertido en un estndar en
proyectos en minera de datos. Se estructura en seis fases:
Los anlisis estadsticos se realizarn con el programa SPSS (Statistical Package for Social
Sciences), en su versin 19.
31
Septiembre
de 2013
http://ec.europa.eu/enterprise/policies/sme/facts-figures-analysis/sme-definition/index_es.htm
32
Septiembre
de 2013
4.3.Descripcin de la muestra
Mediante la base de datos SABI, obtenemos una muestra aleatoria2 de 10106 pymes espaolas
de una poblacin de 487503 que cumple los siguientes requisitos: empresas (SA o SL) activas
espaolas (exceptuando Ceuta y Melilla), con nmero de empleados menor de 250 y
facturacin menor de 50 millones de euros o activo total menor de 43 millones de euros (de
acuerdo con la definicin de pyme de la UE), que tengan informacin de balance del ltimo
ejercicio contable (es decir, 2011), y que tengan informadas las partidas Deudores
comerciales y otras cuentas a cobrar y Acreedores comerciales y otras cuentas a pagar.
Estas dos ltimas partidas contienen la informacin clave relacionada con el TC, dado que ste
se contempla, como se ha explicado en la seccin 2.1, desde dos puntos de vista: como
proveedor y como cliente. Las cantidades que una empresa concede como proveedor a sus
clientes se recogen en la partida Deudores comerciales y otras cuentas a cobrar, mientras
que las que solicita como cliente a sus proveedores se recogen en Acreedores comerciales y
otras cuentas a pagar.
De la muestra obtenida se han excluido las empresas de reciente creacin (antigedad inferior
a 3 aos), dado que suelen alterar este tipo de estudios al no tener suficientemente
consolidados sus ratios contables ni su comportamiento de negocio en general, y de crdito
comercial en particular; las empresas que no cumplen la regla de validacin bsica en el
anlisis de balances (Activo=Pasivo); los registros con valor negativo de la variable Periodo
medio de pago, por considerarse errores ya que dicha variable se mide en das; y las
empresas para las que la variable Rating MORE no estaba informada, quedando
definitivamente 9208 registros.
Posteriormente, se han construido las variables candidatas a ser utilizadas como predictores,
que en su mayora son ratios que, tras el anlisis de la literatura previa, se consideran las
medidas ms habituales de la actividad relacionada con el TC. Estas variables se explican en la
siguiente seccin (concretamente, en el apartado 4.4.1.2).
Se ha analizado la distribucin de cada una de las variables continuas, y dado que presentan
valores extremos, se ha realizado un anlisis para detectar valores atpicos de forma
multivariante, tanto mediante la opcin del ndice de anomala del SPSS como mediante un
anlisis de cluster, sin observar ningn patrn definido.
Finalmente, dado que la mayora de variables continuas presentan distribuciones con gran
concentracin en valores pequeos pero largas colas positivas (circunstancia muy habitual
cuando tratamos con variables econmicas y financieras), se les ha aplicado la transformacin
logartmica para normalizar sus distribuciones. Posteriormente, se ha vuelto a analizar la
distribucin, sin observar ya valores atpicos.
Muestreo aleatorio simple. Fechas de acceso a la base de datos: 16/04/2013 y 24/04/2013 (por
limitaciones del nmero mximo de filas y columnas exportables desde SABI, se realizaron dos
extracciones distintas, que posteriormente se unieron en una nica base de datos).
33
Septiembre
de 2013
En la tabla 4.1 se pueden ver las frecuencias absolutas y relativas (individuales y acumuladas)
de cada valor de la variable. Como se puede comprobar, casi dos tercios de las empresas
pertenecen al sector servicios, slo un 3% a la agricultura, y el resto se reparten ms o menos
equitativamente entre el sector industrial y el de la construccin.
Agricultura: CNAE 01-03, Industria: CNAE 05-39, Construccin: CNAE 41-43, Servicios: CNAE 45-99.
Segn la clasificacin del Instituto Aragons de Estadstica.
4
De acuerdo a la UE, una micro tiene menos de 10 empleados y cifra de ventas o balance inferior a 2
millones de , una empresa pequea tiene entre 10 y 49 empleados y cifra de ventas o balance inferior a
10 millones de , y una empresa mediana tiene entre 50 y 249 empleados, y cifra de ventas inferior a 50
millones de o balance inferior a 43 millones de .
34
Septiembre
de 2013
Dado que la gran mayora de nuestras empresas (ms de tres cuartas partes) son micros, y que
una parte importante de ellas tiene muy pocos empleados, se ha decidido dividir esta
categora en dos subcategoras segn el nmero de empleados: por tanto, se crea la variable
Size, que consta de cuatro valores: 1 (Micros con 1 o 2 empleados), 2 (Micros con ms de 2
empleados), 3 (Pequeas) y 4 (Medianas). A continuacin se muestra su tabla de frecuencias
(Tabla 4.3):
En esta tabla se pueden ver las frecuencias absolutas y relativas (individuales y acumuladas) de
cada valor de la variable Size.
4.4.Desarrollo de la modelizacin
Dividiremos este apartado en dos fases: en primer lugar (fase I, apartado 4.4.1),
simplificaremos el problema convirtiendo la variable dependiente en binaria. Posteriormente
(fase II, apartado 4.4.2), afrontaremos el problema original, con variable dependiente
categrica ordinal, con un enfoque distinto: partiremos de un modelo de scoring conocido, y
trataremos de valorar si el aporte de nuestro modelo resulta estadsticamente significativo y
til a la hora de explicar la variable dependiente.
35
Septiembre
de 2013
Rating
category
MORE
Rating
Assessment
Healthy
companies
AAA
AA
Balanced
companies
BBB
BB
Vulnerable
companies
CCC
Risky
companies
CC
The company has no longer the capacity to meet its financial commitments
Tabla 4.4. Rating MORE
No existe un consenso claro sobre cundo considerar una muestra no balanceada, ni siquiera
sobre qu mtodo (sobremuestreo, inframuestreo, aplicacin de ponderaciones) utilizar para
balancear las muestras. Pero recientes estudios experimentales (Van Hulse et al., 2007; Menon
et al., 2013) sobre este mbito se centran principalmente en porcentajes inferiores al 10% de
la categora menos frecuente. Por tanto, pese a que la distribucin de los valores de la variable
respuesta en nuestra muestra no est equilibrada, consideramos que un porcentaje prximo al
20% en la categora menos frecuente es suficiente, y por tanto no es necesario balancear las
muestras5.
No obstante, una vez obtenido el modelo final se realiz una prueba de modelizacin (ver Anexo III)
balanceando la muestra mediante la aplicacin de ponderaciones, y los resultados obtenidos no
mejoraron los proporcionados sin balancear.
36
Septiembre
de 2013
Nombre de variable
Days accounts receivable
Days accounts payable
Accounts receivable/Total assets
Accounts payable/Total liabilities
Accounts payable/Accounts receivable
Accounts payable growth
Accounts receivable growth
Sales growth
Age (years)
Activity sector
Size
Traduccin al castellano
Periodo medio de cobro (das)
Periodo medio de pago (das)
Deudores/Activo
Acreedores/Pasivo
Acreedores/Deudores
Variacin de acreedores
Variacin de deudores
Variacin de ventas
Antigedad ( aos)
Sector de actividad
Tamao
Por Deudores se entiende la partida contable Deudores comerciales y otras cuentas a cobrar, y por
Acreedores, Acreedores comerciales y otras cuentas a pagar.
37
Septiembre
de 2013
Todas ellas son variables habituales en este tipo de estudios: el tamao de la empresa, la
antigedad (en aos) como factor que indica la consolidacin de la empresa en el mercado
(muchas veces asociada a la reputacin de la misma), el sector para valorar posibles
comportamientos diferentes segn la actividad desarrollada por cada empresa, y la variacin
de ventas (Importe neto de cifra de ventas del ltimo ao/Importe neto de cifra de ventas del
ao anterior) como indicador del cambio en el volumen de negocio.
Todas las variables se han obtenido para el ltimo cierre contable disponible, es decir, 2011.
Las variables de variacin se han calculado comparando 2011 con 2010.
A continuacin se muestra un resumen de las estadsticas descriptivas de las variables
independientes.
4.4.1.3.Estrategia de validacin
Llegados a este punto, como el tamao muestral es suficientemente grande, se decide dividir
la muestra de desarrollo en dos submuestras de entrenamiento y validacin (de acuerdo a lo
comentado en la seccin 3.4), para poder realizar con posterioridad una validacin out-ofsample, sin perjuicio de que en cada proceso de modelizacin se realice a su vez otro tipo de
validacin, que en la medida de lo posible se realizar mediante validacin cruzada.
Se decide dividir la muestra dedicando un 70% de la misma (6449 registros) para el
entrenamiento de los modelos, y conservando el 30% restante (2759 registros) para la
validacin. La divisin se realiza de forma aleatoria.
Como se puede comprobar en las tablas 4.8 a 4.13, las principales caractersticas de una y otra
muestra son similares.
38
Septiembre
de 2013
39
Septiembre
de 2013
4.4.1.4.Modelizacin
Se han probado diferentes enfoques, tanto modelos estadsticos clsicos (anlisis
discriminante, regresin logstica) como tcnicas de minera de datos (rboles de clasificacin,
redes neuronales, vecino ms prximo).
A continuacin se muestra un resumen de los resultados obtenidos con cada modelo, con
especial atencin al que hemos considerado como mejor modelo y que por tanto ser nuestra
propuesta de modelo final. La seleccin de dicho modelo est basada en criterios de medidas
de bondad de ajuste ya explicados en la Seccin 3.3, sobre todo en la curva ROC y su
correspondiente AUC.
En el apartado 4.4.1.4.7 se ofrece el anlisis comparativo de todos los modelos de acuerdo a
las curvas ROC (grfico 4.5) y sus correspondientes AUC (tabla 4.38).
4.4.1.4.1.Regresin logstica
Como se puede comprobar en las tablas 4.14 y 4.17, el modelo de regresin logstica obtenido
mediante el mtodo stepwise consta de seis variables continuas ms una dummy, y con l se
40
Septiembre
de 2013
En la tabla 4.14 se muestra el valor de los coeficientes, el error estndar, el valor del
estadstico del test de Wald y su p-valor, y los odds-ratio para las variables del modelo final
partiendo de todos los predictores.
41
Septiembre
de 2013
Tabla 4.16. Resultado del test de Hosmer-Lemeshow del modelo logstico inicial
En la tabla 4.17 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta.
42
Septiembre
de 2013
Tabla 4.18. Matriz de correlaciones de las variables continuas del modelo logstico inicial
En la tabla 4.18 se muestra la matriz de correlaciones de Pearson de las variables continuas del
modelo, as como su p-valor (2 colas) y el tamao muestral.
Log_AR_Assets
Log_AP_Liab
Log_AP_AR
Log_DAR
Log_SalesGrowth
Age
Log_AR_Assets
293,72
-229,76
307,50
6,39
1,36
0,09
Log_AP_Liab
-229,76
181,17
-241,72
-5,80
-1,33
0,04
Log_AP_AR
307,50
-241,72
325,21
9,12
1,97
0,06
Log_DAR
6,39
-5,80
9,12
2,99
0,63
-0,11
Log_SalesGrowth
1,36
-1,33
1,97
0,63
1,14
0,00
Age
0,09
0,04
0,06
-0,11
0,00
1,02
Como se puede comprobar en la presente tabla 4.19, se obtienen valores muy altos en la
diagonal principal para varias variables.
43
Septiembre
de 2013
Tabla con el valor de los coeficientes, el error estndar, el estadstico del test de Wald y su pvalor asociado, y los odds-ratio para las variables del modelo final sin la variable Log_AP_AR.
Tabla con los porcentajes de acierto del modelo para cada categora de la variable respuesta.
44
Septiembre
de 2013
Tabla 4.24. Matriz de correlaciones de las variables continuas del modelo logstico revisado
En la tabla 4.24 se muestra la matriz de correlaciones de Pearson de las variables continuas del
modelo, as como su p-valor (2 colas) y el tamao muestral.
Log_AR_Assets
Log_AP_Liab
Log_SalesGrowth
Age
Log_DAP
Age
-0,06
0,14
0,02
1,02
-0,02
Log_DAP
0,20
-0,61
0,19
-0,02
1,27
4.4.1.4.2.Anlisis discriminante
Como se puede comprobar en la tabla 4.26, el anlisis discriminante proporciona una funcin
discriminante que consta de 8 variables, y con l se obtienen resultados parecidos a los de la
regresin logstica: 83.2% (17.3% en la categora default) de acierto en la clasificacin (tabla
4.28) y AUC=0.767 (tabla 4.38). El valor final de la lambda de Wilks es 0.87 (tabla 4.26).
Tambin se han obtenido los coeficientes de la funcin discriminante (tabla 4.27).
45
Septiembre
de 2013
En la tabla 4.26 se puede comprobar qu variable entra en el modelo en cada paso, as como el
decremento secuencial en el valor de la lambda de Wilks.
Tabla con los coeficientes de las funciones discriminantes para cada una de las dos categoras
de la variable respuesta. Como se ha puesto de manifiesto en el apartado 3.2.1.2, cuando se
utilizan las funciones generadas por estos coeficientes se clasifica a cada individuo en el grupo
para el que la funcin sea mayor.
46
Septiembre
de 2013
En la tabla 4.28 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta. El porcentaje global no se muestra pero se calcula de forma inmediata sin
ms que sumar la diagonal principal y dividir entre el tamao muestral.
47
48
Septiembre
de 2013
Septiembre
de 2013
En la tabla 4.29 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta, y en cada una de las dos submuestras.
Tabla que muestra la medida del riesgo (ver apartado 3.2.2.1) para ambas submuestras.
49
Septiembre
de 2013
50
51
Septiembre
de 2013
Septiembre
de 2013
En la tabla 4.32 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta.
Tabla que muestra la medida del riesgo (ver apartado 3.2.2.1) del modelo final para la
validacin cruzada.
52
Septiembre
de 2013
En la tabla 4.34 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta. El porcentaje global no se muestra pero se calcula de forma inmediata sin
ms que sumar la diagonal principal y dividir entre el tamao muestral.
53
Septiembre
de 2013
Los resultados obtenidos son satisfactorios, con el segundo mejor valor del AUC (0,775) en la
tabla 4.38, y un porcentaje de clasificacin correcta (tabla 4.36) en la muestra de test de un
83,6% (23,3% en la categora default).
En cuanto a los principales predictores, la variable ms importante (ver tabla 4.37) es el ratio
Acreedores/Deudores, seguida del ratio Acreedores/Pasivo y del incremento de ventas.
Tabla con los parmetros de definicin de la red neuronal (nmero de capas y de unidades en
cada capa, funciones de activacin y de error, etc.)
54
55
Septiembre
de 2013
Septiembre
de 2013
Tabla que muestra los porcentajes de acierto del modelo para cada categora de la variable
respuesta, y en cada una de las dos submuestras.
56
Septiembre
de 2013
57
Septiembre
de 2013
En la tabla 4.38 se muestran los valores del AUC correspondientes a las curvas ROC mostradas
en el grfico 4.5. Se puede comprobar que el valor ms alto (y, por tanto, mejor) se obtiene
con el modelo del rbol CHAID, seguido del MLP (red neuronal), el MDA (anlisis
discriminante), el logit revisado, el rbol CRT y, por ltimo, del kNN (vecinos ms prximos).
58
Septiembre
de 2013
En la tabla 4.39 se muestra el valor del AUC correspondiente a la curva ROC mostrada en el
grfico 4.6, y que por tanto se refiere al modelo CHAID en la muestra de validacin.
59
Septiembre
de 2013
En la tabla 4.40 se pueden ver los porcentajes de acierto del modelo para cada categora de la
variable respuesta en la muestra de validacin. El porcentaje global no se muestra pero se
calcula de forma inmediata sin ms que sumar la diagonal principal y dividir entre el tamao
muestral (de validacin, en este caso).
Se ha intentado tambin realizar una validacin out-of-time, pero no ha sido posible pues la
poblacin7 que cumple las mismas condiciones que la utilizada para obtener la muestra de
desarrollo, pero con informacin de balance del ao 2012, tiene caractersticas bastante
diferentes en cuanto al tamao de las empresas y la proporcin de empresas con riesgo alto.
Esto es lgico debido a que existe un sesgo importante, dado que las empresas que
normalmente presentan sus cuentas antes son aqullas ms grandes y saneadas.
60
Septiembre
de 2013
La variable que provoca la primera divisin en el rbol, y que por tanto podemos considerar
como ms influyente, es el ratio Acreedores/Pasivo. Valores altos de este ratio implican mayor
riesgo, estando situados los puntos de corte, aproximadamente, en 0.2, 0.4 y 0.6 (tras
deshacer la transformacin logartmica). El sentido econmico de este resultado es claro: la
principal manera para compensar los acreedores es tener un pasivo que supere con creces lo
debido.
Resultados similares han sido obtenidos por Altman et al. (2010): Trade credit as a ratio of
total liabilities is higher in the failed subsample than in the non-failed sample. Small companies
that are restricted in bank credit may substitute trade credit where possible [] As expected,
both trade debt to total assets and trade credit to total liabilities are positive and significant8
Analizando los nodos 1 y 4 y sus filiales, observamos que cuando Acreedores/Pasivo es bajo
(inferior a 0.2) o alto (superior a 0.6), la segunda variable ms importante a tener en cuenta es
Acreedores /Deudores, siendo mayor el riesgo cuanto mayor sea este ratio, con los puntos de
corte situados en 1.6, 3.1 y 9.5, aproximadamente.
El sentido econmico es tambin lgico: cuanto mayor es el ratio entre lo que una empresa
debe a su proveedores y lo que le deben sus clientes, peor es su fondo de maniobra y por
tanto mayor su riesgo de tener dificultades econmico/financieras.
Dado que no es frecuente analizar el crdito comercial simultneamente desde los dos puntos
de vista que ofrece (proveedor y cliente), no se han encontrado referencias anteriores a esta
variable (se introduce, pero no resulta significativa, en Altman et al., 2010), si bien algunos
informes (Credit Management Research Centre, 2008) hablan de su importancia: Managing
the net trade credit position is critical9.
El hecho de que esta variable tenga un papel tan relevante en el modelo en detrimento de los
periodos medios de cobro y pago (la primera no entra en el modelo, la segunda s pero con
escasa importancia) parece sugerir que, a efectos de valorar el riesgo en las pymes espaolas,
es ms importante el volumen de crdito comercial que la gestin del mismo en lo relativo a
nmero medio de das de cobro y pago.
Sin embargo, cuando Acreedores/Pasivo toma valores medios (entre 0.2 y 0.6, nodos 2 y 3), la
segunda variable a tener en cuenta pasa a ser el Incremento de Ventas: por supuesto, a menor
valor de esta variable, mayor riesgo (puntos de corte variables).
Resultados similares han sido obtenidos por otros autores (Garca-Teruel y Martnez-Solano,
2007; Martnez-Sola et al., 2012), si bien construyen modelos para explicar el valor de la
empresa en lugar del riesgo: Growth, which could be an indicator of firms business
opportunities, is an important factor allowing firms to enjoy improved profitability, as we see
El crdito comercial como proporcin del total de pasivos es mayor en la submuestra de fallidos que
en la de no fallidos. Las pequeas empresas que tienen restringido el crdito bancario pueden sustituirlo
por crdito comercial cuando sea posible [...] Como era de esperar, tanto la deuda comercial respecto al
activo total como el crdito comercial respecto al pasivo total son positivos y significativos
9
La gestin de la posicin neta de crdito comercial es fundamental
61
Septiembre
de 2013
in the positive sign for the variable SGROW (Sales Growth)10 y Growth is positively related to
the two proxies of firm value in all four cases11, respectivamente.
Las variables que no entran a formar parte del modelo son las siguientes: periodo medio de
cobro, sector y tamao.
10
62
Septiembre
de 2013
Se ha decidido utilizar como modelo de scoring el propuesto por Pozuelo et al. (2010), por
similitud de la poblacin (microempresas espaolas) y la fuente de datos (SABI) utilizadas, as
como por su proximidad temporal. Una ventaja de este modelo sobre el modelo de Altman es
que los ratios financieros utilizados por Altman en sus diversos estudios no son muy comunes
en los balances espaoles, pues el hecho de restringirse a empresas estadounidenses provoca
que las variables de balance utilizadas tengan difcil traslacin a la informacin contable
espaola. En consecuencia, algunos estudios (Lizrraga, 1998) hacen hincapi en la
aplicabilidad limitada del modelo de Altman para las empresas espaolas.
Por tanto, el modelo utilizado para calcular el score ser
4.4.2.3.Modelizacin
Se ha realizado una regresin ordinal para tratar de explicar MORE_Gr8 a partir de PD_PLV.
Como puede comprobarse en las siguientes tablas, los resultados del ajuste son bastante
buenos, con valores del Pseudo-R2 superiores a 0.7. Tambin se facilita la tabla de
contingencia con sus medidas asociadas, donde se puede observar una Gamma de 0.85 y una
Tau de Kendall de 0.74.
12
63
Septiembre
de 2013
Tabla que muestra los coeficientes del modelo con sus correspondientes intervalos de
confianza al 95%, as como el estadstico del test de Wald y su p-valor asociado. A diferencia
del caso binario, en el ordinal SPSS no proporciona los odds.
En la tabla 4.45 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues su p-valor es muy prximo a cero.
64
Septiembre
de 2013
Tabla con los valores de las medidas de asociacin para tablas simtricas ordinales (Gamma y
tau de Kendall), y una medida de concordancia (ndice de Kappa).
Posteriormente, se realiza una regresin ordinal con la misma variable dependiente, pero
incluyendo como variable independiente el score proporcionado por nuestro modelo CHAID de
la fase 1. Como queda de manifiesto en las tablas siguientes, la inclusin en el modelo del
parmetro asociado a este factor resulta significativa, y mejoran todas las medidas de bondad
de ajuste, tanto el Pseudo-R2 como las medidas de asociacin de la tabla de contingencia.
En la tabla 4.49 se muestran los coeficientes del modelo con sus correspondientes intervalos
de confianza al 95%, as como el estadstico del test de Wald y su p-valor asociado. Se puede
comprobar que el p-valor del coeficiente de la variable CHAID est muy prximo a cero, y por
tanto resulta significativo para cualquier nivel de significacin razonable.
65
Septiembre
de 2013
En la tabla 4.50 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues su p-valor es prximo a cero.
Como puede comprobar en la presente tabla 4.51, las medidas de bondad de ajuste han
mejorado algo ms de dcima y media (respecto a la tabla 4.46) tras la inclusin de la nueva
variable.
66
Septiembre
de 2013
Como se puede comprobar en la presente tabla 4.53, las medidas de asociacin han mejorado
cerca de una dcima (respecto a la tabla 4.48) tras la inclusin de la nueva variable.
Tambin se ha realizado una matriz de distancias utilizando la distancia Chi2, mtrica habitual
en el anlisis de correspondencias. Es una forma de medir distancias entre perfiles, y su
formulacin es similar a la distancia eucldea, salvo porque dividimos cada cuadrado de la
diferencia entre coordenadas por su correspondiente elemento del perfil medio, de forma que
se puede considerar una distancia eucldea ponderada (Greenacre, 2008).
Como se puede comprobar en la tabla 4.54, la variable respuesta est ms prxima al
resultado del segundo modelo que al del primero.
No hay problemas de colinealidad dado que el coeficiente de correlacin (tabla 4.55) entre
ambos regresores no es muy alto:
Tabla 4.55. Coeficiente de correlacin entre los regresores del modelo logstico modificado
67
Septiembre
de 2013
4.4.2.4.Validacin
Se ha procedido anlogamente a la Fase I, aplicando los modelos anteriormente obtenidos a la
muestra de validacin, y como se puede ver seguidamente, los resultados son muy similares a
los obtenidos en entrenamiento.
Tabla con los coeficientes del modelo y sus correspondientes intervalos de confianza al 95%,
as como el resultado del test de Wald.
En la tabla 4.57 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues su p-valor est prximo a cero.
68
Septiembre
de 2013
Tabla 4.58. Bondad de ajuste del modelo logstico ordinal inicial en validacin
Tabla que muestra los coeficientes del modelo con sus correspondientes intervalos de
confianza al 95%, as como el resultado del test de Wald. Se puede comprobar que el p-valor
del coeficiente de la variable CHAID es prximo a cero, y por tanto resulta significativo para
cualquier nivel de significacin razonable.
En la tabla 4.60 se puede comprobar que el modelo resulta estadsticamente significativo para
cualquier nivel de significacin razonable, pues el p-valor est prximo a cero.
69
Septiembre
de 2013
Tabla 4.61. Bondad de ajuste del modelo logstico ordinal modificado en validacin
Como se puede comprobar en la presente tabla 4.61, las medidas de bondad de ajuste han
mejorado aproximadamente dcima y media (respecto a la tabla 4.58) tras la inclusin de la
nueva variable.
4.4.1.5.Interpretacin
Como se puede comprobar en la tabla 4.45, slo se obtiene el valor de los coeficientes, no el
de los odds. Si los calculamos, podemos comprobar que el incremento producido en la variable
respuesta por cada dcima13 que aumenta la variable PD_PLV es aproximadamente el doble
(2.53 frente a 1.3) que el producido por un aumento similar en la variable CHAID. En ese
sentido, a igualdad del valor de CHAID, un aumento de una dcima en PD_PLV producir
aproximadamente un incremento de un nivel en la variable respuesta, mientras que a igualdad
de PD_PLV, el mismo efecto se obtendra con un aumento de dos dcimas en CHAID.
13
Teniendo en cuenta que las variables independientes estn calculadas como probabilidades y no
porcentajes, no tiene mucho sentido hablar de aumentos de una unidad, pues su valor estar siempre
entre 0 y 1.
70
Septiembre
de 2013
5.CONCLUSIONES
En este trabajo se ha analizado la relacin entre la gestin del crdito comercial y el nivel de
riesgo en las pymes desde un punto de vista estadstico.
Utilizando la base de datos SABI, se ha extrado una muestra aleatoria de ms de 10000 pymes
espaolas, de las cuales se ha obtenido informacin del nivel de riesgo, as como otras
variables tanto financieras como no financieras. Se han utilizado diversas metodologas, tanto
paramtricas como no paramtricas, para crear modelos multivariantes que traten de explicar
el nivel de riesgo a partir, principalmente, de medidas del uso de crdito comercial.
Inicialmente se ha utilizado una variable dependiente binaria (riesgo alto vs. riesgo bajo), y se
han obtenido modelos que consiguen una elevada precisin en la ordenacin de las empresas
de acuerdo a su riesgo (score), alcanzando los mejores resultados mediante las tcnicas de
rboles de clasificacin.
Posteriormente, utilizando una variable dependiente ordinal (8 niveles) y un modelo de scoring
conocido como variable independiente, hemos construido un nuevo modelo incorporando el
resultado de nuestro score como variable independiente adicional, deduciendo que el aporte
de nuestro modelo resulta estadsticamente significativo a la hora de explicar la variable
dependiente, y adems mejora las medidas de bondad de ajuste.
Por tanto, mediante el presente trabajo se ha obtenido evidencia emprica de que el crdito
comercial es un buen indicador de riesgo, pues se han desarrollado modelos que alcanzan una
buena bondad de ajuste a la hora de explicar la variable dependiente binaria. As mismo, se ha
obtenido evidencia emprica de que el crdito comercial puede resultar un aporte interesante
y til a los modelos clsicos de scoring cuando tratamos con pymes, pues se ha comprobado
que la inclusin de variables relacionadas con su gestin puede mejorar el desempeo de
dichos modelos. Por todo ello, la conclusin ms importante de este trabajo desde el punto de
vista del negocio es que las pymes (y sus dirigentes) pueden reducir su riesgo gestionando
adecuadamente el TC, lo cual implica inicialmente ajustar el ratio Acreedores/Pasivo, dado que
sta es la variable ms relevante en el modelo.
71
Septiembre
de 2013
5.2.Publicaciones generadas
Terrdez, M., Juan, A., Kizys, R., Debn, A., Sawik, B., 2013, Trade Credit Risk Analysis in
Small and Medium Enterprises, Proceedings of the 5th Int. Conf. on Risk Analysis (ICRA5),
ISBN: 978-972-9473-71-5. (Tomar, Portugal. May 30 June 1).
Terrdez, M., Kyzis, R., Juan, A., Debn, A, Risk Scoring Models for Trade Credit in Small
and Medium Enterprises, Springer Proceedings in Mathematics & Statistics (en revisin)
14
No hay consenso sobre la traduccin al castellano, habindose propuesto, entre otras, mquinas de
vector soporte o mquinas de soporte vectorial.
72
Septiembre
de 2013
BIBLIOGRAFA
Altman, E.I., Sabato, G. y Wilson, N., 2010, The value of non-financial information
in SME risk management, The Journal of Credit Risk 6, 1-33
Altman, E.I., y Sabato, G., 2007, Modeling credit risk for SMEs: evidence from the
US market. ABACUS 43, 332-357
Berry, M.J.A. y Linoff, G., 1997, Data Mining Techniques, John Wiley & Sons
Biais, B., y Gollier, C., 1997, Trade credit and credit rationing, Review of Financial
Studies 10, 903-937.
Boissay, F y Gropp, R., 2013, Payment defaults and interfirm liquidity provision,
Review of Finance, 1-42, doi:10.1093/rof/rfs045
Burkart, M. y Ellingsen, T., 2004, In-kind finance: A theory of trade credit, American
Economic Review 94, 569-590
Cheng, N y Pike, R., 2003, The trade credit decision: evidence of UK firms,
Managerial and decision economics 24, 419-438
Coats, P.K. y Fant, L.F., 1991, A neural network approach to forecasting financial
distress, The Journal of Business Forecasting 10, 9-12
Cuat, V., 2007, Trade credit: suppliers as debt collectors and insurance providers,
Review of Financial Studies 20, 491-527
73
Septiembre
de 2013
Deloof, M., 2003, Does working capital management affect profitability of Belgian
firms?, Journal of Business Finance and Accounting 30, 573-587.
Deloof, M., Jegers, M., 1999, Trade credit, corporate groups, and the financing of
Belgian firms, Journal of Business Finance and Accounting 26, 945-966.
Drever, M. y Drive, H., 2004, The late payment of trade credit for SMEs,
International Council for Small Business
Emery, G., 1984, A Pure Financial Explanation for Trade Credit, Journal of Financial
and Quantitative Analysis 19, 271-285
Fantazzini, D. y Figini, S., 2009, Random Survival Forest Models for SME Credit Risk
Measurement, Methodology and Computing in Applied Probability 11, 29-45
Fawcett, T., 2006. An introduction to ROC analysis. Pattern Recognition Letters 27,
861-874
Fissman, R., Love, I., 2003, Trade credit, financial intermediary development, and
industry growth, Journal of Finance 58, 353-374.
Fraser, S., 2008, Small firms in the credit crisis. Evidence from the UK Survey of
SME Finance. Warwick Business School
(http://www2.warwick.ac.uk/fac/soc/wbs/research/csme/research/latest/small_fi
rms_in_the_credit_crisis_v3-oct09.pdf)
Frydman H., Altman E.I. y Kao D.L., 1985, Introducing recursive partitioning for
financial classification: The case of financial distress. Journal of Finance 40,269-291
Giannetti, M., Burkart, M. y Ellingsen, T., 2011, What you sell is what you lend?
Explaining trade credit contracts, The review of financial studies
74
Septiembre
de 2013
Grunert, J., Norden, L. y Weber, M., 2004, The Role of Non-Financial Factors in
Internal Credit Ratings, Journal of Banking and Finance 29, 509-531
Hernndez, J., Ramrez, M.J. y Ferri, C., 2004, Introduccin a la minera de datos,
Pearson Prentice Hall
Klapper, L., Laeven, L., y Rajan, R., 2012, Trade credit contracts, Review of
Financial Studies 25, 838-867.
Lee, Y.W., y Stowe, J.D., 1993, Product risk, asymmetric information and trade
credit, Journal of Financial and Quantitative Analysis 28, 285-300
Lizarraga, F., 1998, Modelos de previsin del fracaso empresarial: funciona entre
nuestras empresas el modelo de Altman de 1968?, Revista de Contabilidad 1, 137164
Long, M.S., Malitz, I.B. y Ravid, SA., 1993, Trade credit, quality guarantees, and
product marketability, Financial Management 22, 117127.
Menon, A.K., Shivani, H.N. y Chawla, S., 2013, On the Statistical Consistency of
Algorithms for Binary Classification under Class Imbalance, Proc. ICML
Metz, C.E. and Kronman, H.B., 1980, Statistical significance tests for binormal ROC
curves, Journal of Mathematical Psychology 22, 218-243
Micha, B., 1984, Analysis of business failures in France, Journal of Banking and
Finance 8, 281-291
Ng, C.K., Smith, J.K. y Smith, R.L., 1999, Evidence on the Determinants of Credit
Terms Used in Interfirm Trade, Journal of Finance 54, 1109-1129
Ohlson, J., 1980, Financial ratios and the probabilistic prediction of bankruptcy,
Journal of Accounting Research 18, 109-131
Paul, S y Guermat, C., 2010, Trade Credit as Short-Term Finance in the UK, Centre
for Global Finance Working Paper 10/09
(http://www2.uwe.ac.uk/faculties/BBS/BUS/Research/CGF/CGF%20Working%20P
aper10%2009.pdf)
75
Septiembre
de 2013
Peel, M.J., Wilson, N. and Howorth, C., 2000, Late payment and Credit
Management in the small firm sector: Some empirical evidence, International
Small Business Journal 18, 17-37
Petersen, M y Rajan, R., 1997, Trade credit: theories and evidence, Review of
financial studies 10, 661-691
Pozuelo, J., Labatut, G. y Veres, E., 2010, Anlisis descriptivo de los procesos de
fracaso empresarial en microempresas mediante tcnicas multivariantes, Revista
Europea de Direccin y Economa de la Empresa 19, 47-66
Rodrguez, O., 2003, Anlisis multivariante sobre el crdito comercial para una
muestra de PYMES canarias, Documento de trabajo 2003-11. Universidad de La
Laguna (http://fceye.ull.es/invest/docum/ull-ulpgc/DT2003-11.pdf)
Rodrguez, O., 2006, Trade Credit in Small and Medium Size Firms: An application
of the system estimator with panel data, Small Business Economics 27, 103-126
Seifert, D., Seifert, R.W., Protopappa-Sieke, M., 2013, A review of trade credit
literature: Opportunities for research in operations, European Journal of
Operational Research, http://dx.doi.org/10.1016/j.ejor.2013.03.016
Sobehart, J.R. and Keenan, S.C., 2001, A practical review and test of default
prediction models, RMA Journal 84, 54-59
Swets, J.A., 1996, Signal detection theory and ROC analysis in psychology and
diagnostics: Collected papers, Lawrence Erlbaum Associates
76
Septiembre
de 2013
Uchida, H., Udell, G.F. y Watanabe, W., 2006, Are trade creditors relationship
lenders?, RIETI Discussion Paper Series
(http://www.rieti.go.jp/jp/publications/dp/06e026.pdf)
Van der Wijst, N. y Hol, S., 2002, Trade Credit in Europe, European Working Group
on Financial Modeling (http://hermesmba.cc.ucy.ac.cy/conferences/ewgfm/papers/WijstHol.doc)
Wilner, B., 2000, The exploitation of relationships in financial distress: the case of
trade credit, The Journal of Finance 55, 153-178
Wilson, N., 1996, Credit management, late payment and the SME business
environment. A survey. Credit Management Research Group, University of
Bradford Management Centre (http://hdl.handle.net/10068/425962)
Zweig, M.H. and Campbell, G., 1993, Receiver-Operating Characteristic (ROC) plots:
a fundamental evaluation tool in clinical medicine, Clinical Chemistry 39, 561-577
Credit and debt management - 2008 Survey (2008. Credit Management Research
Centre, University of Leeds) (http://www.cmrc.co.uk/wpcontent/uploads/CreditandDebtSurvey2008.pdf)
Studies on the Validation of Internal Rating Systems, 2005, Bank for International
Settlements, Working Paper 14 (http://www.bis.org/publ/bcbs_wp14.pdf)
77
78
Septiembre
de 2013
Septiembre
de 2013
Dado que la gran mayora de nuestras empresas (ms de tres cuartas partes) son micros, y que
una parte importante de ellas tiene muy pocos empleados, se ha decidido dividir esta
categora en dos subcategoras segn el nmero de empleados: por tanto, se crea la variable
Size, que consta de cuatro valores: 1 (Micros con 1 o 2 empleados), 2 (Micros con ms de 2
empleados), 3 (Pequeas) y 4 (Medianas).
79
Septiembre
de 2013
Como se puede comprobar en la tabla A1.3, casi dos tercios de las empresas pertenecen al
sector servicios, slo un 3% a la agricultura, y el resto se reparten ms o menos
equitativamente entre el sector industrial y el de la construccin.
80
Septiembre
de 2013
Tabla de frecuencias de MORE_Bin, variable binaria que es una discretizacin del rating MORE
en dos categoras: las empresas de riesgo alto (aqullas que tienen una calificacin CC o
inferior) frente a las de riesgo bajo (el resto), asimiladas a los valores default (1) y no
default (0), respectivamente. Esta variable se utiliza como dependiente en los modelos
binarios.
81
Septiembre
de 2013
82
Septiembre
de 2013
83
Septiembre
de 2013
84
Septiembre
de 2013
85
Septiembre
de 2013
86
Septiembre
de 2013
87
Septiembre
de 2013
88
Septiembre
de 2013
89
Septiembre
de 2013
Listado de los 25 casos cuyo ndice de anomala supera el valor 5. Se puede comprobar que no
hay ningn caso cuyo ndice de anomala sea mucho mayor que el resto.
90
Septiembre
de 2013
Tabla A1.16. Casos anmalos identificados por SPSS y variables que generan la anomala
Listado de casos mostrados en la tabla A1.15, junto a la variable en la cual dicho caso presenta
anomala, el impacto, el valor concreto y la norma de dicha variable. Se puede comprobar que
las variables en las cuales se presenta el mayor nmero de casos atpicos son las de
incremento.
91
Septiembre
de 2013
Tabla A1.17. Resumen del resultado del anlisis cluster k-medias (k=5)
Resultado del anlisis cluster de k-medias (con k=5), en el que se puede comprobar que el
cluster con menor nmero de casos es el 5, y se procede a analizar dichos casos.
00246
00295
00303
00334
00571
00959
01241
01574
01812
02031
02032
02378
02422
02559
02563
02696
03073
03231
03352
03562
03968
04176
04465
04644
04663
04885
05168
05459
10011
10545
10547
10770
10957
12114
12425
12566
12634
12733
13001
13086
13145
13391
13533
13673
14180
14675
15117
15223
15282
15347
15645
15779
Listado de los 52 casos pertenecientes al cluster 5. Se puede comprobar que no hay ningn
caso coincidente con el de la tabla A1.15. Una vez analizados los casos, no presentan
anomalas especiales.
92
Septiembre
de 2013
93
Septiembre
de 2013
Matriz de correlaciones entre las variables continuas transformadas. Se puede comprobar que las mayores (en torno a 0.7 en valor absoluto) se dan entre
las variables Log_DAR, Log_AP_AR y Log_AR_Assets, si bien en la gran mayora de casos se obtiene valores mucho menores. En el proceso de modelizacin
se tendrn en cuenta estos resultados.
Resultados del test de diferencia de medias de la variable Log_AP_AR segn los dos grupos generados por los valores de MORE_Bin. El test de igualdad de
varianzas de Levene rechaza la hiptesis nula (p-valor 0), y por tanto nos fijaremos en la segunda fila (no se asume igualdad de varianzas)., en la que se
puede comprobar que el test t de igualdad de medias rechaza la hiptesis nula (p-valor 0); es decir, existen diferencias significativas entre las medias de la
variable en ambos grupos.
94
Septiembre
de 2013
Valor de los coeficientes de correlacin no paramtricos ( de Kendall y de Spearman) entre las variables Log_AP_AR y MORE_Bin. Se puede comprobar
que en ambos casos el coeficiente es significativo, si bien su valor no es muy alto (menor que 0.3 en ambos casos).
95
Septiembre
de 2013
/* Node 18 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR IS MISSING
OR (Log_AP_AR <= 0.4898585499062656)) AND (Age NOT MISSING AND (Age <= 12.155556))
THEN
Node = 18
Prediction = 0
Probability = 0.875549
/* Node 19 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR IS MISSING
OR (Log_AP_AR <= 0.4898585499062656)) AND (Age IS MISSING OR (Age > 12.155556 AND Age <=
23.9))
THEN
Node = 19
Prediction = 0
Probability = 0.940904
/* Node 20 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR IS MISSING
OR (Log_AP_AR <= 0.4898585499062656)) AND (Age NOT MISSING AND (Age > 23.9))
THEN
Node = 20
Prediction = 0
Probability = 0.972452
/* Node 21 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 2.256950620919347)) AND
(Age IS MISSING OR (Age <= 15.31944444444445))
THEN
Node = 21
Prediction = 0
Probability = 0.775701
/* Node 22 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 2.256950620919347)) AND
(Age NOT MISSING AND (Age > 15.31944444444445))
THEN
Node = 22
Prediction = 0
Probability = 0.892193
/* Node 23 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 2.256950620919347)) AND (Log_SalesGrowth NOT MISSING AND
(Log_SalesGrowth <= -0.1675529036462356))
97
Septiembre
de 2013
THEN
Node = 23
Prediction = 0
Probability = 0.613333
/* Node 24 */.
IF (Log_AP_Liab IS MISSING OR (Log_AP_Liab <= -1.628536195652389)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 2.256950620919347)) AND (Log_SalesGrowth IS MISSING OR
(Log_SalesGrowth > -0.1675529036462356))
THEN
Node = 24
Prediction = 0
Probability = 0.821053
/* Node 25 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.3707967256720759)) AND (Log_AP_AR IS MISSING OR (Log_AP_AR <= 1.134006650480806))
THEN
Node = 25
Prediction = 0
Probability = 0.714286
/* Node 26 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.3707967256720759)) AND (Log_AP_AR NOT MISSING AND (Log_AP_AR > 1.134006650480806))
THEN
Node = 26
Prediction = 0
Probability = 0.500000
/* Node 27 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth > 0.3707967256720759 AND Log_SalesGrowth <= -0.06576281163162592)) AND (Log_AP_AR IS
MISSING OR (Log_AP_AR <= 0.0614167078606588))
THEN
Node = 27
Prediction = 0
Probability = 0.931818
/* Node 28 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth > 0.3707967256720759 AND Log_SalesGrowth <= -0.06576281163162592)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.0614167078606588 AND Log_AP_AR <= 1.134006650480806))
THEN
Node = 28
Prediction = 0
Probability = 0.840426
/* Node 29 */.
98
Septiembre
de 2013
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth > 0.3707967256720759 AND Log_SalesGrowth <= -0.06576281163162592)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 1.134006650480806))
THEN
Node = 29
Prediction = 0
Probability = 0.703448
/* Node 30 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets NOT MISSING AND (Log_AR_Assets <= 4.165119609947118))
THEN
Node = 30
Prediction = 0
Probability = 0.735632
/* Node 31 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets NOT MISSING AND (Log_AR_Assets > 4.165119609947118 AND Log_AR_Assets <= -2.067593489045275))
THEN
Node = 31
Prediction = 0
Probability = 0.852459
/* Node 32 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets NOT MISSING AND (Log_AR_Assets > 2.067593489045275 AND Log_AR_Assets <= -1.539806563983183))
THEN
Node = 32
Prediction = 0
Probability = 0.931677
/* Node 33 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -1.628536195652389 AND Log_AP_Liab <= 0.8722136620710493)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.06576281163162592)) AND (Log_AR_Assets IS MISSING OR (Log_AR_Assets > -1.539806563983183))
THEN
Node = 33
Prediction = 0
Probability = 0.971619
/* Node 34 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.1675529036462356)) AND (Log_AP_AR IS MISSING OR (Log_AP_AR <= 1.134006650480806))
THEN
Node = 34
99
Septiembre
de 2013
Prediction = 0
Probability = 0.731250
/* Node 35 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth <= 0.1675529036462356)) AND (Log_AP_AR NOT MISSING AND (Log_AP_AR > 1.134006650480806))
THEN
Node = 35
Prediction = 1
Probability = 0.561644
/* Node 36 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.1675529036462356 AND Log_SalesGrowth <= 0.07933008317703703)) AND (Log_APGrowth IS
MISSING OR (Log_APGrowth <= 0.05556927251657228))
THEN
Node = 36
Prediction = 0
Probability = 0.905830
/* Node 37 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth IS MISSING OR (Log_SalesGrowth > 0.1675529036462356 AND Log_SalesGrowth <= 0.07933008317703703)) AND (Log_APGrowth NOT
MISSING AND (Log_APGrowth > 0.05556927251657228))
THEN
Node = 37
Prediction = 0
Probability = 0.756757
/* Node 38 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth >
0.07933008317703703)) AND (Log_ARGrowth NOT MISSING AND (Log_ARGrowth <= 0.7489171196966938))
THEN
Node = 38
Prediction = 0
Probability = 0.758621
/* Node 39 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth >
0.07933008317703703)) AND (Log_ARGrowth IS MISSING OR (Log_ARGrowth > -0.7489171196966938
AND Log_ARGrowth <= 0.6095130422386631))
THEN
Node = 39
Prediction = 0
Probability = 0.953125
/* Node 40 */.
100
Septiembre
de 2013
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.8722136620710493 AND Log_AP_Liab <= 0.4839325698460847)) AND (Log_SalesGrowth NOT MISSING AND (Log_SalesGrowth >
0.07933008317703703)) AND (Log_ARGrowth NOT MISSING AND (Log_ARGrowth >
0.6095130422386631))
THEN
Node = 40
Prediction = 0
Probability = 0.864407
/* Node 41 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR <= 0.4898585499062656)) AND (Log_SalesGrowth NOT MISSING AND
(Log_SalesGrowth <= -0.06576281163162592))
THEN
Node = 41
Prediction = 0
Probability = 0.696629
/* Node 42 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR <= 0.4898585499062656)) AND (Log_SalesGrowth IS MISSING OR
(Log_SalesGrowth > -0.06576281163162592 AND Log_SalesGrowth <= 0.2304312483321709))
THEN
Node = 42
Prediction = 0
Probability = 0.846939
/* Node 43 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR <= 0.4898585499062656)) AND (Log_SalesGrowth NOT MISSING AND
(Log_SalesGrowth > 0.2304312483321709))
THEN
Node = 43
Prediction = 0
Probability = 0.981481
/* Node 44 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 1.134006650480806)) AND
(Log_AR_Assets IS MISSING OR (Log_AR_Assets <= -0.6712323518185982))
THEN
Node = 44
Prediction = 0
Probability = 0.628378
/* Node 45 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 0.4898585499062656 AND Log_AP_AR <= 1.134006650480806)) AND
(Log_AR_Assets NOT MISSING AND (Log_AR_Assets > -0.6712323518185982))
THEN
Node = 45
Prediction = 1
Probability = 0.769231
101
Septiembre
de 2013
/* Node 46 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 1.134006650480806 AND Log_AP_AR <= 2.256950620919347)) AND
(Log_AR_Assets IS MISSING OR (Log_AR_Assets <= -1.539806563983183))
THEN
Node = 46
Prediction = 0
Probability = 0.593103
/* Node 47 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR NOT
MISSING AND (Log_AP_AR > 1.134006650480806 AND Log_AP_AR <= 2.256950620919347)) AND
(Log_AR_Assets NOT MISSING AND (Log_AR_Assets > -1.539806563983183))
THEN
Node = 47
Prediction = 1
Probability = 0.761905
/* Node 48 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR IS
MISSING OR (Log_AP_AR > 2.256950620919347)) AND (Log_DAP NOT MISSING AND (Log_DAP <=
5.027426856736093))
THEN
Node = 48
Prediction = 0
Probability = 0.622642
/* Node 49 */.
IF (Log_AP_Liab NOT MISSING AND (Log_AP_Liab > -0.4839325698460847)) AND (Log_AP_AR IS
MISSING OR (Log_AP_AR > 2.256950620919347)) AND (Log_DAP IS MISSING OR (Log_DAP >
5.027426856736093))
THEN
Node = 49
Prediction = 1
Probability = 0.714286
102
Septiembre
de 2013
Tras balancear la muestra aplicando al modelo ponderaciones que respeten los porcentajes de
la variable respuesta, se obtiene un rbol CHAID con 32 nodos terminales con los siguientes
valores de bondad de ajuste: AUC=0.792 (tabla A3.1), idntico al del modelo sin balancear;
valor del riesgo de 0.278 (tabla A3.2), mayor que el del modelo sin balancear, y por tanto peor;
porcentaje de xito en la clasificacin (tabla A3.3) del 72.7%, inferior al del modelo sin
balancear, pero lgicamente con un mayor equilibrio entre las dos categoras (70.6% en
default y 73.2% en no default).
Estos ltimos efectos son lgicos, pero basta con mover el punto de corte en el modelo sin
balancear para obtener resultados muy similares. Por ejemplo, si lo fijamos en 0.2, se obtiene
(tabla A3.4) un porcentaje de acierto en la clasificacin del 74.6%, con 67.7% en default y
76.1% en no default.
De hecho, la correlacin entre el score obtenido por ambos modelos es muy alta (tabla A3.5),
del 0.93. Por otro lado, la validacin del modelo tambin proporciona resultados idnticos a
los del modelo sin balancear, con un AUC=0.763 (tabla A3.6).
Todo esto demuestra que el balanceo de la muestra no mejora los resultados obtenidos con la
muestra original sin balancear.
103
Septiembre
de 2013
Se puede comprobar que este valor es idntico al obtenido por el modelo CHAID sin balancear
en la tabla 4.37
Se puede comprobar que este valor es superior al obtenido por el modelo CHAID sin balancear
en la tabla 4.32
104
Septiembre
de 2013
Se puede comprobar que estos valores difieren bastante de los obtenidos por el modelo CHAID
sin balancear (tabla 4.31), siendo ms equilibrados pero con un porcentaje global inferior. Esto
es lgico porque es precisamente el efecto buscado al balancear la muestra.
Tabla A3.4. Matriz de confusin del modelo sin balancear con punto de corte en 0.2
Se puede comprobar que estos valores son parecidos a los obtenidos en la tabla A3.3
Tabla A3.5. Coeficiente de correlacin entre los modelos con y sin balanceo
En la tabla A3.5 se puede comprobar que el coeficiente de correlacin de Pearson entre los
modelos CHAID con y sin balanceo es muy alto.
105
Septiembre
de 2013
Se puede comprobar que este valor es idntico al obtenido por el modelo CHAID sin balancear
en la tabla 4.38
106