Está en la página 1de 51

Modelos Predictivos de

Quiebra Financiera

Docente: Danny Lenis

1
Introducción

• Ha habido mucho interés por parte de académicos y


profesionales en la industria por producir métodos
que ayuden a pronosticar la quiebra financiera.
• Distintos tipos de modelos se han aplicado para este
fin.
• Hacer una revisión de los principales modelos y
proveer ejemplos de aplicación es el objetivo de este
curso.

2
Motivación
• Una de las principales preocupaciones de un
inversionista es la de evitar invertir en empresas que
puedan acabar en quiebra.
• Mercado de valores: valor de la empresa depende en
parte de su solidez.
• Acreedores.
• Gobiernos.
• Calificadoras de riesgo.

3
Mercado de Capitales
Empresas
Activos Deuda
•Inversiones •Deudas Bancos
•Pasivos Corto
•Caja Plazo

Generación de
•Pasivos Largo Requerimientos de
•Activos Plazo
Valor Corrientes Capital
•Bonos
•Activos Fijos
Patrimonio
•Aportes Socios
•Otros Activos
•Reservas
•Utilidades

4
WACC Selección de Financiamiento
• Weighted Avera ge Cost of Ca pita l
– Debe incluir el costo marginal de todas las fuentes de capital:
deuda y equity.
– Calculado después de impuestos (FCL es después de
impuestos).

Valoración de Activos
5
27
Selección de Financiamiento

6
Razones de liquidez
𝑪𝒂𝒑𝒊𝒕𝒂𝒍 𝒅𝒆 𝒕𝒓𝒂𝒃𝒂𝒋𝒐 = 𝑨𝒄𝒕𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆 − 𝑷𝒂𝒔𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆

𝑨𝒄𝒕𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆
𝑹𝒂𝒛ó𝒏 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆 =
𝑷𝒂𝒔𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆

𝑨𝒄𝒕𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆 − 𝑰𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐𝒔


𝑷𝒓𝒖𝒆𝒃𝒂 á𝒄𝒊𝒅𝒂 =
𝑷𝒂𝒔𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆

𝑨𝒄𝒕𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆 − 𝑰𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐𝒔 − 𝑷𝒂𝒈𝒐𝒔 𝒂𝒏𝒕𝒊𝒄𝒊𝒑𝒂𝒅𝒐𝒔


𝑷𝒓𝒖𝒆𝒃𝒂 á𝒄𝒊𝒅𝒂 =
𝑷𝒂𝒔𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆

𝑬𝒇𝒆𝒄𝒕𝒊𝒗𝒐 + 𝑰𝒏𝒗. 𝒕𝒆𝒎𝒑𝒐𝒓𝒂𝒍𝒆𝒔 + 𝑪𝒂𝒓𝒕𝒆𝒓𝒂 𝒄𝒐𝒎𝒆𝒓𝒄𝒊𝒂𝒍


𝑷𝒓𝒖𝒆𝒃𝒂 á𝒄𝒊𝒅𝒂 =
𝑷𝒂𝒔𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆

7
Razones operacionales o de actividad
𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒄𝒂𝒓𝒕𝒆𝒓𝒂 𝒗𝒆𝒄𝒆𝒔 =
𝑪𝒖𝒆𝒏𝒕𝒂𝒔 𝒙 𝒄𝒐𝒃𝒓𝒂𝒓

𝟑𝟔𝟎 𝑪𝒖𝒆𝒏𝒕𝒂𝒔 𝒙 𝒄𝒐𝒃𝒓𝒂𝒓 𝑿 𝟑𝟔𝟎


𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒄𝒂𝒓𝒕𝒆𝒓𝒂 𝒅í𝒂𝒔 = =
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒄𝒂𝒓𝒕𝒆𝒓𝒂 (𝒗𝒆𝒄𝒆𝒔) 𝑽𝒆𝒏𝒕𝒂𝒔

𝑪𝒐𝒔𝒕𝒐 𝒅𝒆 𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒊𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐𝒔 𝒗𝒆𝒄𝒆𝒔 =
𝑰𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐

𝟑𝟔𝟎 𝑰𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐 𝑿 𝟑𝟔𝟎


𝑷𝒆𝒓𝒊𝒐𝒅𝒐 𝒅𝒆 𝒓𝒆𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏 𝒅í𝒂𝒔 = =
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒊𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐𝒔 (𝒗𝒆𝒄𝒆𝒔) 𝑪𝒐𝒔𝒕𝒐 𝒅𝒆 𝒗𝒆𝒏𝒕𝒂𝒔

𝑰𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐 𝑴𝒂𝒕𝒆𝒓𝒊𝒂 𝑷𝒓𝒊𝒎𝒂 𝑿 𝟑𝟔𝟎


𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒎𝒂𝒕𝒆𝒓𝒊𝒂 𝒑𝒓𝒊𝒎𝒂 𝒅í𝒂𝒔 =
𝑴𝒂𝒕𝒆𝒓𝒊𝒂 𝑷𝒓𝒊𝒎𝒂 𝑪𝒐𝒏𝒔𝒖𝒎𝒊𝒅𝒂

𝑰𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐 𝒅𝒆 𝑷𝒓𝒐𝒅𝒖𝒄𝒕𝒐 𝒆𝒏 𝑷𝒓𝒐𝒄𝒆𝒔𝒐 𝑿 𝟑𝟔𝟎


𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝑰𝒏𝒗. 𝑷𝒓𝒐𝒅𝒖𝒄𝒕𝒐 𝒆𝒏 𝑷𝒓𝒐𝒄𝒆𝒔𝒐 𝒅í𝒂𝒔 =
𝑪𝒐𝒔𝒕𝒐 𝑰𝒏𝒕𝒆𝒓𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝑷𝒓𝒐𝒅𝒖𝒄𝒄𝒊ó𝒏

𝑴𝒂𝒕𝒆𝒓𝒊𝒂 𝑷𝒓𝒊𝒎𝒂 𝑪𝒐𝒏𝒔𝒖𝒎𝒊𝒅𝒂 + 𝑪𝒐𝒔𝒕𝒐 𝒅𝒆 𝑷𝒓𝒐𝒅𝒖𝒄𝒄𝒊ó𝒏


𝑪𝒐𝒔𝒕𝒐 𝑰𝒏𝒕𝒆𝒓𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝑷𝒓𝒐𝒅𝒖𝒄𝒄𝒊ó𝒏 =
𝟐

8
Razones operacionales o de actividad
𝑪𝒖𝒆𝒏𝒕𝒂𝒔 𝒙 𝒑𝒂𝒈𝒂𝒓 𝑿 𝟑𝟔𝟎
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒄𝒖𝒆𝒏𝒕𝒂𝒔 𝒑𝒐𝒓 𝒑𝒂𝒈𝒂𝒓 𝒅í𝒂𝒔 =
𝑪𝒐𝒎𝒑𝒓𝒂𝒔
𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒂𝒄𝒕𝒊𝒗𝒐 𝒕𝒐𝒕𝒂𝒍 𝒗𝒆𝒄𝒆𝒔 =
𝑨𝒄𝒕𝒊𝒗𝒐 𝒕𝒐𝒕𝒂𝒍
𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒂𝒄𝒕𝒊𝒗𝒐 𝒇𝒊𝒋𝒐 𝒗𝒆𝒄𝒆𝒔 =
𝑨𝒄𝒕𝒊𝒗𝒐 𝒇𝒊𝒋𝒐
𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒂𝒄𝒕𝒊𝒗𝒐 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒊𝒗𝒐 𝒗𝒆𝒄𝒆𝒔 =
𝑨𝒄𝒕𝒊𝒗𝒐𝒔 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒊𝒗𝒐𝒔
𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒂𝒄𝒕𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆 𝒗𝒆𝒄𝒆𝒔 =
𝑨𝒄𝒕𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆
𝑽𝒆𝒏𝒕𝒂𝒔
𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒄𝒂𝒑𝒊𝒕𝒂𝒍 𝒅𝒆 𝒕𝒓𝒂𝒃𝒂𝒋𝒐 𝒗𝒆𝒄𝒆𝒔 =
𝑪𝒂𝒑𝒊𝒕𝒂𝒍 𝒅𝒆 𝒕𝒓𝒂𝒃𝒂𝒋𝒐

𝑪𝒊𝒄𝒍𝒐 𝒐𝒑𝒆𝒓𝒂𝒄𝒊𝒐𝒏𝒂𝒍
= 𝑷𝒆𝒓𝒊𝒐𝒅𝒐 𝒅𝒆 𝒓𝒆𝒄𝒂𝒖𝒅𝒐 𝒅𝒆 𝒄𝒂𝒓𝒕𝒆𝒓𝒂 + 𝑷𝒆𝒓𝒊𝒐𝒅𝒐 𝒅𝒆 𝒓𝒆𝒑𝒐𝒔𝒊𝒄𝒊ó𝒏 𝒅𝒆 𝒊𝒏𝒗𝒆𝒏𝒕𝒂𝒓𝒊𝒐𝒔

9
Razones de endeudamiento o
apalancamiento
𝑻𝒐𝒕𝒂𝒍 𝒑𝒂𝒔𝒊𝒗𝒐
𝑬𝒏𝒅𝒆𝒖𝒅𝒂𝒎𝒊𝒆𝒏𝒕𝒐 𝒕𝒐𝒕𝒂𝒍 % =
𝑻𝒐𝒕𝒂𝒍 𝒂𝒄𝒕𝒊𝒗𝒐

𝑻𝒐𝒕𝒂𝒍 𝒑𝒂𝒔𝒊𝒗𝒐
𝑳𝒆𝒗𝒆𝒓𝒂𝒈𝒆 % =
𝑪𝒂𝒑𝒊𝒕𝒂𝒍 𝒄𝒐𝒏𝒕𝒂𝒃𝒍𝒆
𝑷𝒂𝒔𝒊𝒗𝒐 𝒄𝒐𝒓𝒓𝒊𝒆𝒏𝒕𝒆
𝑪𝒐𝒏𝒄𝒆𝒏𝒕𝒓𝒂𝒄𝒊ó𝒏 (%) =
𝑻𝒐𝒕𝒂𝒍 𝒑𝒂𝒔𝒊𝒗𝒐

𝑪𝒂𝒑𝒊𝒕𝒂𝒍 𝒄𝒐𝒏𝒕𝒂𝒃𝒍𝒆 + 𝑷𝒂𝒔𝒊𝒗𝒐 𝒍𝒂𝒓𝒈𝒐 𝒑𝒍𝒂𝒛𝒐


𝑭𝒊𝒏𝒂𝒏𝒄𝒊𝒂𝒄𝒊ó𝒏 𝒂 𝒍𝒂𝒓𝒈𝒐 𝒑𝒍𝒂𝒛𝒐 % =
𝑻𝒐𝒕𝒂𝒍 𝒂𝒄𝒕𝒊𝒗𝒐

𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒂𝒏𝒕𝒆𝒔 𝒅𝒆 𝒊𝒎𝒑𝒖𝒆𝒔𝒕𝒐𝒔 + 𝑮𝒂𝒔𝒕𝒐 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒆𝒔


𝑪𝒖𝒃𝒓𝒊𝒎𝒊𝒆𝒏𝒕𝒐 𝒗𝒆𝒄𝒆𝒔 =
𝑮𝒂𝒔𝒕𝒐 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒆𝒔

𝑬𝑩𝑰𝑻𝑫𝑨
𝑪𝒖𝒃𝒓𝒊𝒎𝒊𝒆𝒏𝒕𝒐 𝒗𝒆𝒄𝒆𝒔 =
𝑮𝒂𝒔𝒕𝒐 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒆𝒔

10
Razones de rentabilidad o rendimiento
𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒃𝒓𝒖𝒕𝒂
𝑴𝒂𝒓𝒈𝒆𝒏 𝒃𝒓𝒖𝒕𝒐 (%) =
𝑽𝒆𝒏𝒕𝒂𝒔
𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒐𝒑𝒆𝒓𝒂𝒄𝒊𝒐𝒏𝒂𝒍
𝑴𝒂𝒓𝒈𝒆𝒏 𝒐𝒑𝒆𝒓𝒂𝒄𝒊𝒐𝒏𝒂𝒍 % =
𝑽𝒆𝒏𝒕𝒂𝒔
𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒏𝒆𝒕𝒂
𝑴𝒂𝒓𝒈𝒆𝒏 𝒏𝒆𝒕𝒐 % =
𝑽𝒆𝒏𝒕𝒂𝒔

𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒏𝒆𝒕𝒂
𝑹𝒆𝒏𝒕𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝒂𝒄𝒕𝒊𝒗𝒐 % = 𝑹𝑶𝑰 =
𝑨𝒄𝒕𝒊𝒗𝒐 𝒕𝒐𝒕𝒂𝒍
𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒏𝒆𝒕𝒂
𝑹𝒆𝒏𝒕𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝒑𝒂𝒕𝒓𝒊𝒎𝒐𝒏𝒊𝒐 % = 𝑹𝑶𝑬 =
𝑷𝒂𝒕𝒓𝒊𝒎𝒐𝒏𝒊𝒐
𝑳𝒆𝒗𝒆𝒓𝒂𝒈𝒆 = 𝑹𝑶𝑬 − 𝑹𝑶𝑰

𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒏𝒆𝒕𝒂 𝑽𝒆𝒏𝒕𝒂𝒔 𝑨𝒄𝒕𝒊𝒗𝒐𝒔


Í𝒏𝒅𝒊𝒄𝒆 𝑫𝒖𝒑𝒐𝒏𝒕 = 𝑹𝑶𝑬 = × ×
𝑽𝒆𝒏𝒕𝒂𝒔 𝑨𝒄𝒕𝒊𝒗𝒐𝒔 𝑷𝒂𝒕𝒓𝒊𝒎𝒐𝒏𝒊𝒐
𝑷𝒂𝒔𝒊𝒗𝒐
Í𝒏𝒅𝒊𝒄𝒆 𝑫𝒖𝒑𝒐𝒏𝒕 = 𝑹𝑶𝑬 = 𝑴𝒂𝒓𝒈𝒆𝒏 𝒏𝒆𝒕𝒐 × 𝑹𝒐𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒂𝒄𝒕𝒊𝒗𝒐 × (𝟏 + )
𝑷𝒂𝒕𝒓𝒊𝒎𝒐𝒏𝒊𝒐

11
Razones sobre dividendos y acciones

𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝒑𝒆𝒓𝒊𝒐𝒅𝒐


𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒑𝒐𝒓 𝒂𝒄𝒄𝒊ó𝒏 =
𝑵º 𝒅𝒆 𝒂𝒄𝒄𝒊𝒐𝒏𝒆𝒔 𝒆𝒏 𝒄𝒊𝒓𝒄𝒖𝒍𝒂𝒄𝒊ó𝒏

𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝒑𝒆𝒓𝒊𝒐𝒅𝒐


𝑹𝒆𝒏𝒕𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒑𝒐𝒓 𝒂𝒄𝒄𝒊ó𝒏 % =
𝑵º 𝒂𝒄𝒄𝒊𝒐𝒏𝒆𝒔 𝒆𝒏 𝒄𝒊𝒓𝒄𝒖𝒍𝒂𝒄𝒊ó𝒏 × 𝒗𝒂𝒍𝒐𝒓 𝒄𝒐𝒎𝒆𝒓𝒄𝒊𝒂𝒍 𝒅𝒆 𝒍𝒂 𝒂𝒄𝒄𝒊ó𝒏

12
Estados de fuentes y usos de fondos

EBITDA
Ventas
- Costo de ventas
= UTILIDAD BRUTA
- Gastos de Administración
- Gastos de Ventas
= UTILIDAD OPERATIVA
+ Depreciaciones y amortizaciones
= EBITDA

13
Estados de fuentes y usos de fondos

VARIACIÓN KTNO

+ Variación CxC + (CxC 2 - CxC 1)

+ Variación Inventarios + (Inv 2 - Inv 1)

- Variación CxP - (CxP 2 - CxP 1)

- Variación Gastos x pagar - (GxP 2 - GxP 1)

14
Estados de fuentes y usos de fondos
NOPAT + depreciación
capital trabajo operacional (KTO)
Inversión de capital (IC)
Variación KTO
Variación IC
Flujo de caja Libre (FCL)
Deuda corto plazo (DFCP)
Deuda largo plazo
Gasto financiero - imp.
Variación DFCP
Variación DFLP
Flujo de caja para capital (FCC)
Capital
Dividendos
Variación capital
Flujo de caja para inversión
Inversiones
Variación inversiones
Ingresos Financieros - imp.
Variación de caja de año
Caja Inicial
Caja Final

15
La pregunta del millón

¿Cómo podemos determinar a priori si una empresa


va a quebrar en determinado horizonte de tiempo?

Nuestra respuesta: modelos

16
Modelo de Altman Z-score
 capital circulante   Reservas   BAIT 
Z  1.2  1.4  3.3
 Activo Total   Activo Total   Activo Total 
 Valor mercado FFPP   Ventas 
 0.6    1.0  
 Valor contable deuda   Activo total 
• Se basa en una muestra de empresas que cotizan en bolsa
• Altman sugiere que debe sumarse el leasing operativo a la deuda
• Puntos de corte:
• Z < 1.81 (alto riesgo de quiebra)
• Z > 3.00 (bajo riesgo)
• 1.81 < Z < 3.00 (“área gris”)
17
Evaluación: Matriz de confusión
Predicción
Observados

No Quiebra Quiebra

Verdadero
No Quiebra Negativo
Falso Positivo

Falso Verdadero
Quiebra Negativo Positivo

18
Errores
Error tipo I: Clasificar a una empresa en ‘baja probabilidad
de quiebra’ cuando está en quiebra

Error Tipo II: Clasificar una empresa en ‘alta probabilidad


de quiebra’ cuando no está en quiebra

Equilibrio entre los errores Tipo I y Tipo II: elegir un punto


de corte que minimice el coste de los errores

19
Indicadores utilizados
• Liquidez. • Retornos sobre equity.
• Rentabilidad. • Price to book ratio.
• Apalancamiento. • Valor de mercado.
• Activos totales. • Precio de la acción.
• Retornos sobre activos. • Crecimiento en el número
• Ventas. de empleados.
• Crecimiento en ventas.
• Márgenes operacionales.

20
Indicadores utilizados

• Razón corriente. • Rentabilidad del


• Prueba acida. patrimonio.
• Razón de liquidez. • Rentabilidad de activos.
• Endeudamiento. • Leverage corto plazo.
• Días de periodo de cobro. • Leverage largo plazo.
• Rotación de activos.
• Margen neto.

21
Algoritmos de Machine Learning (ML)
• Dentro de la metodologías estadísticas y de ML se
encuentran métodos Supervisados y no supervisados.

• Esta división hace referencia a si el método que se va a


utilizar tiene una variable repuesta ya sea para ser
pronosticada, explicada o clasificada, en este caso es
Supervisado.

• Cuando no se cuenta con variable respuesta, son


técnicas no Supervisadas que buscan estructuras al
interior de los datos.
22
Esquema de Recolección de
Información
Variables Variable
Explicativas Respuesta

23
Variables Respuesta

• Para la ocurrencia de los eventos podemos


definir la variable Objetivo:

• Variable Dicotómica: 0 y 1 referenciando la


ocurrencia del evento. (También se puede usar
variable politómica con mas de dos categorías).

24
El Problema
• Existen dos tipos de problemas:

• Clasificación

• Pronóstico

• Recordemos también que los métodos


pueden ser Supervisados y No Supervisados

25
El Problema

Supervisado No supervisado

Exploratorios
Clasificación Predictivos / /Segmentación
/Perfilación

Pronóstico Predictivos o
N/A
(Explicación) Explicativos

26
Método FactoClass

Modelos
Clasificación
27
Metodologías
• Dentro de la metodologías estadísticas y de ML se
encuentran métodos Supervisados y no supervisados.

• Esta división hace referencia a si el método que se va a


utilizar tiene una variable repuesta ya sea para ser
pronosticada, explicada o clasificada, en este caso es
Supervisado.

• Cuando no se cuenta con variable respuesta, son técnicas


no Supervisadas que buscan estructuras al interior de los
datos.

28
Metodologías

• Árboles Decisión
• Regresión Logística
• Regresión Multinomial
• KNN
• Redes Neuronales
• Random Forest
• Support Vector Machine SVM

29
Árboles de Decisión

• Son modelos predictivos Supervisados en los


cuales se predice la variable respuesta en función
de variables explicativas.

• Se realizan cortes (Split) sobre las variables


explicativas en función de encontrar categorías
(Nodos) que logren una diferenciación de la
variable respuesta.

30
Árboles de Decisión

• La variable respuesta puede ser categórica o


continua.

• Existen diferentes metodologías para la


construcción de arboles de Decisión basadas en
la medida de correlación, dependencia o
independencia y las medidas de distancia.

31
32
Regresión Logística
• Se parte de una variable con distribución de
probabilidad binomial. Se desea conocer la probabilidad
de ocurrencia a través de un conjunto de variables
explicativas. La forma del modelo de regresión logístico
es:

33
Ejemplo
é Deuda Total ù
Z = -1.32 - 0.407 [ tamaño] + 6.03ê
ë ActivoTotal úû

é Capital circulante ù é Pasivo circulante ù


-1.43ê ú + 0.0757ê
ë Activo Total û ë Activo Circulante úû

é Bº Neto ù é Flujo Caja de Operaciones ù


-2.37ê ú -1.83ê úû
ë Activo Total û ë Deuda Total

é 1 si el beneficio neto fue negativo en los dos últimos años ù


+0.285ê ú
êë 0 si el beneficio neto no fue negativo en los dos últimos años úû

é 1 si deuda total es mayor que activo total ù


-1.72 ê ú
êë 0 si deuda total no es mayor que activo total úû

é Cambio en el beneficio neto ù


-0.521ê ú
ë Suma del valor absoluto de los beneficios netos del ejercicio actual y anterior û

34
Regresión Multinomial
• Utiliza los conceptos de la regresión logística pero en
este caso la variable respuesta tiene múltiples
categorías. En este caso utiliza la función multinomial
para estimar la probabilidad de pertenecer a una
categoría.

35
KNN
• Para hablar de clasificación partamos de un principio básico:
Las cosas que son parecidas tienen propiedades parecidas

• Los algoritmos de machine learning usan este principio para


clasificar datos

• En una misma categoría son clasificados elementos similares, o


vecinos m ́as cercanos

36
kNN
• El algoritmo de vecino más cercano más
popular es el kNN (k Nearest Neighbor)

• Tiene tres grandes ventajas:


• 􏰀 Simple y efectivo
• 􏰀 No hace supuestos sobre la distribución de los
datos
• 􏰀 Fase rápida de entrenamiento

37
kNN
• Pero también tiene desventajas:

• 􏰀 No produce un modelo, luego es difícil establecer la


relación entre variables
• 􏰀 Requiere la selección apropiada de k
• 􏰀 Fase de clasificación lenta
• 􏰀 Características nominales y datos ausentes requieren
procesamiento adicional

38
Redes Neuronales

• Una estructura neuronal se le denomina a un


conjunto de nodos que se asemejan a las
neuronas, unas capas de procesamiento y
sus conexiones, las cuales simulan el proceso
de comunicación de las neuronas, la sinapsis.

39
Redes Neuronales

• Según el tipo de conexiones se pueden clasificar en No


Recurrentes y Recurrentes.
• Las redes No Recurrentes se caracterizan por no contar
con mecanismos de retroalimentación, de tal manera
que no tienen memoria.
• Las redes Recurrentes, en cambio, pueden presentar
conexiones entre neuronas de diferentes capas o entre
neuronas de una misma capa, o incluso conexiones en
la misma neurona.

40
Redes Neuronales

41
Funciones de Activación de las
Redes

42
Random Forest

• Esta técnica construye varios arboles de


decisión basados en el mismo conjunto de
datos.
• Selecciona un grupo de variables de manera
aleatoria y construye un árbol.
• Finalmente construye muchos arboles
aleatorios formando un bosque aleatorio.

43
Random Forest
Para cada áŕ roo individual del bosque, el método hace lo
siguiente:

• Extrae una muestra bootstrap de los datos de entrenamiento


• Para cada muestra, construye un árbol de decisión. En cada
nodo del árbol:

• i) Selecciona aleatoriamente un subconjunto de variables del total


de características disponibles
• ii) Selecciona la mejor variable y el mejor Split de ese subconjunto
de características
• iii) Continua hasta que el árbol crece por completo
44
Random Forest
• La heurística es tomar m = √p, donde p es e numero
total de variables
• Afortunadamente, los resultados no son muy sensibles
a la cantidad de variables seleccionadas
• Valores menores hacen que los arboles crezcan mas
rápido
• Pero si hay muchas variables pero solo pocas son útiles,
seleccionar mas aumenta la probabilidad de escoger
las que sirven

45
Support Vector Machine SVM

• Se busca crear una superficie que divida el espacio


que contiene los objetos a clasificar
• De tal forma que cada partición sea o m ́as
homogénea posible
• Dicha superficie, que genera la frontera entre
clases, es un hiperplano

46
Support Vector Machine SVM

• Muy utilizado para tareas de clasificación


• Pero que también ha sido usado para
predicción numérica
• Support Vector Machine es un método que
ha ganado popularidad en los últimos
tiempos
• A pesar de ser un modelo de “caja negra”

47
Support Vector Machine

48
Support Vector Machine

• Consideremos el siguiente ejemplo


Queremos clasificar ciertos lugares como
soleados o nevosos Y los caracterizamos en
dos dimensiones: latitud y longitud En estas
dos dimensiones no hay separabilidad lineal

49
Support Vector Machine

50
Support Vector Machine

• Existen diversas funciones utilizadas en la


práctica Kernel lineal, polinomial,
sigmoidal, gaussiana RBF ¿Cúal usar? Aquí
la práctica es muy de ensayo y error.

51

También podría gustarte