Está en la página 1de 34

Big Data en la industria de las

telecomunicaciones
Casos de uso prácticos apalancados por
analítica avanzada

Mg. Alejandro M. Salevsky


Lic. Diego Tassara
Ing. Claudio Lupi
1. Para qué Big Data en una Telco?
2. Caso de uso 1: Smart Cities
3. Caso de uso 2: Score avanzado de riesgo
Volumen mensual de Información

Big Data_
800
EXABYTES

80
EXABYTES
20
EXABYTES
2400
800 PETABYTES
200 TERABYTES
TERABYTES

1995 2000 2005 2010


2010 2015 2020
2020
1995 2000 2005 2015
42K llamados /
sms

830K sesiones de 4,2K Palabras por


datos móvil minuto

1.2 MM peticiones a
servidores
Network
Analytics
4ta Revenue
Plataforma Assurance

Risk
Monetización Management
Externa

Marketing en
Calidad/Exper tiempo real
iencia

Operaciones Channel
Analytics
Business
Analytics
Una mirada conceptual de arquitectura de Big Data
Interaction Channels
Internal channels 3rd party channels
INTERNAL
LUCA
USE CASES

AURA

1995 2000 PERSONAL DATA SPACE 2010


2005 2015 2020
ENABLERS – DATA, APIs, TECHNOLOGY (D.A.T.)
2nd Platf.
3rd Platf.

1st Platf.
1. Conectividad

2. Personas 3. Cosas

4. IA

5. Blockchains
1.
Conectividad

52% de la población mundial con cobertura de


internet en 2020
2. Personas
2. Personas

+
25B de dispositivos conectados en el 2020

3. Cosas
4. AI
El avance significativo en el poder de procesamiento de datos ha dado lugar en los
últimos años a una nueva generación de estadística llamada “Machine Learning”… 4. AI

Evolución de algoritmos estadísticos


Big Data native stats
(Machine Learning)
▪ Support Vector Machines
▪ Gradient Boosting (GBM)
Classical stats (pre Big Data era) ▪ Boltzmann Machines Velocidad de
▪ Learning Vector Quantization
(LVQ)
Procesamiento +
▪ Random Forest Explosión de
▪ Adaboost
▪ FP-growth
datos
▪ AprioriDP
▪ OPUS
▪ CBPNARM
▪ Multi-armed bandits
▪ ….
Netflix
1795 1810 1906 1943 1946 1957 1973 2000 … hoy Google
Amazon
Waze

Gauss Von Neumann Morgan Breiman
Diversas áreas e industrias están y serán impactadas por la IA. Por ejemplo:
4. AI

Automotriz Salud

1 GB / s de procesamiento de 55% de crecimiento de IoT


datos 2013-2018
Ultimo (y no menor) tema: La Privacidad

Pero va a ser
relevante!
Cómo transformar datos
en insights para una
ciudad inteligente?
LOS INSIGHTS TRADICIONALES SON INSUFICIENTES PARA LAS NUEVAS DEMANDAS

Depende de si el
usuario tiene la
4 1 Muestras pequeñas,
comportamiento
aplicación descargada y APPS ENCUESTAS
declarado, poco
los servicios de ágil y caro.
localización activados.
Muestra sesgada

Depende de que el WIFI Infraestructura cara


SENSORES Y
usuario tenga el BEACONS CAMARAS para instalar, falta
información de
WiFi encendido.
Muestra sesgada. 3 2 perfilado y
procedencia.

19
INPUTS GENERADOS

Zonificación

Zonificación

Viajes Estadías

POI Motivo

Medio

20
INPUTS GENERADOS

Viajes - Estadías

Zonificación

Viajes Estadías

POI Motivo

Medio

21
INPUTS GENERADOS

Motivo de viaje

Zonificación

Viajes Estadías

POI Motivo

Medio

22
INPUTS GENERADOS

Motivo de viaje

Zonificación

Viajes Estadías

POI Motivo

Medio

23
¿CÓMO SE PROCESA LA INFORMACIÓN QUE SE ALMACENA EN LA PLATAFORMA SMART STEPS?

PROCESO
OBTENCIÓN
DE
INFORMACIÓN
EXTRACCIÓN ANONIMIZACIÓN EXTRAPOLACIÓN AGREGACIÓN

Se extrae la información Todos los datos Una vez anonimizados, se Una vez anonimizados y
de los sistemas de red personales se eliminan y extrapolan, de modo que extrapolados se agregan
sobre cada se reemplazan por un se pueden establecer de modo que se cumplan
desplazamiento identificador que impide conclusiones sobre la las restricciones
(usuario móvil) y su dar marcha atrás. población total (no solo impuestas por la
localización en cada clientes de Telefónica) Dirección Nacional de
celda Protección de Datos de
Argentina.

32 100
% %
92% 45
%
Usuario Población
Se eliminan los datos personales Usuarios Nacionales Hombres
Movistar total
Localización y datos
del usuario
LA SOLUCIÓN LUCA TRANSPORTE PROVEE INFORMACIÓN AGREGADA DE ALTO VALOR
La información recogida y procesada en LUCA TRANSPROTE genera una Matriz
Origen - Destino con los siguientes atributos:

DÍA Y FRANJA HORARIA MODO FRECUENCIA


Discriminando por día de la semana y Por carretera, tren, barco o avión para del desplazamiento diferenciando entre esporádicos
hora del día desplazamientos de más de 50Km y habituales

MOTIVO
Movilidad ocupacional, movilidad
personal, vuelta a casa ocupacional y
VOLUMEN DE vuelta a casa personal
DESPLAZAMIENTOS
Trabajamos con distintos niveles
geográficos: barrio, distrito, municipio,
provincia, comunidad autónoma o
agregaciones de secciones censales PERFIL DEL USUARIO
Género, edad, lugar de residencia
nivel socioeconómico
CASO DE ÉXITO: LUCA TRANSPORTE- MUNICIPALIDAD DE NEUQUÉN

VIZUALIZACIÓN EN MAPA DE LA LINEAS DE VIAJES


MAPAS DE CALOR DE LAS ZONAS
POBLACIÓN EXISTENTE (Casa – Trabajo)

Producción de viajes por zona


19,189 360,207
80,191

30,499
68,775

27,960 8,098
30,213
37,040
17,651
22,087
18,504

1 2 3 4 5 6 7 8 9 10 11 Total
Cómo crear un score de
riesgo con Big Data?
Agenda

• Modelo actual: Universo scoreable, metodología del


cálculo, variables. Análisis de sensibilidad.

• iScore: Generalidades del proyecto, visión del cálculo,


estado general del proyecto.

29
1.- Modelo actual: marco conceptual
 Tipo de modelo: Modelo basado en metodología de credit risk
scorecard.
 Período de análisis: Últimos 6 meses.

 Universo scoreable: Clientes móviles individuos pospagos con 3 o más


facturas emitidas en el periodo de análisis.
 Frecuencia: 1 vez al mes.
 Target 1: Clientes morosos.

 Score modelo: El modelo arroja valores en el rango de 100 a 950.


 Cálculo:
Score = 104 + 𝑓 𝑥1 , 𝑥2 , … , 𝑥𝑁 = 104 + 𝑓1 𝑥1 + 𝑓2 𝑥2 + ⋯ + 𝑓𝑁 𝑥𝑁

Piso Variables Cada variable aporta al score de


base forma independiente de las demás.
30
1.- Modelo actual: variables principales

 Débito automático

 Antigüedad

 Facturación promedio

 Zona geográfica de facturación.

 Velocidad de crecimiento ascendente de facturación

 Promedio de diferencia de días entre fecha de pago y de vencimiento de c/factura

 Suspensiones por falta de pago

 Porcentaje de saldo adeudado a 30 días del vencimiento.

31
1.- Modelo actual: análisis de sensibilidad – Cambio de terminales financiados contra factura
CATERS EFECTIVOS:
 Este concepto hace referencia a considerar los 2 escenarios que
enfrentamos en las operaciones de CATER.
 CATER NO MOROSO: operación de cater abonado. A nivel cantidad,
suma en 1 unidad.
 CATER MOROSO: operación de cater no abonado. A nivel cantidad, resta
tantas veces como operaciones de CATER NO MOROSOS son necesarias
para cubrir el costo en el que se incurrió al no cobrar la venta del
terminal. Costo
 C. CATER MOROSO= C.D. DEL TERMINAL + C.O. DEL BENEFICIO
 Para ser comparado con un CATER NO MOROSO, lo dividimos por su
margen bruto, y definimos así los #CATERS EFECTIVOS:

#𝐶𝐴𝑇𝐸𝑅𝑆 𝑀𝑂𝑅𝑂𝑆𝑂𝑆
#𝐶𝐴𝑇𝐸𝑅𝑆 𝐸𝐹𝐸𝐶𝑇𝐼𝑉𝑂𝑆 = #𝐶𝐴𝑇𝐸𝑅𝑆 𝑁𝑂 𝑀𝑂𝑅𝑂𝑆𝑂𝑆 −
𝑀𝐴𝑅𝐺𝐸𝑁 𝐵𝑅𝑈𝑇𝑂

32
1.- Modelo actual: análisis de sensibilidad – Cambio de terminales financiados contra factura

SIMULACIÓN DE CAMBIO DE UMBRAL CF (Actual Score 500)

 Haremos una simulación donde se hará un barrido del score umbral


para la habilitación de cambio de terminal con pago contra factura
(actual score 500).
 El score umbral lo haremos variar desde 100 a 750.
 Para cada caso, supondremos que los clientes por arriba del score
umbral, harán cater CF en la misma proporción incremental que lo
hacen los actuales clientes con Score ≥ 500.
400 500
Score
Nuevo umbral El X% de este universo hace CATER.
A los que ya hacían CATER de este
universo, les agregamos el Z% Un Y% más que el resto del parque
que harán CATER con PCF. (Z% por PCF y el W% por NSE).

 Pero en esa misma proporción, entrarán en mora los clientes que hacen
caters incrementales.

33
2.- iScore – El modelo adaptativo
ENTRADA SALIDA
Variables duras Variables de SMS
Clientes scoreables:
• Antigüedad • Q SMS entrantes y
• Activos con más de 3
• Edad salientes


Zona vivienda
Zona trabajo
• Entropía diaria de
SMS
iScore facturas en los últimos 6
meses.
Score = __ __ __
Variables de pago Variables de Datos
• ARPU • MB navegados
Ensamble de modelos: Indicador para Score indicando
• Recargas • Entropía diaria de marcar clientes probabilidad de
• Días de mora datos • XGBoost morosos, fraude, NO morosidad
prepagos, durante el mes en
• Q moras mes de • Random Forest control, full, curso.
antigüedad
Variables de Movilidad • Regresión Logística habilitado a 00 -> 0%: Mal pagador
• Días desde financiación 99 -> 99%: Buen pagador
• KMs recorridos contra factura,
última mora etc
• Factura sin papel • Entropía diaria de Fase 1:
• Método de pago distancia Entrenamiento Ej. Cliente control = 367
• Q suspensiones
por falta de pago Fase 2: Relativamente buen
Variables de SNA Validación pagador, tiene un 67%
(3 indica cliente
• Q clientes con control) de probabilidad de no
Variables de voz mismo rango de Fase 3: caer en MORA.

• Q llamadas score con los que Scoring


entrantes y interactúa el
salientes cliente.
Clientes no-scoreables:
• Minutos entrantes y • Score promedio de • Activos con menos de 3
salientes de todos los clientes facturas en los últimos 6
• Entropía diaria de con los que meses.
voz interactúa el • Inactivos y Suspendidos
cliente.

Recalibración mensual automática

34

También podría gustarte