Big Data en La Industria de Las Telecomunicaciones TELEFONICA

Big Data en la industria de las
telecomunicaciones
Casos de uso prácticos apalancados por
analítica avanzada
Mg. Alejandro M. Salevsky

Lic. Diego Tassara
Ing. Claudio Lupi
1. Para qué Big Data en una Telco?
2. Caso de uso 1: Smart Cities
3. Caso de uso 2: Score avanzado de riesgo
Volumen mensual de Información
Big Data_
800
EXABYTES
80
EXABYTES
20
EXABYTES
2400
800 PETABYTES
200 TERABYTES
TERABYTES
1995 2000 2005 2010

2010 2015 2020
2020
1995 2000 2005 2015
42K llamados /
sms
830K sesiones de 4,2K Palabras por

datos móvil minuto
1.2 MM peticiones a
servidores
Network
Analytics
4ta Revenue
Plataforma Assurance
Risk
Monetización Management
Externa
Marketing en
Calidad/Exper tiempo real
iencia
Operaciones Channel
Analytics
Business
Analytics
Una mirada conceptual de arquitectura de Big Data
Interaction Channels
Internal channels 3rd party channels
INTERNAL
LUCA
USE CASES
AURA
1995 2000 PERSONAL DATA SPACE 2010

2005 2015 2020
ENABLERS – DATA, APIs, TECHNOLOGY (D.A.T.)
2nd Platf.
3rd Platf.
1st Platf.
1. Conectividad
2. Personas 3. Cosas
4. IA
5. Blockchains
1.
Conectividad
52% de la población mundial con cobertura de

internet en 2020
2. Personas
2. Personas
+
25B de dispositivos conectados en el 2020
3. Cosas
4. AI
El avance significativo en el poder de procesamiento de datos ha dado lugar en los
últimos años a una nueva generación de estadística llamada “Machine Learning”… 4. AI
Evolución de algoritmos estadísticos

Big Data native stats
(Machine Learning)
▪ Support Vector Machines
▪ Gradient Boosting (GBM)
Classical stats (pre Big Data era) ▪ Boltzmann Machines Velocidad de
▪ Learning Vector Quantization
(LVQ)
Procesamiento +
▪ Random Forest Explosión de
▪ Adaboost
▪ FP-growth
datos
▪ AprioriDP
▪ OPUS
▪ CBPNARM
▪ Multi-armed bandits
▪ ….
Netflix
1795 1810 1906 1943 1946 1957 1973 2000 … hoy Google
Amazon
Waze
…
Gauss Von Neumann Morgan Breiman
Diversas áreas e industrias están y serán impactadas por la IA. Por ejemplo:
4. AI
Automotriz Salud
1 GB / s de procesamiento de 55% de crecimiento de IoT

datos 2013-2018
Ultimo (y no menor) tema: La Privacidad
Pero va a ser
relevante!
Cómo transformar datos
en insights para una
ciudad inteligente?
LOS INSIGHTS TRADICIONALES SON INSUFICIENTES PARA LAS NUEVAS DEMANDAS
Depende de si el
usuario tiene la
4 1 Muestras pequeñas,
comportamiento
aplicación descargada y APPS ENCUESTAS
declarado, poco
los servicios de ágil y caro.
localización activados.
Muestra sesgada
Depende de que el WIFI Infraestructura cara

SENSORES Y
usuario tenga el BEACONS CAMARAS para instalar, falta
información de
WiFi encendido.
Muestra sesgada. 3 2 perfilado y
procedencia.
19
INPUTS GENERADOS
Zonificación
Zonificación
Viajes Estadías
POI Motivo
Medio
20
INPUTS GENERADOS
Viajes - Estadías
Zonificación
Viajes Estadías
POI Motivo
Medio
21
INPUTS GENERADOS
Motivo de viaje
Zonificación
Viajes Estadías
POI Motivo
Medio
22
INPUTS GENERADOS
Motivo de viaje
Zonificación
Viajes Estadías
POI Motivo
Medio
23
¿CÓMO SE PROCESA LA INFORMACIÓN QUE SE ALMACENA EN LA PLATAFORMA SMART STEPS?
PROCESO
OBTENCIÓN
DE
INFORMACIÓN
EXTRACCIÓN ANONIMIZACIÓN EXTRAPOLACIÓN AGREGACIÓN
Se extrae la información Todos los datos Una vez anonimizados, se Una vez anonimizados y
de los sistemas de red personales se eliminan y extrapolan, de modo que extrapolados se agregan
sobre cada se reemplazan por un se pueden establecer de modo que se cumplan
desplazamiento identificador que impide conclusiones sobre la las restricciones
(usuario móvil) y su dar marcha atrás. población total (no solo impuestas por la
localización en cada clientes de Telefónica) Dirección Nacional de
celda Protección de Datos de
Argentina.
32 100
% %
92% 45
%
Usuario Población
Se eliminan los datos personales Usuarios Nacionales Hombres
Movistar total
Localización y datos
del usuario
LA SOLUCIÓN LUCA TRANSPORTE PROVEE INFORMACIÓN AGREGADA DE ALTO VALOR
La información recogida y procesada en LUCA TRANSPROTE genera una Matriz
Origen - Destino con los siguientes atributos:
DÍA Y FRANJA HORARIA MODO FRECUENCIA

Discriminando por día de la semana y Por carretera, tren, barco o avión para del desplazamiento diferenciando entre esporádicos
hora del día desplazamientos de más de 50Km y habituales
MOTIVO
Movilidad ocupacional, movilidad
personal, vuelta a casa ocupacional y
VOLUMEN DE vuelta a casa personal
DESPLAZAMIENTOS
Trabajamos con distintos niveles
geográficos: barrio, distrito, municipio,
provincia, comunidad autónoma o
agregaciones de secciones censales PERFIL DEL USUARIO
Género, edad, lugar de residencia
nivel socioeconómico
CASO DE ÉXITO: LUCA TRANSPORTE- MUNICIPALIDAD DE NEUQUÉN
VIZUALIZACIÓN EN MAPA DE LA LINEAS DE VIAJES

MAPAS DE CALOR DE LAS ZONAS
POBLACIÓN EXISTENTE (Casa – Trabajo)
Producción de viajes por zona

19,189 360,207
80,191
30,499
68,775
27,960 8,098
30,213
37,040
17,651
22,087
18,504
1 2 3 4 5 6 7 8 9 10 11 Total
Cómo crear un score de
riesgo con Big Data?
Agenda
• Modelo actual: Universo scoreable, metodología del

cálculo, variables. Análisis de sensibilidad.
• iScore: Generalidades del proyecto, visión del cálculo,

estado general del proyecto.
29
1.- Modelo actual: marco conceptual
 Tipo de modelo: Modelo basado en metodología de credit risk
scorecard.
 Período de análisis: Últimos 6 meses.
 Universo scoreable: Clientes móviles individuos pospagos con 3 o más

facturas emitidas en el periodo de análisis.
 Frecuencia: 1 vez al mes.
 Target 1: Clientes morosos.
 Score modelo: El modelo arroja valores en el rango de 100 a 950.

 Cálculo:
Score = 104 + 𝑓 𝑥1 , 𝑥2 , … , 𝑥𝑁 = 104 + 𝑓1 𝑥1 + 𝑓2 𝑥2 + ⋯ + 𝑓𝑁 𝑥𝑁
Piso Variables Cada variable aporta al score de

base forma independiente de las demás.
30
1.- Modelo actual: variables principales
 Débito automático
 Antigüedad
 Facturación promedio
 Zona geográfica de facturación.
 Velocidad de crecimiento ascendente de facturación
 Promedio de diferencia de días entre fecha de pago y de vencimiento de c/factura
 Suspensiones por falta de pago
 Porcentaje de saldo adeudado a 30 días del vencimiento.
31
1.- Modelo actual: análisis de sensibilidad – Cambio de terminales financiados contra factura
CATERS EFECTIVOS:
 Este concepto hace referencia a considerar los 2 escenarios que
enfrentamos en las operaciones de CATER.
 CATER NO MOROSO: operación de cater abonado. A nivel cantidad,
suma en 1 unidad.
 CATER MOROSO: operación de cater no abonado. A nivel cantidad, resta
tantas veces como operaciones de CATER NO MOROSOS son necesarias
para cubrir el costo en el que se incurrió al no cobrar la venta del
terminal. Costo
 C. CATER MOROSO= C.D. DEL TERMINAL + C.O. DEL BENEFICIO
 Para ser comparado con un CATER NO MOROSO, lo dividimos por su
margen bruto, y definimos así los #CATERS EFECTIVOS:
#𝐶𝐴𝑇𝐸𝑅𝑆 𝑀𝑂𝑅𝑂𝑆𝑂𝑆
#𝐶𝐴𝑇𝐸𝑅𝑆 𝐸𝐹𝐸𝐶𝑇𝐼𝑉𝑂𝑆 = #𝐶𝐴𝑇𝐸𝑅𝑆 𝑁𝑂 𝑀𝑂𝑅𝑂𝑆𝑂𝑆 −
𝑀𝐴𝑅𝐺𝐸𝑁 𝐵𝑅𝑈𝑇𝑂
32
1.- Modelo actual: análisis de sensibilidad – Cambio de terminales financiados contra factura
SIMULACIÓN DE CAMBIO DE UMBRAL CF (Actual Score 500)
 Haremos una simulación donde se hará un barrido del score umbral

para la habilitación de cambio de terminal con pago contra factura
(actual score 500).
 El score umbral lo haremos variar desde 100 a 750.
 Para cada caso, supondremos que los clientes por arriba del score
umbral, harán cater CF en la misma proporción incremental que lo
hacen los actuales clientes con Score ≥ 500.
400 500
Score
Nuevo umbral El X% de este universo hace CATER.
A los que ya hacían CATER de este
universo, les agregamos el Z% Un Y% más que el resto del parque
que harán CATER con PCF. (Z% por PCF y el W% por NSE).
 Pero en esa misma proporción, entrarán en mora los clientes que hacen
caters incrementales.
33
2.- iScore – El modelo adaptativo
ENTRADA SALIDA
Variables duras Variables de SMS
Clientes scoreables:
• Antigüedad • Q SMS entrantes y
• Activos con más de 3
• Edad salientes
•
•
Zona vivienda
Zona trabajo
• Entropía diaria de
SMS
iScore facturas en los últimos 6
meses.
Score = __ __ __
Variables de pago Variables de Datos
• ARPU • MB navegados
Ensamble de modelos: Indicador para Score indicando
• Recargas • Entropía diaria de marcar clientes probabilidad de
• Días de mora datos • XGBoost morosos, fraude, NO morosidad
prepagos, durante el mes en
• Q moras mes de • Random Forest control, full, curso.
antigüedad
Variables de Movilidad • Regresión Logística habilitado a 00 -> 0%: Mal pagador
• Días desde financiación 99 -> 99%: Buen pagador
• KMs recorridos contra factura,
última mora etc
• Factura sin papel • Entropía diaria de Fase 1:
• Método de pago distancia Entrenamiento Ej. Cliente control = 367
• Q suspensiones
por falta de pago Fase 2: Relativamente buen
Variables de SNA Validación pagador, tiene un 67%
(3 indica cliente
• Q clientes con control) de probabilidad de no
Variables de voz mismo rango de Fase 3: caer en MORA.
• Q llamadas score con los que Scoring

entrantes y interactúa el
salientes cliente.
Clientes no-scoreables:
• Minutos entrantes y • Score promedio de • Activos con menos de 3
salientes de todos los clientes facturas en los últimos 6
• Entropía diaria de con los que meses.
voz interactúa el • Inactivos y Suspendidos
cliente.
Recalibración mensual automática
34

Big Data en La Industria de Las Telecomunicaciones TELEFONICA

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data en La Industria de Las Telecomunicaciones TELEFONICA

Cargado por

Copyright:

Formatos disponibles

Big Data en la industria de las

Mg. Alejandro M. Salevsky

1995 2000 2005 2010

830K sesiones de 4,2K Palabras por

1995 2000 PERSONAL DATA SPACE 2010

52% de la población mundial con cobertura de

Evolución de algoritmos estadísticos

1 GB / s de procesamiento de 55% de crecimiento de IoT

Depende de que el WIFI Infraestructura cara

DÍA Y FRANJA HORARIA MODO FRECUENCIA

VIZUALIZACIÓN EN MAPA DE LA LINEAS DE VIAJES

Producción de viajes por zona

• Modelo actual: Universo scoreable, metodología del

• iScore: Generalidades del proyecto, visión del cálculo,

 Universo scoreable: Clientes móviles individuos pospagos con 3 o más

 Score modelo: El modelo arroja valores en el rango de 100 a 950.

Piso Variables Cada variable aporta al score de

 Zona geográfica de facturación.

 Velocidad de crecimiento ascendente de facturación

 Promedio de diferencia de días entre fecha de pago y de vencimiento de c/factura

 Suspensiones por falta de pago

 Porcentaje de saldo adeudado a 30 días del vencimiento.

SIMULACIÓN DE CAMBIO DE UMBRAL CF (Actual Score 500)

 Haremos una simulación donde se hará un barrido del score umbral

• Q llamadas score con los que Scoring

Recalibración mensual automática

También podría gustarte