Documentos de Académico
Documentos de Profesional
Documentos de Cultura
transporte metropolitano
Potenciando el valor de los datos
PRAGMA CONSULTORES
Contenido
La emergencia de Big Data................................................................................................................ 3
Un nuevo rol: Data Scientist .......................................................................................................... 3
El caso de la tarjeta SUBE .................................................................................................................. 4
Una empresa dentro del sistema SUBE ........................................................................................ 4
Los datos de la empresa ................................................................................................................ 4
Comprensin y anlisis de los datos ................................................................................................ 5
Cundo se suben los pasajeros? ................................................................................................... 5
En la bsqueda del viajero frecuente ............................................................................................ 7
La huella digital de cada lnea ........................................................................................................ 8
El tiempo para volver a casa .......................................................................................................... 9
La distribucin en el espacio........................................................................................................ 10
Combinando la informacin espacial y temporal ....................................................................... 11
El valor para el negocio del anlisis de datos ................................................................................ 12
Algunas lecciones aprendidas sobre Big Data ............................................................................... 13
Conclusiones .................................................................................................................................... 14
Un nuevo rol aparece hoy como clave: lo desarrollan personas, o ms usualmente equipos
integrando profesionales en matemticas y estadsticas, dominio de la programacin, ciencias
de la computacin y capacidad de adquirir conocimiento del dominio de aplicacin. Es el rol del
Data Scientist.
El equipo de ciencia de datos
tambin debe tener la Prosumer
Estadstica (+
capacidad y los Dominio de
machine learning)
conocimientos necesarios aplicacin
para comunicar sus hallazgos
a medida que los tiene, no Equipo
slo al rea de tecnologa multidisciplinario
sino tambin al negocio.
En este domino no hay otras Almacenamiento y
reglas de oro que las de la procesamiento Procesos de
ciencia y el enfoque en el Datos captura
valor para el cliente. Cada
conjunto de datos es hoy un
lienzo en blanco y se debe
factorizar los procesos y el desarrollo para garantizar la extraccin del valor de los datos.
Para responder a la aparicin de Big Data y el nuevo rol que se abre, Pragma Consultores
conform un grupo interdisciplinario de Data Science con competencias que van de la
infraestructura y proceso de captura y almacenamiento de datos al anlisis estadstico, con
capacidades propias para interactuar con los actores del negocio.
Los datos que nos brindaron son la venta de boletos, y la geolocalizacin de los internos para el
perodo que va de noviembre del 2011 a abril de 2014, lo que resulta en 40 MM de boletos y 150
MM de geolocalizaciones.
Como en las dems empresas de la red de uso, los datos de los boletos son generados en cada
interno, que cuenta con un lector de tarjetas SUBE de cual debita cada uso, datos que son
descargados a un concentrador al final del da por medio de WiFi, al mismo tiempo que se
actualizan sus parmetro. El concentrador almacena los datos localmente para fiscalizar la venta,
y los enva a Nacin Servicios, que en un plazo fijado deposita el importe en el Banco Nacin.
El lector de tarjetas cuenta con un GPS, pero la informacin que genera no est disponible para
la empresa de transporte. La empresa contrat un servicio de seguimiento que brinda la
geolocalizacin GPS a cada interno, que es enviada cada minuto por telefona mvil a la empresa
proveedora del servicio.
Una de las primeras cuestiones tratadas es cundo se compran los boletos. Esto puede
analizarse en al menos dos dimensiones: la escala organizacional (por unidad en la Ilustracin 8,
ramal, lnea o la empresa toda en las Ilustraciones 1 y 2) y la escala del tiempo.
El tiempo se analiz en varias escalas: en la primera parte del perodo considerado, para observar
la transicin del pago en monedas previo al SUBE a la nueva modalidad (Ilustraciones 1 y 3), mes
a mes para estudiar la estacionalidad (Ilustracin 2) y a nivel das del mes y de hora del da para
identificar comportamientos de consumo en ciclos ms cortos (Ilustraciones 4 y 5).
Ilustracin 1. Venta de boletos por medio del sistema SUBE desde su implementacin. Se observa en la grfica: la
curva de adopcin, estancamiento inicial. La diferenciacin de tarifas (SUBE o Monedas) implica una masiva
adopcin del sistema. Cada de ventas en fin de semana, paros, verano.
Ilustracin 2. Venta de boletos por sistema SUBE agrupamiento mensual, se hace evidente la estacionalidad de la venta.
Ilustracin 3. Venta de boletos sistema SUBE para interno 3. Se observa que en un da, el sistema estuvo mal configurado
y 2 colectivos fueron ingresados como interno 3, por lo tanto duplic la recaudacin.
Ilustracin 4. Heatmap de venta de boletos sistema SUBE para 1 da. X: Internos, Y: horas [0 hs, 24 hs]. Se observan
colectivos que no trabajaron ese da, hora de inicio de ventas.
Ilustracin 5. Heatmap de venta de boletos sistema SUBE para 1 da. X: Internos, Y: das del mes. Se observan colectivos
que durante un perodo grande en das no trabajaron, fines de semana.
la maana, durante el medioda y por la tarde, coincidiendo con el inicio y el fin de las jornadas
laborales.
Ilustracin 6. Se observa que durante los fines de semana y verano disminuyen los internos circulando.
Ilustracin 7. Cantidad de boletos vendidos por hora a lo largo de 1 da. Permite conocer la hora en la que las personas
empiezan a desplazarse.
Un dato que consideramos relevante estudiar es la frecuencia de uso del sistema de transporte
por cada usuario, que puede verse graficando histogramas de frecuencia de uso de cada tarjeta.
En la Ilustracin 9 un pico muy grande en las tarjetas que se usan una sola vez en esta empresa y
luego una fuerte cada en la cantidad de tarjetas agrupadas por uso. Esta cada es efectivamente
exponencial, como puede verse en la Ilustracin 10, que est en escala logartmica. La Ilustracin
11 se grafican los box plot mensuales.
Llama poderosamente la atencin la gran cantidad de tarjetas usadas por nica vez en el sistema,
un comportamiento que se extiende a lo largo del tiempo, como se ve en la Ilustracin 11. La
Las dificultades para sincronizar la informacin de los boletos con la geolocalizacin motiv la
idea de trabajar nicamente con la serie temporal de los primeros.
All encontramos patrones de venta de boletos de cada ramal, la huella digital que nos permite
identificar con un cierto margen de error el ramal al cual pertenece una serie de venta de boletos,
con independencia de la localizacin geogrfica. En la Ilustracin 13 se grafica las ventas de un
colectivo por cada ramal a lo largo del da. A modo de ejemplo, seleccionamos la primera vuelta
del colectivo 106 y cross-correlacionamos con toda la secuencia de ventas del da. Los 4 mximos
de la Ilustracin 14 corresponden a las 4 vueltas que se observa que realiza el colectivo.
Ilustracin 13. Secuencia de venta de boletos para venta Ilustracin 14. Cross-correlacin entre una vuelta y la
boletos a lo largo de 1 da para colectivos de ramales secuencia de boletos de todo el da.
diferentes.
Se establecieron las relaciones entre la frecuencia de uso sucesivo de una tarjeta SUBE, lo que
sera un indicador del tiempo entre el viaje de ida y el viaje de vuelta. Con esto vimos que las
personas que ms frecuentemente usan el transporte por semana, el tiempo de su primer boleto
(ida) y el tiempo del segundo (vuelta) incrementa. Luego ese tiempo disminuye cuando se usa
ms de 14 veces por semana. En trminos de negocio esto puede verse que la primera poblacin
es la que usa el transporte trabajan un promedio de 8 horas y los que lo usan ms de 14 veces
por semana potencialmente son grupos de personas que se desplazan con una sola tarjeta.
Otra dato que llama la atencin es que muchas tarjetas son usadas de forma consecutiva en
pocos segundos. Esto puede tener relacin directa con un mal uso de las polticas sociales
implementadas, ya que ciertas tarjetas tienen un cuadro tarifario diferente, asociado a la
situacin social de cada persona (jubilado o est inscripto en un plan social, etc.). Por ello el
hecho que esa tarjeta se utilice para sacar boletos de diferentes personas puede implicar una
defraudacin al sistema.
La distribucin en el espacio
Ilustracin 16. Venta de boletos geolocalizada. Se observan los recorridos, zonas de mayor
concentracin de ventas.
Ilustracin 17. Clustering de las coordenadas GPS. Ilustracin 18.Venta de boletos de un da, en colores las diferentes
Asigna una etiqueta de acuerdo a la proximidad de lneas. De forma aleatoria se movi cada posicin GPS para
los datos. observar la superposicin de ventas.
Ilustracin 19. Ventas de boletos para el Ilustracin 20. Ventas de boletos para el ramal
ramal Derqui-Pilar realizadas de 7 hs a 10 hs. Derqui-Pilar realizadas de 18 hs a 20 hs.
Ilustracin 21. Ventas de boletos de toda la Ilustracin 22. Ventas de boletos de toda la
empresa realizadas de 0 hs a 1 hs empresa realizadas de 0 hs a 1 hs
Ilustracin 23. Ventas de boletos de toda la Ilustracin 24. Ventas de boletos de toda la
empresa realizadas de 12 hs a 13 hs empresa realizadas de 18 hs a 19 hs
Permite realizar una mejor asignacin de recursos, por ejemplo, conocer cundo la
empresa debe comenzar sus recorridos y la direccin de la demanda. En este caso en
particular, la evaluacin permite optimizar las frecuencias para capturar demanda.
Da la posibilidad de segmentar los clientes de la empresa por patrones de consumo para
poder realizar campaas eficientes de promocin, por ejemplo gratificar a los usuarios
frecuentes para fomentar la fidelidad o realizar campaas (encuestas) de uso limitadas a
usuarios frecuentes.
Permite conocer con gran detalle el trfico, pudiendo reasignar recorridos de acuerdo a
condiciones extraordinarias y externas a la empresa.
Posibilita la capacidad de visualizar sobre un mapa los boletos vendidos, haciendo
evidente informacin desconocida que la empresa siempre tuvo y que permite una
evaluacin ortogonal a las estrategias comnmente utilizadas.
Analizar de esta forma los datos, permite tomar mejores decisiones y de forma ms rpida que
los competidores, y de manera accesoria permite a la empresa vender estos datos, con su valor
agregado, a otras empresas de otros rubros, por ejemplo publicidad. La posibilidad de juntar la
informacin a disposicin de la empresa con informacin y necesidades de otros rubros le agrega
un valor a los datos que hasta el momento era desconocido o subestimado. Esto ocurre tambin
en otros dominios de aplicacin: datos que para la operacin de la empresa son relevantes pero
no fundamentales pero a que otra empresa pueden cambiarle el modelo de negocio.
Es un gran esfuerzo trabajar con datos reales: no vienen en el formato acordado, los
clientes no saben con qu datos cuentan, no estn documentados, los errores humanos
en carga de datos "embarran" los procesos. La masividad de datos enlentece todo, y en
muchos casos la calidad de los datos no es la esperada. Nuestra experiencia previa de
aos en servicios relacionados con calidad de datos ha resultado ms importante de lo
que creamos a la hora de atacar estos proyectos.
En la comunidad existe una diversidad de herramientas de software y libreras muy
grande y con diferentes prestaciones y caractersticas. Esto incluye bases de datos de
todos los tipos, relacionales, no relacionales, para grafos, GIS, etc. Lo mismo sucede con
las herramientas de cloud, o virtualizacin. Existe una amplia variedad de algoritmos de
Machine Learning y visualizacin. La posicin de Pragma Consultores es que ninguna
tecnologa reemplaza una comprensin acabada del problema y que el principal
problema es utilizar la tecnologa con inteligencia, poner la inteligencia en el anlisis de
datos. Para esto, es importante realizar una bsqueda profunda de herramientas que
maximicen el alcance de los objetivos, ya que la herramienta correcta permite ahorrar
muchsimo tiempo y su costo se paga en resultados.
Conclusiones
En este trabajo se utilizaron tcnicas de Big Data sobre la venta de boletos de una empresa de
transporte metropolitano, apoyado principalmente por la inmensa cantidad de datos generado
por el sistema de la tarjeta SUBE. En trminos de granularidad organizacional, distintas escalas
de tiempo y geolocalizacin estos anlisis brindan a la empresa una nueva dimensin de
comprensin de sus procesos cotidianos.
El primer resultado es la mejor comprensin de la extensin de la idea de viajero frecuente,
que contra la intuicin previa tiene un impacto en rdenes de magnitud menor del esperado. Eso
impulsa una manera completamente renovada de ver el negocio, de manejar sus costos y
mejorar su rentabilidad.