Está en la página 1de 15

Una experiencia de Big Data en el

transporte metropolitano
Potenciando el valor de los datos
PRAGMA CONSULTORES

Contenido
La emergencia de Big Data................................................................................................................ 3
Un nuevo rol: Data Scientist .......................................................................................................... 3
El caso de la tarjeta SUBE .................................................................................................................. 4
Una empresa dentro del sistema SUBE ........................................................................................ 4
Los datos de la empresa ................................................................................................................ 4
Comprensin y anlisis de los datos ................................................................................................ 5
Cundo se suben los pasajeros? ................................................................................................... 5
En la bsqueda del viajero frecuente ............................................................................................ 7
La huella digital de cada lnea ........................................................................................................ 8
El tiempo para volver a casa .......................................................................................................... 9
La distribucin en el espacio........................................................................................................ 10
Combinando la informacin espacial y temporal ....................................................................... 11
El valor para el negocio del anlisis de datos ................................................................................ 12
Algunas lecciones aprendidas sobre Big Data ............................................................................... 13
Conclusiones .................................................................................................................................... 14

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

La emergencia de Big Data


A diario en el mundo se generan 2.5 trillones de bytes de informacin en un fenmeno que crece
en velocidad: el 90% de los datos a nivel mundial se han creado en los ltimos 2 aos. Esta
informacin proviene de todos lados, entre otros de los GPS de los telfonos mviles, sensores
que recogen informacin climtica, publicaciones en las redes sociales, imgenes y videos
digitales, y registros de nuestras compras. Cuando el valor potencial de uso de esta informacin
es mayor que el costo del equipamiento, nos encontramos frente al fenmeno de Big Data.
Big Data es la nueva forma de gestin los datos en esta nueva configuracin, ya que este volumen
y flujo de datos no puede ser almacenado, procesado, analizado, entendido, visualizado ni
gestionado usando las prcticas, el hardware y software que usamos desde hace aos. Las
prcticas, tecnologas y herramientas de Big Data forman un entramado en el que se destacan
las grandes proveedoras de Plataforma as a service (Amazon es el primer caso, Microsoft, EMC
y SAP) y grandes empresas multinacionales como proveedoras de servicios asociados.
Esta situacin representa un espacio interesante y un desafo particular para las empresas de
Tecnologa de la Informacin de la regin, que buscan presentarse como candidatos de primera
opcin para desarrollar servicios de Big Data. No son muchas las empresas que suman capacidad
y vocacin para responder a este desafo.
En el pas existen mltiples organizaciones y empresas que se veran beneficiados con la
aplicacin de tecnologas de Big Data. Son candidatas naturales las empresas de energa (en
particular aquellas de Oil&Gas), el rea de agricultura, las empresas de venta retail y los bancos.
A nuestro entender una de las principales limitaciones para la incorporacin de estas tecnologas
es la falta de una oferta de servicios de primer nivel, confiable y a precios competitivos, que
conozca la realidad donde estas empresas operan.

Un nuevo rol: Data Scientist

Un nuevo rol aparece hoy como clave: lo desarrollan personas, o ms usualmente equipos
integrando profesionales en matemticas y estadsticas, dominio de la programacin, ciencias
de la computacin y capacidad de adquirir conocimiento del dominio de aplicacin. Es el rol del
Data Scientist.
El equipo de ciencia de datos
tambin debe tener la Prosumer
Estadstica (+
capacidad y los Dominio de
machine learning)
conocimientos necesarios aplicacin
para comunicar sus hallazgos
a medida que los tiene, no Equipo
slo al rea de tecnologa multidisciplinario
sino tambin al negocio.
En este domino no hay otras Almacenamiento y
reglas de oro que las de la procesamiento Procesos de
ciencia y el enfoque en el Datos captura
valor para el cliente. Cada
conjunto de datos es hoy un
lienzo en blanco y se debe
factorizar los procesos y el desarrollo para garantizar la extraccin del valor de los datos.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Para responder a la aparicin de Big Data y el nuevo rol que se abre, Pragma Consultores
conform un grupo interdisciplinario de Data Science con competencias que van de la
infraestructura y proceso de captura y almacenamiento de datos al anlisis estadstico, con
capacidades propias para interactuar con los actores del negocio.

El caso de la tarjeta SUBE


SUBE es una iniciativa del Gobierno Nacional argentino para facilitar la movilidad en el rea
metropolitana. Es una tarjeta prepaga que puede usarse en los medios de transporte colectivos,
incluyendo colectivos, subterrneos y trenes en la regin Metropolitana de Buenos Aires. Esta
misma tarjeta permite al estado implementar polticas sociales y adems actualmente pueden
pagarse las autopistas de la ciudad y hay planes inmediatos de soportar micro pagos en quioscos,
libreras, taxis, etc.
A nivel institucional el sistema que soporta la operatoria de SUBE es gestionado por la empresa
estatal Nacin Servicios, que maneja las redes de recarga y de uso. La red de uso est compuesta
por 11.000 colectivos, 5 lneas de subtes y las lneas ferroviarias metropolitanas, y diariamente
vende 12 MM de boletos.

Una empresa dentro del sistema SUBE Nacion


Servicios
Nuestro cliente, prosumer de los datos y del
conocimiento es una empresa de transporte de la
Red de Red de
zona metropolitana de Buenos Aires, que tanto por uso Recarga
su tamao como por su modelo de negocio
representa un caso tpico dentro de la red de uso.
Esta empresa cuenta con 3 lneas, con diferentes
ramales, que provee servicios desde Puente
Saavedra a Pilar, Derqui y Escobar. La empresa
Usuarios Quioscos
cuenta con 110 internos conducidos por 200
choferes.

Los datos de la empresa

Los datos que nos brindaron son la venta de boletos, y la geolocalizacin de los internos para el
perodo que va de noviembre del 2011 a abril de 2014, lo que resulta en 40 MM de boletos y 150
MM de geolocalizaciones.
Como en las dems empresas de la red de uso, los datos de los boletos son generados en cada
interno, que cuenta con un lector de tarjetas SUBE de cual debita cada uso, datos que son
descargados a un concentrador al final del da por medio de WiFi, al mismo tiempo que se
actualizan sus parmetro. El concentrador almacena los datos localmente para fiscalizar la venta,
y los enva a Nacin Servicios, que en un plazo fijado deposita el importe en el Banco Nacin.
El lector de tarjetas cuenta con un GPS, pero la informacin que genera no est disponible para
la empresa de transporte. La empresa contrat un servicio de seguimiento que brinda la
geolocalizacin GPS a cada interno, que es enviada cada minuto por telefona mvil a la empresa
proveedora del servicio.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Comprensin y anlisis de los datos


El primer punto en la comprensin de los datos fue identificar y subsanar las limitaciones de los
datos, en particular del hecho que los relojes de los lectores del sistema SUBE y los GPS no estn
sincronizados, y la informacin que permite ligar el GPS al interno y con ello al lector se mantiene
de manera manual, y no siempre est actualizada.
Avanzada esta tarea de preparacin de los datos, las tareas de anlisis incluyeron la elaboracin
de histogramas, grficos de series temporales, heatmaps en varias variables, generacin de
imgenes geolocalizadas de la concentracin de venta de boletos.

Cundo se suben los pasajeros?

Una de las primeras cuestiones tratadas es cundo se compran los boletos. Esto puede
analizarse en al menos dos dimensiones: la escala organizacional (por unidad en la Ilustracin 8,
ramal, lnea o la empresa toda en las Ilustraciones 1 y 2) y la escala del tiempo.
El tiempo se analiz en varias escalas: en la primera parte del perodo considerado, para observar
la transicin del pago en monedas previo al SUBE a la nueva modalidad (Ilustraciones 1 y 3), mes
a mes para estudiar la estacionalidad (Ilustracin 2) y a nivel das del mes y de hora del da para
identificar comportamientos de consumo en ciclos ms cortos (Ilustraciones 4 y 5).

Ilustracin 1. Venta de boletos por medio del sistema SUBE desde su implementacin. Se observa en la grfica: la
curva de adopcin, estancamiento inicial. La diferenciacin de tarifas (SUBE o Monedas) implica una masiva
adopcin del sistema. Cada de ventas en fin de semana, paros, verano.

Ilustracin 2. Venta de boletos por sistema SUBE agrupamiento mensual, se hace evidente la estacionalidad de la venta.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Ilustracin 3. Venta de boletos sistema SUBE para interno 3. Se observa que en un da, el sistema estuvo mal configurado
y 2 colectivos fueron ingresados como interno 3, por lo tanto duplic la recaudacin.

El grfico de la Ilustracin 4, muestra un heatmap donde cada punto corresponde a la cantidad


de boletos para un interno en el perodo de 1 hora. El grfico de la Ilustracin 5 muestra un
agrupamiento diario mostrando un perodo de 1 mes, fcilmente se ven los perodos donde cada
interno no trabaja o cuales son los colectivos que trabajan los fines de semana.

Ilustracin 4. Heatmap de venta de boletos sistema SUBE para 1 da. X: Internos, Y: horas [0 hs, 24 hs]. Se observan
colectivos que no trabajaron ese da, hora de inicio de ventas.

Ilustracin 5. Heatmap de venta de boletos sistema SUBE para 1 da. X: Internos, Y: das del mes. Se observan colectivos
que durante un perodo grande en das no trabajaron, fines de semana.

La Ilustracin 6 muestra la Cantidad de internos x da. Mientras que la Ilustracin 7 y la Ilustracin


8 muestran la venta de boletos a lo largo de un da agrupados por hora para toda la empresa o
slo para un interno en particular. Aqu se observan los 3 picos de demanda que se producen a

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

la maana, durante el medioda y por la tarde, coincidiendo con el inicio y el fin de las jornadas
laborales.

Ilustracin 6. Se observa que durante los fines de semana y verano disminuyen los internos circulando.

Ilustracin 7. Cantidad de boletos vendidos por hora a lo largo de 1 da. Permite conocer la hora en la que las personas
empiezan a desplazarse.

Ilustracin 8. Venta de boletos por hora para el interno 2 durante 1 da

En la bsqueda del viajero frecuente

Un dato que consideramos relevante estudiar es la frecuencia de uso del sistema de transporte
por cada usuario, que puede verse graficando histogramas de frecuencia de uso de cada tarjeta.
En la Ilustracin 9 un pico muy grande en las tarjetas que se usan una sola vez en esta empresa y
luego una fuerte cada en la cantidad de tarjetas agrupadas por uso. Esta cada es efectivamente
exponencial, como puede verse en la Ilustracin 10, que est en escala logartmica. La Ilustracin
11 se grafican los box plot mensuales.
Llama poderosamente la atencin la gran cantidad de tarjetas usadas por nica vez en el sistema,
un comportamiento que se extiende a lo largo del tiempo, como se ve en la Ilustracin 11. La

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

pendiente creciente en la ilustracin es un artefacto del anlisis y corresponden a tarjetas que


seguramente sern utilizadas en el futuro, fuera del marco del tiempo analizado.
Aproximadamente se observan 250 tarjetas de uso nico por da, que pueden entenderse como
usuarios casuales de la empresa, aunque no necesariamente del sistema SUBE como un todo.

Ilustracin 9.Histograma venta de boletos por Ilustracin 10. Histograma venta de


chip de tarjeta. boletos por chip de tarjeta. Escala log.

Ilustracin 11.Frecuencia de uso mensual.


Media igual a 6 usos. Ilustracin 12. Cantidad de tarjetas por
fecha que tienen un nico uso.

La huella digital de cada lnea

Las dificultades para sincronizar la informacin de los boletos con la geolocalizacin motiv la
idea de trabajar nicamente con la serie temporal de los primeros.
All encontramos patrones de venta de boletos de cada ramal, la huella digital que nos permite
identificar con un cierto margen de error el ramal al cual pertenece una serie de venta de boletos,
con independencia de la localizacin geogrfica. En la Ilustracin 13 se grafica las ventas de un
colectivo por cada ramal a lo largo del da. A modo de ejemplo, seleccionamos la primera vuelta
del colectivo 106 y cross-correlacionamos con toda la secuencia de ventas del da. Los 4 mximos
de la Ilustracin 14 corresponden a las 4 vueltas que se observa que realiza el colectivo.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Ilustracin 13. Secuencia de venta de boletos para venta Ilustracin 14. Cross-correlacin entre una vuelta y la
boletos a lo largo de 1 da para colectivos de ramales secuencia de boletos de todo el da.
diferentes.

El tiempo para volver a casa

Se establecieron las relaciones entre la frecuencia de uso sucesivo de una tarjeta SUBE, lo que
sera un indicador del tiempo entre el viaje de ida y el viaje de vuelta. Con esto vimos que las
personas que ms frecuentemente usan el transporte por semana, el tiempo de su primer boleto
(ida) y el tiempo del segundo (vuelta) incrementa. Luego ese tiempo disminuye cuando se usa
ms de 14 veces por semana. En trminos de negocio esto puede verse que la primera poblacin
es la que usa el transporte trabajan un promedio de 8 horas y los que lo usan ms de 14 veces
por semana potencialmente son grupos de personas que se desplazan con una sola tarjeta.

Ilustracin 15.Frecuencia de uso (semanal) vs tiempo transcurrido entre el


primer boleto y el ltimo boleto del da.

Otra dato que llama la atencin es que muchas tarjetas son usadas de forma consecutiva en
pocos segundos. Esto puede tener relacin directa con un mal uso de las polticas sociales
implementadas, ya que ciertas tarjetas tienen un cuadro tarifario diferente, asociado a la
situacin social de cada persona (jubilado o est inscripto en un plan social, etc.). Por ello el

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

hecho que esa tarjeta se utilice para sacar boletos de diferentes personas puede implicar una
defraudacin al sistema.
La distribucin en el espacio

Para tener percepcin de la distribucin de la venta de boletos en el espacio realizamos un


estudio multi-escala sobre la densidad de venta de boletos a diferentes horarios. Para ello
imprimimos en un mapa los 80.000 boletos vendidos en un da. Esa informacin por s sola no
aporta gran ayuda debido a que no se observa la concentracin de ventas. Para resolver ese
problema, sustituimos cada posicin donde se vende un boleto por una funcin Gaussiana en 2
dimensiones y sumando los resultados. Con esta nueva imagen sobreimpuesta en un mapa, es
posible observar los ncleos de mayor venta de boletos (ver Ilustracin 16). En la Ilustracin 17
se visualiza el agrupamiento de boletos de acuerdo a su posicin geogrfica. En la Ilustracin 18
se observa otra metfora visual donde los puntos correspondientes a cada coordenada GPS
fueron dispersos hasta 5 pixeles y se presentan en color diferente cada lnea de colectivos. De
esta manera es posible observar los ncleos de venta de menor intensidad.

Ilustracin 16. Venta de boletos geolocalizada. Se observan los recorridos, zonas de mayor
concentracin de ventas.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Ilustracin 17. Clustering de las coordenadas GPS. Ilustracin 18.Venta de boletos de un da, en colores las diferentes
Asigna una etiqueta de acuerdo a la proximidad de lneas. De forma aleatoria se movi cada posicin GPS para
los datos. observar la superposicin de ventas.

Combinando la informacin espacial y temporal

Si analizamos de manera conjunta la distribucin de venta de boletos en las horas del da y en el


espacio, observa que en el ramal Derqui-Pilar por la maana la gente mayormente se desplaza
desde el la localidad Presidente Derqui hacia la cabecera del partido de Pilar. En cambio por la
tarde las personas vuelven a su lugar de origen. Tambin cabe destacar que mayoritariamente
los boletos se venden cerca de las cabeceras del ramal o en ncleos urbanos.

Ilustracin 19. Ventas de boletos para el Ilustracin 20. Ventas de boletos para el ramal
ramal Derqui-Pilar realizadas de 7 hs a 10 hs. Derqui-Pilar realizadas de 18 hs a 20 hs.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

El siguiente grupo de figuras consta de 4 imgenes (Ilustracin 21 a Ilustracin 24)


correspondientes a diferentes perodos de tiempo donde se observa la distribucin de la
demanda a lo largo del da.

Ilustracin 21. Ventas de boletos de toda la Ilustracin 22. Ventas de boletos de toda la
empresa realizadas de 0 hs a 1 hs empresa realizadas de 0 hs a 1 hs

Ilustracin 23. Ventas de boletos de toda la Ilustracin 24. Ventas de boletos de toda la
empresa realizadas de 12 hs a 13 hs empresa realizadas de 18 hs a 19 hs

El valor para el negocio del anlisis de datos


Este trabajo de anlisis de datos permiti al cliente contar con herramientas para conocer de
forma profunda y con altsimo nivel de detalle la distribucin de la demanda. Esta informacin
permite agregar valor a la empresa mediante varios mecanismos, ya que conocer el detalle de la
demanda habilita el uso de herramientas que de otra forma no se conocen y se aproximan por
intuicin o experiencia, lo que no siempre coincide con la situacin actual y dinmica del negocio.
En este caso:

Permite realizar una mejor asignacin de recursos, por ejemplo, conocer cundo la
empresa debe comenzar sus recorridos y la direccin de la demanda. En este caso en
particular, la evaluacin permite optimizar las frecuencias para capturar demanda.
Da la posibilidad de segmentar los clientes de la empresa por patrones de consumo para
poder realizar campaas eficientes de promocin, por ejemplo gratificar a los usuarios
frecuentes para fomentar la fidelidad o realizar campaas (encuestas) de uso limitadas a
usuarios frecuentes.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Permite conocer con gran detalle el trfico, pudiendo reasignar recorridos de acuerdo a
condiciones extraordinarias y externas a la empresa.
Posibilita la capacidad de visualizar sobre un mapa los boletos vendidos, haciendo
evidente informacin desconocida que la empresa siempre tuvo y que permite una
evaluacin ortogonal a las estrategias comnmente utilizadas.

Analizar de esta forma los datos, permite tomar mejores decisiones y de forma ms rpida que
los competidores, y de manera accesoria permite a la empresa vender estos datos, con su valor
agregado, a otras empresas de otros rubros, por ejemplo publicidad. La posibilidad de juntar la
informacin a disposicin de la empresa con informacin y necesidades de otros rubros le agrega
un valor a los datos que hasta el momento era desconocido o subestimado. Esto ocurre tambin
en otros dominios de aplicacin: datos que para la operacin de la empresa son relevantes pero
no fundamentales pero a que otra empresa pueden cambiarle el modelo de negocio.

Dejamos en ltimo lugar el punto clave: el Herramientas utilizadas


cumplimiento de la promesa detrs de la Data HDFS
Science. El mayor valor para el negocio est en Hadoop
conocer lo que los datos dicen sobre la naturaleza del Hive
negocio. En este caso aportar una nueva visin del R
negocio, donde el peso del viajero frecuentes es muy Google Maps
pequea, es algo que contradice la intuicin previa. 3 aos datos
Como lo hace muchas veces la ciencia. 200 millones registros

Algunas lecciones aprendidas sobre Big Data


Las lecciones aprendidas en este proyecto en algunos casos confirman la intuicin que tenamos
y validan nuestra estrategia, pero adems agregan nueva luz a los procesos a desplegar en estos
proyectos. Entre las lecciones aprendidas se pueden mencionar:

Es un gran esfuerzo trabajar con datos reales: no vienen en el formato acordado, los
clientes no saben con qu datos cuentan, no estn documentados, los errores humanos
en carga de datos "embarran" los procesos. La masividad de datos enlentece todo, y en
muchos casos la calidad de los datos no es la esperada. Nuestra experiencia previa de
aos en servicios relacionados con calidad de datos ha resultado ms importante de lo
que creamos a la hora de atacar estos proyectos.
En la comunidad existe una diversidad de herramientas de software y libreras muy
grande y con diferentes prestaciones y caractersticas. Esto incluye bases de datos de
todos los tipos, relacionales, no relacionales, para grafos, GIS, etc. Lo mismo sucede con
las herramientas de cloud, o virtualizacin. Existe una amplia variedad de algoritmos de
Machine Learning y visualizacin. La posicin de Pragma Consultores es que ninguna
tecnologa reemplaza una comprensin acabada del problema y que el principal
problema es utilizar la tecnologa con inteligencia, poner la inteligencia en el anlisis de
datos. Para esto, es importante realizar una bsqueda profunda de herramientas que
maximicen el alcance de los objetivos, ya que la herramienta correcta permite ahorrar
muchsimo tiempo y su costo se paga en resultados.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

La preminencia de R. R es una excelente librera/ lenguaje, gratuito, open source.


Contienen miles de paquetes contribuidos por la comunidad. Todos los paquetes
comerciales (entre ellos Hana, los de EMC) incluyen una distribucin R. De alguna forma
se ha convertido en un estndar y base para el anlisis. Esto no quiere decir que sea la
nica librera ni que sirva para todo, pero es un estndar y una lnea base para el anlisis.
Los paquetes comerciales, ofrecen una rpida instalacin y puesta en marcha. La obvia
desventaja son los costos. La eleccin de la estrategia tecnolgica debe responder al
problema a resolver y al anlisis costo/ beneficio. En muchos casos, el uso de software
libre permite avanzar rpidamente para iniciar algunos pilotos.
Existe una importante oferta de capacitacin en Big Data, incluyendo cursos cortos,
online, e incluso cursos de grado o postgrado dictados en grandes universidades, que
recorren desde temas bsicos hasta anlisis de datos avanzados. Esto demuestra la
demanda existente para desarrollar capacidades y la escasez de recursos con
experiencia. El valor de desarrollar estos proyectos, por lo tanto, se potencia porque se
desarrollan capacidades que permiten competir en forma temprana.
En el trabajo con Big SUBE se dedic mucho tiempo al escenario de aprendizaje "vivir con
la escasez" (por ejemplo, trabajar slo con datos de boletos sin la geolocalizacin), y los
resultados ms interesantes estn en los datos ms ricos. Un adecuado balance entre el
esfuerzo dedicado a enriquecer datos y el anlisis de los mismos es necesario. Nuestra
aproximacin es una metodologa incremental que permita enriquecer los datos y
realizar sucesivas aproximaciones de anlisis.
Hadoop est quedando obsoleto ya que permite una masividad sobre datos que se
encuentran en disco con una latencia de acceso muy grande. Es por eso que deben ser
incorporadas al esquema de almacenaje y procesamiento para acelerar los procesos de
ejecucin, bases de datos organizadas en columnas o bases datos en memoria. Tambin
existen mtodos que por su naturaleza de interrelacin de datos no pueden
paralelizarse. Hadoop no es la herramienta que resuelve todos los problemas y en
muchos casos existen soluciones alternativas superadoras.

Conclusiones
En este trabajo se utilizaron tcnicas de Big Data sobre la venta de boletos de una empresa de
transporte metropolitano, apoyado principalmente por la inmensa cantidad de datos generado
por el sistema de la tarjeta SUBE. En trminos de granularidad organizacional, distintas escalas
de tiempo y geolocalizacin estos anlisis brindan a la empresa una nueva dimensin de
comprensin de sus procesos cotidianos.
El primer resultado es la mejor comprensin de la extensin de la idea de viajero frecuente,
que contra la intuicin previa tiene un impacto en rdenes de magnitud menor del esperado. Eso
impulsa una manera completamente renovada de ver el negocio, de manejar sus costos y
mejorar su rentabilidad.

Propiedad de Pragma Consultores no circular


PRAGMA CONSULTORES

Propiedad de Pragma Consultores no circular

También podría gustarte