Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El objetivo
El objetivo principal de la compañía era estructurar los datos de Grupo Prisa de tal manera que
pudiese obtener datos relevantes como: nº mensual de artículos, toxicidad de los comentarios o
nº de palabras por artículo. Hasta entonces, estas métricas estaban fuera del alcance de los
encargados de la toma de decisiones en EL PAÍS.
Para llevar a cabo este proyecto, EL PAÍS utilizó Big Data para responder a tres desafíos
principales.
1. Crear una API de contenidos para almacenar de manera dinámica todos los recursos que
se necesitan para montar un artículo: párrafos, estilos, fotos, titulares, etc.
2. Enriquecer y mejorar los datasets combinando múltiples fuentes de datos como Google
Vision API. Esta herramienta detecta objetos y caras, lee texto impreso y manuscrito, y
consigue metadatos de gran valor para el catálogo de imágenes. Es muy importante para
un publisher de la magnitud de EL PAÍS documentar todo adecuadamente ya que la
gobernanza de los datos es una de las prácticas más importantes en el manejo de
grandes cantidades de información.
3. Sincronizar con BigQuery y generar los primeros dashboards usando Data Studio
El enfoque
La primera necesidad de Prisa fue desarrollar su propia API de contenido. En el PAÍS, los artículos
periodísticos son el ingrediente principal de sus datos editoriales. EL PAÍS, como muchos medios
heredados, fue construido con una plataforma patentada sin una arquitectura sólida de
información y una base de software obsoleta.
La nueva API de EL PAÍS es una estructura de datos principal, con una arquitectura de nube que
permite la ingesta de artículos y secciones.
El primer paso fue convertir y empujar datos de la arquitectura heredada al nuevo
sistema basado en Google Cloud Platform. Google Cloud Platform se planteó como una
excelente solución para la gestión de datos de la empresa ya que ofrecía una
infraestructura segura en la que se podía renderizar enormes cargas de trabajo en horas
punta o transmitir vídeo en directo a audiencias masivas bajo demanda
A continuación y como segundo paso, se construyó una API para conectar datos
transformados al nuevo sistema.
El tercer paso consistió en el desarrollo de la infraestructura dentro de Google Cloud
para responder a todas las necesidades posibles. Por ejemplo, la relación entre la
longitud de los artículos y el tiempo invertido en el sitio dependiendo del tipo de lector.
Poco a poco se fue migrando hacia un desarrollo paralelo para responder a preguntas
más profundas.
1. Natural Language API para analizar la sintaxis y la composición de los artículos, extraer
las etiquetas documentales, y evaluar el sentimiento de todos los artículos escritos por
los periodistas del medio.
2. Vision API para entender el contenido de una imagen, que aparece en ella y sus
propiedades fotográficas.
3. Perspective API para tener una mejor comprensión de la sección de comentarios y
comentarios pre moderados cuando se perciben como tóxicos.
Esto fue posible gracias a que EL PAÍS se asoció con Google con el fin de desarrollar este modelo
de aprendizaje automático en español.
Una de las características claves de esta transformación fue BigQuery, un almacén de datos
empresarial rápido donde la compañía podía orquestar los datos usando una interfaz de usuario
web o una línea de comandos dentro de Google Cloud.
Resultados
Esto ha permitido rebajar el tiempo de entrega de los informes relacionados con contenido en
un 27%. Además la información está más democratizada que nunca con más de 50 destinatarios
de los diferentes informes. Gracias a ser más eficaces en la optimización del tiempo, el equipo
de data se ha reorganizado pudiendo centrarse ahora en tareas mucho más estratégicas y de
valor para la empresa.