Está en la página 1de 3

EL PAÍS utilizó tecnología Cloud y Machine Learning para

analizar el éxito de sus contenidos

EL PAÍS es el medio líder en información en español. Con cerca de 84 millones de navegadores


únicos al mes en todas sus ediciones, según datos del diario, EL PAÍS ha sabido adaptarse a la
evolución de los medios respetando sus señas de identidad teniendo presencia en todos los
formatos posibles, desde la web a las redes sociales pasando por las aplicaciones o el vídeo. Con la
colaboración de Google, la compañía creó unos dashboards que integraban Cloud y Machine
Learning y en los que se obtenía información detallada de cada contenido en base a la cual se
pueden tomar decisiones relacionadas con los procesos de producción y distribución.

El objetivo

El objetivo principal de la compañía era estructurar los datos de Grupo Prisa de tal manera que
pudiese obtener datos relevantes como: nº mensual de artículos, toxicidad de los comentarios o
nº de palabras por artículo. Hasta entonces, estas métricas estaban fuera del alcance de los
encargados de la toma de decisiones en EL PAÍS.

Para llevar a cabo este proyecto, EL PAÍS utilizó Big Data para responder a tres desafíos
principales.

1. Crear una API de contenidos para almacenar de manera dinámica todos los recursos que
se necesitan para montar un artículo: párrafos, estilos, fotos, titulares, etc.
2. Enriquecer y mejorar los datasets combinando múltiples fuentes de datos como Google
Vision API. Esta herramienta detecta objetos y caras, lee texto impreso y manuscrito, y
consigue metadatos de gran valor para el catálogo de imágenes. Es muy importante para
un publisher de la magnitud de EL PAÍS documentar todo adecuadamente ya que la
gobernanza de los datos es una de las prácticas más importantes en el manejo de
grandes cantidades de información.
3. Sincronizar con BigQuery y generar los primeros dashboards usando Data Studio

El enfoque

La primera necesidad de Prisa fue desarrollar su propia API de contenido. En el PAÍS, los artículos
periodísticos son el ingrediente principal de sus datos editoriales. EL PAÍS, como muchos medios
heredados, fue construido con una plataforma patentada sin una arquitectura sólida de
información y una base de software obsoleta.

La nueva API de EL PAÍS es una estructura de datos principal, con una arquitectura de nube que
permite la ingesta de artículos y secciones.
 El primer paso fue convertir y empujar datos de la arquitectura heredada al nuevo
sistema basado en Google Cloud Platform. Google Cloud Platform se planteó como una
excelente solución para la gestión de datos de la empresa ya que ofrecía una
infraestructura segura en la que se podía renderizar enormes cargas de trabajo en horas
punta o transmitir vídeo en directo a audiencias masivas bajo demanda
 A continuación y como segundo paso, se construyó una API para conectar datos
transformados al nuevo sistema.
 El tercer paso consistió en el desarrollo de la infraestructura dentro de Google Cloud
para responder a todas las necesidades posibles. Por ejemplo, la relación entre la
longitud de los artículos y el tiempo invertido en el sitio dependiendo del tipo de lector.
Poco a poco se fue migrando hacia un desarrollo paralelo para responder a preguntas
más profundas.

Para ello, se puso en marcha un proceso orientado a enriquecer 3 modelos de aprendizaje


automático pre-entrenados impulsados por Google:

1. Natural Language API  para analizar la sintaxis y la composición de los artículos, extraer
las etiquetas documentales, y evaluar el sentimiento de todos los artículos escritos por
los periodistas del medio.
2. Vision API para entender el contenido de una imagen, que aparece en ella y sus
propiedades fotográficas.
3. Perspective API para tener una mejor comprensión de la sección de comentarios y
comentarios pre moderados cuando se perciben como tóxicos.

Esto fue posible gracias a que EL PAÍS se asoció con Google con el fin de desarrollar este modelo
de aprendizaje automático en español.

Una de las características claves de esta transformación fue BigQuery, un almacén de datos
empresarial rápido donde la compañía podía orquestar los datos usando una interfaz de usuario
web o una línea de comandos dentro de Google Cloud.

Resultados

Gracias a BigQuery la compañía ha logrado democratizar sus datos y generar dashboards


operacionales , editoriales y analiticos accesibles a todos los empleados

La creación de un dashboard ha permitido ser un 80% más eficiente en el tiempo de entrega de


los proyectos, pasando de desarrollos que duraban entre 4 y 6 semanas a 3 y 5 días.

Ya se han creado más de 20 dashboards orientados a todo tipo de perfiles en la organización.

Esto ha permitido rebajar el tiempo de entrega de los informes relacionados con contenido en
un 27%. Además la información está más democratizada que nunca con más de 50 destinatarios
de los diferentes informes. Gracias a ser más eficaces en la optimización del tiempo, el equipo
de data se ha reorganizado pudiendo centrarse ahora en tareas mucho más estratégicas y de
valor para la empresa.

También podría gustarte