Está en la página 1de 8

Gobierno del dato: la importancia de

ordenar nuestro Data Lake

El objetivo de esta lectura es entender las implicaciones que el gobierno del dato
tiene en un entorno Big Data y la importancia de cubrir los aspectos de estrategia,
organización, disciplinas, herramientas y procesos para asegurar el éxito de un
proyecto. La implementación de las políticas de gobierno requiere ser llevada a
cabo por nuevos perfiles imprescindibles en la organización.

1
El gobierno del dato

Si preguntas por la mejor manera de gestionar el almacén de una tienda de barrio,


seguro que rápidamente llegarás a la conclusión de que existen determinados
aspectos que son absolutamente necesarios para que funcione bien. Por ejemplo, que
el almacén esté ordenado (para poder encontrar el producto cuando nos lo pida un
cliente), que exista un inventario (para saber cuántas unidades tengo, de qué modelo
y si están en buen estado o alguna está cerca de caducar) y que el almacén esté
cerrado con llave (para evitar que pueda entrar cualquiera a robarnos mercancía o,
simplemente, a destrozarlo todo para que no podamos vender).

Si la tienda de barrio se convierte, por ejemplo, en una tienda física de una compañía
como Amazon; nadie dudará de que los tres aspectos que hemos mencionado para
el almacén siguen siendo aplicables, solo que aumentan en complejidad: el almacén
de la tienda de Amazon contendrá muchos más productos (y será mucho más
complicado mantenerlos ordenados), de tipos, calidades y precios muy dispares (por
lo que el inventario aumentará en volumen y complejidad) y seguramente, tendrá un
tamaño mucho mayor, con varias puertas de entrada (por lo que la será necesario que
varias personas tengan todas las llaves de entrada o algunas o ninguna).

Algo muy similar a la comparación que acabamos de hacer es lo que sucede en las
instituciones cuando despliegan sus plataformas de Big Data. Pasan de tener
repositorios de información pequeños y manejables, con información acotada y
estructurada; a disponer de un verdadero Data Lake (o “lago de datos”), es decir, un
gran repositorio de almacenamiento que contiene una enorme cantidad de datos en
bruto, con mucha más información de fuentes y tipos hasta ahora desconocidos, y
donde todo el mundo tiene llave para entrar.

Por ello, si esta transición no se hace adecuadamente y en orden, el Data Lake tendrá
para la institución el mismo valor que tendrían para Amazon un almacén totalmente
desordenado y, como se dice comúnmente, en lugar de un lago de datos, será un
pantano (Data Swamp).

2
La disciplina que se encarga de que esto no suceda es lo que se conoce como
“gobierno del dato” (Big Data governance) que, por supuesto, es anterior a la
existencia del Big Data pero que, con su aparición, ha aumentado igualmente en
complejidad.

Definimos gobierno del dato como las estructuras y metodologías para gestionar
la información, de manera que ésta sea generada, procesada y almacenada por
una organización, para garantizar una alta calidad a lo largo de todo el ciclo de vida
de los datos. Esta disciplina se apoya en la definición de capacidades
organizativas, disciplinas tecnológicas, estrategias, herramientas y procesos para
garantizar el valor estratégico del dato.

En el enfoque tradicional, los datos son explotados por analistas de datos expertos en
sus áreas de negocio, pero sin experiencia en la limpieza y manipulación de datos,
por lo tanto, requieren datos completamente listos y organizados en una estructura
definida de antemano. Se dispone de datos, se realiza un control y se envían en un
repositorio para utilizarlos en el descubrimiento de nuevos datos o dar respuesta a
preguntas. En este enfoque tradicional, la vida de los datos es unidireccional y no se
recicla.

El surgimiento del Big Data requiere de una evolución en la forma de gestionar el


procesamiento de la información con respecto a esta manera tradicional, ya que los
nuevos perfiles requieren poder explorar los datos con mayor libertad y, en esta
circunstancia, con frecuencia no se sabe de antemano qué datos son necesarios y
qué transformaciones van a requerir. Un gobierno del dato eficaz permite un correcto
uso posterior de la información y su transformación para darle nuevos usos.

Aspectos relevantes relacionados con el gobierno


del dato Big Data

En este sentido y siguiendo con la misma metáfora que hemos planteado hasta ahora,
el gobierno del dato debe cubrir los siguientes aspectos dentro de un proyecto de
aplicación de tecnologías de Big Data en una organización:

3
1. Estrategia: consiste en la definición de la misión, los objetivos, los principios y
las políticas del programa de gobierno del dato. Tal como en el caso de un
almacén, puede decidirse que la entrada de inventario se realice a una hora
determinada, que no haya más de una cierta cantidad de inventario
almacenado por tipo de producto, se puede determinar cuándo debe entrar la
información al Data Lake, la información de mayor relevancia, cuándo debe
revisarse, entre otros aspectos.

2. Capacidades organizativas: son los roles, funciones y las responsabilidades


necesarias para garantizar un despliegue exitoso del programa de gobierno
del dato. Estos perfiles se tratarán más adelante en la lectura.

3. Disciplinas tecnológicas: son estándares, normas y mejores prácticas que dan


soporte a las políticas de gobierno del dato, del mismo modo que cómo
ordenar, inventariar y asegurar los productos deben alinearse con las políticas
de gestión del almacén.

4. Herramientas: constituyen el medio técnico para ejecutar las políticas y


procesos de gobierno; en el ejemplo del almacén, serían los elevadores,
etiquetas o alarmas.

5. Procesos: del mismo modo que la limpieza, carga y descarga controlada de


productos o el control de calidad permiten una gestión eficiente del almacén,
los procesos de gobierno del dato son tareas y acciones que permiten la
implementación del programa de gobierno del dato.

Al igual que la gestión de almacenes en el proceso productivo, el gobierno del dato


constituye un eje fundamental en el desarrollo de proyectos tecnológicos de Big Data.
Siguiendo este ejemplo, en un gobierno del dato eficaz deberá considerarse:

• Orden: desde este punto de vista, debe decidirse en qué zona del Data Lake
se incorpora cada tipo de dato. Esto, que poca gente se plantea en un principio,
se debe a que no todos los datos tienen el mismo valor, el mismo nivel de
criticidad o el mismo volumen y, por tanto, debe determinarse la zona en que
se almacenan. Por ejemplo, en un almacén, los productos más delicados se

4
colocan protegidos de la luz, la humedad y los que se usan con más frecuencia
se colocan más cerca de la puerta, para que sea más fácil acceder a ellos.

El Data Lake está compuesto por diferentes repositorios de información. En


este caso, puede determinarse almacenar los datos de mayor uso o criticidad
que gestiona una determinada aplicación en un repositorio concreto del Data
Lake, con una infraestructura tecnológica más potente, es decir, una
infraestructura que facilite el acceso. Así, puede definirse una planificación para
cargar nueva información (con qué frecuencia recibiremos nueva mercancía)
para cumplir un doble propósito: (i) por un lado, garantizar que tendremos en
stock los datos que me van a solicitar mis clientes y (ii) que disponemos de
espacio suficiente en los almacenes para cargar la nueva información.

• Inventario: poseer un inventario detallado y actualizado de los productos


(datos) de que disponemos actualmente es crítico. Así, cuando un cliente
(analista o usuario de negocio) nos solicite un dato en concreto, podremos
saber rápidamente si disponemos del mismo, qué cantidad tengo, qué calidad
tienen, hace cuánto que entraron en mi almacén, si los mismos siguen teniendo
valor o están desfasados o caducados.

Del mismo modo, un buen inventario nos permitirá conocer la trazabilidad o el


linaje del dato, es decir, saber quién lo produjo (la fuente original), qué empresa
de transporte me lo ha entregado (herramienta utilizada para la carga), por
cuantos almacenes ha pasado antes de llegar al mío, entre otros. Finalmente,
si nuestro inventario dispone de un buen buscador que permita a mis usuarios
encontrar los productos que quieren por ellos mismos, nos ahorraremos mucho
trabajo de gestión. Para ello, tendremos que enseñar al buscador los términos
que usarán los clientes en sus búsquedas, que es lo que se denomina “glosario
de términos de negocio”.

• Seguridad: por último, pero especialmente en este caso no menos importante,


la seguridad es uno de los aspectos a los que se debe prestar mayor atención.
Los datos son uno de los activos más valiosos en la actualidad y, por ello, se
deben proteger igual o mejor de lo que se protegen los productos en un

5
almacén. Así, debemos dar llave del mismo sólo a las personas que realmente
deban acceder y se deben instalar alarmas que avisen de accesos no
permitidos o de intentos de robo.

Como sucedería en la evolución del almacén de una tienda física, la implementación


de todas estas políticas en el Data Lake de cualquier institución, requerirá contar con
nuevos empleados, especializados en el desempeño de las tareas que acabamos de
mencionar. En este sentido, resultan especialmente destacables varias figuras que, a
grandes rasgos, son las siguientes:

• Responsable del gobierno del dato: es el individuo o el órgano encargado de


diseñar las políticas y buenas prácticas de datos a aplicar en la organización.

• Data manager: es el encargado de aplicar las políticas de gobierno del dato


desde el punto de vista organizativo y funcional. Es responsable de decidir si
un determinado usuario puede entrar o no al almacén (Data Lake) y en caso
afirmativo, a qué zonas puede acceder.

• Data engineer (Ingeniero de datos): es el encargado de aplicar las políticas


desde el punto de vista técnico. Entrega la llave de cada zona del almacén a
aquellos usuarios cuya entrada haya autorizado el Data Manager.

• Data steward (traducido literalmente como “mayordomo de datos”): se encarga


de la formación y ejecución de políticas para la gestión de los datos que tiene
bajo su dominio, asegurándose que en su parte del almacén se aplican las
mismas políticas que en el almacén completo.

• Data owner (propietario de datos): son responsables del uso de los datos que
están bajo su control. Se encargan de definir reglas de almacenamiento de
productos en el almacén, los estándares de calidad que les aplican y la utilidad
de cada uno de ellos.

• Data scientist (científico de datos): encargado de la creación de valor a través


de la explotación de los datos. En la analogía con el almacén, se encarga de
analizar los productos almacenados y encontrar oportunidades para ellos.

6
Otro de los aspectos que resulta obvio en relación con el gobierno del dato es que
el ejercicio de poner orden puede llevarse a cabo en cualquier momento, pero si se
hace desde el primer momento, resultará mucho más sencillo y menos traumático
para la organización. Por lo tanto, lo ideal será tener en cuenta todos estos aspectos
antes incluso de construir el Data Lake para que, una vez éste esté desplegado; los
encargados de almacenar la información sepan desde el primer día en qué zona
deben guardarla y los usuarios de negocio, si lo que buscan está disponible y dónde
encontrarlo.

De acuerdo con lo anterior, el primer paso de todos para la consecución de un


adecuado gobierno del dato de nuestra plataforma Big Data será evaluar nuestras
capacidades actuales y nuestras necesidades futuras, para así conocer el camino que
será necesario recorrer y dividir el mismo en tantas etapas como sean necesarias.

Por último, no nos gustaría terminar sin mencionar los dos aspectos más
fundamentales de cualquier proyecto de implementación de gobierno del dato, que
son los siguientes:

• Comprender que la aplicación del Big Data governance no debe ser


responsabilidad de un departamento concreto de la organización, sino que
debe ser una responsabilidad compartida de manera transversal.

• Comprender que la aplicación de las políticas de gobierno de datos no debe


hacerse mediante grandes iteraciones puntuales, sino que debe enfocarse
como un proceso continuo, iterativo y en permanente revisión y mejora a lo
largo del tiempo. Es decir, no debe ser considerado como un proceso que se
implementa y luego no vuelve a revisarse. La revisión y actualización debe
realizarse de forma periódica.

Así, la responsabilidad del gobierno del dato no solo recae sobre los líderes de una
organización o un consejo de gobierno del dato, sino también sobre los equipos de
trabajo que explotan la información, que deben adaptarse a la incorporación de
nuevas fuentes de datos, cambios estructurales a nivel corporativo o adaptación de
nuevas tecnologías.

7
Conclusiones

La disciplina del gobierno del dato es anterior a la existencia del Big Data, pero con
la aparición del Big Data ha aumentado en complejidad y, para llevar a cabo la
implementación de todas estas políticas en el Data Lake de cualquier empresa; será
necesario que las empresas cuenten con nuevos empleados especializados en el
desempeño de las tareas requeridas.

El propósito que persigue el gobierno del dato es asegurar que:

• Los datos son siempre fiables y válidos en cada contexto institucional.

• La calidad de los datos se mantenga a lo largo del tiempo.

• Existan mecanismos de control sobre quién puede hacer qué con los datos en
cada momento.

Esta obra está sujeta a la Licencia Reconocimiento-NoComercial-SinObraDerivada 3.0 España de Creative Commons. Para ver una copia
de esta licencia, visite http://creativecommons.org/licenses/by-nc-nd/3.0/es/ o envíe una carta Creative Commons, PO Box 1866, Mountain
View, CA 94042, USA.

También podría gustarte