Está en la página 1de 28

Gobierno del dato

© Ediciones Roble, S.L.


Indice
Gobierno del dato 3
I. Introducción 3
II. Objetivos 5
III. La importancia del gobierno del dato 5
IV. Pasos hacia el gobierno del dato 7
4.1. Levantar la infraestructura 8
4.2. Organizar el lago de datos 9
4.3. Preparar el lago de datos para autoservicio 10
V. Componentes y herramientas de gobierno del dato 12
5.1. El catálogo de datos 12
5.2. Los datos maestros 13
5.3. Repositorios de metadatos 13
5.4. Diccionarios, taxonomías y ontologías 14
5.5. Herramientas para el gobierno de datos 14
VI. Marcos de gestión de datos 16
6.1. DGI 16
6.2. IBM 19
6.3. El DMBOK de DAMA 21
6.4. Gartner 23
VII. Resumen 24
Ejercicios 26
Caso práctico 26
Enunciado 26
Se pide 26
Solución 26
Recursos 28
Bibliografía 28
Glosario. 28

2/28
Gobierno del dato

Gobierno del dato

I. Introducción
El informe (Royal Society, 2017)

Incluye en el concepto de gobierno del dato todo aquello cuyo objetivo es aumentar la confianza en la gestión de
los datos, su uso y la tecnología relacionada. Según este informe, para conseguir abordar los retos del gobierno
del dato en el siglo XXI, la gestión y el uso de los datos no deben verse como dos cosas separadas, sino más
bien profundamente interrelacionadas.

Desde este punto de vista surgen ciertos retos:

Cómo equilibrar beneficios y riesgos, tanto a nivel colectivo como individual, asociados al uso intensivo de
datos.

Cómo se deben interpretar la propiedad de los datos y los derechos de las personas. En este sentido, el
concepto de gobierno del dato está muy relacionado con la privacidad y la seguridad.

También se puede ver el gobierno del dato desde un punto de vista corporativo, como una manera de aumentar la
competitividad de una empresa y como una forma de mitigar riesgos relacionados con la seguridad, el
cumplimiento normativo, etc.

Pero, aunque la necesidad del gobierno del dato esté clara, su implementación supone un reto complejo. Las
tecnologías big data han venido a dar solución a los problemas técnicos derivados de manejar grandes
cantidades de datos.

Sin embargo, una vez que se ha alcanzado cierta madurez con la tecnología, el foco pasa a otro reto que es tan
difícil o más que el técnico: ¿cómo se administra toda esta información?

En esta unidad se darán algunas pautas para responder a esta cuestión. Para ello se delinearán los pasos más
importantes de una posible hoja de ruta orientada a implementar políticas de gobierno del dato y se definirán
una serie de conceptos que guiarán a la hora de hacerlo.

Una vez establecidas estas bases, se verán algunos estándares y marcos relacionados con el gobierno del dato
que van a dar una serie de pautas.

Según Engels (2019), los estándares suelen abordar, en mayor o menor medida, las siguientes seis dimensiones
del gobierno del dato:

3/28
Gobierno del dato

Cumplimiento normativo

Grado de cumplimiento con los requisitos externos e internos en relación con la gestión y la protección de los
datos.

Seguridad

Estándares de seguridad, internos y externos, que se aplican.


Quién puede acceder a qué datos.
Qué hacer si se produce una brecha de seguridad.

Arquitectura y herramientas

Soporte para el gobierno del dato ofrecido por las diferentes soluciones de software.
Qué estándares utilizar para la implementación técnica y la selección de las herramientas utilizadas.

Procesos

Cómo se mueven los datos dentro de la compañía.


Qué procesos de datos existen, internos y externos.
Cómo se comparten y utilizan los datos.
Cómo se decide cómo se gestionan y utilizan los datos.

Roles, tareas y responsabilidades

Qué roles internos existen en relación con los datos.


Quién es responsable de qué datos y procesos.
Qué roles existen, a nivel global de compañía, en el ecosistema de datos.

Activos: calidad y valor económico del dato

Cómo se identifican y definen los datos y su valor económico.


Estándares, a nivel global de la compañía, para la evaluación de los datos.
Cómo se aseguran los estándares de calidad de los datos.

De estas seis dimensiones se puede decir que una de ellas, la relativa a los datos como activo,
es decir como valor de negocio, ya se ha abordado en la unidad dedicada al impacto y valor del
big data. Por su lado, los aspectos relacionados con la dimensión del cumplimiento normativo
tienen mucho que ver con los temas vistos en la unidad dedicada a los aspectos regulatorios.
En la dimensión relacionada con la seguridad se mencionarán solo algunos aspectos
relacionados con el control del acceso a los datos. En cuanto a las otras tres dimensiones:
procesos; arquitectura y herramientas; roles, tareas y responsabilidades, se verán en esta
unidad con cierto detenimiento.

4/28
Gobierno del dato

II. Objetivos
Los principales objetivos de la unidad pueden resumirse de la siguiente manera:

Entender la importancia del gobierno del dato o, dicho de otra manera, entender qué problemas se encontrará
una empresa si no establece una estrategia de gobierno del dato.

Tener una hoja de ruta con los pasos necesarios para empezar a implementar políticas de gobierno.

Entender los principales componentes o conceptos que se encontrarán cuando se habla de gobierno del dato.

Conocer algunas herramientas que ayuden en estas tareas, subrayando una de código abierto como es Apache
Atlas.

Conocer algunos estándares relacionados con el gobierno del dato, por ejemplo, el DMBOK de DAMA, el de
IBM y el de DGI.

III. La importancia del gobierno del dato


Tal y como se mencionó en el módulo dedicado al tema del impacto y valor del big data, los lagos de datos
alrededor de los cuáles se implementan gran parte de los proyectos de big data y analítica avanzada presentan
algunas características fundamentales entre las que se pueden destacar las siguientes:

Almacenamiento de todos los datos

Una tecnología como Hadoop, por ejemplo, permite almacenar a un coste muy bajo todo tipo de información de
interés, ya sea estructurada, semiestructurada o no estructurada.

Esquemas en lectura

El esquema, es decir la estructura que han de tener los datos, se define a la hora de su utilización en vez de
tener que estar definido a priori a la hora de ser almacenados, como sucede en el caso de las bases de datos.

Estas dos características diferenciales respecto a los almacenes de datos tradicionales llevan
a otro modelo de trabajo. En este nuevo modelo todos los datos están en la plataforma
corporativa y se pueden leer, explorar y analizar de diferentes maneras en función de las
necesidades del momento. Se trata de un nuevo modelo basado en el autoservicio, que
democratiza el acceso a los datos dentro de la empresa.

5/28
Gobierno del dato

Cambio en el papel de la función IT

Esto conlleva, también, un cambio en el papel de la función IT o, dicho de otro modo, en las tareas del equipo de
personas que se encargan de la tecnología. Antes, estos profesionales tenían que actuar como intermediarios
en el acceso a la información. Ahora tienen que enfocarse sobre todo en la construcción y mantenimiento de la
infraestructura y los servicios que permitan a todos poder acceder a la información por sí mismos. En una cultura
corporativa que sea realmente data-driven, impulsada por datos, el lago de datos pasa a convertirse en el centro
de la actividad corporativa. El problema es que, sin un adecuado gobierno del dato, los lagos de datos pueden
convertirse más bien en “pantanos”.

En la figura uno se puede observar una representación de un lago de datos ideal donde:

Los datos en bruto son ingestados en el lago.

Los científicos de datos pueden extraer datos, relacionarlos entre sí y analizarlos.

Los datos pueden ser extraídos a otros almacenes de datos y ser utilizados para generar informes fiables.

Figura 1. Lago de datos

Figura 1. Lago de datos.

Fuente: data4v.com

En la figura dos hay un pantano de datos (data swamp en inglés), donde ocurre lo contrario:

6/28
Gobierno del dato

Los datos ya no están bajo control. No se sabe qué datos se han ingestado ni de dónde proceden.

Los datos que se pueden extraer ya no son de fiar.

Figura 2. El lago de datos es ahora, más bien, un “pantano”

Figura 2. El lago de datos es ahora, más bien, un “pantano”.

Fuente: data4v.com

Para que un lago de datos no acabe convertido en un pantano de este tipo, la solución es apostar por un adecuado
gobierno del dato dentro de la organización.

IV. Pasos hacia el gobierno del dato


Una serie de pasos que pueden seguir las compañías para evitar los fallos derivados de una falta de gobierno son
los siguientes:

Levantar la infraestructura.

Montar el clúster y ponerlo en marcha.

7/28
Gobierno del dato

Organizar el lago de datos.

Crear zonas para ser usadas por diferentes tipos de usuarios.


Hacer la ingesta de datos.

Preparar el lago de datos para autoservicio.

Crear un catálogo de datos.


Establecer permisos.
Proveer herramientas para que las utilicen los analistas.

Abrir el lago de datos a los usuarios.

A continuación, se verá con más detalle cada uno de estos pasos.

4.1. Levantar la infraestructura


En los últimos años es relativamente frecuente encontrarse con empresas que construyen sus lagos de datos
directamente en la nube o que tienen clústeres híbridos, es decir, una parte de los nodos son locales (on-
premises) y otra parte está en la nube.

Otro caso frecuente es el de empresas que tienen múltiples lagos de datos. Esto lleva a la necesidad de
redefinir el concepto y de ahí que estén apareciendo lagos de datos lógicos, donde existe una capa de lago de
datos virtual sobre sistemas múltiples heterogéneos. Estos sistemas que están por debajo de la capa virtual
pueden ser de diferentes tipos: on-premises o en la nube. En la figura tres se muestran tres variantes de
arquitecturas.

En las tres opciones, el lago de datos tiene asociado un componente esencial de un gobierno
del dato, como es el catálogo de datos. Este permite que los usuarios sean capaces de
encontrar la información fácilmente, independientemente de donde esté físicamente (Gorelik,
2019).

8/28
Gobierno del dato

Figura 3. Tres arquitecturas de lagos de datos: local (on-premises), en la nube y lógico.


Fuente: elaboración propia basada en Gorelik (2019).

4.2. Organizar el lago de datos


Los lagos de datos pueden tener diferentes estructuras en función de las preferencias y necesidades de la
organización.

Una estructura habitual es la que se muestra en la figura cuatro, donde se puede observar que el lago de datos está
formado por cuatro zonas principales:

La zona de datos en bruto o de aterrizaje (landing en inglés)

La zona de trabajo (work) donde tiene lugar el procesamiento de los datos

La zona dorada (golden zone) donde se dejan los datos ya procesados y listos para ser utilizados.

En la zona sensible estarían aquellos datos que son especialmente delicados y con los que deben tenerse
precauciones especiales.

9/28
Gobierno del dato

Figura 4. Las zonas típicas de un lago de datos

Figura 4. Las zonas típicas de un lago de datos.

Fuente: Gorelik (2019).

En los últimos años, ha tomado fuerza la idea de que el gobierno del dato debe adaptarse en función de la
localización y del uso que se le va a dar a la información. A las diferentes zonas les correspondería, según
esto, diferentes niveles de gobierno y niveles de servicio (SLAs), tal y como se muestra en la tabla uno.

Tabla 1. Diferentes niveles de gobierno y acceso según el tipo de zona

Tabla 1. Diferentes niveles de gobierno y acceso según el tipo de zona.

Fuente: elaboración propia.

4.3. Preparar el lago de datos para autoservicio

10/28
Gobierno del dato

Los científicos de datos, y los analistas de la empresa en general, deberán poder acceder a los datos en modo
autoservicio. Para ello, el equipo de TI tendrá que encargarse de facilitar las actividades necesarias.

Estas pueden resumirse en los puntos que se enumeran a continuación, donde se subrayan
aquellos elementos de gobierno del dato que son característicos de cada una de ellas.

Encontrar los datos y comprenderlos

En una empresa suelen existir multitud de bases de datos y de conjuntos de datos con información,
cuyo conocimiento, por lo general, está compartimentado. Muchas veces, una persona ignora por completo que
existe determinada información o, si accede a ella, a veces es difícil que pueda interpretar adecuadamente
su contenido.

Esto se consigue con un catálogo de datos que permita tener los datasets correctamente documentados, con
descripciones fáciles de entender, utilizando términos estandarizados extraídos de diccionarios de negocio.
Todo ello indexado para que sea fácil encontrar la información. Los catálogos de datos pueden crearse y
mantenerse de manera manual, aunque últimamente están surgiendo diferentes herramientas que facilitan estas
tareas, algunas que requieren un trabajo manual intensivo y otras que utilizan técnicas de aprendizaje automático
para facilitar la labor.

Permisos y acceso a los datos

Una vez que los analistas disponen de un buen catálogo de datos que les permite encontrar los datasets que
necesitan, deben solicitar el acceso a los mismos indicando el propósito, el proyecto en el que se van a utilizar y
durante cuánto tiempo será necesario el acceso. Los administradores o data stewards darán acceso físico a
los datos solamente durante el tiempo solicitado. Si es necesario, los datos se tratarán previamente,
anonimizándolos, por ejemplo, para evitar el acceso indebido a información de carácter personal.

Proveer las herramientas y servicios necesarios para que los utilicen los analistas

El equipo de TI debe proveer todo lo necesario para que los usuarios del lago de datos puedan llevar a cabo las
operaciones necesarias. A continuación, se hará un resumen de estas.

Preparación de los datos

Una vez que el científico de datos tiene acceso a los datos requeridos, por lo general tendrá que proceder a
prepararlos llevando a cabo una serie de operaciones como las siguientes:

Transformaciones

Unir datos procedentes de diversos ficheros o tablas.


Agregaciones.
Transformaciones de campos.

11/28
Gobierno del dato

Limpieza

Imputar valores que faltan.


Corregir valores incorrectos.
Resolver conflictos entre los datos.

Normalización

Unificar esquemas.
Utilizar los mismos estándares y unidades de medida para los valores de los campos.

Análisis

Una vez que los datos están preparados, el científico de datos puede proceder a su exploración y análisis
llevando a cabo tareas como estas:

Explorar los datos.


Definir hipótesis y diseñar experimentos.
Crear modelos de analítica avanzada usando, por ejemplo, aprendizaje automático.
Evaluar y validar modelos analíticos.
Comparar modelos.
Desplegar los modelos en producción.

Visualización e informes

Crear visualizaciones que ayuden a entender los datos y a soportar las conclusiones.
Crear informes donde se presenten los resultados obtenidos y las conclusiones.

V. Componentes y herramientas de gobierno del dato

5.1. El catálogo de datos


E l catálogo de datos es un componente fundamental en toda estrategia de gobierno del dato, ya que
proporciona varias ventajas fundamentales:

Permite que todos los datos puedan ser encontrados por los usuarios.

Sirve como punto unificado de control de acceso, gobierno y auditoría.

12/28
Gobierno del dato

Facilita, en caso necesario, la construcción de un modelo de federación en clústeres híbridos, donde algunos
nodos están on-premises y otros en la nube.

Respecto a este último punto, en la figura tres vista anteriormente, se mostraba de manera
gráfica el catálogo de datos como punto unificado de acceso a la información en un clúster
híbrido.

Existen diversos proveedores de herramientas para construir catálogos, por ejemplo:


Watson Knowledge Catalog de IBM, AWS Glue de Amazon o Apache Atlas. Esta última es un
proyecto de código abierto desarrollado por Hortonworks, que se verá más adelante cuando se
hable de las herramientas para el gobierno del dato.

5.2. Los datos maestros


En una empresa suele suceder muchas veces que una misma entidad está representada en diferentes sitios y
en ocasiones con campos inconsistentes entre sí.

Para evitar esto, se recurre a los datos maestros que actúan como fuente de autoridad o fuente
de la verdad. Los datos maestros representan entidades o conceptos que son importantes para
la empresa: clientes, empleados, proveedores, distribuidores, productos, activos, etc.

Representan esta información de una manera completa, coherente, actualizada y correcta. Existen herramientas de
gestión de datos maestros que se encargan de realizar las funciones necesarias:

Resolución de entidades

Armonización de los datos según esquemas unificados y coherentes.

Resolución de conflictos

Consolidación de registros maestros conteniendo la representación que todo el mundo debe tomar como
referencia a la hora de trabajar con las entidades.

Entre los proveedores de herramientas MDM (master data management) tradicionales, se puede destacar a IBM,
Oracle e Informatica. Últimamente, están surgiendo, además, nuevos competidores que apuestan por una
automatización mayor de estos procesos utilizando aproximaciones innovadoras basadas en muchos casos en
aprendizaje automático.

5.3. Repositorios de metadatos


Los metadatos son datos acerca de datos. Suelen utilizarse fundamentalmente para dos cosas:

13/28
Gobierno del dato

Encontrar datos

Los metadatos pueden utilizarse para explorar o encontrar datos que tengan asignada determinada categoría,
etiqueta, etc.

Rastrear el linaje del dato

Existen regulaciones que pueden obligar a las empresas a documentar de dónde provienen los datos, es decir:
cuál es su fuente original y a qué transformaciones y procesos se han visto sometidos. Los metadatos pueden
utilizarse para facilitar esta labor.

5.4. Diccionarios, taxonomías y ontologías


El diccionario de datos o glosario de negocio

Recoge los diferentes términos representados por los datos incluyendo su nombre y una descripción.

L a s taxonomías y ontologías van un paso más allá que los diccionarios y permiten representar relaciones
complejas entre los conceptos representados por los datos:

La taxonomía representa una jerarquía de objetos donde el hijo es una subclase del padre y por lo general se
relaciona con este mediante una relación de tipo is-a.

La ontología es más elaborada que la taxonomía y representa más tipos de relaciones, por ejemplo, is-a y has-a.
Una empresa puede definir sus propias ontologías o bien utilizar algunas de las ya existentes para diferentes
sectores como ACORD (seguros), FIBO (finanzas), etc.

Los diccionarios, taxonomías y ontologías son utilizados, una vez definidos, para etiquetar convenientemente los
datos.

5.5. Herramientas para el gobierno de datos


Hemos mencionado algunos de los proveedores principales de herramientas de software utilizadas para facilitar el
gobierno del dato: IBM, Oracle, Informatica, etc. Entre las opciones de código abierto, cabe destacar Apache
Atlas.

Apache Atlas

Atlas es un proyecto de código abierto desarrollado inicialmente por Hortonworks y ofrecido ahora por Cloudera
(después de que este proveedor de distribuciones de Hadoop absorbiera a Hortonworks en 2018). En la figura
cinco se puede ver un esquema de cómo se integra Atlas con otras herramientas del ecosistema Hadoop.

14/28
Gobierno del dato

Figura 5. Atlas está integrado en Cloudera, una de las distribuciones más conocidas del ecosistema Hadoop.

Fuente: Cloudera.

Atlas ofrece funcionalidad, entre otras cosas, para lo siguiente:

Definir metadatos.

Clasificar entidades o atributos (para indicar la información sensible, por ejemplo).

Trazar el linaje.

Buscar datos.

Garantizar la seguridad ya que, junto a la herramienta Ranger, permite control de acceso, enmascarar ciertos
datos, etc.

En la página dedicada a Atlas, Cloudera define así su funcionamiento:

“Apache Atlas se ha diseñado para intercambiar metadatos eficazmente en Hadoop y otros ecosistemas
de datos más amplios. El modelo adaptativo de Atlas reduce el tiempo necesario para lograr el
cumplimiento aprovechando los metadatos existentes y la taxonomía específica del sector. Con Atlas, los
administradores y gestores de datos también tienen la capacidad de definir, anotar y automatizar la
captura de relaciones entre conjuntos de datos y los elementos subyacentes, entre los que se incluyen la
fuente, el destino y los procesos de derivación.

15/28
Gobierno del dato

Atlas también garantiza la consistencia de los metadatos posteriores en todo el ecosistema al permitir
que las empresas exporten fácilmente sus metadatos a sistemas de terceros”.

https://es.cloudera.com/products/open-source/apache-hadoop/apache-atlas.html

Para una revisión de las principales herramientas que permiten gestionar catálogos de datos,
se recomienda la lectura del siguiente artículo:

“The 19 best data catalog tools and software for 2020”.

VI. Marcos de gestión de datos


L a gestión de datos abarca multitud de actividades, objetivos y responsabilidades. Se trata de un campo
complejo que puede entenderse y gestionarse mejor con la ayuda de un marco adecuado.

Estos marcos (frameworks en inglés) proporcionan una visión global y, por otro lado, ayudan a
ver las diferentes piezas y las relaciones entre ellas. Sirven de inspiración y sientan las bases
para que luego se puedan plantear estrategias, desarrollar hojas de ruta, organizar equipos y
definir funciones.

Existen unos pocos marcos o modelos de gobierno entre los que destacan tres: el del Data Governance
Institute (DGI), el de proceso unificado del gobierno de datos de IB M y el dado por el DMBOK de DAMA
International. En los siguientes apartados se aportará información de cada uno de ellos.

6.1. DGI
Según el Data Governance Institute (DGI)

El gobierno del dato no es un fin en sí mismo, sino algo necesario para asegurar la calidad del dato y contribuir a
tomar decisiones efectivas y ofrecer servicios de calidad. Desde este punto de vista, las tecnologías de la
información y el gobierno del dato están al servicio del negocio y su función es ayudar a este a gestionar la
información.

Según el modelo DGI, un programa orientado al gobierno del dato tiene siete fases y 10
componentes.

Las siete fases son:

16/28
Gobierno del dato

Desarrollar una propuesta de valor.

Preparar una hoja de ruta.

Planear y dotar de presupuesto.

Diseñar el programa.

Desplegarlo.

Gobernar los datos.

Monitorizar, medir e informar.

Los 10 componentes son los que se muestran en la figura seis, y se clasifican en tres categorías, que son las
siguientes:

17/28
Gobierno del dato

Figura 6. Los 10 componentes de un programa de gobierno del dato según el DGI

Figura 6. Los 10 componentes de un programa de gobierno del dato según el DGI.

Fuente: Thomas (2006).

Reglas

1. Misión y visión.
2. Metas, métricas de gobierno y de éxito.
3. Reglas para los datos y definiciones.
4. Potestad para tomar decisiones.
5. Responsabilidades.
6. Controles.

Personas y organizaciones

7. Interesados en lo relativo a los datos.


8. Oficina de gobierno del dato.
9. Administradores o custodios del dato (data stewards).

Procesos

10. Procesos proactivos, reactivos y en curso.

18/28
Gobierno del dato

Puede decirse que el marco propuesto por DGI trata de compaginar una visión a largo plazo, haciendo
hincapié en la importancia de definir claramente los objetivos y el alcance las iniciativas, con una visión que
proporcione resultados visibles a corto plazo.

6.2. IBM
El marco propuesto por IBM surge a partir de la visión de la corporación de cómo debería ser un lago de datos,
con los conceptos de metadatos y catálogos de datos en el centro de la propuesta.

Libro rojo

En el libro rojo (Chessell et al., 2018) se comenta que hace falta una nueva generación de catálogos de datos y
herramientas de gobierno construidas sobre estándares abiertos que se adapten a las particularidades de los
lagos de datos.

¿Qué es un lago de datos en el modelo de IBM?

En el modelo de IBM, que se ve representado en la figura siete, un lago de datos puede considerarse como un
conjunto de repositorios o almacenes rodeados de una serie de servicios que se apoyan sobre una base de
gobierno y gestión de la información.

Figura 7. Servicios clave en el modelo de lago de datos de IBM.

Fuente: Chessell et al. (2018).

El servicio de catálogo de datos está en el corazón del lago. Permite que los usuarios encuentren la información
y sirve como punto de acceso y control. El catálogo consta de los siguientes tipos de metadatos:

Metadatos de gobierno

Definen los glosarios o diccionarios de negocio.

19/28
Gobierno del dato

Metadatos técnicos

Definen los activos con los que trabajan las aplicaciones y los procesos de transformación de datos.

Metadatos operacionales

Definen información relacionada con las operaciones de datos y el linaje de estos.

IBM

Considera que las herramientas relacionadas con el gobierno del dato pueden pertenecer a cinco etapas por
las que una empresa va transitando desde una etapa inicial a una etapa de madurez.

Estas etapas son las siguientes:

Catalogación

Etapa inicial donde la empresa tiene catalogados todos los datos. Esto le permite saber qué datos hay y dónde
están.

Definición de gobernanza

En esta etapa, los requisitos y controles están vinculados a los catálogos. Esto define de manera clara y
concreta cómo deberían ser gobernados los datos.

Gobernanza operacional

En esta etapa se llevan a cabo puntos de control y una serie de validaciones. El uso de herramientas de
automatización provee cobertura y consistencia en los controles realizados.

Gobernanza controlada por el negocio

En esta etapa, la gobernanza operacional del punto anterior es controlada desde las definiciones de
gobernanza y la información contenida en los catálogos de datos.

Empresas data-driven

En esta etapa se ha conseguido llegar a un punto donde el lago de datos está adecuadamente gobernado, de
tal manera que las decisiones se toman de manera habitual a partir de la información extraída de él.

Tal y como se muestra en la figura ocho, una organización debería evolucionar desde una etapa inicial basada
simplemente en la catalogación de datos a una etapa final de plena madurez correspondiente a una empresa data-
driven.

20/28
Gobierno del dato

Figura 8. Modelo de madurez de gobierno del dato de IBM

Figura 8. Modelo de madurez de gobierno del dato de IBM.


Fuente: Chessell et al. (2018).

En su proceso de desarrollo orientado a la implementación de un software de gobierno, IBM ha apostado por


protocolos abiertos y código open source:

Metadatos abiertos

Apuesta por el uso de protocolos abiertos relacionados con almacenes de datos y datos contenidos en ellos,
instrucciones sobre cómo procesar cada tipo de dato, detalles sobre cómo mejorar o corregir datos o procesos,
etc.

Apache Atlas

Apuesta por este proyecto de código abierto como punto de partida a partir del cual ir desarrollando una
solución completa de gobierno.

6.3. El DMBOK de DAMA


El Data management body of knowledge (DMBOK)

Contiene una serie de conceptos y buenas prácticas que ayudan a mejorar la gestión de los datos en las
empresas. Fue publicado por la organización DAMA en 2009 como resultado de la colaboración de un conjunto
de profesionales relacionados con la gestión de datos. En 2017 se publicó la segunda versión. El DMBOK va
más allá del gobierno del dato, puesto que abarca todo lo que tiene que ver con la gestión del mismo.

La llamada “rueda DAMA” (DMBOK) resume de la siguiente manera todas las piezas que deben componer una
buena estrategia de gestión del dato:

21/28
Gobierno del dato

Arquitectura de datos

Tiene que ver con la estructura, tanto física como lógica, que tienen los datos dentro de la organización y con sus
relaciones.

Diseño y modelado de datos

Se entra en el detalle de los modelos de datos, por ejemplo, el diseño de las bases de datos.

Operaciones y almacenamiento de datos

Tiene que ver con los procesos llevados a cabo con los datos y el almacenamiento de los mismos.

Seguridad de los datos

Tiene que ver con la privacidad, los accesos permitidos y, en general, con todo aquello que afecta a la
seguridad.

Integración e interoperabilidad

Todo lo relacionado con procesos ETL, migraciones y conversiones de datos, compartir datos, etc.

Documentos y contenidos

Área de conocimiento relacionada con el acceso a los repositorios de contenidos y documentación relacionada
con los datos.

Datos de referencias y datos maestros

Todo lo relacionado con referencias y datos maestros que permiten tener datos consistentes que sirven como
fuente de la verdad en toda la empresa.

Almacenes de datos e inteligencia de negocio

Áreas relacionadas con la gestión del procesamiento de datos analíticos, descubrimiento de datos, etc.

22/28
Gobierno del dato

Metadato

Todo lo relacionado con los metadatos, clasificados en tres categorías:

Metadatos técnicos: información sobre estructuras de datos.


Metadatos de negocio: información sobre valores válidos, reglas de negocio, etc.
Metadatos de auditoría: información sobre quién ha creado el registro, fecha de creación, etc.

Calidad del dato

Área relacionada con cómo definir y mantener la integridad de los datos, completitud, consistencia, etc.

El DMBOK tiene como vocación servir como punto de partida, aunque reconoce claramente que es solo un
punto de arranque y que el avance real vendrá dado a medida que se vayan aplicando sus ideas y aprendiendo
de la experiencia.

6.4. Gartner
En la figura diez se muestra un resumen del modelo para un gobierno del dato propuesto por la consultora Gartner.

Figura 10. Modelo para un gobierno del dato.


Fuente: elaboración propia basada en Sanjeev Mohan (2018) de Gartner.

Google toma como referencia este modelo para recomendar una serie de principios y buenas prácticas para el
gobierno del dato en la nube:

Descubrimiento del dato y evaluación

Procesos utilizados por la empresa para saber qué datos contiene el lago de datos. Se trata de identificar los
activos de datos, rastrear y registrar su origen, conocer el linaje, las transformaciones que se han aplicado,
metadatos, etc.

23/28
Gobierno del dato

Clasificación del dato y organización

El perfilado del dato ayuda a conocer estadísticas relacionadas con estos. La clasificación permite categorizar
el dato en función de qué información sensible contiene, si se trata de datos personales, etc.

Catálogos y gestión de los metadatos

Se recomienda que los catálogos de datos contengan metadatos, así como los niveles de información sensible
para saber qué políticas aplicar.

Gestión de la calidad del dato

Conviene proveer los medios para documentar las expectativas relacionadas con la calidad de los datos y las
técnicas y herramientas para validarlos.

Gestión del acceso al dato

Es necesario definir identidades, grupos, roles y asignar los correspondientes derechos de acceso.

Auditorías

Es recomendable hacer auditorías periódicas con objeto de comprobar la efectividad de los controles y
comprobar la seguridad.

Protección de datos

Además de los esfuerzos para mantener la seguridad y prevenir accesos no autorizados, se recomienda
implementar mecanismos adicionales de protección de los datos una vez expuestos: encriptación en reposo y
en tránsito, enmascaramiento de datos, etc.

VII. Resumen

En esta unidad se ha visto qué se entiende por gobierno del dato, tanto desde una perspectiva pública y global
como desde un punto de vista corporativo. Explicamos la importancia del gobierno del dato viendo qué ocurre
cuando no hay unas políticas efectivas que sirvan de base a su implementación. Lo que sucede entonces es que
los lagos de datos se convierten rápidamente en “pantanos” haciendo que la información ya no sea fiable. Este
implica un alto coste y unos riesgos que ninguna empresa se puede permitir, y menos en un mundo donde las
regulaciones que buscan proteger la privacidad de las personas son cada vez más exigentes.

24/28
Gobierno del dato

También se han definido una serie de conceptos que son claves a la hora de implementar un gobierno del dato y
que están siempre presentes cuando se habla de este tema: diccionarios de datos, metadatos, catálogos de
datos, datos maestros, etc. Y se han mencionado algunas herramientas de software que ayudan a trabajar con
estos conceptos. Destaca entre ellas Apache Atlas por ser un software de código abierto que ha ganado el
respaldo de proveedores como Cloudera o IBM.

Estos conceptos suelen estar presentes de una manera u otra en los distintos marcos de gobierno del dato. Se
han visto algunos de los principales: el de DGI, el de IBM y el DMBOK. Los tres proponen una serie de
conceptos y modelos orientados a dar una visión global de lo que es necesario tener en cuenta cuando se habla
de gobierno del dato. Son marcos que sirven sobre todo como referencia y como punto de partida, ya que
ayudan a tener una visión del panorama que es necesario abarcar cuando se habla de una disciplina tan
compleja como es esta.

25/28
Gobierno del dato

Ejercicios

Caso práctico

Enunciado
A continuación, se describen una serie de problemas que se producen de forma habitual en las empresas que
trabajan con datos.

Una empresa no es capaz de justificar a un auditor cómo ha llegado a obtener un dato a partir del
procesamiento de los datos de las fuentes originales.

Los usuarios de negocio desconocen qué datos hay disponibles en el lago de datos corporativo.

Existen datos sensibles de los clientes que pueden ser accedidos por todo el personal de la empresa.

En los datos que llegan de un determinado sensor, falta la información de la temperatura. Cada departamento
rellena esos datos faltantes aplicando el criterio que considera más conveniente.

Todos los datos que se guardan en el lago de datos son considerados igual de sensibles, por lo que se toman
las mismas medidas de seguridad con todos ellos.

No existe una única fuente de la verdad en la empresa para ningún tipo de dato. Cada departamento trabaja con
su propia versión de los datos.

Se pide
Clasificar cada uno de estos problemas en una de las siguientes categorías de gobierno del dato:

a. Calidad del dato.


b. Catálogos de datos.
c. Gestión de datos maestros (MDM).
d. Gestión del acceso.
e. Linaje del dato.
f. Clasificación.

Solución

26/28
Gobierno del dato

1) a)

El linaje del dato, es decir, la trazabilidad de todas las operaciones realizadas a partir de las fuentes originales,
es un requisito esencial para las empresas y, en especial, para aquellos datos que puedan ser objeto de
auditorías.

2) b)

Los catálogos de datos proporcionan la información necesaria para que cualquier usuario sea capaz de buscar
y descubrir la información que le resulte relevante.

3) d)

El acceso a los datos sensibles debe limitarse al máximo y permitirse solo cuando es estrictamente necesario.

4) a)

La aplicación de diferentes políticas en cuanto a los datos faltantes dará lugar a problemas relacionados con la
calidad del dato.

5) f)

Es importante hacer una correcta clasificación de la información lo antes posible, atendiendo especialmente a
su carácter sensible, de manera que se apliquen en cada caso las políticas de seguridad y acceso que sean
más convenientes.

6) c)

Existen ciertos tipos de datos en una empresa que deben ser considerados como datos maestros. Se trata por
lo general de datos críticos para la empresa de los que debe existir una única versión, o fuente de la verdad, de
manera que se reduzcan al máximo posibles inconsistencias.

27/28
Gobierno del dato

Recursos

Bibliografía
Publicación :

Google. Principles and best practices for data governance in the cloud. [En línea] URL disponible en: https://s
ervices.google.com/fh/files/misc/principles_best_practices_for_data-governance.pdf
Publicación :

The 19 best data catalog tools and software for 2020. [En línea] URL disponible en: https://solutionsreview.co
m/data-management/the-best-data-catalog-tools-and-software-for-2020/ Repaso a una lista de herramientas
y software para trabajar con catálogos de datos
Publicación :

Dama Internacional. https://www.dama.org/cpages/home Sitio web de DAMA, asociación dedicada a todo


lo relacionado con la gestión y el gobierno del dato.
Publicación: Chessell, M.: Scheepers, F.: Strelchuk, M.: van der Starre, R.: Dobrin, S.: Hernandez, D. The
journey continues: 2018.
Publicación: Dama International. DAMA-DMBOK: data management body of knowledge. Technics
Publications, LLC: 2017.
Publicación: Engels, B. Data governance as the enabler of the data economy. Intereconomics, 54(4), 216-
222: 2019.
Publicación: Gorelik, A. The enterprise big data lake: delivering the promise of big data and data science.
O'Reilly Media: 2019.
Publicación: Royal Society. Data management and use: governance in the 21st century. A British Academy
and Royal Society project: 2017.
Publicación: Thomas, G. The DGI data governance framework. The Data Governance Institute, Orlando, FL
(USA), 20: 2006.

Glosario.
Activo: conjunto de todos los bienes con valor monetario que pertenecen a una organización o individuo.

Catálogo de datos: listado que indica qué datos posee la organización junto a una descripción y dónde
encontrarlos.

Datos maestros: datos que presentan una vista unificada de una entidad que constituye la fuente de la
verdad para toda la empresa.

Diccionario de datos: glosario con los términos usados por negocio y sus definiciones.

Metadatos: datos sobre datos que pueden aludir a diferentes aspectos de estos.

Repositorio: almacén o depósito donde se guardan datos.

28/28

También podría gustarte