Está en la página 1de 6

Gobierno de Datos y la Seguridad a entornos Big Data

1.1. Introducción
Big Data es una de esas tecnologías disruptivas que de hecho está cambiando cómo ver y usar la
información. Es uno de los principales cambios en el uso de la información debido a los grandes
volúmenes de datos que se encuentran en las redes sociales. En el pasado las organizaciones
tendrían que esperar días, semanas y a veces de forma tardía poder detectar las respuestas del
consumidor a las campañas de publicidad y producto. Ahora con entornos de redes sociales como
Facebook y Twitter, las reacciones instantáneas y viscerales para campañas de marketing pueden
ser capturadas y analizadas. No es simplemente el tamaño y la diferencia de volúmenes de Big
Data, también en su inmediatez. Evaluar correctamente las diferentes implicancias del Big Data en
el manejo de la información es muy importante, por lo que primero necesitamos revisar las
dimensiones de Big Data:

Datos Internos Estructurados: Por ej. El Alto volumen de datos, Como la lectura inteligente que
mide los pases de la tarjeta de acceso al transporte público.

Datos Internos No Estructurados: Por ej. Datos de seguimiento de Clic del cliente, Tweets y
mensajes internos, Gestión de documentos como documentos legales.

Datos Externos Estructurados: Por ej. Alto volúmenes de datos como la ingesta de proveedores
externos.

Datos Externos No Estructurados: Por ej. Actividad de Redes Sociales.

Cada tipo de datos tendrá un conjunto diferente de descubrimiento, control y patrones de uso en
la organización que tenga impactos significativos del control de la información sobre propiedad de
datos, administración de datos, calidad de datos y gestión de metadatos.

Hay que considerar que Big Data convive con los sistemas transaccionales y no los reemplaza. Al
contrario, Big Data debe abordarse desde una mirada de Big Data integrado como agregación de
dos o más tipos de datos grandes, por ejemplo, integrar datos estructurados externos como
Twitter y datos internos estructurados como un cliente de la tabla en una base de datos relacional.

El Ciclo de vida de Big Data se divide en tres etapas las que permiten dar cobertura a todas las
actividades que debes ser considerada en el ámbito de Big Data y los datos que estas tecnologías
pueden gestionar. Las etapas son:

1.2. Fase Big Data Discovery


Big Data Discovery corresponde a la investigación y análisis de nuevas fuentes de información que
pueden entregar un conjunto de conocimiento y sabiduría en la organización.
1.2.1. El Rol del Data Steward en Big Data
Uno de los temas principales de este curso es aumentar el valor de manejo de la información a la
organización más amplia. Esto se logra a través del manejo de la información en el proceso de
desarrollo. Otro enfoque importante es aprovechar al Data Steward en funciones más allá del
control tradicional de la información. Este tipo de análisis de datos no ha sido por lo general la
competencia de los data steward, sino de científicos datos, analistas de negocios y analistas de
asignación de e integración de datos. Sin embargo, si uno considera la comprensión de un Data
Steward, las definiciones de datos y reglas de negocio de una organización y su conocimiento de
las áreas de dominio, los Data Stewards son en algunos casos el rol mejor calificado en una
organización para llevar a cabo el descubrimiento para el uso de Big Data.

Las principales actividades en la etapa de Big Data Discovery son:

• Revisión cada nueva gran fuente de datos por tipo


• Entender los principales temas de Big Data
• Identificar patrones de uso potencial
• Seguridad desde una perspectiva de seguridad de información
o ¿Son datos seguros de usar?
o ¿Es legal usar estos datos?

Se espera que el Data Steward para el área de negocio particular sería responsable de trabajar con
los actores técnicos y de negocios en el proceso de descubrimiento, pero el Data Steward es
también responsable de liderar cada una de estas actividades y tareas.

El Data Steward conduce la Fase de Descubrimiento, las tareas de manejo de la información típicas
en cualquier nueva creación de datos en la organización (o uso) como definición de datos,
propiedad de datos, criterios de calidad de datos y retención de datos

1.2.2. La paradoja del Big Data y el Data Steward


Típicamente un Data Steward es parte del área de negocio que genera y analiza los datos de una
función específica en la organización, Por ejemplo: El Chief Marketing Officer es el responsable de
los datos de los datos transaccionales de Ventas y Marketing, estas definiciones y reglas de
negocio son fácilmente creadas, puestos en operación e incorporados a la estructura de datos de
la organización. La pregunta es ¿Cómo sería una organización con datos gobernados hacer cumplir
las normas de propiedad de datos para datos no estructurados externos como Twitter y
Facebook?

En el siguiente capítulo examina cómo capturar y aplicar controles de Data Governance en Big
Data.

1.3. Fase Big Data Control


Antiguamente las organizaciones generaban sus análisis de gestión sobre su información
transacción y estructurada, la cual es de fácil entendimiento y comprensión, el alcance actual de
los datos que hoy manejan las empresas se expande desde información obtenida desde un XML o
la web, bajo este contexto para Big Data el reto del manejo correcto de los datos desde la
perspectiva de control también expande el enfoque que estas deben adoptar para el uso de los
datos dentro y fuera de la organización.

El Big Data Control, o etapa de Control se define como el enfoque en el manejo de la información
para integrar Big Data para el uso de la organización de un modo seguro que garantice el máximo
beneficio sin riesgo indebido. Determina cómo integrar mejor Big Data en la organización, tanto
desde la perspectiva técnica y de seguridad. Los cuatro tipos de datos (Datos Estructurados
internos y externos, Datos No estructurados internos y externos) de Big Data generan las preguntas
"¿quién posee los datos?" y "¿Cómo es administrado"?

El ejemplo de Facebook es que la “Organización Facebook” es responsable de administrar su


entorno. Cómo son responsables del contenido y de la actividad en su plataforma aún está en
cuestionamiento. Por un lado, Facebook puede declarar e informar todas las políticas y
procedimientos sobre el uso de los datos, pero al final de cuentas el contenido es creado por
millones de usuarios y cada uno de acuerdo a la utilización que desee darle. ¿Cómo puede una
organización efectivamente controlar y utilizar esta información de manera segura y controlada?
El tema es que las empresas siempre han utilizado datos externos a través de la adquisición de
datos para análisis de campañas de Marketing y otros propósitos. El Data Ownership Big Data
debe diferenciar los datos externos vs internos en términos de creación, pero será consistente en
cuanto a la definición, uso y retención.

1.3.1. Controlando Big Data a través de procesos de Ingesta


En los procesos de Ingesta o Admisión de datos para entornos Big Data se determinará los niveles
de propiedad basados en cómo estos se integrarán con la organización. Esto dependerá de cómo
la organización dirige el uso de la información.

1.3.2. Área Staging para Big Data Discovery


Muchas organizaciones establecen entornos Hadoop para almacenar Petabytes de información
para la etapa de Big Data Discovery. Esto trae consigo el de desafío entre el control/seguridad y el
descubrimiento. A menudo ocurre que el Gobierno de Datos controla demasiado y podría reprimir
el descubrimiento de Big Data.

El enfoque no debe pretender poner sobre todo los controles de Big Data para la obtención de
datos nuevos que entran al medio ambiente. Una vez la información potencialmente útil ha sido
identificada, entonces deben aplicarse los típicos procesos de Data Governance antes de la
obtención de estos nuevos datos dentro de un proceso iterativo, los controles que deben aplicarse
en Big Data son:

Definición de Datos: Debe ser aplicada a los datos encontrados dentro de Big Data para los que se
pretenden utilizar en el curso de propósitos transaccionales o analíticas. Estos datos deben pasar a
través de todo el rigor de que negocio y definiciones técnicas, criterios de calidad de datos,
requerimientos de retención de datos y propiedad de datos.

Calidad de Datos: Como se indica en la Definición de Datos, que de los datos que se descubre y el
cómo serán utilizados de manera continua debe tener criterios de calidad de datos definidos. Es
útil para entender cómo se ha generado el Big Data para entender si hay criterios de Calidad de
Datos implícitas (o explícitas de hecho) que pueden ser recogidos y aprovechados dentro de la
organización.

Seguridad: El Control de la Seguridad en el entorno de Big Data debe basarse en las fuentes y tipos
de información. El mismo tipo de cuidado que se aplica a datos estructurados para ciertos zonas
que se aplicarían con este patrón de uso y los mismos tipos de controles deben ser revisados y
forzados por el Chief Information Security Officer (CISO). Cada fuente de datos debe ser
considerada y revisada por el CISO, antes de uso en la organización. Esta seguridad debe
considerar:

• Higiene de datos – ¿qué tipo de datos es? ¿qué tan confiable es? ¿Podría contener ocultos virus
Troyanos o gusanos que podrían poner en peligro el ambiente interno de la TI?

• Controles reglamentarios: ¿es aceptable usar los datos? ¿Violan las leyes de privacidad del
consumidor?

Retención: Es a menudo el análisis de Big Data es útil por un tiempo limitado. Esta hipótesis debe
ser verificada y si no es el caso, se debe definir un método para almacenar y recuperar estos
análisis. Deben establecerse políticas de actualización y eliminación para estos entornos no
difieren de los entornos de gestión de información tradicional.

1.3.3. Integración de Big Data


El segundo patrón de Big Data integra los hallazgos de datos en los entornos de Staging dentro de
la organización, dentro de los ambientes de Business Intelligence para poder ampliar o crear
nuevos análisis. Big Data que debe integrarse en el conjunto más amplio de datos organizacionales
debe tener controles de manejo de la información aplicados en el punto de integración. Esto
incluye:

Definición de Datos: Definición de Datos técnicos y de negocio deben aplicarse a los orígenes de
datos de Big Data similar tal como a los datos transaccionales. Para el Big Data que se obtendrá de
forma continua, los Data Steward deberían trabajar con stakeholders apropiados para aprovechar
(si está disponible) las definiciones comerciales y técnicas externas para proporcionar el estándar
interno de Data Governance para esos datos.

Calidad de Datos: Para Big Data siendo traído en e integrado en el entorno más amplio de gestión
de información se recomienda que sigue el mismo enfoque de Calidad de los Datos como otros
datos. Los criterios de calidad de datos son conducidos por el objetivo, obligando así a todas las
fuentes, independientemente de sus niveles de calidad de los datos, para tener un nivel constante
de Calidad de Datos.

Seguridad: Muchas de las preocupaciones de la seguridad externa ya se han abordado cuando el


entorno de Staging para Big Data fue seleccionado. En caso que existan preocupaciones para para
la seguridad interna estos deben centrarse en la integración del nuevo Big Data.

Retención: Aunque es poco probable que ampliar la información existente con Big Data va a
cambiar los requisitos de negocio para la retención de datos, debe ser considerado y
documentado. Este análisis también debe considerar el costo beneficio en el caso de la inclusión
de Big Data cambia significativamente las cantidades de datos extendidas en la organización.
1.4. Uso de Big Data
El uso de Big Data definirá como los Data Steward ayudarán a conducir a la unidad de negocio
aportando el valor de las nuevas fuentes de datos de Big Data. Primero es importante examinar lo
que se tan diferente sobre el uso de Big Data en comparación con lo que las organizaciones han
estado haciendo durante los últimos 20 años. Uno de los problemas actuales con los entornos de
Business Intelligence ha sido el problema de latencia. Cuando la mayoría de los profesionales
piensan en inteligencia de negocios, visualizar la maduración de la disciplina de recopilación de
datos transaccionales periódicamente para producir informes y recoger datos transaccionales
periódicamente para producir análisis que permiten análisis mediante técnicas de "perforar" (“drill
through”).

Mientras que las empresas se han beneficiado de hecho de las capacidades ampliadas de informes
estáticos de analítica tradicional, siempre ha sido un problema de retardo o latencia. Hace 20 años
la latencia a menudo significaba informes son ejecutados y no están listos hasta final de mes. Big
Data ofrece una inmediatez a datos que no ha experimentado antes en las organizaciones y se
abre un sinfín de nuevas oportunidades que no habían sido considerados, ya que no habían sido
posibles. Ayudar a las organizaciones coincide con estas nuevas oportunidades con las nuevas
capacidades del uso del Big Data que son el objetivo de los Data Steward.

2. DAMA la guía de soporte para el Information Governance y la Gestión de


Datos
La Asociación de Gestión de Datos (DAMA Internacional) es la principal organización de datos
para los profesionales de todo el mundo. DAMA International es una organización
internacional sin fines de lucro, con más de 7500 miembros en 40 capítulos en todo el mundo.
Su objetivo es promover el entendimiento, desarrollo y práctica de la gestión de datos e
información para apoyar las estrategias de negocio.

DAMA International entrega la guía DAMA-DMBOK siendo una introducción definitiva para la
Gestión de Datos la cual presenta brevemente los conceptos y se identifican los objetivos de
gestión de datos, funciones y actividades, entregables, roles primarios, los principios, la
tecnología y las cuestiones de organización / culturales.

Como introducción definitiva, los objetivos de la Guía DAMA-DMBOK son:

1. Para construir un consenso para una vista de aplicación general de las funciones de
gestión de datos.
2. Para proporcionar las definiciones estándar de funciones de uso general de gestión de
datos, entregables, roles y otra terminología.
3. Para identificar los principios para la gestión de datos de guía.
4. A la vista general buenas prácticas comúnmente aceptadas ampliamente, métodos y
técnicas adoptadas y enfoques alternativos significativos, sin referencia a los
proveedores de tecnología específica o sus productos.
5. Para identificar brevemente los problemas organizativos y culturales comunes.
6. Para aclarar el alcance y los límites de la gestión de datos.
7. Para guiar a los lectores a recursos adicionales para una mayor comprensión.
El Marco funcional del DAMA nace después de identificar las siguientes necesidades:

• Un modelo de proceso integral y comúnmente aceptado para la función de gestión de


datos, la definición de una vista estándar de actividades.

• Un entorno de la organización, incluyendo los objetivos, principios, actividades, roles,


entregables principales, la tecnología, habilidades, métricas y estructuras organizativas.

• Un marco estándar para la discusión de cada aspecto de la gestión de datos en una cultura
de organización.

A continuación las diez funciones principales que promueve DAMA-DBOK para la Gobernanza de
Datos:

Referencias Bibliográficas:

 The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK)


 Performing Information Governance: A Step-by-Step Guide to Making Information
Governance Work

También podría gustarte