Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ejercicios de práctica
1
Privacidad de datos
Capacidad de individuos para determinar cuándo, cómo y en qué medida la información sobre ellos
se usa o divulga a otros. Los datos se obtienen y se pasan a repositorios centralizados a los cuales
no todos los usuarios internos pueden acceder, esto es para cuidar los datos personales por las
políticas de acceso.
Son las prácticas que empleamos a través de las personas, procesos y tecnología para proteger la
información, minimizar el potencial de una violacion de datos o compromisos de seguridad.
2
Estados del dato
Hay muchas formas de clasificar los datos, una es dependiendo de los estados del dato:
Referenciales: Es cualquier tipo de datos utilizados para clasificar otros elementos de datos.
Son los códigos de cada producto o cliente, útiles para categorizar a otros. Categorizan a
otros dentro de la empresa y son requeridos para crear los transaccionales.
(Ej: lista de códigos, jerarquías de productos, etc)
Transaccionales: aquellos datos que surgen de las transacciones; por ejemplo, venta,
transferencia, logística, compra. Cambian todo el tiempo. Son generados por las
transacciones que se relacionan de distintas maneras al negocio (Ej: facturas, órdenes de
compra, etc)
3. AGREGADOS: incluye las métricas de negocio, son medidas que se utilizan para cuantificar
el rendimiento o el progreso.
Para crear una métrica se combinan otros datos en pos de un objetivo planteado. Es un
dato crudo que es transformado para cumplir específicamente con un objetivo planteado
4. SMART: métrica de negocio puesta a disposición de un objetivo de negocio. Por ejemplo los
KPI. Muchos de estos son utilizados en tiempo real.
3
Arquitectura Empresarial
DISPOSICIÓN
CAPTURA
ALMACENAMIENTO
CONSU
MO
● ODS (operational data store): Proporciona una interfaz o plataforma central para todos los
datos operativos utilizados por los sistemas y aplicaciones empresariales. Está diseñado para
integrar datos de múltiples fuentes con los que realizar operaciones.
● Data Marts: Agrupo en áreas temáticas (de finanzas, de contabilidad, etc). Un data mart es
una versión específica del data warehouse centrados en un tema o un área de negocio dentro
de una organización.
● Cubes: pre-procesa y deja listo para ser utilizado. A partir de ahí se hacen reportes o
dashboards. Un cubo es una estructura de datos que supera las limitaciones de las bases de
datos relacionales y proporciona un análisis rápido de datos. Los cubos pueden mostrar y
sumar grandes cantidades de datos, a la vez que proporcionan a los usuarios acceso.
Asegurar a los usuarios de negocio que los datos listos para su consumo son precisos, consistentes
y están actualizados.
4
(2) Big Data
En la arquitectura del Big Data se realiza el proceso de ETL y se evalúa el modelo. Por eso, el primer
componente es Ingest, donde se ingresan los datos y se vuelcan en el Data Lake. El Data Lake es
una solución flexible de administración de datos donde se encuentran lo más desagregados y
voluminosos posibles y están orientados a un análisis científico. Luego se Integra, se Explora y, por
ultimo, se Evalúa el Modelo.
En big data la información está en su estado más cruda, no hay mucho dato agregado ni mucho
segmentado por cliente. Consume muchos recursos y es complejo por lo que no es algo que se
puede democratizar tanto en la organización.
Data Lake
El concepto de data lake entra con el de big data: destinado a mucha información. Es una solución
flexible que permite explorar de una manera rápida grandes volúmenes de datos, con costo muy
bajo. Permite hacer pruebas de ensayo y error muy fácilmente. No es un reemplazo de DW.
Un data lake es un repositorio de almacenamiento que contiene una gran cantidad de datos en bruto.
Son soluciones de gestión de datos híbridos de última generación que pueden hacer frente a los
retos de big data y que impulsan nuevos niveles de analítica en tiempo real.
En la capa de big data tengo una ingesta de información, lo integro, lo exploro y hago modelos.
A partir de un DL yo puedo explorar, evaluar modelos analíticos de ciencia de datos, y a partir de ahí
puedo los visualizo, hago minería, o machine learning.
Lake: mas info, mas barato, no estructurado, big data. Es para cosas más de data scientist o analyst.
Predictivo y prescriptivo.
Warehouse: Estructurado y orientado al negocio, más focalizado. Suele estar creada de manera
relacional y estructurada. Es menos flexible que un lake.
Descriptiva y de diagnóstico
5
Metadata
Es la información que describe datos reales en sí mismos. Es todo aquello que define el dato.
(1) Negocio: Presentación de los metadatos para el usuario de negocio de manera tal que entiendan
los datos, y pueda tomar decisiones estratégicas de negocio.
- Modelo conceptual
- Modelo lógico de datos
- Dominio de negocio
(términos y conceptos)
- Subdominio
(elemento de datos)
- Reglas de negocio
- Atributos
- Entidad
Ej: contacto del cliente compuesto por mail y teléfono, datos de ubicación compuesto por nombre,
apellido del cliente, calle, número, localidad, estado, país. datos sociodemográficos
Se habla de keys, columnas donde está, campos, fuente principal, reglas definidas para el dato,
nombres bajo los cuales puede ser accedido.
- Modelo físico
- Tabla
- Campo/columnas
- Sistema
- Modelo físico de datos
- Regla de movimiento de datos
- Programa de movimiento de datos
(3) Operacional/de navegación: describen la relación de datos y sus movimientos dentro de los
ambientes. Cómo se transforma el dato, explicar qué reglas de transformación hay, bajo qué tipo de
consulta. ¿Cómo corre y se ejecuta ese dato en la diaria?
Profesionales de operacion usan metadatos para verificar el estado de los procesos de carga de datos
- Sistema
- Interfaz
- Job
- Resultado de ejecución del job
6
Calidad del dato
Roles, estructura organizacional, procesos de monitoreo, medidas, remediación de issues de calidad,
políticas, procesos y procedimientos que impulsen la gobernabilidad de la información.
OBJETIVO
- Proporcionar los procesos, procedimientos y elementos de apoyo a la organización para la
construcción y el mantenimiento de las capacidades de gobernanza mejorada de datos.
- Definir y gestionar los estándares de datos para elementos de datos afectados por problemas
priorizados de calidad de datos
- Proporcionar controles periódicos y seguimiento de la calidad
- Definir arquitectura de información y las necesidades tecnológicas
VALIDEZ
Dato cumple con las validaciones implementadas. Asociada al tipo de dato técnico
(ejemplo 1) Un mail está escrito violetasaguier&gmail.com en vez de con @. Teléfono mal escrito: 4101-rt71.
UNICIDAD
El dato es único, no habrá uno repetido que valga lo mismo (no existen valores duplicados)
(ejemplo 1) dos códigos de cuenta en el mismo archivo maestro / un mismo código para dos productos distintos
/ un mismo lugar clasificado como dos cosas distintas
COMPLETITUD
El dato debe estar completo. Es siempre requerido basado en la condición de otro dato.
(ejemplo 1) Si el registro de un cliente viene sin dirección de habitación / O, si falta un dato
CONSISTENCIA
No hay contradicción con la definición de ese elemento.
(ejemplo 1) Mail mal escrito / La fecha de transacción es anterior a la fecha de apertura de la cuenta /
(ejemplo 2) Fecha de depósito anterior a la fecha de apertura de la cuenta
OPORTUNO
Problema de oportunidad. El dato representa información reciente producto de un evento del negocio
(ejemplo 1) Dirección o email desactualizado implica un problema de oportunidad.
(ejemplo 2) Fecha desactualizada.
EXACTO
El dato tiene un valor asignado correctamente (no puedo clasificar a una persona de 20 años como
jubilado, problemas de sesgo). La exactitud de clasificación dado un dato.
(ejemplo 1) “posee la casilla llena” porque es probable que la casilla no se esté usando.
PRECISO
El dato es solo usado para el propósito que se dió. Es decir, las características de un dato son bien
entendidas y correctamente utilizadas.
(ejemplo 1) Códigos de producto usados para diferentes propósitos en diferentes registros.
(ejemplo 2) Dos productos distintos con un mismo código de identificación
7
8
Segunda Parte
Roles y responsabilidades
Visión: Comité
Comunicar la visión de la empresa, mostrar compromiso y poder comunicar la importancia del
gobierno de datos y la necesidad de participación.
9
Arquitectura Empresarial (IT)
Área vertical gris del medio
➔ Conjuntos de dueños, gestores y custodios en IT.
➔ Tienen su propia lógica de negocio.
➔ Las áreas de IT de las organizaciones tienen equipos que están integrando datos.
➔ Construyen integraciones.
➔ El equipo de plataforma o infraestructuras monitorean que todos los ETL estén funcionando.
➔ Conocen todas las aplicaciones y deben controlar el ecosistema de tecnologías.
Gestores de Datos
Data Stewards
10
➔ Metidos en las aplicaciones y hace las definiciones del dato en el día a día
➔ Analista de datos que trabajó con reportes y define metadata y que se cumplan los controles
que se hacen.
- Análisis de mercado
- Estrategia de producto
- Ejecución de campañas
11
Procesos y procedimientos
enfocado en la medición operativa y de disciplinas de soporte:
➔ supervision y revision del modelo de gobierno
Administrar oficina de gobierno de datos, definir políticas operativas de gobierno, evaluar
efectividad del modelo, aplicar mejoras en el modelo operacional de gobierno.
Herramientas de soporte
Politicas y estandares
12
Una política de gestión de la información provee dirección estratégica y operacional, como un marco
de trabajo para tomar decisiones cuando existan puntos de vista en conflicto.
Dirige
Son guías y direcciones en caso de ausencia de una línea directa de autoridad
Estandariza
Asegura que las personas no tengan que seguir discutiendo los mismos asuntos; mayor eficiencia.
Asegura
Asegura el buen cumplimiento del Programa de Gestión de la Información
Primera cascada
- Qué necesita hacerse y documentarse para concretar determinado trabajo
- Se compone de declaraciones, procesos, procedimientos y registros de control
Segunda cascada
- Qué necesita hacerse y documentarse para estar en cumplimiento con requerimientos
legales y organizacionales
- Proviene de regulaciones, leyes, temas de seguridad, o necesidades específicas de la
empresa
13
Enfoque de la gestión del cambio
1. estrategia y gestión del programa de cambio elaboración de un plan integral de cambio que
acompañe los objetivos del proyecto
2. programa de liderazgo desarrollo de una red de líderes para involucrar a todas las áreas
a. Identificar los componentes clave que serán parte del programa de capacitación
14