Está en la página 1de 36

PROCESOS DE INTEGRACIÓN DE DATOS

TEMA 3: SUBSISTEMAS DE INTEGRACIÓN DE DATOS

Profesores
Ing. Doris Medina Mustelier
Ing. Yonelbys Iznaga Gonzalez Octubre de 2012
Ing. Yuneimy Tellez Perez
CONTENIDO
• Clasificación de los subsistemas de ETL
• Ejemplo práctico
• Perfilado de datos
• Extracción
SUBSISTEMAS DE INTEGRACIÓN DE DATOS

CLASIFICACIÓN DE LOS SUBSISTEMAS DE ETL


CLASIFICACIÓN DE LOS SUBSISTEMAS DE ETL

Extracción
Limpieza y conformación
Entrega
Gestión
SUBSISTEMAS DE EXTRACCIÓN (1/2)

Data profiling: consiste en la exploración de los


datos para verificar su calidad y si cumple los
estándares conforme a los requerisitos.
Change Data Capture (CDC): detecta los
cambios en la fuente de datos para refinar los
procesos ETL y mejorar su rendimiento.
SUBSISTEMAS DE EXTRACCIÓN (2/2)

Sistema de extracción: permite la extracción


de datos desde la fuente de origen a la fuente
destino.
SUBSISTEMAS - LIMPIEZA Y CONFORMACIÓN
(1/3)
Data Cleansing: implementa los procesos de
calidad de datos que permite detectar las
incoherencias de calidad.
Control de errores: captura todos los errores
que proporcionan información valiosa sobre la
calidad de datos y permiten la mejora de estos
SUBSISTEMAS - LIMPIEZA Y CONFORMACIÓN
(2/3)
Dimensiones de auditoría: permite crear
metadatos asociados a cada tabla. Estos
metadatos permiten validar la evolución de la
calidad de los datos.
Conformación: permite identificar elementos
equivalentes que permiten compartir
información entre tablas relacionadas.
SUBSISTEMAS - LIMPIEZA Y CONFORMACIÓN
(3/3)
Deduplicación: eliminar información
redundante de tablas importantes como cliente
o producto. Requiere cruzar múltiples tablas en
múltiples sistemas de información para
detectar el patrón que permite identificar
cuando una fila está duplicada.
SUBSISTEMAS - ENTREGA (1/3)
Slowly Changing Dimension (SCD):
implementa la lógica para crear atributos de
variabilidad lenta a lo largo del tiempo.
Surrogate Key: permite crear claves subrogadas
independientes para cada tabla.
Jerarquías: permite hacer inserciones en
estructuras jerárquicas de tablas.
SUBSISTEMAS - ENTREGA (2/3)
Pipeline de claves subrogadas: permite
remplazar las claves operacionales por las
claves subrogadas.
Contructor de tablas multivaluadas: permite
construir tablas puente para soportar las
relaciones N:M.
SUBSISTEMAS - ENTREGA (3/3)
Gestión para información tardía: permite
aplicar modificaciones a los procesos en caso
que los datos tarden en llegar.
Gestión de tablas de hecho: permite la gestión
de las tablas de hecho.
SUBSISTEMAS – GESTIÓN (1/5)
Programador de trabajos: permite gestionar
los procesos ETL de la categoría de trabajos.
Sistema de backup: realiza copias de respaldo
de los procesos ETL.
Reinicio y recuperación: permite reiniciar un
proceso ETL en caso de error.
SUBSISTEMAS – GESTIÓN (2/5)
Control de versiones: permite hacer control de
versiones de un proyecto ETL y de los
metadatos asociados.
Migración de versiones: permite pasar
proyectos en fase de prueba a producción
mediante versionado.
SUBSISTEMAS – GESTIÓN (3/5)
Monitorización de workflow: dado que un
proceso de ETL es un workflow, es necesario
monitorizarlos para medir su rendimiento.
Calibración: permite calibrar los procesos ETL
para mejorar su rendimiento.
Seguridad: gestiona el acceso a los procesos
ETL y metadatos.
SUBSISTEMAS – GESTIÓN (4/5)
Paralelismo / Clustering: permite el uso de
procesos en paralelo, grid computing y
clustering para mejorar el renidmiento y
reducir tiempo del proceso.
Repositorio de metadatos: captura los
metados de los procesos ETL, de los datos de
negocio y de los aspectos técnicos.
SUBSISTEMAS – GESTIÓN (5/5)
Linealidad y dependencia: identifica elementos
dependientes. Permite identificar las
transformaciones en las que participa o ha
participado. Permite la trazabilidad del dato.
Escalado de problemas: soporta la gestión de
incidencias.
SUBSISTEMAS DE INTEGRACIÓN DE DATOS

EJEMPLO PRÁCTICO
EJEMPLO PRÁCTICO
La seguridad ciudadana constituye la base principal para
el desarrollo de los pueblos, se considera una condición
necesaria para el funcionamiento de la sociedad y uno
de los principales criterios para determinar la calidad de
vida; es por ello que el país Jintuka ha decidido formar
un equpo de analistas y especialistas en temas de
Seguridad Ciudadana, que se encargarán de analizar
todos los datos que brindan los diferente Órganos de
Seguridad, así como proponer medidas al gobierno, tras
el estudio de los posibles factores que dan lugar a la
inseguridad de la población.
EJEMPLO PRÁCTICO

Los principales problemas que se identificaron en el país


fueron:
Ausencia a nivel nacional, de un Sistema de
Información Integrado sobre los órganos de seguridad
ciudadana.
Dificultad para lograr efectividad en las estrategias y
políticas en materia de seguridad; en muchos casos, se
debe a que se diseñan en base a hipótesis y
suposiciones por carencia de información fidedigna.
EJEMPLO PRÁCTICO

Ausencias de mecanismos centralizados que permitan


dar seguimiento y control, a políticas y estrategias en
relación con hechos y situaciones extraordinarias o
relevantes.
Limitaciones para el acceso a la información de las
bases de datos de los organismos de seguridad.
EJEMPLO PRÁCTICO

En esta primera fase del proyecto se cuentan con 4


fuente de datos las cuales son:

Policía Nacional.
Instituto Nacional de Estadística.
Dirección General Anti – Drogas.
Instituto Nacional Tránsito Terrestre .
ACTIVIDADES (1/3)

Realizar el perfilado de los datos de la fuente Instituto


Nacional Tránsito Terrestre apoyándose en las
potencialidades de la herramienta Excel.

a) Dar resultado estadístico de la calidad de datos


estableciendo el estado de la fuente e identificar las
reglas de transformación.
ACTIVIDADES (1/3) - RESPUESTA
Distribución de los tipos de datos
Campo Tipo de dato
id_incidencia Entero Fecha
chapa Cadena 11%
conductor Cadena Enteros
tipo_incidencia Cadena 33%
fech_incidencia Fecha
num_victimas Entero
marca Cadena
Cadenas
modelo Cadena
56%
ci Entero
ACTIVIDADES (1/3) - RESPUESTA
Campo: id_incidencia
Descripción: valor numérico consecutivo que
identifica a una incidencia en la fuente de
datos.
Problema de calidad detectado: --
Reglas de transformación: --
ACTIVIDADES (1/3) - RESPUESTA
Campo: chapa
Descripción: valor de tipo cadena que
identifica un vehículo.
Problema de calidad detectado: --
Reglas de transformación: --
ACTIVIDADES (1/3) - RESPUESTA

Campo: conductor
Descripción: nombre y apellidos de la
persona propietaria del vehículo involucrado.
Problema de calidad detectado: registros
que contiene valor «null»
Reglas de transformación: cuando conductor
= ‘null’ entonces buscarNombre(CI)
ACTIVIDADES (1/3) - RESPUESTA

Campo: tipo_incidencia
Descripción: tipos de incidencias identificadas
– valores nomenclados.
Problema de calidad detectado: ocurrencias
diferentes para el mismo valor(Decomiso, Dec.,
Dec)
Reglas de transformación: convertir estas
ocurrencias a un solo valor (Decomiso)
ACTIVIDADES (1/3) - RESPUESTA

Campo: fech_incidencia
Descripción: fecha cuando ocurrió la
incidencia.
Rango fecha: 2003 - 2012
Problema de calidad detectado: --
Mascara de fecha: mm/dd/yyyy

Importante: a través del análisis de esta variable, se debe determinar


los valores de la dim_temporal a cargar.
ACTIVIDADES (1/3) - RESPUESTA

Campo: marca & modelo


Descripción: marca y modelo de los
vehículo
Problema de calidad detectado: valores
nulos
Reglas de transformación: sustituir los
valores nulos por ‘desconocido’
ACTIVIDADES (2/3)
Realizar la extracción y carga de los datos e
implementar el Change Data Capture (CDC) de la fuente
Policía Nacional.

a) Establecer el mapa lógico de los datos.


b) Determinar el método de CDC a utilizar.
c) Implementar el método de CDC identificado.
ACTIVIDADES (2/3) – RESPUESTA A)

a) Establecer el mapa lógico de los datos.


Tabla destino Campo destino Tabla origen Campo Origen
hech_hecho_delictivo dim_delegacion_id tb_hecho_delictivo sdlg_id
hech_hecho_delictivo dim_fecha_id tb_hecho_delictivo hdlt_fechaocurrencia
hech_hecho_delictivo dim_dpa_id tb_hecho_delictivo municipio
hech_hecho_delictivo dim_hora_id tb_hecho_delictivo hora_ocurrencia
hech_hecho_delictivo dim_rango_monto_id tb_hecho_delictivo hdlt_monto
hech_hecho_delictivo dim_motivo_id tb_hecho_delictivo mtv_id
hech_hecho_delictivo dim_tipo_arma_id tb_hecho_delictivo tarm_id
ACTIVIDADES (2/3) – RESPUESTA B)
a) Determinar el método de CDC a utilizar.
Tipos de CDC
 Campo Timestamps o valor numérico auto-incrementar
 Campo sobre la versión de la columna.
 Campo con los indicadores de estado en las filas.
 Columna de tiempo/Versión/estado
 Utilización de triggers sobre las tablas.
 Utilización de los logs de la BD.
ACTIVIDADES (2/3) – RESPUESTA B)
1. Insertar los metadatos necesarios para la gestión del
cambio en función de la técnica seleccionada (campo
de tiempo).
2. Seleccionar los rango de tiempo para determinar los
datos a cargar.
3. Realizar la consulta de los datos a cargar en el rango de
tiempo seleccionado.
4. Actualizar los rangos de tiempos para próximas cargas.
ESTUDIO INDEPENDIENTE

Realizar una caracterización de los siguientes


subsistemas.
 Control de errores
 Dimensiones de auditoría
 Conformación
 Llaves subrogadas
 Jerarquías
PROCESOS DE INTEGRACIÓN DE DATOS

TEMA 3: SUBSISTEMAS DE INTEGRACIÓN DE DATOS

Profesores
Ing. Doris Medina Mustelier
Ing. Yonelbys Iznaga Gonzalez Octubre de 2012
Ing. Yuneimy Tellez Perez

También podría gustarte