Está en la página 1de 37

PROCESOS DE INTEGRACIÓN DE

DATOS

SUBSISTEMAS DE INTEGRACIÓN DE DATOS

Profesores
Ing. Tonysé De la Rosa Martín, Ms.C
tdelarosa@umet.edu.ec
CONTENIDO
• Concepto de Dimensión Lentamente
Cambiante.
• Los tipos de Dimensiones Lentamente
Cambiantes.
• Estrategias de carga de la Dimensiones
Lentamente Cambiantes.
• Concepto de llaves nulas y huérfanas.
• Tratamiento a las llaves nulas y huérfanas.
SUBSISTEMAS DE INTEGRACIÓN DE DATOS

CONCEPTO DE DIMENSIÓN LENTAMENTE


CAMBIANTE
CONCEPTO

Las dimensiones son tablas que categorizan


y describen los eventos medibles conocidos
como hechos. Sus columnas, o atributos
descriptivos, aportan las vistas de análisis o
de descripción de la información
almacenada en las tablas de hechos.
CONCEPTO
Dimensiones

No cambia en el tiempo Prospensa a cambio


EJEMPLO. CAMBIOS
En un A.D existe la dimensión dim_categorías_
ocupación. El 24-10-2012 la fuente de datos
incorpora la categoría trabajador no estatal. La
dimensión es de gran importancia en el análisis de
la información.
INTERROGANTE

¿Qué ocurriría si en la carga


de los datos llegan de la
fuente trabajadores con la
categoría trabajador no
estatal ?
CONTROL DE CAMBIOS

Si se realiza un control en dichos cambios se


mantendrá la realidad del negocio.

Por el contrario….

Existirá una gran pérdida en la explotación de los


datos de un almacén de datos si no se controlan los
cambios.
SUBSISTEMAS DE INTEGRACIÓN DE DATOS

ESTRATEGIAS DE CARGA DE LA DIMENSIONES


LENTAMENTE CAMBIANTES
ESTRATEGIAS DE CARGAS

Algunos cambios afectan un solo registro, ej. la


introducción de un nuevo clasificador de producto.

Otros cambios son relevantes y deben almacenarse


de manera histórica.

Hay casos en que se realizan reemplazos de los


datos viejos.
SUBSISTEMAS DE INTEGRACIÓN DE DATOS

LOS TIPOS DE DIMENSIONES LENTAMENTE


CAMBIANTES
TIPOS DE SCD

Para cada situación se puede aplicar una


estrategia diferente.

1.Actualización de registros

2.Inserción de nuevos registros

3.Realidades alternas en columnas


SCD TIPO 1.ACTUALIZACIÓN

Se sobre-escriben los valores de la dimensión con


los valores nuevos que vienen del Sistema
Operacional.

Este tipo es el más básico y no permite mantener


una traza de los cambios ocurridos en los datos ya
que siempre se actualizan los valores anteriores
con los nuevos.
SCD TIPO 1.ACTUALIZACIÓN

Tomemos como ejemplo la Dimensión


dim_condicion_victima, la cual almacena los tipos
de condición que pueden presentar las víctimas.

Ubicación: base de datos DWH, esquema public


SCD TIPO 1.ACTUALIZACIÓN

Por problemas de
codificación de la BD entre
los valores cargados se
encuentra el término “Sin
Lesión” sin embargo dice
en la dimensión “Sin
lesión”
SCD TIPO 1.ACTIVIDADES

1. Abrir la tabla de dim_condicion_victima


2. Abrir la transformación ubicada en la carpeta
SCD Tipo1.
3. Revisar la conexión y los componentes de la
transformación.
4. Ejecutar la transformación
SCD TIPO 1.ACTUALIZACIÓN
Después de haber aplicado el tipo de SCD explicado
queda de la siguiente manera:

Como se muestra no queda referencia alguna del


valor anterior del campo tipo_condicion = ‘Sin
lesión’ para el dim_condicion_id = 3
SCD TIPO 2. NUEVO REGISTRO

Se añaden nuevos registros a la dimensión con los


valores nuevos que vienen del Sistema
Operacional.
SCD TIPO 2. NUEVO REGISTRO
Se agrega un campo de versión u opcionalmente
dos columnas para capturar la fecha de inicio y final
de ese valor. Con este método se puede relacionar
fácilmente el período de tiempo para el cual es
válido cierto dato en la dimensión. Se genera
ilimitada información de cambios.
SCD TIPO 2. NUEVO REGISTRO

Es posible conocer los cambios realizados y seguir


la traza de cambios ya que se tienen los
identificadores provenientes del Sistema
Operacional y se puede ver cómo para un mismo
identificador, hay diferentes valores almacenados
en la dimensión en el transcurso del tiempo.
SCD TIPO 2. NUEVO REGISTRO
Usando la dimensión dim_escolaridad (base de
datos DWH, esquema public), que contiene los
niveles de escolaridad como se muestra a
continuación:
SCD TIPO 2. NUEVO REGISTRO

Si en el sistema operacional (nom_escolaridad base


de datos INE, esquema public) se cambia el nombre
‘Media Básica’ por ‘Secundaria Básica’ al realizar la
carga de esta dimensión, quedaría de la siguiente
forma:
Ejemplo
SCD TIPO 2. NUEVO REGISTRO

Como se muestra, queda la fila del valor


anterior del campo nombre_escolaridad y se
ha añadido una nueva fila con el nuevo valor
de ese campo, manteniéndose el id del
negocio.
SCD TIPO 2.ACTIVIDADES
1. Abrir la tabla dim_escolaridad
2. Abrir la tabla nom_escolaridad
3. Abrir la transformación ubicada en la carpeta
SCD Tipo2.
4. Revisar la conexión y los componentes de la
transformación.
5. Ejecutar la transformación
SCD TIPO 3. REGISTRO HISTÓRICO

Este tipo requiere de una columna para el valor


actual y otra para el valor anterior.
En caso que sea necesario mantener una cantidad
de valores anteriores se debe crear esa cantidad de
columnas para los valores anteriores que se desean
registrar.
SCD TIPO 3. REGISTRO HISTÓRICO

Con la nueva DPA estos municipios que


pertenecían a La Habana ahora forman parte de la
nueva provincia Artemisa, para implementar el tipo
SCD 3 quedaría de la siguiente forma:
SCD TIPO 3.ACTIVIDADES
1. Abrir tabla dim_dpa (base de datos DWH
esquema public) que será la fuente de datos.
2. Crear los campos que guardarán el registro
histórico en la tabla dim_dpa (base de datos
Tipo3 esquema public).
• provincia_nombre_anterior
• municipio_nombre_anterior
3. Abrir la transformación ubicada en la carpeta
SCD Tipo3. Revisar las conexiones.
SCD TIPO 3.ACTIVIDADES
1. Habilitar y ejecutar Paso 1.

2. Establecer la correspondencia entre el valor


anterior y el valor actual (Componente Insertar /
Actualizar Paso 2).

3. Desabilitar Paso 1.

4. Ejecutar Paso 2.
SCD TIPO 3. REGISTRO HISTÓRICO

Como se muestra, en el campo


provincia_nombre_anterior está el valor anterior y
en el campo provincia_nombre está el valor actual
que es el que tiene validez actual. Lo mismo para el
campo nombre_municipio.
LLAVES NULAS Y HUÉRFANAS

Nulas: No se especifica ningún valor en el


registro.

Huérfanas: Un registro huérfano es el que hace


referencia a otro registro que no existe por
ejemplo, un registro de un pedido que hace
referencia a un registro de un cliente que no
existe.
SUBSISTEMAS DE INTEGRACIÓN DE DATOS

TRATAMIENTO A LAS LLAVES NULAS Y


HUÉRFANAS
TRATAMIENTO A LAS LLAVES NULAS
TRATAMIENTO A LAS LLAVES NULAS
TRATAMIENTO A LAS LLAVES
HUÉRFANAS
TRATAMIENTO A LAS LLAVES
HUÉRFANAS

Cuando un valor no se encuentre entre los que se


tienen registrados en el almacén se le asignará el valor
“Otro color”
TRATAMIENTO LLAVES
NULAS Y
HUÉRFANAS.ACTIVIDADES
1. Abrir la transformación correspondiente.
2. Revisar las conexiones.
3. Previsualizar los datos hasta el componente Buscar-
dim_sexo (tratamiento de llaves nulas)
4. Previsualizar los datos hasta el componente Buscar-
dim_color_piel (tratamiento de llaves huérfanas)
5. Carga de los datos a la tabla hech_imputado
ESTUDIO INDEPENDIENTE
1. Estudiar el resto de los SCD que aparecen en la
bibliografía.

• SCD Tipo 0
• SCD Tipo 4
• SCD Tipo 6

También podría gustarte