Documentos de Académico
Documentos de Profesional
Documentos de Cultura
HERRAMIENTAS ETCL
AA5 – EV1
Sabemos que cuando realizamos una migración de base de datos con éxito la empresa
se beneficia de:
Datos reales
Plataformas actualizadas
Tecnologías de punta
Agilidad en la información
Seguridad de nuestras bases de datos
Reducción de errores
Eliminación de duplicidades e inconsistencias
Aunque para hablar de todo esto y lograr unos resultados exitosos es necesario darle la
importancia que la migración posee, y será necesario conceder la atención,
planificación tiempo y esfuerzo, pero sobretodo los recursos.
OBJETIVO GENERAL
OBJETIVOS ESPECIFICOS
Las herramientas más indicadas para llevar a cabo las migraciones de bases de datos se
ven representadas por las siglas ETL, las cuales corresponden a:
Extracción: la cual es un proceso el cual se toman los datos del sistema viejo a el sistema
origen.
Transformación: aquí a los datos se le aplican las diferentes reglas para que quede
adecuadamente convertido y preparado para el nuevo sistema.
Carga: ya con los datos convertidos y transformados se pueden cargar al nuevo sistema
en forma directa o por las diferentes etapas, teniendo en cuenta las diferentes
conexiones entre ellas.
1. CUADRO COMPARATIVO DE LAS DIFERENTES TÉCNICAS DE MIGRACIÓN DE DATOS
Import y Export de
Técnica Sincronización de BD Sentencias DML Procedimientos ETCL
archivos - Comandos
* Las tablas a sincronizar deben
Mediante esta Se basan en el diseño y
contener una columna de clave
Se utilizan archivos técnica se generan construcción de
principal.
Requerimientos planos, como: ASCII, ISO- scripts que procedimientos técnicos
* Se copian datos y metadatos de
Técnicos 8859-1 o Lantín-1 y permiten realizar la para realizar extracción,
una BD origen a una BD destino,
Unicode. migración de BD transformación, limpieza y
mediante una herramienta
existentes. cargue de datos (ETCL)
tecnológica.
+VENTAJAS
+VENTAJAS
* Aumento de la fiabilidad.
*Permite crear una MDM,
* Mejora en el rendimiento. +VENTAJAS
es decir un repositorio
* Mejora en la seguridad de los *Los archivos se
central estandarizado de
datos. encuentran separados +VENTAJAS
todos los datos de una
por columnas utilizando *Nos permite
organización.
-DESVENTAJAS "delimitadores", los manipular los datos
*Permite la toma de
* Una columna de identidad que no cuales identifican los de una BD,
decisiones estratégicas,
es una columna de clave principal campos de forma utilizando
basadas en análisis de
no puede sincronizarse. reconocible y estándar, comandos SELECT,
datos: Dama Mart o Data
* El tipo de datos datatime no se permitiendo la búsqueda INSERT, UPDATE y
Warehouse.
Ventajas y puede utilizar para una clave a través de registros de DELETE.
*Sirve para integrar
Desventajas principal. información.
sistemas.
* Las tablas máximas en un grupo -DESVENTAJAS
*Se puede tener una visión
de sincronización son de 500. -DESVENTAJAS * El rendimientos de
global de todos los datos
* las columnas máximas que una * En una BD de archivos los comandos antes
consolidaos en una DW.
tabla puede tener en un grupo de planos no existen mencionados
sincronización son de 1000. transacciones, lo cual es afectan
-DESVENTAJAS
* El intervalo mínimo de una desventaja para una negativamente por
* Alto costo inicial.
sincronización es de por lo menos usuario de red que los índices.
*La optimización, a veces
5 min. requiere procesos
está limitada debido a los
* La sincronización de datos SQL multiacceso y multitarea.
métodos de programación
no admite la autenticación de
genéricos.
Active Directory de Azure.
Es bastante
complejo, puesto
que realiza proceso
Tiempo para la Depende de la
Proporcional al tamaño de las BD. redundantes Es bastante complejo.
realización complejidad de la BD.
durante la
operación de
escritura.
Etapa separada de la
trasformación de datos.
Proceso que se realiza antes de la
Limpieza de Se realiza con Para ahorrar tiempo y
sincronización y es proporcional al Se realiza con facilidad.
datos facilidad. ganar efectividad al
tamaño de la BD
momento de unificar
criterios.
Facilita el movimiento de
Transformación Proceso que se realiza durante la Se realiza con los datos y la
Se realiza con facilidad.
de datos transmisión de datos al destino. facilidad. transformación de los
mismos.
Los costos
Los costos dependen de la
dependen de la
Los costos dependen de la Los costos dependen de herramienta que se utilice.
Costos complejidad de la
complejidad de la BD. la complejidad de la BD. Bastante costoso. Aunque
BD. Bastante
existen de uso libre.
costoso.
2. HERRAMIENTAS ETCL: DE USO LIBRE, PROPIETARIO Y DE SMBD SQL SERVER.
Extraer datos de múltiples fuentes (csv, txt, bases de datos, xls, xlsx, entre otros).
Uso de línea de comandos, funciones especiales:
-file=nombreArchivo
-logfile=nombreArchivoAcceso
La opción anterior permite especificar la ubicación del archivo de log. Por defecto es la
salida estándar.
-level=nivelAcceso
-rep=nombreCatalogo
Nota: Se deben especificar las opciones -user, -pass y -trans/-job que se describirán más
adelante. Los detalles del catálogo se cargan desde el archivo "repositories.xml" del
directorio local o del directorio de Kettle:
/home/<nombreUsuario>/.kettle/ or
C:\Documents and Settings\<nombreUsuario>\.kettle
-user=nombreUsuario
-trans=nombreTransformacion
-job=nombreTrabajo
Automatización de tareas:
la tarea se puede ejecutar desde el modo gráfico o desde la consola mediante comandos,
el comando y la salida para ejecutar una ktr (kettle transformation) es la siguiente:
slack@zion:~/programas/data-integration$ ./pan.sh/file:"/home/slack/desarrollo/appripley/metadata/pdi/skuloader.ktr"
/level:basic