Está en la página 1de 14

VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y

HERRAMIENTAS ETCL

ALCALDIA DE SAN ANTONIO DEL SENA

AA5 – EV1

Aprendices: Yenisse Pardo Ariza


Programa: (1881789) – Especialización Tecnológica Gestión y Seguridad de BD
Instructor Vocero: Candelaria Victoria Suarez Beleño
Instructor de Apoyo: Adriana Cristina Castilla López
Instructor de Apoyo de Ficha: Belkis Milena Guell Muñoz
Sede: Centro Nacional Colombo Alemán – SENA. Regional Atlántico
Fecha: 16 de septiembre de 2019
CONTENIDO
INTRODUCCIÓN ........................................................................................................................................................... 3
OBJETIVO GENERAL .................................................................................................................................................. 5
OBJETIVOS ESPECIFICOS ........................................................................................................................................ 5
DESCRIPCIÓN DEL PROBLEMA............................................................................................................................ 6
¿QUE ES LA MIGRACIÓN DE BASES DE DATOS? .......................................................................................... 7
1. CUADRO COMPARATIVO DE LAS DIFERENTES TÉCNICAS DE MIGRACIÓN
DE DATOS ............................................................................................................................................. 9
2. HERRAMIENTAS ETCL: DE USO LIBRE, PROPIETARIO Y DE SMBD SQL
SERVER............................................................................................................................................... 11
2.1. DE USO LIBRE. ..................................................................................................................... 11
INTRODUCCIÓN

Decimos y estamos seguros que la migración de base de datos no es simplemente copiar


las tablas o datos de un sistema a otro, ni mucho menos podemos decir que es fácil
hacerlo ya que este es un proceso complejo que cuenta con sus determinadas fases y
sobretodo que requiere tiempo, este tiempo se define dependiendo de qué tan grande
sea nuestra base de datos.
Es importante que tengamos en cuenta porque vamos a realizar la migración y
sobretodo que y cuáles son sus pautas.

En un abrir y cerrar de ojos nos damos cuenta que ya se presentan diferentes


plataformas, sistemas, aplicaciones o el simple cambio de tecnología y esta es una de las
tantas causas a impulsar que se presenten este tipo de proyectos. La decisión de la
realización de la migración llega a reducir, consolidar infraestructuras o simplemente
optimizar procesos.
Cualquiera de los motivos que anteriormente mencionamos pone a la empresa en la
circunstancia de migrar los datos del sistema que posee a un sistema nuevo.

Algunas veces al hablar de una migración de bases de datos cometemos el error de


subestimarla, cuando en realidad desde el principio es complejo se hace muy evidente
desde que comenzamos a hablar de ella, ¿Cómo podemos lograr una migración o hablar
de una migración exitosa? para que la migración de bases de datos sean exitosa es
necesario contar con todo el equipo de sistemas y sobretodo del apoyo de los que
manejan las bases, cada transformación y cada validación de los datos se hace antes de
realizar la migración y el resultado será sometido a las pruebas correspondientes para
demostrar que funciona y así poder ser cargado o migrado al nuevo sistema para evitar
errores.

Sabemos que cuando realizamos una migración de base de datos con éxito la empresa
se beneficia de:
 Datos reales
 Plataformas actualizadas
 Tecnologías de punta
 Agilidad en la información
 Seguridad de nuestras bases de datos
 Reducción de errores
 Eliminación de duplicidades e inconsistencias

Aunque para hablar de todo esto y lograr unos resultados exitosos es necesario darle la
importancia que la migración posee, y será necesario conceder la atención,
planificación tiempo y esfuerzo, pero sobretodo los recursos.
OBJETIVO GENERAL

Conceptualización sobre técnicas de migración y herramienta ETCL.

OBJETIVOS ESPECIFICOS

֍ Conocer las distintas técnicas de migración de datos.


֍ Conocer las herramientas ETCL que existen, tanto genéricas como las
proporcionadas por el SMBD.
֍ Identificar las características de un proceso de migración.
DESCRIPCIÓN DEL PROBLEMA

La actualización tecnológica es una de las preocupaciones constantes en cualquier


entorno de producción, sin embargo, se debe asegurar que las aplicaciones, la
información y los equipos existentes sean compatibles con las nuevas tecnologías
adquiridas. Lo anterior nos conduce a identificar la importancia que tiene conocer e
interpretar adecuadamente la estructura que deben poseer nuestros datos, los
servicios que soportan y los requerimientos de la organización.

La planeación detallada de un servicio de migración de datos permitirá minimizar los


riesgos de pérdida de información, las amenazas sobre la integridad de los datos y la
disminución del ritmo habitual de productividad durante el proceso de transporte de
datos. En resumen, en esta actividad de aprendizaje conoceremos los descrito en los
objetivos específicos.
¿QUE ES LA MIGRACIÓN DE BASES DE DATOS?

La migración de bases de datos es el cambio de datos de un sistema a otro sistema, esto


puede ser provocado por la llegada de otra aplicación, un cambio de almacenamiento o
cambio de modo o simplemente se puede decir que es un proceso por el cual grandes
volúmenes de bases de datos son trasladados desde un sistema existente hacia un
sistema nuevo, en el cual deberemos abarcar varios pasos para limpiar, corregir y
mover varios datos a un nuevo sistema.
Al cambiar, modificar, actualizar una base de datos, los datos necesitan ser preservados
en el nuevo sistema, por tal motivo necesita y debe ser transformado al formato
correspondiente para el nuevo sistema y este debe ser preservado al presente sistema.
El proceso de migración de bases de datos es sumamente delicado como para ser
elaborado o preservado en un ambiente de pruebas debido a todos los datos a manejar,
las tablas y las relaciones que entre ellas se poseen.
Esta migración de bases de datos se hará en el momento que verdaderamente estemos
seguros de que la migración tendrá un éxito, sin ningún problema de interpretación de
datos ni perdida de ningún dato, es ahí donde lo podremos pasar a un entorno de
producción, porque tenemos que tener en cuenta que si se realiza mal una migración
de datos podría dar por terminada una estructura de información completa y adecuada
o simplemente generarnos errores.
Para hacer una buena migración de datos tenemos que tener en cuenta diferentes
aspectos para que durante el proceso de migración no tenga ninguna afectación o se
dañe la base, para ello es necesario tener presente una planificación, una analítica de la
base de datos, una aplicación, testing, la migración, evaluación, contador de registros,
mapeador de tipos de datos, restricciones y triggers, codificación de caracteres.

Las herramientas más indicadas para llevar a cabo las migraciones de bases de datos se
ven representadas por las siglas ETL, las cuales corresponden a:
 Extracción: la cual es un proceso el cual se toman los datos del sistema viejo a el sistema
origen.
 Transformación: aquí a los datos se le aplican las diferentes reglas para que quede
adecuadamente convertido y preparado para el nuevo sistema.
 Carga: ya con los datos convertidos y transformados se pueden cargar al nuevo sistema
en forma directa o por las diferentes etapas, teniendo en cuenta las diferentes
conexiones entre ellas.
1. CUADRO COMPARATIVO DE LAS DIFERENTES TÉCNICAS DE MIGRACIÓN DE DATOS

Import y Export de
Técnica Sincronización de BD Sentencias DML Procedimientos ETCL
archivos - Comandos
* Las tablas a sincronizar deben
Mediante esta Se basan en el diseño y
contener una columna de clave
Se utilizan archivos técnica se generan construcción de
principal.
Requerimientos planos, como: ASCII, ISO- scripts que procedimientos técnicos
* Se copian datos y metadatos de
Técnicos 8859-1 o Lantín-1 y permiten realizar la para realizar extracción,
una BD origen a una BD destino,
Unicode. migración de BD transformación, limpieza y
mediante una herramienta
existentes. cargue de datos (ETCL)
tecnológica.
+VENTAJAS
+VENTAJAS
* Aumento de la fiabilidad.
*Permite crear una MDM,
* Mejora en el rendimiento. +VENTAJAS
es decir un repositorio
* Mejora en la seguridad de los *Los archivos se
central estandarizado de
datos. encuentran separados +VENTAJAS
todos los datos de una
por columnas utilizando *Nos permite
organización.
-DESVENTAJAS "delimitadores", los manipular los datos
*Permite la toma de
* Una columna de identidad que no cuales identifican los de una BD,
decisiones estratégicas,
es una columna de clave principal campos de forma utilizando
basadas en análisis de
no puede sincronizarse. reconocible y estándar, comandos SELECT,
datos: Dama Mart o Data
* El tipo de datos datatime no se permitiendo la búsqueda INSERT, UPDATE y
Warehouse.
Ventajas y puede utilizar para una clave a través de registros de DELETE.
*Sirve para integrar
Desventajas principal. información.
sistemas.
* Las tablas máximas en un grupo -DESVENTAJAS
*Se puede tener una visión
de sincronización son de 500. -DESVENTAJAS * El rendimientos de
global de todos los datos
* las columnas máximas que una * En una BD de archivos los comandos antes
consolidaos en una DW.
tabla puede tener en un grupo de planos no existen mencionados
sincronización son de 1000. transacciones, lo cual es afectan
-DESVENTAJAS
* El intervalo mínimo de una desventaja para una negativamente por
* Alto costo inicial.
sincronización es de por lo menos usuario de red que los índices.
*La optimización, a veces
5 min. requiere procesos
está limitada debido a los
* La sincronización de datos SQL multiacceso y multitarea.
métodos de programación
no admite la autenticación de
genéricos.
Active Directory de Azure.
Es bastante
complejo, puesto
que realiza proceso
Tiempo para la Depende de la
Proporcional al tamaño de las BD. redundantes Es bastante complejo.
realización complejidad de la BD.
durante la
operación de
escritura.
Etapa separada de la
trasformación de datos.
Proceso que se realiza antes de la
Limpieza de Se realiza con Para ahorrar tiempo y
sincronización y es proporcional al Se realiza con facilidad.
datos facilidad. ganar efectividad al
tamaño de la BD
momento de unificar
criterios.
Facilita el movimiento de
Transformación Proceso que se realiza durante la Se realiza con los datos y la
Se realiza con facilidad.
de datos transmisión de datos al destino. facilidad. transformación de los
mismos.
Los costos
Los costos dependen de la
dependen de la
Los costos dependen de la Los costos dependen de herramienta que se utilice.
Costos complejidad de la
complejidad de la BD. la complejidad de la BD. Bastante costoso. Aunque
BD. Bastante
existen de uso libre.
costoso.
2. HERRAMIENTAS ETCL: DE USO LIBRE, PROPIETARIO Y DE SMBD SQL SERVER.

2.1. HERRAMIENTAS ETCL DE USO LIBRE.

 Nombre del Producto y Versión:

Pentaho Data Integration, fundado en el 2001 por RichardDaley, bajo la organización


“Hitachi Vantara”, que es la compañía creadora, PDI es hecha en Java con un conjunto
de herramientas responsables de los procesos de Extracción, Transformación y Carga.
Es una herramienta de código abierto, multiplataforma (Window, Linux, Mac) desde la
versión 2.2.0 que fue liberado al dominio público bajo la licencia (Licencia Pública
General Reducida, o LGPL), utiliza la componente “Spoon” que es el diseñador gráfico
de transformaciones y trabajos del sistema, también cuenta con una versión comercial.
PDI no sólo sirve como una herramienta ETL, sino que también se utiliza para otros
propósitos, como la migración de datos entre aplicaciones o bases de datos, la
exportación de datos a bases de datos a archivos planos, entre otras. La versión de
código abierto de PDI se puede descargar en el siguiente enlace:
https://sourceforge.net/projects/pentaho/files/Data%20Integration/.

 Tareas de migración de datos que pueden ser cubiertas por la aplicación:

 Conexión a múltiples bases de datos (Oracle, MySQL, PostgreSQL, entre otras).


 Extraer datos de múltiples fuentes (csv, txt, bases de datos, xls, xlsx, entre otros).
 Transformar datos.
 Cargar datos a múltiples formatos (txt, csv, xls, xlsx, entre otros).
 Consulta SQL.
 Integrar datos provenientes de múltiples fuentes en un archivo deseado.
 Manipulación de datos.
 Validación de datos y manipulación de errores.
 Guarda el flujo de trabajo.
 Visualización de datos.
 Explorador de base de datos.
 Flujos de procesos.
 Grandes volúmenes de datos (Big Data).
 Estadística.
 Bodega de Datos.
 Envío de mensajes.

 Formatos de Archivos que manipula:

Extraer datos de múltiples fuentes (csv, txt, bases de datos, xls, xlsx, entre otros).
 Uso de línea de comandos, funciones especiales:

Las transformaciones son esencialmente flujos de datos, cuyos nombres de archivos de


transformación tiene una extensión (.ktr).

Las opciones de la línea de comandados que se pueden utilizar al iniciar la aplicación


Spoon son las siguientes:

-file=nombreArchivo

La opción anterior ejecuta la transformación especificada (.ktr: Transformación de


Kettle).

-logfile=nombreArchivoAcceso

La opción anterior permite especificar la ubicación del archivo de log. Por defecto es la
salida estándar.

-level=nivelAcceso

La opción anterior establece el nivel de log para la transformación que se está


ejecutando. Los valores posibles son:

Nothing: No muestra ninguna salida.


Error: Solamente muestra los errores.
Minimal: Usa logging mínimo.
Basic: Este es el nivel de logging básico por defecto.
Detailed: Da una salida detallada del logging.
Debug: Muestra una salida detallada para propósitos de depuración.
Rowlevel: Logging detallado a nivel de fila. Advertencia: esto genera una pérdida de
datos.

-rep=nombreCatalogo

La opción anterior permite conectar a un catálogo.

Nota: Se deben especificar las opciones -user, -pass y -trans/-job que se describirán más
adelante. Los detalles del catálogo se cargan desde el archivo "repositories.xml" del
directorio local o del directorio de Kettle:

/home/<nombreUsuario>/.kettle/ or
C:\Documents and Settings\<nombreUsuario>\.kettle

-user=nombreUsuario

La opción anterior establece el nombre de Usuario con el cual se desea conectar al


catálogo:
-pass=password

La opción anterior establece la contraseña utilizada para conectar al catálogo.

-trans=nombreTransformacion

La opción anterior establece la Transformación del catálogo que se desea ejecutar.

-job=nombreTrabajo

La opción anterior establece el Trabajo del catálogo que se desea ejecutar.

 Automatización de tareas:

Muchas veces es recomendable automatizar o programar algunas tareas de


transformación de información o carga masiva a una base de datos, afortunadamente
existen herramientas de transformación de datos para estos fines, la suite de pentaho y
específicamente kettle pdi data integration la que permite estas tareas y otras
ahorrándonos bastante tiempo en escribir código

Primero se diseña un flujo de transformación de información para cargar una base de


datos, esto genera el archivo .ktr (kettle tranaformation) o se puede crear un job
programado para ejecutar bajo ciertas condiciones.

paso 1: Se trunca la tabla.


paso 2: Se lee el archivo de entrada (txt, csv, etc).
paso 3: Se agrega la secuencia correlativa para cada registro.
paso 4: Se carga la tabla en bloques configurables.

la tarea se puede ejecutar desde el modo gráfico o desde la consola mediante comandos,
el comando y la salida para ejecutar una ktr (kettle transformation) es la siguiente:

slack@zion:~/programas/data-integration$ ./pan.sh/file:"/home/slack/desarrollo/appripley/metadata/pdi/skuloader.ktr"
/level:basic

 Requerimientos técnicos para su utilización:

Requisitos mínimos para su funcionamiento:

 Procesador: Celeron, 2.0 GHz.


 Memoria RAM: 128 Mb o superior.
 DD: 200 Mb.
 Otros: MV de Java (JRE) versión 1.5 o superior.
2.2. HERRAMIENTAS ETCL PROPIETARIO.

 Nombre del Producto y Versión:

IBM InfoSphere DataStage, version estable 11.x

 Tareas de migración de datos que pueden ser cubiertas por la aplicación:

 Formatos de Archivos que manipula:


 Uso de línea de comandos, funciones especiales:
 Automatización de tareas:
 Requerimientos técnicos para su utilización:

2.3. HERRAMIENTA ETCL DEL SMBD SQL SERVER.

 Nombre del Producto y Versión:


 Tareas de migración de datos que pueden ser cubiertas por la aplicación y cuáles no:
 Formatos de Archivos que manipula:
 Uso de línea de comandos, funciones especiales:
 Automatización de tareas:
 Requerimientos técnicos para su utilización:

También podría gustarte