Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AA5 Ev1 Validacion de Tecnicas de Migracion y Herramientas ETL - Nreino
AA5 Ev1 Validacion de Tecnicas de Migracion y Herramientas ETL - Nreino
Aprendiz:
Ficha: 1966118
Presentado a:
Ing. Juan Carlos Ramírez
TÉCNICAS EXISTENTES:
Existen varias técnicas relacionadas con los procesos de migración de datos, a continuación, se
relacionan las más utilizadas en los procesos actuales.
Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases
de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos
destino mediante una herramienta tecnológica. Los asistentes de sincronización de los SMBD son
configurados con las bases de datos origen y la base de datos destino, parametrizando la
ubicación de particiones y métodos de seguridad.
Para las actividades de migración de datos es muy común utilizar archivos para el movimiento de
los datos. Se pueden utilizar diferentes tipos de archivos, pero los formatos más usados son los
archivos de texto, llamados archivos planos, que guardan la información sin formato usando solo
caracteres.
Los sistemas de codificación más comunes para estos archivos son: ASCII, ISO-8859-1 o Latín-1 y
Unicode.
Los archivos de texto pueden tener formato delimitado utilizando coma (,), punto y coma (;) o
Tabulaciones para delimitar los campos definiendo de esa forma columnas y filas. También
pueden tener formato de ancho fijo para los campos, que se utiliza para delimitar columnas y
filas.
Otro formato útil para la migración de datos es el “.XML” (eXtensible Marckup Language), que
utiliza un metalenguaje extensible de etiquetas las cuales sirven como estándar para intercambio
de información estructurada entre distintas plataformas.
SENTENCIAS DML
Una posibilidad de los SMBD es la utilización de sentencias DML para generar scripts SQL que
permiten realizar migraciones de bases de datos existentes.
En todo proceso de migración, se ha de proceder a integrar dos o más sistemas por lo cual
pueden usarse diferentes técnicas, siendo las más comunes:
Perfilado de datos: Permite explorar los propios datos, agregando a los de origen las
reglas necesarias. Esta técnica hace posible también el obtener resultados acerca de
duplicidades o errores en los datos.
Limpieza de datos: Puede llevarse a cabo empleando para ello una herramienta de
Data Quality que ayude a eliminar errores, incorrecciones o duplicidades, entre otras
inconsistencias; y que, al mismo tiempo, enriquezca y homologue los datos,
preparándolos para el sistema de destino.
Conexión a distintas fuentes de datos: Técnica que precisa de una herramienta ad hoc
que garantice el hacerlo en condiciones de simultaneidad.
Las ventajas que proporciona el usar estas tecnologías se traducen en un aumento de la precisión,
reducción del índice de errores, mayor agilidad y optimización del tiempo; ya que su
automatización evita los procesos manuales, algo que supone su principal beneficio.
Existen muchas herramientas de ETL diferentes, como también hay infinidad de bases de datos,
sistemas y organizaciones distintas. En el momento de seleccionar la que liderará la migración e
integración de datos pueden tomarse en consideración las recomendaciones de Gartner en
cuanto a las cualidades que la herramienta ha de presentar:
HERRAMIENTAS ETCL
Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 – 2014, hecha en
java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.
Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de fuente de
datos XML. Para recuperar los datos que tendrán que definir un dato de tiempo y una entidad,
que está representado por datos a calcular o para mostrar. Todos los objetos útiles serán creados
por Benetl dentro de una base de datos MySQL o PostgreSQL. La aplicación también es capaz de
recuperar automáticamente los datos mediante el uso de diversas tareas planificadas de su
sistema.
Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información de los archivos
de datos planos, la organización y el filtrado de acuerdo con su dato de tiempo y entidad.
Características Benetl
Tecnologías:
o Java 7 update 80
o PostgreSQL 9.5.0 (con el apoyo plpgsql)
o MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de usuario (para
controlador suministrado)
o Con Windows (se utiliza "tareas programadas")
o Benetl 4.7 funciona en Linux.
Requerimientos Tecnicos:
o ejecución de Java (JRE) 1.7
o base de datos PostgreSQL 9.5 con soporte plpgsql
o base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio de
sesión de usuario o el controlador oficial de MySQL (no incluido)
o Probado en sistemas de 64 bits
Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el nombre de la
tabla de PostgreSQL o tabla de MySQL donde se almacenan las líneas de datos.
Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen de datos.
Debe presionar enter para validar su nombre EtlTool, y luego se pueden guardar los parámetros.
APLICACIÓN SMBD SELECCIONADO.-
El SSIS Import/Export Wizard permite mover datos de origen a destino sin modificar los datos del
origen y permitiendo hacer iteraciones y cambios de información antes de llegar al destino dentro
de tablas de ETL. Se pueden importar datos de fuentes diferentes a SQL Server.
Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se pueden
guardar en archivos dtsx o en la base de datos en formato XML.
Características SSIS
Es una complete herramienta para todos los aspectos de administración de datos y metadatos.
Esta brinda características para asegurar la calidad de datos, que integran el modelado relacional
y multidimensional y que permiten la administración de todo el ciclo de vida de datos y
metadatos
Enterprise ETL Option
La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que puede ser adquirida
con Oracle Warehouse Builder como parte de la edición empresarial del motor de base de datos (Oracle DB
Enterprise Edition).
En grandes implementaciones, más y más procesos se ejecutan en paralelo, agotando los recursos debido a las
grandes cantidades de datos que participan en la carga.
Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de datos usando métodos
rápidos y eficientes tales como el Oracle Data Pump y transportable tablespaces. Esta es una aproximación
completamente diferente al movimiento de datos que se realiza por medio de conjuntos de datos controlados por
el motor de base de datos. Los incrementos en velocidad de carga se deben entonces a la omisión de las capas SQL
tradicionales.
Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador de datos diseña la
dimensión. Con los pasos de ETL el desarrollador ve esta dimensión como cualquier otra. El siguiente paso es definir
cómo efectuar los cambios y actualizaciones en la dimensión. Warehouse Builder automatiza esto basado en la
definición de la dimensión. La combinación entre estos pasos, el diseño y la estandarización hacen que los procesos
relacionados con dimensiones lentamente cambiantes presente un alto desempeño en su ejecución.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera proactiva. Como un
ejemplo (Figura 3), usted puede propagar los cambios a través de su sistema haciendo uso el Mapping Editor.
Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de desarrollo a producción)
es un problema frecuente.
Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para configurar los
ambientes de desarrollo, pruebas y producción a niveles separados. Para mover los cambios desde el
ambiente de desarrollo a producción, el código generado en desarrollo es modificado en producción solo
en áreas específicas. Por ejemplo, la información sobre las conexiones es substituida por la definida en
desarrollo.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS.
Técnica Descripción
Sincronización de Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases
base de datos de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos
destino mediante una herramienta tecnológica. Los asistentes de sincronización de los SMBD son
configurados con las bases de datos origen y la base de datos destino,
parametrizando la ubicación de particiones y métodos de seguridad.
Requerimientos Ventajas Desventajas Tiempo
Técnicos
SQL SERVER Sql server standar Es un sistema de Utiliza mucho la 3 semanas.
gestión de base de memoria RAM para las Semana 1:
datos. instalaciones y Análisis de
Es útil para manejar y utilización de datos
obtener datos de la red software. Semana 2:
de redes. No se puede utilizar Migración y
Nos permite olvidarnos como practicas validación de
de los ficheros que porque se prohíben información
forman la base de muchas cosas, tiene Semana 3:
datos. restricciones en lo Optimización de
Si trabajamos en una particular. proceso
red social nos permite La relación, calidad y el
agregar otros precio está muy
servidores de SQL debajo comparado
Server. Por ejemplo, con oracle.
dos personas que Tiene muchos
trabajan con SQL bloqueos a nivel de
Server, uno de ellos se página, un tamaño de
puede conectar al página fijo y
servidor de su otro demasiado pequeño,
compañero y así se una pésima
puede ver las bases de implementación de los
datos del otro tipos de datos
compañero con SQL variables.
Server.
SQL permite
administrar permisos a
todo. También permite
que alguien conecte su
SQLO al nuestro, pero
sin embargo podemos
decirle que no puede
ver esta base de datos,
pero otro sí.
ORACLE Oracle Estándar Oracle es el motor de Las versiones más 3 semanas.
WAREHOUSE base de datos objeto recientes de Oracle Semana 1:
BUILDER relacional más usado a son la 11g, 10g, 9g, 8g, Análisis de datos
nivel mundial. desde el lanzamiento Semana 2:
Puede ejecutarse en original de la 8 se Migración y
todas las plataformas, sucedieron varias validación de
desde una Pc hasta un versiones con información
supercomputador. correcciones, hasta Semana 3:
Oracle soporta todas alcanzar la estabilidad Optimización de
las funciones que se en la 8.0.3. El motivo proceso
esperan de un servidor de tantos fallos fue, al
"serio": un lenguaje de parecer, la
diseño de bases de remodelación del
datos muy completo sistema de
(PL/SQL) que permite almacenamiento por
implementar diseños causa de la
"activos", con triggers y introducción de
procedimientos extensiones
almacenados, con una orientadas a objetos.
integridad referencial El mayor
declarativa bastante inconveniente de
potente. Oracle esquizás su
Permite el uso de precio. Incluso las
particiones para la licencias de Personal
mejora de la eficiencia, Oracle son
de replicación e incluso excesivamente caras,
ciertas versiones en mi opinión. Otro
admiten la problema es la
administración de necesidad de ajustes.
bases de datos Un error frecuente
distribuidas. consiste en pensar
El software del servidor que basta instalar el
puede ejecutarse en Oracle en un servidor
multitud de sistemas y enchufar
operativos. directamente las
Existe incluso una aplicaciones clientes.
versión personal para Un Oracle mal
Windows 9x, lo cual es configurado puede ser
un punto a favor para desesperantemente
los desarrolladores que lento.
se llevan trabajo a casa. También es elevado el
Oracle es la base de coste de la
datos con más información, y sólo
orientación hacía últimamente han
INTERNET. comenzado a aparecer
buenos libros sobre
SENA Centro de Manufactura en Textiles y Cuero
Especialización en Gestión y Seguridad de una base de datos
Proyecto
Ficha 1966118
Nelson Yesid Reino Calderón cc 19307048