Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AA5-Ev1-Migracion y Herrameinta de Etcl
AA5-Ev1-Migracion y Herrameinta de Etcl
PRESENTADO POR:
PRESENTADO A:
FICHA:
SENTENCIAS DML
Una posibilidad de los SMBD es la utilización de sentencias DML para generar scripts SQL
que permiten realizar migraciones de bases de datos existentes.
En un script SQL se pueden realizar las siguientes tareas:
Copia de seguridad para creación de todos los usuarios, grupos, inicios de sesión y
permisos.
Creación o actualización de código para la implementación de una base de datos.
Creación de un entorno de pruebas.
Los procesos se orientan al uso de las sentencias DML, para realizar el paso de datos de
la base de datos de origen a la base de datos destino, a través de los entornos
administrativos de los SMBD.
PROCEDIMIENTOS ETCL (EXTRACCIÓN, TRANSFORMACIÓN, LIMPIEZA Y CARGA)
Esta técnica se basa en el diseño y construcción de procedimientos técnicos para realizar
Extracción, Transformación, Limpieza y Cargue de Datos (ETCL). Los procedimientos o
pasos necesarios para el desarrollo de un proyecto de migración de datos utilizando la
metodología ETCL son:
En todo proceso de migración, se ha de proceder a integrar dos o más sistemas por lo cual
pueden usarse diferentes técnicas, siendo las más comunes:
Perfilado de datos: Permite explorar los propios datos, agregando a los de origen
las reglas necesarias. Esta técnica hace posible también el obtener resultados
acerca de duplicidades o errores en los datos.
Limpieza de datos: Puede llevarse a cabo empleando para ello una herramienta
de Data Quality que ayude a eliminar errores, incorrecciones o duplicidades, entre
otras inconsistencias; y que, al mismo tiempo, enriquezca y homologue los datos,
preparándolos para el sistema de destino.
Conexión a distintas fuentes de datos: Técnica que precisa de una herramienta
ad hoc que garantice el hacerlo en condiciones de simultaneidad.
Las ventajas que proporciona el usar estas tecnologías se traducen en un aumento de la
precisión, reducción del índice de errores, mayor agilidad y optimización del tiempo; ya que
su automatización evita los procesos manuales, algo que supone su principal beneficio.
QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE DE ETL
Existen muchas herramientas de ETL diferentes, como también hay infinidad de bases de
datos, sistemas y organizaciones distintas. En el momento de seleccionar la que liderará la
migración e integración de datos pueden tomarse en consideración las recomendaciones
de Gartner en cuanto a las cualidades que la herramienta ha de presentar:
HERRAMIENTAS ETCL
APLICACIÓN DE USO LIBRE
Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 – 2014,
hecha en java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.
Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de
fuente de datos XML. Para recuperar los datos que tendrán que definir un dato de tiempo
y una entidad, que está representado por datos a calcular o para mostrar. Todos los objetos
útiles serán creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La
aplicación también es capaz de recuperar automáticamente los datos mediante el uso de
diversas tareas planificadas de su sistema.
Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información de los
archivos de datos planos, la organización y el filtrado de acuerdo con su dato de tiempo y
entidad.
Caracteristicas Benetl
Tecnologias:
Java 7 update 80
PostgreSQL 9.5.0 (con el apoyo plpgsql)
MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de usuario (para
controlador suministrado)
Con Windows (se utiliza "tareas programadas")
Benetl 4.7 funciona en Linux.
Requerimientos Tecnicos:
ejecución de Java (JRE) 1.7
base de datos PostgreSQL 9.5 con soporte plpgsql
base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio de sesión
de usuario o el controlador oficial de MySQL (no incluido)
Probado en sistemas de 64 bits
Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el nombre de
la tabla de PostgreSQL o tabla de MySQL donde se almacenan las líneas de datos.
Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen de datos.
Debe presionar enter para validar su nombre EtlTool, y luego se pueden guardar los
parámetros.
APLICACIÓN SMBD SELECCIONADO
1. SQL SERVER INTEGRATION SERVICES:
Microsoft Integration Services es una plataforma para la creación de soluciones
empresariales de transformaciones de datos e integración de datos. Integration Services
sirve para resolver complejos problemas empresariales mediante la copia o descarga de
archivos, el envío de mensajes de correo electrónico como respuesta a eventos, la
actualización de almacenamientos de datos, la limpieza y minería de datos, y la
administración de objetos y datos de SQL Server. Los paquetes pueden funcionar en
solitario o junto con otros paquetes para hacer frente a las complejas necesidades de la
empresa. Integration Services puede extraer y transformar datos de diversos orígenes como
archivos de datos XML, archivos planos y orígenes de datos relacionales y, después, cargar
los datos en uno o varios destinos.
Integration Services contiene un variado conjunto de tareas y transformaciones integradas,
herramientas para la creación de paquetes y el servicio Integration Services para ejecutar
y administrar los paquetes. Las herramientas gráficas de Integration Services se pueden
usar para crear soluciones sin escribir una sola línea de código. También se puede
programar el amplio modelo de objetos de Integration Services para crear paquetes
mediante programación y codificar tareas personalizadas y otros objetos de paquete.
El SSIS Import/Export Wizard permite mover datos de origen a destino sin modificar los
datos del origen y permitiendo hacer iteraciones y cambios de información antes de llegar
al destino dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes a SQL
Server.
Con la herramienta Business Intelligence Development Studio, se pueden realizar tareas
de migración fácilmente usando tareas visuales. Si se desea crear nueva funcionalidad, se
pueden crear scripts en c# o VB.
Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se
pueden guardar en archivos dtsx o en la base de datos en formato XML.
Una vez implementado el paquete puede ser depurado.
Caracteristicas SSIS
La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción
que puede ser adquirida con Oracle Warehouse Builder como parte de la edición
empresarial del motor de base de datos (Oracle DB Enterprise Edition).
Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de
datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y transportable
tablespaces. Esta es una aproximación completamente diferente al movimiento de datos
que se realiza por medio de conjuntos de datos controlados por el motor de base de datos.
Los incrementos en velocidad de carga se deben entonces a la omisión de las capas SQL
tradicionales.
Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador
de datos diseña la dimensión. Con los pasos de ETL el desarrollador ve esta dimensión
como cualquier otra. El siguiente paso es definir cómo efectuar los cambios y
actualizaciones en la dimensión. Warehouse Builder automatiza esto basado en la
definición de la dimensión. La combinación entre estos pasos, el diseño y la
estandarización hacen que los procesos relacionados con dimensiones lentamente
cambiantes presente un alto desempeño en su ejecución.
Traza Lineal de Principio a Fin
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera
proactiva. Como un ejemplo (Figura 3), usted puede propagar los cambios a través de su
sistema haciendo uso el Mapping Editor.
Administración de Configuraciones Avanzadas
Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo, de desarrollo
a producción) es un problema frecuente.
Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para
mover los cambios desde el ambiente de desarrollo a producción, el código generado en
desarrollo es modificado en producción solo en áreas específicas. Por ejemplo, la
información sobre las conexiones es substituida por la definida en desarrollo.
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/353132/ETL-t-cnicas-de-
migraci-n-y-tipos-de-software
https://platzi.com/blog/que-es-postgresql/
http://www.oracle.com/technology/products/warehouse/11gr1/datasheets/warehouse-
builder-11g-etldatasheet.pdf