AA5-Ev1-Validación de Técnicas de Migración y Herramientas ETCL

SERVICIO NACIONAL DE APRENDIZAJE
SENA
ESPECIALIZACION EN GESTION Y SEGURIDAD DE BASES DE DATOS

ID: 1881769
INFORME: “AA5-Ev1-Validación de técnicas de migración y herramientas

ETCL.”
PRESENTADO POR: CRISTIAN CAMILO GONZALEZ RAMIREZ
PRESENTADO A: HERNAN HENAO HERNANDEZ

ALCALDIA DE SAN ANTONIO DEL SENA
MIGRACIÓN: SECRETARÍA DE HACIENDA
¿Qué es la migración de datos?
En pocas palabras, se refiere a la transferencia de datos entre diferentes tipos de formatos
de archivo, bases de datos y sistemas de almacenamiento. Sin embargo, la 'transferencia'
no es el único aspecto de la metodología de migración de datos. Si los datos son diversos,
el proceso de migración incluye asignaciones y transformaciones entre los datos de origen
y destino. Sobre todo, la calidad de los datos debe evaluarse antes de la migración para
asegurar una implementación exitosa. La tasa de éxito de cualquier proyecto de migración
de datos depende directamente de la diversidad, el volumen y la calidad de los datos que
se transfieren.
El siguiente ejemplo ilustra un flujo de migración de datos simple en el que la migración de
Pedidos los datos de una organización tienen lugar desde un formato de archivo delimitado
a un servidor SQL después de la clasificación con respecto a la identificación del cliente.
Ejemplo de migración de datos

Situaciones que incitan a la migración de datos
La razón más común para la migración es la necesidad de mover los datos a un nuevo
sistema para ampliar y acomodar el crecimiento del volumen. Sin embargo, otras
circunstancias también pueden hacer que las organizaciones opten por un proyecto de
migración de datos. Las razones incluyen:
 Para reemplazar los sistemas heredados que no pueden mantenerse al día con los
requisitos de desempeño en evolución de la organización.
 Para reducir la huella de almacenamiento migrando a un sistema que consume
menos energía y espacio. En consecuencia, reduciendo los costes operativos.
 Mantener la competitividad mediante la adopción de tecnologías de vanguardia,
allanando el camino para la migración de datos.
 Para preparar un plan de recuperación de desastres; Como la migración de datos
puede ayudar a crear un seguro
 Para transferir datos a la nube, eliminando el costo de la infraestructura de TI en las
instalaciones.
Tipos de migración de datos
La migración de datos se puede clasificar en cuatro categorías:
Migración de base de datos
Este tipo de migración implica mover datos entre dos motores de base de datos. Sin
embargo, cuando los datos originales cambian, afecta simultáneamente el idioma o el
protocolo de los datos. El cambio se refleja también en la capa de aplicación. La migración
de la base de datos modifica los datos sin modificar el esquema.
Las circunstancias que demandan este tipo de migración incluyen:
 Cuando el software de base de datos requiere una actualización

 Para migrar una base de datos a la nube.
 En caso de que la organización necesite cambiar los proveedores de bases de
datos.
Técnicas de Migración de Base de Datos
Planificación. Lo más importante al migrar una Base de Datos es llevar a cabo un proceso
de planificación y análisis del trabajo, puesto que aunque pareciera tomarse algún tiempo
adicional, éste será retribuido en el éxito de la operación y menos costos por errores de
datos. Es importante que esto sea aplicado cuando la Base de Datos destino está en
producción.
Contador de registros. Si la migración se realiza de forma manual, mediante alguna
consulta de inserción es recomendable inicializar un contador para cada registro insertado
con éxito y otro para los no insertados, así obviamente, la suma de ambos debe ser igual a
los registros originales.
Mapeador de Tipos de datos. Algunas plataformas no soportan algunos tipos de datos,
así que es necesario planificar el mapeo de los campos en la nueva base de datos.
Restricciones y Trigers. Antes de iniciar la migración de la BD, es recomendable
deshabilitar los Trigers y/o restricciones que nos puedan generar error al momento que el
DBMS ejecute el proceso de escritura de los datos.
Codificación de Caracteres. Cuando el copiado se realiza de forma automática, es
necesario identificar la codificación de caracteres que la BD destino espera, pues así
evitaremos el reemplazo automático de caracteres o en su caso, pérdida de los mismos.
Migración de aplicaciones
Este tipo de migración se produce cuando una organización cambia de una plataforma o
aplicación de proveedor a otra. Cada aplicación tiene un modelo de datos único. Además,
las aplicaciones no son portátiles. Por lo tanto, los sistemas operativos, las configuraciones
de máquinas virtuales y las herramientas de administración de cada aplicación pueden ser
diferentes en el entorno de desarrollo e implementación.
Estos factores pueden contribuir a la complejidad del proceso de migración. La introducción
de productos de middleware en el proceso lo simplifica; ya que ayudan a cerrar la brecha
tecnológica.
Migración de almacenamiento
El proceso trata de mover datos de un sistema de almacenamiento a otro, como un disco
duro o la nube. La necesidad de migración de almacenamiento surge debido a las
actualizaciones tecnológicas. Es fácil implementar funciones de administración de datos
como la validación de datos, la clonación, la reducción de información dañada o antigua,
etc. durante este proceso. Además, la migración del almacenamiento permite un escalado
rentable y un rendimiento más rápido.
Migración en la nube
Moverse a la nube garantiza escalabilidad, requiere menos recursos de almacenamiento y
es rentable y, por lo tanto, la migración a la nube se ha convertido en una de las últimas
tendencias en la industria de la gestión de datos. En la migración a la nube, los activos,
aplicaciones o servicios de información completa o parcial de una organización se
implementan en la nube. El firewall de la nube protege.
Sincronización de base de datos
Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos
bases de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una base de datos origen a una base
de datos destino mediante una herramienta tecnológica.
Los asistentes de sincronización de los SMBD son configurados con las bases de datos
origen y la base de datos destino, parametrizando la ubicación de particiones y métodos de
seguridad.
Importación/Exportación de Archivos (CSV) o XML a través de comandos de consola
o interfaz gráfica.
Para las actividades de migración de datos es muy común utilizar archivos para el
movimiento de los datos. Se pueden utilizar diferentes tipos de archivos pero los formatos
más usados son los archivos de texto, llamados archivos planos, que guardan la
información sin formato usando solo caracteres. Los sistemas de codificación más comunes
para estos archivos son: ASCII, ISO-8859-1 o Latín-1 y Unicode.
Los archivos de texto pueden tener formato delimitado utilizando coma(,), punto y coma (;)
o Tabulaciones para delimitar los campos definiendo de esa forma columnas y filas.
También pueden tener formato de ancho fijo para los campos, que se utiliza para delimitar
columnas y filas.
Un formato de archivo plano muy usado es el “.CSV” (Comma-SeparatedValues, en español
Valores Separados por Coma), donde el delimitador usado es una coma. Muy usado para
movimientos de datos con hojas de cálculo.
Otro formato útil para la migración de datos es el “.XML” (eXtensible Marckup Language),
que utiliza un metalenguaje extensible de etiquetas las cuales sirven como estándar para
intercambio de información estructurada entre distintas plataformas.
Sentencias DML
Una posibilidad de los SMBD es la utilización de sentencias DML para generar scripts SQL
que permiten realizar migraciones de bases de datos existentes.
En un script SQL se pueden realizar las siguientes tareas:
• Copia de seguridad para creación de todos los usuarios, grupos, inicios de sesión
y permisos.
• Creación o actualización de código para la implementación de una base de datos.
• Creación de un entorno de pruebas.
Los procesos se orientan al uso de las sentencias DML, para realizar el paso de datos de
la base de datos de origen a la base de datos destino, a través de los entornos
administrativos de los SMBD.
Procedimientos ETCL (Extracción, Transformación, Limpieza y Carga)

Esta técnica se basa en el diseño y construcción de procedimientos técnicos para realizar
Extracción, Transformación, Limpieza y Cargue de Datos (ETCL).
¿Planeando migrar? Pasos para una exitosa migración de datos empresariales
La migración de datos es más que simplemente mover datos de un repositorio a otro.
Ejecutar una transferencia exitosa incluye varios pasos. Éstos incluyen:
1. Diseñar una estrategia
La selección de una estrategia depende de la necesidad de migración de datos. ¿Se debe
a que la organización está consolidando los sistemas luego de una adquisición o fusión o
se debe a una sobrecarga de datos? La solidificación de los objetivos comerciales sentará
las bases para el plan de migración de datos.
A continuación, la organización debe decidir si optar por los servicios de migración de datos
o las herramientas ETL de nivel empresarial diseñadas para facilitar la migración de datos.
Hay varios proveedores de servicio que identificará los sistemas de origen y destino,
generará flujos de trabajo y migrará el contenido. Alternativamente, comprando un código
libre. Solución de migración de datos le da la libertad de llevar a cabo la transferencia a su
conveniencia, acelera el proyecto y reduce los riesgos. Al mismo tiempo, puede reducir el
costo total del proyecto.
Al elaborar una estrategia de antemano, la organización puede informar a las empresas y
los usuarios de TI sobre los objetivos del proyecto de migración y garantizar la adopción e
implementación exitosa en toda la empresa.
2. Evaluar y analizar
El siguiente paso es analizar los datos de la empresa. Contestar las siguientes preguntas
puede ayudar con esta evaluación:
¿Cuántos datos de la empresa requieren migración?
¿Son los datos estructurados o no estructurados?
¿La redundancia de datos será un problema?
¿Cuántos de los datos son ROT (redundantes, obsoletos o triviales)?
¿Es la información vieja o reciente?
Recorra todos los flujos de trabajo y las unidades compartidas que almacenan datos para
descubrir su uso en toda la organización.
3. Recolectar y limpiar datos
Este paso implica eliminar los datos ROT, comprimir el contenido restante y convertir los
datos de toda la empresa en un solo formato. Por ejemplo, en la figura. La transformación
de perfiles de datos de 1 se aplica a los datos de pedido de una empresa para examinar la
información disponible y eliminar registros duplicados / redundantes. Figura. 2 muestra los
detalles del conjunto de datos.
Fig. 1. Perfil de datos
Fig. 2: Resultado del perfil de datos
La ejecución manual de estas tareas puede requerir mucho tiempo y recursos para grandes
conjuntos de datos. Por lo tanto, encontrar una solución que automatice estas tareas puede
hacer que el proceso de migración sea eficiente y sin errores.
4. Ordenar datos
Una vez que haya perfilado los datos en una forma de alta calidad y utilizable, la siguiente
fase es categorizarlos de acuerdo con los requisitos de migración. La categorización se
puede realizar en base al tipo de producto, ID o cualquier otro criterio. Facilita el
enrutamiento de datos a los cubos correctos.
Continuando con el ejemplo anterior, figura. 3 muestra los datos perfilados ordenados con
respecto a la identificación del producto.
Fig.3: Aplicando Transformación de Ordenación
5. Validar datos
Este paso implica revisar el proceso de ejecución. Evalúe las reglas de datos y verifique si
están funcionando de la manera en que deben hacerlo, y planifique las excepciones en su
flujo de datos. Incluso si el proceso es automatizado, es mejor mantenerlo controlado para
asegurarse de que no se encuentre con ningún desafío inesperado al implementar el
proceso.
Después de ordenar los datos, aplicaremos las reglas de calidad de los datos para
determinar los errores según las reglas definidas. En este escenario, estamos usando
reglas de calidad de datos para identificar y eliminar los registros en los que el campo
'Cantidad' tiene un valor de cero.
Fig.4: Aplicando Reglas de Calidad de Datos
6. Emigrar
Este es el paso final en el que todo encaja. Los pasos mencionados anteriormente le darán
conjuntos de datos limpios y bien organizados; todo lo que tienes que hacer es migrarlos
de un sistema a otro. Una vez que los datos se migran al destino objetivo, que puede ser
una base de datos o un repositorio de datos, como un data mart o un almacén de datos.
Luego, los empleados pueden acceder a él para impulsar el análisis de datos, optimizar los
flujos de trabajo, mejorar la seguridad de los datos y más.
En el ejemplo a continuación, los datos se migran al servidor SQL después de ser perfilados,
ordenados y verificados en busca de errores.
Fig. 5: Datos migrados a la base de datos de destino

Herramientas ETL. ¿Que son, para que valen?. Productos
mas conocidos. ETL´s Open Source
Esquema Típico de Herramienta ETL
Decíamos que las herramientas de este tipo, deberían de proporcionar, de forma general, las
siguientes funcionalidades:
• Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el

descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor
flexibilidad.
• Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos
humanos existentes.
• Proporcionar la gestión integrada del Data Warehouse y los Data Marts existente, integrando la
extracción, transformación y carga para la construcción del Data Warehouse corporativo y de los
Data Marts.
• Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las reglas
de consolidación.
• Acceso a una gran variedad de fuentes de datos diferentes.
• Manejo de excepciones.
• Planificación, logs, interfaces a schedulers de terceros, que nos permitiran llevan una gestión de la
planificación de todos los procesos necesarios para la carga del DW.
• Interfaz independiente de hardware.
• Soporte en la explotación del Data Warehouse.
Es hora de ampliar las definiciones y entrar un poco mas a fondo en lo que son realmente las ETL´s:
Definición de ETL en la Wikipedia
ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and Load). Es el
proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y
limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro
sistema operacional para apoyar un proceso de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de integrar con los
nuevos aplicativos, por ejemplo, ERP´s. La tecnología utilizada en dichas aplicaciones puede hacer
dificil la integración con los nuevos programas).
Extraer
La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La
mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes
sistemas de origen. Cada sistema separado puede usar una organización diferente de los datos o
formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u
otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el
proceso de transformación.
Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos, de lo que resulta
un chequeo que verifica si los datos cumplen la pauta o estructura que se esperaba. De no ser así
los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un
impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se
podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para
su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen
programarse en horarios o días donde este impacto sea nulo o mínimo.
Interfaz Gráfico herramienta ETL
Transformar
La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna
pequeña manipulación de los datos. No obstante en otros casos pueden ser necesarias aplicar
algunas de las siguientes transformaciones:
Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos
no se carguen).
Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y “M” para Mujer pero el
destino tiene que guardar “1” para Hombre y “2” para Mujer).
Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1”).
Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio).
Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.).
Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región).
Generación de campos clave en el destino.
Transponer o pivotar (girando múltiples columnas en filas o viceversa).
Dividir una columna en varias (por ejemplo, columna “Nombre: García, Miguel”; pasar a dos
columnas “Nombre: Miguel” y “Apellido: García”).
La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente

aplicación de la acción que en cada caso se requiera:
Datos OK: Entregar datos a la siguiente etapa (Carga).
Datos erróneos: Ejecutar políticas de tratamiento de excepciones (por ejemplo, rechazar el registro
completo, dar al campo erróneo un valor nulo o un valor centinela).
Interfaz Grafico de la herramienta ETL Kettle - Pentaho
Carga
La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados
en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede
abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la
información antigua con nuevos datos. Los data warehouse mantienen un historial de los registros
de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia
de un valor a lo largo del tiempo.
Existen dos formas básicas de desarrollar el proceso de carga:
Acumulación simple: La acumulación simple es la más sencilla y común, y consiste en realizar un

resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y
transportar el resultado como una única transacción hacia el data warehouse, almacenando un valor
calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud considerada.
Rolling: El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener varios
niveles de granularidad. Para ello se almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en
alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales
semanales, totales mensuales, etc.).
La fase de carga interactúa directamente con la base de datos de destino. Al realizar esta operación
se aplicarán todas las restricciones y triggers (disparadores) que se hayan definido en ésta (por
ejemplo, valores únicos, integridad referencial, campos obligatorios, rangos de valores). Estas
restricciones y triggers (si están bien definidos) contribuyen a que se garantice la calidad de los datos
en el proceso ETL, y deben ser tenidos en cuenta.
Procesamiento
Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo. Esto ha

permitido desarrollar una serie de métodos para mejorar el rendimiento general de los procesos ETL
cuando se trata de grandes volúmenes de datos. Hay 3 tipos principales de paralelismos que se
pueden implementar en las aplicaciones ETL:
De datos: Consiste en dividir un único archivo secuencial en pequeños archivos de datos para
proporcionar acceso paralelo.
De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el

mismo flujo de datos. Un ejemplo de ello sería buscar un valor en el registro número 1 a la vez que
se suman dos campos en el registro número 2.
De componente: Consiste en el funcionamiento simultáneo de múltiples procesos en diferentes flujos

de datos en el mismo puesto de trabajo.
Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser combinados para realizar
una misma operación ETL.
Una dificultad adicional es asegurar que los datos que se cargan sean relativamente consistentes.
Las múltiples bases de datos de origen tienen diferentes ciclos de actualización (algunas pueden ser
actualizadas cada pocos minutos, mientras que otras pueden tardar días o semanas). En un sistema
de ETL será necesario que se puedan detener ciertos datos hasta que todas las fuentes estén
sincronizadas. Del mismo modo, cuando un almacén de datos tiene que ser actualizado con los
contenidos en un sistema de origen, es necesario establecer puntos de sincronización y de
actualización.
Desafíos
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado puede provocar
importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de éstos pueden no coincidir
con las expectativas de los diseñadores a la hora de especificarse las reglas de validación o
transformación. Es recomendable realizar un examen completo de la validez de los datos (Data
profiling) del sistema de origen durante el análisis para identificar las condiciones necesarias para
que los datos puedan ser tratados adecuadamente por las reglas de transformación especificadas.
Esto conducirá a una modificación de las reglas de validación implementadas en el proceso ETL.
Normalmente los data warehouse son alimentados de manera asíncrona desde distintas fuentes,
que sirven a propósitos muy diferentes. El proceso ETL es clave para lograr que los datos extraídos
asíncronamente de orígenes heterogéneos se integren finalmente en un entorno homogéneo.
La escalabilidad de un sistema de ETL durante su vida útil tiene que ser establecida durante el
análisis. Esto incluye la comprensión de los volúmenes de datos que tendrán que ser procesados
según los acuerdos de nivel de servicio (SLA: Service level agreement). El tiempo disponible para
realizar la extracción de los sistemas de origen podría cambiar, lo que implicaría que la misma
cantidad de datos tendría que ser procesada en menos tiempo. Algunos sistemas ETL son escalados
para procesar varios terabytes de datos para actualizar un data warehouse que puede contener
decenas de terabytes de datos. El aumento de los volúmenes de datos que pueden requerir estos
sistemas pueden hacer que los lotes que se procesaban a diario pasen a procesarse en micro-lotes
(varios al día) o incluso a la integración con colas de mensajes o a la captura de datos modificados
(CDC: change data capture) en tiempo real para una transformación y actualización continua.
Algunas Herramientas ETL
Ab Initio
Benetl
BITool – ETL Software
CloverETL
Cognos Decisionstream (IBM)
Data Integrator (herramienta de Sap Business Objects)
ETI*Extract (ahora llamada Eti Solution)
IBM Websphere DataStage (antes Ascential DataStage)
Microsoft Integration Services
Oracle Warehouse Builder
WebFocus-iWay DataMigrator Server
Pervasive
Informática PowerCenter
Oxio Data Intelligence ETL full web
SmartDB Workbench
Sunopsis (Oracle)
SAS Dataflux
Sybase
Syncsort: DMExpress.
Opentext (antes Genio, Hummingbird).
Libres
Kettle (ahora llamado Pentaho Data Integration).
Scriptella Open Source ETL Tool.
Talend Open Studio.
Jitterbit.
Las herramientas ETL no se tienen porque utilizar solo en entornos de construcción de un DW, sino
que pueden ser utiles para multitud de propositos, como por ejemplo:
Tareas de Bases de datos: También se utilizan para consolidar, migrar y sincronizar bases de datos
operativas.
Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de aplicativos.
Sincronización entre diferentes sistemas operacionales (por ejemplo, nuestro entorno ERP y la Web
de ventas).
Consolidación de datos: sistemas con grandes volumenes de datos que son consolidades en
sistemas paralelos para mantener historicos o para procesos de borrado en los sistemas originales.
Interfases de datos con sistemas externos: envio de información a clientes, proveedores. Recepción,
proceso e integración de la información recibida.
Interfases con sistemas Frontoffice: interfases de subida/bajada con sistemas de venta.
Otros cometidos: Actualización de usuarios a sistemas paralelos, preparación de procesos masivos

(mailings, newsletter), etc.
Fuente: Gartner (November 2009)
Las características mas importantes que ha de incluir una herramienta ETL según Gartner son las
siguientes:
Conectividad / capacidades de Adaptación (con soporte a origenes y destinos de datos): habilidad

para conectar con un amplio rango de tipos de estructura de datos, que incluyen bases de datos
relacionales y no relacionales, variados formatos de ficheros, XML, aplicaciones ERP, CRM o SCM,
formatos de mensajes estandar (EDI, SWIFT o HL7), colas de mensajes, emails, websites,
repositorios de contenido o herramientas de ofimatica.
Capacidades de entrega de datos: habilidad para proporcionar datos a otras aplicaciones, procesos
o bases de datos en varias formas, con capacidades para programación de procesos batch, en
tiempo real o mediante lanzamiento de eventos.
Capacidades de transformación de datos: habilidad para la transformación de los datos, desde

transformaciones básicas (conversión de tipos, manipulación de cadenas o calculos simples),
transformaciones intermedias (agregaciones, sumarizaciones, lookups) hasta transformaciones
complejas como analisis de texto en formato libre o texto enriquecido.
Capacidades de Metadatos y Modelado de Datos: recuperación de los modelos de datos desde los
origenes de datos o aplicaciones, creación y mantenimiento de modelos de datos, mapeo de modelo
fisico a lógico, repositorio de metados abierto (con posiblidad de interactuar con otras herramientas),
sincronización de los cambios en los metadatos en los distintos componentes de la herramienta,
documentación, etc.
Capacidades de diseño y entorno de desarrollo: representación grafica de los objetos del repositorio,
modelos de datos y flujos de datos, soporte para test y debugging, capacidades para trabajo en
equipo, gestion de workflows de los procesos de desarrollo, etc.
Capacidades de gestión de datos (calidad de datos, perfiles y minería).
Adaptación a las diferentes plataformas hardware y sistemas operativos existentes: Mainframes (IBM
Z/OS), AS/400, HP Tandem, Unix, Wintel, Linux, Servidores Virtualizados, etc.
Las operaciones y capacidades de administración: habilidades para gestion, monitorización y control

de los procesos de integración de datos, como gestión de errores, recolección de estadisticias de
ejecución, controles de seguridad, etc.
La arquitectura y la integración: grado de compactación, consistencia e interoperabilidad de los

diferentes componentes que forman la herramienta de integración de datos (con un deseable minimo
número de productos, un unico repositorio, un entorno de desarrollo común, interoperabilidad con
otras herramientas o via API), etc.
Capacidades SOA.
Observamos que en el informe del año 2009, se incluye por primera vez una herramienta ETL
OpenSource, que es Talend. También se habla de Pentaho, cuya herramienta Kettle, tambien es
OpenSource. Ambas herramientas serán las que utilizemos en nuestro proyecto para la construcción
de los procesos ETL.
Interfaz Grafico de la herramienta ETL Talend
A continuación indicamos algunos links interesantes sobre herramientas ETL:
Comparando soluciones ETL Open Source y comerciales: link en beyenetwork.es.
Herramientas ETL (o mundo ETL): link en mundobi.wordpress.com.
Herramientas ETL: link en dataprix.com.
Podeis echar un vistazo al directorio EOS de productos OpenSource para ver otros productos ETL
Open, así como valoraciones de estos y casos reales de uso.
La elección de una herramienta ETL puede ser una tarea compleja que va a tener mucha repercusión
en el desarrollo posterior de un proyecto. Podeis ver la comparativa de ETL´s OpenSource vs ETL´s
Propietarias a continuación ( gracias a http://www.jonathanlevin.co.uk/). Aqui se habla de que las
herramientas OpenSource ya estan empezando a ser una alternativa real a los productos existentes
y se estan desarrollando con rapidez.
APLICACIÓN SMBD SELECCIONADO

TÉCNICAS DE MIGRACIÓN DE Requerimient Ventajas desventajas Tiempo Costos
DATOS os técnicos aproximad
para su o para la
utilización. realización
del
proceso.
SQL SERVER INTEGRATION • Es un • Utiliza mucho Semana 1: promed
SERVICES SQL Server sistema de la memoria RAM Análisis de io de
Estándar gestión de para las datos U$S
base de datos. instalaciones y 20.000
• Es útil para utilización de Semana 2: por
manejar y software. Migración licencia
obtener datos • No se puede y
de la red de utilizar como validación
redes. practicas porque de
• Nos permite se prohíben informació
olvidarnos de muchas cosas, n
los ficheros tiene
que forman la restricciones en Semana 3:
base de datos. lo particular. Optimizaci
• Si trabajamos • La relación, ón de
en una red calidad y el proceso
social nos precio está muy
permite debajo
agregar otros comparado con
servidores de oracle.
SQL Server. • Tiene muchos
Por ejemplo, bloqueos a nivel
dos personas de página, un
que trabajan tamaño de
con SQL página fijo y
Server, uno de demasiado
ellos se puede pequeño, una
conectar al pésima
servidor de su implementación
otro de los tipos de
compañero y datos variables.
así se puede
ver las bases
de datos del
otro
compañero
con SQL
Server.
• SQL permite
administrar
permisos a
todo. También
permite que
alguien
conecte su
SQLO al
nuestro, pero
sin embargo
podemos
decirle que no
puede ver esta
base de datos,
pero otro sí.
ORACLE WAREHOUSE Oracle • Oracle es el • Las versiones 3 promed
BUILDER Estándar motor de base más recientes semanas. io de
de datos de Oracle son la U$S
objeto- 11g, 10g, 9g, 8g, Semana 1: 20.000
relacional más desde el Análisis de por
usado a nivel lanzamiento datos licencia
mundial. original de la 8
• Puede se sucedieron Semana 2:
ejecutarse en varias versiones Migración
todas las con y
plataformas, correcciones, validación
desde una Pc hasta alcanzar de
hasta un la estabilidad en informació
supercomputa la 8.0.3. El n
dor. motivo de tantos
• Oracle fallos fue, al Semana 3:
soporta todas parecer, la Optimizaci
las funciones remodelación ón de
que se del sistema de proceso
esperan de un almacenamiento
servidor por causa de la
"serio": un introducción de
lenguaje de extensiones
diseño de orientadas a
bases de datos objetos.
muy completo • El mayor
(PL/SQL) que inconveniente
permite de Oracle es
implementar quizás su precio.
diseños Incluso las
"activos", con licencias de
triggers y Personal Oracle
procedimientos son
almacenados, excesivamente
con una caras, en mi
integridad opinión. Otro
referencial problema es la
declarativa necesidad de
bastante ajustes. Un error
potente. frecuente
• Permite el consiste en
uso de pensar que
particiones basta instalar el
para la mejora Oracle en un
de la servidor y
eficiencia, de enchufar
replicación e directamente las
incluso ciertas aplicaciones
versiones clientes. Un
admiten la Oracle mal
administración configurado
de bases de puede ser
datos desesperanteme
distribuidas. nte lento.
• El software • También es
del servidor elevado el coste
puede de la
ejecutarse en información, y
multitud de sólo
sistemas últimamente han
operativos. comenzado a
• Existe incluso aparecer buenos
una versión libros sobre
personal para asuntos técnicos
Windows 9x, lo distintos de la
cual es un simple
punto a favor instalación y
para los administración.
desarrolladore
s que se llevan
trabajo a casa.
• Oracle es la
base de datos
con más
orientación
hacía
INTERNET.
APLICACIÓN DE USO LIBRE

Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 – 2014,
hecha en java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.
Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de
fuente de datos XML. Para recuperar los datos que tendrán que definir un dato de tiempo
y una entidad, que está representado por datos a calcular o para mostrar. Todos los objetos
útiles serán creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La
aplicación también es capaz de recuperar automáticamente los datos mediante el uso de
diversas tareas planificadas de su sistema.
Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información de los
archivos de datos planos, la organización y el filtrado de acuerdo con su dato de tiempo y
entidad.
Características Benetl
• Tecnologias:
• Java 7 update 80
• PostgreSQL 9.5.0 (con el apoyo plpgsql)
• MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de usuario (para
controlador suministrado)
• Con Windows (se utiliza "tareas programadas")
• Benetl 4.7 funciona en Linux.
• Requerimientos Tecnicos:
• ejecución de Java (JRE) 1.7
• base de datos PostgreSQL 9.5 con soporte plpgsql
• base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio de sesión
de usuario o el controlador oficial de MySQL (no incluido)
• Probado en sistemas de 64 bits
• Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el nombre de
la tabla de PostgreSQL o tabla de MySQL donde se almacenan las líneas de datos.
Un archivo llamado "EtlTool.bat" se creará en la carpeta de origen de datos.
Debe presionar enter para validar su nombre EtlTool, y luego se pueden guardar los
parámetros.
Benetl es una herramienta ETL gratuita para archivos que trabajan con postgreSQL 9.xy
MySQL 5.x
La versión de Benetl , la herramienta gratuita de ETL, en descarga es la versión 4.9.1 .
Deberías actualizar. Una versión para Linux está disponible.
Esta versión es madura, puede usarla en modo de producción.
Lea sobre "fórmula de parte" y "ejemplo interesante" en la documentación, para ver las
posibilidades que trae Benetl .
Usuarios de MySQL , lea sobre "Configuración básica de Benetl" en la documentación.
Benetl es un programa gratuito que puedes descargar, usar y redistribuir libremente.

REFERENCIAS
https://www.evaluandosoftware.com/tipos-migracion-datos/
https://www.oracle.com/technetwork/es/documentation/317502-esa.pdf
https://mundobi.wordpress.com/2007/06/24/herramientas-etl-%E2%80%A6o-mundo-etl/
https://churriwifi.wordpress.com/2009/12/29/11-herramientas-etl-%C2%BFque-son-para-que-
valen-productos-mas-conocidos-etl%C2%B4s-open-source/
https://www.dataprix.com/es/blogs/respinosamilla/herramientas-etl-que-son-para-que-valen-
productos-mas-conocidos-etl-s-open-sour
https://www.benetl.net/
https://repository.unilibre.edu.co/bitstream/handle/10901/11161/PAUTAS%20PARA%20UNA%20
CORRECTA%20MIGRACION%20DE%20BASES%20DE%20DATOS%20(1).pdf?sequence=1&isAllowed
=y
http://www.oracle.com/us/corporate/pricing/price-lists/business-intelligence-price-list-
071347.pdf

AA5-Ev1-Validación de Técnicas de Migración y Herramientas ETCL

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AA5-Ev1-Validación de Técnicas de Migración y Herramientas ETCL

Cargado por

Copyright:

Formatos disponibles

SERVICIO NACIONAL DE APRENDIZAJE

ESPECIALIZACION EN GESTION Y SEGURIDAD DE BASES DE DATOS

INFORME: “AA5-Ev1-Validación de técnicas de migración y herramientas

PRESENTADO POR: CRISTIAN CAMILO GONZALEZ RAMIREZ

PRESENTADO A: HERNAN HENAO HERNANDEZ

Ejemplo de migración de datos

 Cuando el software de base de datos requiere una actualización

Procedimientos ETCL (Extracción, Transformación, Limpieza y Carga)

Fig. 2: Resultado del perfil de datos

Fig. 5: Datos migrados a la base de datos de destino

Esquema Típico de Herramienta ETL

• Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el

• Acceso a una gran variedad de fuentes de datos diferentes.

• Interfaz independiente de hardware.

• Soporte en la explotación del Data Warehouse.

Definición de ETL en la Wikipedia

Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio).

Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.).

Generación de campos clave en el destino.

Transponer o pivotar (girando múltiples columnas en filas o viceversa).

La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente

Datos OK: Entregar datos a la siguiente etapa (Carga).

Existen dos formas básicas de desarrollar el proceso de carga:

Acumulación simple: La acumulación simple es la más sencilla y común, y consiste en realizar un

Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo. Esto ha

De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios componentes en el

De componente: Consiste en el funcionamiento simultáneo de múltiples procesos en diferentes flujos

Algunas Herramientas ETL

BITool – ETL Software

Cognos Decisionstream (IBM)

Data Integrator (herramienta de Sap Business Objects)

ETI*Extract (ahora llamada Eti Solution)

IBM Websphere DataStage (antes Ascential DataStage)

Microsoft Integration Services

Oracle Warehouse Builder

WebFocus-iWay DataMigrator Server

Oxio Data Intelligence ETL full web

Opentext (antes Genio, Hummingbird).

Kettle (ahora llamado Pentaho Data Integration).

Scriptella Open Source ETL Tool.

Talend Open Studio.

Interfases con sistemas Frontoffice: interfases de subida/bajada con sistemas de venta.

Otros cometidos: Actualización de usuarios a sistemas paralelos, preparación de procesos masivos

Conectividad / capacidades de Adaptación (con soporte a origenes y destinos de datos): habilidad

Capacidades de transformación de datos: habilidad para la transformación de los datos, desde

Capacidades de gestión de datos (calidad de datos, perfiles y minería).

Las operaciones y capacidades de administración: habilidades para gestion, monitorización y control

La arquitectura y la integración: grado de compactación, consistencia e interoperabilidad de los

A continuación indicamos algunos links interesantes sobre herramientas ETL:

Comparando soluciones ETL Open Source y comerciales: link en beyenetwork.es.

Herramientas ETL (o mundo ETL): link en mundobi.wordpress.com.

Herramientas ETL: link en dataprix.com.

APLICACIÓN SMBD SELECCIONADO

APLICACIÓN DE USO LIBRE

Benetl es un programa gratuito que puedes descargar, usar y redistribuir libremente.

También podría gustarte