Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CICLO : VIII
SECCIÓN : “A”
INTEGRANTES :
INDICE
1. CONTENIDO ........................................................................................................................... 3
Introducción .............................................................................................................................. 3
Principios, reglas y calidad de datos ETL ................................................................................... 4
Fases de ETL .............................................................................................................................. 5
FASE DE EXTRACCIÓN ............................................................................................................ 5
FASE DE TRANSFORMACIÓN ................................................................................................. 9
FASE DE CARGA ................................................................................................................... 11
Aplicaciones de los procesos ETL ............................................................................................ 12
¿Qué sistemas se pueden integrar en un proceso ETL?.......................................................... 13
Beneficios de los procesos ETL ................................................................................................ 13
Proceso ETL: un sistema efectivo, pero con retos y cuestiones a resolver ............................. 14
2. RESUMEN ............................................................................................................................ 15
3. SUMMARY ........................................................................................................................... 16
4. RECOMENDACIONES ........................................................................................................... 17
5. CONCLUSIONES ................................................................................................................... 18
6. APRECIACIÓN DEL EQUIPO .................................................................................................. 20
7. GLOSARIO DE TÉRMINOS .................................................................................................... 22
8. BIBLIOGRAFÍA Y LINKOGRAFÍA ............................................................................................ 25
Extracción de datos
Transformación de datos
Carga de datos
Extraer.- La primera parte del proceso ETL consiste en extraer los datos desde
los sistemas de origen. La mayoría de los proyectos de almacenamiento de datos
fusionan datos provenientes de diferentes sistemas de origen. Cada sistema
separado puede usar una organización diferente de los datos o formatos
distintos. Los formatos de las fuentes normalmente se encuentran en bases de
datos relacionales o ficheros planos, pero pueden incluir bases de datos no
relacionales u otras estructuras diferentes. La extracción convierte los datos a un
formato preparado para iniciar el proceso de transformación.
Sin embargo, el fijar ciertos estándares no implica que los problemas de calidad
de datos queden resueltos, ni que se descubran las necesidades en cuanto a
datos por parte de cada usuario. Aunque lo cierto es que resulta útil para llegar
a un acuerdo acerca de valores aceptables y definiciones que puede mejorar los
resultados finales de calidad de datos ETL.
Fases de ETL
FASE DE EXTRACCIÓN
Para llevar a cabo de manera correcta el proceso de extracción, primera fase del
ETL, hay que seguir los siguientes pasos:
Modos de extracción
Básicamente, existen tres modos distintos de extracción. El tipo de necesidad de
la organización es lo que, normalmente, determinará la elección de una u otra
forma.
En este caso, solo se van extrayendo los datos a medida que se produce una
actualización (por ejemplo, un inserto).
Una extracción de un número demasiado grande de datos de una sola vez puede
llegar a ralentizar, e incluso colapsar, el sistema. Por este motivo, es importante
valorar muy bien las necesidades y el alcance de la operación a realizar y, si es
necesario, llevar a cabo la operación de forma escalonada en bloques de menor
tamaño y/o en las fechas y horas más adecuadas para lograr ese mínimo
impacto.
Limpieza
estandarización y definidos por las reglas del negocio. Por ejemplo: trato
de Sr., Sra., etc. o sustituyendo los diminutivos de nombres por los
nombres correspondientes.
Relacionar: Este proceso busca y relaciona los valores de los registros,
corrigiéndolos y estandarizándolos, basándose en reglas de negocio para
eliminar duplicados. Por ejemplo: identificando nombres y direcciones
similares.
Consolidar: Este proceso analiza e identifica relaciones entre registros
relacionados y los junta en una sola representación.
FASE DE TRANSFORMACIÓN
La transformación de los datos se hace partiendo de los datos una vez “limpios”.
Transformamos los datos de acuerdo con las reglas de negocio y los estándares
que han sido establecidos.
Reformateo de datos.
Conversión de unidades. Por ejemplo, convertir millas en kilómetros por
hora o viceversa. Algo muy habitual cuando se extraen datos de países
con unidades métricas distintas. Otro caso sería la conversión de
diferentes monedas (libras, euros...) en un único valor estándar.
Selección de columnas para su carga posterior. Por ejemplo, hacer que
las columnas con valores nulos no se carguen.
Agregación de columnas. Añadir una columna con la procedencia de
determinados automóviles sería un ejemplo.
Dividir una columna en varias. Esta acción resulta de gran utilidad para,
por ejemplo, separar en tres columnas, una para el nombre y otras dos
para los apellidos, la identificación de una persona que antes estaba en
un solo campo.
Traducir códigos. Por ejemplo, si la fuente de origen almacena una “H”
para hombres y una “M” para mujeres, dar las instrucciones necesarias
para que en destino se guarde un “ 1” para hombres y un” 2” para mujeres.
Obtener nuevos valores calculados.
Unir datos de varias fuentes.
Lookups. Es cuando se toma un dato y se lo compara con otro tipo de
datos, cruzando información. Por ejemplo, capturar un código de cliente
de una base de datos y cruzarlo con otra base de créditos concedidos
para saber si dicho cliente disfruta o no de ese préstamo.
Pivoting. Proceso parecido al lookups pero con un grado mayor de
complejidad, ya que se cruzan datos de distintas fuentes.
FASE DE CARGA
Sea cual sea la manera elegida de desarrollar este proceso, hay que tener en
cuenta que esta fase interactúa directamente con la base de datos de destino y,
por eso, al realizar esta operación se aplicarán todas las restricciones que se
hayan definido en ésta. Si están bien definidas, la calidad de los datos en el
proceso ETL estará garantizada.
No obstante, las herramientas ETL no tienen por qué utilizarse sólo en entornos
de Data Warehousing o construcción de un Data Warehouse, sino que pueden
ser útiles para multitud de propósitos, como por ejemplo:
2. RESUMEN
Un almacén de datos (DW) es una colección integrada de datos orientados a
temas en apoyo de la toma de decisiones. Es importante destacar que la
integración de las fuentes de datos se logra mediante el uso de procesos ETL
(Extraer, Transformar y Cargar). Por lo tanto, se reconoce ampliamente que el
diseño apropiado de los procesos de ETL es un factor clave en el éxito de los
proyectos de DW.
Extracción de datos
Transformación de datos
Carga de datos
La primera etapa esencialmente extrae los datos desde los sistemas de origen.
3. SUMMARY
A data warehouse (DW) is an integrated collection of data oriented to issues in
sources is achieved through the use of ETL processes (Extract, Transform and
Load). Therefore, it is widely recognized that the proper design of ETL processes
data storage in order to identify their main characteristics, notation and activities.
We also study whether these modeling approaches are supported by some kind
of prototype or tool.
The main purpose of ETL is to transport the information of the company from the
Data extraction
Data transformation
Loading data
The first stage essentially extracts the data from the source systems.The second
extracted data to convert them into data that will be loaded. On occasion there is
the possibility that some data sources require some manipulation of the data.
The loading stage refers to the moment in which the data of the transformation
the company, this process can contain a wide variety of actions. In some
4. RECOMENDACIONES
5. CONCLUSIONES
1. Como conclusión podemos decir que los ETL son proceso que organizan
los flujos datos entre distintos sistemas en una organización y aporta los
métodos y herramientas necesarias para movilizar los datos desde
múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y
cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de
los Datos” (Data Management).
2. Ejecute ETL más pequeños con mayor frecuencia durante el día en lugar
de ejecutar una extracción grande por la noche. Las extracciones grandes
serán más pesadas, los géneros serán exponencialmente más grandes y
el impacto potencial en la base de datos de reserva u OLTP será mayor.
7. GLOSARIO DE TÉRMINOS
Data mart: Un data mart es una versión especial de almacén de datos (data
warehouse). Son subconjuntos de datos con el propósito de ayudar a que un
área específica dentro del negocio pueda tomar mejores decisiones. Los datos
existentes en este contexto pueden ser agrupados, explorados y propagados de
múltiples formas para que diversos grupos de usuarios realicen la explotación de
los mismos de la forma más conveniente según sus necesidades.
ejemplo, una lista de entradas de datos se puede organizar por orden alfabético,
lo que facilita la visualización y la búsqueda de información.
Archivos complejos.- Son una extensión de archivos que están formados por
múltiples textos. Algunos ejemplos de tipos de archivo son, por ejemplo, archivos
de programa ejecutables, documentos de Microsoft Word o archivos MP3.
8. BIBLIOGRAFÍA Y LINKOGRAFÍA
https://es.wikipedia.org/wiki/Extract,_transform_and_load
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312587/Procesos-
ETL-Extracci-n-En-qu-consiste
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/procesos-
etl-definici-n-caracter-sticas-beneficios-y-retos
http://blog.bi-geek.com/que-es-una-etl/
http://www.evaluandosoftware.com/etl-extraccion-transformacion-carga-datos/