Está en la página 1de 6

Ensayo del ETL: extraccin, transformacin y carga de datos

Integrantes:
Ibarra Milton

UNIVERSIDAD LAICA ELOY ALFARO DE MANAB


CAMPUS EL CARMEN

Faculta:
Ciencias Informtica
El Carmen, Ecuador

2015

*Patricio Quiroz

Introduccin

El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer,
transformar y cargar).
ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar
datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en
otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema
operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar
para integrar sistemas heredados a los nuevos sistemas emergentes en las
empresas.
El principal propsito de ETL es transportar la informacin de la empresa desde las
aplicaciones de produccin a los sistemas de Inteligencia de Negocio (BI), este
proceso consta de tres etapas:

Extraccin de datos
Transformacin de datos
Carga de datos

La primera etapa esencialmente extrae los datos desde los sistemas de origen.
La segunda etapa de transformacin aplica una serie de funciones o reglas de
negocio sobre los datos extrados para convertirlos en datos que sern cargados. En
ocasin existe la posibilidad de que algunas fuentes de datos requieran alguna
manipulacin de los datos.
La etapa de carga se refiere al momento en el cual los datos de la fase de
transformacin se cargan en el sistema de destino. Dependiendo de los requisitos
de la empresa, este proceso puede contener una extensa diversidad de acciones.
En algunas bases de datos se sobrescribe la informacin anterior con nuevos datos.
Los Data Warehose es un repositorio de datos que mantienen un historial de los
registros de manera que se pueda hacer una auditora de los mismos y disponer de
un rastro de toda la historia de un valor a lo largo del tiempo.

Desarrollo
ETL (Extact-Transform-Load) son la base de la construccin de cualquier sistema
Data Warehouse.Un sistema bien diseado extrae la informacin de los sistemas
origen, asegura la calidad y consistencia de los datos, homogeniza los datos de
sistemas opuestos para que puedan ser utilizados de una forma conjunta
(procesando y transformando la informacin si es necesario) y finalmente genera los
datos en el formato apropiado para que puedan ser utilizados por las herramientas
de anlisis.
La extraccin, transformacin y carga (el proceso ETL) es necesario para acceder a
los datos de las fuentes de informacin al datawarehouse. (Cano, 2007)
Segn (Cano, 2007) El proceso ETL se divide en 5 subprocesos:

Extraccin
Limpieza
Transformacin
Integracin
Actualizacin

Extraccin
La primera fase del proceso ETL radica en extraer los datos iniciando en los
sistemas de origen. Es comn que se utilice un ETL para fusionar datos
provenientes de otros sistemas.
Cada sistema separado puede usar una organizacin diferente de los datos o
formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases
de datos relacionales o ficheros planos, pero pueden incluir bases de datos no
relacionales u otras estructuras diferentes. La extraccin convierte los datos a
un formato preparado para iniciar el proceso de transformacin. (Espinosa, s.f.)
La extraccin de los datos se puede realizar bien de forma manual o bien utilizando
herramientas de ETL. De forma manual significa programar rutinas utilizando
lenguajes de programacin (por ejemplo: COBOL) que extraigan los datos de las
fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar
la base de datos que tienen los motores de bases de datos. La alternativa ms
rentable es la que provee las herramientas especializadas de ETL, ya que han sido
diseadas para llevar a cabo esta funcin y nos permiten visualizar el proceso y
detectar los errores durante el proceso o durante la carga. Cada vez ms los
motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007)
El principal objetivo de la extraccin es extraer tan slo aquellos datos de los
sistemas transaccionales que son necesarios y prepararlos para el resto de los
subprocesos de ETL. Para ello se deben determinar las mejores fuentes de
informacin, las de mejor calidad. Con tal finalidad, deberemos analizar las fuentes
disponibles y escoger aquellas que sean mejores.

Limpieza
La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la
tarea de transformacin. La limpieza se efecta en los datos incompletos, atributos
sin valor, falta de atributos interesantes para el contexto o el valor del atributo.
Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen
herramientas especializadas para ello. En proyectos de CRM, la limpieza de los
datos es clave: los nombres y las direcciones de los clientes siempre necesitan ser
limpiados, eliminar duplicados, etc. (Cano, 2007)
Segn (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a
describir a continuacin:
Depurar los valores: Este proceso localiza e identifica los elementos individuales
de informacin en las fuentes de datos y los asla en los ficheros destino. Por
ejemplo: separar el nombre completo en nombre, primer apellido, segundo apellido,
o la direccin en: calle, numero, piso, etctera.
Corregir: Este proceso corrige los valores individuales de los atributos usando
algoritmos de correccin y fuentes de datos externas. Por ejemplo: comprueba una
direccin y el cdigo postal correspondiente.
Estandarizar: Este proceso aplica rutinas de conversin para transformar valores en
formatos definidos y consistentes aplicando procedimientos de estandarizacin y
definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o
sustituyendo los diminutivos de nombres por los nombres correspondientes.
Relacionar: Este proceso busca y relaciona los valores de los registros,
corrigindolos y estandarizndolos, basndose en reglas de negocio para eliminar
duplicados. Por ejemplo: identificando nombres y direcciones similares.
Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados
y los junta en una sola representacin.

Transformacin
Los datos originarios de repositorios digitales diferentes no suelen coincidir en
formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones
de transformacin. El objetivo no es otro que evitar duplicidades innecesarias e
impedir la generacin de islas de datos inconexas. Las transformaciones aplican una
serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en
datos destino.
Las reglas de negocios describe las polticas, normas, operaciones, definiciones y
restricciones presentes en una organizacin y que son de vital importancia para
alcanzar los objetivos.
La transformacin de los datos se hace partiendo de los datos una vez limpios.
Transformamos los datos de acuerdo con las reglas de negocio y los estndares que

han sido establecidos. La transformacin incluye: cambios de formato, sustitucin de


cdigos, valores derivados y agregados. (Cano, 2007)

Integracin
El proceso de integracin o carga es el momento en el cual los datos de la fase de
transformacin se cargan en el sistema de destino. La etapa de carga interacta en
forma directa con la base de datos de destino. Es fundamental comprobar que se ha
desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones
errneas a los usuarios.

Actualizacin
Este proceso determina la periodicidad con el que haremos nuevas cargas de datos
al datawarehouse.

HERRAMIENTAS ETL
La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicacin,
que puede ser la ubicacin original, una computadora nueva, una nueva base de
datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas
ETL que le proporcionan todo lo necesario para extraer, transformar y cargar datos
Oracle Data Integrator (ODI): Es una herramienta de carga y trasformacin de
datos desde mltiples sistemas fuentes a destinos heterogneos.
SAS Warehouse Administrator: Solucin de extraccin, transformacin, carga y
limpieza de datos que facilita la definicin visual de los procesos corporativos y su
documentacin.
Teradata Warehouse Builder: Herramienta de carga y descarga que permite al
usuario generar un job o secuencia de comandos para acceder a datos
heterogneos, comprobar la integridad de los mismos o fusionarlos con otros.
Incorpora puntos de control para el relanzamiento del proceso en caso de cada del
sistema.

CONCLUSIN
Como conclusin podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organizacin y aporta los mtodos y
herramientas necesarias para movilizar los datos desde mltiples fuentes a un
almacn de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, tambin llamado Gestin de los Datos
(Data Management).

Bibliografa
Cano, J. L. (2007). Business intelligence: competir con informacin.
Espinosa,
R.
(s.f.).
dataprix.
Obtenido
de
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-paraque-valen-productos-mas-conocidos-etl-s-open-sour