Está en la página 1de 6
parne024 ETL: Extraceién,Transformacién y Carga de datos - DBA dit DBA dixit RECURSOS EN LINEA PARA EL ADMINISTRADOR Y EL DESARROLLADOR DE BASES DE DATOS ETL: Extraccion, Transformacion y Carga de datos 01/04/2019 by DBA (HTTP://DBADIXIT.COM/AUTHOR/CORTIZM/) Transformacion * Determinar datos * Grabar en destino origen predeterminado » Establecer + Limpieza * Medicién de la periodicidad + Estandarizacion calidad + Construir actividades ‘+ Normalizacion + Liberacion de lectura * Complementacion Extracci6n Migracion de datos con técnicas de ETL: Extraccién, Transformacion y vay 1 a. dad com/ethaxtraccion‘ransformacion-carga-datos! 16 pernr2024 ETL: Extraceién,Transformacién y Carga de datos - DBA dit Carga de datos ETLes una técnica que le permite al administrador de bases de datos (y también a los desarrolladores, programadores o implementadores de sistemas) realizar la migracién de datos de una fuente original (o fuentes) hacia un destino; en dicha migracién se pueden realizar transformaciones, fusiones, limpieza o estandarizacién de los datos. Actualmente existen diversas herramientas y técnicas desarrolladas para que estas tareas se hagan de la mejor manera posible. Si bien es una tarea que se lleva hasta el 50% de tiempo de procesamiento en un proyecto de business intelligence -por mencionar un tipo de proyecto donde se utiliza ampliamente el ETL- solo representa poco mas del 2% del presupuesto de este tipo de proyectos. ETL ETL son las siglas de Extraction, Transformation, Load (Extraccién, Transformacién y Carga) de datos y conjunta a los procesos por el cual se genera una base de datos (http://dbadixit.com/una-base-datos-donde-se- almacena/) (o subconjunto de ella) por medio de la obtencién de datos de diversas las fuentes originales (extraccién), limpieza, estandarizacién o normalizaci6n (transformaci6n) y creacién de la estructura de datos adecuada (carga). Usualmente el DBA realiza -o realizaba- esta actividad, la del ETL, con tareas manuales, migraciones a hojas de excel, uso de tablas temporales de una forma casi artesanal, sin herramientas, sin un orden y sin sistematizar el procedimiento. Si la migracién de datos se hard una sola vez, de forma puntual o extraordinaria, entonces no hay problema, pero si esta tarea de pasar datos de un origen a un destino (y sobre todo, cuando se realizan transformaciones en el camino) es recomendable que dad com/ethaxtraccion‘ransformacion-carga-datos! 216 pernr2024 ETL: Extraceién,Transformacién y Carga de datos - DBA dit EL UDA Se pide ta NeCesarid UE NALEr UN ETL en lori, UunZane herramientas adecuadas, planeando el proceso, y sistematizando lo mas que se pueda hacer para automatizar el proceso. Esto requiere tiempo, pero sera tiempo que se invertird una sola vez y que el ahorro futuro sera fundamental para seguir haciendo sus tareas de administracién de bases de datos. Como lo indica en sus siglas, el proceso de ETL consiste en 3 grandes rubros principales: Extraccién. Consiste en la extracci6n de datos de las fuentes originales. Estas fuentes pueden ser tan diversas como bases de datos (no todas del mismo motor, edicién, versién o servidor) donde estan algunos datos-; pueden estar en formatos estructurados como hojas de calculo, archivos planos, separados por coma, en formato XML, JSON, etc. Lo importante de esta fase es que no todos los datos a migrar estaran necesariamente en el mismo formato o en el mismo servidor, pueden -y regularmente lo son- estar en diversas fuentes. Si no se tuvieran herramientas para programar procesos ETL entonces estas tareas tendrian que pasar por una fase de cargar todos los datos a un mismo formato (tablas temporales, por ejemplo) para poder ser utilizadas enla siguiente fase. Obviamente, este fase del proceso requiere que la herramienta de ETL cuente con los permisos y con la visibilidad a las fuentes originales, por lo que es una tarea que regulamente recae en los administradores de bases de datos 0 DBAs. En esta primera etapa es importante hacerse algunas preguntas para poder iniciar implementacion del ETL ara tinna In infaemacin dinnanihtn? dad com/ethaxtraccion‘ransformacion-carga-datos! aie pernr2024 ETL: Extraceién,Transformacién y Carga de datos - DBA dit 2 de UeNe ia Hurimauen uspurmure: * gRequiere algtin procedimiento administrativo? * gHay convenios con los proveedores externos? * Se tienen los permisos -técnicos y legales- para acceder a los datos de origen? « gSe cuenta con la infraestructura necesaria? En el disefio conceptual de esta etapa es necesario determinar algunos puntos importantes: * Detectar datos y su fuente de original . * Definir la periodicidad de extraccién * Medir la calidad de datos y definir las transformaciones necesarias. * Determinar del método ms eficiente y seguro de extraer cada dato. * Implementar métodos de extraccién y llenado del Data Staging (preliminar, temporal, de prueba). Transformacion Una vez extraidos todos los datos de las fuentes originales, se deberan realizar todas aquellas actividades que «limpien» los datos y los transformen a un formato y estructura deseados. En esta fase se realizardn algunas actividades como: * Definicién de los métodos de limpieza, union, divisién, mezcla, normalizacién, estandarizacién o complemento que se aplicaran a los datos. * Cambio de tipos de dato (http://dbadixit.com/introduccion-los-tipos- dato-las-bases-datos/). * Implementacién de los métodos antes definidos (durante el proceso de extraccion o en el area de Staging). * Medicién de la calidad de los datos. dad com/ethaxtraccion‘ransformacion-carga-datos! a6 parne024 ETL: Extraceién,Transformacion y Carga de datos ~ OBA dlut + 1ouas estas Wansiurmationes se reanzaran en et dred Ue DLAgIE, ¥ atin no se cargan el destino final. Carga Es la Ultima parte de un proceso de ETL, e incluye basicamente 3 etapas: * Construccién de la estructura final. Considerar que el acceso debe ser rapido y eficiente; casi siempre en modelos altamente desnormalizados si es para un proyecto de Bl. * Llenado de la estructura final de datos desde el rea de Staging, * Pruebas integrales. * Medicién de la calidad y eficiencia del proceso completo. * Programacién o calendarizacién para liberar el proceso ETL Herramientas de ETL Si bien todas las tareas de un proceso ETL se pueden hacer por separado (utilizando rutinas de carga de datos, tablas temporales, query’s ad hoc, etc.) lo recomendable es utilizar herramientas especializadas que facilitan la construccién del proceso de ETL. Algunos ejemplos de estas herramientas que permiten hacer todo el proceso ETL o que auxilian en algunas partes son: * SQL Server con su Integration services server-integration-services). + Kettle (https://community,hds.com/docs/DOC-1009855) en la suite de Pentaho. dad com/ethaxtraccion‘ransformacion-carga-datos! 56 parne024 ETL: Extraceién,Transformacion y Carga de datos ~ OBA dlut Cual usar depende de si se quiere, o puede, utilizar herramientas propietarios 0 de pago, o se quiere optar con herramientas open source. Copyright © 2021 - Wellness Pro (http://my.studiopress.com/themes/wellness/) on Genesis Framework (https://www.studiopress.com/) - WordPress (https://wordpress.org/) : Iniciar sesion (http://dbadixit.com/acceso/) dad com/ethaxtraccion‘ransformacion-carga-datos! 6

También podría gustarte