Está en la página 1de 11

Conceptos de Inteligencia de Negocios

Estrategias Master subtitle style Click to editde Extraccin de datos

5/7/12

En este captulo

Estrategia general de ETL Modelos y tcnicas de extraccin Tcnicas para deteccin del delta Tcnicas para el manejo de grandes volmenes de datos Guas para el proceso de extraccin de datos Validacin de datos extrados

5/7/12

Estrategia general de ETL


Extraccin: Obtiene datos de las diferentes fuentes y los pone en un rea de staging Transformacin: Realiza sobre el rea de staging todos los procesos de validacin, transformacin, limpieza y estandarizacin sobre los datos antes de ser cargados a la bodega de datos Carga: Realiza el proceso de carga 5/7/12

Modelos y tcnicas de extraccin

Modelo Push

El sistema de origen inicia el proceso de extraccin y empuja los datos de delta al servidor de staging. El sistema de origen es responsable por la extraccin, trazabilidad del proceso, reinicio en caso de fallas y mover los datos al rea de staging

Cundo usar el modelo Push?


Hay requerimientos especiales de horarios 5/7/12

Modelos y tcnicas de extraccin

Modelo Pull
La base de datos de staging inicia el proceso ejecutando sentencias SQL sobre los sistemas de origen Usado para minimizar el impacto en el servidor de origen El servidor de origen inicia la extraccin, Prepara las consultas, hacen la trazabilidad de las fallas y mantienen los metadatos necesarios Es el modelo ms usado 5/7/12

Modelos y tcnicas de extraccin

Algunas tcnicas utilizadas son:

5/7/12

Usar un ODS como fuente de la bodega (tambin se conoce como Reporting Data Store) Uso de un servidor Stand-by Uso de un servidor Snapshot (Backup) Uso de herramientas nativas (BCP, Loader, etc.) Uso de herramientas de ETL Uso de Triggers en el origen Use la aplicacin de origen para escribir redundantemente en la base de datos de Staging

Tcnicas para deteccin del delta

Enfoques bsicos
Log de transacciones: Es un log donde se registran los cambios en las tablas de origen. Usado comunmente para registros de transacciones y para cambios en tablas muy grandes Fotos del sistema de origen: Se detectan los cambios en el rea de staging. Debido a lo complejo de este proceso, solo debe usarse para tablas pequeas. Este esquema no captura los cambios 5/7/12 intermedios

Tcnicas para el manejo de grandes volmenes de datos


Factores que afectan el volumen de datos

Sincronizacin completa (Carga de historia) Deteccin de delta basado en Fotos del Sistema de origen Largos intervalos entre extracciones Recargas despus de cambios (reproceso) Cambios de esquema en el sistema OLTP 5/7/12

Tcnicas para el manejo de grandes volmenes de datos


Tcnicas

Deteccin apropiada del delta Agendas diferentes dependiendo de la disponibilidad de la fuente Extraccin de particiones Intervalos de sincronizacin pequeos Uso del modelo de extraccin adecuado

5/7/12

Guas para el proceso de extraccin de datos


Seleccione el intervalo de extraccin adecuado Seleccione el nivel de aislamiento adecuado para leer los datos desde el origen Mantenga colas de tablas Extraiga listas explcitas de campos (Evitar SELECT *) Extraer solo las filas necesarias. 5/7/12 Establecer filtros para no extraer

Validacin de datos extrados


Verifique los conteos de los datos extrados Evite prdida de foreign keys (extraiga tablas con las definiciones de dichas claves) Identifique los registros duplicados

5/7/12