Está en la página 1de 7

Introducción

Universidad de Valparaíso
Facultad de Ciencias Económicas y Administrativas Contexto (1)
Escuela de Ingeniería Comercial

- Las bases de datos han sido construidas para satisfacer necesidades de


información, por la ejecución de operaciones cotidianas de la organización
(transacciones).

- El énfasis de su construcción está centrado en:


“Data Warehouse”
• El procesamiento (recuperación y actualización).

• La eliminación de redundancias de datos.

• La centralización de la administración de datos (seguridad, control de acceso, etc.).

- Estas funciones integran el tipo de procesamiento denominado OLTP (On-


Asignatura Line Transaction Procesing).
Gestión Tecnológica I
Profesor
Daniel Cabrera Paniagua

EICO 224 – Gestión Tecnológica I

Introducción Definición
Contexto (2) Data Warehouse
- A diferencia de lo anterior, un Data Warehouse reúne datos de diversas
fuentes.

- Esta recopilación opera a través del tiempo, y almacena en un único lugar la


“Un Data Warehouse (DW) es un conjunto de
información generada en distintos momentos por diferentes aplicaciones datos integrados, orientados a una materia,
software.
que varían en el tiempo, no volátiles, y que
- El nivel de detalle que presentan las bases de datos tradicionales suele no ser soportan el proceso de toma de decisiones”
adecuado para apoyar la toma de decisiones.

- Un data warehouse, por lo tanto, debe reunir esos datos y asociarlos.


[W.H. Inmon: Building Data Warehouse.
- Un data warehouse posee un alto volumen de datos, obtenidos desde diversas Technical Publishing Group, 1992]
bases de datos transaccionales.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I


Data Warehouse Data Warehouse
Análisis de la Definición (1) Análisis de la Definición (2)
- Conjunto de datos integrados: - Datos variables en el tiempo:

• Los datos son tomados desde diferentes sistemas de la organización, recopilados y • Los datos en un DW siempre son agregados y nunca removidos.
almacenados en una forma estándar.
• Lo anterior permite tener una visión de los negocios a través del tiempo.
• Aspectos a considerar en la integración: Unificación de conceptos; construcción del
dato integrado a partir de las fuentes. - Datos no volátiles:

- Datos Orientados a una materia: • Los datos de un DW no son transitorios en el tiempo (no cambian).

• Los datos de un DW se encuentran relacionados a los temas principales • Son de carácter histórico, es decir, se manejan con su referencia temporal.
(necesidades particulares) de la organización.
• Los cambios en los datos se observan a nivel transaccional (operacional).
• Ej: Necesidad de conocer la facturación bruta para un canal de ventas en particular,
durante el primer semestre de 2008. Determinar además los costos operativos de la
organización en el mismo período, y generar un análisis comparativo sobre la
rentabilidad observada.

• Los sistemas operacionales no tienen los datos suficientes para generar lo


solicitado.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I

Data Warehouse Data Warehouse


Características (1) Características (2)
- Un DW se encuentra sustentado en un Modelo de Datos Muldimensional.

P3 P3

P3
PROD P2 PROD P2
S3 S3
P1 S2 P1 S2
PRODUCTO P2 S1 S1
R1 R2 R3 SUC R1 R2 R3 SUC
S3
P1 S2
S1 SUCURSAL REG REG
R1 R2 R3

REGIÓN
ENERO … DICIEMBRE

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I


Data Warehouse Data Warehouse
Características (3) Características (4)
- Un esquema multidimensional frecuente es el Modelo de Estrella. - La información almacenada en un DW cambia con menos frecuencia, y puede
considerarse como de tiempo no real, y con actualización periódica.
- La tabla central es llamada Tabla de Hechos. Cada tabla externa representa
una dimensión. - En los sistemas transaccionales, las transacciones representan el agente de
cambio de la base de datos.

- En cambio, la información en un DW se actualiza en base a una política de


actualización (se determinan los instantes más adecuados para ello).

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I

Data Warehouse Data Warehouse


Componentes (1) Componentes (2)
- Fuentes Internas:

• Bases de Datos Transaccionales.

- Fuentes Externas:

• Por ejemplo, datos sobre el mercado financiero, datos medioambientales, etc.

DW - Herramientas ETL (Extraction, Transformation, Load):

• Realizan las funciones de extracción de datos desde las diferentes fuentes


(transaccionales y/o externas), transformación de datos (limpieza, consolidación),
y la carga final al DW.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I


Herramientas ETL Herramientas ETL
Extracción Transformación (1)
- Los datos se obtienen de múltiples y heterogéneas fuentes. - El proceso de transformación considera como primer paso el aplicar una
“limpieza” de datos.
- Las fuentes de datos pueden estar sustentadas en diferentes tecnologías.
- Datos Incompletos:
- Las fuentes de datos pueden estar sustentadas sobre la misma tecnología,
pero con diferencias de implementación (organización diferente de datos; • Dentro de los datos obtenidos, es posible que algunos atributos de interés no estén
diferencias de formato). siempre disponibles en cada tupla extraída.

• Algunos datos pudieron no ser considerados dentro de la extracción, pues se


- La extracción debe generar un impacto mínimo en los sistemas de origen de
estimó que no eran de importancia.
los datos.
• Datos relevantes considerados dentro de la extracción fueron mal grabados, por
- La extracción convierte los datos a un formato preparado para iniciar el fallas de harware o de procedimientos.
proceso de transformación.
• El registro de la historia de modificaciones de los datos puede ser pasada por alto.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I

Herramientas ETL Transformación – Limpieza de Datos


Transformación (2) Datos Faltantes (1)
- Datos con Ruido: - Ignorar la tupla:

• Los instrumentos de recolección de datos utilizados podrían ser defectuosos. • Esto se hace usualmente cuando la registro de un dato está vacío.

• Pueden haber errores producidos por intervención humana o sistemas informáticos, • Esto no suele ser muy efectivo, al menos que la tupla contenga varios registros sin
durante el ingreso de datos. valor.

- Datos Inconsistentes: • Este método no influye en los datos.

• Datos incorrectos pueden resultar también de inconsistencias en las convenciones - Llenar el valor manualmente:
de nombres.
• Generalmente este método consume mucho tiempo, y no podría ser factible si hay
• Datos duplicados (tuplas) también requieren limpieza. un gran conjunto de datos con valores vacíos.

• Este método no influye en los datos.

- Usar el valor más probable para completar el valor faltante:

• Ej: utilizando algún método como regresión lineal, árboles de decisión, etc.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I


Transformación – Limpieza de Datos Transformación – Limpieza de Datos
Datos Faltantes (2) Datos con Ruido (1)
- Emplear una constante global para llenar el valor faltante: - El ruido es un error aleatorio en una variable medida, y que afecta la calidad
de los datos (Ej: varios valores faltantes o incorrectos, presencia de atributos
• Reemplazar todos los valores faltantes con un mismo valor constante. extraños, etc.).

• Esto se hace usualmente cuando la etiqueta del dato está vacía (Ej: valor muy - Método Uno: Encajado.
grande, o un valor “desconocido”).
• Suaviza una clase de valores de datos por consulta a su entorno (vecindario
• Esto no suele ser recomendable, pues una herramienta que trabaje con los datos formado por los valores subyacentes a el valor con ruido).
puede encontrar cierto patrón, que en realidad es inexistente.
• En base a los datos subyacentes, se forman paquetes de valores. Luego, sus
• Este método influye en los datos. valores son reemplazados en base a algún criterio (Por ejemplo: promedio simple
de los valores).
- Usar un valor promedio para completar el valor faltante:
• Ej: 4, 8, 15 => 9, 9, 9.
• Este método influye en los datos.
- Método Dos: Agrupamiento.
- Usar un valor promedio para completar el valor faltante, considerando
categorías de datos: • Valores fuera de rango pueden ser detectados mediante el agrupamiento, en donde
los valores similares son organizados en grupos, y los atípicos son dejados fuera.
• Este método influye en los datos.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I

Transformación – Limpieza de Datos Transformación – Limpieza de Datos


Datos con Ruido (2) Datos Inconsistentes
- Método Tres: Combinación Inspección humana/computarizada. - La corrección de datos inconsistentes puede ser manualmente, considerando
referencias externas (Ej: verificando lo ingresado en una transacción, y hacer
• Los valores fuera de rango pueden ser identificados a través de esta combinación. un constraste con lo que efectivamente se obtuvo).
• Los valores atípicos son agrupados en un listado especial, para que luego un
- Diferentes bases de datos pueden llamar al mismo dato en formas diferentes.
humano chequee cada uno de dichos valores.
Existe también posibilidades de redundancia.
• Esto es mucho más rápido que tener que buscarlos manualmente

- Método Cuatro: Regresión.

• Los datos pueden ser suavizados ajustándolos a una función matemática.

• La dificultad está en encontrar la función que mejor represente a los datos.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I


Transformación Carga de Datos
Integración y Cálculos Adicionales Alcances
- Combinación de datos provenientes de diferentes fuentes. - La fase de carga consiste en llevar los datos obtenidos en la fase de
transformación al sistema final de almacenamiento.
- Generalización de datos. Ej: una calle puede ser generalizada a un sector,
comuna, etc. - Dependiendo de los requerimientos de la organización, este proceso puede
abarcar una amplia variedad de acciones diferentes.
- Construcción de nuevos atributos a partir de los atributos ya existentes.
- Existen diferentes criterios de actualización, entre los que se encuentran:
- Obtener nuevos datos calculados considerando datos base. Ej: total_ventas. actualización semanal, mensual, por área, por región, etc.

- Dividir un registro (Ej: fechas).

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I

Data Warehouse Data Warehouse


Errores Comunes en su Construcción (1) Errores Comunes en su Construcción (2)
- Asumir la solución de los problemas que puedan presentarse como una - No tener una infraestructura adecuada que de soporte a ello:
cuestión netamente técnica:
• El DW corporativo requiere una adecuada infraestructura tecnológica y
• El DW requiere de la participación activa de los usuarios gerenciales tomadores organizacional.
de decisiones.
• La arquitectura de sistemas de un DW abarca desde servidores de base de datos
- No asignar un presupuesto adecuado para el proyecto completo: propios, servidores de transformación y limpieza de datos, nodos de los usuarios
gerenciales de la organización, etc.
• Es requerida una adecuada asignación de recursos, que permita dar soporte y
• Sistemas de alto rendimiento y con una alta disponibilidad son apreciados.
funcionamiento a la plataforma e infraestructura tecnológica que requiere un
datawarehouse corporativo.
- Bases de Datos redundantes, no transparentes, y sin documentar.
- Falta de compromiso de la alta dirección:
- Pobre ambiente de cooperación entre el equipo de desarrollo del DW y los
• El éxito de un DW corporativo requiere del apoyo completo de la alta dirección, DBA'S de las bases de datos fuente.
sustentada en la seguridad y confianza brindada a la dirección del proyecto y su
equipo de desarrollo. - Falta de proceso de especificación de requerimientos adecuada para el trabajo
con la alta dirección.
• El trabajo debe ser fluido en todas las áreas organizacionales involucradas dentro
del proyecto.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I


Data Warehouse
Errores Comunes en su Construcción (3) Gracias !!!
- Desconocimiento de los procesos de negocio de la organización, cadena de
valor, y flujos de información.

- No tener una perspectiva de integración con otras tecnologías relacionadas.

- Pobre dirección del proyecto.

EICO 224 – Gestión Tecnológica I EICO 224 – Gestión Tecnológica I

También podría gustarte