Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad de Valparaíso
Facultad de Ciencias Económicas y Administrativas Contexto (1)
Escuela de Ingeniería Comercial
Introducción Definición
Contexto (2) Data Warehouse
- A diferencia de lo anterior, un Data Warehouse reúne datos de diversas
fuentes.
• Los datos son tomados desde diferentes sistemas de la organización, recopilados y • Los datos en un DW siempre son agregados y nunca removidos.
almacenados en una forma estándar.
• Lo anterior permite tener una visión de los negocios a través del tiempo.
• Aspectos a considerar en la integración: Unificación de conceptos; construcción del
dato integrado a partir de las fuentes. - Datos no volátiles:
- Datos Orientados a una materia: • Los datos de un DW no son transitorios en el tiempo (no cambian).
• Los datos de un DW se encuentran relacionados a los temas principales • Son de carácter histórico, es decir, se manejan con su referencia temporal.
(necesidades particulares) de la organización.
• Los cambios en los datos se observan a nivel transaccional (operacional).
• Ej: Necesidad de conocer la facturación bruta para un canal de ventas en particular,
durante el primer semestre de 2008. Determinar además los costos operativos de la
organización en el mismo período, y generar un análisis comparativo sobre la
rentabilidad observada.
P3 P3
P3
PROD P2 PROD P2
S3 S3
P1 S2 P1 S2
PRODUCTO P2 S1 S1
R1 R2 R3 SUC R1 R2 R3 SUC
S3
P1 S2
S1 SUCURSAL REG REG
R1 R2 R3
REGIÓN
ENERO … DICIEMBRE
- Fuentes Externas:
• Los instrumentos de recolección de datos utilizados podrían ser defectuosos. • Esto se hace usualmente cuando la registro de un dato está vacío.
• Pueden haber errores producidos por intervención humana o sistemas informáticos, • Esto no suele ser muy efectivo, al menos que la tupla contenga varios registros sin
durante el ingreso de datos. valor.
• Datos incorrectos pueden resultar también de inconsistencias en las convenciones - Llenar el valor manualmente:
de nombres.
• Generalmente este método consume mucho tiempo, y no podría ser factible si hay
• Datos duplicados (tuplas) también requieren limpieza. un gran conjunto de datos con valores vacíos.
• Ej: utilizando algún método como regresión lineal, árboles de decisión, etc.
• Esto se hace usualmente cuando la etiqueta del dato está vacía (Ej: valor muy - Método Uno: Encajado.
grande, o un valor “desconocido”).
• Suaviza una clase de valores de datos por consulta a su entorno (vecindario
• Esto no suele ser recomendable, pues una herramienta que trabaje con los datos formado por los valores subyacentes a el valor con ruido).
puede encontrar cierto patrón, que en realidad es inexistente.
• En base a los datos subyacentes, se forman paquetes de valores. Luego, sus
• Este método influye en los datos. valores son reemplazados en base a algún criterio (Por ejemplo: promedio simple
de los valores).
- Usar un valor promedio para completar el valor faltante:
• Ej: 4, 8, 15 => 9, 9, 9.
• Este método influye en los datos.
- Método Dos: Agrupamiento.
- Usar un valor promedio para completar el valor faltante, considerando
categorías de datos: • Valores fuera de rango pueden ser detectados mediante el agrupamiento, en donde
los valores similares son organizados en grupos, y los atípicos son dejados fuera.
• Este método influye en los datos.