Está en la página 1de 23

Datawarehousing : fundamentos

Business Intelligence


Es un paraguas bajo el que se incluye un


conjunto de conceptos y metodologas cuya
misin consiste en mejorar el proceso de toma
de decisiones en los negocios basndose en
hechos y sistemas que trabajan con hechos
Howard Dresner
(Gartner Group),1989

B.I.: recursos y herramientas







Fuentes de datos : warehouses, data marts, etc


Herramientas de administracin de datos
Herramientas de extraccin y consulta
Herramientas de modelizacin (Data Mining)

Evolucin:
Business Data to Business Information
Etapa

Pregunta de
Negocio

Tecnologa
disponible

Proveedores

Data
Collection
(1960)

Cul fue el total


de ventas en
Capital Federal y
GBA?

Computadoras, IBM, NCR,


cintas, discos etc

Retrospectivo
Esttico

Data Access
(1980)

Cules fueron
las ventas por
sucursal en
Capital Federal y
GBA?

RDBMS
SQL

Retrospectivo
Dinmico

Oracle,
Informix,
Sybase, etc

Caractersticas

Evolucin:
Business Data to Business Information
Etapa

Pregunta de
Negocio

Tecnologa
disponible

Proveedores

Caractersticas

Data
Navigation
(1990)

Cul fue el
total de
ventas en
Capital
Federal?
Drill down a
GBA

OLAP
DW

Pilot,
Discoverer,
Arbor, etc

Retrospectivo
Dinmico
Niveles
mltiples

Data
Mining
(2000)

Cmo
evolucionarn
las ventas en
el prximo
ao?

Algoritmos
avanzados
Multiprocesado
res

Intelligent
Miner (IBM)
SGI
SAS, etc

Prospectivo.
Proactivo

Data Warehouse


Data Warehouse is a subject-oriented,


integrated, time-variant, non volatile collection
of data in support of management decisions

Bill Inmon (1990)

Subject oriented


Los datos almacenados en el DataWarehouse


proveen informacin sobre un tema en
particular en vez de atender la operatoria de
gestin de la compaa.

Integrated


Los datos son volcados al DataWarehouse


desde diferentes fuentes e integrados en un
todo consistente.

Time-variant


Todos los datos del datawarehouse refieren a


un particular momento en el tiempo (como una
foto o snapshot).

Non volatile


Los datos son estables. En general siempre se


agregan datos pero no se quitan . Esto permite
anlisis retrospectivos sobre la marcha del
negocio.

Data Warehouse


A copy of transaction data


structured for query and analysis.

specifically

Ralph Kimball

Datos operacionales y Data


Warehouse
Datos
operacionales

Data Warehouse

Contenido

Valores elementales

Datos sumarizados,
derivados

Organizacin

Por aplicacin

Por tema

Estabilidad

Dinmicos

Estticos hasta su
actualizacin

Datos operacionales y Data


Warehouse
Datos
operacionales

Data Warehouse

Estructura

Optimizada para
uso transaccional
(NORMALIZADA)

Optimizada para
querys complejos
(DESNORMALIZADA)

Frecuencia de
acceso

Alta

Media y baja

Tipo de acceso

Lectura / escritura Lectura


Actualizacin
Sumarizacin
campo por campo

Datos operacionales y Data


Warehouse
Datos
operacionales

Data
Warehouse

Uso

Predecible
Repetitivo

Ad hoc
Heurstico

Tiempo de
respuesta

Segundos

Segundos a minutos

Cantidad de
registros
involucrados

A lo sumo decenas

Cientos - miles

NIVEL DE ABSTRACCION

La arquitectura de los datos

REGLAS
DE NEGOCIO

METADATOS

ESQUEMA DE LA BASE DE DATOS

RESMENES DE DATOS TRANSACCIONALES

DATOS TRANSACCIONALES

Tamao de los datos

Problemas con los datos




Demasiados datos
 datos corruptos o con ruido
 datos redundantes (requieren factorizacin)
 datos irrelevantes
 excesiva cantidad de datos

Problemas con los datos




Pocos datos
 atributos perdidos (missings)
 valores perdidos
 poca cantidad de datos
Datos fracturados
 datos incompatibles
 mltiples fuentes de datos

Cuntos datos son necesarios?








Cuntas filas?.
Cuntas columnas?.
Cunta historia?
Regla general : cuanto ms datos, mejor
En la prctica : condicionado a los recursos de
obtencin y procesamiento.

Data Marts


Tcnicamente es un subconjunto del DW


orientado a una finalidad especfica de
negocio : marketing, finanzas, produccin,
etc
El trmino se utiliza tambin para identificar
soluciones alternativas a un DW corporativo
ms reducidas y de menor costo y tiempo
de implantacin.

Explotacin del Datawarehouse

Extraccin,
clean up y
carga de datos

Metadata

ReportQ
uery,
EIS

OLAP

DW
Datos
operacionales y
externos

Data
Mining

Componentes del DW







Fuentes de datos
Procedimientos de Extraccin
ETL
Procedimientos de Transformacin
Procedimientos de carga (Loading)
Soporte fsico de los datos (DBMS)
Herramientas de explotacin : OLAP, reporting,
Data Mining, etc.

Adquisicin y limpieza
Objetivos





Remover datos no necesarios de las fuentes


operacionales
Consolidar representaciones de datos de
diferentes fuentes
Calcular sumarizaciones y variables derivadas
Resolver problemas de missings y outliers

Metadata


Provee a los usuarios de informacin para


facilitarles el acceso e interpretacin del
contenido del DW

Metadata


Informacin sobre los datos:


 Fuentes de datos
 Descripcin
de
operaciones
transformacin
 Estructura de datos del DW
 Reglas de clean up
 Referencias histricas y temporales,etc

de

La importancia de los metadatos




Los metadatos proveen la vinculacin entre los


datos y los usuarios de negocio. Describen los
datos
Incluyen los modelos lgicos de datos, el
mapeo de los datos a los sistemas
transaccionales, el esquema fsico de los datos,
informacin de
carga,
actualizacin y
seguridad, etc.

ETL


Procedimientos (herramientas) destinados a


obtener los datos de las fuentes operacionales,
limpiarlos, convertirlos a los formatos de
utilizacin y cargarlos en el repositorio final.

Integridad de datos





Los datos cumplen condiciones de integridad


cuando se ajustan a todos los stndares de
valor y completitud.
Todos los datos del DW son correctos
El DW est completo (no existen ms datos
fuera de l).

Integridad de datos


La credibilidad del DW depende de la integridad


de sus datos
El uso del DW depende de la percepcin de los
usuarios y de la confianza que tengan en su
contenido.
De la integridad de datos depende el xito del
proyecto.

Controles de Integridad


Controles de Prevencin : controlan la


integridad antes de cargar los datos en el DW.
Controles de Deteccin : aseguran la exactitud
y completitud de la informacin una vez
cargada en el DW.

Data Process Flow

Data Process Flow Stages:


1.Data Migration
2.Cleansing
3.Transformation
4.Loading
5.Reconciliation

10

Etapas del proceso ETL









Migracin de datos
Limpieza
Transformacin
(clculos,
agregados,
sumarizaciones, de-normalizacin).
Carga
Conciliacin - Validacin

Migracin



Staging area : rea de trabajo fuera del DW.


El propsito de la migracin es mover los datos
de los sistemas operacionales a las reas de
trabajo (staging areas).
NO se debe mover datos innecesarios (control
preventivo).

Limpieza (Data cleaning)







Corregir, estandarizar y completar los datos.


Identificar datos redundantes
Identificar valores atpicos (outliers)
Identificar valores perdidos (missings)

11

Limpieza (ejemplo)
FIRST_NAME

LAST_NAME

COMPANY_NAME

AREA_CODE

PHONE

STATE

sAM

Adams

boston beer co.

617

3685000 MA

Sam

Adams

Boston beer co,.

617

3685000 MA

Samuel

Adams

Boston Beer Co.

617

3685000 MA

SAMUEL

ADAMS

BOSTON BEER

617

3685000 MA

Samuel

Adams

Boston Beer Co.

617

3685000 MA

Limpieza (otros ejemplos)







Eliminar transacciones con monto = 0


(promociones, regalos)
Eliminar transacciones anuladas (balance = 0).
Normalizar nombres de marcas de auto, de
direcciones, etc.
Eliminar fechas de nacimiento invlidas (edad >
100 aos o negativa)

Limpieza (actividades)






Las
denominaciones
de
los
sistemas
operacionales
deben
uniformarse
y
referenciarse con nombres propios de los
sistemas de negocios (autodocumentados)
Cust
Cust_id
Cust_nro

Nro de Cliente

12

Limpieza (actividades)





Los tipos de dato asociados a cada atributo


deben standarizarse y consolidarse para las
diferentes fuentes.
Nombre (A20)
Nombre (A25)

Nombre
A(25)

Limpieza (actividades)


Se debe uniformar las tablas de cdigos de los


sistemas operacionales y simplificar esquemas
de codificacin
Datos complejos, que representan varios
atributos a la vez, deben ser particionados.

Transformacin





Son procesos destinados a adaptar los datos al


modelo lgico del DW
Se generan reglas de transformacin.
Las reglas deben validarse con los usuarios del
DW

13

Transformacin


Generalmente el DW no contiene informacin


de las entidades que - en los sistemas
operacionales - son muy dinmicas y sufren
frecuentes cambios.
Si es necesario se utilizan Snapshots (fotos
instantneas)

Transformacin


La des-normalizacin de los datos tiene como


propsito mejorar la performance.
Otro propsito es el de reflejar relaciones
estticas,es decir, que no cambian en una
perspectiva histrica. Por ejemplo: producto precio vigente al momento de facturacin.

Transformacin (sumarizaciones)


Los datos sumarizados aceleran los tiempos de


anlisis.
Las
sumarizaciones
tambin
ocultan
complejidad de los datos.
Las sumarizaciones pueden incluir joins de
mltiples tablas
Las sumarizaciones proveen mltiples vistas del
mismo
conjunto
de
datos
detallados
(dimensiones).

14

Sumarizaciones (mantenimiento)


El mantenimiento de las sumarizaciones es una


tarea crtica.
El DW debe actualizarlas a medida que se
cargan nuevos datos.
Debe existir alguna forma de navegar los datos
hasta el nivel de detalle (drill down).
La definicin de la granularidad es un problema
serio de diseo.

El nivel de granularidad:
problema de diseo del DW




Cal es la unidad de tratamiento (fila)


Qu es un cliente? Una cuenta, un individuo,
una familia
Cmo se sumariza la dimensin tiempo? Das,
semanas, meses ?

Carga (Loading)


Dos aproximaciones:
 Full Refresh
 Incremental
Aunque el Full Refresh parece ms slido desde
el punto de vista de la integridad de los datos,
a medida que crece el DW se vuelve cada vez
ms difcil de realizar.

15

Controles de deteccin


La validacin de la carga del DW identifica


problemas en los datos no detectados en las
etapas anteriores.
Existen dos maneras de hacer la validacin:
 completa (al final del proceso)
 por etapas a medida que se cargan los datos

Controles de deteccin


Los controles incluyen reportes que comparan


los datos del DW con las fuentes operacionales
a travs de:
 totales de control
 nmero de registros cargados
 valores originales vs valores limpios
(transformados), etc.

Herramientas ETL


Pueden ser procesos manuales diseados a


medida (querys SQL, programas en Visual
Basic, etc).
Existen
herramientas
que
proporcionan
interfaces
visuales
para
definir
joins,
transformaciones, agregados, etc. sobre las
plataformas mas comunes.

16

Modelado de datos

La pregunta central

De qu modo deben disearse las bases de


datos que conforman un Data Warehouse para
soportar eficientemente los requerimientos de
los usuarios?

Por qu es importante?



Visualizacin del universo del negocio


Modelo de abstraccin de las preguntas que
los usuarios necesitan responder
Diseo del plan de implantacin del Data
Warehouse

17

Dos tcnicas
Modelo E-R




Entidades
Atributos
Relaciones

Modelo dimensional




Hechos
Dimensiones
Medidas

Modelo E-R

Modelo dimensional: HECHOS




Hechos : coleccin de items de datos y datos


de contexto. Cada hecho representa un item de
negocio, una transaccin o un evento
Los hechos se registran en las tablas
CENTRALES del DW

18

Modelo dimensional: DIMENSION




Una dimensin es una coleccin de miembros o


unidades o individuos del mismo tipo
Cada punto de entrada de la tabla de HECHOS
est conectado a una DIMENSION
Determinan el contexto de los HECHOS

Modelo dimensional: DIMENSIONES




Se utilizan como parmetros para los anlisis


OLAP
Dimensiones habituales son:
 Tiempo
 Geografa
 Cliente
 Vendedor

Modelo dimensional:
DIMENSIONES - Miembros

Dimensin
Tiempo
Geografa
Cliente
Vendedor

Miembro
Meses, Trimestre, Aos
Pas, Regin, Ciudad
Id Cliente
Id Vendedor

19

Modelo dimensional
DIMENSIONES - Jerarqua

Modelo dimensional
DIMENSIONES : Medidas


Medida : es un atributo numrico de un hecho


que
representa
la
performance
o
comportamiento del negocio relativo a la
dimensin
Ejemplos:
 Ventas en $$
 Cantidad de productos
 Total de transacciones, etc.

Visualizacin de un modelo
dimensional

20

DW - OLAP
El modelo dimensional es ideal para soportar
las 4 operaciones bsicas de la tecnologa
OLAP:


Relacionadas con la granularidad: ROLL UP DRILL DOWN


Navegacin por las dimensiones : SLICE DICE

Example: Roll Up and Drill Down


$ of A-B / drinker

$ of Anheuser-Busch by drinker/bar
Jim
Joes
Bar

Bob

Mary

45

33

30

Nut- 50
House

36

42

Blue
38
Chalk

31

40

Jim

Bob

Mary

133

100

112

Roll up
by Bar

Drill down
by Beer
$ of A-B Beers / drinker
Jim

Bob

Mary

40

29

40

Mlob 45

31

37

Bud
Light

40

35

Bud

48

62

Drill Down - Roll Up

21

Slice and Dice




Slice: es un subconjunto del array


multidimensional que tiene un nico valor para
una o ms dimensiones. Es una rebanada del
cubo
Dice: es como el slice pero para 2 ms
valores de una o ms dimensiones

Modelos bsicos dimensionales


STAR

SNOWFLAKE

Star

22

SnowFlake

E-R - Modelo dimensional







El modelo dimensional puede verse como un


caso particular del modelo de ER
Foreing keys
Dimension
Hecho
Entidad

Presentacin


Esta presentacin fue armada utilizando, adems de


material propio, material contenido en los manuales de
Oracle y material provisto por los siguientes autores
Siblberschat, Korth, Sudarshan - Database Systems
Concepts, 6th Ed., Mc Graw Hill, 2010
Garca Molina/Ullman/Widom - Database Systems: The
Complete Book, 2nd Ed.,Prentice Hall, 2009
Elmasri/Navathe - Fundamentals of Database Systems,
6th Ed., Addison Wesley, 2011
Ing. Maria del Rosario Bruera y Lic. Nstor Martnez

June 10, 2014

69

23

También podría gustarte