Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Business Intelligence
Evolucin:
Business Data to Business Information
Etapa
Pregunta de
Negocio
Tecnologa
disponible
Proveedores
Data
Collection
(1960)
Retrospectivo
Esttico
Data Access
(1980)
Cules fueron
las ventas por
sucursal en
Capital Federal y
GBA?
RDBMS
SQL
Retrospectivo
Dinmico
Oracle,
Informix,
Sybase, etc
Caractersticas
Evolucin:
Business Data to Business Information
Etapa
Pregunta de
Negocio
Tecnologa
disponible
Proveedores
Caractersticas
Data
Navigation
(1990)
Cul fue el
total de
ventas en
Capital
Federal?
Drill down a
GBA
OLAP
DW
Pilot,
Discoverer,
Arbor, etc
Retrospectivo
Dinmico
Niveles
mltiples
Data
Mining
(2000)
Cmo
evolucionarn
las ventas en
el prximo
ao?
Algoritmos
avanzados
Multiprocesado
res
Intelligent
Miner (IBM)
SGI
SAS, etc
Prospectivo.
Proactivo
Data Warehouse
Subject oriented
Integrated
Time-variant
Non volatile
Data Warehouse
specifically
Ralph Kimball
Data Warehouse
Contenido
Valores elementales
Datos sumarizados,
derivados
Organizacin
Por aplicacin
Por tema
Estabilidad
Dinmicos
Estticos hasta su
actualizacin
Data Warehouse
Estructura
Optimizada para
uso transaccional
(NORMALIZADA)
Optimizada para
querys complejos
(DESNORMALIZADA)
Frecuencia de
acceso
Alta
Media y baja
Tipo de acceso
Data
Warehouse
Uso
Predecible
Repetitivo
Ad hoc
Heurstico
Tiempo de
respuesta
Segundos
Segundos a minutos
Cantidad de
registros
involucrados
A lo sumo decenas
Cientos - miles
NIVEL DE ABSTRACCION
REGLAS
DE NEGOCIO
METADATOS
DATOS TRANSACCIONALES
Demasiados datos
datos corruptos o con ruido
datos redundantes (requieren factorizacin)
datos irrelevantes
excesiva cantidad de datos
Pocos datos
atributos perdidos (missings)
valores perdidos
poca cantidad de datos
Datos fracturados
datos incompatibles
mltiples fuentes de datos
Cuntas filas?.
Cuntas columnas?.
Cunta historia?
Regla general : cuanto ms datos, mejor
En la prctica : condicionado a los recursos de
obtencin y procesamiento.
Data Marts
Extraccin,
clean up y
carga de datos
Metadata
ReportQ
uery,
EIS
OLAP
DW
Datos
operacionales y
externos
Data
Mining
Componentes del DW
Fuentes de datos
Procedimientos de Extraccin
ETL
Procedimientos de Transformacin
Procedimientos de carga (Loading)
Soporte fsico de los datos (DBMS)
Herramientas de explotacin : OLAP, reporting,
Data Mining, etc.
Adquisicin y limpieza
Objetivos
Metadata
Metadata
de
ETL
Integridad de datos
Integridad de datos
Controles de Integridad
10
Migracin de datos
Limpieza
Transformacin
(clculos,
agregados,
sumarizaciones, de-normalizacin).
Carga
Conciliacin - Validacin
Migracin
11
Limpieza (ejemplo)
FIRST_NAME
LAST_NAME
COMPANY_NAME
AREA_CODE
PHONE
STATE
sAM
Adams
617
3685000 MA
Sam
Adams
617
3685000 MA
Samuel
Adams
617
3685000 MA
SAMUEL
ADAMS
BOSTON BEER
617
3685000 MA
Samuel
Adams
617
3685000 MA
Limpieza (actividades)
Las
denominaciones
de
los
sistemas
operacionales
deben
uniformarse
y
referenciarse con nombres propios de los
sistemas de negocios (autodocumentados)
Cust
Cust_id
Cust_nro
Nro de Cliente
12
Limpieza (actividades)
Nombre
A(25)
Limpieza (actividades)
Transformacin
13
Transformacin
Transformacin
Transformacin (sumarizaciones)
14
Sumarizaciones (mantenimiento)
El nivel de granularidad:
problema de diseo del DW
Carga (Loading)
Dos aproximaciones:
Full Refresh
Incremental
Aunque el Full Refresh parece ms slido desde
el punto de vista de la integridad de los datos,
a medida que crece el DW se vuelve cada vez
ms difcil de realizar.
15
Controles de deteccin
Controles de deteccin
Herramientas ETL
16
Modelado de datos
La pregunta central
Por qu es importante?
17
Dos tcnicas
Modelo E-R
Entidades
Atributos
Relaciones
Modelo dimensional
Hechos
Dimensiones
Medidas
Modelo E-R
18
Modelo dimensional:
DIMENSIONES - Miembros
Dimensin
Tiempo
Geografa
Cliente
Vendedor
Miembro
Meses, Trimestre, Aos
Pas, Regin, Ciudad
Id Cliente
Id Vendedor
19
Modelo dimensional
DIMENSIONES - Jerarqua
Modelo dimensional
DIMENSIONES : Medidas
Visualizacin de un modelo
dimensional
20
DW - OLAP
El modelo dimensional es ideal para soportar
las 4 operaciones bsicas de la tecnologa
OLAP:
$ of Anheuser-Busch by drinker/bar
Jim
Joes
Bar
Bob
Mary
45
33
30
Nut- 50
House
36
42
Blue
38
Chalk
31
40
Jim
Bob
Mary
133
100
112
Roll up
by Bar
Drill down
by Beer
$ of A-B Beers / drinker
Jim
Bob
Mary
40
29
40
Mlob 45
31
37
Bud
Light
40
35
Bud
48
62
21
SNOWFLAKE
Star
22
SnowFlake
Presentacin
69
23