Una Nueva Forma De Sybase Presentation Template Resolver Problemas Antiguos
Valsoir Tronchin. 27/10/2005
Director De Tecnologa, LAO valsoir.tronchin@sybase.com
Sybase Confidential Propriety.
Sybase Confidential
Preguntas Iniciales
Cul es el objetivo del presidente de su empresa?
Aumentar y preservar el valor de la empresa para los accionistas
Cmo se hace eso?
Diminuyendo costos
Eficiencia
Aumentando ingresos
Vendiendo ms a nuevos clientes Vendiendo ms a clientes existentes
Cul es el papel de TI en ese contexto?
Apoyar con tecnologa los puntos anteriores
No permitir que la tecnologa sea un impedimento para que la empresa alcance sus objetivos
2
Preguntas Iniciales
Qu espera recibir el cliente de su empresa?
Productos y servicios de acuerdo a sus necesidades Interacciones consistentes independientemente del punto de contacto Algo que le agregue valor...
Cmo se hace eso?
Analizando los datos y el comportamiento de los clientes para entender mejor sus necesidades
Poniendo datos actualizados en las manos de quin interacta con el cliente en el momento de la verdad
Cul es el papel de TI en ese contexto?
No ser una barrera, sino un facilitador
3
Valor Agregado
El valor tiene que ser percibido El valor tiene que ser reconocido como tal por el cliente Y, lo ms importante, el cliente tiene que estar dispuesto a pagar por l Si algn punto anterior no es verdadero, entonces no hay valor agregado para el cliente!
4
Necesidades de Acceso a Datos
Marketing Ventas Call Center Legal Clientes Socios Etc.
Aplicacin
Aplicacin
Aplicacin
Aplicacin
Aplicacin
5
El Proceso Analtico Y La Cadena Alimentaria
El Proceso Analtico Y La Cadena Alimentaria
Uso de herramientas analticas
Gerencia Ejecutiva
Marketing y Ventas Recursos Humanos
Finanzas
Cobro
Pedidos
Manufactura
Shipping
Contabilidad
Servicio al Cliente
7
Muchos Datos, Poca Informacin
Qu combinaciones de productos estn comprando mis clientes?
Cmo debo responder a una accin de un competidor?
Cual es la tendencia del ndice de satisfaccin de los clientes?
Cmo estn las ventas comparadas con el pasado?
Clientes Competencia Inventario Ventas semanales
Mi conjunto de productos est adecuado al mercado?
Productos, clientes, mercado, riesgo, fraude, tendencias, comportamiento
Dato Vs. Informacin
Datos son componentes bsicos a partir de los cuales la informacin es creada Informacin son datos insertados en un contexto Contexto es la situacin que est siendo analizada A partir de la informacin se obtiene conocimiento, el que permite tomar decisiones
Que cuando adecuadas, ayudan al negocio a alcanzar sus objetivos
9
Pero El Contexto Cambia...
De usuario para usuario
Ejecutivos Gerentes Ejecutores
De un escenario competitivo en relacin a otro
Estacionalidad Cambios en el mercado Nuevos competidores
Y a menores ciclos de negocio, ms variaciones En la prctica, hoy es imposible prever cmo los datos sern utilizados!
10
Arquitectura Y Distribucin De Datos
Departamental
Sistemas Transaccionales
Datos Operacionales
Corporativo
Datos Operacionales Datos Operacionales
Extraccin Transformacin y Carga
Sistemas de Informacin
11
ODS Data Mart
Data Warehouse
Data Mart
Data Mart
Data Mart
Acceso a travs de distintas herramientas
DW Vs. ODS
Data Warehouse es un conjunto de datos
orientados a un tema
integrados
no-voltiles variables con el tiempo1
orientados a un tema integrados voltiles recientes
detallados1
Anlisis estratgico
Proyecciones, tendencias Segmentacin del mercado y clientes
Anlisis tctico
Gestin de campaas Servicio al cliente Just in time marketing
DW
ODS
12
1William
H. Inmon
Operational Data Store (ODS) es un conjunto de datos
El Operational Data Store Dinmico
Sistemas Transaccionales
Ambiente heterogneo
Sybase Rep. Agent
Aplicacin
DB2,VSAM & IMS
Sybase Rep. Agent
Operational Data Store Dinmico
Extraccin Transformacin E Carga (ETL)
Operational Data Store (ODS)
Front-end Consultas y reportes
Aplicacin
Informix
Sybase Rep. Agent
Servidor
Aplicacin
Microsoft SQL Server
Sybase Rep. Agent
Sybase Replication Server & ASE Ascential Informatica
Storage
. . . etc.
Aplicacin
Oracle
Data Warehouse/Marts Datos de clientes Servicios Web Adherencia regulatria
Aplicacin
Sybase
Alimentacin de otros sistemas
ASE
13
La Importancia De Los Queries AdHoc
Tipos de Queries Data Warehousing es un proceso de descubrimeinto...
- Bill Inmon
Reportes Pre-planeados 51%
Queries Ad-hoc 49%
La primera pregunta que alguien de marketing hace, nunca es la pregunta correcta. Es un proceso iterativo de preguntas y respuestas para desarrollar insights acerca del negocio...
- Pete Estler, Presidente, EDS dbIntellect
Fonte: Meta Group
14
Sybase IQ Una Nueva Forma
15
Sybase IQ
Scan de Tablas
Sybase IQ
16
Sybase IQ: Enfocado A DSS, BLOb Y VLDB
RDBMS Clsico RDBMS Clsico
SQL: Create table ABC
yellow, blue, red, magenta
Sybase IQ
SQL: Select sum (red) from ABC
2 3
4 ..... 100
Db page 2-32kB
Db page 512kB
4 . 100
17
Forma Tradicional
Fecha Tienda Estado Clase Ventas
Calcular el promedio de ventas de las tiendas A de So Paulo
1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996
32 36 38 41 43 46 47 49
SP MG SP BA SP RJ DF SP
A A B A A B B A
6 9 5 11 9 3 7 12
La forma tradicional:
Selecciona-se un filtro, si disponible
-Normalmente es necesario un scan
en la tabla
Lem-se as pginas de dados e faz-se a soma das vendas -Los datos distribuidos aleatoriamente exigen ms lecturas de pginas -Los datos irrelevantes de las pginas tambin son ledos
18
Solucin Tradicional - Paralelismo
Calcular el promedio de ventas de las tiendas A De So Paulo
Fecha Tienda Estado Clase Ventas
800 Bytes por lnea Pginas de datos de 16K 10 Millones de lneas Son necesarios 500.000 I/Os
1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996
32 36 38 41 43 46 47 49
SP MG SP BA SP RJ DF SP
A A B A A B B A
6 9 5 11 9 3 7 12
Paralelismo no resuelve ese problema!
Mucho ms hardware, un poco ms rpido
Pocas consultas pueden ser ejecutadas por vez Caro e inflexible cuando se trata de queries ad-hoc
19
Particin Vertical De Datos
Sybase IQ: Los datos son almacenados en COLUMNAS en vez de LNEAS
Fecha
Fecha
Tienda
Tienda Estado Clase Ventas
Estado Clase
Ventas
Beneficios: Solamente son ledos los datos relevantes al query
Los tipos de datos son
consistentes y pueden ser comprimidos
Es fcil alterar y
1/3/1996 32 1/3/1996 1/3/1996 36 1/3/1996 1/3/1996 38 1/3/1996 1/3/1996 41 1/3/1996 1/3/1996 43 1/3/1996 46 1/3/1996 1/3/1996 47 1/3/1996 1/3/1996 49 1/3/1996
1/3/1996
32 SP SP 36 MGMG 38 SP SP 41 BA BA 43 SP SP 46 RJ RJ 47 DF DF 49 SP SP
A A A B B A A A A B B B B A A
6 6 99 55 11 11 99 33 77 12 12
mantener la base de datos
20
Particin Vertical De Datos
Sybase IQ: Son ledas apenas las columnas necesarias para la resolucin del query
Calcular el promedio de ventas de las tiendas A De So Paulo
Fecha Tienda Estado Clase Ventas
Beneficios: Sybase IQ puede reducir en ms de 90% los I/Os solo por eso
1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996 1/3/1996
32 36 38 41 43 46 47 49
SP MG SP BA SP RJ DF SP
A A B A A B B A
6 9 5 11 9 3 7 12
21
ndices Bit-Mapped
ndice Bitmap de ESTADO
Estado
da
row-id Clase
AL Ventas
BA
DF
ES
GO
MG
RJ
SP
2 6 8 1 3 6 7 9
SP MG SP BA SP RJ DF SP
1 A 2 A 3 B 4 A A 5 B 6 B 7 A 8
0 6 0 9 0 5 0 11 0 9 3 0 7 0 12 0
0 0 0 1 0 0 0 0
0 0 0 0 0 0 1 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0
0 0 0 0 0 1 0 0
1 0 1 0 1 0 0 1
...
22
ndices Bit-Wise
Ventas en binario
Ventas
Ventas en binario
bit 8 bit 4 bit 2 bit 1
bit 8
bit 4
bit 2
bit 1
6 9 5 11 9 3 7 12
0 1 0 1 1 0 0
1 0 1 0 0 0 1
1 0 0 1 0 1 1
0 1 1 1 1 1 1
0 1 0 1 1 0 0 1
1 0 1 0 0 0 1 1
1 0 0 1 0 1 1 0
0 1 1 1 1 1 1 0
Agregaciones, Promedios y Ranges extremamente rpidos Los datos son comprimidos en hasta 80%
23
+90% De Ahorro En Storage
$$$
Fibre Channel: $30K-$100K/TB
$$ $
requirido para RDBMS Clsico DBMS: (DB2, Oracle, MS SQL, NCR, File System )
$1K-$5K/TB
ATA en 2005: $1.5K-$5K/TB
Automated Tape Silo (ATS)
IQ:
del tamao de un RDMS Clsico
del precio por TB (ATA)
=90%
Ahorro en storage
24
Sybase IQ: Storage De Alta Densidad
4 TB de capacidad (formateada) [ IQ manejar 5-10 TB de datos ]:
100 Billion records (100 bytes each) 5 Million documents ( 1 MB each)
1,000-2,000 movies (3 GB each)
100,000 songs (50MB each)
Sybase IQ corre en discos ATA con la misma velocidad de discos FC o SCSI Precios=$15K $2K-$5K/TB igual o menor que silos de cintas o pticos Lectura: 400 MB/sec [1.3 TB/h] 1,500 videos de alta definicin o 400 docs/s Proveedores de Storage ATA: Sun (3511, 6130), EMC (AX 100), HP, IBM
5 TB Disk Array=$15K ( HW RAID ATA)
19 ( 500 mm)
4 (100 mm)
25
IQ Multiplex: Real-time, Paralelismo, HA Y DR
Empresa A Carga de Datos Empresa B
Empresa C Empresa Z
1000s de usurios
IQ
Unix
SMP
IQ
IQ
Unix SMP
IQ IQ
Unix SMP FC DB
IQ
Unix SMP
Funciones de administracin de Sybase IQ
26
Sybase IQ / EMC CLARiiON: Ejemplo
mark 24 mark 23
Snapshot Snapshot mark 22 Snapshot Snapshots mark 21
CX array Primario
mark20
CX array Secondario
mark30
IQ Produc. Desall/Prueba
Snapshots
mark38 mark37
BCV
BCV - copia completa y sincronizacin reversa
mark36 mark35 mark34 mark33 mark32 mark31
Snapshots
Clone
mark10
IQ Produccin
Snap
Delta rollback
mark 11 mark 12
mark40
mark41 B/R de IQ de Produccin mark42 Snapshots Snapshots mark43 Snapshots Snapshots mark44
Snapshot Snapshot mark 13 Snapshot Snapshots mark 14
27
Validacin En Laboratorio
CX700 - 1
Servidores Sun Servidores Sun
mark11 mark12 mark13
200GB
200GB
200GB/h 200GB/h
+600 GB/h (+10 GB/min)
200GB/h
mark31
100GB
200GB
mark10 10 TB
+400 GB/h (+6 GB/min) +400 GB/h (+6 GB/min)
+500 GB/h (+8 GB/min)
mark30 200GB/h 10 TB
100GB
mark32
EMC CX 700
EMC CX 700
Servidores Sun
mark21
150GB
200GB/h 200GB/h
mark40 10 TB
Servidores Sun
200GB/h 250GB 200GB/h
80GB
mark41
mark42
mark22
100GB
mark20 10 TB
28
DWH De 10TB En Sybase IQ: Tiempos De B/R Y DR Menor Que 60s
Backup local completo: (usando sub-5% copia delta) <30s Restore local completo: (usando sub-5% copia delta) <60s
Backup local completo: (usando 100% clone) <60s Restore local completo: (usando 100% clone) <60s Failover local completo para 100% clone 0s (lectura) Backup remoto completo: (usando 100% clone) 30-60s Refresh remoto completo: (usando 100% clone) 1TB/h ? Restore remoto completo del primario: 1TB/h Restore remoto completo: (usando copia remota 5%-delta) <60s
29
Resumen
Particin vertical de datos
Los datos son almacenados fsicamente en columnas, y no lneas la forma natural de acceso en el ambiente analtico
Estructuras de almacenamiento especiales (ndices)
LowFast, HighNonGroup, High Group,Fast Projection, otros
Los ndices son definidos anticipadamente, de acuerdo a las caractersticas de los datos y no de las consultas
Soporte a VLDB
Paralelismo
Durante la carga y las consultas Escalabilidad virtualmente lineal (98%)
30
Resumen
Flexibilidad sin precedentes
Cualquier esquema (el esquema lgico no se traduce directamente en objetos fsicos)
Estrella, desnormalizado, normalizado, archivos o tablas planas con hasta 45.000 columnas (hasta 10.000 es el recomendado)
Mnimo impacto en la alteracin del esquema del BD
Cargas, backup y consultas pueden ser hechos simultneamente
247
Carga on-line y en tiempo real
Failover automtico con IQ Multiplex
Soporte a mirroring backup incremental y para disco
31
Resumen
Ahorro
Alta eficiencia en la utilizacin de disco (normalmente entre 70 e 80% del dato crudo) Mnima necesidad de intervencin del DBA que puede dedicarse a cosas ms nobles Arquitectura escalable con bajo costo de entrada UNIX (Sun, HP, IBM), Linux, Windows
Confiabilidad
Tecnologa de ms de 10 aos Ms de 8 aos en produccin (ms de 20 clientes en Chile, Consalud hace ms de 7 aos)
32
Mejor Que Eso, Solo Si Es Verdad! Sybase Presentation Template
Estudio De Caso: Farmacias Salcobrand, Chile
Sybase Confidential Propriety.
Sybase Confidential
Problema
Base con 700 GB almacenados y creciendo Muchos requerimientos hay que resolverlos en forma ad-hoc
Tiempos de respuesta de reportes demoran desde minutos a varias horas Existe dificultad en la posibilidad de realizar nuevos anlisis Estamos obligados a generar tablas con agregaciones de datos para mejorar algo la performance (igual con tiempos de respuesta alto).
Gran demanda de almacenamiento y recursos computacionales
Dificultad para incorporar nuevos datos
Gran demanda de administracin de la plataforma
Muchas horas hombre dedicadas a sintonizacin y administracin del disco
34
Resultados
COMPRESIN DE DATOS Tamao base de datos IQ (incl. 2 ndices extras por columna) Tamao de las mismas tablas en Oracle (data+ndices) Factor de Compresin 2,43 veces menor IQ que Oracle 9i Relacin tamao Sybase IQ vs archivos planos = 77,3% 74,49 GB 180,89 GB
CARGA DIARIA DE DATOS TOTAL Proceso Carga Incremental BT_STOCK Sybase IQ TOTAL Proceso Carga Incremental BT_STOCK Oracle 9i 7 minutos 120 minutos
Tiempo de Carga Incremental 15,3 veces menor Sybase IQ que Oracle 9i
35
SEGUNDOS
100000 10000 1000 100 10
0,1
Resultados (tiempos de respuesta)
Nota: Escala Logartmica
Procesos
1h 29min
Comparativo Oracle 9i v/s Sybase IQ
5340
16920
660
11 min
4h 42min
Oracle
SybaseIQ
Ag g_ p Ag rod g_ uct o_ p m Ag rod es uc g_ to pr _m Ag od es g_ uc to pr _m Ag od g_ uct es o_ re m Ag p_ e pr g_ od s st uc Ag ock t _p o_d g_ ro i vt du a BT a_ gr ct _b o up o oa _dia BT deg _m a_ _f or nu es e Bt ma _d va _f or e_ m a_ pag Bt _f or de_ o m pa a Bt g _v _d e_ o ta pa Bt s_d go ia _V ria ta s Bt s_D _v ia ta ria s Bt s_d _v ia ria ta Bt s_d s ia _v ri ta s_ a s C di ar ga aria s Ve De St nt oc a Ve Red k m nt ax as x 33 In D fo ia rm 0 p or Ve e C Di lo a nt as seUp Lo Ve c (D nt ia as al P No rod rio) (1 Ph u c 5 to ar D M m es IAS a ) M (0 F po 607 0 rv en 8) de do r lo c
36
al
Una Nueva Forma De Sybase Presentation Template Resolver Problemas Antiguos
Valsoir Tronchin. 27/10/2005
Director De Tecnologa, LAO valsoir.tronchin@sybase.com
Sybase Confidential Propriety.
Sybase Confidential
Lmites
38
Lmites
39