Está en la página 1de 21

Introduccin a PowerCenter y Teradata

Conceptos Bsicos
Buenas Practicas

ndice
1. Introduccin
2. Conceptos bsicos Teradata
1.
2.
3.

Caractersticas propias de Teradata


Definiciones
Buenas Practicas

3. Conceptos bsicos PowerCenter


1.
2.
3.

Definicin Conceptos
Funcionalidades de desarrollo
Buenas Practicas

4. Integracin Teradata-PowerCenter
1.
2.

Definicin Push-Down
Buenas practicas Push-Down

1. Introduccin
2. Conceptos bsicos Teradata
1.
2.
3.

Caractersticas propias de Teradata


Definiciones
Buenas Practicas

3. Conceptos bsicos PowerCenter


1.
2.
3.

Definicin Conceptos
Funcionalidades de desarrollo
Buenas Practicas

4. Integracin Teradata-PowerCenter
1.
2.

Definicin Push-Down
Buenas practicas Push-Down

Que es Teradata?

Arquitectura Teradata

Sistema de almacenamiento

Escalabilidad

Ventajas del trabajo en paralelo

Diferentes utilizaciones de Teradata

1. Introduccin
2. Conceptos bsicos Teradata
1.

Caractersticas propias de Teradata

2.

Definiciones

3.

Buenas Practicas

3. Conceptos bsicos PowerCenter


1.

Definicin Conceptos

2.

Funcionalidades de desarrollo

3.

Buenas Practicas

4. Integracin Teradata-PowerCenter
1.

Definicin Push-Down

2.

Buenas practicas Push-Down

10

Conceptos Teradata - ndice Primario (PPI)

ndices Primarios.
La distribucin de los datos en los distintos AMP se realizar aplicando una funcin de hashing a un
conjunto de campos preseleccionados. stos campos son los que conforman el ndice primario de
la tabla.
Este ndice es obligatorio y se define en el momento de creacin de la tabla.
Para medir su eficacia se utiliza el concepto skewfact, que nos indica el grado de dispersin de los
datos en los distintos AMP. Se debe buscar un ndice primario en el que el factor de Skew este lo
mas cercano a 0 posible, evitando en la medida de lo posible valores superiores a 6.
Es conveniente realizar una revisin detallada de los ndices primarios que se definen para cada
tabla con el objetivo de encontrar el ndice mas apropiado que permita una buena distribucin de los
datos.
Debido a que la eficiencia de Teradata radica en que realiza tareas en paralelo, una distribucin
homognea permite que la consulta se distribuya por todos los AMPs de manera equitativa,
evitando que se produzcan descompensaciones en la carga de trabajo, de modo que el rendimiento
del proceso aumenta y el tiempo de procesamiento disminuye.

11

Conceptos Teradata ndices Primarios


Ejemplo
Puesto que la seleccin de los campos que conforman el ndice primario debe realizarse de manera que se
tengan en cuenta tanto la distribucin de los datos, como la eficiencia de los cruces que se van a realizar
durante el proceso de extraccin, lo ideal sera que ninguna tabla tuviera un skewfact superior a 5-6.
Como ejemplo, se puede analizar la creacin de una tabla (SFCN.TSFCNTMU_tam) a partir de otra ya
existente (SFCN.TSFCNTMU) pero con un nuevo ndice que hace que la distribucin de los datos mejore
considerablemente.
SFCN.TSFCNTMU --> ndice: COD_PERSONA
n AMP

N Registros por AMP

Mximo

54

70140

Mnimo

37

2160

Como podemos observar, existe una descompensacin muy marcada en uno de los AMPs, lo que
disminuir la velocidad de procesamiento de los datos.
SFCN.TSFCNTMU_tam --> ndice: COD_PERSONA, COD_IDTRANS
n AMP

N Registros por AMP

Mximo

38

4498

Mnimo

31

4177

12

Conceptos Teradata ndices Primarios


Ejemplo - Resultados

En esta prueba, adems hemos realizado un cruce entre otra tabla


(SFCN.TSFCNCPR) y las tablas antes mencionadas para comprobar la
mejora en rendimiento durante un proceso de extraccin.

Query

Tiempo de Respuesta

select * from SFCN.TSFCNTMU a


inner join SFCN.TSFCNCPR b
on a.cod_persona=b.cod_persona

00:04:23

select * from SFCN.TSFCNTMU_tam a


inner join SFCN.TSFCNCPR b
on a.cod_persona=b.cod_persona

00:00:38

13

Conceptos Teradata Estrategia de acceso

Acceso mediante Vistas.


En Teradata la existencia de vistas permite la representacin y estructuracin de los datos de manera
ordenada al usuario, bien directamente o a travs de aplicaciones de consulta.
Las vistas ofrecen ventajas como evitar la redundancia de datos, mostrar una representacin funcional
de estos, asegurar la consistencia y simplificacin en la gestin de los datos.
Es necesario disponer de una Vista asociada a cada tabla que sea una imagen especular de esta, de
modo que todos los accesos a los datos se realicen a travs de las vistas, aumentando el nivel de
seguridad, la eficiencia y la independencia lgica de los datos.
sta ser la estrategia de acceso a datos que se utilizar en el BBVA.

14

Conceptos Teradata Compresin de campos


Compresin de Campos.
Una vez se disponga de un volumen de datos suficiente en cada una de las tablas, es necesario realizar un
estudio detallado de los campos definidos como CHAR para averiguar cuales son los valores mas comunes e incluir
la compresin de estos en la definicin de la tabla.
En Teradata es posible comprimir hasta un mximo de 255 valores por campo. Por ello, para disminuir el
espacio ocupado por tabla es conveniente comprimir los valores altamente repetidos.

A la hora de determinar cuales


sern los valores a comprimir
deberemos tener en cuenta la
relacin existente entre la
longitud del campo (bytes) y el
porcentaje de ocurrencia de
cada valor, tal y como se
muestra en la grafica
De este modo, podemos
establecer un porcentaje
mnimo de ocurrencia para
cada campo en funcin de
su tamao.

Longitud del
campo (Bytes)

Porcentaje de
Ocurrencia

12.50%

6.25%

4.17%

3.13%

2.50%

2.08%

1.79%

1.56%

> 12

< 1%

15

Conceptos Teradata Compresin de campos

A dems, debido a que Teradata crea un


ndice a la hora de comprimir los valores, el
nmero de estos a comprimir varia tambin en
funcin de la longitud del campo, siguiendo la
siguiente regla (hasta alcanzar el mximo de
255)

Longitud del
campo (Bytes)

Numero de
valores
compresibles

2-3

4-7

8 - 15

16 - 31

32 - 63

64 - 127

128 - 255

Es conveniente comentar que aquellos campos que formen parte del ndice
primario de la tabla, y los definidos como VARCHAR, no pueden ser
comprimidos.
Algunos ejemplos de valores a comprimir seran:
- Nulos.
- Cero.
- Valores por defecto
- Flags (marcadores / estados / controles )
- Espacios.
- Indicadores Binarios (V/F)

16

Recomendaciones de uso

Buenas practicas de Teradata:


- Buscar ndices primarios lo mas dispersos posibles, sin repeticiones, para as
optimizar la distribucin en el almacenamiento en AMPs. La utilizacin de campos que
formaran la clave primaria candidata suele ser una buena eleccin.
- Detectar los campos susceptibles de compresin, teniendo en cuenta las
restricciones de tipos y de pertenencia a PPI.
- La principal ventaja competitiva de Teradata es la ejecucin en paralelo, esta ventaja
se hace mas evidente en grandes volmenes de datos, por lo que las consultas con
gran cantidad de cruces se utilizarn siempre que sea posible.
- Se acceder a la informacin mediante vistas, que internamente realizarn consultas
con grandes volmenes de datos, por lo que la organizacin de las tablas deber
permitir estos cruces.

17

Metodologa Log de Transformaciones


Log de las transformaciones
El nivel de traza de las transformaciones dentro del log de la sesin viene determinado por
la propiedad Tracing Level de la transformacin. Las transformaciones no tienen ficheros
logs independientes sino que su informacin va incluida en el log de la sesin. Los valores
posibles de la propiedad Tracing Level, enumerados de menor a mayor detalle de log, son:
Terse
Normal
Verbose
Initialization
Verbose Data
Se recomienda establecer el nivel de log a Normal, incluso Terse, para aquellos procesos
que producen un nmero considerable de registros rechazados, de esta forma solamente
sern guardados en el fichero de rechazados (.bad) y no estarn reflejados en el log.

20

Metodologa Uso de Metadata Extension


Metadata Extensions
Los metadatos almacenados en el Repositorio pueden ser ampliados asociando informacin a cada objeto del
Repositorio de forma individual.
Estas extensiones o ampliaciones de los metadatos pueden crearse en los siguientes objetos:
Fuentes. Definiciones de Sources
Destinos. Definiciones de Targets
Transformaciones
Mappings
Mapplets
Las extensiones pueden crearse como reutilizables o no reutilizables. Las reutilizables pueden asociarse con
todos los objetos de cierto tipo del Repositorio, como todas las definiciones de fuentes, expresiones. Las
extensiones no reutilizables son asociados a un nico objeto del Repositorio.

Aadir Metadata
Extensin al objeto

Informacin asociada al objeto, en


este caso a una fuente

21

Plantilla Documentacin de Transformaciones


NOMBRE TRANSFORMACION
Descripcin:
<icono>

Nomenclatura:
Tipologa:
Conectada:

Cach:

Reusable
:

<Icono>: Imagen utilizada por la herramienta para mostrar la transformacin en el Designer.


NOMBRE TRANSFORMACIN: Se sustituye por el nombre de la transformacin PowerCenter.
Descripcin: Breve descripcin de la funcionalidad de la transformacin.
Nomenclatura: Nombre de la transformacin siguiendo la metodologa de PowerCenter de BBVA.
Tipologa: Clasificacin de las transformaciones en funcin del nmero de registros que entran y salen de la misma:
oActiva. El nmero de registros a la salida de la transformacin puede variar respecto a la entrada.
oPasiva. Realiza operaciones a nivel de registro. El nmero de registros de entrada es el mismo que de salida.
Conectada: Indica si la transformacin requiere de conectores para su funcionamiento, si debe estar integrada en el
flujo de datos. Puede tomar los valores:
: Conectada
: Desconectada
: La transformacin puede ser utilizada tanto conectada como desconectada.
Cach: Indica si la transformacin utiliza memoria cach. Puede tomar los valores
: Utiliza memoria cach
: No utiliza memoria cach
Reusable: Indica si la transformacin puede ser configurada para ser reusable. Puede tomar los valores:
: Puede ser configurada como reusable
: No puede ser configurada como reusable

22

Metodologa - Source Qualifier


SOURCE QUALIFIER
Descripcin:

Lectura de fuentes de datos (fuentes relacionales y ficheros planos)

Nomenclatura:

SQ_{NombreFuente}

Tipologa:

Activa

Conectada:

Cach:

Reusable:

Recomendaciones de uso
Filtrar todo lo posible los datos a tratar mediante las propiedades de la transformacin.
Conectar solamente los puertos que sean necesarios del Source Qualifier a las
siguientes transformaciones, stos sern los campos incluidos en la Select.
No es aconsejable cambiar la consulta de la propiedad SQL Query siempre que se pueda
realizar la consulta mediante el resto de propiedades de la transformacin. En caso de que
la consulta deba ser modificada, verificar que los puertos utilizados en la consulta
aparecen en el mismo orden que la transformacin ya que se podran intercambiar el valor
de unos campos por el de otros.
No quitar puertos del Source Qualifier, aunque no sean utilizados, de esta forma
facilitaremos la realizacin de futuros cambios.
23

También podría gustarte