Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cola - Lugar donde yo escribo informacion y la ve otra persona y puede estar en una
nube
GDE-FROND-END
EME-REPOSITORIO
CO>OPERATING SYSTEM - BACK-END es un interprete de lenguaje comun (java)
PORT
FILTER BY EXPRESSION-filtrar por expresion es igual que un where en sql
SORT- acomodar por una columna es como un arder by asc o desc
REPLICATE- replicar los mismo dos veces
REFROMART - lee los registros de un input y aplica una transformacion y da el
resultados de otra manera (cambia o no el formato del dato)
ROLLUP- agrupas informacion y transformarla, se agrupo por un key
JOIN -tiene una transformacion, adentro y sirve para elgir las columnas que quiero
y darle el resultado que deseo
DESUP-para eliminar campos
solo con tener bloques tenemos la opcion de de hacer infinitas combinaciones
ab initio es escalable
porque nos asegura que estan hecha de la mejor manera los componentes
paralelismo
cuando se usa un replicate divide el flow de data en dos
paralelismo de tubo
que paso por ciertas candidades de datos que netrar 30000 y van entrando de 1000 en
1000
partition by
se divide en varios bloques
vamos a tener sucursal a
sucursal b
sucursal c
y reparte la data a la que corresponde de cada sucursal y corre su grafico
tracking
te dice como se estan ejecutando las cosas si algo esta bien en el grafo
ver la data
cotrol+d para ver la data de los input
primero se tiene que verificar que la data viene en el formato adecuado y de
buena ,anera
RECORD FORMATS
dml-archivo que define el formato al archivo DE LOS DATOS (TRANFORMA LA INFORMACION
PARA QUE SE PUEDA LEER)
Donde estara ubicado
y cual sera el formtao a utilizar
PARAMETROS
key
transform-es la accion que hace
COMPRAS
HACER UN ROLLUP
Y QUE SAQUEN LOS CAMPOS Y SOLO QUEDE EL IVICE, PRODUCTO Y CANTIDAD Y TRANSACCION
EMBED
esta exrito a mano, hardcodeado yo mismo defino como va a estar el format
------------------------
INPUT
OUTPUT
MULTIFILE
PARALELO
que corre la data particionada dividida en varios pedazos de archivos
los multiarchivos ya estan particionados en varias tablas o archivos