Está en la página 1de 2

DICCIONARIO CA

 Macros:
1. error de timeout: Estos errores se deben a una falta de recursos de memoria
durante el procesamiento de datos. Si se inicia el proceso de recolección de
elementos no utilizados de Java, la aplicación Spark podría dejar de responder.
Las consultas comenzarán a agotar el tiempo de espera y el procesamiento se
detendrá.
2. dateutil.relativedelta: El tipo relativedelta está diseñado para ser aplicado a una fecha-
hora existente y puede reemplazar componentes específicos de esa fecha-hora, o
representa un intervalo de tiempo.
3. Agg: Va antes de una función de agregación; En Spark tenemos muchas funciones de
agregación, quizás las más comunes sean estas:

sum -> Devuelve la suma de todos los valores agregados por cada clave de agregación de una
columna

min -> Devuelve el valor más pequeño por cada clave de agregación de una columna

max -> Devuelve el valor más grande por cada clave de agregación de una columna

avg -> Devuelve el valor medio por cada clave de agregación de una columna

count -> Devuelve la cantidad de elementos por cada clave de agregación de una column

4. select() vs selectExp():

select() -> pyspark.sql.DataFrame.select() es una función de transformación que devuelve un


nuevo DataFrame con las columnas deseadas según lo especificado en las entradas. Acepta un
único argumento columnas que puede ser una cadena, una columna o una lista en caso de
querer seleccionar varias columnas. El método proyecta un conjunto de expresiones y
devolverá un nuevo DataFrame de Spark.

selectExpr() -> pyspark.sql.DataFrame.selectExpr() es similar a select() con la única diferencia


de que acepta expresiones SQL (en formato de cadena) que serán ejecutadas. De nuevo, esta
expresión devolverá un nuevo DataFrame a partir del original basado en la entrada
proporcionada.

5. Trim(): Borra espacios.


6. to_date(): Convierte string a formato fecha.
7. F.monotonically_increasing_id(): Una columna que genera enteros de 64 bits
monótonamente crecientes. Se garantiza que el ID generado es monotónicamente
creciente y único, pero no consecutivo.
8. Isin(): En Spark cómo utilizar los operadores isin() & IS NOT IN que son similares a las
funciones IN & NOT IN disponibles en SQL que comprueban que el valor de la columna
DataFrame existe/contiene en una lista de valores de cadena.
9. .collect(): Spark collect() y collectAsList() son operaciones de acción que se utilizan para
recuperar todos los elementos del RDD/DataFrame/Dataset (de todos los nodos) al
nodo controlador. Deberíamos utilizar collect() en conjuntos de datos más pequeños,
normalmente después de filter(), group(), count(), etc. La recuperación en conjuntos
de datos más grandes hace que se agote la memoria.
10. F.udf(lambda x: x - dateutil.relativedelta.relativedelta(months=1), DateType())
11. print(f"Fin Datos Adelantos de la tabla de Movimientos :
{datetime.datetime.now().time().hour - 3}:{datetime.datetime.now().time().minute}:
{datetime.datetime.now().time().second}")

También podría gustarte