Está en la página 1de 2

Prepara las lecturas de ficheros

parquet para AWS - Notebooks


¿Para qué? ¿Cómo? ¿Dónde?

Para asegurar que las lecturas de Haciendo uso de la librería


En tus notebooks marcados como
ficheros parquet en zona Master / Dataproc SDK. Esta realizará una
usuario dentro de la herramienta
Sandbox se ejecuten de manera traducción en tiempo de ejecución
de inventario desplegada por DPM
correcta en la nueva plataforma entre la ruta tradicional y su
CO y en nuevos notebooks.
basada en AWS. homologo en AWS.

¿Cómo instalar la librería Dataproc SDK?


Sandbox
1. En una terminal ejecuta la siguiente línea.

$ pip install dataproc_sdk==0.4.0.3.1 --user

2. Pasado unos minutos, deberías tener el siguiente mensaje en tu consola.

$ Successfully installed dataproc-sdk-0.4.0.3.1

¿Cómo leer ficheros parquet con Dataproc SDK?

Zona Master y Sandbox


1. Importa la librería en tu notebook.

$ from dataproc_sdk.dataproc_sdk_datiopysparksession.datiopysparksession import DatioPysparkSession

2. Inicializa la clase dataproc en tu notebook.

$ dataproc = DatioPysparkSession().get_or_create()

3. Realiza la lectura de la(s) tabla(s) teniendo en cuenta la ruta base y las particiones por consultar.

$ DF = dataproc.read().parquet(PATH_READ_MASTER).where(
$ (col(PARTITION_NAME_1)==PARTITION_VALUE_1) &
$ (col(PARTITION_NAME_2)==PARTITION_VALUE_2) &
$ (col(PARTITION_NAME_3)==PARTITION_VALUE_3)
$ )
Atención
En algunos casos, pueden existir conflictos durante la lectura de ficheros parquet en rutas no gobernadas (Zona
Sandbox). Estos conflictos pueden estar relacionados con esquemas diferentes en las particiones del objeto, otro
tipo de datos en las rutas, entre otros. Dado lo anterior, se requiere el uso de la opción BasePath para la lectura
del objeto.

1. Importa la librería en tu notebook.

$ from dataproc_sdk.dataproc_sdk_datiopysparksession.datiopysparksession import DatioPysparkSession

2. Inicializa la clase dataproc en tu notebook.

$ dataproc = DatioPysparkSession().get_or_create()

3. Realiza la lectura de la(s) tabla(s) teniendo en cuenta la ruta base y la ruta completa por consultar.

$ DF = dataproc.read().option("basePath", BASE_PATH).parquet(FULL_PATH)

Ejemplos

Lectura tradicional / Lectura Dataproc SDK

Columnas de partición presentes en la lectura

También podría gustarte