Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Instructor:
- MBA Jimmy Farfán
• Descripción general de
Apache Sqoop
• Importación de datos
• Opciones de importación
de archivos
• Exportación de datos
• Puntos esenciales
▪ Proyecto Apache de código abierto desarrollado originalmente
¿Qué es por Cloudera
El nombre es una contracción de "SQL-to-Hadoop"
Apache
▪ Sqoop intercambia datos entre una base de datos y HDFS
Sqoop? –Puede importar todas las tablas, una sola tabla o una tabla
parcial a HDFS
–Los datos se pueden importar en una variedad de formatos
–Sqoop también puede exportar datos de HDFS a una base de
datos
tabla
–Crear y enviar trabajo al
2
clúster
–Obtener registros de la tabla y
escribir estos datos en HDFS Hadoop Cluster
▪ Sqoop es una utilidad de línea de comandos con varios subcomandos,
llamados herramientas
Sintaxis básica –Hay herramientas para importar, exportar, enumerar el contenido de
la base de datos y más
–Ejecute la ayuda de sqoop para ver una lista de todas las herramientas
–Ejecute sqoop help tool-name para obtener ayuda sobre el uso de una
herramienta específica
▪ Sintaxis básica de una invocación de Sqoop
▪ Importación de Datos
▪ Exportación de Datos
▪ Puntos esenciales
▪ Las importaciones se realizan mediante trabajos de Hadoop
Descripción MapReduce
general del ▪ Sqoopcomienza examinando la tabla que se va a importar.
proceso de –Determina la clave principal, si es posible
–Ejecuta una consulta de límites para ver cuántos registros se
importación importarán.
–Divide el resultado de la consulta de límites por el número de
tareas (mapeadores)
- Utiliza esto para configurar tareas para que tengan cargas
iguales
▪ Sqoop también genera un archivo fuente de Java para cada tabla
que se importa
–Compila y usa esto durante el proceso de importación.
–El archivo permanece después de la importación, pero se puede
eliminar de forma segura
▪ La herramienta de importación de todas las
Importación de tablas importa una base de datos completa
–Almacenado como archivos delimitados por comas
una base de –La ubicación base predeterminada es su directorio de inicio
datos completa HDFS
–Los datos estarán en subdirectorios correspondientes al nombre
con Sqoop de cada tabla
$ sqoop import-all-tables \
--connect jdbc:mysql://dbhost/loudacre \
--username dbuser --password pw
▪ Importación de Datos
▪ Exportación de Datos
▪ Puntos esenciales
Especificar una
▪ De forma predeterminada, Sqoop almacena los datos en el
ubicación de directorio de inicio HDFS del usuario.
–En un subdirectorio correspondiente al nombre de la tabla
archivo –Por ejemplo / usuario / formación / cuentas
de datos
$ sqoop import --table accounts\
--connect jdbc:mysql://dbhost/loudacre\
--username dbuser --password pw \
--as-parquetfile
▪ Importación de Datos
▪ Exportación de Datos
▪ Puntos esenciales
▪ La herramienta de importación de Sqoop extrae registros de un
RDBMS a HDFS
Exportación ▪ A veces es necesario enviar datos en HDFS a un RDBMS
de datos de –Buena solución cuando debe realizar procesamiento por lotes
en grandes conjuntos de datos
Hadoop a –Exportar resultados a una base de datos relacional para que
otros sistemas puedan acceder a ellos
RDBMS con
▪ Sqoop admite esto a través de la herramienta de exportación
Sqoop –La tabla RDBMS ya debe existir antes de la exportación
$ sqoop export \
--connect jdbc:mysql://dbhost/loudacre \
--username dbuser --password pw \
--export-dir /loudacre/recommender_output \
--update-mode allowinsert \
--table product_recommendations
Temas del
capítulo
Importación de datos
relacionales con Apache
Sqoop
▪ Importación de Datos
▪ Exportación de Datos
▪ Puntos esenciales
Puntos
▪ Sqoop intercambia datos entre una base de datos y un clúster de
esenciales Hadoop
Proporciona subcomandos (herramientas) para importar,
exportar y más
▪ Las tablas se importan mediante trabajos de MapReduce
Estos están escritos como texto delimitado por comas de forma
predeterminada
▪ Puede especificar delimitadores o formatos de archivo
alternativos
Sqoop ofrece muchas opciones para controlar las
importaciones
Puede seleccionar solo ciertas columnas o limitar filas
Bibliografía