Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guía de
[Tópicos de base de datos]
Tabla de contenido
Hive 4
Hadoop 4
¿Qué es Hive? 4
Hive no es 5
Características de Hive 5
Arquitectura de Hive 5
Hive de trabajo 6
Hive - Instalación 8
Paso 1: Verificar instalación DE JAVA 8
Instalación de Java 9
Paso I: 9
Paso II: 9
Paso III: 9
Paso IV: 9
Paso 2: Comprobar Hadoop Instalación 10
Descargar Hadoop 10
Instalar Hadoop en Pseudo modo distribuido 10
Paso I: Configuración de Hadoop 10
Paso II: Hadoop Configuración 11
Hadoop Instalación Verificación 13
Primer paso: Instalación del nodo Nombre 13
Paso II: Verificación Hadoop dfs 14
Etapa III: Verificación Yarn Script 14
Etapa IV: Acceso a Hadoop en el navegador 14
Paso V: Verifique que todas las solicitudes de clúster 15
Paso 3: Descargar subárbol 15
Paso 4: Instalar Hive 16
Extracción y verificación Archivo Hive 16
Copia de archivos en /usr/local/Hive directorio 16
Medio ambiente de Hive 16
Hive
El término "Big Data" se utiliza para colecciones de grandes conjuntos de datos
que incluyen gran volumen, alta velocidad, y una gran variedad de datos que está
aumentando día a día. Los sistemas de gestión de datos, que es difícil de
procesar grandes datos. Por lo tanto, la Apache Software Foundation presenta un
marco de trabajo llamado Hadoop para resolver grandes gestión de datos y los
retos que supone este proceso.
Hadoop
Hadoop es un marco de código abierto para almacenar y procesar grandes datos
en un entorno distribuido. El proyecto consta de dos módulos, uno de ellos es
MapReduce y otra es Hadoop Distributed File System (HDFS).
MapReduce:es un modelo de programación paralela para procesar
grandes cantidades de estructurados, semiestructurados y sin estructurar
datos sobre grandes grupos de hardware de productos básicos.
HDFS:Hadoop Distributed File System es un parte de Hadoop marco, que
se utiliza para almacenar y procesar los datos. Es un fallo de sistema de
archivos tolerante a ejecutarse en hardware.
El Hadoop ecosistema contiene diferentes sub-proyectos (herramientas)
como Sqoop, cerdo, y Hive que se usan para ayudar a Hadoop módulos.
Sqoop:se utiliza para importar y exportar datos de un lado a otro entre
HDFS y.
Cerdo:es un lenguaje de procedimientos plataforma utilizada para crear un
script para operaciones de MapReduce.
Hive:es una plataforma que se utiliza para desarrollar tipo SQL scripts para
hacer operaciones de MapReduce.
Nota:Hay varias formas de ejecutar operaciones de MapReduce:
¿Qué es Hive?
Sección es una infraestructura de almacenamiento de datos de proceso de datos
estructurados en Hadoop. Se encuentra en la parte superior de Hadoop para
resumir grandes datos y facilita consultar y analizar fácil.
Arquitectura de Hive
El siguiente diagrama de componentes muestra la arquitectura de separación:
Hive de trabajo
El siguiente diagrama muestra el flujo de trabajo entre Hive y Hadoop.
Paso Funcionamiento
No.
1 Ejecutar consulta
2 Obtener Plan
El conductor tiene la ayuda de consulta compilador que analiza la consulta para
verificar la sintaxis y plan de consulta o la exigencia de consulta.
3 Obtener metadatos
El compilador envía solicitud de metadatos Metastore (cualquier base de datos).
4 Enviar Metadatos
Metastore envía los metadatos, como una respuesta para el compilador.
5 Enviar Plan
6 Ejecutar Plan
El controlador envía el plan a ejecutar el motor de ejecución.
7 Ejecutar trabajo
Internamente, el proceso de ejecución se trata de un trabajo de MapReduce. El
motor de ejecución envía el trabajo a JobTracker, que está a nombre nodo y
asigna este trabajo a TaskTracker, que es en nodo de datos. Aquí, la consulta
se ejecuta trabajos MapReduce.
7.1 Metadatos Po
Mientras tanto en la ejecución, el motor de ejecución puede ejecutar las
operaciones de metadatos con Metastore.
8 Buscar resultados
El motor de ejecución reciba los resultados de nodos de datos.
9 Enviar Resultados
El motor de ejecución envía los valores resultantes para el conductor.
10 Enviar Resultados
El controlador envía los resultados a Hive Interfaces.
Hive - Instalación
Todos Hadoop sub-proyectos como Hive, el cerdo, HBase y compatible con el
sistema operativo Linux. Por lo tanto, es necesario instalar ningún sistema
operativo Linux con sabor. Los siguientes pasos son ejecutados por Hive
instalación:
Instalación de Java
Paso I:
Paso II:
Paso III:
Para que java disponible para todos los usuarios, tiene que mover a la ubicación
“/usr/local/”. Abrir root, y escriba los siguientes comandos.
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
Paso IV:
Descargar Hadoop
Descargar y extraer Hadoop 2.4.1 de Apache Software Foundation usando los
siguientes comandos.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Con el fin de desarrollar programas con Hadoop java, tiene que restablecer el
entorno java variables de hadoop-env.sh archivo JAVA_HOME valor mediante
la sustitución de la ubicación de java en su sistema.
export JAVA_HOME=/usr/local/jdk1.7.0_71
A continuación se presentan la lista de los archivos que tienes que modificar para
configurar Hadoop.
Core-site.xml
Elcore-site.xmlcontiene información como el número de puerto que se usa para
Hadoop ejemplo, memoria asignada para el sistema de archivos, límite de
memoria para almacenar los datos, y el tamaño de lectura/escritura.
Abrir el core-site.xml y agregar las siguientes propiedades en entre el
<configuration> y </configuration> etiquetas.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Hdfs sitio.xml
La hdfs sitio.xml contiene información como el valor de los datos de réplica, el
namenode ruta, y la datanode camino de los sistemas de archivos locales. Esto
significa que el lugar donde se desea almacenar el Hadoop infra.
Supongamos los siguientes datos.
dfs.replication (data replication value) = 1
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode
</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode
</value >
</property>
</configuration>
Nota: En el archivo anterior, todos los valores de la propiedad son definidos por
el usuario y puede realizar cambios en función de su infraestructura Hadoop.
yarn-site.xml
Este archivo se utiliza para configurarYarn en Hadoop. Abra el yarn-site.xml y
añadir las siguientes propiedades de entre el <configuración>, </configuration> en
el archivo.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Mapred sitio.xml
Este archivo se utiliza para especificar qué MapReduce framework que estamos
usando. De forma predeterminada, Hadoop contiene una plantilla de Mapred
sitio.xml En primer lugar, es necesario copiar el fichero de mapred-sitio,
xml.template de mapred sitio.xml con el siguiente comando.
$ cp mapred-site.xml.template mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
Tenemos que copiar los archivos desde el super usuario "su-". Los siguientes
comandos se utilizan para copiar los archivos desde el directorio extraído al
/usr/local/Hive" directory.
$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit
Para configurar Hive con Hadoop, es necesario que edite la Hive-env.sh, que se
coloca en un $HIVE_HOME/directorio conf. Los siguientes comandos redirección
a Hiveconfig carpeta y copie el archivo de plantilla:
$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh
Tenemos que copiar de los super usuario "su-". Los siguientes comandos se
utilizan para copiar los archivos desde el directorio extraído al /usr/local/derby
directorio:
$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create=true
</value>
<description>JDBC connect string for a JDBC metastore
</description>
</property>
org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName =
org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL =
jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine
Esquema
¿Qué es strinaming?
Streaming relación de audio y video y su tecnología es Kafka
¿Qué es HDFS?
Sistema de archivos de hadoop
¿En qué consiste map reduce?
Modelo de programación. La forma en que se procesa la información y lo que hace
es mapear y reducir una función, proceso.
¿Cuáles son las tres formas de instalar hadoop?
En un solo nodo
Sanbox
Multinodo
¿mencione 3 empresas que ofrecen servicios de big data a través de hadoop?
Claudera
MapR
Hortonworks
Glosario
HDFS: Sistema de ficheros que distribuye los datos en múltiples nodos.
Este sistema implementa redundancia y tolerancia frente a fallos. Además
no depende de Hardware específico.
Los componentes de HDFS son:
o Un Name Node que gestiona la estructura del sistema de ficheros.
Puede estar redundado en Secundary Name Node.
Referencia
1. https://hive.apache.org/