Actividad 7. Investigación Hive

Tecnológico de Estudios Superiores de Chalco Ingeniería Informática
Guía de
[Tópicos de base de datos]
Alumno: [Beatriz Campos Flores]

Semestre: [Séptimo]
Grupo: [6751]
Profesor Raúl Romero Castro

Tabla de contenido
Hive 4
Hadoop 4
¿Qué es Hive? 4
Hive no es 5
Características de Hive 5
Arquitectura de Hive 5
Hive de trabajo 6
Hive - Instalación 8
Paso 1: Verificar instalación DE JAVA 8
Instalación de Java 9
Paso I: 9
Paso II: 9
Paso III: 9
Paso IV: 9
Paso 2: Comprobar Hadoop Instalación 10
Descargar Hadoop 10
Instalar Hadoop en Pseudo modo distribuido 10
Paso I: Configuración de Hadoop 10
Paso II: Hadoop Configuración 11
Hadoop Instalación Verificación 13
Primer paso: Instalación del nodo Nombre 13
Paso II: Verificación Hadoop dfs 14
Etapa III: Verificación Yarn Script 14
Etapa IV: Acceso a Hadoop en el navegador 14
Paso V: Verifique que todas las solicitudes de clúster 15
Paso 3: Descargar subárbol 15
Paso 4: Instalar Hive 16
Extracción y verificación Archivo Hive 16
Copia de archivos en /usr/local/Hive directorio 16
Medio ambiente de Hive 16

Paso 5: Configuración Hive 16

Paso 6: Descargar e instalar Apache Derby 17
Descargar Apache Derby 17
Extraer y verificar Derby archive 17
Copiar los archivos en /usr/local/derby directorio 17
Medio ambiente de Derby 18
Cree un directorio para almacenar Metastore 18
Paso 7: Configuración de Hive Metastore 18
Paso 8: Comprobar Hive Instalación 19
REALIZAR UN ESQUEMA DE INTERACCIÓN DE HADOOP, SPARK Y HIVE 20
Glosario 23
 Arquitectura de Uso en Hadoop 25
 Distribuciones de Hadoop 25
 Arquitectura base en Spark 25
Referencia 26

[Tópicos de base de datos]
Hive
El término "Big Data" se utiliza para colecciones de grandes conjuntos de datos
que incluyen gran volumen, alta velocidad, y una gran variedad de datos que está
aumentando día a día. Los sistemas de gestión de datos, que es difícil de
procesar grandes datos. Por lo tanto, la Apache Software Foundation presenta un
marco de trabajo llamado Hadoop para resolver grandes gestión de datos y los
retos que supone este proceso.
Hadoop
Hadoop es un marco de código abierto para almacenar y procesar grandes datos
en un entorno distribuido. El proyecto consta de dos módulos, uno de ellos es
MapReduce y otra es Hadoop Distributed File System (HDFS).
 MapReduce:es un modelo de programación paralela para procesar
grandes cantidades de estructurados, semiestructurados y sin estructurar
datos sobre grandes grupos de hardware de productos básicos.
 HDFS:Hadoop Distributed File System es un parte de Hadoop marco, que
se utiliza para almacenar y procesar los datos. Es un fallo de sistema de
archivos tolerante a ejecutarse en hardware.
El Hadoop ecosistema contiene diferentes sub-proyectos (herramientas)
como Sqoop, cerdo, y Hive que se usan para ayudar a Hadoop módulos.
 Sqoop:se utiliza para importar y exportar datos de un lado a otro entre
HDFS y.
 Cerdo:es un lenguaje de procedimientos plataforma utilizada para crear un
script para operaciones de MapReduce.
 Hive:es una plataforma que se utiliza para desarrollar tipo SQL scripts para
hacer operaciones de MapReduce.
Nota:Hay varias formas de ejecutar operaciones de MapReduce:
 El enfoque tradicional utilizando Java programa de MapReduce

estructurados, semiestructurados y sin estructurar los datos.
 El scripting de MapReduce enfoque de proceso estructurado y semi datos
estructurados con cerdo.
 La Hive (Lenguaje de Consulta Estructurado HiveQL o HQL) de
MapReduce para procesar datos estructurados con Hive.
¿Qué es Hive?
Sección es una infraestructura de almacenamiento de datos de proceso de datos
estructurados en Hadoop. Se encuentra en la parte superior de Hadoop para
resumir grandes datos y facilita consultar y analizar fácil.

Hive fue inicialmente desarrollado por Facebook, después, la Apache Software

Foundation ha desarrollado aún más y como un código fuente abierto bajo el
nombre Apache Hive. Es utilizado por diferentes empresas. Por ejemplo, Amazon
utiliza en Amazon Elastic MapReduce.
Hive no es
 Una base de datos relacional

 Un diseño para OnLine Transaction Processing (OLTP)
 UN idioma en tiempo real las consultas y actualizaciones a nivel de fila
Características de Hive
 Esquema que almacena en una base de datos y se procesan los datos en

HDFS.
 Está diseñado para OLAP.
 Proporciona tipo SQL lenguaje de consulta o pedido HiveQL HQL.
 Es familiar, rápido, escalable y extensible.
Arquitectura de Hive
El siguiente diagrama de componentes muestra la arquitectura de separación:
Este diagrama de componentes contiene diferentes unidades. La siguiente tabla

describe cada una de las unidades:
Nombre de la unidad Funcionamiento

Interfaz de usuario Sección es una infraestructura de almacenamiento de datos

software que puede crear interacción entre usuario y HDFS.
Las interfaces de usuario que son Hive Hive es compatible
con interfaz Web, línea de comandos y Hive HD Insight (en
Windows).
Meta Almacenar Hive elige respectivos servidores de bases de datos para

almacenar el esquema o metadatos de tablas, bases de
datos, las columnas de una tabla, sus tipos de datos y
cartografía HDFS.
Motor de Procesos HiveQL es similar a SQL para realizar consultas de

HiveQL información sobre el esquema Metastore. Es uno de los
sustitutos del enfoque tradicional de MapReduce programa.
En lugar de escribir MapReduce programa en Java, se puede
escribir una consulta de MapReduce trabajo y proceso.
Motor de ejecución La conjunción de proceso HiveQL Motor y MapReduce es

Hive Motor de ejecución. Motor de ejecución procesa la
consulta y genera los resultados de la misma como
MapReduce resultados. Utiliza el sabor de MapReduce.
HDFS o HBASE Hadoop distributed file system o HBASE son el

almacenamiento de datos técnicas para almacenar datos en
sistema de archivos.
Hive de trabajo
El siguiente diagrama muestra el flujo de trabajo entre Hive y Hadoop.

La siguiente tabla define cómo interactúa con Hadoop Hive marco:
Paso Funcionamiento
No.
1 Ejecutar consulta
La Hive interfaz como línea de comandos o interfaz de usuario Web consulta

envía al controlador (controlador de base alguna, como JDBC, ODBC, etc. )
para que se ejecute.
2 Obtener Plan
El conductor tiene la ayuda de consulta compilador que analiza la consulta para
verificar la sintaxis y plan de consulta o la exigencia de consulta.
3 Obtener metadatos
El compilador envía solicitud de metadatos Metastore (cualquier base de datos).
4 Enviar Metadatos
Metastore envía los metadatos, como una respuesta para el compilador.
5 Enviar Plan

El compilador comprueba el requisito y vuelve el plan al conductor. Hasta aquí,

el análisis y elaboración de una consulta es completa.
6 Ejecutar Plan
El controlador envía el plan a ejecutar el motor de ejecución.
7 Ejecutar trabajo
Internamente, el proceso de ejecución se trata de un trabajo de MapReduce. El
motor de ejecución envía el trabajo a JobTracker, que está a nombre nodo y
asigna este trabajo a TaskTracker, que es en nodo de datos. Aquí, la consulta
se ejecuta trabajos MapReduce.
7.1 Metadatos Po
Mientras tanto en la ejecución, el motor de ejecución puede ejecutar las
operaciones de metadatos con Metastore.
8 Buscar resultados
El motor de ejecución reciba los resultados de nodos de datos.
9 Enviar Resultados
El motor de ejecución envía los valores resultantes para el conductor.
10 Enviar Resultados
El controlador envía los resultados a Hive Interfaces.
Hive - Instalación
Todos Hadoop sub-proyectos como Hive, el cerdo, HBase y compatible con el
sistema operativo Linux. Por lo tanto, es necesario instalar ningún sistema
operativo Linux con sabor. Los siguientes pasos son ejecutados por Hive
instalación:
Paso 1: Verificar instalación DE JAVA

Java debe estar instalado en el sistema antes de instalar Hive. Debemos verificar
instalación de java utilizando el siguiente comando:
$ java –version
Si Java ya está instalado en el sistema, usted podrá ver la siguiente respuesta:

java version "1.7.0_71"

Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Si java no está instalado en el sistema, a continuación, siga los pasos que se

indican a continuación para instalar java.
Instalación de Java
Paso I:
Descargar Java (JDK <latest version> - X64.tar.gz) visitando el siguiente

enlace http://www.oracle.com/technetwork/java/javase/downloads/jdk7-
downloads-1880260.html.
A continuación, jdk-7u71-linux-x64.tar.gz se descargará en su sistema.
Paso II:
En general, encontrará el archivo descargado java en la carpeta de descargas.

Verificar y extraer el jdk-7u71-linux-x64.gz usando los siguientes comandos.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Paso III:
Para que java disponible para todos los usuarios, tiene que mover a la ubicación
“/usr/local/”. Abrir root, y escriba los siguientes comandos.
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
Paso IV:
Para la configuración de ruta de acceso y JAVA_HOME variables, agregar los

siguientes comandos en el archivo ~/.bashrc.
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Ahora compruebe la instalación utilizando el comando java -version de la terminal

como se ha explicado anteriormente.
Paso 2: Comprobar Hadoop Instalación

Hadoop debe estar instalado en el sistema antes de instalar Hive. Deje que
nosotros verificar la Hadoop instalación utilizando el siguiente comando:
$ hadoop version
Si Hadoop ya está instalado en el sistema, entonces se recibe la siguiente

respuesta:
Hadoop 2.4.1 Subversion
https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
Si Hadoop no está instalada en su sistema, continúe con los siguientes pasos:
Descargar Hadoop
Descargar y extraer Hadoop 2.4.1 de Apache Software Foundation usando los
siguientes comandos.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
Instalar Hadoop en Pseudo modo distribuido

Los siguientes pasos se usan para instalar Hadoop 2.4.1 en pseudo modo
distribuido.
Paso I: Configuración de Hadoop
Puede establecer las variables de entorno Hadoop anexar los siguientes

comandos para ~/.bashrc.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Ahora se aplican todos los cambios en el sistema actual.

$ source ~/.bashrc
Paso II: Hadoop Configuración
Usted puede encontrar todos los archivos de configuración Hadoop en la

ubicación "$HADOOP_HOME/etc/hadoop". Usted necesita hacer cambios en los
archivos de configuración según su Hadoop infraestructura.
$ cd $HADOOP_HOME/etc/hadoop
Con el fin de desarrollar programas con Hadoop java, tiene que restablecer el
entorno java variables de hadoop-env.sh archivo JAVA_HOME valor mediante
la sustitución de la ubicación de java en su sistema.
export JAVA_HOME=/usr/local/jdk1.7.0_71
A continuación se presentan la lista de los archivos que tienes que modificar para
configurar Hadoop.
Core-site.xml
Elcore-site.xmlcontiene información como el número de puerto que se usa para
Hadoop ejemplo, memoria asignada para el sistema de archivos, límite de
memoria para almacenar los datos, y el tamaño de lectura/escritura.
Abrir el core-site.xml y agregar las siguientes propiedades en entre el
<configuration> y </configuration> etiquetas.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Hdfs sitio.xml
La hdfs sitio.xml contiene información como el valor de los datos de réplica, el
namenode ruta, y la datanode camino de los sistemas de archivos locales. Esto
significa que el lugar donde se desea almacenar el Hadoop infra.
Supongamos los siguientes datos.
dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.

hadoopinfra/hdfs/namenode is the directory created by hdfs file
system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file

system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Abra este archivo y agregar las siguientes propiedades en entre el

<configuración>, </configuration> en el archivo.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode
</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode
</value >
</property>
</configuration>
Nota: En el archivo anterior, todos los valores de la propiedad son definidos por
el usuario y puede realizar cambios en función de su infraestructura Hadoop.
yarn-site.xml
Este archivo se utiliza para configurarYarn en Hadoop. Abra el yarn-site.xml y
añadir las siguientes propiedades de entre el <configuración>, </configuration> en
el archivo.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

Mapred sitio.xml
Este archivo se utiliza para especificar qué MapReduce framework que estamos
usando. De forma predeterminada, Hadoop contiene una plantilla de Mapred
sitio.xml En primer lugar, es necesario copiar el fichero de mapred-sitio,
xml.template de mapred sitio.xml con el siguiente comando.
$ cp mapred-site.xml.template mapred-site.xml
Abrirmapred-site.xmly agregar las siguientes propiedades en entre el

<configuración>, </configuration> en el archivo.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop Instalación Verificación

Los siguientes pasos se utilizan para verificar la instalación Hadoop.
Primer paso: Instalación del nodo Nombre
Configurar el namenode usando el comando "hdfs namenode -format" de la

siguiente manera.
$ cd ~
$ hdfs namenode -format
El resultado esperado es la siguiente.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully
formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going
to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
Paso II: Verificación Hadoop dfs
El siguiente comando se utiliza para iniciar sle. Al ejecutar este comando, se

iniciará la Hadoop sistema de archivos.
$ start-dfs.sh
El resultado esperado es la siguiente:

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
Etapa III: Verificación Yarn Script
El siguiente comando se utiliza para iniciar el Yarn script. Al ejecutar este

comando se inicie el Yarn demonios.
$ start-yarn.sh
El resultado esperado es la siguiente:

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
Etapa IV: Acceso a Hadoop en el navegador
El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la

siguiente dirección url para obtener servicios Hadoop en su navegador.
http://localhost:50070/

Paso V: Verifique que todas las solicitudes de clúster
El número de puerto predeterminado para acceder a todas las aplicaciones de

clúster es 8088. Utilice la siguiente dirección url para visitar este servicio.
http://localhost:8088/
Paso 3: Descargar subárbol
Utilizamos separación de 0.14.0 en este tutorial. Se puede descargar de visitar el

siguiente enlace http://apache.petsads.us/hive/hive-0.14.0/. Supongamos que se
ha descargado en el directorio /downloads. En este sentido, descargar Subárbol
archivo llamado "apache-Hive-0.14.0 -bin.tar.gz" de este tutorial. El siguiente
comando se utiliza para verificar la descarga:
$ cd Downloads
$ ls
En descarga exitosa, usted podrá ver la siguiente respuesta:

apache-hive-0.14.0-bin.tar.gz

Paso 4: Instalar Hive

Los siguientes pasos son necesarios para instalar Hives en el sistema.
Supongamos que el archivo Hive es descargado en el directorio /downloads.
Extracción y verificación Archivo Hive
El siguiente comando se utiliza para verificar la descarga y extraer la Hive

archivo:
$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
Copia de archivos en /usr/local/Hive directorio
Tenemos que copiar los archivos desde el super usuario "su-". Los siguientes
comandos se utilizan para copiar los archivos desde el directorio extraído al
/usr/local/Hive" directory.
$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit
Medio ambiente de Hive
Puede configurar la sección medio ambiente, añadiendo las siguientes líneas en

el archivo ~/.bashrc:
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
El siguiente comando se utiliza para ejecutar ~/.bashrc.

$ source ~/.bashrc
Paso 5: Configuración Hive

Para configurar Hive con Hadoop, es necesario que edite la Hive-env.sh, que se
coloca en un $HIVE_HOME/directorio conf. Los siguientes comandos redirección
a Hiveconfig carpeta y copie el archivo de plantilla:
$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh
Editar la Hive-env.sh archivo añadiendo la siguiente línea:

export HADOOP_HOME=/usr/local/hadoop
Hive instalación se completa correctamente. Ahora necesita un servidor de base

de datos externa para configurar Metastore. Usamos Apache Derby base de
datos.
Paso 6: Descargar e instalar Apache Derby

Siga los pasos que se indican a continuación para descargar e instalar Apache
Derby:
Descargar Apache Derby
El siguiente comando se utiliza para descargar Apache Derby. Se necesita un

cierto tiempo para descargar.
$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-
10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
El siguiente comando se utiliza para verificar la descarga:

$ ls

db-derby-10.4.2.0-bin.tar.gz
Extraer y verificar Derby archive
Los siguientes comandos se utilizan para la extracción y verificación de la Derby

archivo:
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
Copiar los archivos en /usr/local/derby directorio

Tenemos que copiar de los super usuario "su-". Los siguientes comandos se
utilizan para copiar los archivos desde el directorio extraído al /usr/local/derby
directorio:
$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit
Medio ambiente de Derby
Puede configurar el Derby medio ambiente añadiendo las siguientes líneas en el

archivo ~/.bashrc:
export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:
$DERBY_HOME/lib/derbytools.jar
El siguiente comando se utiliza para ejecutar ~/.bashrc:

$ source ~/.bashrc
Cree un directorio para almacenar Metastore
Cree un directorio denominado datos en $DERBY_HOME Metastore directorio

para almacenar los datos.
$ mkdir $DERBY_HOME/data
Derby instalación y el medio ambiente se ha completado la instalación.
Paso 7: Configuración de Hive Metastore

Configuración Metastore significa especificar a Hive donde se encuentra
almacenada la base de datos. Esto se puede hacer mediante la modificación de
hive-site.xml file, el cual se encuentra en el $HIVE_HOME/directorio conf. En
primer lugar, copiar el archivo de plantilla mediante el siguiente comando:
$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml
Editarhive-site.xmly añadir las siguientes líneas entre <configuration> y

</configuration> etiquetas:
<property>

<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create=true
</value>
<description>JDBC connect string for a JDBC metastore
</description>
</property>
Cree un archivo denominado jpox.properties y añadir las siguientes líneas en él:

javax.jdo.PersistenceManagerFactoryClass =
org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName =
org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL =
jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine
Paso 8: Comprobar Hive Instalación

Antes de ejecutar Hive, que necesita para crear latmp carpeta y una Hive en
carpeta HDFS. En este caso, utilizamos el /user/Hive/carpeta de almacén. Es
necesario configurar permisos de escritura para estas carpetas recién creadas
como se muestra a continuación:
chmod g+w
Ahora HDFS en Hive antes de la verificación. Use los siguientes comandos:

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
Los siguientes comandos se utiliza para verificar Hive instalación:

$ cd $HIVE_HOME
$ bin/hive

El éxito de la instalación de Hive, que puedes ver la siguiente respuesta:

Logging initialized using configuration in
jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-
0.9.0.jar!/hive-log4j.properties
Hive history
file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>
El ejemplo siguiente se ejecuta el comando para mostrar todas las tablas:

hive> show tables;
OK
Time taken: 2.798 seconds
hive>
REALIZAR UN ESQUEMA DE INTERACCIÓN DE HADOOP, SPARK Y HIVE


Esquema

¿Qué es strinaming?
Streaming relación de audio y video y su tecnología es Kafka
¿Qué es HDFS?
Sistema de archivos de hadoop
¿En qué consiste map reduce?
Modelo de programación. La forma en que se procesa la información y lo que hace
es mapear y reducir una función, proceso.
¿Cuáles son las tres formas de instalar hadoop?
 En un solo nodo
 Sanbox
 Multinodo
¿mencione 3 empresas que ofrecen servicios de big data a través de hadoop?
 Claudera
 MapR
 Hortonworks
Glosario
 HDFS: Sistema de ficheros que distribuye los datos en múltiples nodos.
Este sistema implementa redundancia y tolerancia frente a fallos. Además
no depende de Hardware específico.
Los componentes de HDFS son:
o Un Name Node que gestiona la estructura del sistema de ficheros.
Puede estar redundado en Secundary Name Node.

o Varios Data Nodes que almacenan bloques de los ficheros. Por

defecto los bloques se encuentran replicados en 3 Data Nodes.
 MapReduce: Tecnología de acceso y procesado distribuido de los datos.
Accede a los datos mediante el procesado de los datos en cada nodo (Map)
y la unificación de estos datos procesados de los diferentes nodos
(Reduce).
Los componentes de MapReduce son:
o Job Tracker que gestiona el procesado de las tareas.
o TaskTracker realizan las tareas.

 Yarn: Es un motor gestión de recursos y servicios que se incorpora Hadoop

2.0. Mejora la eficiencia de MapReduce y además permite poner otros
motores de procesado distribuido de datos más eficientes como Tez.

Los componentes de Yarn son:

o Resource Manager
o Varios Node Manager
 Arquitectura de Uso en Hadoop
 Pig: Ejecuta pseudo comandos similares a bloques de consulta de SQL (Pig

Latin) para realizar el proceso de MapReduce.
 Hive: Ejecuta comandos de Sql (HiveQL) que generan el proceso
de MapReduce/Tez.
 Files: Permite gestionar ficheros de HDFS.
 Ambari: Es una aplicación Web o Api Rest que nos permiete provisionar,
gestionar, monitorizar y securizar los clusters de Hadoop.
 Sqoop: Transfiere los datos de HDFS desde/hacia bases de datos.
 Flume: Transfiere los datos de Streaming hacia HDFS.
 Kylin: OLAP sobre Hadoop.
 Distribuciones de Hadoop
 HDInsight: es la distribución de Hadoop pensada para Azure (Servicio

PAS). El HDFS se monta sobre el Windows Azure Blob Storage o Azure
Data Lake. Esta basado en la distribución de Hortonworks.
 HortonWorks SandBox: es una distribución que permite desplegar todo
el Hadoop en una sola maquina. Es ideal para pruebas ;-).
 HortonWorks Data Platform: es una distribución en IAS. Incorpora: YARN,
HDFS, MR,Pig,Hive,TEZ, HBase, Storm, Spark, Sqoop, Oozie, Flume…
 Cloudera Enterpirse Data Hub: es una distribución en IAS. Incorpora
servicio propio Impala.
 Arquitectura base en Spark

 Worker Nodes: nodos encargados de realizar las operaciones.

 SparkContext: coordina los Worker Nodes.

 RDD: colecciones de datos distribuidos en memoria o disco basados

en HDFS o colecciones.
 Operaciones: Es el equivalente a MapReduce. El procesado Map se
llama Tranformación y nos retorna un RDD. El procesado Reduce se
llama Acción y nos retorna el resultado al SparkContext o a un fichero.
Referencia
1. https://hive.apache.org/

Actividad 7. Investigación Hive

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Actividad 7. Investigación Hive

Cargado por

Copyright:

Formatos disponibles

Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Alumno: [Beatriz Campos Flores]

Profesor Raúl Romero Castro

Profesor Raúl Romero Castro

Paso 5: Configuración Hive 16

Profesor Raúl Romero Castro

[Tópicos de base de datos]

 El enfoque tradicional utilizando Java programa de MapReduce

Profesor Raúl Romero Castro

Hive fue inicialmente desarrollado por Facebook, después, la Apache Software

 Una base de datos relacional

 Esquema que almacena en una base de datos y se procesan los datos en

Este diagrama de componentes contiene diferentes unidades. La siguiente tabla

Nombre de la unidad Funcionamiento

Profesor Raúl Romero Castro

Interfaz de usuario Sección es una infraestructura de almacenamiento de datos

Meta Almacenar Hive elige respectivos servidores de bases de datos para

Motor de Procesos HiveQL es similar a SQL para realizar consultas de

Motor de ejecución La conjunción de proceso HiveQL Motor y MapReduce es

HDFS o HBASE Hadoop distributed file system o HBASE son el

Profesor Raúl Romero Castro

La siguiente tabla define cómo interactúa con Hadoop Hive marco:

La Hive interfaz como línea de comandos o interfaz de usuario Web consulta

Profesor Raúl Romero Castro

El compilador comprueba el requisito y vuelve el plan al conductor. Hasta aquí,

Paso 1: Verificar instalación DE JAVA

Si Java ya está instalado en el sistema, usted podrá ver la siguiente respuesta:

Profesor Raúl Romero Castro

java version "1.7.0_71"

Si java no está instalado en el sistema, a continuación, siga los pasos que se

Descargar Java (JDK <latest version> - X64.tar.gz) visitando el siguiente

En general, encontrará el archivo descargado java en la carpeta de descargas.

Para la configuración de ruta de acceso y JAVA_HOME variables, agregar los

Profesor Raúl Romero Castro

Ahora compruebe la instalación utilizando el comando java -version de la terminal

Paso 2: Comprobar Hadoop Instalación

Si Hadoop ya está instalado en el sistema, entonces se recibe la siguiente

Si Hadoop no está instalada en su sistema, continúe con los siguientes pasos:

Instalar Hadoop en Pseudo modo distribuido

Paso I: Configuración de Hadoop

Puede establecer las variables de entorno Hadoop anexar los siguientes

Profesor Raúl Romero Castro

Ahora se aplican todos los cambios en el sistema actual.

Paso II: Hadoop Configuración

Usted puede encontrar todos los archivos de configuración Hadoop en la

Profesor Raúl Romero Castro

(In the following path /hadoop/ is the user name.

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file

Abra este archivo y agregar las siguientes propiedades en entre el

Profesor Raúl Romero Castro

Abrirmapred-site.xmly agregar las siguientes propiedades en entre el

Hadoop Instalación Verificación

Primer paso: Instalación del nodo Nombre

Configurar el namenode usando el comando "hdfs namenode -format" de la

El resultado esperado es la siguiente.

Profesor Raúl Romero Castro

Paso II: Verificación Hadoop dfs

El siguiente comando se utiliza para iniciar sle. Al ejecutar este comando, se

El resultado esperado es la siguiente:

Etapa III: Verificación Yarn Script

El siguiente comando se utiliza para iniciar el Yarn script. Al ejecutar este

El resultado esperado es la siguiente: