Está en la página 1de 26

Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Guía de
[Tópicos de base de datos]

Alumno: [Beatriz Campos Flores]


Semestre: [Séptimo]
Grupo: [6751]

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Tabla de contenido

Hive 4
Hadoop 4
¿Qué es Hive? 4
Hive no es 5
Características de Hive 5
Arquitectura de Hive 5
Hive de trabajo 6
Hive - Instalación 8
Paso 1: Verificar instalación DE JAVA 8
Instalación de Java 9
Paso I: 9
Paso II: 9
Paso III: 9
Paso IV: 9
Paso 2: Comprobar Hadoop Instalación 10
Descargar Hadoop 10
Instalar Hadoop en Pseudo modo distribuido 10
Paso I: Configuración de Hadoop 10
Paso II: Hadoop Configuración 11
Hadoop Instalación Verificación 13
Primer paso: Instalación del nodo Nombre 13
Paso II: Verificación Hadoop dfs 14
Etapa III: Verificación Yarn Script 14
Etapa IV: Acceso a Hadoop en el navegador 14
Paso V: Verifique que todas las solicitudes de clúster 15
Paso 3: Descargar subárbol 15
Paso 4: Instalar Hive 16
Extracción y verificación Archivo Hive 16
Copia de archivos en /usr/local/Hive directorio 16
Medio ambiente de Hive 16

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Paso 5: Configuración Hive 16


Paso 6: Descargar e instalar Apache Derby 17
Descargar Apache Derby 17
Extraer y verificar Derby archive 17
Copiar los archivos en /usr/local/derby directorio 17
Medio ambiente de Derby 18
Cree un directorio para almacenar Metastore 18
Paso 7: Configuración de Hive Metastore 18
Paso 8: Comprobar Hive Instalación 19
REALIZAR UN ESQUEMA DE INTERACCIÓN DE HADOOP, SPARK Y HIVE 20
Glosario 23
 Arquitectura de Uso en Hadoop 25
 Distribuciones de Hadoop 25
 Arquitectura base en Spark 25
Referencia 26

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

[Tópicos de base de datos]

Hive
El término "Big Data" se utiliza para colecciones de grandes conjuntos de datos
que incluyen gran volumen, alta velocidad, y una gran variedad de datos que está
aumentando día a día. Los sistemas de gestión de datos, que es difícil de
procesar grandes datos. Por lo tanto, la Apache Software Foundation presenta un
marco de trabajo llamado Hadoop para resolver grandes gestión de datos y los
retos que supone este proceso.

Hadoop
Hadoop es un marco de código abierto para almacenar y procesar grandes datos
en un entorno distribuido. El proyecto consta de dos módulos, uno de ellos es
MapReduce y otra es Hadoop Distributed File System (HDFS).
 MapReduce:es un modelo de programación paralela para procesar
grandes cantidades de estructurados, semiestructurados y sin estructurar
datos sobre grandes grupos de hardware de productos básicos.
 HDFS:Hadoop Distributed File System es un parte de Hadoop marco, que
se utiliza para almacenar y procesar los datos. Es un fallo de sistema de
archivos tolerante a ejecutarse en hardware.
El Hadoop ecosistema contiene diferentes sub-proyectos (herramientas)
como Sqoop, cerdo, y Hive que se usan para ayudar a Hadoop módulos.
 Sqoop:se utiliza para importar y exportar datos de un lado a otro entre
HDFS y.
 Cerdo:es un lenguaje de procedimientos plataforma utilizada para crear un
script para operaciones de MapReduce.
 Hive:es una plataforma que se utiliza para desarrollar tipo SQL scripts para
hacer operaciones de MapReduce.
Nota:Hay varias formas de ejecutar operaciones de MapReduce:

 El enfoque tradicional utilizando Java programa de MapReduce


estructurados, semiestructurados y sin estructurar los datos.
 El scripting de MapReduce enfoque de proceso estructurado y semi datos
estructurados con cerdo.
 La Hive (Lenguaje de Consulta Estructurado HiveQL o HQL) de
MapReduce para procesar datos estructurados con Hive.

¿Qué es Hive?
Sección es una infraestructura de almacenamiento de datos de proceso de datos
estructurados en Hadoop. Se encuentra en la parte superior de Hadoop para
resumir grandes datos y facilita consultar y analizar fácil.

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Hive fue inicialmente desarrollado por Facebook, después, la Apache Software


Foundation ha desarrollado aún más y como un código fuente abierto bajo el
nombre Apache Hive. Es utilizado por diferentes empresas. Por ejemplo, Amazon
utiliza en Amazon Elastic MapReduce.
Hive no es

 Una base de datos relacional


 Un diseño para OnLine Transaction Processing (OLTP)
 UN idioma en tiempo real las consultas y actualizaciones a nivel de fila
Características de Hive

 Esquema que almacena en una base de datos y se procesan los datos en


HDFS.
 Está diseñado para OLAP.
 Proporciona tipo SQL lenguaje de consulta o pedido HiveQL HQL.
 Es familiar, rápido, escalable y extensible.

Arquitectura de Hive
El siguiente diagrama de componentes muestra la arquitectura de separación:

Este diagrama de componentes contiene diferentes unidades. La siguiente tabla


describe cada una de las unidades:

Nombre de la unidad Funcionamiento

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Interfaz de usuario Sección es una infraestructura de almacenamiento de datos


software que puede crear interacción entre usuario y HDFS.
Las interfaces de usuario que son Hive Hive es compatible
con interfaz Web, línea de comandos y Hive HD Insight (en
Windows).

Meta Almacenar Hive elige respectivos servidores de bases de datos para


almacenar el esquema o metadatos de tablas, bases de
datos, las columnas de una tabla, sus tipos de datos y
cartografía HDFS.

Motor de Procesos HiveQL es similar a SQL para realizar consultas de


HiveQL información sobre el esquema Metastore. Es uno de los
sustitutos del enfoque tradicional de MapReduce programa.
En lugar de escribir MapReduce programa en Java, se puede
escribir una consulta de MapReduce trabajo y proceso.

Motor de ejecución La conjunción de proceso HiveQL Motor y MapReduce es


Hive Motor de ejecución. Motor de ejecución procesa la
consulta y genera los resultados de la misma como
MapReduce resultados. Utiliza el sabor de MapReduce.

HDFS o HBASE Hadoop distributed file system o HBASE son el


almacenamiento de datos técnicas para almacenar datos en
sistema de archivos.

Hive de trabajo
El siguiente diagrama muestra el flujo de trabajo entre Hive y Hadoop.

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

La siguiente tabla define cómo interactúa con Hadoop Hive marco:

Paso Funcionamiento
No.

1 Ejecutar consulta

La Hive interfaz como línea de comandos o interfaz de usuario Web consulta


envía al controlador (controlador de base alguna, como JDBC, ODBC, etc. )
para que se ejecute.

2 Obtener Plan
El conductor tiene la ayuda de consulta compilador que analiza la consulta para
verificar la sintaxis y plan de consulta o la exigencia de consulta.

3 Obtener metadatos
El compilador envía solicitud de metadatos Metastore (cualquier base de datos).

4 Enviar Metadatos
Metastore envía los metadatos, como una respuesta para el compilador.

5 Enviar Plan

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

El compilador comprueba el requisito y vuelve el plan al conductor. Hasta aquí,


el análisis y elaboración de una consulta es completa.

6 Ejecutar Plan
El controlador envía el plan a ejecutar el motor de ejecución.

7 Ejecutar trabajo
Internamente, el proceso de ejecución se trata de un trabajo de MapReduce. El
motor de ejecución envía el trabajo a JobTracker, que está a nombre nodo y
asigna este trabajo a TaskTracker, que es en nodo de datos. Aquí, la consulta
se ejecuta trabajos MapReduce.

7.1 Metadatos Po
Mientras tanto en la ejecución, el motor de ejecución puede ejecutar las
operaciones de metadatos con Metastore.

8 Buscar resultados
El motor de ejecución reciba los resultados de nodos de datos.

9 Enviar Resultados
El motor de ejecución envía los valores resultantes para el conductor.

10 Enviar Resultados
El controlador envía los resultados a Hive Interfaces.

Hive - Instalación
Todos Hadoop sub-proyectos como Hive, el cerdo, HBase y compatible con el
sistema operativo Linux. Por lo tanto, es necesario instalar ningún sistema
operativo Linux con sabor. Los siguientes pasos son ejecutados por Hive
instalación:

Paso 1: Verificar instalación DE JAVA


Java debe estar instalado en el sistema antes de instalar Hive. Debemos verificar
instalación de java utilizando el siguiente comando:
$ java –version

Si Java ya está instalado en el sistema, usted podrá ver la siguiente respuesta:

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

java version "1.7.0_71"


Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Si java no está instalado en el sistema, a continuación, siga los pasos que se


indican a continuación para instalar java.

Instalación de Java

Paso I:

Descargar Java (JDK <latest version> - X64.tar.gz) visitando el siguiente


enlace http://www.oracle.com/technetwork/java/javase/downloads/jdk7-
downloads-1880260.html.
A continuación, jdk-7u71-linux-x64.tar.gz se descargará en su sistema.

Paso II:

En general, encontrará el archivo descargado java en la carpeta de descargas.


Verificar y extraer el jdk-7u71-linux-x64.gz usando los siguientes comandos.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Paso III:

Para que java disponible para todos los usuarios, tiene que mover a la ubicación
“/usr/local/”. Abrir root, y escriba los siguientes comandos.
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Paso IV:

Para la configuración de ruta de acceso y JAVA_HOME variables, agregar los


siguientes comandos en el archivo ~/.bashrc.
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Ahora compruebe la instalación utilizando el comando java -version de la terminal


como se ha explicado anteriormente.

Paso 2: Comprobar Hadoop Instalación


Hadoop debe estar instalado en el sistema antes de instalar Hive. Deje que
nosotros verificar la Hadoop instalación utilizando el siguiente comando:
$ hadoop version

Si Hadoop ya está instalado en el sistema, entonces se recibe la siguiente


respuesta:
Hadoop 2.4.1 Subversion
https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Si Hadoop no está instalada en su sistema, continúe con los siguientes pasos:

Descargar Hadoop
Descargar y extraer Hadoop 2.4.1 de Apache Software Foundation usando los
siguientes comandos.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Instalar Hadoop en Pseudo modo distribuido


Los siguientes pasos se usan para instalar Hadoop 2.4.1 en pseudo modo
distribuido.

Paso I: Configuración de Hadoop

Puede establecer las variables de entorno Hadoop anexar los siguientes


comandos para ~/.bashrc.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Ahora se aplican todos los cambios en el sistema actual.


$ source ~/.bashrc

Paso II: Hadoop Configuración

Usted puede encontrar todos los archivos de configuración Hadoop en la


ubicación "$HADOOP_HOME/etc/hadoop". Usted necesita hacer cambios en los
archivos de configuración según su Hadoop infraestructura.
$ cd $HADOOP_HOME/etc/hadoop

Con el fin de desarrollar programas con Hadoop java, tiene que restablecer el
entorno java variables de hadoop-env.sh archivo JAVA_HOME valor mediante
la sustitución de la ubicación de java en su sistema.
export JAVA_HOME=/usr/local/jdk1.7.0_71

A continuación se presentan la lista de los archivos que tienes que modificar para
configurar Hadoop.
Core-site.xml
Elcore-site.xmlcontiene información como el número de puerto que se usa para
Hadoop ejemplo, memoria asignada para el sistema de archivos, límite de
memoria para almacenar los datos, y el tamaño de lectura/escritura.
Abrir el core-site.xml y agregar las siguientes propiedades en entre el
<configuration> y </configuration> etiquetas.
<configuration>

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

</configuration>

Hdfs sitio.xml
La hdfs sitio.xml contiene información como el valor de los datos de réplica, el
namenode ruta, y la datanode camino de los sistemas de archivos locales. Esto
significa que el lugar donde se desea almacenar el Hadoop infra.
Supongamos los siguientes datos.
dfs.replication (data replication value) = 1

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

(In the following path /hadoop/ is the user name.


hadoopinfra/hdfs/namenode is the directory created by hdfs file
system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file


system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Abra este archivo y agregar las siguientes propiedades en entre el


<configuración>, </configuration> en el archivo.
<configuration>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode
</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode
</value >
</property>

</configuration>

Nota: En el archivo anterior, todos los valores de la propiedad son definidos por
el usuario y puede realizar cambios en función de su infraestructura Hadoop.
yarn-site.xml
Este archivo se utiliza para configurarYarn en Hadoop. Abra el yarn-site.xml y
añadir las siguientes propiedades de entre el <configuración>, </configuration> en
el archivo.
<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Mapred sitio.xml
Este archivo se utiliza para especificar qué MapReduce framework que estamos
usando. De forma predeterminada, Hadoop contiene una plantilla de Mapred
sitio.xml En primer lugar, es necesario copiar el fichero de mapred-sitio,
xml.template de mapred sitio.xml con el siguiente comando.
$ cp mapred-site.xml.template mapred-site.xml

Abrirmapred-site.xmly agregar las siguientes propiedades en entre el


<configuración>, </configuration> en el archivo.
<configuration>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

</configuration>

Hadoop Instalación Verificación


Los siguientes pasos se utilizan para verificar la instalación Hadoop.

Primer paso: Instalación del nodo Nombre

Configurar el namenode usando el comando "hdfs namenode -format" de la


siguiente manera.
$ cd ~
$ hdfs namenode -format

El resultado esperado es la siguiente.


10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully
formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going
to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Paso II: Verificación Hadoop dfs

El siguiente comando se utiliza para iniciar sle. Al ejecutar este comando, se


iniciará la Hadoop sistema de archivos.
$ start-dfs.sh

El resultado esperado es la siguiente:


10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Etapa III: Verificación Yarn Script

El siguiente comando se utiliza para iniciar el Yarn script. Al ejecutar este


comando se inicie el Yarn demonios.
$ start-yarn.sh

El resultado esperado es la siguiente:


starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Etapa IV: Acceso a Hadoop en el navegador

El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la


siguiente dirección url para obtener servicios Hadoop en su navegador.
http://localhost:50070/

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Paso V: Verifique que todas las solicitudes de clúster

El número de puerto predeterminado para acceder a todas las aplicaciones de


clúster es 8088. Utilice la siguiente dirección url para visitar este servicio.
http://localhost:8088/

Paso 3: Descargar subárbol

Utilizamos separación de 0.14.0 en este tutorial. Se puede descargar de visitar el


siguiente enlace http://apache.petsads.us/hive/hive-0.14.0/. Supongamos que se
ha descargado en el directorio /downloads. En este sentido, descargar Subárbol
archivo llamado "apache-Hive-0.14.0 -bin.tar.gz" de este tutorial. El siguiente
comando se utiliza para verificar la descarga:
$ cd Downloads
$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:


apache-hive-0.14.0-bin.tar.gz

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Paso 4: Instalar Hive


Los siguientes pasos son necesarios para instalar Hives en el sistema.
Supongamos que el archivo Hive es descargado en el directorio /downloads.

Extracción y verificación Archivo Hive

El siguiente comando se utiliza para verificar la descarga y extraer la Hive


archivo:
$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:


apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

Copia de archivos en /usr/local/Hive directorio

Tenemos que copiar los archivos desde el super usuario "su-". Los siguientes
comandos se utilizan para copiar los archivos desde el directorio extraído al
/usr/local/Hive" directory.
$ su -
passwd:

# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

Medio ambiente de Hive

Puede configurar la sección medio ambiente, añadiendo las siguientes líneas en


el archivo ~/.bashrc:
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

El siguiente comando se utiliza para ejecutar ~/.bashrc.


$ source ~/.bashrc

Paso 5: Configuración Hive

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Para configurar Hive con Hadoop, es necesario que edite la Hive-env.sh, que se
coloca en un $HIVE_HOME/directorio conf. Los siguientes comandos redirección
a Hiveconfig carpeta y copie el archivo de plantilla:
$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh

Editar la Hive-env.sh archivo añadiendo la siguiente línea:


export HADOOP_HOME=/usr/local/hadoop

Hive instalación se completa correctamente. Ahora necesita un servidor de base


de datos externa para configurar Metastore. Usamos Apache Derby base de
datos.

Paso 6: Descargar e instalar Apache Derby


Siga los pasos que se indican a continuación para descargar e instalar Apache
Derby:

Descargar Apache Derby

El siguiente comando se utiliza para descargar Apache Derby. Se necesita un


cierto tiempo para descargar.
$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-
10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

El siguiente comando se utiliza para verificar la descarga:


$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:


db-derby-10.4.2.0-bin.tar.gz

Extraer y verificar Derby archive

Los siguientes comandos se utilizan para la extracción y verificación de la Derby


archivo:
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:


db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

Copiar los archivos en /usr/local/derby directorio

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Tenemos que copiar de los super usuario "su-". Los siguientes comandos se
utilizan para copiar los archivos desde el directorio extraído al /usr/local/derby
directorio:
$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

Medio ambiente de Derby

Puede configurar el Derby medio ambiente añadiendo las siguientes líneas en el


archivo ~/.bashrc:
export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:
$DERBY_HOME/lib/derbytools.jar

El siguiente comando se utiliza para ejecutar ~/.bashrc:


$ source ~/.bashrc

Cree un directorio para almacenar Metastore

Cree un directorio denominado datos en $DERBY_HOME Metastore directorio


para almacenar los datos.
$ mkdir $DERBY_HOME/data

Derby instalación y el medio ambiente se ha completado la instalación.

Paso 7: Configuración de Hive Metastore


Configuración Metastore significa especificar a Hive donde se encuentra
almacenada la base de datos. Esto se puede hacer mediante la modificación de
hive-site.xml file, el cual se encuentra en el $HIVE_HOME/directorio conf. En
primer lugar, copiar el archivo de plantilla mediante el siguiente comando:
$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

Editarhive-site.xmly añadir las siguientes líneas entre <configuration> y


</configuration> etiquetas:
<property>

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create=true
</value>
<description>JDBC connect string for a JDBC metastore
</description>
</property>

Cree un archivo denominado jpox.properties y añadir las siguientes líneas en él:


javax.jdo.PersistenceManagerFactoryClass =

org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName =
org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL =
jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

Paso 8: Comprobar Hive Instalación


Antes de ejecutar Hive, que necesita para crear latmp carpeta y una Hive en
carpeta HDFS. En este caso, utilizamos el /user/Hive/carpeta de almacén. Es
necesario configurar permisos de escritura para estas carpetas recién creadas
como se muestra a continuación:
chmod g+w

Ahora HDFS en Hive antes de la verificación. Use los siguientes comandos:


$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Los siguientes comandos se utiliza para verificar Hive instalación:


$ cd $HIVE_HOME
$ bin/hive

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

El éxito de la instalación de Hive, que puedes ver la siguiente respuesta:


Logging initialized using configuration in
jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-
0.9.0.jar!/hive-log4j.properties
Hive history
file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

El ejemplo siguiente se ejecuta el comando para mostrar todas las tablas:


hive> show tables;
OK
Time taken: 2.798 seconds
hive>

REALIZAR UN ESQUEMA DE INTERACCIÓN DE HADOOP, SPARK Y HIVE

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Esquema

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

¿Qué es strinaming?
Streaming relación de audio y video y su tecnología es Kafka
¿Qué es HDFS?
Sistema de archivos de hadoop
¿En qué consiste map reduce?
Modelo de programación. La forma en que se procesa la información y lo que hace
es mapear y reducir una función, proceso.
¿Cuáles son las tres formas de instalar hadoop?
 En un solo nodo
 Sanbox
 Multinodo
¿mencione 3 empresas que ofrecen servicios de big data a través de hadoop?
 Claudera
 MapR
 Hortonworks

Glosario
 HDFS: Sistema de ficheros que distribuye los datos en múltiples nodos.
Este sistema implementa redundancia y tolerancia frente a fallos. Además
no depende de Hardware específico.
Los componentes de HDFS son:
o Un Name Node que gestiona la estructura del sistema de ficheros.
Puede estar redundado en Secundary Name Node.

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

o Varios Data Nodes que almacenan bloques de los ficheros. Por


defecto los bloques se encuentran replicados en 3 Data Nodes.
 MapReduce: Tecnología de acceso y procesado distribuido de los datos.
Accede a los datos mediante el procesado de los datos en cada nodo (Map)
y la unificación de estos datos procesados de los diferentes nodos
(Reduce).
Los componentes de MapReduce son:
o Job Tracker que gestiona el procesado de las tareas.
o TaskTracker realizan las tareas.

 Yarn: Es un motor gestión de recursos y servicios que se incorpora Hadoop


2.0. Mejora la eficiencia de MapReduce y además permite poner otros
motores de procesado distribuido de datos más eficientes como Tez.

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

Los componentes de Yarn son:


o Resource Manager
o Varios Node Manager
 Arquitectura de Uso en Hadoop

 Pig: Ejecuta pseudo comandos similares a bloques de consulta de SQL (Pig


Latin) para realizar el proceso de MapReduce.
 Hive: Ejecuta comandos de Sql (HiveQL) que generan el proceso
de MapReduce/Tez.
 Files: Permite gestionar ficheros de HDFS.
 Ambari: Es una aplicación Web o Api Rest que nos permiete provisionar,
gestionar, monitorizar y securizar los clusters de Hadoop.
 Sqoop: Transfiere los datos de HDFS desde/hacia bases de datos.
 Flume: Transfiere los datos de Streaming hacia HDFS.
 Kylin: OLAP sobre Hadoop.
 Distribuciones de Hadoop

 HDInsight: es la distribución de Hadoop pensada para Azure (Servicio


PAS). El HDFS se monta sobre el Windows Azure Blob Storage o Azure
Data Lake. Esta basado en la distribución de Hortonworks.
 HortonWorks SandBox: es una distribución que permite desplegar todo
el Hadoop en una sola maquina. Es ideal para pruebas ;-).
 HortonWorks Data Platform: es una distribución en IAS. Incorpora: YARN,
HDFS, MR,Pig,Hive,TEZ, HBase, Storm, Spark, Sqoop, Oozie, Flume…
 Cloudera Enterpirse Data Hub: es una distribución en IAS. Incorpora
servicio propio Impala.
 Arquitectura base en Spark

Profesor Raúl Romero Castro


Tecnológico de Estudios Superiores de Chalco Ingeniería Informática

 Worker Nodes: nodos encargados de realizar las operaciones.


 SparkContext: coordina los Worker Nodes.

 RDD: colecciones de datos distribuidos en memoria o disco basados


en HDFS o colecciones.
 Operaciones: Es el equivalente a MapReduce. El procesado Map se
llama Tranformación y nos retorna un RDD. El procesado Reduce se
llama Acción y nos retorna el resultado al SparkContext o a un fichero.

Referencia
1. https://hive.apache.org/

Profesor Raúl Romero Castro

También podría gustarte