Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Batch processing (Sistema por lotes en español) hace referencia a la ejecución de un programa sin
Normalmente se usa para realizar tareas que son repetitivas sobre grandes lotes de información.
Es normal que estos programas se ejecuten a través de scripts en los que dentro suele estar
m
indicado que acciones van a ser ejecutadas por dicho script y, normalmente, los recursos que va a
co
necesitar para llevarlo a cabo.
a.
op
ur
oe
ut
it
st
s .in
Existen varios programas que funcionan usando batch processing, por ejemplo:
do
ca
Gnuplot
rt
EXEC II
ce
Command.com
GNU Octave
Generalmente, casi en todos los casos, un programa podría ser ejecutado en modo batch, siempre
que se pueda especificar qué pasos existen para su ejecución mediante un script.
No se debe confundir el procesamiento por lotes con los archivos que tengan extensión .bat de los
certificados.institutoeuropa.com
1 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
sistemas batch.
Los archivos .bat se ejecutan de manera secuencial y el usuario no puede hacer nada
Por otro lado tenemos los sistemas por batch que son una forma de hacer el proceso de la
información en lenguaje llano. Estos sistemas son ejecutados de forma secuencial también pero no
porque el programa en sí se lo exija (Como los archvos .bat), sino porque no conocen otra forma de
m
ejecutarse.
co
Como introducción tenemos varios apartados interesantes que nos serán de ayuda para adentrarnos
a.
en profundidad.
op
Hadoop nace en el momento en que Google necesita urgentemente una solución con la que pueda
ur
continuar procesando datos al ritmo que el mercado le demanda.
oe
Pig es una plataforma creada por Yahoo que nos ayuda a desarrollar algoritmos MapReduce.
ut
it
Apache sqoop es una herramienta que fue diseñada para importar información desde bases de
st
Apache Spark es un framework de computación en clúster diseñado para una rápida computación.
s
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
2 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Objetivos
Dentro de esta unidad vamos a ver varios tipos de herramientas que nos serán de ayuda para
m
Conocer la definición de la herramienta Sqoop.
co
Conocer la definición de la herramienta Flume.
a.
Conocer la definición de la herramienta Spark Core.
op
Conocer la definición de la herramienta Spark 2.0.
ur
Conocer las funciones y usos de las herramientas anteriormente mencionadas
oe
dentro de un entorno adaptado a nuestras necesidades.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
4 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Hadoop.
¿Qué es HADOOP?
Podríamos empezar esta nueva unidad comentando que Hadoop nace en el momento en que Google
necesita urgentemente una solución con la que pueda continuar procesando datos al ritmo que el
mercado le demanda ya que Google en sus inicios creció de forma exponencial. Google decide
buscar una solución y esta solución se basa en un sistema de archivos distribuidos. Más tarde se
m
denominará Hadoop y se basa en un gran número de pequeños ordenadores, cada uno de los cuales
co
se encarga de procesar una parte de la información.
a.
Lo novedoso y la excelencia del sistema es que a pesar de que cada uno de ellos funciona de forma
op
independiente y autónoma, todos actúan en conjunto como si fueran un solo ordenador de
ur
dimensiones increíbles. oe
En 2006, Google publica todos los detalles acerca de su nuevo descubrimiento, compartiendo su
ut
conocimiento y experiencia con todos los usuarios. Esto despierta el interés de la comunidad Open
it
Source que viendo las nuevas oportunidades que surgirán, explotan sus posibilidades desarrollando
st
A partir de entonces son muchas las empresas que lo incorporan a sus plataformas, como ya
s
do
Conceptos previos
ifi
Es necesario conocer de forma muy clara algunos conceptos antes de profundizar en Hadoop.
rt
ce
Ley de Moore: Originado en la década de los 60’s, establece que la velocidad del procesador o
Nodo: PC o equipo físico que posee, como tal, su propio hardware y software.
certificados.institutoeuropa.com
5 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
Clúster: Conjunto de 1 a n racks unidos entre sí por una misma red y que se comportan como
un único ordenador.
ur
oe
ut
it
st
s .in
do
ca
ifi
Hadoop
rt
“The Apache™ Hadoop® project develops open‐source software for reliable, scalable, distributed
computing.”
Apache Hadoop es por lo tanto un framework de software libre que permite escribir y ejecutar
aplicaciones en sistemas distribuidos para procesar grandes cantidades de datos. Está diseñado para
almacenamiento local.
certificados.institutoeuropa.com
6 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
En lugar de confiar en el hardware para ofrecer alta disponibilidad, el framework en sí está diseñado
para detectar y controlar los errores en la capa de aplicación, facilitando un servicio de alta
El framework de Hadoop está escrito en Java y es una evolución del subproyecto Nutch que a su vez
fue un subproyecto de Lucene, todos ellos desarrollados por Doug Cutting, que nombró el proyecto
m
co
a.
op
Lucene es un proyecto Java orientado a la búsqueda e indexación de texto. Aunque ha sido utilizado
ur
para la implementación de motores de búsquedas ya que es capaz de procesar millones de
oe
documentos, es útil para cualquier aplicación que requiera indexación y búsqueda de textos
completos.
ut
it
Nutch es una extensión de Lucene que permite construir un motor de búsquedas web, usando
st
Lucene como su núcleo. Es capaz de procesar miles de millones de páginas web sin llegar a tener
.in
un coste exorbitante. Otra diferencia con Lucene, es que Nutch debe correr sobre un clúster
distribuido. Para ello, se tuvo que crear una capa que permitiera gestionar el procesamiento
s
do
Alrededor de 2004, Google publicó dos papers describiendo Google File System (GFS) y el
certificados.institutoeuropa.com
7 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
framework de MapReduce. Doug Cutting implementó una evolución del framework de Nutch basado
en estas tecnologías y rápidamente superó las capacidades de Nutch pudiendo procesar varios
Aunque el concepto de programación distribuida está muy extendido, los puntos clave de Hadoop
m
como Amazon’s Elastic Compute Cloud (EC2).
co
Robusto: Debido a que está pensado para funcionar con hardware de equipos básicos, Hadoop
a.
está diseñado para trabajar pese a que se sufran frecuentes averías hardware. Gracias a ello,
op
es capaz de manejar la mayoría de estos fallos.
Escalable: Hadoop permite el escalado horizontal para gestionar volúmenes de datos más
ur
grandes mediante la replicación, añadiendo más nodos al clúster.
oe
Simple: Hadoop permite a los usuarios escribir código eficiente en paralelo empleando
ut
Profundizando un poco más, Hadoop es un sistema distribuido usando una arquitectura Master-
s
Slave (maestro-esclavo), usado para almacenar su Hadoop Distributed File System (HDFS) y
do
Hadoop corre sobre Linux. Hay varias formas de utilizar Hadoop. Dependiendo de nuestras
ifi
Un único nodo en local (single node), utilizado por ejemplo para hacer pruebas de concepto
Un clúster pseudo-distribuido para simular un clúster de varios nodos pero corriendo en una
Montar un clúster entre distintas máquinas (multi node) totalmente distribuido que sería el
Hadoop requiere un entorno de programación Java. Destacar que los usuarios de Linux o Mac OSX
certificados.institutoeuropa.com
8 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
u otros entornos Unix son capaces de instalar Hadoop y ejecutarlo en una o más maquinas sin más
necesidad de software que Java. El resto de usuarios necesitan una máquina virtual. Por esta razón
Ecosistema Hadoop
Este ecosistema cambia muy rápido con lo que es bueno revisarlo cada cierto periodo de tiempo.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Monitorización
certificados.institutoeuropa.com
9 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
que trabaja con Hadoop para procesar y analizar grandes volúmenes de logs. Incluye herramientas
m
co
a.
op
ur
oe
ut
it
st
gestión de los clúster de Hadoop. Posee dashboards de mapas de calor para visualizar el estado del
s
https://cwiki.apache.org/confluence/display/AMBARI/Ambari
ifi
rt
mover troncos (logs). Es un sistema distribuido para agregar y mover grandes cantidades de
certificados.institutoeuropa.com
10 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
En el siguiente enlace se puede encontrar un manual de uso:
op
https://flume.apache.org/FlumeUserGuide.html
ur
La arquitectura e integración de Flume, donde se ve como diferentes agentes recogen ficheros log
oe
desde diferentes orígenes, los integran en un repositorio común para después analizarlos con
ut
distribuidos y mantener la sincronización del clúster. Facilita un conjunto de primitivas simples que
pueden usar las aplicaciones distribuidas para implementar servicios de mayor nivel de
sincronización y configuración. Es fácil de programar y usa un modelo de datos del estilo de árbol de
certificados.institutoeuropa.com
11 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Procesamiento
framework está inspirado en los nombres de dos importantes métodos, macros o funciones en
programación funcional: Map y Reduce. MapReduce ha sido adoptado mundialmente, ya que existe
m
una implementación OpenSource denominada Hadoop.
co
Avro https://avro.apache.org/: La serialización es el proceso mediante el cual se convierte un objeto
a.
a un formato para que pueda ser procesado y almacenado. Como en Hadoop se procesa una gran
op
cantidad de datos la serialización se usa para poder procesarlos y guardarlos de forma eficiente. La
ur
serialización puede ser en formato de texto plano, JSON o binario. De esta forma se pueden leer
oe
datos y almacenarlos de forma fácil desde diferentes lenguajes de programación.
ut
almacenados en Hadoop usando un lenguaje similar a SQL llamado HiveQL. En el siguiente enlace
st
uso: https://cwiki.apache.org/confluence/display/Hive/GettingStarted
s
do
ca
ifi
rt
Esta imagen refleja el funcionamiento de Hive que funciona como una capa externa y por encima de
ce
Hadoop y desde donde vamos a poder realizar consultas sobre los ficheros de HDFS usando HiveQL.
certificados.institutoeuropa.com
12 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
HCatalog https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat.
Es un servicio para la gestión de tablas y almacenamiento que proporciona un esquema común que
permite abstraerse de las diferentes estructuras de tablas, de cómo se almacenan y de los datos que
m
co
a.
op
ur
oe
Mahout http://mahout.apache.org/: Es un proyecto de aprendizaje automático y minería de datos
ut
Pig https://pig.apache.org/: Desarrollado por Yahoo, permite a los usuarios de Hadoop centrarse
encuentra en http://pig.apache.org/docs/r0.16.0/index.html.
certificados.institutoeuropa.com
13 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
ut
it
Tez https://tez.apache.org/: Es una evolución del sistema MapReduce, que permite ejecutar varias
st
operaciones Map y/o reduce concatenadas. Estas tareas se pueden modelar en forma de grafo
.in
acíclico.
s
do
ca
ifi
rt
ce
búsquedas sobre textos. Proporciona librerías para la indexación y búsqueda de texto. Ha sido
certificados.institutoeuropa.com
14 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Bases de datos
m
Cassandra http://cassandra.apache.org/: Base de datos NoSQL distribuida basada en el modelo
co
clave-valor.
a.
HBase https://hbase.apache.org/: se trata de la base de datos de Hadoop. Es una base de datos
op
NoSQL distribuida, orientada a columnas para el almacenamiento de grandes volúmenes de datos.
ur
Es el componente necesario cuando se requiere escrituras/lecturas en tiempo real y acceso aleatorio
oe
para grandes conjuntos de datos.
ut
it
st
s .in
do
ca
ifi
rt
ce
usan Hadoop.
certificados.institutoeuropa.com
15 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Módulos en Hadoop
m
Hadoop está inspirado en el proyecto de Google File System (Ghemawat, y otros, 2003) y en el
co
paradigma de programación MapReduce. Hadoop está compuesto de tres piezas fundamentales:
a.
Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common en los que
op
entraremos en detalle en los siguientes apartados:
ur
Hadoop Common: Utilidades comunes que dan soporte a otras aplicaciones Hadoop.
oe
Hadoop Distributed File System (HDFS): Sistema distribuido de ficheros que proporciona un
ut
datos.
s .in
do
ca
Comenzar Actividad
ifi
rt
certificados.institutoeuropa.com
16 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
La búsqueda e indexación de
texto.
m
continuar procesando datos al ritmo que el mercado le demanda ya que Google
en sus inicios creció de forma exponencial.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
17 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Pig.
Pig es una plataforma creada por Yahoo (a alto nivel) que nos ayuda a desarrollar algoritmos
MapReduce utilizando una sintaxis similar a SQL llamada Pig latin. Tiene dos modos de
maquina local. Utilizando un script se codificarán las sentencias que realizan la carga, escaneo,
búsqueda y filtrado de los datos de entrada y sentencias para el formateo y almacenamiento de los
datos de salida.
m
co
Podremos utilizar un schema para estructurarlos y poder acceder de manera más sencilla.
a.
Se puede ampliar Pig Latin usando UDF (Funciones definidas por el usuario).
op
ur
Estas funciones pueden estar desarrolladas en varios lenguajes de programación (Python, Ruby,
Inicialmente Pig se desarrolló en 2006 por los investigadores de Yahoo Research para poder lanzar
"Filosofía" Pig
Para poder comprender mejor el por qué se creó Pig, se definieron una lista de enunciados que
resumen el proyecto.
"Pigs eat anything": Haciendo referencia al símil de que un cerdo puede comer
certificados.institutoeuropa.com
18 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
cualquier cosa, Pig puede trabajar con cualquier tipo de datos, ya sea no
"Pigs live anywhere": En su creación, Pig fue implementado en Hadoop pero esto
"Pigs are domestic animals": Al igual que los "animales domésticos", Pig está
m
funcionamiento (conducta en el caso de los animales domésticos) de los
co
programas. Como indicamos en el apartado anterior, Pig puede crecer y aumentar
su funcionalidad mediante funciones que definan los propios usuarios (UDF). Esto
a.
hace que Pig pueda extenderse mediante UDFs para que realice un procesamiento
op
personalizado.
ur
"Pigs fly": El objetivo de Pig es procesar datos de forma muy rápida. No
oe
pretendemos mejorar las características sino el rendimiento para que realmente
ut
Por supuesto, al ser el creador de dicha plataforma, Yahoo! fue el primero en utilizarla para sus
s
do
Realmente, más del 50% de los procesos que se ejecutan en Hadoop se basan en scripts escritos en
ifi
Pig Latin.
rt
A partir del 2009, Pig se empezó a usar para el procesamiento de datos en otras compañias, tales
ce
como:
LinkedIn: Esta plataforma usa Hadoop y Pig en el componente "Gente que podrías conocer"
para recomendar a los usuarios posibles conocidos, empleos o páginas que puedan ser de su
interés.
Twitter: Esta red social usa Pig para procesar logs de datos de los tweets enviados.
AOL y WhitePages: Estas páginas utilizan Pig para, en sus búsquedas de información, filtrar
certificados.institutoeuropa.com
19 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
los registros.
Pig Latin
Pig Latin es un lenguaje de programación que usa flujos de datos de forma paralela. Esto
permite a los programadores definir como deben ser tratados (Lectura, Procesamiento y
m
La sintaxis es muy parecida a SQL pero, al ser un lenguaje orientado a la transformación de datos
co
también es parecido a los optimizadores de consultas.
a.
Habitualmente utilizando MapReduce en Java, los programas pueden ser de más de 100 líneas de
op
código, mientras que utilizando Pig Latin, los scripts normalmente no suelen pasar de unas 10 líneas
ur
de código. oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
20 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
El método de funcionamiento de Pig Latin es el de ejecutar sentencias tomando los datos de entrada
("bag") que hacen referencia a un conjunto de tuplas (filas), procesando dichas sentencias con
Una "tupla" es un conjunto de campos, donde cada uno hace referencia a cualquier tipo de dato. Pig
Latin no utiliza condicionales tales como "if" ni tampoco ciclos tales como "for" ya que este
lenguaje está enfocado en el flujo de datos y no en controlar dicho flujo como otros lenguajes de
m
programación.
co
Pig Latin usa operadores relacionales para poder realizar varias operaciones sobre los datos que
a.
se analizan.
op
Aunque anteriormente hemos dicho que Pig Latin no utiliza ciclos "for", sí que existe el operador
ur
"FOREACH" que tiene una naturaleza similar ya que su función es la de iterar sobre las tuplas y
oe
transformarlas en dichas iteraciones.
ut
En la siguiente tabla se puede observar algunos de los operadores relacionales que son utilizados en
it
Pig Latin:
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
21 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
Anteriormente comentamos el uso que algunas empresas (LinkedIn, Twitter, AOL,...) le daban a Pig.
Además de estos usos, existen muchos datos que se pueden procesar y aún no se ha hecho y esto
Por ejemplo, Pig se podría usar para ver todos los movimientos de un usuario en una página web y
poder dividir en varios tipos a los usuarios. Así, se podría categorizar a dichos tipos de usuarios y
para cada uno mostrar anuncios o artículos que estén más relacionados con sus tipos de búsqueda.
certificados.institutoeuropa.com
22 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Pig permite el análisis de gran volumen de información (Big Data), con Apache Pig se puede
procesar y almacenar dichos datos en una base de datos y posteriormente ejecutar consultas
(queries) sobre ellos. Esto hace que Pig tenga una similitud con una herramienta ETL (Extract
Transform Load).
Pig permite la paralelización utilizando Hadoop haciendo que los scripts sean más simples.
Esto no significa que Pig sea un reemplazo de una ETL ya que no tiene funcionalidades específicas
m
como sí lo hace una herramienta ETL.
co
Ejemplo de lenguaje Pig Latin para programa de cuenta de caracteres:
a.
op
ur
oe
ut
it
st
s .in
do
ca
Este ejemplo de un archivo cogerá las palabras de un archivo de texto y nos contará las palabras.
ifi
rt
ce
Comenzar Actividad
certificados.institutoeuropa.com
23 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Pig es una plataforma creada por Yahoo (a alto nivel) que nos ayuda a desarrollar
algoritmos MapReduce utilizando una sintaxis similar a SQL llamada Pig latin.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
24 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Hive.
Apache Hive es un framework que fue originalmente creado por Facebook que sirve para trabajar
con el HDFS de Hadoop y nos facilita trabajar con los datos. A través de sentencias SQL podemos
m
co
a.
op
ur
oe
ut
it
Facebook fue la encargada de desarrollar Hive y actualmente es utilizada por Apache Hive y
st
desarrollada por empresas tales como Netflix y FINRA (Financial Industry Regulatory Authority).
.in
Amazon incluye una derivación Apache Hive en sus servicios Amazon Web Services.
s
do
Hive no es una base de datos, aunque tengamos que crearnos un schema, crear una tabla e
ca
Apache Hive permite analizar conjuntos de datos grandes que utilicen almacenamiento bajo HDFS
rt
Tiene un lenguaje basado en SQL que se llama HiveQL y permite leer y convertir consultas en
Para que las consultas sean más rápidas, Hive utiliza índices de bitmaps.
certificados.institutoeuropa.com
25 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Almacenamiento en BD Relacionales.
DEFLATE,...).
UDF (Funciones definidas por el usuario) para poder tratar textos y otros tipos de
m
a MapReduce, Tez ó tareas Spark.
co
a.
Inicialmente, Hive guarda sus metadatos en una base de datos apache Derby pero se puede
op
configurar para que estos metadatos puedan ser almacenados en otros bases de datos relacionales
ur
como pueden ser: Postgres, MySQL, Oracle, o MS SQL.
oe
Su principal inconveniente es que necesita procesar la consulta SQL y traducirla a Java para crear el
ut
trabajo MapReduce.
it
Desde el botón upload podemos subir archivos que utilizaremos como fuentes de datos:
certificados.institutoeuropa.com
26 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
Crearemos la base de datos y la tabla que almacenara los datos desde aquí.
rt
ce
certificados.institutoeuropa.com
27 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
ut
Supongamos que hemos creado una tabla como esta. Los campos de la tabla deben de ser campos
it
importe
rt
ce
from presupuestos
order by importe
certificados.institutoeuropa.com
28 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Conclusión
Hive nos proporciona una herramienta para traducir queries del lenguaje tradicional SQL, que es ya
conocido por la industria, a los nuevos frameworks NoSQL en el ecosistema Hadoop. Hive es una
m
de la programación directa en frameworks NoSQL.
co
Si se utiliza un volumen de información muy extenso en un clúster de Hadoop y no se tienen
a.
nociones o fundamentos para programar MapReduce, Hive es perfecta para poder extraer la
op
información que se desee.
ur
Por ejemplo: oe
Si tenemos muchos archivos .log en un servidor y queremos extraer información en ellos sería
ut
difícil poder extraer información de forma fácil y rápida. Sin embargo, utilizando Hive, sería sencillo
it
crear una tabla extrayendo los datos de los ficheros y filtrando la información por ejemplo por líneas
st
Apache Hive.
ifi
rt
MapReduce.
ce
certificados.institutoeuropa.com
29 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Sqoop.
Sqoop es un programa que se ejecuta bajo línea de comandos y sirve para transferir datos entre
Hadoop y BD relacionales.
El nombre de esta aplicación surge de unir las palabras sql y hadoop. Pasó a ser un proyecto Apache
de nivel superior en 2012. Tiene una amplia documentación tanto para desarrolladores como para
usuarios.
m
co
Como ejemplo, Microsoft usa un conector que está basado en Sqoop para ayudar al traspaso de
a.
op
La API de Sqoop permite conectar con otras BD mediante el desarrollo de conectores y así poder
ur
adaptar y usar los lenguajes de consultas de otro proveedor de BD específico.
oe
¿Cómo funciona Sqoop?
ut
Sqoop trabaja como una capa intermedia entre las BD relacionales y Haddop tal y como se muestra
it
en la siguiente imagen.
st
s .in
do
ca
ifi
rt
ce
Apache Sqoop es una herramienta que fue diseñada para importar información desde bases de
datos estructuradas y sistemas Hadoop en el clúster Hadoop. Podemos utilizar Sqoop también para
certificados.institutoeuropa.com
30 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
Supongamos que tenemos una tabla empleados en MySQL:
co
a.
op
ur
oe
ut
it
st
.in
Una vez ejecutado tendremos nuestra tabla importada en el HDFS de hadoop listo para ser usado.
certificados.institutoeuropa.com
31 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Conclusión
Como hemos podido ver, Sqoop es una herramienta muy útil para trasladar una base de datos ya
Nos permite, mediante los comandos pertinentes, importar datos de nuestra BD relacional,
analizarlos y gestionarlos mediante otras herramientas como pueden ser Pig o Hive sobre Hadoop y
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
32 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Flume.
Flume es un servicio distribuido y fiable para recoger, agregar y mover grandes cantidades de
datos de log. Tiene una arquitectura simple y flexible de flujo de datos. Es robusto y tolerante a
fallos con mecanismo de confiabilidad ajustables y muchos mecanismos de conmutación por error y
recuperación. Utiliza un modelo de datos extensible que permite la aplicación analítica en línea. Esta
m
co
a.
op
ur
oe
Para usar Flume una vez lo tengamos instalado configuraremos de dónde obtendremos los datos:
ut
it
st
s .in
do
Vamos a transferir los datos de twitter. Una vez listado los componentes, tendremos que
describirlos:
ca
ifi
rt
ce
Ahora deberemos describir los “sink” que será donde almacenemos los datos:
certificados.institutoeuropa.com
33 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Deberemos describir el canal por donde se transferirá los datos entre la fuente de datos y los
“sink”:
m
Una vez configurado como hemos visto necesitaremos un accessToken que podemos crearlo desde
co
aps.twitter.com una vez creada nuestra aplicación rellenaremos los datos que nos faltaban y
a.
podremos empezar a recoger datos.
op
El archivo final twitter.conf sería algo así:
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Ejecutaremos Flume:
certificados.institutoeuropa.com
34 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
ut
Conceptos (1/2)
.in
Evento
ifi
Payload de bytes que Flume representa como unidad de datos y puede ser transportado
rt
Flujo
Cliente
certificados.institutoeuropa.com
35 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Agente
Proceso que tiene los componentes Flume como Fuentes (Source), Canales (Channels) y
Conceptos (2/2)
m
Fuente (Source)
co
a.
Implementación que es capaz de consumir eventos que se le entregan a través de un
op
mecanismo. La fuente, al recibir un evento, lo entrega a 1 o más canales.
ur
Canal (Channel) oe
Es donde, temporalmente, un evento es almacenado. Estos eventos son entregados a los
ut
canales por las fuentes que operan con el agente. Los eventos que están en los canales
it
Sumidero (Sink)
s
del flujo o hasta el destino final. Si el sumidero envía el evento hasta el destino final se
ca
certificados.institutoeuropa.com
36 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
37 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Spark Core.
Apache Spark es un framework de computación en cluster diseñado para una rápida computación.
Fue creada sobre Hadoop MapReduce y amplia el modelo MapReduce para usar de manera más
eficiente más tipos de cálculos que incluyen consultas interactivas y procesamiento de flujo.
m
co
a.
op
ur
oe
Fue desarrollada por la Universidad de California. Posteriormente, el código base fue donado a la
Apache Software Foundation que, desde entonces, se encarga de mantener dicho código. Permite
ut
una interfaz para programación de clusters con paralelismo de datos y tolerancia a fallos.
it
st
La base de la arquitectura para Apache Spark está en el Resilient Distributed DataSet (RDD) que
.in
es un multiset de ítems de datos, en modo solo lectura, distribuidos en un clúster de máquinas con
s
Como veremos en el apartado del tema siguiente (Spark 2.0), actualmente se recomienda para el
ca
Los RDDs de Spark son un conjunto de trabajo (Working Set) para los programas distribuidos que
ce
Apache Mesos.
Hadoop YARN.
certificados.institutoeuropa.com
38 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Por otro lado, para el almacenamiento distribuido, existen varias interfaces disponibles:
Cassandra.
Amazon S3.
m
OpenStack Swift.
co
Kudu.
a.
op
Ventajas Spark
ur
oe
Las mayores ventajas de Spark serían:
ut
Shell interactiva.
.in
Tolerancia a fallos.
s
Multi-lenguaje.
ca
certificados.institutoeuropa.com
39 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
oe
Componentes Spark
ut
it
Spark está basado en un núcleo o componente principal (Core) y sobre este Core hay varios
st
Spark SQL: Los datos están estructurados y podemos acceder a ellos e integrar Spark con
do
Spark MLlib: Biblioteca donde están alojados algoritmos clásicos de machine learning
ce
certificados.institutoeuropa.com
40 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Abstracción RDD
Un RDD (Resilient Distributed Dataset) es una abstracción de Spark que hace referencia a una
colección de elementos en memoria a través del cluster en particiones. Se pueden llevar a cabo
Cada partición hace referencia a un subconjunto de los datos y se asigna a cada nodo para que,
m
co
a.
op
ur
oe
ut
it
st
Primero tenemos que leer el archivo de entrada. El siguiente comando es utilizado para leer un
certificados.institutoeuropa.com
41 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Nuestro objetivo es contar las palabras de un archivo. Crearemos un mapa plano separando cada
linea en palabras flatMap(line ⇒ line.split(“”) después relleremos cada palabra como una clave
con el valor 1 usando la función map. Finalmente reduciremos esas claves añadiendo valores de
claves similares. El siguiente comando es usado para ejecutar la lógica de cuenta de palabras:
1)).reduceByKey(_+_);
m
Después de ejecutar el comando no tendremos ninguna salida ya que esto no es una acción sino
co
una transformación.
a.
Ahora aplicaremos la acción para almacenar la transformación en un directorio llamado output:
op
scala> counts.saveAsTextFile("output”)
ur
oe
Para ver la salida nos iremos a ese directorio y veremos que nos ha creado 3 archivos.
ut
Conclusion
ce
Spark, desde sus inicios, fue diseñado y desarrollado para poner solución a muchos problemas que
Existen bastantes proyectos reales en los que se ha utilizado y aplicado Spark con éxito y se ha
manifestado que ofrece una gran ventaja competitiva. Se ha convertido en la gran "novedad" en el
certificados.institutoeuropa.com
42 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
m
co
a.
op
ur
Comenzar Actividad oe
Relaciona los elementos de la columna Derecha con la columna Izquierda
ut
poner solución a
rt
ce
certificados.institutoeuropa.com
43 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Spark 2.0.
Apache Spark 2.0 trajo varios cambios a Apache Spark. La mayor actualización fue la usabilidad de
la API, soporte para SQL 2003, mejora de rendimientos y streaming estructurado. Esta versión
m
co
a.
op
ur
oe
Las principales novedades de Apache Spark 2.0 son:
ut
Más simple.
Estos cambios solo modificaron el funcionamiento interno del programa y dieron soporte a más
rt
Mejora de la velocidad
Una de las ventajas esenciales de Apache Spark 2.0 frente a sus versiones anteriores reside en la
velocidad, ya que, en esta nueva versión se utiliza una memoria caché integrada y se ha avanzado
La estimación de mejora de la velocidad de Apache Spark 2.0 frente a Apache Spark 1.0 y sus
certificados.institutoeuropa.com
44 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
permitieran, además de procesar los datos en tiempo real, que se pudiera combinar este
En esta versión 2.0 de Spark, escuchando a los desarrolladores, está disponible una API que permite
m
co
Para poder trabajar con esta API de Spark 2.0 es necesario que se configure un almacén de datos
a.
con funciones ETL.
op
Gracias a ellos, se podrá analizar los sitios web mediante consultas interactivas de una sesión
ur
determinada. oe
En esta versión, quedan unificadas en una única biblioteca las APIs DataFrame y Datasets.
ut
it
Spark 2.0 es 10 veces más rápido que Spark 1.6, en gran parte porque los desarrolladores han hecho
.in
Según los análisis realizados, se estima que la mayoría de los ciclos de un motor de datos se suele
ca
gastar en trabajos que no sirven para nada. Optimizar estos ciclos de CPU es un paso muy
Spark 2.0 está basado en la segunda generación del motor de datos Tungsteno, que se acerca
ce
mucho a un compilador. Aprovecha los registros para la escritura de datos de forma intermedia y
Flume
certificados.institutoeuropa.com
45 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Apache Spark
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
46 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
47 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Autoevaluación
Apache Hadoop…
m
Apache Hadoop es un framework de pago que permite escribir y ejecutar aplicaciones
co
en sistemas distribuidos para procesar grandes cantidades de datos.
a.
op
Apache Hadoop es una aplicación de software libre que permite escribir y ejecutar
aplicaciones en sistemas distribuidos para procesar grandes cantidades de datos.
ur
oe
Lucene…
ut
it
Nutch…
ce
certificados.institutoeuropa.com
48 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080712] BATCH PROCESSING.
Verdadero.
Falso.
m
co
Indica si la siguiente afirmación es verdadera o falsa: “Hadoop está inspirado en
a.
el proyecto de Lucene”.
op
ur
Verdadero.
oe
Falso.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
49 / 49
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Introducción
fácilmente explotar una forma limitada de procesamiento paralelo. Algunas aplicaciones pueden
estas unidades.
m
Apache pulsar es un sistema de mensajería de publicación de nivel empresarial desarrollado
co
originalmente en Yahoo y ahora se está desarrollando bajo la fundación Apache. En Yahoo, Pulsar ha
a.
estado en producción durante más de tres años.
op
ur
oe
ut
it
st
s .in
do
Este paradigma hace más simple el software y el hardware paralelo, ya que restringe la cantidad de
ca
El funcionamiento general es, dado un conjunto de datos (secuencia), sobre ellos se aplican
ce
canalizadas y se intenta reutilizar, de manera óptima, la memoria local del chip para minimizar
El Hardware puede utilizar el marcador para empezar un acceso directo a memoria (DMA) cuando
se conocen las dependencias. Eliminar la administración manual de DMA hace que el software sea
menos complejo.
En los años 80, fue explorado el Streaming Processing dentro de la programación de flujo de datos.
certificados.institutoeuropa.com
1 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
El Streaming Processing es un compromiso que está impulsado por un modelo que se centra en
datos y funciona perfectamente para aplicaciones GPU o DSP (Procesamiento de imagen, señal
digital,...).
Por otro lado, no funciona tan bien en aplicaciones que procesen datos con una forma de acceso
m
co
a.
op
ur
oe
Utilizar el Streaming Processing es, especialmente indicado y adecuado para aplicaciones que
ut
registros a la vez, sin esperar que haya que obtener resultados de los registros
s
anteriores.
do
procesan señales.
rt
para aplicaciones que procesen señales y donde los datos son producidos una vez,
son leídos una o dos veces y posteriormente no son vueltos a ser leídos.
certificados.institutoeuropa.com
2 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Por cada registro, el flujo es: Leer la entrada, ejecutar operaciones (funciones) sobre ella y escribir
la salida. Se pueden tener varias entradas y varias salidas, pero no está permitido que un registro de
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Objetivos
En esta unidad veremos cómo es el proceso de Streaming y algunas tecnologías muy útiles ligadas
a este.
Podemos destacar:
m
real-time.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
4 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
5 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Inicialmente, los ordenadores empezaron a utilizar un paradigma de ejecución secuencial. Las CPU
estaban basadas en SISD, es decir, solamente podían realizar una operación al mismo tiempo.
A la vez que crecieron las necesidades informáticas de la sociedad, el número de datos que había
que gestionar creció muy rápidamente. Por ello, hubo que buscar una forma alternativa de ejecutar
las operaciones y por ello surgió SIMD que es un paradigma de programación de ejecución paralela
m
que permitió la aplicación de una instrucción a varios registros de forma simultánea.
co
Streaming Processing es un paradigma de programación paralela ya que permite el procesamiento
a.
de datos de forma simultánea.
op
ur
oe
ut
it
st
s .in
do
ca
Este paradigma hace más simple el software y el hardware paralelo, ya que restringe la cantidad de
ifi
El funcionamiento general es, dado un conjunto de datos (secuencia), sobre ellos se aplican
ce
canalizadas y se intenta reutilizar, de manera óptima, la memoria local del chip para minimizar
El Hardware puede utilizar el marcador para empezar un acceso directo a memoria (DMA) cuando
se conocen las dependencias. Eliminar la administración manual de DMA hace que el software sea
menos complejo.
En los años 80, fue explorado el Streaming Processing dentro de la programación de flujo de datos.
certificados.institutoeuropa.com
6 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
fácilmente explotar una forma limitada de procesamiento paralelo. Algunas aplicaciones pueden
estas unidades.
m
El Stream Processing es el procesamiento de los datos sobre la marcha conforme son producidos o
co
recibidos.
a.
La mayoría de datos nacen como streaming continuo.
op
Antes del Stream Processing, los datos son a menudo almacenados en una base de datos, un
ur
archivo u otra forma de almacenamiento masivo. Las aplicaciones consultaran los datos o procesara
oe
los datos según necesite.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
7 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Spark Streaming.
Hadoop. Nos vamos a centrar en este punto en Spark Streaming que es la herramienta que nos
Una clave de Spark es que permite el procesamiento continuo y esto se logra a través del
m
co
Spark Streaming puede coger datos de un gran rango de fuentes (Incluso flujos que provengan de
Apache Flume, Amazon Kinesis, Apache Kafka o Twitter), así como también de dispositivos y
a.
sensores mediante sockets TCP.
op
ur
También es posible recoger datos que estén en sistemas de archivos (Amazon S3, HDFS).
oe
ut
it
st
s .in
do
ca
ifi
Principalmente, lo que Spark Streaming realiza es coger un flujo de datos continuo y transformarlo
rt
De forma interna, Spark Streaming guarda estos datos como una secuencia de RDDs. Un Rdd
Al ejecutar el Spark Core mandándole información mediante Spark Streaming, éste no se entera de
que está procesando un flujo de datos, sino que ejecuta de forma normal dicho procesamiento ya que
certificados.institutoeuropa.com
8 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Modelos de procesamiento
Spark Streaming puede soportar varios modelos que se corresponden con las semánticas que se
utilizan para procesar los flujos de datos. Estos flujos pueden ser procesador por alguno de los
siguientes modelos:
m
co
"Exactly Once"
a.
El procesamiento de cada elemento se realiza una sola vez.
op
"At most Once"
ur
oe
El procesamiento de cada elemento se realiza como máximo una vez aunque es posible que
El procesamiento de cada elemento se realiza como mínimo una vez. Esto hace que sea
No todos los tipos de fuentes soportan todos los modelos, hay que verificar dicha relación y verificar
ifi
Comenzar Actividad
certificados.institutoeuropa.com
9 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
El procesamiento de cada
elemento se realiza como máximo
una vez aunque es posible que no
llegue a ser procesado.
El procesamiento de cada
elemento se realiza una sola vez.
m
co
a.
Spark Streaming puede soportar varios modelos que se corresponden con las
semánticas que se utilizan para procesar los flujos de datos. Estos flujos pueden
op
ser procesador por alguno de los anteriores modelos.
ur
oe
ut
El modelo más sencillo de realizar, desde un punto de vista de procesamiento, es "at most once". Es
it
así ya que se acepta que, de forma ocasional, pueda perderse algún dato ya que lo importante es que
st
el flujo continúe. Por Ejemplo: En un stream de video, ocasionalmente se pierden paquetes y baja la
.in
calidad, pero lo importante es que el vídeo continúe y que no haya que empezar desde el inicio.
s
do
Bajo el modelo "at least once", existe la garantía de que, aunque falle algún nodo, no se perderán
datos ya que cuando el nodo esté recuperado se procesarán todos los datos para que no se vaya
ca
ninguno. Si tomáramos como ejemplo el streaming de vídeo anterior, bajo este modelo lo que
ifi
sucedería es que, al ejecutar todos los datos con buena calidad, se podría repetir algún pedazo
rt
Habitualmente, lo normal es escoger el modelo "exactly once" pero hay que tener cuidado ya que es
el que más recursos consume y puede ocasionarnos algún problema de desempeño ya que requiere
Vamos a crear un programa que cuente el número de palabras de un texto recibido de un servidor:
certificados.institutoeuropa.com
10 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
m
co
a.
op
ur
Una vez ejecutadas estas líneas en Spark deberemos de iniciar la computación.
oe
ut
it
st
.in
Programa completo:
s
do
ca
ifi
rt
ce
Podemos utilizar la herramienta netcat como servidor de datos usando el siguiente comando:
certificados.institutoeuropa.com
11 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Nc –lk 9999
En la terminal en la que tengamos abierto netcat escribiremos una línea de texto y la enviaremos. En
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
12 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Kafka.
Apache Kafka es una plataforma de streaming distribuido capaz de manejar una enorme cantidad
de eventos al día. Inicialmente concebida como una cola de mensajería, Kafka está basada en la
Como plataforma de steaming, Apache Kafka provee una baja latencia, tolerancia a fallos y es capaz
m
co
Apache Kafka es un sistema, particionado y replicado, de almacenamiento distribuido de
a.
tipo publicador/subscriptor.
op
ur
Estas características, además de la rapidez con la que ejecuta lecturas/escrituras hacen de Apache
oe
Kafka una herramienta perfecta para streams de información a gran velocidad y que deben
ut
Posteriormente, a finales de 2014, varios desarrolladores del proyecto inicial fundaron una nueva
s
do
Kafka ha sido y es utilizado por grandes empresas como Spotify, Netflix, Cisco Sistemas, Paypal,
ifi
Uber,...
rt
ce
certificados.institutoeuropa.com
13 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
mensajes.
Los procesos son denominados brokers y los subscriptores consumen los topics.
Para almacenar el estado de los brokers usan un protocolo que se base en Apache
Zookeeper y TCP.
m
Se puede programar en varios lenguajes: C++, Java, Python, Ruby,...
co
Tolerante a fallos y escalable.
a.
Está escrito en Scala.
op
Fue creado y desarrollador por LinkedIn.
ur
Se puede utilizar para procesar streams, trazas operacionales, servicios de
Gracias a la capacidad de Apache Kafka de escalar de forma masiva y a que es usado en estructuras
.in
Para realizar el seguimiento del rendimiento de Kafka, actualmente hay varios sitios de código
ca
Para empezar con Apache Kafka una vez lo tengamos descargado y descomprimido deberemos
rt
ce
bin/zookeeper-server-start.sh config/zookeeper.properties.
bin/kafka-server-start.sh config/server.properties
certificados.institutoeuropa.com
14 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
almacenamiento.
Por defecto Zookeeper escucha en el puerto 2181 y almacena los datos /tmp/zookeeper. Kafka
Kafka dispone de una API para construir consumidores y productores de mensaje. El productor
que vamos a crear indicará el servidor donde se está ejecutando Kafka y por donde escribimos los
m
mensajes:
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
El consumidor:
certificados.institutoeuropa.com
15 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
m
co
a.
op
ur
oe
ut
it
st
.in
Creamos el consumer indicando el host y el puerto donde está arrancado el broker. También se
s
del buffer:
ca
ifi
rt
ce
Levantamos el productor con el mensaje enviado para el topic “test” lo que va saliendo por el log
del consumer es el mensaje que nos llega por estar suscritos al topic.
certificados.institutoeuropa.com
16 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Comenzar Actividad
m
co
a.
Apache Kafka es una plataforma de streaming distribuido capaz de manejar una
op
enorme cantidad de eventos al día. Inicialmente concebida como una cola de
mensajería, Kafka está basada en la abstracción de un registro de log distribuido.
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
17 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
originalmente en Yahoo y ahora se está desarrollando bajo la fundación Apache. En Yahoo, Pulsar ha
m
co
a.
Apache Pulsar es una solución multi-tenant, de alto rendimiento para servicios de mensajería
op
servidor-servidor.
ur
Las principales características de Apache Pulsar son:
oe
ut
Almacenamiento en niveles.
rt
ce
certificados.institutoeuropa.com
18 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
En la siguiente imagen se puede ver un ejemplo de función Pulsar escrita en lenguaje Java:
Estas funciones son ejecutadas siempre que es publicado un mensaje en el tema de entrada.
m
Metas
co
El objetivo de las funciones Pulsar es crear, de una forma fácil, una lógica de procesamiento a
a.
cualquier nivel sin implementar un sistema vecino (Ej: Apache Storm).
op
Pulsar Functions es, en esencia, una plataforma de cómputo que queda a su disposición como
ur
parte de su sistema de mensajería Pulsar.
oe
ut
Simplicidad operativa.
s
do
ca
ifi
rt
ce
Modelo de programación
certificados.institutoeuropa.com
19 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Las funciones reciben información (mensajes) de uno o más temas de entrada y cada vez que se
recibe algún mensaje la función hace múltiples cosas sobre dichos mensajes como:
Apache BookKeeper
m
Incrementar un contador
co
a.
op
ur
oe
ut
it
st
s .in
do
Vamos a poner un ejemplo en el cual vamos a implementar un clásico contador de palabras usando
ifi
certificados.institutoeuropa.com
20 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Si escribiéramos esta función Pulsar en lenguaje Java utilizando el SDK que proporciona Pulsar
m
co
a.
op
Posteriormente implementarlo en su clúster Pulsar usando la línea de comandos así:
ur
oe
ut
it
st
.in
Apache Apex es una plataforma nativa de Hadoop que unifica el “stream processing” y el “batch
s
processing”. Esta plataforma procesa big data sobre la marcha de una manera que es escalable, con
do
Apache Apex fue desarrollada por la empresa DataTorrent bajo Apache License 2.0.
certificados.institutoeuropa.com
21 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Apache Apex fue posible gracias a que se introdujo YARN que trajo la opción de explorar cómo
m
podrían realizar "muchas cosas" los recursos distribuidos que manejan big data.
co
a.
Apache Apex es el primer motor nativo de YARN. Permite el manejo de gran volumen de datos por
op
lotes.
ur
Está preparado para generar el mayor valor posible a las empresas que trabajan con entornos donde
oe
se manejan gran cantidad de datos, de ahí que sea la solución de referencia para llevar los proyectos
La programación de la API de Apache Apex es sencilla ya que se puede utilizar Java o Scala. Esta API
st
hace posible que los usuarios puedan conectar cualquier función para procesar los eventos.
.in
Reutilización de código
s
do
No es necesaria una gran capacitación para que los desarrolladores puedan crear aplicaciones en
ca
Apex permite módulos reutilizables y utilizar la misma lógica de negocios para el lote y la
rt
transmisión.
ce
La arquitectura que utiliza Apex puede controlar la lectura/escritura en buses de mensajes, bases
de datos, sistemas de archivos u otras fuentes lo que permite una integración perfecta.
certificados.institutoeuropa.com
22 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
m
co
a.
Operabilidad
op
Apex está diseñado para mejorar la operatividad y no preocuparse por los fallos o la pérdida de
ur
información ya que Apex asegura este respaldo. oe
Con Apex la tolerancia a fallos es nativa de Hadoop y no hay que usar un sistema adicional para
ut
mantenerla.
it
Apex tiene construcciones de datos en movimiento que hacen posible que el flujo de datos esté
s
en millones de eventos/segundo usando un solo núcleo. Es una plataforma que se puede aprovechar
do
de manera fácil y es muy escalable ya que está basada en los estándares de seguridad de Hadoop.
ca
Por defecto, esta plataforma viene con soporte para servicios web y métricas. Esto hace que su
rt
utilización e integración sea fácil con los componentes actuales de la tubería de datos (pipeline).
ce
Los equipos de desarrollo pueden usar los sistemas y paneles existentes y monitorear los datos en
Con diferentes conectores y la posibilidad de agregar más, Apex es fácilmente integrable con un
certificados.institutoeuropa.com
23 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
m
co
a.
op
ur
Esta página nos dará un vistazo completo del estado de todo el sistema como el uso del procesador y
oe
de la memoria, las aplicaciones, el rendimiento, problemas… etc.
ut
Desde aquí podremos lanzar paquete de aplicación y administrar las tuplas de los esquemas para
.in
Apex nos provee unas cuantas aplicaciones ya creadas anteriormente que podemos ver aquí:
do
ca
ifi
rt
ce
Vamos a usar la aplicación WordCount Demo para ver como funciona. Le daremos a lanzar
certificados.institutoeuropa.com
24 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
m
co
a.
op
ur
oe
ut
Si clicamos en algún operador lógico, inspeccionaremos sus registros, incluso podremos registrar
certificados.institutoeuropa.com
25 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
m
co
a.
op
ur
Seleccionaremos una de las particiones y le daremos clic a “record sample”.
oe
Después de unos pocos segundos veremos como las tuplas se llenan, clicaremos en una tupla para
ut
ver su contenido. Como podemos observar del contenido, la aplicación ha realizado una cuenta de
it
Podemos detener esta aplicación clicando en el botón “shutdown” o “kill” de la página principal de
la aplicación.
certificados.institutoeuropa.com
26 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Comenzar Actividad
m
Apache Pulsar es:
co
Dispone de varios modos para
suscripción para temas.
a.
Apache Apex es una plataforma 3
nativa de Hadoop que unifica
op
ur
oe
Apache pulsar es un sistema de mensajería de publicación de nivel empresarial
desarrollado originalmente en Yahoo y ahora se está desarrollando bajo la
ut
fundación Apache.
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
27 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Como hemos podido ver a lo largo del curso podemos utilizar varias herramientas para procesar
nuestros datos en tiempo real gracias a herramientas como Spark y Apache Apex.
Un sistema real-time o en tiempo real es un sistema informático que interacciona con su entorno
físico y responde a los estímulos recibidos en un plazo de tiempo determinado. No basta que las
acciones ejecutadas por este sistema sean correctas, sino que tienen que ejecutarse en un tiempo
m
determinado, por lo general se habla de real-time cuando el sistema debe responder en un período
co
inferior a 100ms.
a.
Apache Spark como hemos podido observar en el curso recibía los datos de un servidor y acto
op
seguido los procesaba y nos mostraba la salida recibida. De esta manera estaremos recibiendo y
ur
procesando datos en tiempo real. oe
Las características principales de estos sistemas de tiempo real son:
ut
it
Procesamiento de señales.
ifi
rt
ce
certificados.institutoeuropa.com
28 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
negativo en el sistema.
m
Alta confiabilidad.
co
Tolerancia a fallos.
a.
Naturaleza concurrente.
op
Caracterización de tareas real-time.
ur
Administración de los recursos.
Predictibilidad.
oe
Gran interacción con el ambiente.
ut
Alto desempeño.
it
st
.in
Como ejemplo de sistema real-time podríamos poner el de un robot que tiene que coger una pieza
de una banda. Si el robot no llega a tiempo, no podrá coger la pieza ya que ésta no estará en el sitio
s
do
Por otro lado, si el robot llega con antelación a que la pieza lo haga, ésta aún no estará allí y el
ifi
Verdadero.
Falso.
certificados.institutoeuropa.com
29 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
30 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Autoevaluación
El Streaming Processing…
m
El Streaming Processing es una aplicación de computación que permite a algunas
co
aplicaciones fácilmente explotar una forma limitada de procesamiento paralelo.
a.
op
El Streaming Processing es un framework de computación que permite a algunas
aplicaciones fácilmente explotar una forma limitada de procesamiento paralelo.
ur
oe
Spark Streaming…
ut
it
Processing.
s .in
Kafka…
ce
certificados.institutoeuropa.com
31 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080713] STREAMING PROCESSING.
Verdadero.
Falso.
m
co
Indica si la siguiente afirmación es verdadera o falsa: “Apache Apex es una
a.
plataforma nativa de Hadoop que unifica el “stream processing” y el “batch
processing”.
op
ur
Verdadero.
oe
ut
Falso.
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
32 / 32
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Introducción
NoSQL (también llamado No solo SQL) es una gran clase de sistemas gestores de bases de datos
que son diferentes del modelo clásico SGBDR (Sistema de Gestión de Bases de Datos Relacionales)
ya que, principalmente, entre otros aspectos, no utilizan el lenguaje SQL como lenguaje principal de
consultas.
Los datos no necesitan estructuras fijas como tablas ni garantizan la atomicidad, consistencia,
m
aislamiento y durabilidad (ACID).
co
A menudo las bases de datos NoSQL son clasificadas según cómo almacenen los datos (Ej: Bases
a.
de datos de datos en grafos).
op
ur
oe
ut
it
st
s .in
do
En 1998, Carlo Strozzi usó la palabra NoSQL para hacer referencia a su base de datos.
ca
Esta base de datos era de código libre (open-source) y no usaba una interfaz SQL pero sí el modelo
ifi
relacional.
rt
ce
El término NoSQL fue reintroducido por Eric Evans, empleado de Rackspace, cuando Johan
Oskarsson, de Last.fm, quería organizar un evento para hablar sobre BBDD open-source. Se
intentaba recoger las bases de datos no relacionales y distribuidas que no garantizaban ACID que
certificados.institutoeuropa.com
1 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
El mayor crecimiento de las bases de datos NoSQL fue con las principales redes sociales existentes
a.
como Facebook, Twitter, Google, Amazon.
op
ur
oe
ut
it
st
s .in
do
Estas empresas se dieron cuenta que, debido a la gran cantidad de información que debían de
ca
procesar y proporcionar, era más importante el rendimiento y sus propiedades de tiempo real que
ifi
En este sentido, frecuentemente, las bases de datos NoSQL optimizan las operaciones de
ce
recuperación y agregación. Estas bases de datos tienen una gran ganancia en escalabilidad y
certificados.institutoeuropa.com
2 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Objetivos
Conocer la gestión de la información especializada de las diferentes bases de datos que se van
Conocer las bases de datos Hbase, Cassandra, MongoDB, Neo4J, Redis y Berkeley DB más
m
detalladamente.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
4 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Hbase.
Antes de comenzar con el sistemas NOSQL Hbase, vamos a hacer un breve repaso a la arquitectura
De forma típica, las bases de datos relacionales no han mostrado gran eficiencia en aplicaciones
que usen datos de forma intensiva, en la presentación de páginas en sitios que haya mucho tráfico o
m
en sitio de streaming audiovisual.
co
a.
Las implementaciones de SGBDR han sido enfocadas para cantidades pequeñas pero frecuentes de
op
lecturas/escrituras o para un conjunto grande de operaciones donde haya pocos accesos de
escritura.
ur
oe
Las bases de datos NoSQL pueden trabajar con gran cantidad de lecturas/escrituras.
ut
Las arquitecturas de bases de datos NoSQL aportan pocas garantías de consistencia. La mayoría
it
de sistemas NoSQL usan una arquitectura distribuida en la cual mantienen los datos en varios
st
servidores de forma redundante usando, normalmente una tabla hash distribuida, lo que permite la
.in
El lenguaje estándar no tiene por qué ser SQL: hay varios tipos de bases de datos NoSQL y
cada una con su lenguaje de consultas específico. En algunos casos el lenguaje es SQL pero
certificados.institutoeuropa.com
5 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
que incluye extensiones específicas para NoSQL. Esto facilita el acceso a estas bases de datos a
que se pueden añadir datos sin definir previamente el tipo de los mismos, como se hace en el
modelo relacional donde primero se define qué tipo de datos se van a guardar. Este hecho
facilita y mucho el tratar datos heterogéneos, son base de datos muy flexibles pero, por otro
lado, dificulta su programación haciendo que la gestión de los tipos de datos se haga
m
directamente en el código de los programas que acceden a la base de datos. Uno de los riesgos
co
de que el esquema quede implícito es que se compromete la independencia de los datos, uno de
los pilares sobre los que se sostiene el desarrollo de las bases de datos relacionales.
a.
Las propiedades ACID (ver apartado Teorema CAP mas adelante) de las transacciones
op
(Atomicidad, Consistencia, Aislamiento y Durabilidad) no siempre están garantizadas como
ur
ocurre en las bases de datos relacionales pero se hace con el objetivo de mejorar el
oe
rendimiento y aumentar la disponibilidad.
ut
Reducen problemas de falta de concordancia entre las estructuras de datos usadas en los
programas y las bases de datos. Es decir, el formato en que se guarda la información en las
it
st
bases de datos es cercano al formato utilizado en los programas que acceden a ella.
.in
Están diseñadas para crecer, es decir que sean escalables, generalmente de forma
copias idénticas de los datos en múltiples servidores. Se pueden ejecutar en máquinas con
pocos recursos y costes reducidos ya que no requieren mucha computación con lo que para
ca
aumentar el rendimiento se añaden más máquinas de bajo coste, es decir más nodos.
ifi
Por otro lado, las características de las aplicaciones que usan bases de datos NoSQL suelen ser las
siguientes:
certificados.institutoeuropa.com
6 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
El esquema de los datos es variable y es muy costoso de gestionar con bases de datos
relacionales. Como ejemplo, las aplicaciones que gestionan datos con múltiples orígenes y
m
potente ya que se utilizan más datos, los de la competencia, por ejemplo o los provenientes de
co
las redes sociales, por lo que difícilmente se puede implementar en una base de datos
relacional.
a.
Trabajan con grandes volúmenes de datos por ejemplo, las redes sociales.
op
Necesitan garantizar la disponibilidad y flexibilidad ya que por ejemplo, una tienda online fuera
ur
de línea o que tarda demasiado en atender a un cliente no realizará la venta. Estas situaciones
oe
son muy peligrosas y hay que evitarlas debido a la gran competencia existente en Internet.
ut
Tienen la necesidad de que los datos se procesen en tiempo casi real. Por ejemplo, en
aplicaciones de bolsa, los brókeres deben tener información fiable e inmediata, que les
it
st
Como se deduce, las Bases de datos NoSQL ofrecen otras opciones para unos escenarios de
s
do
aplicaciones específicos, es decir no todos los escenarios actuales pueden ser resueltos con una
Más correctamente debieran ser llamadas como NoREL (Not Only Relational) pero el término
rt
La gran fuerza de las bases de datos NoSQL reside en su diversidad, en el gran abanico de
soluciones que ofrecen. Cada una ofrece diferentes soluciones según el problema sea el coste, el
certificados.institutoeuropa.com
7 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
Bases de datos NoSQL vs Bases de datos relacionales
op
Las bases de datos relacionales se diferencian de las bases de datos NoSQL principalmente en los
ur
siguientes puntos: oe
No hay un modelo de datos único: El modelo relacional ofrece una visión uniforme de los
ut
datos, la relación, mientras que las bases de datos NoSQL engloban a muchos modelos de
it
qué datos hay, cómo se estructuran los atributos que poseen y cómo se relacionan. Eso no es
do
grafos, sistemas clave-valor etc... Las implicaciones de ello es que los modelos NoSQL no
ifi
en la base de datos. Es decir, como ya hemos visto el usuario o programa que maneja la base
ce
de datos es el encargado de interpretar y gestionar los datos. Por otro lado, la ventaja es que el
No suelen permitir operaciones JOIN (búsqueda de datos entre varias tablas) ya que al
manejar tan grandes volúmenes de datos el coste puede ser muy alto.
No utilizan el lenguaje SQL en general. Por ejemplo Cassandra utiliza CQL, MongoDB utiliza un
Las bases de datos relacionales están entre nosotros desde hace muchos años, lo que ha
facilitado la creación de estándares, por ejemplo, el lenguaje SQL. Esto aún no ha sido así para
certificados.institutoeuropa.com
8 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Aunque estas diferencias son ciertas para la mayoría de bases NoSQL, hay multitud de bases de
datos y cada una de ellas tiene funcionalidades distintas. Por tanto, se debería tomar lo dicho hasta
ahora simplemente como una guía general, que puede ser más o menos cierta dependiendo del
m
co
Como ya hemos visto, una de las características de las bases de datos NoSQL es que generalmente
a.
son distribuidas. Esta característica nos lleva a introducir dos conceptos fundamentales para
op
entender mejor tanto el funcionamiento como el ser capaces en un momento dado de para un
entorno o para las necesidades de una aplicación, elegir el sistema de bases de datos NoSQL más
ur
adecuado. El primer concepto es como se pueden distribuir las bases de datos, es decir que
oe
estrategias son las que se aplican de forma más común y el segundo concepto nos lleva al Teorema
ut
de CAP que nos explica la razón de los tipos de bases NoSQL que hay actualmente.
it
st
s .in
do
ca
ifi
rt
ce
Las bases de datos distribuidas son el resultado de combinar el concepto de base de datos y el
Una base de datos distribuida no es más que un conjunto de múltiples bases de datos (lógicamente
interrelacionadas) que están distribuidas en varios ordenadores. Estas bases de datos están
gestionadas por un software específico que hace la distribución de los datos transparente a los
usuarios. Es decir, los usuarios creen trabajar con una base de datos que es única, es decir se
certificados.institutoeuropa.com
9 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
El uso de sistemas distribuidos es útil por diversos motivos. En primer lugar, el procesamiento
España, se relaciona con la Ley Orgánica de Protección de datos. Dicha ley obliga a que todas las
compañías incluidas las extranjeras, que operen en España almacenen los datos relativos a los
usuarios de España en servidores que físicamente estén en España. En segundo lugar, un sistema
m
distribuido permite mejorar el rendimiento, la disponibilidad y la capacidad de crecimiento. El
co
rendimiento mejora debido al reparto de tareas entre los nodos. Por otro lado, si una situación de
a.
fallo causa que algún nodo no esté operativo, ello no significa que globalmente el sistema no lo esté.
op
Una plataforma de e-commerce por ejemplo, Amazon no puede estar caída durante horas, dado que
ur
eso implicaría una pérdida importantísima de ingresos y prestigio.
oe
Estrategias
ut
La fragmentación se basa en la idea de que las aplicaciones (y por lo tanto los usuarios), en
.in
general, no necesitan acceder a toda la base de datos, sino que están interesados en acceder a
s
acceso a los datos más apropiada para cada dominio de aplicación. Dicha unidad de se denomina
ca
fragmento y se convierte en la unidad de distribución entre los diferentes nodos que forman la base
La fragmentación horizontal (por filas) toma conjuntos de datos relacionados como unidad de
ce
distribución. Por ejemplo se podrían dividir los datos de oficinas en dos fragmentos, aquellos que
cumplan la condición superficie menor que 1500 y aquellos con superficie mayor o igual a 1500.
certificados.institutoeuropa.com
10 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
La fragmentación vertical (por columnas) consiste en usar grupos de atributos de los objetos y los
datos asociados a ellos como unidad de distribución. Por ejemplo dividir la relación Oficinas en
m
co
a.
op
La fragmentación híbrida combina la fragmentación horizontal y vertical.
ur
oe
ut
it
st
s .in
parte de los fragmentos en más de un nodo. Esto permite maximizar la disponibilidad de los datos
ca
pero es necesario garantizar la consistencia de las réplicas. La consistencia se refiere a que todas las
ifi
réplicas de unos mismos datos deben contener los mismos valores. La gestión de la consistencia de
rt
A través de una réplica destacada o primaria: se hacen los cambios en la primaria y luego
En consecuencia a la hora de implementar la distribución en una base de datos podemos optar por
usar:
certificados.institutoeuropa.com
11 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
distribuyen entre los diferentes nodos, pero ningún fragmento estará replicado.
Utilizar una combinación de ambas estrategias. Esta última acostumbra a ser la elección
FRAGMENTACIÓN REPLICACIÓN
m
+ Permite acceder a los datos donde se necesiten + Permite acceder a los datos donde se
necesiten
co
+ Incrementa la concurrencia y facilita el + Incrementa la disponibilidad de los datos
a.
paralelismo
- El rendimiento empeora cuando hay que + Mejora la eficiencia de las operaciones de
op
recuperar varios fragmentos de diferentes nodos consulta
- El control de los datos se puede complicar - La inserción y actualización de datos es menos
ur
eficiente
oe
- Todas las réplicas de un mismo objetos deben
ser idénticas
ut
Teorema de CAP
it
st
CAP. El profesor Eric Brewer introdujo el teorema CAP en una charla invitada de un congreso de
computación distribuida. Brewer comentó que las propiedades de un sistema distribuido son la
s
do
El teorema trata de las tres características que son deseables que un sistema distribuido pueda
ifi
Consistency
Availability
Cualquier petición recibe una respuesta no errónea, pero sin la garantía de que contenga la
certificados.institutoeuropa.com
12 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Partition Tolerance
El sistema sigue funcionando incluso si ocurre una "partición" entre dos nodos (los dos
garantizadas de forma simultánea. Es decir, el teorema CAP establece que es imposible garantizar
m
co
Dado que las bases de datos NoSQL están pensadas para trabajar en entornos altamente
a.
distribuidos, una exigencia es la capacidad de que el sistema, en conjunto, sea capaz de operar en
op
presencia de particiones. Por lo tanto, deben cumplir la propiedad P. Es imprescindible garantizar la
ur
la disponibilidad (la propiedad A) o la consistencia de los datos (la propiedad C).
oe
ut
Si se elige AP el sistema siempre está disponible, aunque temporalmente puede mostrar datos
it
Cassandra o Riak.
.in
Por el contrario, si se elige CP el sistema siempre contiene una visión consistente de los datos,
MongoDB o Hbase.
ca
Comentar que las bases de datos distribuidas relacionales son sistemas CA. Esto significa que la
ifi
calidad del servicio se puede ver comprometida cuando el sistema se particiona (es la P del
rt
teorema CAP).
ce
La última característica a examinar de las bases de datos NoSQL se relaciona con la gestión de
transacciones. Como ya hemos visto las bases de datos relacionales se basan en el modelo ACID.
Una transacción incluye un conjunto de sentencias SQL que verifica las propiedades de atomicidad,
certificados.institutoeuropa.com
13 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Atomicidad (A tomicity)
Una transacción u operación consiste en una serie de pasos que o bien se ejecutan todos o
ninguno.
Consistencia (C onsistency)
válido.
m
co
Aislamiento (I solation)
a.
Aislamiento (I solation). En un SGBD ocurren gran cantidad de transacciones
op
concurrentemente. El aislamiento asegura que estas no entran en conflicto las unas con las
ur
otras, las transacciones obtendrán el mismo resultado que obtendrían si se ejecutaran
oe
secuencialmente una por una.
ut
Durabilidad (D urability)
it
st
Durabilidad (D urability ) una vez realizada la transacción, persiste aun habiendo un crash en
.in
Soportar un modelo de transacciones ACID en bases de datos que almacenan grandes volúmenes
ca
de datos, que están distribuidas y con replicación de datos es complejo y puede causar problemas
ifi
de rendimiento.
rt
Además, y relacionado con el teorema CAP, las bases de datos NoSQL de tipo AP (es decir, las que
ce
priorizan la disponibilidad de los datos sobre su consistencia) se basan en el modelo BASE. Este
modelo trabaja con una noción de consistencia que se conoce como “consistencia final en el tiempo”
y que se relaciona con la existencia de réplicas. En este modelo se espera que, pasado un cierto
tiempo sin cambios en unas mismas réplicas, todas las réplicas converjan a unos mismos valores.
En el caso de conflictos que no puedan resolverse, se acepta que se puedan perder algunos datos.
Una de las características atribuidas a las bases de datos NoSQL es su versatilidad. Por ejemplo,
certificados.institutoeuropa.com
14 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
replica sets. Todas las escrituras sobre una réplica se realizan sobre la copia primaria y se propagan
de forma asíncrona y eficiente (según sus especificaciones) al resto de réplicas (las secundarias). Las
lecturas también se realizan sobre la copia primaria. En caso de fallo del master, se elige otro de
forma dinámica. A pesar de ello, MongoDB también permite que las aplicaciones puedan efectuar
lecturas sobre las copias secundarias. En este caso no se garantiza que las operaciones de lectura
m
Sistemas de bases de datos NoSQL
co
a.
Bajo el nombre NoSQL conviven principalmente 2 familias de modelos de datos: los modelos de
op
agregación y el modelo en grafo. Los modelos de agregación, a su vez, incluye tres modelos de
ur
oe
Comenzaremos hablando del modelo clave-valor, para el que el agregado es una caja negra. Este
modelo de agregación documental, donde los agregados son definidos mediante documentos,
it
generalmente en formato XML, JSON o similar. Finalmente trataremos con el modelo agregado de
st
columnas. Este modelo organiza los datos en primera instancia por filas y luego en columnas,
.in
permitiendo obtener una visión de los datos en forma de matriz, donde la clave permite identificar
s
los agregados y las características o propiedades del agregado se representan mediante columnas
do
[[[Elemento Multimedia]]]
ifi
Modelos de agregación
rt
ce
En estos modelos de agregación lo primero que hay que hacer es el diseño del agregado y esto esta
guiado por las necesidades del usuario y los requerimientos de la aplicación. Es decir, hay que
recoger cuál es la información relevante para el usuario y unirla en un objeto llamado agregado
Modelo clave-valor
El modelo clave-valor es el modelo más simple dentro de los modelos de agregación, dado que el
agregado constituye un par (clave, valor) es decir almacena los datos, valores identificados a través
certificados.institutoeuropa.com
15 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
de una clave. De esta forma el tipo de dato no es importante tan solo la clave y el valor que tiene
asociado. El sistema gestor de la base de datos desconoce la estructura interna asociada al agregado
lo que no significa necesariamente que el agregado no tenga estructura, sino que esta solo será
comprendida por los programas que manipulan los agregados. La clave de cada clase de agregado
puede tener un significado dentro del dominio que se va a modelar. Este sería el caso, por ejemplo,
m
co
a.
op
ur
oe
ut
it
st
s .in
do
Estas bases de datos son muy eficientes para realizar lecturas y escrituras y son muy fácilmente
ca
escalables a partir de su clave. Estas bases de datos son perfectas para entornos altamente
ifi
datos tan simple que proporcionan, que dificulta realizar consultas complejas sobre la base de datos.
rt
ce
Modelo documental
El modelo documental es una extensión del modelo clave-valor, donde el agregado recibe el nombre
de documento y tiene una estructura interna que es conocida por el sistema gestor de la base de
datos. Aunque los documentos puedan tener una estructura interna no es necesario definirla de
antemano, sino que será implícita y dependerá de cómo están estructurados los datos en los
documentos.
certificados.institutoeuropa.com
16 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
En consecuencia, distintos documentos que representen el mismo concepto del mundo real (por
ejemplo, los datos de dos personas) pueden tener estructuras totalmente distintas o variaciones de
la misma estructura. Esta estructura interna simplifica el desarrollo de aplicaciones, pero reduce la
flexibilidad del modelo clave-valor. La estructuración interna puede ser aprovechada por el sistema
gestor de la base de datos. Así, por ejemplo, los documentos se podrán recuperar mediante su clave
o mediante el valor que toman sus atributos. También es posible acceder a partes del documento y
crear índices que ayuden a recuperar eficientemente los documentos almacenados en la base de
m
datos. Los documentos se pueden agrupar en colecciones.
co
a.
op
ur
oe
ut
it
st
s .in
do
Modelo de columnas
ifi
Las bases de datos NoSQL que siguen el modelo de agregación orientada a columnas organizan los
rt
datos por filas que se guardan en tablas. Conceptualmente, podemos ver este modelo como un
ce
modelo bidimensional (una matriz), donde cada fila de la tabla representa un agregado y es
accesible a partir de una clave. Hasta ahora no hay ninguna novedad respecto a los modelos de
agregación vistos anteriormente. No obstante, en este modelo, los datos de los agregados (es decir,
cada una de las filas) se organizan en columnas. Un agregado en este caso es un conjunto de
columnas, donde cada columna está formada por una tripleta compuesta por el nombre de la
columna, el valor de la columna y una marca de tiempo que indica cuándo se añadió la columna en la
base de datos. Un conjunto de columnas puede agruparse en una nueva estructura, llamada
certificados.institutoeuropa.com
17 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Una familia de columnas tiene un nombre y una semántica muy definida. Habitualmente, dentro
de una agregación, una familia de columnas representa un concepto de la agregación. Por ejemplo,
entendiendo un estudiante como un agregado (fila), tres de sus familias de columnas podrían ser,
respectivamente, sus atributos personales, su domicilio y los estudios previos realizados por el
concreto a partir de su clave. Pero también es posible obtener información sobre una familia de
m
columnas para todos los agregados. Esto permite realizar búsquedas que pueden ser muy útiles en
co
según qué problemas.
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Modelos de grafo
Estos modelos permiten representar los datos utilizando estructuras de grafos. Un grafo es una
certificados.institutoeuropa.com
18 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Los nodos permiten representar objetos de la vida real y las aristas representan la relación entre
ellos. Los nodos serian el equivalente a las relaciones en el modelo relacional. Las aristas
m
representan relaciones entre objetos del mundo real y serían el equivalente a las claves foráneas en
co
el modelo relacional.
a.
op
Los tipos, propiedades y algoritmos sobre grafos se estudian en una rama de las matemáticas
denominada matemática discreta. El modelo en grafo es útil cuando los datos a almacenar tienen
ur
multitud de relaciones y cuando la importancia recae más en las relaciones entre los datos que en
oe
los datos en sí. En consecuencia, este tipo de bases de datos tiende a almacenar pocos datos de los
ut
objetos del mundo real pero muchos datos sobre sus interrelaciones, a diferencia de lo que
it
acostumbra a suceder en bases de datos relacionales, donde hay mucha información de los datos y
st
Hay distintos tipos de grafos en función de las características del grafo y de sus elementos. Los
modelos NoSQL en grafo no siguen todos los mismos modelos de grafo, no obstante el modelo más
utilizado es un modelo de grafo dirigido con propiedades de etiquetado. Bajo esta suposición, los
modelos en grafo están compuestos de nodos, aristas, etiquetas y propiedades. Los nodos y las
certificados.institutoeuropa.com
19 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
aristas se pueden etiquetar, se puede asignar una cadena de texto a los mismos para facilitar su
Es común que distintas relaciones compartan la misma etiqueta, ya que la etiqueta en las aristas se
utiliza para identificar el tipo de relación al que pertenecen. También es posible definir propiedades,
tanto a nivel de nodo como a nivel de arista. Las propiedades son parejas que se asignan a un
elemento del modelo. La clave es una cadena de caracteres, mientras que el valor puede responder a
un conjunto de tipos de datos predefinidos. Los modelos en grafo no son tan fácilmente escalables
m
como los modelos de agregación, ya que los datos están altamente relacionados, lo que implica que
co
distribuir los datos en diferentes ordenadores puede suponer eliminar relaciones entre los datos. Por
a.
este hecho, la distribución de datos en estos modelos es compleja. Un ejemplo de base de datos de
op
grafos es Neo4j.
ur
A continuación en esta gráfica se pueden ver características de algunas de las bases de datos
oe
NoSQL.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
20 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
21 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Sencillez en el escalamiento.
m
Desventajas de los Sistemas NoSQL
co
Las principales desventajas de usar sistemas NoSQL son:
a.
op
Soporte distinto al ser código open-source.
ur
Posible falta de madurez para algunas empresas. oe
Limitación en la inteligencia de negocios.
Problemas de compatibilidad.
it
st
.in
Como se comentó anteriormente, las bases de datos NoSQL habitualmente son definidas según el
tipo de datos con los cuales van a funcionar.
ca
En este sentido, en la siguiente imagen se pueden comprobar los diferentes tipos de bases de datos
NoSQL existentes y ejemplos de bases de datos de cada tipo:
ifi
rt
ce
Apache HBase es una base de datos distribuido no relacional de código abierto escrita en Java.
certificados.institutoeuropa.com
22 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
¿Qué es MongoDB? Fué creada en 2007 por la empresa 10gen, ahora MongoDB Inc. El nombre de
MongoDB proviene de “humongous” que significa enorme en inglés. MongoDB es una base de datos
m
co
a.
Apache HBase es una base de datos distribuida no relacional de código abierto escrita en Java. Su
op
desarrollo forma del proyecto Hadoop y se ejecuta sobre el HDFS de Hadoop, de esta manera nos
proporciona capacidades de estilo BigTable para Hadoop. Nos proporciona un sistema tolerante a
ur
fallos capaz de almacenar grandes cantidades de datos dispersos.
oe
ut
it
st
s .in
do
ca
ifi
rt
Hbase incluye operaciones de compresión en memoria y filtro de Bloom en cada columna. Las tablas
ce
de HBase pueden servir como entrada o salida para tareas MapReduce realizadas en Hadoop.
Podremos acceder a través de la API de en Java, con los API de conexión Avro y Thrift o como un
servicio REST. Hbase es un almacén de datos orientado a columnas de tipo clave- valor basado en
Hadoop y HDFS. Hbase no reemplaza las bases de datos SQL clásicas, aunque el proyecto Apache
Diferenciándose de las bases de datos relacionales tradicionales, Apache HBase da soporte a scripts
certificados.institutoeuropa.com
23 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
a particiones).
m
co
a.
op
ur
oe
Un poco de historia
ut
Apache HBase comenzó como proyecto de la empresa Powerset para dar solución al procesamiento
it
A finales de 2010, Facebook eligió Apache HBase para desarrollar su nueva plataforma de
mensajería.
ca
ifi
rt
ce
certificados.institutoeuropa.com
24 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Está diseñado para, a la vez que realiza sus funciones, escala cientos de nodos. Usa Amazon
trabajo de análisis de forma masiva paralelamente a los datos guardados en tablas de HBase.
m
co
Flexibilidad de modelo de datos
a.
Es un almacén de columnas anchas que permiten definir columnas arbitrarias para cada fila
op
con el fin de poder hacer filtros. Además pone un sello de tiempo en cada celda para poder
ur
acceder al historial de los datos. oe
Integración de Amazon EMR
ut
tiempo.
.in
Amazon EMR da la posibilidad de utilizar Amazon S3 para almacenar datos para Apache
ca
Apache HBase es una base de datos NoSQL que cada vez está viendo un mayor uso debido al uso
Su programación en Java es muy simple y permite escalar HBase muy fácilmente. Es muy
resistente y tolerante a fallos y puede utilizar gran variedad de tipos de datos por lo que es muy útil
Al ser una tabla orientada a columnas, hace muy fácil la búsqueda de datos correctos entre millones
certificados.institutoeuropa.com
25 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
de campos de datos.
HBase es perfecto para el procesamiento analítico de datos. También es perfecto para manejar
incluso a millones/segundo.
Facebook utiliza esta tecnología para aplicaciones de mensajería en tiempo real y Pinterest para
m
co
El esquema de los datos es variable y es muy costoso de gestionar con bases de
a.
datos relacionales. Como ejemplo, las aplicaciones que gestionan datos con
múltiples orígenes y formatos, un comparador de precios online.
op
Verdadero.
ur
oe
Falso.
ut
it
st
Su originalidad.
s
do
Su versatilidad.
ca
ifi
rt
ce
certificados.institutoeuropa.com
26 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Cassandra.
arquitectura distribuida de Apache Cassandra está basada en una serie de nodos iguales que se
m
co
a.
op
ur
oe
Cassandra nos ofrece un soporte robusto para varios centros de datos, utilizando la replicación
ut
Las claves primarias de cada tabla tienen un componente inicial que es la clave para esta partición.
.in
Dentro de la partición, las filas son agrupadas por las columnas restantes de la clave.
s
do
Las tablas de Cassandra se pueden crear, eliminar y modificar en tiempo de ejecución sin bloquear
ca
Cassandra nos ofrece un soporte robusto para varios centros de datos, utilizando la
replicación asíncrona sin necesidad de un servidor maestro.
Historia
certificados.institutoeuropa.com
27 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
búsqueda en el inbox.
En 2008 pasó a ser un proyecto de código libre (open-source) para pasar, a principios de 2010, a
El nombre de esta base de datos NoSQL está inspirado en la sacerdotisa de la mitología Griega
Cassandra, que tenía el don de la profecía y fue la encargada de prever el engaño del caballo de
m
Troya.
co
a.
op
ur
oe
Arquitectura y características
ut
configurarse.
st
.in
reparte en los nodos del cluster. A su vez ofrece una alta disponibilidad haciendo
do
añadimos nodos.
ifi
Tiene una arquitectura peer-to-peer, lo que hace que se eliminen los puntos de
Cualquier nodo puede ejercer como coordinador de una consulta y es el driver el que decide cual
nodo es el coordinador.
Los nodos están repartidos de forma equitativa en el rango de tokens -263 a 263.
certificados.institutoeuropa.com
28 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
it
st
Fuente: datastax.com
s .in
Lenguaje CQL
do
CQL (Cassandra Query Language) es el lenguaje para el acceso a los datos en Cassandra y es un
ca
derivado de SQL.
ifi
rt
Para interactuar con Cassandra mediante CQL utilizamos la shell de CQL llamada cqlshell. También
ce
certificados.institutoeuropa.com
29 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
Probemos Cassandra en una máquina virtual
op
Vamos a probar Cassandra DataStax mediante una máquina virtual "out-of-the-box" con la última
ur
versión de Cassandra y podemos añadirla a VirtualBox o VMWare.
oe
Para poder probarlo deberemos de descargar el archivo "Cassandra OVA" e importarlo a nuestro
ut
sistema de visualización. Para poder acceder a la máquina virtual es necesario configurar el acceso
it
en red.
st
Cuando hayamos instalado la máquina virtual, al arrancar tendremos la dirección IP por la que
.in
certificados.institutoeuropa.com
30 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
Fuente: geekytheory.com
it
Para este ejemplo, la IP que tenemos asignada es 192.168.159.160, por lo que, voy al navegador y
st
Fuente: geekytheory.com
certificados.institutoeuropa.com
31 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
En la imagen podemos ver una consola con el superusuario de la máquina y otra consola con la
interfaz cqlsh.
En la interfaz cqlsh podemos probar las sentencias que deseemos para administrar y usar la base
de datos.
Vamos a comenzar creando el keyspace, que hace referencia al lugar donde se guardan todos los
m
co
a.
Ahora vamos a ejecutar la siguiente consulta:
op
ur
oe
Y el resultado sería:
ut
it
st
.in
Fuente: geekytheory.com
rt
Si queremos obtener más información sobre esta tabla usuarios que acabamos de crear, habría
que ejecutar:
certificados.institutoeuropa.com
32 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
Si ahora ejecutamos:
oe
ut
it
Fuente: geekytheory.com
certificados.institutoeuropa.com
33 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
Cassandra no lee nunca antes de escribir, por lo que al hacer UPDATE o INSERT, se
co
sobrescribirá las columnas de una entrada y no importará los datos que previamente hubiera
a.
almacenados.
op
ur
oe
Ejecutamos la siguiente consulta:
ut
it
st
s .in
do
ca
Para comprobar que la consulta anterior se ha ejecutado correctamente y el usuario ha sido borrado
Fuente: geekytheory.com
certificados.institutoeuropa.com
34 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Conclusión
Cassandra es una solución ideal para muchos casos del mundo Big Data.
De forma ideal habría que tener claro, desde un principio, el uso y el tipo de consultas que
vamos a hacer para que el diseño de la base de datos sea lo más coherente posible.
m
De esta manera, podremos manejar un volumen de datos muy grande y aprovechar las ventajas
co
de esta base de datos NoSQL.
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
35 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
MongoDB.
¿Qué es MongoDB?
Creada en 2007 por la empresa 10gen, ahora MongoDB Inc. El nombre de MongoDB proviene de
“humongous” que significa enorme en inglés. MongoDB es una base de datos NoSQL de software
operativos Linux, Windows, Solaris etc…. Si recordamos el teorema CAP de la unidad anterior,
m
MongoDB es una base de datos NoSQL CP, es decir contiene una visión consistente de los datos
co
frente a la disponibilidad de las particiones. Es una de las bases de datos NoSQL más populares.
a.
Como características importantes cabe destacar:
op
ur
Almacenamiento orientado a documentos BSON, un formato binario de documentos JSON.
oe
Replicación maestro-esclavo y alta disponibilidad.
Soporte de índices.
ut
Escalabilidad horizontal.
.in
GridFS, que permite almacenar ficheros de cualquier tamaño sin necesidad de complicar el
s
do
entorno.
los 16 MB. Con GridFS en lugar de almacenar un fichero en un único documento se divide este
ce
Es importante destacar que es una base de datos orientada a documentos, es decir almacena la
información en documentos BSON, formato binario de JSON lo que aporta dinamismo y flexibilidad.
certificados.institutoeuropa.com
36 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
Otra característica importante es que los documentos de una misma colección, este concepto es
op
similar a una tabla de una base de datos relacional, no tienen por qué tener el mismo formato o
ur
oe
{Nombre: "Enrique",
ut
Edad: 32,
.in
Amigos: [
ca
{Nombre: "Luis",
certificados.institutoeuropa.com
37 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Amigos: 12
Esta situación no es posible en una misma tabla de una base de datos relacional
MongoDB sigue un modelo de datos de agregación orientado a documentos. Las consultas se hacen
m
pasando como parámetros documentos JSON, por ejemplo:
co
db.Clientes.find({Nombre:"Ana"});
a.
op
Devolverá todos los documentos cuyo nombre sea Ana.
ur
MongoDB viene de serie con una consola muy potente en la que podemos ejecutar los comandos
oe
pero necesitamos abrir un terminal para cada sesión iniciada en MongoDB y podemos perder los
resultados fácilmente. Para evitar esto existen herramientas con las que podemos administrar de
ut
forma gráfica y fácil MongoDB. Además la interfaz de MongoDB no es nada atractiva. Una de estas
it
herramientas, fácil de instalar y usar es RoboMongo que toma la Shell de MongoDB y la integra en
st
¿Dónde es útil usar MongoDB? Cualquier aplicación que necesite almacenar datos semi
rt
estructurados. Es muy útil en entornos que necesiten escalabilidad ya que es relativamente fácil
ce
cantidades de datos complejos, por ejemplo aplicaciones como un blog que tiene post, comentarios
https://descargar.freedownloadmanager.org/Windows-PC/MongoDB/GRATIS-5.0.2.html
certificados.institutoeuropa.com
38 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
La recomendación desde aquí es bajar una versión anterior a la actual por estabilidad de la
versión, así que bajaremos la versión 3.0.12. No es necesario registrarse aunque pueda parecer que
m
co
a.
op
ur
oe
ut
Haciendo clic en “Complete” se nos muestra la siguiente pantalla donde haremos clic en “Install”
certificados.institutoeuropa.com
39 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
Y el programa inicia la instalación.
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
40 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Finalizada la instalación.
m
co
a.
op
ur
Una vez tenemos instalado MongoDB vamos a descargar Robomongo, la interfaz gráfica que vamos a
oe
usar para manejar MongoDB por ser bastante más amigable. Descargamos la última versión de
ut
https://robomongo.org/download
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
41 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
Aceptamos las condiciones.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
42 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
muestra.
m
co
a.
op
ur
oe
ut
Donde seleccionamos la carpeta para los accesos directos y hacemos clic en “Instalar”.
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
43 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
Una vez completada la instalación vamos a configurarlo para que todo funcione correctamente.
ur
Verificamos que se ha creado el directorio C:\data\db Si no está, lo creamos. Vamos ahora a iniciar
oe
MongoDB que es una aplicación que escucha por el puerto 27017. Para ello:
ut
Abrimos una sesión de Símbolo de Sistema, cmd y nos movemos al directorio de instalación de
it
st
En este directorio hay varios programas y ficheros y entre ellos, dos son los que interesan.
ifi
certificados.institutoeuropa.com
44 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
it
st
Como se ve, el programa mongod.exe se queda a la espera de conexiones por el puerto 27017.
.in
Una forma de verificar que MongoDB está funcionando es abrir una sesión de un explorador e
s
do
Como vemos está funcionando correctamente. Una vez está funcionando correctamente MongoDB
certificados.institutoeuropa.com
45 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Con la interfaz de Robo 3T. Arrancamos Robo 3T haciendo clic en el icono de acceso directo o
m
co
a.
op
ur
oe
ut
it
completamos con lo que queramos y hacemos clic en Test para verificar que está correcto.
certificados.institutoeuropa.com
46 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
Como está todo correcto hacemos clic en Save. oe
ut
it
st
s .in
do
ca
ifi
rt
ce
directorio bin del directorio de instalación de MongoDB \mongodb\bin hay que ejecutar el
programa mongo.exe.
certificados.institutoeuropa.com
47 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
MongoDB.
ca
ifi
rt
ce
Comentar solo que al insertar documentos en una colección, MongoDB crea de forma automática un
campo clave primaria _id. Esta clave, por defecto numérica la podemos indicar al crear el documento
porque nos sea más útil así o dejar que la propia base de datos la cree.
Dentro de RoboMongo vamos a crear una base de datos. Con el botón derecho del ratón en la
certificados.institutoeuropa.com
48 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
it
Le asignamos un nombre y hacemos clic con el botón derecho en la nueva base de datos para crear
st
Insert Document.
certificados.institutoeuropa.com
49 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
Y se mostrara la ventana para añadir un nuevo documento.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
Creamos un documento JSON siguiendo el formato que vimos en la unidad anterior. Imaginemos
ifi
que queremos añadir películas con los campos título, fecha estreno, sinopsis, director, productora,
rt
protagonistas etc...
ce
certificados.institutoeuropa.com
50 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
Hemos creado un subdocumento, protagonista dentro del documento principal película. Hacemos
ur
clic en Validate y nos muestra “JSON is valid!”. Si hay algún error nos indica la descripción del
oe
error y la línea donde se produce. Probar por ejemplo a eliminar una coma. Si lo insertáramos
ut
"llopez@gmail.com", psw: "llopez", oferta: 8}, {email: "ggomez@gmail.com", psw: "ggomez", oferta:
7, } ] }
ca
ifi
db.items.insert (registro)
ce
Donde ítems es el nombre de la colección y donde db es la base de datos que la seleccionamos como:
use Pruebas
Podemos añadir el campo de la clave primaria que queramos indicar porque nos convenga con lo
registro ={ _id:”producto1”, descripcion: "Mando xBox negro”, precio: 10, tags: ["consolas", "xbox",
certificados.institutoeuropa.com
51 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
"entretenimiento"], ……}
db.items.insert (registro)
registro ={ _id:1, descripcion: "Mando xBox negro”, precio: 10, tags: ["consolas", "xbox",
"entretenimiento"], ……}
m
db.items.insert (registro)
co
Veámoslo en la consola de MongoDB:
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
52 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
O haciendo doble clic en la colección donde queremos añadir el documento nuevo. Escribimos la
ut
sentencia como si fuera la consola de MongoDB y hacemos clic en play, botón flecha verde superior.
it
st
s .in
do
ca
ifi
rt
ce
db.items.save({descripcion:"PRUEBA",precio:50})
db.items.save({_id:120,descripcion:"PRUEBA",precio:50})
Si no indicamos la clave primaria, MongoDB no sabe exactamente que registro actualizar por lo que
certificados.institutoeuropa.com
53 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
en este caso,
db.items.save({descripcion:"PRUEBA",precio:50})
Insertará un registro nuevo siempre. En el segundo caso que si indicamos la clave primaria, lo
m
co
a.
op
El comando save devuelve un mensaje indicando que ha actualizado un nuevo registro es decir ha
ur
sido añadido.
oe
La diferencia entre realizar un insert o un save es que con un insert siempre debemos insertar un
ut
nuevo documento ya que si insertamos uno cuya clave primaria ya exista se producirá este error.
it
st
s .in
do
ca
No nos devuelve ningún error pero nos indica que ha actualizado un registro existente. Esta es la
certificados.institutoeuropa.com
54 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
db.items.remove({})
Por ejemplo
m
co
a.
op
La sintaxis para eliminar una colección, en este caso la colección items:
ur
db.items.drop() oe
La sintaxis para eliminar una base de datos, por ejemplo la actual:
ut
db.dropDatabase()
it
st
Actualizar un registro en Robomongo es muy fácil. Con el botón derecho del ratón hacemos clic en
.in
el documento que queremos modificar, se abre en modo edición, modificamos el campo que
s
Por ejemplo:
certificados.institutoeuropa.com
55 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Donde db es la base de datos actual e ítems es la colección donde está el documento a actualizar.
Buscamos el registro a actualizar, por la clave primaria por ejemplo y actualizamos el campo estado
m
y precio tal y como indica la instrucción $set. En este parámetro $set también podemos indicar
co
tanto los campos que queremos modificar como campos nuevos que queramos añadir. Sin distinción,
a.
si existe lo actualizará y si no existe lo creará.
op
Un parámetro interesante del comando update es “upsert”. Por defecto es false pero si lo ponemos
ur
a true lo que hace es que si el registro a actualizar o existe lo inserta con los datos que le pasemos:
oe
ut
it
st
.in
Otro parámetro útil del comando update es “multi” Por defecto es false pero si lo ponemos a true
s
actualizara todos los documentos que se obtengan de la query. Por defecto es decir false, solo
do
Otros parámetros:
certificados.institutoeuropa.com
56 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
documento.
co
$pop Elimina el primero o $pop:{secciones:1} para el último o $pop:{secciones:-1}
último valor. para el primero
a.
$pull Elimina los valores $pull:{secciones:`jQuery’}
de un array que
op
cumplan con el filtro
indicado.
ur
$pullAll Elimina los valores $pullAll:{secciones:[‘Haskell’.’Go’]}
oe
especificados.
$push Agrega un elemento. $push:{secciones:{$each:[‘Haskell’,’Go’,’ActionScript’]}}
ut
existen ya.
st
.in
Los índices en MongoDB se crean como índices B-Tree o Arbol-B es decir, que si se crea un índice
sin especificar de qué tipo es, la base de datos lo creara de tipo B-Tree. La estructura de un índice B-
Tree tiene la forma de un árbol invertido. Generalmente los índices B-Tree tienen uno o más
niveles. Cada rama de un nivel contiene información sobre otras ramas del nivel inmediatamente
inferior. La estructura B-Tree se diferencia de otras estructuras tipo árbol en que cada nodo puede
certificados.institutoeuropa.com
57 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
MongoDB genera los índices en forma de árbol invertido B-Tree, es decir los datos los guarda en
ur
forma de árbol según los índices creados lo que incrementa considerablemente la velocidad de
oe
búsqueda y también la velocidad a la hora de devolver los resultados y además es capaz de recorrer
ut
Para mejorar la eficiencia de los índices se recomienda que tengan una cardinalidad alta.
st
Expliquemos primero que es la cardinalidad en este contexto. Para ello imaginemos un diccionario
.in
de palabras, es fácil encontrar una palabra porque cada palabra es única y están además en orden
s
alfabético. Pero ahora imaginemos que el diccionario esta agrupado por las primera letra de cada
do
palabra, de a habrá centenas y de m también y para buscar hueco tendríamos que buscar la h,
ca
sencillo al estar agrupado por la primera letra pero leeríamos cada palabra de la letra h para poder
ifi
Exactamente en esto consiste la cardinalidad, cuantos más valores únicos tengan los campos o
ce
atributos que conforman el índice más óptimo y eficiente será. Si uno de los datos que guardamos es
la edad, puede que no sea un campo adecuado para un índice ya que habrá muchos de 29, 43 o 38
años pero si creamos un campo en los documentos que sea rango de edad, de 20 a 30, de 30 a 40
Los índices se definen a nivel de colección. Por defecto, para cada colección, siempre se crea un
índice único sobre su clave primaria, es decir, sobre el campo _id. Como ya hemos visto, esto evita
que se puedan dar de alta en una colección dos documentos con el mismo identificador.
certificados.institutoeuropa.com
58 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Los índices en MongoDB pueden clasificarse según el número de campos indexados en:
m
co
a.
op
ur
Estos pueden ser únicos y sparse. Será único si con ese índice se identifica de forma unívoca un
oe
documento y será sparse si los documentos que indexa tienen al menos un campo del índice; si no
tienen ningún campo del índice no será indexado el documento. Si tenemos una colección de
ut
documentos que tiene los campos (descripción corta, descripción larga, edad, dirección, ciudad,
it
país) y creamos un índice por descripción corta y país los documentos que contengan al menos uno
st
de esos dos campos serán indexados con el índice, pero aquellos que no contengan ni descripción
.in
Ya hemos visto que MongoDB utiliza índices para optimizar el acceso a datos, se definen a nivel de
ca
colección y por defecto siempre se crea un índice como clave primaria “_id” que podemos crear
certificados.institutoeuropa.com
59 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
db.items.ensureIndex({"descripcion":1})
db.items.ensureIndex({"descripcion":1,"estado":1})
m
co
a.
op
ur
oe
Y una vez ejecutado con clic en el botón fecha verde superior:
ut
it
st
s .in
do
ca
ifi
Una consideración importante acerca de los índices es que no porque tengamos índices todas las
consultas van a ir más rápido. Las más eficientes serán aquellas donde los campos consultados y
devueltos estén incluidos en el índice, es lo que se denomina una consulta totalmente cubierta. Por
ejemplo, en el índice anterior, (descripción, estado) si en la consulta buscamos por los campos
descripción y estado preguntamos entre otros por descripción y búsqueda, estaríamos ante una
Para preguntar por los índices de una colección en este caso Items, basta con:
certificados.institutoeuropa.com
60 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
db.Items.getIndexes()
db.items.dropIndexes()
m
Otra consideración importante acerca de los índices es cómo podemos crear índices en
co
subdocumentos o documentos incrustados. Por ejemplo, imaginemos este documento:
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
Este documento contiene dos documentos incrustados, info y domicilio y cada uno con su
rt
información. ¿Cómo haríamos para crear un índice sobre el campo Ciudad? De esta forma:
ce
db.coleccion.ensureIndex ({“domicilio.Ciudad”:1})
anteponiendo al campo el nombre del documento incrustado al que pertenece. Si fuera compuesto:
db.coleccion.ensureIndex({“empresa”: 1, “domicilio.CP”:1})
O:
certificados.institutoeuropa.com
61 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
db.coleccion.ensureIndex({“info.nombre”: 1, “domicilio.Comunidad”:1})
m
co
a.
op
ur
Tiene un documento incrustado info y un array donde se guarda la información de los deportes que
oe
practica. ¿Cómo creamos un índice sobre el campo deportes? De la siguiente forma, como si fuera un
ut
db.coleccion.ensureIndex({“deportes”:1})
s .in
do
ca
ifi
rt
ce
Solo tiene una restricción la creación de un índice con campos tipo array y es que en un índice solo
uno de los campos puede ser un array. Si creamos un índice donde dos o más de los campos son de
Un plan de ejecución es una utilidad que proporcionan las bases de datos para conocer y analizar si
los índices están funcionando correctamente. Estos presentan una descripción con los pasos que
realiza el motor de base de datos para realizar la consulta usando ese índice. Es algo muy útil ya que
certificados.institutoeuropa.com
62 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
no solo permite saber cómo de eficiente es una consulta, un índice sino que permite conocer cómo
podemos incrementar la velocidad de las mismas algo muy importante a la hora de diseñar e
db.coleccion.find().explain
Donde db es la base de datos actual y colección es la colección donde queremos analizar los índices.
m
co
Veamos un ejemplo, el resultado de aplicar explain a dos consultas, la primera sin índice y la
a.
segunda con índice:
op
ur
oe
ut
it
st
s .in
do
ca
certificados.institutoeuropa.com
63 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
En la consulta con índice: stage= IXSCAN: ha recorrido por un índice, y en index_name vemos
s
que es indice_precio_estado.
do
ca
Y sobre todo en la primera imagen no ofrece ninguna información acerca de índices ni similar
ifi
mientras que en la segunda imagen vemos información acerca de cómo está estructurado y definido
rt
el índice.
ce
Los parámetros que se pueden usar con el comando explain principalmente son:
db.items.find({precio:300, estado:"vendido"}).explain()
tanto del planificador de consultas como de la ejecución del plan elegido. Por ejemplo:
certificados.institutoeuropa.com
64 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
db.items.find({precio:300, estado:"vendido"}).explain("executionStats")
db.items.find({precio:300, estado:"vendido"}).explain("allPlansExecution")
Un apunte en este apartado es que de vez en cuando es conveniente reconstruir los índices, como
refrescarlos, sobre todo si ha habido muchas modificaciones y esta operación se realiza con:
m
co
db.coleccion.reIndex()
a.
Como conclusión comentar que MongoDB ofrece una potente estructura de índices y que si son
op
usados de la manera correcta, como hemos visto, optimizan mucho el rendimiento de MongoDB y
ur
este hecho es fundamental de cara al éxito de una aplicación que use MongoDB.
oe
Ventajas e inconvenientes de la creación de índices
ut
Ventajas
it
st
● En entornos con gran cantidad de lecturas, debido al punto anterior, reduce la carga (CPU) del sistema
s
do
Inconvenientes
ca
● Los índices ocupan espacio en disco, y lo que es más importante, en memoria principal (RAM), si se disponen de
ce
db.getCollection('peliculas').find({duracion: 105})
Donde ‘películas’ es el nombre de la colección y entre {} en find es el campo y valor por el que
certificados.institutoeuropa.com
65 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
Otra sintaxis que produce el mismo resultado es:
a.
db.peliculas.find({duracion: 105})
op
ur
Si quisiéramos obtener las películas con una duración menor que 120 la sintaxis sería
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Señalar también que están disponibles funciones de agregación como count(), distinct() o
db.items.find({estado:"vendido"}).count()
certificados.institutoeuropa.com
66 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
db.items.distinct("descripcion")
m
co
a.
op
ur
oe
ut
Comenzar Actividad
it
planificador de consultas y
devuelve la información sobre el
ce
plan ganador.
certificados.institutoeuropa.com
67 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Neo4J.
Neo4j es un software libre de Base de datos orientadas a grafos. Neo4j es descrito como un motor
m
co
a.
op
ur
oe
ut
Una base de datos orientada a grafos nos ayudan a encontrar relaciones y dar sentido al puzle
it
st
completo.
.in
Grafos no dirigidos
ifi
Los nodos y las relaciones son intercambiables, su relación se puede interpretar en cualquier
rt
dirección.
ce
Grafos dirigidos
Los nodos y las relaciones no son bidireccionales. En twitter por ejemplo son así, un usuario
En este tipo de grafos las relaciones entre los nodos tienen un valor numérico.
certificados.institutoeuropa.com
68 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Estos grafos llevan incorporadas etiquetas que pueden definir los vértices y sus relaciones.
Grafos de propiedad
Es una unión entre los grafos con pesos y los grafos con etiquetas donde podemos asignar
m
co
Neo4j utiliza grafos de propiedad para sacar mayor valor de los datos de cualquier empresa de una
a.
op
Esta sería el aspecto de una base de datos Neo4J:
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
69 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Estas bases de datos tienen mejor rendimientos que las relacionales y las NoSQL.
Rendimiento
El rendimiento de las bases de datos orientadas a grafos, como es el caso de Neo4j, es mejor que
Esto es debido a que, aunque crezcan muchísimo las consultas, el rendimiento no desciende en
m
co
Estas bases de datos orientadas a grafos funcionan actualizando el nodo y sus relaciones y no todo el
a.
grafo al completo permitiendo optimizar mucho el proceso.
op
Shutl, plataforma que coordina las entregas entre compradores, tiendas y mensajerías en Ebay Now
ur
utiliza Neo4j y Volker Pacher, desarrollador en Ebay, explica con datos el cambio que supuso pasar
oe
de MySQL a Neo4j: "Nuestra solución Neo4j es literalmente mil veces más rápida que la solución
anterior MySQL, con búsquedas que requieren entre 10 y 100 veces menos código".
ut
it
Agilidad
st
.in
La agilidad en la gestión de datos es una de las muchas ventajas que tiene Neo4j. Si quisiéramos
poner al límite las capacidades de Neo4j, habría que superar un volumen de nodos superior a 34.000
s
do
millones, 34.000 millones de relaciones entre dichos nodos, 68000 millones de propiedades y 32000
tipos de relaciones.
ca
ifi
Escalabilidad y flexibilidad
rt
Las bases de datos orientadas a grafos (BDOG) aportan mucha escalabilidad y flexibilidad ya que
ce
si crecen las necesidades, es posible añadir más nodos y relaciones a un grafo y esto precisamente
es lo que buscan los desarrolladores de las empresas cuando trabajan con gran volumen de datos.
certificados.institutoeuropa.com
70 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Neo4j permite unir a los productos y servicios ofrecidos con las personas tomando como
Con esta información, se puede ajustar los productos y servicios ofrecidos a cada persona y
personalizar la vista de cada usuario aumentando con ello el compromiso del cliente y la
precisión comercial.
m
Detección del fraude
co
Neo4j puede ser usado para evitar fraude en sectores tan delicados como los seguros, la
a.
banca o el comercio electrónico, cosa que con otra base de datos sería difícil de detectar.
op
Buscando patrones con un análisis escalable de las posibles relaciones entre los datos
ur
podemos trabajar para la detección del fraude.
oe
Gestión de sistemas de datos maestros
ut
información que sea centralizado y fiable siempre es difícil. Podemos generar un protocolo de
st
trabajo para que cada miembro de una empresa utilice los mismos formatos y aplicaciones.
s .in
Las virtudes de Neo4j nos permiten gestionar, optimizar y monitorizar cualquier tipo de red
ca
Ejemplo NEo4J
La estructura de la sentencia como podemos ver es muy sencilla: CREATE + “etiqueta del nodo
(GOT) + Tipo de Nodo (Book) + información del nodo en formato JSON (title, published)
Esto nos dará como resultado nuestro primer nodo, “GOT”, de tipo Book, que tiene como atributos el
certificados.institutoeuropa.com
71 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
título y la fecha de publicación. Ahora ya podemos ver más información en nuestro cliente de la base
m
co
a.
op
ur
oe
ut
Ahora crearemos unos cuantos personajes (en este caso, el tipo de nodo es “Person”):
it
st
CREATE (ES:Person {name:'Eddard Stark', titles: 'Lord of Winterfell, Warden of the North, Hang of
.in
the King, Protector of the Realm, Lord Regent', born: '263 AC'})
s
do
CREATE (TL:Person {name:'Tywin Lannister’', titles: 'Lord of Casterly Rock, Shield of Lannisport
Targaryen, First of Her Name, the Unburnt, Queen of the Andals and the First Men, Khaleesi of the
ce
Great Grass Sea, Breaker of Chain, and Mother of Dragons', born: '172 AC'})
Con esta instrucción le decimos que localice un nodo de tipo Person etiquetado como “ES, y otro de
tipo Book etiquetado como “GOT”, y que cree una relación llamada “APPEARS_IN” entre ellos, de
certificados.institutoeuropa.com
72 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Ya podemos consultar el pequeño grafo que hemos creado con el comando MATCH(n) RETURN n:
m
co
a.
op
ur
oe
ut
it
st
Verdadero.
ca
Falso.
ifi
rt
ce
certificados.institutoeuropa.com
73 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Redis.
hash asignando una clave a un valor este motor de base de datos puede ser usado como una base de
El modelo de datos de Redis está basado en datos de tipo diccionario o en tabla de hashes
relacionando una clave a un contenido almacenado en un índice. La principal diferencia que tiene
m
Redis con otros sistemas similares es que los valores no están limitados a tipo cadena, soporta
co
también listas de cadenas y datos Set de cadenas.
a.
op
ur
oe
ut
it
st
s .in
Redis normalmente guarda la información en memoria RAM. Para que los datos sean persistentes
do
journaling que escribe en este archivo cada modificación realizada de los datos en memoria
ifi
pudiendo recuperar estos datos. Podremos configurarlo de dos formas, everysec, que escribirá los
rt
cambios segundo tras segundo o always que escribirá cualquier cambio en el instante.
ce
MongoDB, PostgreSQL que alojan la mayor parte de los datos en discos o SSD,
Redis aloja todos los datos en la memoria principal del servidor. Esto conlleva que
certificados.institutoeuropa.com
74 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
operaciones.
originales y muchas opciones para usar y trabajar con los datos. Para ello Redis
datos. Estos tipos de datos son cadena, listas, conjuntos, hashes, índices y
m
HyperLogLogs.
co
Alto nivel de escalabilidad y disponibilidad: La arquitectura que ofrece Redis
a.
nodo único. Esto permite alto nivel de disponibilidad y que el sistema sea fiable y
op
estable. Además, es escalable ya que existen diferentes opciones para ajustar el
ur
tamaño de un clúster. oe
Replicación y persistencia: Redis admite la replicación asíncrona. De este modo
ut
AOF (Archivo de solo anexos) para guardar los cambios realizados conforme se
producen.
s
do
abiertos.
ifi
rt
ce
Tareas tales como las publicaciones o las suscripciones que tengan patrones y varias
estructuras de datos como pueden ser las listas son admitidas por Redis. Esto hace que Redis
certificados.institutoeuropa.com
75 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
pueda usarse para salas de chat, streaming en tiempo real, comunicaciones entre servidores
Marcadores de videojuegos
Los desarrolladores utilizan Redis para crear clasificaciones con datos en tiempo real. Para
ello, simplemente se utiliza los conjuntos (estructura de datos proporcionada por Redis) ya
que otorga singularidad de elementos a la vez que la lista queda ordenada por puntuación.
m
co
Almacenamiento en caché
a.
Utilizar Redis como opción para desarrollar una caché en memoria que tenga alta
op
disponibilidad con el objetivo de bajar la latencia para el acceso a los datos, aumentar la
ur
capacidad de procesamiento y disminuir la carga de la base de datos y la aplicación.
ser imágenes,...
it
st
Almacén de sesiones
.in
Suele utilizarse, por los desarrolladores, para guardar y administrar datos de las sesiones
s
milisegundo.
ca
ifi
Para respaldar el streaming en directo, Redis tiene un almacén de datos ágil en memoria.
ce
Este almacén de datos se puede usar para historiales de visualizaciones, perfiles de usuarios,
información de autentificación,...
Aprendizaje automático
Actualmente, las aplicaciones que se basan en datos, exigen que se procesen de forma rápida
volúmenes de datos muy grandes y que se automatice la toma de decisiones sobre ellos
certificados.institutoeuropa.com
76 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Análisis geoespacial
GEODIST y otros son usados para guardar, analizar y procesar datos geoespaciales en
tiempo real.
m
co
Análisis en tiempo real
a.
Redis puede utilizarse como streaming, con Amazon Kinesis o Apache Kafka, para guardar
op
datos en memoria y analizar, procesar e incorporarlos en tiempo real con una latencia ínfima
ur
(<1 milisegundo). Es la opción perfecta para análisis en tiempo real.
oe
ut
Tipos de datos
it
Redis ofrece 5 estructuras de datos con los que es posible modelar la solución más adecuada para
st
Strings: Secuencia de bytes, es el valor básico que se puede asignar a un a Clave. Permite
s
do
extremo de la lista (head o tail) en un tiempo constante, manteniendo el mismo orden en el que
certificados.institutoeuropa.com
77 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
Sets: Se trata de una colección de Strings sin un orden determinado de almacenamiento. No
co
permite valores duplicados para una misma Clave, por lo tanto, no se requiere de validaciones para
verificar su existencia. Útiles para efectuar operaciones entre sets, tales como uniones,
a.
intersecciones y diferencias. Permite hasta 4 billones de elementos por colección.
op
ur
oe
ut
it
st
s .in
do
Sorted Sets: Similar a los Sets, con la variante que cada elemento de un grupo de datos cuenta con
ca
una calificación (Score) asociado. Este Score determinará el orden. Permite hasta 4 billones de
ifi
certificados.institutoeuropa.com
78 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Hashes: Usado para representar objetos. Almacena conjuntos de pares Clave-Valor de cadena,
asociados a una misma clave. No existe un límite de campos dentro de una Hash.
m
co
a.
op
ur
oe
ut
Redis admite la gran mayoría de lenguajes de programación y principales protocolos como son:
s .in
do
Java
PHP
ca
C/C++/C#
ifi
Python
rt
Ruby
ce
Javascript
Perl
Go
Node.js
certificados.institutoeuropa.com
79 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
80 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Berkeley DB.
Barkeley DB es una librería de manejo de bases de datos, tienen una API para los lenguajes Java,
Barkeley soporta múltiples datos para una misma clave. Barkeley permite miles de hilos de control
m
co
a.
op
ur
oe
Berkeley DB se desarrolló, inicialmente, por la Universidad de Berkeley en California para borrar el
En el año 1996, Netscape pidió que se mejorara y ampliara la biblioteca para poder cumplir los
st
Este deseo originó la creación de la compañía Sleepycat Software que se encargó de seguir
s
do
empresa.
ca
ifi
Características
ce
Permite crear bloqueos detallados. Esto es muy útil para trabajos concurrentes sobre la base
de datos de forma que podemos bloquear una página de registros durante una transacción para
evitar que se modifiquen hasta que termine, pero permite operar en el resto de páginas.
certificados.institutoeuropa.com
81 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Permite utilizar snapshots para ejecutar varias transacciones sobre los mismos registros a la
vez.
Tiene compatibilidad con algunas interfaces de bases de datos UNIX como NDBM, HSEARCH,
DBM.
m
Berkeley DB: Base de datos original. Está desarrollada en lenguaje C.
co
Berkeley DB Java Edition: Es una versión de la original con menos
a.
características pero escrita en un lenguaje (Java) que permite multiplataforma.
op
Berkeley XML DB: Versión pensada para guardar mediante colas XQuery,
ur
documentos XML. Tiene bindings para otros lenguajes como C, PHP, Java,...
oe
ut
Condiciones de uso
it
st
Sleepycat hace que, para que alguien utilice Berkeley DB, debe liberar el código de la aplicación
ca
con una licencia que esté reconocida por la OSI (Open Source Initiative) ó con licencia Sleepycat si
no desea redistribuirlo.
ifi
rt
compilación y documentación.
certificados.institutoeuropa.com
82 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
m
co
a.
Anatomía de las BDB JE (Berkeley DB Java Edition)
op
La estructura (anatomía) de una base de datos BDB JE se basa en 1 o más archivos de registro que
ur
son guardados en el directorio de entorno. oe
Estos archivos de registro son guardados con el formato XXXXXXXX.jdb en el cual XXXXXXXX hace
ut
1 para cada archivo guardado en disco. Cada 10MB que es el tamaño de archivo predefinido por
st
En Base API, se utiliza la base de datos que necesitamos acceder de forma directa, mientras que en
s
Se pueden tener varias bases de datos en un entorno BDB y todas ellas se almacenan en una sola
BMC Atrium Discovery and Dependency Mapping (ADDM): Es una App para descubrir
certificados.institutoeuropa.com
83 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
MySQL.
Postfix.
Ebay
m
Amazon
co
Airbus
AOL
a.
Google
op
Motorola
ur
HP oe
Cisco Systems
BMC
ut
Hitachi
it
st
RSA Security
.in
Nortel
Sun Microsystems
s
do
ca
ifi
rt
ce
Sleepycat hace que, para que alguien utilice Berkeley DB, debe liberar el código
de la aplicación con una licencia que esté reconocida por la OSI (Open Source
certificados.institutoeuropa.com
84 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Verdadero.
Falso.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
85 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
86 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
Autoevaluación
Hbase…
Apache HBase es una base de datos distribuido no relacional de código abierto escrita
en Java. Su desarrollo forma del proyecto Hadoop y se ejecuta sobre el HDFS de
Hadoop.
m
co
Apache HBase es una base de datos distribuido relacional de código abierto escrita en
Java. Su desarrollo forma del proyecto Hadoop y se ejecuta sobre el HDFS de Hadoop.
a.
op
Apache HBase es una base de datos distribuido relacional de código abierto escrita en
ur
Java. Su desarrollo forma del proyecto Lucene y se ejecuta sobre el HDFS de Hadoop.
oe
ut
Cassandra…
it
st
MongoDB…
MongoDB es una base de datos SQL de software libre, escalable y de alto rendimiento
desarrollada en C++.
certificados.institutoeuropa.com
87 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080714] SISTEMAS NOSQL.
desarrollada en C++.
m
co
Verdadero.
a.
op
Falso.
ur
oe
Indica si la siguiente afirmación es verdadera o falsa: “El modelo de datos de
ut
Verdadero.
s .in
Falso.
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
88 / 88
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Introducción
Lucene es una librería que nos permite integrar funciones de indexación y búsqueda de información
Solr es un servidor, basado en Lucene, de búsquedas que proporcionan funcionalidad de más alto
m
nivel.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
1 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Objetivos
Aprender sus utilidades y los beneficios que pueden aportar a nuestros sistemas.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
2 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Lucene + Solr.
Lucene es una librería que nos permite integrar funciones de indexación y búsqueda de información
Lucene va más allá que las búsquedas en Bases de Datos a través de índices, permitiéndonos
indexar y realizar búsquedas sobre cualquier tipo de información que se pueda representar en forma
de texto.
m
co
Lucene se distribuye por la Apache Software License y está apoyado por el Apache Software
Foundation.
a.
op
ur
oe
ut
it
st
s .in
do
Lucene se utiliza muy frecuentemente para aplicaciones que necesiten indexado y búsqueda en
ca
texto completo.
ifi
veces es confundido con un motor de búsqueda que tiene funciones de "crawling" y análisis de
ce
documentos HTML.
La arquitectura lógica de Lucene permite ser independiente del formato del fichero ya que
Estos textos pueden encontrarse en formato .pdf, en páginas web, en archivos word,...
certificados.institutoeuropa.com
4 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Lucene se compone de dos procesos para realizar búsquedas efectivas: Indexación y Búsqueda.
Indexación
Este proceso consiste en analizar y extraer de entre toda la información la que es realmente
relevante. Posteriormente con esa información se crea el índice sobre el cual realizaremos
las búsquedas. El índice es una estructura de datos que nos permite acceso rápido a la
m
información.
co
Búsqueda
a.
op
El proceso de búsqueda consiste en consultar el índice para obtener los documentos donde
ur
aparecen unas determinadas palabras o concuerdan una expresión de la consulta.
oe
ut
it
st
Comenzar Actividad
s .in
certificados.institutoeuropa.com
5 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Perl: Plucene
m
C: Lucene4c
co
C++: CLucene
a.
.NET: Lucene.Net
op
PHP: Zend Framework
ur
Java (Nativo): Nutch
Python: PyLucene
it
st
s .in
do
ca
ifi
rt
ce
Vamos a ver un ejemplo de como usar Lucene para utilizar el texto de una obra.
Inicialmente, vamos a sacar el contenido de la obra y vamos a enriquecer, con su lemma y categoría
Posteriormente, vamos a crear un fichero con estas palabras extraídas siguiendo el modelo de
certificados.institutoeuropa.com
6 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Lucene para que se pueda utilizar como un fichero de sinónimos. Así se podrá buscar, por ejemplo,
cuantas ocurrencias de un lemma concreto existen en la obra o el número de verbos que tiene.
Para este ejemplo hemos cogido como ejemplo la obra "Doña Perfecta" de Benito Pérez Galdós.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
Primero hay que automatizar cómo se categorizan y lematizan las palabras. Para ello se podría
rt
utilizar la librería Stanford CoreNLP pero, con esta librería, no funciona la lematización para el
ce
español.
Para poder trabajar con el idioma español, existen otras librerías como FreeLing. Para poder
certificados.institutoeuropa.com
7 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
Fuente: http://data.cervantesvirtual.com
a.
op
Se puede ver que se devuelve, para cada token, su posición, lema y categoría gramatical.
ur
El comando analyzer que proporciona la librería FreeLing, si lo ejecutamos sobre el texto de la
oe
obra de Benito Perez Galdós seleccionada, obtiene un fichero como el de la siguiente imagen:
ut
it
st
s .in
do
ca
ifi
rt
ce
Fuente: http://data.cervantesvirtual.com
certificados.institutoeuropa.com
8 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Para ello, se ha creado una plantilla .xslt para especificarlos. Se puede ver el resultado en la
siguiente ilustración:
m
Fuente: http://data.cervantesvirtual.com
co
Nos interesan los literales que empiezan por pos# o lemma#.
a.
op
En este ejemplo, si se busca lemma#abandonar, se obtendría el resultado: abandonados,
ur
abandonaron, abandonado,...
oe
Para que no aparezcan registros duplicados, se utiliza el comando sort -u sobre el fichero
ut
resultante.
it
Ahora, vamos a empezar a trabajar con Lucene. Para ello, vamos a crear un proyecto Maven en la
st
certificados.institutoeuropa.com
9 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Fuente: http://data.cervantesvirtual.com
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Fuente: http://data.cervantesvirtual.com
certificados.institutoeuropa.com
10 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Para el test anterior, en el que buscamos la cadena "pos#noun pos#adjective", el resultado es:
m
co
a.
Fuente: http://data.cervantesvirtual.com
op
Podemos observar cómo se resaltan las ocurrencias con etiquetas "<b>" (HTML).
ur
oe
Apache Solr
ut
Tiene APIs en XML/HTTP y en JSON, además de búsquedas por facetas, caché, resaltado de
.in
Fuente: soltel.es
Para versiones anteriores a la versión 5.0, Apache Solr se ejecuta bajo un contenedor de servlets
certificados.institutoeuropa.com
11 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Esquema
Mediante un archivo de esquema, Apache Solr permite indicar los campos, tipos y análisis a utilizar
managed-schema
m
co
Es el archivo de esquema que Apache Solr utiliza por defecto y permite hacer cambios "en
caliente" al esquema a través del Schema API o usando el modo Schemaless. Este archivo de
a.
esquema es manejado por Apache Solr a través de una API.
op
ur
schema.xml oe
Puede ser editado manualmente al ser el archivo esquema tradicional. Se administra por el
ut
afinamiento de las búsquedas y sus resultados. Estas 2 áreas son: request handler y search
ca
components.
ifi
Request Handler hace referencia al procesamiento de las solicitudes que llegan a Apache Solr.
rt
Search Components hace referencia a las funcionalidades específica de búsqueda como pueden
ser las sugerencias o el facetado.
Hemos visto para que sirve Apache Solr, los archivos de esquema que utiliza y las configuraciones
que puede tener. Ahora hace falta una forma para poder acceder a estos servicios y es a través de
certificados.institutoeuropa.com
12 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Apache SOLR.
m
Configuración a través de solrconfig.xml y managed-schema de los componentes y
co
procesadores.
a.
Procesa la solicitud de actualizar documentos ("index update").
op
Componentes de búsqueda ("search components").
ur
oe
Principales características
ut
it
coincidencias
ce
Dispone de un plugin para la revisión gramática (spell check) y otro para búsqueda
de documentos similares
Ventajas
certificados.institutoeuropa.com
13 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
Como podemos observar a la izquierda no tenemos ningún núcleo creado, vamos a crear uno
ca
Este comando lo ejecutaremos en el directorio bin de Solr y nos creara el núcleo. Podremos crear
certificados.institutoeuropa.com
14 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
Podemos indexar los datos de un documento en el núcleo que hemos creado anteriormente usando el
do
Después de ejecutar el comando el archive que hemos indicado estará indexado en el núcleo
ce
especificado.
certificados.institutoeuropa.com
15 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
Por defecto el manejador es /select. Sin hacer ninguna modificación haremos clic en el botón
.in
“ExecuteQuery” al final de la página. Al ejecutar la consulta podemos observar los contenidos del
s
certificados.institutoeuropa.com
16 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
Por ejemplo vamos a indexar un documento JSON. En la interfaz web seleccionaremos nuestro
s
do
certificados.institutoeuropa.com
17 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
.in
Dejaremos los datos por defecto y elegiremos el tipo de documento que en este caso es JSON.
s
certificados.institutoeuropa.com
18 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
certificados.institutoeuropa.com
19 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
que tenemos 3 registros en el núcleo my_core. Si queremos por ejemplo recoger el dato que tenga
s
como valor de id 1 deberemos de pasar en la consulta el nombre del campo y su valor de la siguiente
do
forma:
ca
ifi
rt
ce
certificados.institutoeuropa.com
20 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
m
co
a.
op
ur
oe
ut
it
st
s .in
En el campo que hemos puesto id:001 para que nos muestre los datos que tengan como id 001.
do
De esta manera podremos recoger datos que nos interesen de nuestros documentos indexados.
ca
ifi
Verdadero.
Falso.
certificados.institutoeuropa.com
21 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
22 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Autoevaluación
Lucene…
m
Es una aplicación que nos permite integrar funciones de indexación y búsqueda de
co
información en formato texto dentro de nuestros proyectos.
a.
op
Es una librería que nos permite integrar funciones de inserción de información en
formato texto dentro de nuestros proyectos.
ur
oe
La indexación…
ut
it
relevante.
s .in
La búsqueda…
ce
Consiste en consultar el índice para obtener los documentos donde aparecen unas
determinadas palabras o concuerdan una expresión de la consulta.
certificados.institutoeuropa.com
23 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080715] INTERACTIVE QUERY.
Verdadero.
Falso.
m
Indica si la siguiente afirmación es verdadera o falsa: “Lucene se compone de
co
dos procesos para realizar búsquedas efectivas: Recolección y Búsqueda”.
a.
op
Verdadero.
ur
oe
Falso.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
24 / 24
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Introducción
(HW-SW).
El mundo real es analógico, pero la interacción y el control sobre el es digital. Se requieren muchas
m
Un sistema de computación híbrido es un sistema complejo que une los recursos para obtener las
co
mejores prestaciones, la mayor seguridad y robustez y el mejor rendimiento.
a.
En referencia a ello, podemos pensar en un sistema integrado multiprocesador que combina
op
hardware general con especializado en sistemas que se pueden configurar y adaptar para que se
ur
lleven a cabo determinadas funciones.
oe
La arquitectura Lambda es un tipo de nube híbrida usada en big data.
ut
Java.
s
certificados.institutoeuropa.com
1 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Objetivos
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
2 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Arquitectura Lambda.
El NIST (National Institute of Standards and Technology) define la nube híbrida como:
“La composición de dos o más nubes, por ejemplo, privada y pública, que permanecen como
m
entidades únicas pero que coexisten por tener tecnologías que permite compartir datos o
co
aplicaciones entre las mismas.”
a.
En otras palabras, se trata de un modelo de nube que pretende aprovechar las características
op
más ventajosas de los modelos de nube privada y de nube pública, a través de una mezcla de estas.
ur
Un ejemplo de despliegue de nube híbrida podemos encontrarlo en una empresa que despliega
oe
aplicaciones no críticas de software en la nube pública, mientras que despliega las aplicaciones más
ut
críticas en una nube privada (una nube privada en la organización o nube “on premises”).
it
Así, las nubes híbridas combinan modelos de nube pública y privada y pueden resultar muy
st
efectivas sobre todo en casos en los que los distintos tipos de nube se localizan en la misma
.in
instalación.
s
do
suministran como servicio a través de una nube privada interna y otros recursos son facilitados por
proveedores de servicios externos a través de la nube pública. Estos recursos (que van desde
ifi
En nubes híbridas, como podemos deducir, el cliente será propietario de algunas partes (en este
caso hablamos de la nube privada) y compartirá otras (a través de los servicios de una nube pública)
De esta forma, las empresas pueden controlar aquellas aplicaciones que llevan a cabo los procesos
más críticos a la vez que aprovechan el cloud computing que ofrece una nube pública en los
certificados.institutoeuropa.com
4 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
La principal ventaja de este tipo de nube viene de la combinación de las ventajas de las nubes
públicas con las ventajas de las nubes privadas. Una nube híbrida requiere una inversión inicial
menor que una nube privada y, además, ofrece la posibilidad de tener los servicios de SaaS, IaaS y
m
co
a.
op
ur
Es decir, a través de nubes híbridas, un cliente puede escalar la plataforma todo lo que requiera sin
oe
tener ninguna necesidad de invertir de nuevo en infraestructuras. En el caso de que la
ut
necesidad de más capacidad se convierta en una necesidad más estable, podría valorarse
it
incrementar la capacidad de la nube privada a la vez que se aprovecha el incremento para pasar
st
Por el contrario, si estas necesidades de capacidad son puntuales, la nube híbrida permite que la
s
do
Sin embargo, no todo son ventajas. De hecho, el principal problema que acarrea este modelo de
rt
nube es la complejidad existente para determinar cómo distribuir las distintas aplicaciones entre la
ce
parte pública y la parte privada de la nube híbrida. Además, otro problema bastante frecuente es
también conocer si todos los aspectos del negocio así como las aplicaciones almacenadas en cada
Hay que tener en cuenta que la parte pública y la parte privada no se relacionan entre sí, por lo
que la decisión de qué almacenar y utilizar en cada parte puede suponer ganancias importantes de
certificados.institutoeuropa.com
5 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Como ya se ha comentado, una nube híbrida es un servicio cloud integrada que utiliza
funcionalidades de nubes privadas y públicas para realizar distintas funciones dentro de una
misma empresa. Todos los servicios de cloud computing deberían ofrecer cierto grado de eficiencia,
pero es más probable que los servicios de una nube pública sean más eficientes y escalables que los
m
Por tanto, toda empresa puede tratar de maximizar su eficiencia a través de servicios de nube
co
pública para operaciones no críticas a la vez que utilizar los servicios de nube privada para
garantizar la seguridad y privacidad de operaciones críticas, asegurándose así que todas sus
a.
plataformas se mantienen integradas sin ningún tipo de problema.
op
ur
Los modelos de nube híbrida pueden implementarse de varias formas:
oe
A través de varios proveedores cloud para construir servicios públicos y privados como un
ut
servicio integrado.
it
A través de proveedores cloud individuales que ofrecen por completo el servicio de nube
st
híbrida.
.in
En términos prácticos, un ejemplo lo encontramos en una organización que implementa por un lado
alojamiento cloud en una nube híbrida para alojar su sitio web de comercio electrónico en una
nube privada y aloja, por otro lado, su sitio web de información en una nube pública (al resultar una
certificados.institutoeuropa.com
6 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Otro ejemplo podemos encontrarlo en una oferta de IaaS (infraestructura como servicio). Un
modelo IaaS puede, por ejemplo, ofrecer a una empresa financiera el almacenamiento de los datos
de sus clientes en una nube privada, pero, luego permitir la colaboración en la gestión de
documentos de planificación de proyectos en la nube pública. Así, los datos más críticos
permanecerían seguros mientras que se permite el acceso a múltiples usuarios a los archivos de
m
co
Así, un modelo de nube híbrida puede ofrecer a sus usuarios las siguientes características:
a.
Escalabilidad: Mientras que el modelo de nube privada ofrece un cierto nivel de escalabilidad
op
según sus configuraciones, el modelo de nube pública ofrece mayor escalabilidad con menos
ur
límites al no depender de la infraestructura de la organización. Cuantas más funciones no
oe
críticas se pasen a la nube pública, mayores son los beneficios de los que se podrá beneficiar
ut
Eficiencia en costes: Es muy probable que una nube pública ofrezca mayores economías de
it
st
escala y, por tanto, más eficiencia en costes que las nubes privadas. Por ello, las nubes híbridas
.in
permiten a las empresas un ahorro en tantas funciones de negocio como sea posible mientras
Seguridad: La parte de nube privada dentro de una nube híbrida no sólo facilita la seguridad
requerida para almacenar y gestionar las operaciones más críticas, sino que también puede
ca
satisfacer los requisitos regulatorios para la gestión y el almacenaje de datos donde ésta se
ifi
aplique.
rt
Flexibilidad: La disponibilidad de los recursos de nubes públicas y privadas (la seguridad que
ce
En la actualidad, muchas empresas ya están implementando el modelo de nube híbrida, lo que puede
generar ventajas o inconvenientes según el uso que se le vaya a dar. El carácter mixto de esta
certificados.institutoeuropa.com
7 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
solución permite la combinación de un modelo de un centro de datos propio con soluciones de nube
pública para alojar, por ejemplo, aplicaciones no críticas o capacidad de procesamiento adicional.
Son cuantiosas las ventajas que puede tener una empresa al utilizar una nube híbrida. La primera
m
co
a.
op
ur
oe
ut
it
Aunque estas ventajas sean las más atractivas para cualquier tipo de organización, hay otras
st
Reducción de costes en inversión inicial: Aunque los costes iniciales serán superiores que
ca
si sólo se utilizase un modelo de nube pública, la inversión inicial requerida para una nube
ifi
aplicaciones entre la parte pública y la parte privada de la nube híbrida, la utilización de los
Reducción de tiempo de respuesta ante fallos: Al haber parte del servicio de la nube
contratado a terceros, la respuesta ante posibles fallos es mucho más rápida ya que el
certificados.institutoeuropa.com
8 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Posibilidad de contar con SaaS, PaaS o IaaS bajo demanda: La parte de nube pública
qué datos y aplicaciones son más adecuadas para la nube privada y cuáles para la nube
pública.
m
suprimen los problemas inherentes al exceso de recursos por parte de la organización.
co
Por otra parte, aunque las ventajas están claras, toda nube híbrida es imperfecta y cuenta con una
a.
serie de desventajas que conviene remarcar con detenimiento:
op
ur
En la nube híbrida, la confiabilidad de los servicios ofrecidos depende en mayor parte de la
oe
capacidad tecnológica y financiera de los proveedores de servicios en nube. Aunque la parte
Problemas de inseguridad: Los datos de la organización deben recorrer varios nodos hasta
.in
una interdependencia de los proveedores de servicios de modo que, si hay algún fallo de
Si analizamos las ventajas y desventajas mencionadas en este apartado, podemos deducir y evaluar
rt
cuál puede ser el mejor modelo cloud a implantar en una organización para mejorar las
ce
oportunidades de negocio.
Lo que está claro es que para aprovechar las ventajas de la implementación de una nube híbrida
certificados.institutoeuropa.com
9 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
información sensible sobre la empresa, con lo cual, si en algún momento se produce algún
m
co
a.
op
En cuanto a la prueba y desarrollo de la nube, en muchas ocasiones los proveedores ofrecen la
ur
posibilidad de utilizar servidores virtuales por un tiempo limitado a bajo coste; por lo que es una
oe
opción a considerar antes de decantarse por un tipo de nube y por un proveedor determinado.
ut
competitivas que puede ofrecer la nube híbrida a las empresas, hace deducir que este tipo de nube
st
será la que utilicen las organizaciones con mayor frecuencia en un futuro próximo. Si además los
.in
proveedores del servicio implementan nuevas medidas de seguridad y transmiten confianza en los
s
usuarios, la nube híbrida tiene grandes posibilidades para considerarse la alternativa más utilizada
do
Cada vez es más frecuente la utilización de infraestructuras en la nube para servicios básicos como
ce
el correo electrónico o la utilización de aplicaciones web. Pero para la simple utilización de estos
servicios, la nube híbrida no es una buena opción ya que sus funcionalidades se verían muy
limitadas.
Para que una empresa obtenga beneficios económicos, tecnológicos y corporativos por la utilización
Una organización que no haya realizado este tipo de evaluación en la actualidad, está un paso por
certificados.institutoeuropa.com
10 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
detrás de aquellas que sí lo han llevado a cabo. Es más, las empresas que no estén utilizando un
modelo de nube, sea cual sea el sector en el que se mueve y su tamaño, ya se están quedando un
paso atrás.
Para implantar una nube híbrida en cualquier tipo de organización, es importante tener en cuenta
m
Elección de la herramienta óptima
co
Trayectoria y experiencia de la empresa
a.
Outsourcing o externalización
op
Asesoría
ur
Transición paso a paso
oe
ut
Una de las principales preocupaciones de cualquier organización que tiene en mente migrar a una
nube híbrida es cómo llevar a cabo el proceso de transición. Pero precisamente, una de las ventajas
it
st
paralizar proyectos.
s
En el período de transición tampoco será necesario reprogramar aplicaciones ya que la nube híbrida
do
permite a las empresas adoptar su tecnología de forma simple, moviendo parte de una aplicación a
ca
Asimismo, la transición a la nube híbrida no significa parar las iniciativas y proyectos que están en
rt
curso, por lo que lo único que deberá evaluar la organización en este aspecto es qué partes de cada
ce
proyecto se irán incorporando a la nube y en qué orden para que su funcionamiento no cese y
Sin duda, uno de los aspectos más importantes cuando se toma la decisión de implantar una nube
¿Cómo elegir la herramienta correcta? Toda empresa debe comenzar conociendo las aplicaciones
certificados.institutoeuropa.com
11 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
que dispone y que requiere; debe realizar un análisis meticuloso de todo aquello que va a requerir
escalabilidad) y elegir aquellas que cubran con mayor medida dichas necesidades.
De hecho, es muy frecuente encontrar organizaciones que caen en el error de elegir primero las
aplicaciones que van a implantar sin ver qué es lo que realmente van a requerir. Al final, estas
modelo de negocio para adaptarlo a las aplicaciones disponibles o modificando su sistema de nube
m
híbrida, con el coste que ello conlleva.
co
a.
op
ur
oe
ut
it
st
.in
Antes de decidirse por un tipo de nube o por un proveedor de servicios determinados, es muy
conveniente que la organización realice un análisis de cuál es su experiencia de cuáles van a ser las
ca
habilidades técnicas que va a requerir para gestionar y mantener sus aplicaciones actualizadas.
ifi
rt
La elección de estas habilidades puede basarse y apoyarse en cuestiones como las siguientes:
ce
¿Cuáles son las actividades que pueden agregar valor a la empresa y cuáles no?
Con la formulación de estas preguntas iniciales, la empresa puede hacerse una idea de qué es lo que
Además, este tipo de análisis otorgará información importante a la organización para detectar en
certificados.institutoeuropa.com
12 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
qué procesos son ineficientes y cómo pueden mejorarlos a través de las aplicaciones más
adecuadas.
Outsourcing o externalización
Una vez realizado el análisis de las aplicaciones y de la experiencia y habilidades técnicas de una
organización, ya es posible hacerse una idea sobre cuáles van a ser las funcionalidades y servicios
m
Así, si la empresa detecta una función para la cual la empresa no dispone de capacidad técnica o,
co
aunque disponga de ella, esta no es suficiente, no agrega valor o no es eficiente, será conveniente
a.
considerar delegarla hacia un proveedor de servicios para evitar problemas de disponibilidad,
op
interrupciones de servicio o ineficiencias.
ur
Asesoría
oe
Por último, un factor especialmente relevante que muchas organizaciones que ya tienen una nube
ut
híbrida implantada no tienen en cuenta es la gran complejidad de estar actualizados con este tipo de
it
En este sentido, una buena opción para toda empresa que quiera implantar una nube híbrida y
s
aprovecharla al máximo sin quedarse desfasada es la contratación de los servicios de una asesoría o
do
consultoría que sirva de apoyo para tomar la mejor decisión en relación al mejor modo de
ca
despliegue de las aplicaciones que la empresa necesita, a cómo y cuándo deben actualizarse y cuál
La nube híbrida es una de las mejores alternativas de cloud para cualquier tipo de organización. Eso
sí, para evitar proyectos demasiado costosos y que requieran un consumo excesivo de recursos,
es necesario realizar una serie de evaluaciones previas para determinar cómo minimizar la
Así, en el momento de determinar la arquitectura de nube híbrida más adecuada para una
certificados.institutoeuropa.com
13 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
¿Cuáles serán las competencias necesarias para implementar, mantener y operar el entorno
híbrido?
m
¿Cómo se va a prevenir la dependencia del proveedor?
co
a.
¿Cómo se va a utilizar la nube híbrida a corto y medio plazo?
op
La gran mayoría de empresas tienen previsto utilizar una nube híbrida a corto/medio plazo (dentro
ur
de los 12-18 meses posteriores a su implantación) como sistema de recuperación y rápida actuación
oe
ante posibles desastres. No obstante, tener un centro de datos secundario simplemente para tener
disponibles.
it
st
del sistema. Para ello ya existen soluciones cloud de recuperación de desastres sencillas para
ca
nivel y especialización.
rt
ce
Para empresas de mayor tamaño que pretendan utilizar nubes para liberar sus centros de datos, la
nube híbrida es la opción más manejable y asumible ya que permite trabajar con mayor flexibilidad y
certificados.institutoeuropa.com
14 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
ur
oe
ut
certificados.institutoeuropa.com
15 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Desde este dataset, crear vistas arbitrarias vía MapReduce (Hive, Pig,...).
m
Serving Layer (Cloudera Impala)
co
Esta capa es la encargada de indexar y mostrar las vistas para que puedan ser consultadas.
a.
Al igual que las vistas batch, son estáticas.
op
ur
Solo necesita lecturas y para ello puede utilizar Impala, Stinger,...
oe
Como ejemplo, para mostrar las vistas con Impala, solo es necesario crear una tabla en el Metastore
ut
de HIVE que apunte a los ficheros HDFS y con esto ya se podría consultar mediante SQL.
it
Con las anteriores capas ya tendríamos una arquitectura Big Data pero no satisface los requisitos
.in
que tiene un sistema en tiempo real ya que MapReduce es un proceso Batch que puede tardar horas
s
Esta capa genera vistas en tiempo real usando Storm para compensar la alta latencia de la Batch
rt
Layer.
ce
Solo contiene los resultados delta que se añaden en las Batch Layer.
Aunque se pueden usar varias opciones, la opción más estandarizada es la de usar Apache Sqoop,
HDFS y Hive para batch y Apache Kafka, HBase y Spark para stream.
certificados.institutoeuropa.com
16 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Hay proveedores (Ej: Cloudera) que ofertan productos que integran todas estas herramientas y
m
co
a.
op
ur
Ventajas de la arquitectura Lambda oe
La arquitectura Lambda tiene las siguientes ventajas:
ut
it
cambios de criterio.
s
do
ca
divergentes.
certificados.institutoeuropa.com
17 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Verdadero.
Falso.
m
La nube híbrida es una de las mejores alternativas de cloud para cualquier tipo
co
de organización. Eso sí, para evitar proyectos demasiado costosos y que requieran
a.
un consumo excesivo de recursos, es necesario realizar una serie de evaluaciones
previas para determinar cómo minimizar la complejidad de su implantación y su
op
gestión posterior.
ur
Verdadero. oe
Falso.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
18 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Arquitectura Kappa.
La ciencia de datos o Data Science es una disciplina entendida como el conjunto de métodos,
técnicas y teorías para extraer ideas y nuevas perspectivas de la información, en datos provenientes
de múltiples fuentes. Además, pretende enfocar sus resultados a numerosos ámbitos como
m
marketing y publicidad, mejora de los procesos productivos, servicios públicos, investigación
co
científica y médica, Business Intelligence, etc.
a.
op
Por tanto, entendemos que la ciencia de datos incorpora diferentes elementos y se basa en las
técnicas y teorías de muchos campos, incluyendo las matemáticas, estadística, ingeniería de datos,
ur
reconocimiento de patrones y aprendizaje, computación avanzada, visualización, modelado de la
oe
incertidumbre, almacenamiento de datos y la informática de alto rendimiento, con el objetivo de
ut
nuevo y que a menudo se utiliza de manera intercambiable con inteligencia o análisis de negocios
st
competitivos. La ciencia de datos, busca, por tanto, utilizar todos los datos disponibles y relevantes
.in
para contar una historia que pueda ser fácilmente comprendida por cualquiera.
s
Completa los huecos para contestar a esta pregunta. ¿Qué es la ciencia de datos?
do
La ciencia de datos o [[Data Science]] es una disciplina entendida como el conjunto de [[métodos]],
técnicas y teorías para extraer ideas y nuevas [[perspectivas]] de la información, en datos
ca
Podemos decir que el Data Science, nace del método científico y es la evolución natural de lo que
hasta ahora se conocía como Análisis de datos, pero a diferencia de ésta que sólo se dedica a
analizar datos de una única fuente, la ciencia de datos debe explorar y analizar datos de múltiples
fuentes, por regla general con formato diferentes entre ellas, y que afectan de manera muy
certificados.institutoeuropa.com
19 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
La aplicación de data science implica un trabajo, primero de Data Mining y posteriormente de Data
op
Analytics, que mediante tecnología de Big Data permite abarcar gran magnitud de información y
ur
orientarla a aplicaciones reales. De esta manera se analiza el flujo de información para convertirlo
oe
en información organizada y jerarquizada, lo que convierte esta cantidad de información en un valor
añadido.
ut
it
Según Mike Loukides, autor del libro “What is Data Science?”, la idea central es que “el futuro
st
pertenece a las empresas y personas que puedan transformar datos en productos”. El autor expone
.in
que la web está llena de aplicaciones basadas en datos o como él las llama “data-driven apps”, y que
s
casi cualquier aplicación de e-commerce es una aplicación basada en datos, pues hay una base de
do
datos detrás del front-end de una web y un middleware (software que asiste a una aplicación para
ca
interactuar o comunicarse con otras aplicaciones, redes, hardware y/o sistemas operativos) que a su
ifi
vez se comunica con otras bases de datos o servicios de datos externos. Pero el simple hecho de usar
rt
los datos no es realmente “ciencia de datos”, ya que una aplicación de datos adquiere valor a partir
ce
de los datos en sí y la creación de más datos como resultado, es decir no es solo una aplicación con
datos sino que es un producto de datos. El data science permite la creación de estos productos de
datos.
Algunas de las aplicaciones de las que habla Mike Loukides son Facebook y LinkedIn que usan
patrones de relaciones de amistad para sugerirte otras personas que puedes conocer, con una
precisión en ocasiones aterradora. Amazon, sería otro ejemplo, en este caso la aplicación guarda las
búsquedas de los usuarios, correlaciona lo que se busca con la búsqueda de otros usuarios y lo usa
para crear recomendaciones muy acertadas. Estas recomendaciones son ejemplos de “productos de
certificados.institutoeuropa.com
20 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
datos” que estas compañías obtienen a partir de los datos que son capaces de recolectar a través de
sus aplicaciones.
Con el nacimiento del concepto de ciencia de datos aparece el perfil profesional del Data Scientist,
como aquel experto en Data Science que resuelve problemas complejos de diferentes disciplinas,
m
En palabras de José Antonio Guerrero (científico de datos), el data scientist “Es una persona con
co
fundamentos en matemáticas, estadística y métodos de optimización, con conocimientos en
a.
lenguajes de programación y que además tiene una experiencia práctica en el análisis de datos
op
reales y la elaboración de modelos predictivos. De las tres características quizás la más difícil es la
tercera; no en vano la modelización de los datos se ha definido en ocasiones como un arte. Aquí no
ur
hay reglas de oro, y cada conjunto de datos es un lienzo en blanco”.
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Como hemos visto, la ciencia de datos requiere de habilidades que van desde la informática
tradicional hasta el arte de las matemáticas. Jeff Hammerbacher dijo que “un día cualquiera, un
miembro del equipo podría crear un pipeline de procesamiento de varios niveles en Python, diseñar
una prueba de hipótesis, realizar una análisis de regresión sobre muestras de datos con R, diseñar
certificados.institutoeuropa.com
21 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Por tanto, un “científico de datos” es la persona que trata y analiza los datos, posee conocimiento del
datos que trabaja para marcar y descubrir tendencias de negocio, nuevas estrategias o innovaciones.
Es en resumen, la figura que sabe unir, procesar y visualizar los datos desde múltiples
perspectivas para encontrarles un nuevo sentido. Debe ser mitad analista, mitad artista.
m
co
a.
op
ur
oe
ut
it
Conocimiento profundo del negocio en el que desarrolla su labor como científico de datos.
certificados.institutoeuropa.com
22 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
En el libro The Art of Data Science se describe la metodología que subyace a todo proyecto de
Data Science, que en opinión de sus autores es un proceso definido como una iteración de cinco
etapas:
Exploración analítica de los datos: En esta etapa nos centraremos en evaluar la información
m
disponible y refinar la pregunta inicial para evitar resultados ambiguos, sesgos o detectar la
co
necesidad de recopilar nuevos datos.
Construcción del modelo: Consiste en buscar una serie de procesos y algoritmos que se
a.
puedan estandarizar y que nos permitan tratar los datos disponibles para mejorar la
op
comprensión de los mismos, es decir, sería establecer un protocolo para tratar los datos
ur
disponibles y extraer de ellos la mayor información relevante posible, convirtiendo así los datos
oe
en conocimiento.
Interpretación de resultados: Esta etapa del proceso, es en opinión de los autores, un paso
ut
que se pone en práctica en todas y cada una de las etapas, pues es inevitable interpretar los
it
st
obstante es necesario fijar una etapa independiente en la que se interpreten los resultados, una
vez hayan sido tratados los datos, creados los modelos y cotejados los resultados para sacar las
s
do
conclusiones finales.
Comunicación de resultados
ca
ifi
Cada una de estas cinco etapas se centra en un aspecto determinado del análisis, pero al mismo
rt
tiempo, es importante revisar continuamente los resultados obtenidos en etapas anteriores para
ce
verificar si se mantiene la línea prevista o se ha producido alguna desviación que debamos revisar.
Este aspecto del análisis es el más importante: la revisión continúa de los resultados con respecto a
descubren nuevos enfoques que nos empujan a replantearnos alguna de las etapas anteriores o
incluso el propio marco de trabajo. Esto es lo que los autores del libro denominada Epicycles o
Analysis, pues se entiende el proceso como un proceso iterativo que se aplica a todos los pasos del
proceso de análisis de datos, organizado de manera circular. Es decir, cada una de las 5 etapas se
certificados.institutoeuropa.com
23 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
de hacer nada.
Cotejo de las expectativas con los datos recopilados: Una vez que tenemos los datos, el
siguiente paso es comparar tus expectativas con los datos. En esta etapa pueden darse dos
situaciones: que tus expectativas casen con los datos lo que nos haría avanzar a la siguiente
m
etapa en el nivel superior, o que no lo que provocaría una revisión del proceso.
co
a.
La ejecución de cada una de las etapas anteriores puede provocar un cambio en la estrategia de los
op
niveles superiores, dando lugar a que se vuelva a una etapa anterior en el proceso de análisis, de
ahí que la representación gráfica de esta teoría sea a modo de engranajes interconectados.
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Para cada una de estas etapas del proyecto, se hará uso de diferentes herramientas y tecnologías
certificados.institutoeuropa.com
24 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
Bases de datos no relacionales, NoSQL
co
Lenguajes de programación como R y Python
a.
Machine Learning
op
Programación de altas prestaciones, programación distribuida en herramientas como Hadoop
ur
Por tanto, un data scientist debe ser capaz de hacer gestión de grandes volúmenes de datos,
oe
análisis y visualización de los mismos. De un científico de datos se espera que tenga una gran
ut
En la imagen anterior se exponen algunas de las herramientas y tecnologías que debe dominar un
La ciencia de datos implica como hemos visto una iteración en una secuencia de tareas: encontrar,
cargar y preprocesar los datos, crear y probar modelos e implementar los modelos para su uso en
aplicaciones inteligentes, para ello los científicos de datos usan varias herramientas, lo que en
ocasiones puede ralentizar el proceso al tener que integrar diferentes versiones de software. Con
el objetivo de reducir esta carga de trabajo, aparecen algunas herramientas como Microsoft Data
certificados.institutoeuropa.com
25 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Science Virtual Machine, que proporciona una imagen con las herramientas más populares
m
co
a.
op
ur
oe
ut
it
st
s .in
do
A la vista de la imagen anterior, en la que aparecen algunas de las herramientas de las que se puede
hacer uso en el proceso de Data Science, no es raro que entre los profesionales de este entorno se
ca
conozca al Data Scientist como el “unicornio” de los datos, ya que es muy difícil que una única
ifi
persona abarque todas las necesidades y tecnologías de esta área, por lo que generalmente para un
rt
proyecto de Data Science se formará un equipo multidisciplinar donde cada miembro dispondrá de
ce
En el libro “Analyzing the Analyzers. An Introspective Survey of Data Scientists and their work” se
El empresario de datos
certificados.institutoeuropa.com
26 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
El creativo de datos
Son aquellos que realizan todo el proceso de análisis por su cuenta, desde la extracción de
El desarrollador de datos
m
Están más centrados en el problema técnico de los datos, cómo conseguirlos, almacenarlos y
co
aprender de ellos.
a.
op
El investigador de datos
ur
Aquellos con una base académica potente en ciencias sociales, estadísticas etc., y cuyo
oe
conocimiento puede conducir a investigar sobre resultados de los datos.
ut
it
La arquitectura Kappa se introdujo en 2014 por Jay Kreps en el artículo "Questioning the Lambda
Architecture".
En dicho artículo, Jay Kreps, señala los posibles puntos "débiles" de la arquitectura Lambda y la
certificados.institutoeuropa.com
27 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
La propuesta que hizo fue la de eliminar la Batch Layer (Capa Batch) dejando solamente la capa de
streaming.
Al contrario que la capa batch, esta capa no tiene principio ni fin en el sentido temporal por lo que
está procesando nuevos datos de forma continua conforme estos datos van llegando.
m
co
a.
op
ur
oe
ut
Podríamos decir que, ya que un proceso batch es como un stream acotado, el procesamiento batch
it
Esta evolución supone simplificar la arquitectura lambda en el que el procesamiento se lleva a cabo
.in
en una sola capa (Real-time Layer o capa en tiempo real) en la que se da soporte tanto a
s
A modo de resumen, la arquitectura Kappa tiene los siguientes cuatro pilares principales:
certificados.institutoeuropa.com
28 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Previamente, hay que garantizar que se leen y almacenan los eventos según se han generado.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
29 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Apache Flink es un framework de código abierto desarrollado por la fundación Apache. El núcleo
de Apache Flink es un motor de flujo de datos escrito en Java y Scala. Flink ejecuta programas de
una manera paralela a los datos y de forma canalizada. Flink soporta la ejecución de algoritmos
iterativos de forma nativa. Flink ofrece un motor de transmisión de alto rendimiento y baja latencia,
así como soporte para el procesamiento de eventos y gestión del estado. Las aplicaciones de Flink
son tolerantes a fallos en caso de falla de la máquina. Los programas se pueden escribir en Java,
m
Scala Python y SQL, estos programas se compilan y optimizan automáticamente en programas de
co
flujo de datos que se ejecutan en un entorno de cluster o nube.
a.
op
ur
oe
ut
it
st
Consistencia.
ca
Baja latencia.
ifi
Tolerancia a fallos.
rt
Eventos desordenados.
Componentes fundamentales
certificados.institutoeuropa.com
30 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
Flink está sustentado bajo el Flink Core donde están todas las APIs y librerías, entre ellas el
co
optimizador de programas Flink.
a.
Las 2 APIs sobre las que corre flink-core y que especifican el comportamiento y el entorno de trabajo
op
de los programas que se ejecutan sobre el son:
ur
DataSet API: Entorno de ejecución donde la transformación de los conjuntos de
oe
datos son cogidos de fuentes más estáticas (bases de datos locales, ficheros,...).
ut
Las últimas versiones de Apache Flink incorporan un conjunto de librerías adicionales que forman
s
do
learning.
rt
Table API: API que permite usar expresiones escritas en lenguaje SQL.
Cuando un proceso va a ejecutarse, Flink lanza un JobManager que coordina todo el sistema y 1 o
certificados.institutoeuropa.com
31 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
ur
oe
Fuente: https://www.adictosaltrabajo.com
ut
En este punto, parece necesario comparar Flink con el producto estrella de la computación
.in
Externamente, Flink se parece bastante a Spark, pero la gran diferencia está en el interior ya que
do
mientras que Spark consigue este efecto gracias a pequeños procesos por lotes que se procesan de
ifi
La abstracción es otro de las diferencias entre ambos. Flink procesa, en tiempo real, registro
Un programa simple de Flink que cuenta palabras de un continuo stream de datos en grupo de
certificados.institutoeuropa.com
32 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
Como podemos observar funciona de manera similar a Spark procesando datos en tiempo real de un
ur
servidor. oe
Flink al igual que Spark podemos utilizarlo para realizar minería de datos de un continuo flujo de
ut
datos y recoger datos que contengan una determinada palabra o grupo de palabras por ejemplo en
it
una investigación de mercada podemos recoger todos los datos que contengan la palabra marca
st
Conclusiones
do
Apache Flink está destacando desde el comienzo gracias a ese pensamiento de cambiar
ca
Hay que permanecer atentos a la evolución de Apache Flink ya que parece el futuro.
ce
certificados.institutoeuropa.com
33 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
34 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Druid.
Druid es un Sistema de datos distribuidos orientado a columnas de código abierto escrito en Java.
Druid está diseñado para “ingerir” grandes cantidades de datos de evento y realizar consultas sobre
los datos para poder visualizarlos. Druid es comúnmente usado en aplicaciones de inteligencia de
Se utiliza Druid para impulsar aplicaciones interactivas en las cuales es muy importante el tiempo de
m
actividad, el rendimiento y la simultaneidad.
co
a.
op
ur
oe
ut
Fuente: druid.io
it
st
Inicialmente, Druid se creó para poder tener una aplicación que fuera escalable, visual y en la que
.in
Comenzar Actividad
ifi
rt
certificados.institutoeuropa.com
35 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Diseño
El diseño se centra en unificar ideas de sistemas de búsqueda, bases de datos analíticas y bases de
datos de tiempos compartidos para realizar un sistema central para el análisis operativo.
m
Estas ideas centrales incluyen:
co
a.
Almacenamiento orientado a columnas
op
Cada columna es guardada y comprimida por Druid de forma individual y solo es
ur
necesario leer las adecuadas para una consulta lo que permite análisis rápidos, groupBys
oe
y clasificaciones.
ut
Para la búsqueda rápida y el filtrado, Druid crea índices invertidos para los valores de
.in
cadena.
s
do
Esquemas flexibles
ce
Druid particiona de forma inteligente, basándose en el tiempo, los datos y las consultas
sobre estos datos son bastante más rápidas que en las bases de datos tradicionales.
certificados.institutoeuropa.com
36 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Escalable horizontalmente
Es usado para ingerir millones de eventos por segundo. Las consultas proporcionadas en
m
co
Fácilmente operable
a.
Druid, de forma automática, reequilibra escalando hacia arriba o abajo según necesite.
op
Es tolerante a fallos.
ur
oe
Arquitectura Druid
ut
Druid se lanza sobre nodos (conjuntos de procesos) para que la arquitectura sea tolerante a fallos ya
it
certificados.institutoeuropa.com
37 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Fuente: Wikipedia.
Gestión de consultas
Inicialmente, las consultas van a los nodos del intermediario. Este reenvía estas
Ya que los segmentos de Druid pueden estar particionados, una consulta puede necesitar
m
distintos nodos en el clúster. Los intermediarios pueden conocer donde están los datos
co
requeridos para cada nodo y, antes de devolver un resultado agregado, combinar
a.
resultados parciales.
op
ur
Gestión de clusters oe
Todas las operaciones que tengan relación con la gestión de datos que se encuentren en
ut
Apache ZooKeeper es utilizado para registrar cada nodo, administrar algunos aspectos
st
Características
ca
Casos de uso
Varias de las empresas más grandes y líderes del mundo, en las que existen más de mil servidores e
certificados.institutoeuropa.com
38 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Analizar el rendimiento.
Aumentar eficiencia.
Diagnosticar problemas.
m
Druid requiere Kafka que será de donde recoja los datos en tiempo real.
co
Una vez tengamos descargado la distribución de druid y descomprimida vamos a descargar nuestro
a.
portal de ayuda que cargará edits de Wikipedia directamente a Kafka:
op
ur
curl -O http://static.imply.io/quickstart/kafka-wikiticker.tar.gz
oe
tar -xzf kafka-wikiticker.tar.gz
ut
Una vez realizado estos iniciaremos Imply, que incluye druid, Pivot y ZooKeeper. Podemos usar el
it
cd imply-1.2.1
s
bin/supervise -c ../kafka-wikiticker/conf/quickstart.conf
do
ca
curl -O http://packages.confluent.io/archive/3.0/confluent-3.0.0-2.11.tar.gz
rt
cd confluent-3.0.0
./bin/kafka-server-start ./etc/kafka/server.properties
Para visualizar los datos nos iremos a pivot desde la dirección localhost:9095/pivot:
certificados.institutoeuropa.com
39 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
De esta manera podremos visualizar datos de manera sencilla y simple.
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
40 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
ElasticSearch.
búsqueda de texto completo, con capacidad de multi-tenencia y es distribuido con una interfaz
m
co
a.
ElasticSearch utiliza Query DSL para realizar consultas a los documentos indexados. ElasticSearch
op
es un lenguaje sumamente flexible y de gran alcance que nos permite explorar y conocer los datos
ur
de la mejor manera. Al utilizar una interfaz JSON, las consultas son sencillas de depurar y de leer.
oe
ut
it
st
Comenzar Actividad
.in
Hay varias librerías que permiten poder trabajar con los datos mediante multitud de lenguajes de
programación.
certificados.institutoeuropa.com
41 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Se puede trabajar, por ejemplo, con Java, PHP, C#, Ruby, Javascript,...
También podemos aumentar las prestaciones sobre algunos aspectos del flujo de trabajo de las
permiten extenderlo.
m
Elastic Search: Sistema basado en JSON, distribuido, con un escalamiento
co
horizontal y alto rendimiento.
a.
utilizando plugins.
op
Kibana: Sistema que permite, mediante una interfaz gráfica, dar forma a los datos
ur
y administrar/visualizar los reportes. oe
Beats: Plataforma para la carga de información. Permite comunicar datos entre
ut
Uso en Cloud
.in
La principal potencia que tiene Elastic Search es la de poder trabajar en la nube para la obtención
s
do
Permite trabajar globalmente dando soporte a cualquier cantidad de servidores ó sistemas que
ifi
recopilen información.
rt
Se puede usar tanto en un único equipo recopilando datos de log de un único servidor como para la
ce
Debido a ello, grandes empresas ven en Elastic Search una herramienta perfecta para comprender
Tipos de consultas
En Elastic Search, una consulta tiene la siguiente estructura: "query" seguida de condiciones ó
certificados.institutoeuropa.com
42 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
filtros.
Es la consulta más básica. El resultado de ella es el de todos los objetos que estén
indexados.
m
co
a.
op
ur
oe
"Match query"
ut
valor.
st
.in
Como ejemplo, si buscamos todos los objetos que tengan color verde, la consulta
quedaría así:
s
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
43 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
"Term queries"
co
Es un tipo de consulta que permite la búsqueda de datos que contengan un determinado
a.
valor exactamente. Se diferencian de las match queries en que las match queries
op
buscaran todas las palabras que contengan el valor buscado, mientras que las term
ur
queries solo si la palabra coincide totalmente con lo buscado. Por ejemplo si buscamos
oe
"puerto" usando match, nos saldrán también palabras que incluyan puerto, como
"Range query"
rt
En este tipo de consultas se pueden usar distintos operadores ("gte": mayor o igual a
determinado valor, "gt": mayor a determinado valor, "lte": menor o igual, "lt": menor).
certificados.institutoeuropa.com
44 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
Existen más opciones, operadores y filtros, sobre todo si son combinados entre ellos.
a.
Ventajas
op
Las principales ventajas que otorga el uso de Elastic Search son:
ur
oe
Compatibilidad con todas las plataformas que estén desarrolladas en Java.
ut
Desventajas
ca
Solo soporta respuestas de tipo JSON, lo que hace limitado su uso al no soportar
ce
Como ejemplo de usuarios ó empresas que utilizan Elastic Search podemos nombrar:
Wikimedia
Mozilla
certificados.institutoeuropa.com
45 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Quora
StumbleUpon
GitHub
CERN
Stack Exchange
m
co
a.
op
ur
oe
ut
it
distribución, descomprimirlo y ejecutar el programa. ElasticSearch utiliza el puerto 9200 por defecto
.in
para funcionar.
s
do
Podemos definir en ElasticSearch como queremos que haga las búsquedas sobre los campos de un
documento. Vamos a ver el ejemplo de un libro que tiene como propiedades nombre y descripción en
certificados.institutoeuropa.com
46 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
Vamos ahora a indexar un documento:
op
ur
oe
ut
it
st
Si queremos ver los datos del documento realizaremos una peticion Get a la url del documento:
.in
"query" : {
rt
ce
}'
En este código estaremos realizando una búsqueda de un documento que tenga como descripción
en español tapestry.
certificados.institutoeuropa.com
47 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Logstash.
Logtash es una herramienta que nos sirve para administrar logs. Esta herramienta puede
recolectar, parsear y guardar logs para futuras búsquedas. Logstash está basada en JRuby.
Logstash soporta entradas, codecs, filtros y salidas. Las entradas serán los datos. Los codecs
convierten un formato de entrada a un formato aceptado por Logstash, también transforman del
formato Logstash al formato de salida que deseemos. Los filtros son acciones utilizadas para
m
procesas los eventos permitiendo además modificarlos o eliminarlos después de ser procesados. Las
co
salidas son los destinos donde los datos procesados serán enviados.
a.
La principal diferencia de Logstash consiste en que tiene un gran número de plugins para las tres
op
partes de las que se compone.
ur
oe
ut
it
Comenzar Actividad
st
nos sirve
ca
JRuby.
Logstash está basada en 2
ifi
rt
ce
Características y diseño
certificados.institutoeuropa.com
48 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Los códecs convierten el formato de la entrada en uno que sea aceptado por Logstash y también del
Los filtros se usan para procesar acciones en los eventos y da la posibilidad de modificar o eliminar
Las salidas son los destinos donde la información/datos tienen que ser enviados.
m
co
Arquitectura
a.
Cada servidor web tiene que configurarse bajo una infraestructura distribuida para correr
op
Lumberjack.
ur
Lumberjack realiza un forward de los logs a un servidor. oe
Al requerir SSL, los logs se encriptan del servidor web al servidor de logs central.
ut
it
Disponibilidad
st
Al tener un servidor de logs central, existe la debilidad de que es único frente a fallos.
s .in
Se debe pensar en una opción que tenga en cuenta la disponibilidad del sistema.
do
Logstash se puede configurar para usar varios servidores pero los logs solamente se enviarán a uno
ca
Si este servidor de logs fallase, no se podrían acceder a todos los logs que se hayan
ce
Falta de consistencia
certificados.institutoeuropa.com
49 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Existen muchos dispositivos que tienen logs y dentro de los servidores hay varios
poder acceder a dichos logs para comprobarlos y existe una gran dificultad, ya que los
Formato de tiempo
m
co
Cada log puede tener un formato de tiempo distinto.
a.
op
Descentralización
ur
Los logs se reparten entre todos los servidores. Cada servidor dispone de un tipo de log
oe
y dentro de el pueden existir distintas rutas para encontrarlos.
ut
existen pocos servidores, pero si existen muchos entonces esta opción no es factible.
st
.in
Falta de conocimientos
s
do
procederemos a probarlo:
Este comando está indicando a Logstash que la entrada sea la entrada de teclado y la salida sea la
terminar (stdout). Ahora si escribimos cualquier cosa en la terminal, Logstash nos responderá con el
certificados.institutoeuropa.com
50 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Si queremos que nos lleve un registro de un log de alguna aplicación del sistema o de alguna
aplicación en el archivo.conf modificaremos la entrada para elegir el archivo del que queremos
llevar el seguimiento:
m
co
Aquí por ejemplo estamos definiendo el archivo log de un servidor apache tomcat.
a.
Conclusión
op
Logstash es una herramienta que tiene muchísimo potencial, sobretodo si se utiliza junto con Elastic
ur
Search.
oe
Es un punto a tener en cuenta con respecto al procesado de logs para nuestras aplicaciones.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
51 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Kibana.
m
co
a.
op
Se puede crear gráficos y mapas de volúmenes de datos muy grandes.
ur
Combinar Elastic Search, Logstash y Kibana se conoce como "Elastic Stack" (ELK) y está disponible
oe
como servicio.
ut
Kibana al ser solo un plugin de visualización es muy fácil de configurar. Una vez lo tengamos
it
st
Estamos definiendo el puerto por el que funcionara Kibana y la URL que usa Logstash.
rt
certificados.institutoeuropa.com
52 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
ur
oe
ut
it
Vamos a crearnos ahora un índice como ya hicimos en el punto anterior por ejemplo de un servidor
st
certificados.institutoeuropa.com
53 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
Nos aparecerá el siguiente asistente, definiremos el índice como logstash-* y en la siguiente ventana
ca
Le daremos a “Create Index pattern” y ya estaremos listos para analizar los datos. Nos iremos a la
rt
certificados.institutoeuropa.com
54 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
co
a.
op
ur
oe
ut
it
st
Como podemos ver estaremos visualizando los logs de forma gráfica y ordenada por tiempo.
.in
Motivación
s
do
Este stack ELK es una herramienta perfecta para agregar, visualizar y analizar logs, aunque su
ca
De forma individual, la instalación de cada uno de los componentes de este stack ELK (Elastic
ce
Afortunadamente, existen herramientas como Docker y Docker Compose que permite crear
Como resumen, podemos comprobar en la siguiente imagen como sería la arquitectura y la toma de
certificados.institutoeuropa.com
55 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Fuente: https://openwebinars.net
m
Logstash proporciona una secuencia de entrada a ElasticSearch para el almacenamiento y la
co
búsqueda, y Kibana accede a los datos para visualizarlos, como paneles, para poder así
a.
monitorizarlos.
op
ur
Conclusión oe
Como hemos comprobado, utilizando un stack ELK, disponemos de una forma de recolectar
ut
información (Kibana).
it
st
Un ejemplo muy útil de uso sería el de explotar los logs de nuestras aplicaciones.
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
56 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
57 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
Autoevaluación
La nube hÍbrida…
m
Se trata de un modelo de nube que no aprovecha las características ventajosas de los
co
modelos de nube privada y de nube pública.
a.
op
Se trata de un modelo de nube que pretende aprovechar las características más
ventajosas de los modelos de nube privada pero no de nube pública.
ur
oe
La ciencia de datos…
ut
it
múltiples fuentes.
s
do
de múltiples fuentes.
Apache Flink…
certificados.institutoeuropa.com
58 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080716] SISTEMAS DE COMPUTACIÓN HÍBRIDOS.
m
“ingerir” grandes cantidades de datos de evento y realizar consultas sobre los
co
datos para poder visualizarlos”.
a.
op
Verdadero.
ur
Falso.
oe
ut
Verdadero.
do
ca
Falso.
ifi
rt
ce
certificados.institutoeuropa.com
59 / 59
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Introducción
El concepto de cloud computing representa un nuevo modelo de informática que puede tener tanta
o más relevancia que la propia Web. Se trata de la evolución de una serie de tecnologías que afectan
a las distintas estrategias de las organizaciones en el momento en el que tienen que plantearse sus
Con la entrada del cloud computing, las empresas ya no tienen tanta necesidad de disponer de
m
dispositivos de almacenamiento físico para gestionar su información ya que, a través de la nube,
co
pueden acceder a sus datos prácticamente desde cualquier ubicación con acceso a Internet.
a.
En cuanto a la definición de cloud computing, hay que decir que no existe una definición estándar
op
que esté aceptada de forma universal. No obstante, hay ciertos organismos internacionales
ur
dedicados a la estandarización de las tecnologías de la información y, especialmente, del cloud
oe
computing.
ut
Uno de los organismos más reconocidos es el NIST (National Institute of Standards and Technology)
it
“Un modelo que permite el acceso bajo demanda a través de la red a un conjunto compartido de
aplicaciones y servicios) que pueden aprovisionar rápidamente con el mínimo esfuerzo de gestión o
certificados.institutoeuropa.com
1 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Objetivos
Conocer las funciones y características de las plataformas Amazon Web Services y Google
Cloud Platform.
Identificar las propiedades y funcionalidades que estas plataformas pueden aportar a nuestras
necesidades.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
2 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
grandes empresas producidos a lo largo de las últimas décadas le unimos la creciente utilización de
m
personales tradicionales.
co
Por ello, para satisfacer las necesidades de las organizaciones que trabajan con elevados volúmenes
a.
de datos, en los últimos años se ha ido produciendo una interesante evolución de las arquitecturas
op
de cálculo fundamentada principalmente en la realización y ejecución de procesos de forma
ur
simultánea en varios equipos informáticos. oe
Se considera a la nube como una evolución natural de Internet. En sus orígenes, Internet fue
ut
desarrollada como una red basada en protocolos TCP/IP y, a raíz de ahí, fueron emergiendo
it
aplicaciones focalizadas en la comunicación entre distintos usuarios como, por ejemplo, el correo
st
Con la llegada de la World Wide Web a inicios de los años noventa, se convirtió a Internet en una
s
do
gran fuente de información, datos y contenido que, combinada con la aparición de los navegadores
ca
(como Internet Explorer), llegó a alcanzar al público en general y, por tanto al mundo comercial
Pocos años más tarde y, una vez estandarizado la utilización de Internet, las empresas vieron en ella
ce
como una forma de alcanzar nuevos mercados a través de aplicaciones basadas en e-business:
A pesar de estallar la burbuja de las “punto-com”, el avance de Internet apenas se vio frenado. De
aportar una mayor facilidad de acceso a recursos informáticos y a aplicaciones en Internet, a partir
de servicios como:
certificados.institutoeuropa.com
4 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Virtualización
Grid computing
Utility computing
De este modo, con la aparición de estas nuevas iniciativas, se logró incrementar la presencia de
Internet en el día a día de las personas y de las organizaciones en general llegando incluso a
m
dispositivos más allá de los ordenadores personales como los smartphones, dispositivos móviles e,
co
incluso, los sensores.
a.
op
El origen del término “cloud computing” se sitúa en 1997, donde Ramnath Chellappa lo define
como:
ur
oe
“Un nuevo paradigma en la computación donde los límites de la computación serán determinados
Sin embargo, el comienzo de las investigaciones en cloud computing se sitúan sobre 2006, año en el
st
computación en la nube para definir la nueva situación en la que la gente accede con más frecuencia
s
a través de la web al software, a los archivos y a los datos en general en lugar de utilizar sus
do
ordenadores de sobremesa.
ca
infraestructura. Fue en 2006 cuando George Gilder, en un artículo de la revista Wired titulado “Las
ce
certificados.institutoeuropa.com
5 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
investigación a gran escala desarrollado por Google, IBM y varias universidades norteamericanas y
se creó Eucalyptus, la primera plataforma de código abierto AWS API a través de la cual se podían
crear sistemas en la nube compatibles con los servicios web de Amazon. Fue el lanzamiento y
Con la aparición de las nubes privadas, han surgido varias polémicas y dudas sobre el tratamiento
de la información, donde la seguridad y la privacidad del cloud computing son unos de los temas que
m
co
Recientemente, en 2014 ya está comenzando a tomar forma un nuevo modelo: la federación de
clouds o cloud federation. Se trata de construir y gestionar recursos y datos de distintas nubes
a.
públicas a través de software de orquestación con la finalidad de aprovechar el gran potencial de
op
todas ellas.
ur
oe
No obstante, aunque en la actualidad ya contamos con numerosos proveedores de servicios de
cloud computing, es bien cierto que la gran mayoría de ellos no son del todo confiables por fallas
ut
en su infraestructura o vulnerabilidades.
it
st
Si a ello le sumamos los asuntos relacionados con la legalidad de la información que circula a través
.in
largo camino por recorrer para garantizar unos servicios de calidad y unos estándares de seguridad
s
do
de la información.
ca
El concepto de cloud computing representa un nuevo modelo de informática que puede tener tanta o
ce
más relevancia que la propia Web. Se trata de la evolución de una serie de tecnologías que afectan a
las distintas estrategias de las organizaciones en el momento en el que tienen que plantearse sus
Con la entrada del cloud computing, las empresas ya no tienen tanta necesidad de disponer de
pueden acceder a sus datos prácticamente desde cualquier ubicación con acceso a Internet.
certificados.institutoeuropa.com
6 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
La informática en la nube, en sí, no ha conllevado la creación de nuevas tecnologías, sino que está
a.
formado por un compendio de estas como, por ejemplo:
op
ur
Virtualización
Almacenamiento físico
oe
Almacenamiento en la web
ut
Centros de datos
it
Aplicaciones web
.in
Aunque en un principio cuando escuchamos hablar de “la nube” podemos compararla con la
ca
definición de Internet, no es así. La nube va mucho más allá: se trata de un nuevo modelo a través
ifi
del cual se permite al usuario utilizar tecnología justo en el momento en el que se necesita sin
rt
además, se permite a los usuarios pagar sólo por la tecnología que necesitan en el momento en el
que vayan a utilizarla, sin más; cuando no se utiliza no se paga, pudiendo incluso llegar a ser
En cuanto a la definición de cloud computing, hay que decir que no existe una definición estándar
que esté aceptada de forma universal. No obstante, hay ciertos organismos internacionales
computing.
certificados.institutoeuropa.com
7 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Uno de los organismos más reconocidos es el NIST (National Institute of Standards and Technology)
“Un modelo que permite el acceso bajo demanda a través de la red a un conjunto compartido de
aplicaciones y servicios) que pueden aprovisionar rápidamente con el mínimo esfuerzo de gestión o
m
Según el NIST, el modelo de la nube está formado de cinco características fundamentales, tres
co
modelos de servicio y cuatro modelos de despliegue. De hecho, la nube se considera como un
conjunto formado por elementos de software y hardware, almacenamiento, servicios e interfaces que
a.
facilitan la entrada de datos e información como un servicio y se pueden presentar como
op
componentes independientes o bien, como una plataforma completa.
ur
oe
ut
it
st
s .in
do
ca
ifi
Los grupos de interés que forman parte de la computación en la nube son también de lo más
rt
diversos y cuantiosos. Los principales actores del cloud computing son los siguientes:
ce
Proveedores o vendedores
Son los que ponen en contacto a los proveedores y a los clientes. Su tarea básica es crear
servicios para la nube y ofrecerlos y soportarlos a los clientes.
certificados.institutoeuropa.com
8 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Líderes de negocios
Usuarios finales
Son aquellos que utilizan finalmente los servicios que se ofrecen a través de la nube, ya
sea de forma gratuita o realizando algún tipo de pago (periódico o puntual).
El cloud computing engloba tecnologías, servicios y aplicaciones similares a las que se utilizan con
m
Internet y las transforma en utilidades de autoservicio. La utilización de la palabra “cloud” hace
co
referencia a dos conceptos principales:
a.
op
Abstracción: El cloud computing está fundamentada en la abstracción. Las aplicaciones se
ur
ubicaciones desconocidas. Por otra parte, la administración de los sistemas está externalizada y
oe
los usuarios pueden acceder sus datos en cualquier momento, desde cualquier dispositivo y
ut
y agrupando los recursos. Además, los recursos pueden estar disponibles con un elevado grado
do
de agilidad y flexibilidad sin necesidad que los usuarios conozcan con profundidad cuáles son
ca
nube no es nada más que Internet con otra denominación. La confusión tiene su punto de lógica ya
que Internet y cloud computing comparten bastantes características. No obstante, no hay que
olvidar que, a pesar que ambos ofrecen abstracción y utilizan los mismos protocolos, estándares,
sistemas operativos y aplicaciones, el cloud computing es un modelo nuevo que ofrece recursos
cambiar los hábitos y modelos de utilización de las tecnologías de la información los siguientes:
certificados.institutoeuropa.com
9 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Google: Esta gran corporación cuyo servicio principal es un potente motor de búsquedas se ha
ido extendiendo por todo el mundo y ha ido incluyendo cada vez más aplicaciones
tan variados como correo electrónico, agenda, calendario o software ofimático a través de la
nube. Además, estos servicios podemos encontrarlos tanto de forma gratuita como de pago de
m
desarrollada por Microsoft. Ofrece un conjunto de funcionalidades tan variadas como:
co
Windows Azure: Servicio de computación para las aplicaciones.
a.
Windows Azure Storage: Almacenamiento de datos no relacionales
op
SQL Azure: Base de datos relacional en la nube.
ur
Windows Azure AppFabric: Servicio de control de accesos que permite integrar
oe
servicios y aplicaciones que se ejecutan en la nube.
ut
Amazon Web Services: La librería virtual más cuantiosa del mundo Amazon, decidió
Web Services) a través de la cual ofrece servicios globales de informática, bases de datos,
Características
Según el NIST (National Institute of Standards and Techology), el modelo de cloud computing está
certificados.institutoeuropa.com
10 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
ofrecidos a través del cloud computing, sin necesidad alguna de interacción humana con el
disponibles en la Red, lo que permite el acceso a los mismos desde cualquier ubicación y
disponer un sistema operativo concreto o instalar un software específico en cada cliente. Esta
m
característica supone una gran ventaja frente a otras tecnologías, aunque también tiene ciertas
co
limitaciones como la necesidad de conexión a Internet y la dependencia de la calidad y
velocidad de la conexión.
a.
Deslocalización de datos y procesos: En un sistema informático tradicional, el
op
administrador del sistema puede saber en todo momento en dónde se almacena cada dato y en
ur
qué servidor se gestionan los procesos. Sin embargo, el cloud computing a través de la
oe
virtualización de los servicios, ofrece todas las funcionalidades necesarias sin necesidad de
ut
conocer dónde se ubican; se pierde el control sobre la localización. Los proveedores pueden
compartir y agrupar sus recursos para una mayor disponibilidad de los mismos y una reducción
it
st
de los costes. De este modo, los recursos son más fáciles de compartir entre sus clientes: se
.in
trata de ofrecer las funcionalidades justas, en el mismo momento en el que son demandadas.
ifi
De este modo, por la gran escalabilidad y flexibilidad de esta tecnología, los proveedores
rt
de los recursos de forma automática. De este modo, la utilización de recurso puede ser
certificados.institutoeuropa.com
11 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Aunque no está específicamente comentada por el NIST una característica de especial relevancia
del cloud computing es la alta dependencia de terceros. Se trabaje con el tipo de nube que se
trabaje, siempre habrá una empresa contratada que sirva de proveedor de los servicios necesarios
que será el que se encargue del mantenimiento del hardware y del establecimiento de los recintos
especializados para la gestión de los recursos. Los proveedores de servicios no sólo hospedan un
servidor web, sino que también se encargan de todos los procesos y de la seguridad de la
m
información.
co
La Nube y los negocios
a.
op
Los beneficios generales de la utilización de servicios en la nube están más que claros: reducción
ur
en marcha de nuevos servicios, reducción de gastos en mantenimiento e instalaciones, etc.
oe
Pero estos beneficios generales no son los únicos que influyen muy positivamente en el momento
ut
nube en la empresa puede generar numerosas ventajas competitivas en calidad, coste, rentabilidad,
st
Más concretamente, podemos establecer una serie de ventajas que puede aprovechar cualquier tipo
do
nube, evitamos grandes desembolsos iniciales ya que no necesitamos adquirir grandes equipos
rt
la red.
certificados.institutoeuropa.com
12 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
Reducidos costes corrientes: Además de requerir poca inversión inicial, sólo pagamos por
los servicios que necesitamos en cada momento por lo que los costes corrientes (o costes fijos)
ur
pueden llegar a ser muy reducidos.
oe
Menor riesgo: Generalmente, cualquier proyecto de desarrollo necesita unas estimaciones
ut
previas en coste y tiempo sobre los requisitos necesarios de almacenamiento, memoria, etc.;
it
estimaciones que no siempre pueden llegar a cumplirse y pueden conllevar costes importantes.
st
Al requerir menor inversión inicial, las estimaciones necesarias para poner en marcha el
.in
proyecto son mucho más simples y flexibles, lo que conlleva un menor riesgo de error.
s
concienciados con la preservación del medio ambiente, por lo que suelen construir sus centros
rt
de datos respetando los ecosistemas en los que se ubica, intentando cumplir en todo momento
ce
Además de las ventajas de carácter general, en el mundo empresarial la nube aporta un gran
certificados.institutoeuropa.com
13 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
Beneficios operacionales
op
Los beneficios operacionales son aquellos que se producen por la forma en la que opera la empresa,
ur
oe
Los principales beneficios operacionales que puede aportar el cloud computing son los siguientes:
ut
que la de una red de carácter privado. Además, la nube permite ampliar el espacio requerido
s
do
Flexibilidad: Las aplicaciones pueden comprobarse y desplegarse con facilidad de modo que si
ca
una no funciona correctamente o según lo esperado, es mucho más sencillo cambiar a otra.
ifi
Mayor movilidad: El acceso a la nube se puede realizar desde cualquier ubicación desde la
tareas de carácter más fundamental, así como a otras tareas tecnológicas que sin este ahorro
certificados.institutoeuropa.com
14 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Beneficios económicos
m
computing permite ahorrar tiempo e inversión en recursos humanos. Por ello, la empresa
co
puede optar por ahorrar costes prescindiendo de profesionales, por mejorar en especialización
a.
y productividad, incrementando la intensidad de trabajo del personal especializado en TI
op
(tecnologías de la información) en tareas fundamentales o por redistribuir al personal en otras
ur
Hardware: Se reducen los costes y las inversiones en componentes físicos como procesadores,
oe
redes, dispositivos y unidades de almacenamiento, etc,… Si se necesitan más funcionalidades,
ut
Pago por uso: El cloud computing permite a la empresa pagar sólo por aquellos servicios que
st
utiliza en cada momento, de modo que se consigue una mejor estimación de los recursos
.in
necesarios y permite una corrección más rápida del exceso de inversión en recursos o de la
s
este modo, una empresa puede ofrecer más rápidamente sus servicios al mercado y adaptarse
rt
a las necesidades de éste ya que no se requieren nuevas infraestructuras, sino que sólo es
ce
Las ventajas para el personal de las organizaciones se multiplican con la utilización de las
certificados.institutoeuropa.com
15 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Además, en general, las aplicaciones que se utilizan en entornos web suelen ser más colaborativos
m
co
a.
Beneficios para el consumidor
op
Los consumidores de servicios de cloud computing también pueden beneficiarse de múltiples
ur
ventajas de la computación en la nube: oe
No requieren ningún tipo de instalación ni mantenimiento del software para la utilización de
ut
los servicios.
it
El tiempo de despliegue es más reducido ya que tanto los servidores como las aplicaciones
st
Adhesión al acuerdo de nivel de servicio o SNA (SLA, Service Level Agreement): Se trata de un
s
contrato escrito entre el proveedor de servicio y su cliente en el que se fija un nivel de calidad
do
determinado. Con la adhesión a este tipo de contratos, el consumidor tiene garantizado en todo
ca
momento una calidad mínima. Por ejemplo, si se produce algún error en la ejecución de las
ifi
reparación.
ce
Los consumidores dispondrán en todo momento de las aplicaciones actualizadas, ahorrando por
Además de los consumidores, los proveedores también pueden aprovecharse de una serie de
beneficios, como los siguientes:
certificados.institutoeuropa.com
16 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Predictibilidad del flujo de ingresos: Los clientes pagan un mínimo de cuota de suscripción
Investigación de mercados: Con los datos facilitados por los clientes y el uso de los distintos
servicios ofrecidos, el proveedor puede realizar estudios de mercado para conocer mejor su
comportamiento. Hay que tener en cuenta que el software que utilizan los consumidores está
m
Calendarización de actualizaciones: El equipo de desarrollo del proveedor puede gestionar
co
y periodificar con mayor facilidad la gestión de los procesos de errores y de las aplicaciones de
modo que se realicen actualizaciones, controles y revisiones de forma continua cada cierto
a.
período de tiempo.
op
Potenciación del marketing relacional: Con los servicios de cloud computing, los
ur
proveedores pueden fomentar y potenciar las relaciones con sus clientes ya que el sistema de
oe
pago por suscripción facilita el establecimiento de relaciones más rápidamente y favorece la
ut
fidelización.
it
st
Aunque en unidades didácticas posteriores analizaremos con mayor profundidad los distintos
s
modelos de la nube, en este tema introductorio es conveniente realizar una breve descripción de los
do
mismos. La clasificación más utilizada para los modelos de la nube los divide en dos conjuntos
ca
claramente diferenciados:
ifi
rt
ce
certificados.institutoeuropa.com
17 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
Pública: Al contrario que en las nubes privadas, los servicios de las nubes públicos
organizado para servir a un fin común, para una o varias organizaciones que
certificados.institutoeuropa.com
18 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Modelos de servicio: Hacen referencia a los tipos específicos de servicios a través de los
cuales se puede acceder en una plataforma de cloud computing. Son los siguientes:
usuario corren en una infraestructura cloud, donde el usuario no dispone ningún tipo
m
infraestructuras propias en la infraestructura cloud de su proveedor siendo este el
co
que ofrece la plataforma de desarrollo y las herramientas de programación. El
a.
control de la aplicación lo lleva a cabo el usuario, aunque no de toda la
op
infraestructura.
ur
recursos (capacidad de procesamiento, almacenamiento o comunicaciones) para
oe
ejecutar cualquier tipo de software.
ut
it
st
Hardware Cloud
.in
Uno de los pilares fundamentales del cloud computing es la virtualización. Se trata de la utilización
s
de los recursos de los ordenadores para simular a otros recursos de estos o los propios ordenadores
do
en su totalidad.
ca
operativo de la máquina virtual (llamada también virtual machine o huésped). Así, se crea una
ce
versión virtual de un dispositivo o recurso que puede ser desde un servidor, un dispositivo de
almacenamiento, una red o, incluso un sistema operativo o bases de datos. En otras palabras, la
implementaciones físicas.
certificados.institutoeuropa.com
19 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Si lo vemos desde un punto de vista más práctico, la virtualización permite que varias máquinas
m
virtuales con sistemas operativos heterogéneos puedan ejecutarse de forma individual pero en la
co
misma máquina. Cada máquina virtual tiene su propio hardware virtual, donde se cargan tanto el
a.
sistema operativo como las aplicaciones. De esta forma, el sistema operativo trata al hardware como
op
un conjunto independientemente de los componentes físicos que formen parte de éste.
ur
Las principales ventajas que aporta la virtualización son las siguientes:
oe
ut
Permite gestionar el centro de procesamiento de datos (data center o CPD) como una
s
do
en la infraestructura.
ca
Agilización de los procesos de prueba de nuevas aplicaciones gracias a las mejoras de los
ifi
procesos de clonación y copia de sistemas. Resulta más sencillo crear entornos de prueba sin
rt
Aislamiento de las máquinas virtuales, por lo que si hay un fallo general de sistema de alguna
servidores físicos.
logra que cada máquina virtual ejecute los procesos en el servidor físico más apropiado.
certificados.institutoeuropa.com
20 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
(paravirtualization).
m
co
a.
op
Virtualización completa
ur
En la virtualización completa se produce una abstracción total del sistema físico fundamental; todo
oe
el hardware es emulado en un sistema virtual completo. No se requiere ningún tipo de modificación
ut
virtualizado de modo que pueden ejecutarse en la máquina virtual (VM) como si se tratase de un
.in
sistema físico.
s
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
21 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Se aíslan por completo las máquinas virtuales entre sí y con el sistema operativo anfitrión.
Permite el control del acceso de las máquinas virtuales a los recursos del sistema y previene
real, las máquinas virtuales pueden trabajar con distintos hardware sin presentar ningún tipo
de problema.
m
co
Conlleva un coste en rendimiento elevado.
Los núcleos de los sistemas operativos están diseñados para que corra en modo privilegiado, lo
a.
que conlleva pérdidas de agilidad en la ejecución de ciertas operaciones.
op
ur
Paravirtualización oe
A través de la paravirtualización, las máquinas virtuales presentan una abstracción del hardware
ut
similar al hardware físico fundamental, sin ser idéntico a este, por lo que las técnicas de
it
paravirtualización necesitan realizar una serie de modificaciones sobre los sistemas operativos
st
En estos casos ya no se emula el sistema completo, sino que se opera con un sistema operativo que
se ha ajustado previamente para operar en una máquina virtual. Además, ofrece la posibilidad que
ifi
certificados.institutoeuropa.com
22 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
La paravirtualización se recomienda sobretodo en los siguientes supuestos:
ur
oe
ut
Recuperación de desastres
it
Ante la ocurrencia de algún tipo de desastre o catástrofe, los sistemas operativos cliente
st
Migración
s
Gestión de la capacidad
ca
ordenador, facilitando acceso lógico a los recursos físicos. De este modo, la virtualización produce
una separación lógica de la petición de algún servicio y los recursos físicos que realmente
proporcionan dicho servicio. Asimismo, según el recurso que se pretenda abstraer y según quién
certificados.institutoeuropa.com
23 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Virtualización de servidores
forma que cada uno tenga las mismas capacidades y la misma apariencia como si fuese una máquina
dedicada. Así, los servidores individuales están divididos en dominios independientes, aislados entre
m
De este modo, con el aislamiento de los dominios se garantiza que los clientes de los distintos
co
sistemas no puedan interferir en la integridad de los demás sistemas. En otras palabras, con la
a.
simultánea en un mismo equipo sin que ninguno de ellos interfiera sobre los demás. El cómputo del
op
equipo físico se reparte entre los distintos sistemas operativos atendiendo a las reglas de
ur
proporcionalidad establecidas previamente. oe
Son varias las ventajas que proporciona la virtualización de servidores:
ut
it
Impide cortes de servicio en el negocio ya que hay un sólido aislamiento de los fallos,
st
más modernos.
do
Permite disponer de un entorno de pruebas sin que ello repercuta en los procesos reales.
ifi
Se trata de uno de los métodos de virtualización más utilizado en el mundo empresarial. Consiste en
vincular varios dispositivos de almacenamiento en lo que es percibido como una única unidad de
almacenamiento en red.
certificados.institutoeuropa.com
24 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
para datos críticos y discos de menor calidad para datos menos imprescindibles.
almacenamiento.
m
co
Virtualización del escritorio
a.
La virtualización del escritorio consiste en manipular el escritorio del usuario de modo remoto. En
op
un escritorio virtual, el equipo no ejecuta las aplicaciones que tiene instaladas en él sino que se
ur
ejecutan en un servidor de un centro de datos.
oe
De este modo, las aplicaciones, datos, ficheros y cualquier otro tipo de aplicación gráfica son
ut
completamente independientes del escritorio real y están almacenados en dicho servidor en lugar de
Así, se permite que el usuario acceda de forma remota a su escritorio desde múltiples dispositivos
.in
que permite que cualquier trabajador con acceso pueda trabajar remotamente en un escritorio
ifi
certificados.institutoeuropa.com
25 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Virtualización de aplicaciones
La virtualización de aplicaciones consiste en ejecutar una aplicación utilizando los recursos locales
en una máquina virtual adecuada para ello. Estas aplicaciones son ejecutadas en un entorno virtual
Una aplicación virtualizada totalmente no se instala en el equipo aunque sí es cierto que se ejecuta
m
como si lo estuviese. De hecho, cuando se ejecuta la aplicación, da la sensación de que esta está
co
directamente conectada con el sistema operativo original.
a.
Este tipo de virtualización se utiliza sobretodo para permitir a aplicaciones con características
op
especiales de compatibilidad ser ejecutadas en sistemas operativos para los cuales no fueron
ur
implementadas.
oe
Virtualización de presentación
ut
control se ejerce desde el equipo cliente gracias al aislamiento del procesamiento de los gráficos y
st
De esta forma se utiliza una sesión virtual a través de la cual las aplicaciones proyectan sus
do
interfaces en los clientes. Este tipo de virtualización puede darse en una sola aplicación o, incluso,
ca
prácticamente incontable. El universo digital de información es de tal magnitud que cada vez resulta
ce
más difícil su control y su gestión óptimos. Este es uno de los principales motivos por los que un
elevado porcentaje de datos que manejamos están almacenados en la nube o se almacenarán en ella.
de la información pasa a convertirse en un servicio al que los clientes pueden acceder con un simple
enlace a Internet.
certificados.institutoeuropa.com
26 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Formalmente, aunque existen numerosas definiciones del término cloud storage, todas coinciden
Chrome,…).
m
independientemente del sistema operativo y de los sistemas de archivos utilizados.
co
a.
El cloud storage cada día está más solicitado, lo que requiere el cumplimiento de una serie de
op
estándares de calidad y de unas funcionalidades que garanticen la fiabilidad del servicio y su
ur
seguridad. Los aspectos más relevantes del servicio de almacenamiento en la nube son los
oe
siguientes:
ut
Confidencialidad
st
Integridad
.in
Disponibilidad
s
Fiabilidad
do
Cortes en suministros
ca
Robo de información
ifi
considerar que los riesgos a los que se exponen los datos almacenados son bastante más cuantiosos
certificados.institutoeuropa.com
27 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
Por ello, todo proveedor de servicios de almacenamiento en la nube debe cumplir especialmente
a.
las consideraciones de seguridad críticas de la información:
op
Confidencialidad: Propiedad que impide la divulgación de información a usuarios no autorizados. La
ur
información sólo debe estar accesible a aquellas personas que tengan la debida autorización.
oe
Integridad: La información debe mantenerse exactamente tal como fue generada, sin ser manipulada
conveniente que se incluyan en el acuerdo de nivel de servicio (SLA) que firmen el cliente y el
do
Confidencialidad
ifi
rt
la nube debe ser capaz de garantizar que la información almacenada esté sólo disponible a aquellos
La gran capacidad de atracción de usuarios hacia los servicios de la nube hace que nos debamos
certificados.institutoeuropa.com
28 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
siguientes herramientas:
información. Así, cuando el usuario quiere acceder a la información necesita una clave que le
permita decodificar los datos. Aunque es posible que un usuario no autorizado acceda a
información cifrada, este requerirá siempre mecanismos de mayor complejidad para ello.
m
co
necesarias para acceder a la información en la nube.
Autorización: El cliente es el que decide quién o quiénes van a ser los que estén autorizados
a.
para acceder a la información almacenada en la nube. Además, existe la posibilidad de
op
conceder permisos de acceso de varios niveles. Por ejemplo, una empresa puede dar acceso
ur
ilimitado a la información al director general y, sin embargo, dar acceso a información sobre
oe
ventas al director del departamento comercial.
ut
Integridad
it
st
posible que los datos estén debidamente cifrados para fines de confidencialidad pero, sin embargo
rt
no se esté utilizando una herramienta adecuada que verifique su integridad. Mientras que la
ce
certificados.institutoeuropa.com
29 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
Disponibilidad
op
Si garantizamos la confidencialidad y la integridad de la información de un cliente, también es
ur
necesario tomar especial atención para garantizar su disponibilidad; es decir, el cliente debe poder a
oe
la información siempre que lo requiera.
ut
complicado que un proveedor ofrezca una disponibilidad del 100%, si es muy recomendable
proveedor de servicios. En otras palabras, deberá encontrar un proveedor con una cierta
rt
Además, también es fundamental para el cliente que el proveedor esté realizando con cierta
periodicidad copias de seguridad de sus datos para evitar pérdidas inesperadas de información.
Fiabilidad
Otra propiedad fundamental que debe considerarse siempre en un servicio del almacenamiento
certificados.institutoeuropa.com
30 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
conlleva puede ser bastante considerable. Los datos importantes no pueden almacenarse en
sistemas inestables o con proveedores que no tengan una cierta estabilidad financiera.
La gran mayoría de los proveedores de este tipo de servicios garantizan su fiabilidad en sus
servicios de redundancia pero hay que considerar que siempre hay una elevada posibilidad que el
sistema sufra algún tipo de caída y deje a los clientes sin poder acceder a su información.
Por ello, es muy recomendable que cuando queramos contratar a un proveedor nos aseguremos que
m
este tenga sistemas y herramientas que prevengan estas caídas y situaciones imprevistas.
co
En el momento de la elección del proveedor, un indicador bastante fiable es su reputación. No
a.
importa tanto el tamaño de la empresa que nos ofrece el servicio de almacenamiento de datos, lo
op
que realmente nos indicará si el servicio es de calidad será su reconocida reputación, su prestigio y
ur
su solvencia dentro del sector.
oe
Cortes en suministros
ut
Toda organización debe ser consciente del riesgo que conlleva almacenar su información en la red
it
st
posibilidad que los proveedores de servicios tengan en ocasiones algún corte en sus servicios.
s
El resultado de un corte en el suministro del servicio conlleva que tanto los clientes como sus datos
do
permanezcan fuera de línea y que, por tanto, no se tenga acceso a los mismos.
ca
Aunque los grandes proveedores siempre intentan minimizar estos cortes y que, en caso de
ifi
producirse, la interrupción sea lo más corta posible, el cliente debe ser consciente en todo momento
rt
Robo de información
ser también conscientes de que la información puede ser robada o visualizada por algún usuario
Existe la posibilidad que si una organización almacena datos en la nube, la competencia acceda a
certificados.institutoeuropa.com
31 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
ellos y los utilice con fines no deseables. Por ello, además de las precauciones de seguridad
comentadas en los apartados anteriores, las organizaciones deben asegurarse que, si se almacenan
datos en la nube, éstos estén debidamente cifrados y se asegure su transferencia y movimiento con
protocolos de cifrado como SSL (Security Socket Layer) para que se establezca un canal seguro
m
co
a.
op
ur
oe
Servidores y virtualización en el cloud storage
ut
virtualización de los servidores y al reemplazo de las unidades físicas por unidades lógicas, sino que
st
saber cómo y dónde se almacenan o de si se hacen o no copias de seguridad ya que esto es asunto
ca
Cuando una organización necesita los datos almacenados, sólo tiene que conectarse a la red y
rt
descargar los datos que requiera. Del mismo modo, no se conoce la ubicación en la que se almacena
ce
la información ni qué ocurre en los distintos sistemas de hardware desde el momento en el que se
El principal beneficio del cloud storage es que un usuario puede recuperar la información
almacenada desde cualquier ubicación con acceso a Internet sin necesidad, tan siquiera, de utilizar
Aunque la cantidad de proveedores de servicios de cloud storage crece día a día, no todos ellos son
lo suficientemente fiables como para confiar nuestros datos en sus servidores. Por ello, es
certificados.institutoeuropa.com
32 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
conveniente que nombremos algunos servicios de almacenamiento en la nube fiables y seguros que
m
co
a.
op
ur
oe
ut
it
st
.in
Dropbox
ca
Dropbox (https://www.dropbox.com/es_ES/)
ifi
es un servicio de cloud storage destacable por su simplicidad de utilización. Para utilizar los
rt
Crear una carpeta en el ordenador en la que copiaremos los archivos que queramos subir a la
nube.
Pulsar sobre ella con el botón derecho del ratón y seleccionar “Dropbox” para compartirla.
Una vez seleccionada la carpeta para compartir, cada modificación que realicemos en ella se
sincronizarán de forma automática en Internet. Todos los archivos que subamos a dicha
carpeta estarán accesibles en línea a través de la página web de Drobpox. Además, permite que
los usuarios compartan carpetas con otros usuarios, aunque utilicen sistemas operativos
certificados.institutoeuropa.com
33 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
distintos.
La principal ventaja que ofrece esta compañía es su escritorio virtual, a través del cual se permite
m
el acceso a los archivos almacenados en varios dispositivos utilizando la misma cuenta. Así, un
co
mismo usuario puede acceder a su información a través de varios sistemas operativos y utilizando
a.
op
Windows OneDrive
ur
Servicio gratuito de almacenamiento en la nube ofrecido por Microsoft en el que se permite
oe
almacenar un volumen de datos de hasta 15GB a cambio sólo de disponer de un registro de
ut
usuario cree carpetas como Favoritos, Fotos, Mis Documentos, Favoritos compartidos, etc,…
.in
También permite la creación de carpetas propias por parte del usuario y la protección de las mismas
s
con contraseñas.
do
ca
Del mismo modo que en Dropbox, los datos almacenados en OneDrive están accesibles desde gran
OpenDrive
ce
Se trata de uno de los servicios de almacenamiento en la nube con mejor ratio de usabilidad y
Ofrecen almacenamiento para un volumen de datos máximo de 5GB gratuitos, aunque puede
Los principales servicios que ofrece OpenDrive (https://www.opendrive.com/) son los siguientes:
certificados.institutoeuropa.com
34 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
Servicio de cloud storage ofrecido por Amazon (https://aws.amazon.com/es/products/storage/) en la
co
que permite almacenar hasta 5 GB (ampliables también a través de suscripciones de pago). El
a.
acceso a los datos es ilimitado y desde cualquier dispositivo y, además se tiene la garantía de
op
calidad, seguridad, y fiabilidad de ser un servicio ofrecido por uno de los proveedores más estables y
seguros de la nube.
ur
oe
ut
También dispone de la aplicación Cloud Drive Fotos, a través de la cual un usuario puede acceder
it
a sus fotos y vídeos personales desde cualquier dispositivo con acceso a la red.
st
iCloud
.in
iCloud (https://www.icloud.com/) es el servicio de cloud storage que ofrece Apple y permite conectar
s
do
todos los dispositivos Apple de un usuario, garantizando que ésta tenga siempre acceso a la última
versión de sus documentos, aplicaciones, notas, contactos, correos electrónicos y demás información
ca
de carácter relevante.
ifi
rt
También se puede utilizar para compartir fotos, ubicaciones, calendarios e, incluso, permite localizar
ce
A través del servicio iCloud Drive, el usuario puede trabajar con prácticamente cualquier tipo de
documento desde cualquier dispositivo iPhone, iPad, iPod Touch, Mac o PC. Se ofrecen 5 GB de
Del mismo modo que en los demás proveedores comentados hasta el momento, se permite la
certificados.institutoeuropa.com
35 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
ur
Servicios Cloud
oe
Son bastante numerosos los informes e investigaciones que prevén un incremente importante del
ut
mercado del cloud durante los próximos años, tanto a nivel de usuario como a nivel profesional.
it
st
Por ejemplo, se estima que la demanda de servicios en la nube por parte de los usuarios se
.in
incremente muy significativamente durante los próximos años, llegando a alcanzar los 3.600
millones de usuarios en un breve período de tiempo. Aunque los principales servicios cloud que
s
do
fundamentarán este crecimiento son los servicios en streaming de música, los videojuegos online y
el cloud storage, es conveniente hablar en esta unidad de servicios tan importantes como el
ca
Desde el punto de vista del usuario, con el cloud computing se inicia una nueva forma de
ce
relacionarse con el entorno en ámbitos tan dispares como: profesional, ocio e, incluso social.
Los beneficios más inmediatos de los servicios cloud ya los hemos ido comentando. No obstante, a
modo de recordatorio, cabe mencionar los siguientes:
Reducción de costes
Simplicidad
certificados.institutoeuropa.com
36 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Un ejemplo en el que podemos observar claramente estas ventajas, podría ser el siguiente.
Hasta que no aparecieron los servicios cloud, cuando un usuario quería utilizar un pack de
software ofimático, tenía que adquirir una licencia de uso del software, descargarlo e instalarlo para
poder utilizarlo en su ordenador personal. Además, para que las aplicaciones funcionasen
m
co
Cuando se deseaba compartir algún archivo, era necesario guardar varias versiones del mismo (por
ejemplo, hay ordenadores que tienen instalada la versión de Word 2003 mientras otros utilizan Word
a.
2010) y enviarlo por correo electrónico o guardarlo en algún dispositivo de almacenamiento
op
externo. Asimismo, cada vez que se realizaba algún cambio en el archivo, debía actualizarse en todos
ur
los dispositivos en los que estaba almacenado. oe
ut
it
st
s .in
do
Sin embargo, con las tecnologías cloud computing se facilita y agiliza el proceso ya que podemos
ca
almacenar y actualizar directamente los archivos en la nube y disponer de ellos desde cualquier
ifi
conexión a Internet ya que, existe incluso la posibilidad de trabajar sobre el documento a través de
ce
Por otra parte, ya no es necesario almacenar varias copias en dispositivos distintos ni tener un
control de las versiones que almacenamos, ya que la actualización del mismo es automática y la
seguridad de los archivos en la nube es considerablemente elevada. Es más, a través de los servicios
cloud varios usuarios podremos trabajar simultáneamente sobre un mismo documento e introducir
En conclusión los servicios cloud han logrado que la única preocupación del usuario sea el pago de
certificados.institutoeuropa.com
37 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
la cuota correspondiente a la suscripción del servicio y tener una buena conexión a Internet,
de complejidad.
Interface) permite separar el software que ejecuta el escritorio del equipo que el usuario manipula
físicamente. En otras palabras, un escritorio virtual separa el sistema operativo y las aplicaciones
m
co
De este modo, el escritorio se ejecuta en modo remoto en otro sistema llamado “servidor de
escritorio” y es imprescindible la existencia de una conexión de red entre el equipo del usuario y
a.
dicho servidor.
op
ur
Así, el escritorio virtualizado no se almacena en el disco local del equipo del usuario, sino que se
oe
almacena en el disco del servidor remoto: todos los programas, aplicaciones, datos y procesos se
La gestión de los escritorios de los usuarios se lleva a cabo de forma centralizada, de modo que
El escritorio “real” del usuario se ubica en un punto fijo pero se puede acceder a él desde
La variedad de dispositivos desde los que un usuario puede acceder a su escritorio es muy
rt
amplia: ordenadores personales, navegadores, tablets, netbooks, etc. Sólo se necesita estar
ce
nube ya que, en lugar de facilitar al usuario un software ejecutado en la nube sobre un sistema
operativo ejecutado a nivel local, ya se lleva todo el entorno del usuario directamente a la nube,
Las tecnologías que facilitan este servicio de escritorio virtual son de lo más variadas, siendo
certificados.institutoeuropa.com
38 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
incluso alguna de ellas de carácter gratuita. Por ello, ya son numerosas las empresas que utilizan
este tipo de tecnologías con la finalidad de aprovechar las sinergias existentes en la gestión y
Hace relativamente pocos años, administrar una gran corporación con multitud de ordenadores era
todo un reto ya que se necesitaba el despliegue distribuido de gran cantidad de sistemas operativos
y muchas aplicaciones software en varias delegaciones, que debían administrarse, a su vez, de forma
m
humanos.
co
El escritorio virtual, al centralizar toda la capacidad de proceso, memoria y almacenamiento en un
a.
solo centro de recursos es la solución a estos problemas de consumo, facilitando al usuario un simple
op
acceso a éste mediante un navegador o una sencilla aplicación.
ur
oe
La capacidad de proceso, memoria y almacenamiento que se requiere para el correcto
físicos sobre los que se instala software de virtualización y que, generalmente, se distribuyen en
it
En conclusión, los técnicos que anteriormente requerían una gran dedicación para la
administración de un entorno distribuido de gran cantidad de ordenadores, ahora limitan sus tareas
s
do
perfiles de usuario que permiten funcionalidades tan diversas como la actualización sincronizada de
certificados.institutoeuropa.com
39 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Son varios los proveedores que ofrecen servicios de escritorio virtual tanto a particulares como a
empresas a través de la nube, pero también existe la posibilidad de configurar nubes privadas que
incrementen la seguridad de la información y a través de las cuales las empresas pueden elegir
dónde almacenar la información y controlar en todo momento los recursos que deseen desplegar.
la posibilidad de ejecutar su escritorio en un sistema distinto del que está utilizando. Este hecho
m
implica la distinción de dos capas claramente diferenciadas:
co
El dispositivo de acceso: Dispositivo o equipo físico que está utilizando el usuario desde su
a.
ubicación
op
El servidor de escritorio: Equipo central que ejecuta el software de escritorio.
ur
oe
Tanto el dispositivo de acceso como el servidor de escritorio pueden ser tratados
ut
independientemente y, por ello, pueden encontrarse distintas combinaciones con varias soluciones
en cada una de ellas. De hecho, si queremos puntualizar, las aplicaciones se ejecutan en una
it
st
tercera capa, la capa de los servidores de aplicaciones; aunque, en numerosas ocasiones los
.in
Los dispositivos de acceso pueden estar utilizando tecnologías completamente distintas a los
do
escritorios virtuales. De este modo, por ejemplo, es posible acceder a escritorios Windows desde
ca
“thin clients” (los thin clients son computadores o software cliente que dependen primariamente
ifi
del servidor central para la ejecución de los procesos, simplemente son una “conexión” entre el
rt
El usuario, aunque en su PC tenga instalado Linux, tendrá la sensación de que su dispositivo utiliza
Windows, aunque en realidad estará ejecutando Linux en un dispositivo de acceso sin que se note.
aunque no es imprescindible. Sea como fuere, las tecnologías de virtualización permiten que varios
comentado, el sistema central se ubicará principalmente en un centro de datos, aunque cada vez es
certificados.institutoeuropa.com
40 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Servidores con “blades”: Tipo de computador para los centros de datos diseñado
explotación. Cada servidor blade es una tarjeta delgada que no dispone de fuente de
alimentación ni ningún tipo de tarjeta de comunicación. En cada una de las tarjetas, el servidor
m
ejecuta el escritorio de un usuario.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
41 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
actualidad, además de ser la que más beneficios facilita. Son servidores en los que los
certificados.institutoeuropa.com
42 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Otro componente básico que se puede encontrar en una plataforma de escritorios virtuales es el
“broker”. Se trata de un componente software que conecta el usuario que quiere utilizar la
plataforma con el escritorio virtual que tiene que utilizar. Básicamente, la función principal del
broker es identificar al usuario y, en función de las configuraciones que éste disponga, conectarlo
m
Cuando queremos implantar una solución de escritorios virtuales debemos tener en cuenta que la
co
infraestructura puede tener características más diversas cuya implantación puede ser determinante
a.
en el rendimiento y en la optimización de los beneficios que puede aportar.
op
Por ejemplo, si queremos implantar una plataforma en una gran corporación que trabaja desde
ur
múltiples sedes en todo el mundo, necesitaremos diseñar una arquitectura de gran complejidad.
oe
ut
Sin embargo, si sólo queremos utilizar nuestro escritorio desde cualquier dispositivo a nivel
Por ello, antes de decidir la puesta en marcha de una infraestructura de escritorios virtuales, es
.in
necesario realizar un diseño previo, basado en las especificaciones y prestaciones que se van a
s
requerir de la plataforma.
do
En numerosas ocasiones, la utilización de los escritorios virtuales no se realiza con suficiente rigor,
ca
tratando de optimizar sólo el rendimiento de los mismos sin hacer hincapié en otros aspectos tan
ifi
importantes como los requisitos funcionales o los componentes software que se van a utilizar. Todo
rt
ello termina suponiendo una falta de aprovechamiento de todos los beneficios que pueden aportar
ce
este tipo de soluciones: no sólo tenemos que pensar en optimizar el rendimiento, si no que debemos
también obtener unas mejores prestaciones y una reducción significativa de los costes de
administración.
Así, se demuestra la necesidad de diseñar cada capa de la arquitectura de modo que cumpla con las
necesidades de cada caso y al menor coste posible. Un diseño óptimo debe responder, como mínimo
certificados.institutoeuropa.com
43 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
¿Qué tipo de thin clients necesitamos? ¿Necesitamos alguna prestación especial? ¿Queremos
que los usuarios puedan acceder desde su domicilio u otra ubicación a través de roaming?
Servidores de escritorio: ¿Cuál es la solución más óptima para cubrir nuestras necesidades,
escritorio nos conviene más en función de las necesidades de los usuarios, Windows, Linux o
m
Acceso remoto: ¿Queremos conectar a los distintos usuarios desde oficinas remotas?
co
¿Queremos que la conexión de los usuarios sea segura? ¿Queremos que haya acceso al
a.
escritorio virtual desde redes móviles?
op
Gestión y administración: ¿Cómo vamos a gestionar los VDI? ¿Implantaremos escritorios
ur
oe
Una vez claro el diseño de la arquitectura ya se puede pasar a plantear el dimensionamiento del
ut
de las redes tanto internas como externas, sistemas de almacenamiento y backup y otros
.in
componentes que puedan ser también necesarios según el proyecto, sus especificaciones y el diseño
s
de la arquitectura software.
do
ca
ifi
rt
ce
Es importante destacar que la potencia que requiere el dispositivo de acceso es mínima ya que
sólo debe administrar y manejar el software de conexión. De hecho, este dispositivo puede ser
simple, de bajo coste, con poca memoria y poca necesidad de CPU. Se trataría entonces de
dispositivos con un consumo muy reducido e, incluso, sin disco o ventiladores, lo que incrementa su
certificados.institutoeuropa.com
44 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Está claro que el modelo de virtualización de escritorios ofrece múltiples ventajas a simple vista.
Además del reducido coste de adquisición del hardware (aunque el hardware en sí es más costoso
que la adquisición de un PC, hay que tener en cuenta que esta arquitectura puede dar servicio a
múltiples usuarios al tratarse de un recurso compartido. Además, al ser más fácil la realización de
bastante notable.
m
co
Mayor simplicidad para la utilización de nuevos escritorios: Cualquier nuevo usuario
a.
puede tener su escritorio virtual listo en un reducido margen de tiempo.
op
Reducción importante de los tiempos de no servicio: Si se produce algún tipo de avería en
ur
que reemplazar el dispositivo y conectarlo de nuevo a la red con las claves de acceso para
oe
acceder al escritorio virtual. De este modo, el tiempo de interrupción de servicio puede
ut
Cambio rápido de escritorios: El cambio del escritorio que utiliza un usuario al que utiliza
do
otro usuario en un mismo puesto de trabajo se produce en cuestión de segundos, lo que resulta
ca
requerir gran capacidad, se alarga de forma indefinida, originando que sea necesario
ce
más sencillo el control de los dispositivos que los usuarios conectan a sus equipos. Además, los
certificados.institutoeuropa.com
45 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Sin embargo, este tipo de arquitectura también presenta ciertas limitaciones que pueden no
m
co
Pérdida de autonomía: Los usuarios pierden la autonomía sobre sus equipos, por lo que
puede generarse una cierta reticencia si estos están acostumbrados a instalar aplicaciones
a.
propias y a almacenar datos de carácter privado.
op
Dificultad de conexión de periféricos a ordenadores personales: Aunque los periféricos sí
ur
pueden conectarse perfectamente a los ordenadores personales, es muy frecuente que este tipo
oe
de arquitectura exija que se conecten directamente a la red en lugar de a los equipos de los
ut
multimedia que utilizan de forma intensiva vídeo de alta resolución pueden no disponer de un
.in
en alta resolución es posible que sea necesaria la decodificación del video localmente, lo que
s
do
indiscutiblemente una conexión a la red, sea interna o externa. Por ello, la disponibilidad de los
misma.
certificados.institutoeuropa.com
46 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Comenzar Actividad
Arrastra las palabras de la columna Derecha en la columna Izquierda, acerca de las capas de la
virtualización de escritorios.
Dispositivo de acceso
arrastra...
m
Servidor de escritorio
co
arrastra...
a.
op
Servidor de aplicaciones
ur
arrastra... oe
ut
it
Todo ello provoca que el usuario sólo tenga que tomar dos decisiones cuando desee utilizar los
certificados.institutoeuropa.com
47 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Cualquier otra decisión será responsabilidad del proveedor de servicio, que deberá preocuparse de
prestado esté en condiciones óptimas en la nube y el usuario pueda utilizarlo sin problemas.
A raíz de ello, emerge la necesidad de utilizar Centros de Datos fuera de las empresas, donde
m
poder acceder a las infraestructuras base y a las tecnologías cloud.
co
a.
Existen varios tipos de centros de datos accesibles a cualquier empresa:
op
ur
Centros de datos propietarios o de operador
oe
Suelen pertenecer a operadores de servicios de telecomunicaciones y, por tanto, suelen
ut
el centro.
st
Al contrario que los centros de datos propietarios, los centros de datos neutrales son
s
Aunque pueda parecer poco relevante, este aspecto es fundamental para decidir si seleccionar un
ifi
tipo de centro de datos u otro. De hecho, los mismos operadores suelen bonificar el precio en sus
rt
certificados.institutoeuropa.com
48 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
hecho de depender del proveedor supone estar completamente atado y, en consecuencia, tener
cloud.
Los centros de datos neutrales suelen utilizar el concepto de “Meet-Me-Room”, en el que los
abierto a cambio de pagar al operador de la Meet-me-Room sólo por la interconexión física entre el
m
cliente y éste. Esto permite que el cliente pueda disfrutar de un servicio completamente neutral sin
co
ningún tipo de dependencia hacia el proveedor.
a.
En los siguientes apartados veremos los dos servicios de Cloud Computing más populares y
op
extendidos.
ur
oe
Amazon Web Services es un grupo de servicios de computación en la nube ofrecidos a través de
internet por Amazon. Esta tecnología permite a los suscriptores tener a su disposición clusters
ut
Google Cloud Platform , es una suite de servicios de computación en la nube que se ejecuta en la
misma infraestructura que Google usa internamente para sus productos finales, como la búsqueda
s
do
de Google y Youtube.
ca
internet por Amazon. Esta tecnología permite a los suscriptores tener a su disposición clusters
rt
aplicaciones ya precargadas como servidores web o gestores de bases de datos. El navegador actúa
como una ventana hacia el ordenador virtual, permitiendo a los subscriptores de estos servicios
configurar y usar sus sistemas virtuales de igual forma que si fuera un ordenador físico.
Uno de los servicios más utilizados de la plataforma Amazon Web Services en el servicio de
almacenamiento.
certificados.institutoeuropa.com
49 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
también a través de suscripciones de pago). El acceso a los datos es ilimitado y desde cualquier
También dispone de la aplicación Cloud Drive Fotos, a través de la cual un usuario puede acceder
m
a sus fotos y vídeos personales desde cualquier dispositivo con acceso a la red.
co
Amazon EC2 (https://aws.amazon.com/es/windows/products/ec2/)
a.
op
Amazon EC2 (Amazon Elastic Compute Cloud) es un servicio web de Amazon que facilita capacidad
informática de tamaño variable a través de la nube. Su finalidad principal, como todo modelo IaaS,
ur
es proporcionar a los desarrolladores la capacidad de computación necesaria de forma escalable y
oe
adaptable en todo momento.
ut
Amazon EC2 se presenta como un servicio web que ofrece “virtualización ilimitada bajo
it
demanda y escalabilidad”.
st
.in
Linux.
rt
OpenSolaris.
ce
Como todo IaaS, se basa en pago por uso, facturando así por hora de utilización de los recursos y
certificados.institutoeuropa.com
50 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
ur
Atendiendo a las necesidades de cada cliente, Amazon EC2 ofrece distintos tipos de instancia,
oe
siendo algunos ejemplos los siguientes:
ut
it
30 GiB de memoria.
.in
26 unidades EC2: 8 núcleos virtuales con 3,25 unidades EC2 cada uno de ellos.
s
Almacenamiento de EBS.
do
Plataforma de 64 bits.
ca
Plataforma de 64 bits.
Ethernet de 10 Gigabits.
22 GiB de memoria.
certificados.institutoeuropa.com
51 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Plataforma de 64 bits.
Ethernet de 10 Gigabits.
m
2 millones de E/S.
co
1 GB de almacenamiento de instancias.
a.
1 Millón de llamadas a función lambda.
op
Qué es una nube privada
ur
Los modelos de despliegue que pueden implementarse en las empresas son los siguientes:
oe
ut
it
st
s .in
do
El modelo de nube comunitaria propuesto por el NIST no ha sido muy aceptado por la industria
ca
informática de modo que, siendo estrictos, y analizando la bibliografía técnica especializada, las
categorías de modelos de despliegue fundamentales son sólo las nubes privadas, públicas e híbridas.
ifi
rt
En cada uno de estos modelos de despliegue existen distintos “submodelos”. Por ejemplo, el modelo
ce
de nube SaaS o Software como servicio que ya hemos estudiado lo podemos encontrar tanto en
los datos, el modelo más extendido en el mundo empresarial son las nubes privadas para evitar
correr los riesgos de poner a disposición de terceros la gestión y administración de una información
de especial relevancia.
En relación a las nubes privadas, se trata de nubes en las que se aplica la tecnología de cloud
certificados.institutoeuropa.com
52 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
computing pero con un modelo de carácter privado, es decir, mediante la utilización de un medio en
el que exclusivamente la organización tiene acceso a los recursos necesarios para implementar la
nube. En otras palabras, una nube privada es una nube puesta en funcionamiento por una misma
organización con sus propios recursos (equipos, redes, almacenamiento, centros de datos, etc.).
es propiedad de la empresa que la utiliza y, por ello, es la que debe tener acceso a la misma y
m
co
Un ejemplo de nube privada lo podemos encontrar en una empresa u organización del ámbito de
a.
protección de datos de carácter personal es muy estricta con los datos relativos a la salud y suelen
op
requerir que éstos estén almacenados dentro del país en el que se generan. En estos casos, lo más
ur
habitual sería que los datos se almacenasen en nubes privadas para garantizar un nivel de seguridad
oe
máximo y evitar accesos no autorizados y un mal uso de la información.
ut
Otro ejemplo lo tenemos en las Fuerzas Aéreas de Estados Unidos, que dispone de
it
aproximadamente 100 bases aéreas en todo el mundo y unos 700.000 militares en activos y ha
st
encargado a la compañía IBM el diseño y desarrollo de un entorno de nube privada para almacenar,
.in
Las nubes privadas tienen un funcionamiento muy similar a una red o a un centro de datos privado y
ca
la infraestructura puede existir dentro de la misma organización (on-premise), o bien fuera de ésta
(off-premise).
ifi
rt
ce
certificados.institutoeuropa.com
53 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
En una nube privada, el cliente establece un entorno virtualizado en servidores propios, en sus
propios centros de datos o en los de su proveedor de servicios. Así, las organizaciones deben
Así, por lo que en el momento de elegir qué tipo de modelo de despliegue utilizar las organizaciones
deben realizar una valoración previa de los costes que les puede suponer la utilización de cada uno
m
de los modelos de despliegue y de los costes que puede suponer un fallo de seguridad en la
co
información que quieren gestionar. Si la información no es lo suficientemente relevante o no
a.
necesita unas medidas de protección especial, la inversión en nubes privadas no es una buena
op
opción.
ur
Además, la estructura de nube privada es de gran utilidad para empresas que:
oe
Ya disponen de inversiones significativas en sus tecnologías de la información.
ut
Consideran que necesitan de forma imprescindible un control total sobre los distintos aspectos
it
de la infraestructura de la nube.
st
.in
los procesos diarios de los servicios alojados se llevan a cabo bajo la responsabilidad del
do
posibilidad de subcontratar el servicio a una empresa externa (teniendo en cuenta, que perdemos
ifi
seguridad).
rt
En resumen, en una nube privada el cliente debe disponer de un elevado grado de control sobre los
ce
asegurar los estándares, políticas y regulación relativa a la seguridad de la información con mayor
facilidad.
Un servicio de nube privada también puede denominarse en ocasiones nube interna o nube de
plataforma privada en el centro de datos del cliente. Está enfocada específicamente a una
certificados.institutoeuropa.com
54 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
La tecnología clave que sirve de apoyo a las organizaciones a poner en funcionamiento una nube
ahorro en costes ya que les permite aprovechar el hardware ya existente y evitar así nuevas
La diferencia principal con una nube pública radica es que la nube privada se localiza en la
m
ubicación del cliente y le ofrece un mayor control sobre la infraestructura y sobre la información que
co
ésta gestiona.
a.
El servicio de nube privada ofrece una serie de ventajas que pueden convertirla en una solución de
op
nube más viable que una nube pública:
ur
Mayor control: Los equipos y todo el hardware se ubica en las instalaciones del cliente, por lo
oe
que las organizaciones disponen de un mayor control sobre sus datos. En este caso, es la
ut
Mayor seguridad: Los servicios de nube privada se dedican a una organización en particular,
.in
garantizar elevados niveles de seguridad a los que se puede denegar el acceso a otros clientes
do
Amplio abanico de funcionalidades: Mientras que los servicios de nube pública suelen estar
ifi
especializados en una o dos funcionalidades, el hecho de disponer de una nube privada puede
rt
Mayor rendimiento: Una nube privada está implementada en el interior del firewall de la
cliente no debe preocuparse por la escasa velocidad de acceso a las páginas que puede darse
certificados.institutoeuropa.com
55 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
co
a.
op
Así, un mayor control de la infraestructura por parte del cliente significa una menor preocupación
en materia de seguridad para los usuarios de una nube privada. Al trasladar el tradicional sistema
ur
informático basado en hardware a la nube, el cliente puede seguir aprovechándose de las ventajas
oe
de flexibilidad, escalabilidad y productividad sin tener que sacrificar el control y la seguridad de los
ut
El servicio de nube privada ofrece una serie de ventajas que pueden convertirla
en una solución de nube más viable que una nube pública:
.in
Menor control.
s
do
Mayor seguridad.
ca
ifi
Personalización.
rt
ce
No obstante, aunque los servicios de nube privada ofrecen numerosas ventajas relativas a una
mayor seguridad y a un mejor control de los datos, también hay que tener en cuenta una serie de
desventajas:
Incremento de costes: En general, los servicios de nube privada suelen ser bastante más
costosos que los servicios de nube pública, al requerir determinado hardware y profesionales
organizaciones deben realizar una inversión importante en hardware o aprovechar los sistemas
certificados.institutoeuropa.com
56 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
y equipos ya existentes. Sin embargo, en una nube pública, todo se gestiona fuera de las
instalaciones de la organización y la inversión inicial es mínima. Por otra parte, las nubes
organización, lo que supone que ésta debe facilitar todos los suministros necesarios para su
m
momento. La organización además, también está expuesta a la pérdida de datos que puede
co
darse por producirse algún tipo de daño físico de la unidad (incendio, sobre tensión, daños
causados por agua, etc.). Además, si una organización dispone de varios centros de datos, con
a.
una nube privada cada uno de ellos, el mantenimiento de las distintas instalaciones y los costes
op
asociados a éstas se incrementan de forma considerable.
ur
Capacidad limitada: Cuando la infraestructura de la nube se ubica e implanta dentro de las
oe
instalaciones de una organización, siempre hay un límite de capacidad generado por las
ut
limitaciones del hardware físico en el centro de datos de la empresa. Por ejemplo, existe la
NUBES PRIVADAS
s
do
Ventajas Desventajas
Mayor control Mayor coste
ca
Mayor rendimiento
ce
En general, la mayor crítica que puede recibir un servicio de nube privada es que el cliente debe
servicio de nube pública puede adquirir un sistema básico y económico ya listo para ser utilizado
directamente, mientras que el cliente de un servicio de nube privada debe destinar ya inicialmente
un capital importante para comprar un sistema que deberá alojar de forma interna y,
certificados.institutoeuropa.com
57 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Verdadero.
Falso.
m
El equipo de desarrollo del proveedor puede gestionar y periodificar con mayor
facilidad la gestión de los procesos de errores y de las aplicaciones de modo que
co
se realicen actualizaciones, controles y revisiones de forma continua cada cierto
a.
período de tiempo.
op
Verdadero.
ur
Falso.
oe
ut
it
Es el servicio de cloud storage que ofrece Apple y permite conectar todos los
st
Cloud Drive
s
do
iCloud
ca
ifi
rt
ce
certificados.institutoeuropa.com
58 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Google Cloud Platform , es una suite de servicios de computación en la nube que se ejecuta en la
misma infraestructura que Google usa internamente para sus productos finales, como la búsqueda
de Google y Youtube.
nube modulares que incluye computación, almacenamiento de datos, análisis de datos y aprendizaje
m
máquina. La Google Cloud Platform provee infraestructura como servicio, plataforma como servicio
co
y entorno de computación Serverless.
a.
Cloud Platform otorga los productos, servicios y herramientas para poder diseñar, testear y ejecutar
op
las aplicaciones en la plataforma garantizando una gran escalabilidad y seguridad gracias al diseño
ur
de la infraestructura proporcionada por Google. oe
Esta infraestructura se divide en regiones y zonas.
ut
Computing
Networking
s
do
Storage
Big data
ca
Machine learning
ifi
rt
COMPUTING
ce
Conjunto de productos que proporcionan un rango escalable de opciones para dar soporte a
necesidades que tengan relación con la computación. Estos productos abarcan desde servicios
App Engine: Servicio que está enfocado a crear y poner en marcha aplicaciones.
certificados.institutoeuropa.com
59 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
NETWORKING
Servicio formado por el conjunto de herramientas que se muestran en la imagen. Estos permiten
m
co
a.
op
ur
oe
ut
it
st
.in
Fuente: http://www.doctormetrics.com
s
do
STORAGE
ifi
abarca las diferentes necesidades y precios, y también ofrecen administración MySQL, Postgres y de
ce
bases de datos NoSQL escalables con mayor rendimiento que los competidores.
Cloud Storage: Sistema que almacena objetos y permite almacenar datos que no
certificados.institutoeuropa.com
60 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Spanner: Servicio definido por Google que otroga una base de datos relacional
BIG DATA
m
Tiene un conjunto de servicios que permiten procesar y consultar Big Data en el cloud para obtener
co
respuestas de forma rápida.
a.
op
BigQuery: BD interactiva para realizar análisis de volúmenes de datos grandes
ur
con unos tiempos de respuesta muy rápidos. Es de tipo WORM (Write one read
oe
multiple).
ut
Dataflow para que lo procese y posteriormente que sea analizado por BigQuery.
st
operaciones informáticas,...
s
do
en Jupyter (IPython).
rt
DataPrep: Servicio que permite explorar, limpiar y preparar los datos para su
ce
análisis.
MACHINE LEARNING
certificados.institutoeuropa.com
61 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Google proporciona su propio servicio Cloud Machine Learning Engine para el desarrollo de
TensorFlow
m
Vision API
co
Speech API
a.
Translate API
op
ur
Google Cloud Platform nos ofrece de igual forma que Amazon infraestructura como servicio (IaaS),
oe
plataforma como servicio (PaaS)y Software como servicio (SaaS). Vamos a explicar cada modelo de
ut
IaaS
.in
modelo de servicio en el que el hardware está virtualizado en la nube. En este modelo el proveedor
do
facilita servidores, almacenamiento, redes y todos los demás recursos que forman parte de la
ca
infraestructura.
ifi
Sus distintas utilidades y su gran escalabilidad hacen que el IaaS pueda utilizarse en cualquier tipo
rt
de negocio: desde una pequeña o mediana empresa de pocos empleados hasta una gran corporación.
ce
La adopción y crecimiento de este tipo de modelo ha sido apoyado e impulsado por la gran multitud
de startups han decidido emprender en época de crisis y desean ahorrar costes evitando
certificados.institutoeuropa.com
62 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
El cliente que contrata el servicio no alquila recursos físicos, sino que alquila capacidad de
Los servicios que puede ofrecer la Infraestructura como Servicio también son de lo más variados.
No obstante, cabe destacar los siguientes:
Almacenamiento de información.
m
Capacidades de cómputo.
co
Sistemas operativos.
a.
Monitorización de recursos.
op
Gestión de bases de datos.
ur
Balanceo de carga (técnica utilizada para compartir las tareas a realizar entre varios procesos
y otros recursos).
oe
ut
Si tenemos en cuenta que un cliente que utiliza un entorno local tradicional debe realizar una
it
mismo ante posibles averías y garantizar una debida disponibilidad del servicio, el hecho de utilizar
.in
La variabilidad de necesidades de recursos que puede tener un negocio a lo largo del tiempo
El volumen de actividad de cualquier negocio también tiene una elevada variabilidad, incluso
certificados.institutoeuropa.com
63 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
dentro de un mismo ejercicio. Por ejemplo, hay empresas que tienen su mayor volumen de
Comenzar Actividad
m
Relaciona los elementos de la columna Derecha con la columna Izquierda
co
Dataflow 1 BD interactiva para realizar
a.
análisis de volúmenes de datos
grandes con unos tiempos de
op
BigQuery 2 respuesta muy rápidos. Es de tipo
WORM (Write one read multiple).
ur
DataPrep
oe
3
Modelo de programación para
desarrollar y ejecutar una gran
ut
diversidad de patrones de
procesamiento de datos como
it
informáticas,...
.in
su análisis.
ca
ifi
Ante estas situaciones, la utilización de un IaaS puede ofrecer grandes ventajas como solución a
todos los inconvenientes de un sistema tradicional:
que puede variar según sus necesidades). El proveedor es el que se debe encargar de
certificados.institutoeuropa.com
64 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Se establece el sistema de pago por uso, es decir, el cliente sólo paga por aquellos recursos que
Se trata de una infraestructura altamente escalable, pudiéndose adaptar con gran facilidad a
Las empresas que contratan servicios IaaS pueden utilizar los recursos hardware como si
m
dichos recursos atendiendo a su volumen de actividad y a la demanda de sus propios clientes.
co
Viendo sus características y ventajas se deduce con facilidad que el modelo IaaS puede dirigirse a
a.
cualquier tipo de empresa que pretenda delegar la implantación de sus aplicaciones y su software en
op
la infraestructura hardware de un proveedor externo. Así, el proveedor será el propietario de la
ur
infraestructura física y la ofrece como servicio a los usuarios mediante entornos que les permitan
oe
gestionarlos con cierta facilidad.
ut
Servicio, pero en esta unidad didáctica haremos mención a un ejemplo de gran utilidad:
st
.in
Rackspace Cloud es otro proveedor de gestión de infraestructuras cloud, fundada en Estados Unidos
do
pero con oficinas en Australia, Reino Unido, Suiza, Israel, Países Bajos, India y Hong Kong.
ca
Cloud files: Almacenamiento de objetos en línea para archivos y medios. Permite almacenar
ce
Cloud sites: Solución de hospedaje Premium para desarrolladores. Permite un gran volumen
de tráfico de red, lo que garantiza la disponibilidad del servicio en todo momento y evita caídas
del servidor.
Cloud databases: Base de datos con rendimiento optimizado para las aplicaciones alojadas en
certificados.institutoeuropa.com
65 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
la nube.
Cloud block storage: Ofrece almacenamiento confiable y de alto rendimiento atendiendo a las
m
co
a.
op
ur
oe
ut
it
st
PaaS
.in
Una plataforma como servicio (platform as a service) o PaaS es una categoría de servicios en la
s
nube que facilita una plataforma y un entorno de tal forma que los desarrolladores pueden crear
do
Del mismo modo que en la infraestructura como servicio, los servicios PaaS están alojados en la
ifi
software a través de herramientas facilitadas proveedor. Así, estos servicios PaaS pueden estar
formadas por una serie de funcionalidades preconfiguradas a los que los usuarios pueden
suscribirse, eligiendo así aquellas que deseen incluir en sus aplicaciones software para satisfacer
De este modo, un paquete PaaS puede ofrecer múltiples variaciones: desde un entorno simple que
no requiera ningún tipo de conocimiento específico o instalación especial por parte del cliente, hasta
certificados.institutoeuropa.com
66 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
cliente y facilita también soporte técnico continuo, de forma que realiza actualizaciones constantes,
Por otra parte, los proveedores PaaS pueden también colaborar con los mismos clientes
desarrolladores en cualquier fase del desarrollo: desde la formulación y concepción de una idea
m
hasta la creación de la aplicación en sí, las fases de prueba o la implantación.
co
Del mismo modo que en la mayoría de servicios cloud, los servicios PaaS utilizan el sistema de pago
a.
por uso, en el que el proveedor sólo factura y cobra a su cliente por los servicios que ha utilizado y
op
el período de utilización de los mismos.
ur
Algunas de las funcionalidades que puede ofrecer un proveedor PaaS son las siguientes:
oe
ut
Software de servidor.
st
Sistemas operativos.
.in
Soporte técnico.
Servicio de almacenamiento.
s
do
Servicios de hosting.
ifi
rt
Se trata de un modelo que aporta numerosas ventajas a cualquier tipo de cliente, tanto a las
ce
empresas como a los desarrolladores de software como a los programadores de sitios web.
Por ejemplo, una empresa que desarrolla sus propias aplicaciones software pueden aprovechar un
servicio PaaS para crear entornos de pruebas independientes y aislados de entornos de desarrollo.
Las principales ventajas que puede aportar un servicio PaaS a los desarrolladores de aplicaciones
certificados.institutoeuropa.com
67 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
dicha infraestructura, lo que supone un ahorro tanto económico como en tiempo de formación.
m
co
a.
op
ur
oe
ut
it
st
.in
Escalabilidad: De igual modo que en los demás servicios cloud, PaaS es un servicio escalable
lo que permite al cliente contratar los recursos que necesite en cada momento, si necesidad de
s
do
realizar inversiones en capacidad fija que no vaya a utilizarse en momentos de baja actividad.
ca
para su utilización, de modo que cualquiera con conocimientos básicos puede desarrollar una
ifi
aplicación simple.
rt
Flexibilidad: El control que pueden ejercer los clientes sobre las herramientas que se instalen
ce
Adaptabilidad: Las funcionalidades que requiera el cliente pueden modificarse según las
Colaboración: Para acceder a las funcionalidades de la PaaS sólo se necesita una conexión a
Internet y un navegador web, lo que permite que los desarrolladores puedan trabajar de forma
certificados.institutoeuropa.com
68 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
aplicación.
Disponibilidad: Un servicio PaaS llega a tener una disponibilidad del 99,99% asegurando así
m
No obstante, no todo son ventajas. También es importante comentar una serie de inconvenientes
co
que conviene tener en cuenta cuando se pretende contratar una solución PaaS:
a.
Duración del contrato: Los contratos con proveedores de PaaS suelen ser de larga duración,
op
lo que supone una elevada dependencia por parte del cliente.
ur
Herramientas muy limitadas: En la gran mayoría de soluciones PaaS, las herramientas que
oe
facilita el proveedor para desarrollar aplicaciones software suelen ser muy limitadas.
Alta dependencia del proveedor: Cambiar de proveedor suele convertirse en una tarea de
ut
datos.
s .in
Aunque las desventajas son importantes, como podemos observar, las ventajas pueden ser muy
do
superiores a los inconvenientes, aunque siempre dependerá del tipo de aplicaciones que se
ca
En resumen, una propuesta de PaaS facilita un entorno de trabajo para el desarrollo de las
rt
necesaria para poder desarrollar una aplicación, lo que puede incluir todo tipo de recursos como
SaaS
El Software como Servicio (Software as a service o SaaS) hace referencia a cualquier servicio
cloud en el cual los consumidores puedan acceder a las aplicaciones software a través de la red.
certificados.institutoeuropa.com
69 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Estas aplicaciones están hospedadas en la nube y pueden ser utilizadas para llevar a cabo multitud
Son ejemplos de SaaS las conocidas redes sociales Google, Twitter, Facebook o incluso Flickr y los
usuarios pueden acceder a ellas desde cualquier dispositivo que esté conectado a la red. Así, los
usuarios pueden utilizar una solución SaaS para resolver necesidades de lo más variadas: desde
llevar la contabilidad de una empresa, como realizar un seguimiento de ventas o una planificación de
m
co
a.
op
ur
Este modelo también es conocido como “software a demanda” ya que, en definitiva, se trata de
oe
contratar el software que el usuario necesita en lugar de desarrollarlo dentro de la misma
ut
Mientras que en las aplicaciones tradicionales, el software se adquiría como un paquete integrado
.in
y se instalaba en el ordenador del usuario, con una solución SaaS el cliente se suscribe al software
durante un período de tiempo determinado, que suele tratarse de una suscripción mensual. Así, las
s
do
aplicaciones se adquieren y utilizan a través de internet y los archivos que se utilizan, en lugar de
Las ventajas que un modelo SaaS puede aportar a sus clientes, tanto empresas como particulares,
rt
potencia de procesamiento suficiente para hacer funcionar las aplicaciones las facilita el
proveedor cloud.
Reducidos costes de alta: Las aplicaciones están disponibles desde el mismo momento en el
que el usuario contrata el servicio, de modo que el tiempo de interrupción del servicio es
extremadamente reducido.
Pago por uso: Del mismo modo que en los modelos PaaS e Iaas, el proveedor sólo cobra por
certificados.institutoeuropa.com
70 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
aquellos servicios que utiliza y el tiempo que los utiliza. Además, las suscripciones pueden
requiere más espacio de almacenamiento o contratar algún servicio adicional, puede acceder a
inmediata para los clientes y, en general, gratuitamente. No se necesita ningún software nuevo
m
y generalmente las actualizaciones son desplegadas automáticamente por el proveedor.
co
Compatibilidad: Se puede acceder a las aplicaciones SaaS desde cualquier dispositivo que
disponga de conexión a internet, por lo que un mismo usuario puede utilizar varios dispositivos
a.
sin encontrar diferencia alguna entre ellos.
op
Accesibilidad: La aplicación SaaS puede estar accesible desde cualquier ubicación y
ur
dispositivo con acceso a la red. oe
Personalización: Algunas aplicaciones software ofrecen la posibilidad de personalizarse, es
ut
decir, se pueden modificar para adaptarlas a las necesidades y a la imagen de marca del
cliente.
it
st
.in
El mejor ejemplo que podemos encontrar de un modelo SaaS en un negocio lo encontramos en los
software ofimáticos. De hecho, cualquier tarea relacionada con la contabilidad, facturación, ventas
s
do
Las ventajas que un modelo SaaS puede aportar a sus clientes, tanto empresas
ifi
Costes aumentados.
ce
Compatibilidad.
Así, el cliente que contrate un servicio SaaS, puede conseguir el software que necesita
certificados.institutoeuropa.com
71 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
suscribiéndose a él y, a partir de ese momento, acceder online a dicho software desde cualquier
Además, si por cualquier motivo cambian sus necesidades, el cliente podrá cambiar fácilmente al
software que mejor se adapte a ellas. Sea como fuere, una solución SaaS puede ser de gran
utilidad para cualquier a que necesite acceder a un software determinado, sea una única persona
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
72 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
73 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
Autoevaluación
m
Amazos Web Services es un grupo de servicios de almacenamiento en la nube
co
ofrecidos a través de internet por Amazon.
a.
op
Amazos Web Services es un grupo de servicios de programación en la nube ofrecidos
a través de internet por Amazon.
ur
oe
Una nube privada…
ut
it
Se trata de nubes en las que se aplica la tecnología de cloud computing pero con un
st
Se trata de nubes en las que se aplica la tecnología de cloud computing pero con un
do
Se trata de nubes en las que se aplica la tecnología de cloud computing pero con un
modelo de carácter comunitario.
rt
ce
certificados.institutoeuropa.com
74 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080717] CLOUD COMPUTING.
m
Verdadero.
co
a.
Falso.
op
ur
Indica si la siguiente afirmación es verdadera o falsa: “Una plataforma como
oe
servicio es una categoría de equipos en la nube que facilita una plataforma y un
entorno”.
ut
it
Verdadero.
st
.in
Falso.
s
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
75 / 75
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Introducción
Para administrar un sistema big hay que asegurar que en todo momento los datos estén
autorizados, organizados y con los permisos de usuario necesarios dentro de una base de datos.
A la vez hay que intentar tener el menor número de errores posible a la vez que se mantiene la
seguridad y privacidad.
m
Unos pasos recomendados para conseguir este objetivo serían:
co
Acceso y autorización a los datos de forma granular
a.
En todo sistema big hay que controlar el acceso y esto se puede lograr con controles granulares a
op
través de expresiones.
ur
Estas expresiones utilizan agrupación y lógica booleana para garantizar tanto el acceso como la
oe
autorización y los permisos se basan en roles y configuraciones de vista.
ut
it
Los administradores tienen mayor visibilidad y acceso mientras que a niveles más bajos el acceso
st
Tiene que haber seguridad en el punto final de la cadena. Es muy importante poner un cortafuegos
ca
alrededor de los datos que esté integrado con los sistemas y estándares de autentificación.
ifi
Para la autentificación hay que integrarse con LDAP (Lightweight Directory Access Protocol),
rt
Después de proteger el perímetro mediante cortafuegos y otorgar el acceso granular a los datos, hay
que asegurarse que los archivos y datos estén encriptados y tokenizados entre los extremos del
pipeline de datos.
certificados.institutoeuropa.com
1 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Auditoría y análisis
Para mantener esta estrategia, hay que hacer constantes auditorías y análisis.
Es fundamental que se pueda rastrear los accesos y reconocer patrones de los datos para analizarlos
m
Esta auditoría y análisis puede ser tan facil como seguir los archivos JSON.
co
Arquitectura de datos unificada
a.
op
El responsable del sistema tiene que supervisar todos estos detalles de acceso y encriptación de los
ur
oe
Hay que ver también como se consigue que la infraestructura sea escalable y segura.
ut
Esta arquitectura es más que un conjunto de reglas para la seguridad, es una arquitectura única
it
en la que se crean roles y se sincronizan mediante la plataforma y las herramientas que se aportan a
st
ella.
s .in
do
Cloudera:
Es una compañía que proporciona software basado en Apache Hadoop. De este software nosotros
ca
Cloudera-manager:
Nos permite rápidamente desplegar un clúster optimizado para las especificaciones de nuestro
sistema. Nos provee una interfaz centralizada para configurar fácilmente el cluster y administrar los
recursos.
certificados.institutoeuropa.com
2 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Objetivos
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
4 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Cloudera fue desarrollada en 2008 en la unión de 3 ingenieros de Facebook, Google y Yahoo con un
ejecutivo de Oracle.
Este último (Mike Olson) era el CEO de Sleepycat Software que fue la empresa que creo Berkeley
DB.
m
co
Amr Awadallah (Yahoo) había trabajado desarrollando una de las primeras unidades de negocio en
a.
la que se utilizaba Hadoop para analizar los datos.
op
Jeff Hammerbacher (Facebook) usó Hadoop para desarrollar aplicaciones de análisis de volúmenes
ur
muy grandes de datos de usuarios. oe
A mediados de 2013, Tom Reilly (Era director ejecutivo en ArcSight cuando la compró HP en 2010)
ut
pasó a ser director ejecutivo mientras que Mike Olson seguía siendo presidente y director
it
estratégico de la empresa.
st
.in
Características
s
Apache Hadoop.
rt
ce
Escalabilidad.
Fiabilidad.
certificados.institutoeuropa.com
5 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Cerrada.
Enterprise.
m
anual a Cloudera Manager además de soporte técnico. Existen 3 modos: Basic,
co
Flex y Data Hub.
a.
Cloudera Express: Incluye CDH y Cloudera Manager sin características de
op
negocio.
ur
técnico ni Clouder Manager.
oe
ut
CDH tiene el núcleo, los principales elementos que proporciona Hadoop y componentes específicos
it
para empresas.
st
.in
A finales de 2012, Cloudera crea el proyecto Cloudera Impala que es un motor de código abierto
s
Ventajas de Cloudera
ifi
Capacidad de adaptación.
Supongamos que tenemos tres equipos los cuales vamos a utilizar para el clúster y un equipo que
será el administrado. Lo primera será desactivar la seguridad SElinux en todos los equipos.
certificados.institutoeuropa.com
6 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Cada equipo del clúster deberá de tener un nombre host único que haga referencia a él. Podemos
de todos los equipos del clúster y del administrador en todos los equipos.
m
co
Wget https://www.cloudera.com/downloads/hortonworks-sandbox.html
a.
Una vez descargado el paquete le daremos permisos de ejecución y lo ejecutaremos.
op
Nos aparecerá un asistente en el que iremos avanzando con las opciones por defecto:
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Al finalizar nos saldrá la siguiente ventana indicando que ya podemos acceder al servidor web:
certificados.institutoeuropa.com
7 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
co
Accederemos al servidor como admin/admin:
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
Nos pedirá elegir que edición queremos utilizar elegiremos la Cloudera Enterprise Data Hub:
ce
certificados.institutoeuropa.com
8 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
co
a.
op
Una vez seleccionada elegiremos los equipos que usaremos en el cluster:
ur
oe
ut
it
st
s .in
do
Es importante que nuestros nodos tengan un servidor SSH funcionando con una clave privada
ca
creada o si todos los nodos presentan el mismo usuario y contraseña podremos utilizarlo también en
ifi
vez de la clave:
rt
ce
certificados.institutoeuropa.com
9 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
co
a.
op
En este caso vamos a utilizar la clave privada.
ur
Una vez elegido iniciara la instalación de cloudera-manager-agente en cada nodo.
oe
Una vez instalado nos aparecerá una serie de ventanas en las que avanzaremos con las opciones
ut
por defecto.
it
st
Una vez hayamos finalizado se nos iniciarán cada uno de los dominios en cada nodo:
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
10 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
co
a.
op
ur
oe
Ya tendremos nuestro cluster hadoop administrado con cloudera-manager.
ut
HortonWorks
it
st
HortonWorks es una compañía de software de big data. La compañía desarrolla Apache Hadoop,
.in
Se formó a mediados de 2011 financiado por Yahoo y Benchmark Capital como una compañía
do
independiente.
ca
HDP (Hortonworks Plataforma de Datos) incluye Hadoop y se usa para guardar, procesar y analizar
ce
Esta plataforma incluye tecnologías Hadoop como pueden ser MapReduce, Pig, HBase, Hive,
ZooKeeper,...
Asociaciones
Hortonworks se asocia con varias compañías de software en las que incluye BMC Software para
administrar servicios empresariales y automatización, SAP y VMware para la nube y base de datos,
certificados.institutoeuropa.com
11 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
En el año 2015, Hortonworks empezó a asociarse con ManTech Servicios Comerciales y B23 para
el desarrollo OpenSOC.
De igual manera que con Cloudera deberemos desactivar la seguridad selinux, en el archivo host
poner el hostname de nuestra maquina y configurar ssh para poder acceder a la maquina sin
m
necesidad de contraseña.
co
a.
Una vez realizado estos pasos como con cloudera nos descargaremos e instalaremos Hortonworks
op
Data Platform With HMC.
ur
Instalaremos los paquetes extra para linux enterprise: oe
yum install epel-release
ut
Instalaremos HMC:
it
st
Y detendremos el firewall:
ifi
rt
/etc/init.d/iptables stop
ce
Una vez hecho esto nos iremos a la página principal de Hortonworks http://localhost/hmc/html y
seguiremos los pasos del asistente hasta que lleguemos a esta ventana:
certificados.institutoeuropa.com
12 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
co
a.
op
ur
oe
Cambiaremos el punto de montaje propuesto por el asistente a otro como por ejemplo /data y
ut
seguiremos con el asistente. Una vez que la instalación se haya realizado veremos la siguiente
it
ventana:
st
s .in
do
ca
ifi
rt
ce
Ahora podremos irnos al tablero principal para ver el estado de nuestro clúster:
certificados.institutoeuropa.com
13 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
co
a.
op
ur
oe
Ya tendríamos nuestro clúster listo y funcionando.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
14 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
En primera instancia, la abstracción del hardware que supone la utilización de servicios en la nube
puede dar una sensación de menor seguridad respecto a los modelos tradicionales. Si bien es cierto
que en algunos modelos se puede perder cierto control de seguridad sobre dichos servicios, si las
políticas de seguridad del proveedor se definen correctamente y el cliente las ejecuta debidamente,
la utilización de la nube para gestionar información puede suponer una mejora en la seguridad.
m
A diferencia de los modelos de computación tradicional, el usuario final desconoce dónde se
co
almacena su información, por lo que el hecho de trasladar toda la información a la nube puede
a.
significar para el usuario “confiar la seguridad a terceros” y, en consecuencia ser motivo de
op
preocupación.
ur
De este modo, pueden plantearse una serie de preguntas clave en la estrategia de seguridad en la
oe
nube, como las siguientes:
ut
datos cae siempre sobre el cliente y debe partir de este. Cuando una organización quiere migrar a
ca
la nube y trasladar sus datos, debe tener claro qué preferencias tiene y manifestarlas al proveedor.
ifi
Así, el proveedor podrá diseñar un servicio específico para la organización que cumpla
rt
Una de las principales críticas negativas en relación al cloud computing es, como se ha ido
principio, parece que las empresas tienen un control más firme sobre los datos almacenados en su
infraestructura propia que si los traslada a una nube y, más si se trata de una nube pública.
No obstante, la nube puede disponer de mayor grado de protección y seguridad que un centro de
completamente diferente.
certificados.institutoeuropa.com
15 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
El cloud computing dispone de ciertas características específicas que requieren un análisis y una
evaluación de los riesgos en diferentes áreas de la organización como, por ejemplo, las siguientes:
Normativa de regulación.
m
co
Por ello, la evaluación de los riesgos y de la seguridad en la nube supone en un primer momento
a.
tener que considerar las distintas opciones de despliegue en la nube (nube privada, pública o
op
híbrida) y los modelos de entrega de servicios (SaaS, IaaS, PaaS,…). Aunque es imposible que los
ur
controles de seguridad preestablecidos cubra todas las posibles circunstancias e incidencias, la
oe
adopción de estrategias enfocadas al análisis de riesgos para decidir la migración a la nube es la
mejor opción y ayuda para decidir y seleccionar las mejores opciones de seguridad para la
ut
Normativa de regulación.
A lo largo de la presente unidad, iremos comentando los principales retos, riesgos y amenazas de
seguridad relacionados con el cloud computing, además de las principales normativas de seguridad
certificados.institutoeuropa.com
16 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
La gestión de los riesgos efectivos de todo negocio en entornos de computación en la nube proviene
información.
lograr una política de gestión de la seguridad escalable completamente con el negocio, además de
m
concordancia con los objetivos marcados por la organización.
co
a.
op
ur
oe
ut
it
Sin embargo, los principales problemas en la gestión de riesgos de la empresa en cloud computing
st
Por ello, se formulan una serie de recomendaciones para una correcta gestión y gobierno de los
Del mismo modo que en cualquier proceso dentro de una organización, resulta imprescindible
disponer de unas buenas prácticas para la gestión de riesgos. Estas buenas prácticas deben ser
proporcionales a las peculiaridades de los servicios en la nube contratados, que pueden ir desde el
simple procesamiento de datos inofensivos hasta unos procesos de negocio críticos con una
certificados.institutoeuropa.com
17 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Sea como fuere, se establecen una serie de recomendaciones específicas para el cloud computing
que toda empresa debería tener en cuenta para los procesos de gestión de riesgos:
computing. Por ello, los contratos de nivel de servicio, los requisitos establecidos en los
m
contratos y la documentación del proveedor requieren un minucioso y detallado análisis y
co
cuidado; más incluso que el control de la infraestructura tradicional propiedad del negocio.
a.
La contratación de servicios a la carta y la multiposesión relacionados con el cloud computing
op
generan que las auditorías y los procesos de evaluación tradicionales no sean adecuados para
ur
La estrategia de gestión de riesgos debe incluir siempre los siguientes aspectos clave:
oe
ut
en los activos.
.in
Los inventarios de los activos deben incluir también aquellos activos que acojan servicios en la
rt
certificados.institutoeuropa.com
18 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
Toda organización, además, debe cuestionarse si en su seno se han definido tolerancias al riesgo
co
con los servicios cloud y la aceptación de posibles riesgos residuales derivados de la utilización de
a.
estos servicios
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
19 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Los distintos modelos y arquitecturas cloud ya se han establecido como medios viables y rentables
para externalizar desde datos inocuos hasta procesos de negocio enteros. Todo ello implica un
una organización, sobre todo si tenemos en cuenta el posible desconocimiento de la empresa de las
m
En sus inicios, la gran mayoría de normativas y leyes relacionadas con las nuevas tecnologías y con
co
la informática en general no fueron diseñadas teniendo en consideración los preceptos y
a.
características del cloud computing. Por ello, es muy probable que tanto los auditores de
op
seguridad como los asesores no estén lo suficientemente familiarizados con los servicios cloud en
ur
oe
Así, es importante que el cliente de la nube se encargue de gestionar los siguientes
ut
aspectos:
it
legislativo.
ca
El papel del cliente del servicio en el momento de relacionar el proveedor del servicio cloud y
ifi
Para garantizar el debido cumplimiento normativo por parte de la empresa y la correcta gestión y
probable que los términos contractuales estándares del proveedor de la nube no cumpla con las
certificados.institutoeuropa.com
20 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
cloud necesita poder auditar al proveedor del servicio cloud. Por ello, es especialmente
mencione el derecho a auditar por parte del cliente (sobre todo en casos en los que el cliente
Analizar el alcance del cumplimiento normativo. Ello implica determinar si las distintas
normativas y leyes de obligado cumplimiento por parte de la empresa pueden verse afectadas
m
por la utilización de servicios cloud.
co
a.
op
ur
oe
ut
it
de los servicios cloud deben considerar cuáles deben ser las aplicaciones y datos que se desean
.in
trasladar a la nube y hasta qué punto puede vulnerarse alguna normativa relacionada con ellos.
s
Evaluar y revisar los principales proveedores de servicios cloud y sus socios para
do
garantizar que las relaciones entre éstos no tengan consecuencias negativas ante el
ca
servicios que están procesando información, la normativa a la que están sujetos, los controles
rt
de seguridad que éstos proporcionan y la relación que tienen con terceros distribuidores.
ce
de protección de datos, tanto a nivel local como global. Desde el punto de vista contractual, es
fundamental para el cliente comprender los requisitos específicos y garantizar que los
Analizar el impacto de las normativas sobre la infraestructura del proveedor del servicio.
Hay que considerar que algunos requisitos legislativos pueden exigir determinados controles
certificados.institutoeuropa.com
21 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
organización. Por ello, los clientes, antes de decidir la utilización de un servicio en la nube,
deben evaluar cuáles serán las políticas y procedimientos implicados en dicha utilización que
especificado. Toda empresa que contrate un servicio cloud debe desarrollar procesos para
m
recabar y almacenar evidencias del cumplimiento legislativo que incluyan registros de
co
auditoría, informes de actividad, informes de gestión de cambios, resultados de procedimientos
de evaluación, etc.
a.
Evaluar y seleccionar a los auditores. En numerosas ocasiones, la empresa no puede influir
op
en la selección de auditores de seguridad. No obstante, en caso contrario, se recomienda que la
ur
empresa elija a un auditor que esté familiarizado con las peculiaridades de la computación en
oe
la nube. Preguntar al auditor si conoce las características de IaaS, PaaS y Saas es fundamental
ut
SAS 70 Type II. Los proveedores de servicios en la nube que pretendamos contratar deberían
it
st
tener como mínimo la certificación de auditoría SAS 70 Type II. Esta certificación garantiza
.in
que los controles de seguridad se están implementando tal como está documentado y que
ISO 27001/27002. Los proveedores de la nube que prestan servicios críticos deberían contar
con el estándar ISO 27002 para los sistemas de gestión de la información. En el caso de no
ca
disponer de la certificación ISO 27001, el proveedor debería mostrarse conforme con las
ifi
prácticas establecidas en la ISO 27002 y presentar un proyecto y una hoja de ruta para la
rt
obtención de la certificación.
ce
Apache Knox
La pasarela Apache Knox es un sistema que otorga un lugar para el acceso y autentificación únicos
Esta pasarela de Knox hace más simple la seguridad de Hadoop para usuarios que entran a los datos
del clúster y realiza trabajos y operadores que controlan el acceso y la gestión del clúster.
certificados.institutoeuropa.com
22 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Es ejecutada como un servidor por lo que proporciona un acceso centralizado a 1 o más clústeres de
Hadoop.
Knox Gateway tiene que desplegarse en la red pública. Si se usa servidor LDAP para logearse con
Knox, también se instalará en la red pública. Los nodos maestros están en redes duales y se pueden
En el siguiente imagen podemos ver un diagrama que expone la configuración que se recomienda
m
para los nodos maestros.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
Fuente: https://www.ibm.com
ifi
rt
Los nodos de computación pueden desplegarse en redes privadas para que el acceso entre todos
ce
Knox permite proteger varios clústeres de Hadoop mientras el uso de paralelas. Knox amplía los
Al poderse mostrar los servicios REST/HTTP de Hadoop sin mostrar los detalles de la red, la
seguridad mejora.
certificados.institutoeuropa.com
23 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Apache Knox utiliza una seguridad centralizada de la API mediante el direccionamiento de las
Knox Gateway permite LDAP, SSO, Active Directory y otros sistemas para la autentificación.
Puede dar una solución para la seguridad que incluya estas características:
m
Protección de detalles del despliegue del clúster de Hadoop
co
Simplificación del número de servicios con los que un cliente debe interactuar
a.
op
Esta pasarela de Apache Knox se configura para que se ejecute SSL.
ur
Apache Knox solamente permite llamadas API REST para estos servicios Hadoop:
oe
ut
WebHCat
WebHDFS
it
st
HBase
.in
Hive
Yarn
s
do
Oozie
ca
Apache Ranger
ifi
rt
Apache Ranger permite controlar, habilitar y administrar la seguridad de datos sobre la plataforma
ce
Hadoop.
Las empresas que utilicen Ranger pueden ejecutar varias cargas de trabajo en donde hay múltiples
inquilinos.
Dentro de Hadoop la seguridad de los datos tiene que evolucionar para poder admitir varios casos
de uso para acceder a los datos mientras que se otorga un marco central de políticas de seguridad y
certificados.institutoeuropa.com
24 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Objetivos
m
específica.
co
Estandarización del método de autorización.
a.
Centralizar la auditoria de las acciones administrativas y el acceso del usuario.
op
Arquitectura Ranger
ur
oe
ut
Fuente: https://hortonworks.com
certificados.institutoeuropa.com
25 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Existe una comunicación bidireccional entre Ranger y RPS (Servidor de políticas Ranger):
Complementos para RPS: Se llama regularmente para comprobar si se han definido nuevas
m
co
El primer canal es primordial para que funcione el complemento Ranger mientras que el segundo
a.
canal es opcional.
op
Apache Sentry
ur
oe
Apache Sentry es un módulo basado en roles de autorización granular para Hadoop.
ut
Proporciona la posibilidad de controlar y aplicar niveles de privilegios para los datos en usuarios
it
Actualmente, Sentry funciona automáticamente con Apache Hive, Apache Solr, Hive
.in
Sentry está diseñado para servir como un motor de autorización para los componentes de Hadoop.
ca
Es altamente modular.
ce
Arquitectura Sentry
Apache Sentry tiene una estructura como la que se aprecia en la siguiente imagen:
certificados.institutoeuropa.com
26 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
m
Fuente: https://www.cloudera.com
co
Existen tres componentes que están involucrados en el proceso de autorización y son:
a.
op
Servidor Sentry: Gestiona los metadatos de autorización. Permite tener interfaces
ur
para recuperar y trabajar con metadatos de forma segura.
Motor de datos: Aplicación que procesa datos (Como Impala o Hive). Necesita
oe
autorizar el acceso a datos. Este motor de datos carga el plugin de Sentry y todas
ut
Servidor Sentry.
rt
ce
Motor Sentry.
Plugin Sentry.
certificados.institutoeuropa.com
27 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
28 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Autoevaluación
Cloudera…
m
Nos permite rápidamente desplegar un sistema para especificaciones de nuestro
co
sistema.
a.
op
Nos permite rápidamente desplegar un servidor optimizado para las especificaciones
de nuestro sistema.
ur
oe
HortonWorks…
ut
it
La gestión de riesgos…
ce
certificados.institutoeuropa.com
29 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080718] ADMINISTRACIÓN DE SISTEMAS BIG.
Verdadero.
m
co
Falso.
a.
op
Indica si la siguiente afirmación es verdadera o falsa: “Apache Sentry es un
módulo basado en roles de autorización granular para Hadoop”.
ur
oe
Verdadero.
ut
it
Falso.
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
30 / 30
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Introducción
No solo es suficiente estudiar los datos de los que disponemos desde un punto de vista analítico,
sino que será clave poder visualizar y generar informes de los volúmenes de datos que manejamos
Con el auge y el desarrollo del business Intelligence y la inteligencia analítica de negocio, surgen
m
de las más usadas y conocidas por las funcionalidades que aportan.
co
Tableau
a.
op
Estamos ante una herramienta de visualización de datos interactiva, en donde el usuario puede
interactuar con los datos, comparando, filtrando, conectando unas variables con otras, etc. Su
ur
creciente popularidad quizás se deba a que no está pensado para un usuario técnico de sistemas,
oe
sino que está orientado a que cualquier persona en cualquier ámbito pueda manejar la información
ut
Permite el manejo de bases de datos en Excel, Access, Texto, MySQL, Oracle, o bien se puede usar
st
su API para la extracción sistemática de los datos. Además es multiplataforma y multidispositivo por
.in
Aunque es software propietario se puede adquirir una versión de prueba desde el enlace siguiente:
ifi
https://www.tableau.com/es-es/products/online/request-trial
rt
TIBCO Spotfire es una plataforma de análisis y visualización que permite analizar minuciosamente
ce
los datos. Proporciona un análisis de datos temporales y geospaciales de una manera sencilla y
como el análisis de transmisión de datos. A través de Spotfire Application Data Services se puede
certificados.institutoeuropa.com
1 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Así mismo se puede hacer análisis predictivo mediante la herramienta Spotfire Predictive
Analytics, lo que permite la anticipación de las tendencias, así como tomar medida preventivas para
minimizar el riesgo y tomar mejores decisiones. Con TIBCO Empresa Runtime para R, se pueden
Como desventaja podemos señalar que no dispone de un ETL nativo, por lo que depende de otras
m
Al igual que Tableau es una herramienta distribuida bajo licencia, pero a través de su web
co
https://www.tibco.com/products/tibco-spotfire permite obtener una prueba gratuita.
a.
Carto
op
En este caso estamos ante una herramienta que permite el análisis y visualización de datos
ur
geolocalizados, facilitando la toma de decisiones a todos los niveles. Es decir, se trata de una
oe
herramienta para realizar análisis de datos con mapas, permitiendo a los usuarios analizar y crear
ut
herramientas con sus datos geoespaciales sin necesidad de conocimientos en programación, con el
it
objetivo de hacer de los mapas herramientas para el día a día en los diferentes departamentos de la
st
empresa.
.in
El hecho de presentar esta herramienta se debe a que a pesar de que cada vez más son las
s
empresas que explotan los datos que poseen, menos del 25% de ellas hacen uso de los datos
do
geolocalizados, pese a que entorno el 80% de los datos generados tienen un componente de
ca
información de los datos de localización de una forma sencilla y accesible para cualquier compañía y
rt
no solo para grande organizaciones con departamentos de inteligencia dedicados a esta labor.
ce
Con Carto Builder se puede analizar los datos mediante un sistema de localización inteligente
automática mediante cuadros de mando que pueden compartirse de una forma sencilla y rápida.
Estas son solo algunas de las herramientas que en el momento de redactar el presente manual se
mundo cambiante, pues el análisis de los grandes volúmenes de datos están en continuo desarrollo
debido al creciente auge, podremos encontrar un sinfín de herramientas similares a las expuestas,
tanto de software libre como propietario con las que trabajar en estos entornos.
certificados.institutoeuropa.com
2 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
3 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Objetivos
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
4 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Mapa Conceptual
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
5 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
La teoría de cuadros de mando, surgió en los años 90 impulsada por Robert S. Kaplan (profesor de la
revista Harvard Business Review un artículo denominado “The Balanced Scorecard, en el que se
concretaban los trabajos del profesor Kaplan sobre la medida del rendimiento empresarial. Los
m
autores pretendían establecer un nuevo modelo de medidas dentro de las empresas para generar un
co
valor añadido en el futuro y para conocer mejor las organizaciones.
a.
op
Según Kaplan y Norton podemos definir el Cuadro de Mando Integral (CMI) como la representación
ur
sí, medidos con los indicadores de desempeño, sujeto al logro de unas metas determinadas y
oe
respaldados por un conjunto de iniciativas o proyectos.
ut
perspectivas: financiera, cliente, interna e innovación y aprendizaje. Balanced refleja que los
st
indicadores tratan de mantener un equilibrio entre los objetivos a corto y largo plazo, entre las
.in
medidas financieras y las no financieras, entre los indicadores de retraso o liderazgo y entre las
s
El CMI se trata por tanto de un instrumento o metodología de gestión que facilita la implantación de
la estrategia empresarial de una forma eficiente, permitiendo transmitir la misma de una manera
ifi
más clara y concisa a todos los integrantes de la organización, y a la vez poder traducir dichas
rt
Como ya hemos adelantado, el cuadro de mandos integral, organiza los indicadores o medidas en
cuatro grandes grupos o perspectivas, que pasamos a definir en mayor detalle a continuación:
certificados.institutoeuropa.com
6 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
Perspectiva Financiera
op
Este aspecto resume el propósito último de las organizaciones comerciales, y se enfoca en producir
ur
mejores ganancias en la estructura empresarial. Se sigue manteniendo porque es una forma de
medir las consecuencias económicas de las acciones tomadas en las organizaciones. Incorpora la
oe
visión de los accionistas y mide la creación de valor de la empresa.
ut
Desde esta perspectiva, se debe dar respuesta a la pregunta ¿qué objetivos financieros debemos
it
st
lograr para ser exitosos? Tradicionalmente, esta era la única visión que se tenía en cuenta por
.in
parte de las empresas para la supervisión estratégica y de los objetivos, relegando a un segundo
Todos aquellos indicadores que tengan que ver con la contabilidad y finanzas entrarán dentro de
ca
esta categoría, siempre y cuando reflejen la situación económica de la empresa. Objetivos desde esta
ifi
No debemos olvidar que los objetivos financieros deben estar integrados y equilibrados y por ellos
ce
cada objetivo parcial debe contribuir en la medida necesaria y oportuna a la consecución de los
objetivos generales.
También debemos considerar desde esta perspectiva, la situación del negocio dentro del ciclo de
vida del producto, ya que obviamente los objetivos económicos son diferentes, no solo en lo que se
refiere a la rentabilidad de la inversión, sino también al capital para la financiación del stock o los
recursos publicitarios.
certificados.institutoeuropa.com
7 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Perspectiva interna
Para poder mejorar la satisfacción del Cliente, o para mejorar la utilización de los recursos
reduciendo los gastos, se deben mejorar los procesos internos en cuanto a la cadena de valor.
Cualquier mejora en este aspecto, tiene un impacto en las perspectivas de Cliente y Financiera.
Los indicadores incluidos en esta perspectiva deberán estar relacionados por tanto, con la calidad
del proceso que implica la mayor calidad posible del producto y el menor coste del proceso.
m
Dentro de este enfoque, será necesario llevar a cabo el análisis de la innovación de modo que
co
partiendo de la identificación de las necesidades y demandas de los clientes, se desarrollen
a.
soluciones idóneas para que alcance la máxima satisfacción. La perspectiva interna finalizará con el
op
servicio postventa que garantice la adecuada atención y mantenimiento del cliente.
ur
Perspectiva del cliente
oe
En este sentido se refleja el posicionamiento de la empresa en el mercado donde quiere competir.
ut
Debemos medir por tanto, la satisfacción del cliente, retención y adquisición de nuevos clientes,
rentabilidad, cuota de mercado, nivel de precios con respecto a competidores, etc. Es lógico pensar
it
st
que un cliente más satisfecho, consumirá más de nuestros servicios o productos, mejorará nuestra
.in
imagen y nos posicionará mejor ante nuestra competencia, lo que repercutirá directamente en las
ganancias de la organización.
s
do
Algunos de los objetivos que se pueden fijar desde la perspectiva del cliente podrían ser mejorar
ca
plazos de entrega, desarrollar nuevos productos o anticiparse a las necesidades de los clientes.
ifi
rt
Dentro de esta perspectiva se deben incluir aquellos aspectos relacionados con los recursos
humanos necesarios para poder implementar las mejoras en el resto de perspectivas. Es decir,
permite identificar la infraestructura que la organización debe construir para crear crecimiento y
estrategias, tanto de manera operativa, para poder cumplir con los objetivos de mejora de los
procesos internos, como en la satisfacción de los empleados, condición necesaria para mejorar la
certificados.institutoeuropa.com
8 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
atención al Cliente.
Kaplan y Norton señalan tres principios para la integración de las cuatro perspectivas con la
finalidad de permitir que el cuadro de mandos integral se oriente hacia el éxito de la organización,
éstos son:
Relaciones causa-efecto
Inductores de actuación
m
Vinculación con las finanzas
co
a.
La estrategia debe basarse por tanto en relaciones causa-efecto que establezcan una consecuencia
op
entre lo que se debe hacer y los resultados que se esperan obtener y que pueden expresarse en una
ur
oe
Características de los CMI
ut
it
La filosofía principal para sugerir perspectivas de indicadores es que todos ellos deben estar en
st
perfecto balance, abarcando casi la totalidad de los indicadores necesarios para monitorear la
.in
Todo lo que pasa en cualquier empresa es un conjunto de hipótesis sobre la causa y efecto entre
indicadores. Cualquier acción que se ejecute, tendrá un impacto directo sobre otra variables, es por
ca
eso que la perspectiva de Formación y Crecimiento es la base que permite crear la infraestructura
ifi
necesaria para crecer en las otras perspectivas. Lo importante es saber que ninguna perspectiva
rt
funciona en forma independiente, sino que puede iniciarse una acción con alguna de ellas y
ce
factores, entre los que se incluyen el análisis de la posición de la empresa en el mercado, recursos
con los que cuenta, los objetivos de largo y corto plazo, y por supuesto visión de futuro basado en
gran parte a la intuición que tiene el empresario. Por tanto la tarea de definir estrategias no es una
novedad, y es justamente el trabajo de los directivos de la empresa, si bien es cierto que contar con
buena información, facilita la definición de estrategias y la toma de decisiones, aun así no siempre
certificados.institutoeuropa.com
9 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
En base a esto, la teoría del CMI plantea que primero se deben definir las estrategias, es decir a
ur
oe
Luego se plantean los objetivos intermedios, y por último cómo se van a alcanzar. Estas definiciones
quedan claras para todos los integrantes de la organización, como si fueran parte de un gran equipo,
ut
y tienen manera de saber si sus acciones para lograr dichos objetivos son correctas o no.
it
st
La ventaja primordial de la metodología es que no se centra solamente en una perspectiva, sino que
.in
las considera todas simultáneamente, identificando las relaciones entre ellas. De esta forma es
s
posible establecer una cadena causa-efecto que permite tomar las iniciativas necesarias a cada nivel.
do
Conociendo cómo se enlazan los objetivos de las diferentes perspectivas, los resultados de los
ca
indicadores que se van obteniendo progresivamente permiten ver si hay que hacer ajustes en la
ifi
cadena para asegurar que se cumplan las metas a niveles superiores de la secuencia. De esta
rt
dirección exigida por los procesos, y estos se alinean con las expectativas de clientes, lo que a la
larga será la base para alcanzar los resultados financieros que garanticen el logro de la visión.
Podemos por tanto establecer que entre las características más significativas del CMI cabe
Intenta adoptar una perspectiva global ya que equilibra los objetivos a corto plazo con los
objetivos a largo plazo, los indicadores monetarios con los no monetarios y los datos
certificados.institutoeuropa.com
10 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
provisionales con los datos históricos. Esta combinación contribuye a que el control de gestión
Los indicadores se estructuran, en general, en torno a las cuatro perspectivas clave de una
perspectiva de los procesos internos y perspectiva de los empleados. Como hemos visto, la
m
primera perspectiva suele orientarse más a corto plazo, mientras que las otras tres tienen, en
co
general, un horizonte más a largo plazo.
a.
perspectiva de los empleados, éstos serán el motor de la mejora de los procesos. Esta mejora
op
redundarán en un mejor equilibrio presupuestario, lo que han de repercutir en unos usuarios
ur
más satisfechos. oe
Para cada perspectiva no sólo se han de identificar los factores clave de éxito, y los indicadores
ut
correspondientes, sino también las relaciones causa-efecto entre los distintos indicadores que
explican cómo conseguir mejores resultados. Por tanto, no se trata de ubicar indicadores de
it
st
cualquier manera, sino que se pretende que todos los indicadores estén relacionados entre sí.
.in
De esta forma, no sólo se obtienen información sobre lo que está pasando, sino también del
Tipos de CMI
ifi
En la actualidad, no todos los cuadros de mando integral están basado en los principios de Kaplan y
rt
Norton, aunque sí influenciados en alguna medida por ellos. De forma genérica, un CMI engloba
ce
varias herramientas que muestran información relevante para la empresa a través de los KPIs.
Un cuadro de mando integral puede elaborarse por tanto en base a múltiples criterios, en función
de la empresa, del sector económico en el que lleva a cabo su actividad mercantil, la duración del
Criterios económicos
certificados.institutoeuropa.com
11 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Criterios de tiempo
En base a lo anterior, y según su función podemos clasificar los cuadros de mando en:
Este tipo de cuadro de mando nos ayudará en la ejecución de procesos, ya que ofrecen grandes
m
posibilidades como sistema de medición del desempeño de actividades interdepartamentales, y de
co
procesos de pequeño o mediano calado corporativo mediante variables operativas.
a.
op
ur
oe
ut
it
st
s .in
do
ca
El CMO muestra datos operacionales de la organización, por lo que se diferencia del CMI en su
ifi
visión cortoplacista y en que comprende cada uno de los departamentos o áreas de la organización,
rt
con la misión de evaluar todos los aspectos para cada sección así como facilitar la toma de
ce
decisiones. El conjunto de indicadores que conformarán estos cuadros de mando pueden ser
un indicador clave podría ser las ventas mensuales, para el departamento de marketing se podría
hablar del sentimiento y fidelidad de marca que tiene los clientes con nuestra empresa.
Por tanto, en el CMO los resultados de la medición del desempeño de los procesos que se llevan a
cabo en cada departamento o área de la compañía, conlleva un conjunto de datos mucho más
abundantes, detallados y variados que los obtenidos en el CMI; por el contrario el CMO, al no estar
certificados.institutoeuropa.com
12 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
El enfoque aportado por los CMO constituye una clara necesidad para que las compañías creen valor
para sus clientes, las personas que trabajan en ellas, sus accionistas y la sociedad en general. Es a
través de los procesos como se introduce la “opinión del cliente” en todos los ámbitos de la
compañía y es la actuación basada en dichos procesos, la que permite una rápida reacción a los
m
co
El objetivo de este sistema de medida es por tanto, poder evaluar y conocer las situaciones en las
que no haya conformidad de los resultados con las previsiones y las situaciones que de forma visible
a.
o latente contengan oportunidades de mejora. Su implementación no entraña grandes dificultades:
op
tras determinar el proceso a controlar, solo es necesario establecer las variables operativas que
ur
permitirán evaluar su desempeño, sin que ello repercuta en las competencias para el análisis del
oe
CMI, o de otros CMO.
ut
Una independencia que sin embargo no es absoluta, pues es importante que las variables a las que
it
aludimos, se establezcan de acuerdo con la estrategia corporativa adoptada, es decir, que evidencie
st
El cuadro de mando táctico nos muestra información que ayuda a controlar procesos. Entre sus
objetivos está el contribuir a monitorizar los resultados con el fin de lograr el cumplimento de
objetivos, fomentar la acción y dar respuesta a cuestiones que permitan conocer, entender, detallar,
certificados.institutoeuropa.com
13 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
estrategia corporativa, por lo que su diseño no está pensando para servir con fines directivos y
gerenciales, sino para proporcionar la información que los distintos departamentos y áreas
Por supuesto, el cuadro de mando táctico también usa indicadores clave de desempeño (KPI),
pero en su caso adaptados a los fines y los propósitos perseguidos por cada uno de los
m
simplicidad, la accesibilidad, la facilidad para la comparación entre datos e informaciones, la
co
comunicación e integración en CMI y como no la usabilidad y la potencia analítica.
a.
Por tanto, el cuadro de mando debe atender a una serie de factores, sin los cuales sería imposible
op
obtener de él el máximo provecho:
ur
oe
Calidad de los datos
ut
Seguridad
it
st
Escalabilidad
.in
Entorno colaborativo.
s
do
como factores diferenciales, muy a tener en cuenta en el proceso de selección del cuadro de mando
ca
táctico.
ifi
rt
ce
Consideramos estratégico al cuadro de mando que interviene en la gestión del proceso para la
consecución final de objetivos. Tener información seleccionada para el nivel de alta dirección es
una necesidad evidente, sobre todo para quienes están mirando la empresa desde afuera:
empresa y uno de sus puntos clave es, obviamente, que funcione como mecanismo de control para
certificados.institutoeuropa.com
14 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
asegurarse que la gente hace lo que se espera de ella. Esto implica tres elementos: metas claras,
información acerca de en qué medida se han alcanzado esas metas y un sistema de comunicación
formal o informal.
Según Peter Drucker la dirección por objetivos funciona si se conocen los objetivos y, hoy en día,
el 90% de las veces se ignora. El cuadro de mando estratégico incluye una selección de
estrategia.
m
co
a.
op
Otra clasificación del CMI viene establecida por su contenido, estableciéndose cuatro categorías:
ur
Business Activity Monitoring (BAM)
oe
Muestra en tiempo real información de carácter operacional y táctico, utiliza KPIs, están orientados
ut
trazabilidad decisional.
it
st
tiempo real del conjunto de las operaciones que se llevan a cabo. Los cuadros de mando basados
ca
en este concepto, proporcionan al usuario una visibilidad en tiempo real de los eventos críticos del
ifi
negocio. Tales eventos pueden ser pedidos bloqueados de clientes importantes, atraso de pedidos de
rt
proveedor críticos o desviaciones del plan de ventas con respecto a los datos reales.
ce
Mientras que las herramientas de Business Intelligence ayudan a identificar cuellos de botella en
los procesos o en el rendimiento del negocio y pueden proporcionar mejoras desde un punto de vista
táctico a uno estratégico, el BAM ofrece acceso en tiempo real a los procesos de negocio operativos.
Se debe tener en cuenta, que muchas soluciones BAM se limitan únicamente a generar este tipo de
cuadros de mando que muestran en tiempo real indicadores (KPI) en vistosos gráficos, pero esto no
es suficiente para el concepto de “Real Time Enterprise”, primero porque son soluciones basadas en
“reporting” en vez de análisis, segundo porque se basan en actividades ocurridas sin predicción de
certificados.institutoeuropa.com
15 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
futuro y tercero porque el mecanismo de control para el usuario es rudimentario y no es una parte
Dashboarding
Son los cuadros de mando que muestran información sin compararla con objetivos propuestos. Es
Scorecarding
m
co
Muestran información estratégica y están orientados a mostrar objetivos, por lo tanto, ofrecen los
indicadores KPI y permiten almacenar en el sistema los KGI (Key Goal Indicator).
a.
op
En este sentido debemos por tanto indicar qué es una KGI y cuáles son sus diferencias con las KPI.
ur
En múltiples ocasiones los términos KPI y KGI se usan de forma intercambiable describiendo lo
mismo; qué necesita medir para ver si se alcanzan los resultados de sus acciones. Pero lo cierto es
oe
que los Key Goal Indicator y los KPIs son más útiles si cada uno tiene una definición más específica,
ut
podemos entender los KGI como el resultado final obtenido, mientras que los KPI, como hemos
it
comentado en puntos anteriores, son las métricas clave que indican si el rendimiento es lo
st
El objetivo de una campaña específica debe establecerse teniendo en cuenta los objetivos generales
s
do
subscriptores, una cifra basada en un objetivo estratégico para el crecimiento de los ingresos, las
ca
cifras históricas y los cálculos realizados sobre el valor del tiempo de vida del cliente.
ifi
rt
consideramos un KGI sino un KPI que mide la contribución de las campañas específicas al objetivo
En este sentido, el desempeño de cada medio no son las metas en sí. Los anuncios, las referencias
de correo electrónico y los medios de comunicación social, son sólo los medios para lograr el
resultado final que es el objetivo. No obstante hacer un seguimiento del número de correos
electrónicos enviados, de cómo actúan los amigos invitados al recibir estos correos electrónicos, si
hay alguien “hablando” de la campaña en redes sociales, si recibimos alguna visita con referencias
certificados.institutoeuropa.com
16 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
de medios sociales, si los visitantes que llegan desde ciertos medios tienden a rebotar en la página
destino, etc., nos indican si el rendimiento de cada parte de la campaña está contribuyendo lo
En conclusión, mientras que KPI muestro cómo de bien trabaja el proceso, los KGI muestra cómo
m
co
Balanced Scorecard
a.
Proporcionan una metodología de gestión estratégica totalmente independiente. Es el nombre por
op
el que se conocer en términos generales al CMI, como herramienta que permite enlazar estrategias
ur
y objetivos clave con desempeño y resultados a través de las cuatro áreas críticas en cualquier
oe
empresa que vimos en punto anteriores.
ut
medidas de actuación, las cuales proporcionan la estructura necesaria para un sistema de gestión y
st
los resultados de desempeño y entender por qué están dándose esos resultados.
s
do
El BSC permite tener el control del estado de salud corporativo y la forma cómo se están
encaminando las acciones para alcanzar el objetivo final. A partir de la visualización y el análisis de
ca
los indicadores balanceados, pueden tomarse acciones preventivas o correctivas que afecten el
ifi
desempeño global de la empresa. Como hemos visto, por sus características puede implementarse a
rt
nivel corporativo o en unidades de negocio con visión y estrategias de negocios definidas y que
ce
destacaremos:
certificados.institutoeuropa.com
17 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
informan de la consecución de los objetivos y de las causas que provocan los resultados
obtenidos.
Es útil para comunicar la estrategia a toda la organización. Es decir, ayuda a pasar de las
organización, no saben cómo aplicarla a su trabajo diario. Por tanto hay que comunicarla a toda
la organización y para alcanzar este objetivo el CMI puede ser de gran ayuda.
m
El CMI ayuda a alinear los objetivos de cada empleado con los de la organización.
co
Esta aportación va ligada al establecimiento de una política de incentivos que sea coherente
con los objetivos y la cultura de la organización, así como con el perfil de los empleados.
a.
El CMI no es sólo un sistema de información y control, además es un sistema de comunicación,
op
de motivación y de formación.
ur
El uso del CMI obliga a integrar el proceso de planificación, e inclusive los presupuestarios,
oe
con la estrategia planificada.
ut
El CMI puede ser de gran ayuda para favorecer la reingeniería y la mejora continua, al
Las estrategias que se dieron cómo validas cuando fueron diseñadas pueden perder su valor, ya
.in
continuamente y diseñar la estrategia. A partir de aquí resulta sencillo deducir que para que un CMI
ifi
estrategia corporativa previamente definida, así como también tener siempre presente una
visión integral y completa del negocio con el fin de evitar peligrosas desviaciones propiciadas
Firmeza y solidez: relacionado con lo anterior, un CMI debe velar por la firmeza y solidez de
Flexibilidad: esta debe ser una característica destacada de un cuadro de mandos efectivo. Sin
certificados.institutoeuropa.com
18 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
perder de vista los objetivos propuestos y el marco estratégico definido para lograrlos, un CMI
debe ser lo suficientemente flexible para integrar todas aquellas modificaciones y cambios que
los ejecutivos y los miembros directivos estimen oportunos, con el fin de dotar de una mayor
del grado de participación y los permisos que ostenten los mismos, la interactividad es una
m
propiedad irrenunciable que debe poseer todo CMI que pretenda ser efectivo, esto es que los
co
datos y la información que proporcione sean tanto visualizables como modificables y
compatibles.
a.
op
Entre las desventajas que presentan los cuadros de mando podemos destacar las siguientes:
ur
oe
Un CMI creado sin que exista involucración del equipo directivo y podo elaborado, carece de
sentido. Supondrá un gasto del que no se obtendrá todo el rendimiento que nos permite.
ut
La mala elección de los KPIs supone un fallo que afecta al sentido final del CMI, al dar
it
st
Hemos visto hasta el momento que el Cuadro de Mando Integral plantea un modelo para alinear
ifi
todas las metas, objetivos y actividades en base a indicadores específicos. El CMI traza un mapa, y
rt
parcela las funciones de cada área de la organización mostrando las relaciones de causa-efecto por
ce
las cuales las mejoras específicas llegarían a alcanzar los resultados esperados, agregando valor al
proceso.
En un sentido práctico lo primero que se debe tener claro para crear un cuadro de mando es: definir
qué es necesario medir para gestionar el negocio, por lo que para generar un CMI será necesario
principalmente:
certificados.institutoeuropa.com
19 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
En base a lo anterior, el primer y fundamental concepto a tener en cuenta, es que el CMI no es sólo
el sistema informático que brinda una serie de medidas a controlar, sino que implica un cambio en la
estrategia de toda la compañía, y por lo tanto como ya hemos señalado en múltiples ocasiones a lo
largo del tema, debe ser impulsado por la más alta dirección de la empresa.
Un cuadro de mando integral no tiene una fecha de terminación definida, y de una manera u otra,
todos los miembros de la Empresa deberían participar del mismo, por lo que en este sentido no se
m
diferencia en cuanto a su implementación de otras iniciativas estratégicas de mejoras o calidad.
co
La creación del CMI se inicia por tanto, con la correcta planificación de los objetivos estratégicos y
a.
la adecuada definición de los factores claves que marcan la pauta de actuación y control a medio y
op
largo plazo.
ur
oe
La elaboración de diagramas de causa-efecto permiten enlazar el entramado de objetivos orientados
En resumen, para poder generar el cuadro de mando integral, se debe dividir la tarea en dos etapas
st
diferenciadas:
.in
En la primera fase, debemos seguir una secuencia de pasos para poder pasar desde la definición de
ifi
las estrategias, que responden a la Meta y Visión de la organización, a las acciones concretas y el
rt
monitoreo que se puede hacer de las mismas. En la etapa de Implementación, se definirán los
ce
aspectos a tener en cuenta al construir el sistema que de soporte a todas las definiciones de la etapa
de diseño.
suficiente con el fin de que, desde la dirección, pueda definirse con claridad el modelo de negocio
sin la falta o incorrección de los datos es esencial en el diseño del cuadro de mando.
certificados.institutoeuropa.com
20 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Por lo tanto, la primera operación que se debe llevar a cabo, es la de un estudio riguroso y
el escenario en el que va a tener que desenvolverse la compañía. La planificación debe establecer las
bases para dejar resueltos interrogantes como cuál será el futuro modelo de negocio y cuáles serán
Esta fase consiste en realizar un estudio exhaustivo acerca de la situación actual interna y externa
m
de la empresa. Las herramientas de análisis DAFO (debilidades, amenazas, fortalezas y
co
oportunidades) son la base de este proceso.
a.
op
El análisis interno supone el conocimiento y evaluación de la realizada que está presente dentro de
la organización: qué recursos representan fuerzas positivas y ventajas (Fortalezas), y qué recursos y
ur
características representan fuerzas negativas (debilidades) y desventajas.
oe
El análisis externo por el contrario, es el proceso de estudiar las áreas del entorno, próximas y
ut
remotas, que pueden influir sobre la organización. Estudiar los factores que están fuera de control
it
de la entidad, tanto el entorno actual como el futuro, a fin de descubrir qué factores pueden hacer
st
que la situación de la organización mejore (Oportunidades) y qué factores, pueden tener un impacto
.in
Análisis DAFO
ca
fundamental en esta fase del diseño del CMI, creada en 1965 por Christense, Learned, Guth y
rt
Andrews. Esta herramienta se aplica con el fin de analizar de forma óptima el contexto competitivo
ce
de una empresa a través del análisis de la competencia y de las características internas a efectos de
El siguiente diagrama permite visualizar de forma sencilla y práctica las debilidades y fortalezas
Fortalezas Debilidades
Marca existente Percepción de marca
Base de clientes existentes Tecnología/especialización
Canal de ventas existente Soporte multicanal
certificados.institutoeuropa.com
21 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Oportunidades Amenazas
Venta cruzada Nuevos actores
Nuevos mercados Nuevos productos
Nuevos Servicios Conflictos de canal
Alianzas y co-branding
Los datos que se obtienen de este análisis situacional constituyen la base para determinar
diferentes opciones estratégicas basadas en el estudio de las oportunidades y amenazas a las que ha
su funcionamiento interno.
m
co
A través del cruce de datos obtenidos se pueden generar diversas estrategias:
a.
Fortalezas- - Oportunidades: Consiste en potenciar nuestras fortalezas con el fin de
op
maximizar nuestras oportunidades. En este caso se opta por una estrategia ofensiva.
ur
Implementando estas estrategias, según Navas y Guerras en su libro La dirección
oe
estratégica de la empresa, se conseguirá obtener ventajas competitivas, mediante
actuaciones agresivas sacando el máximo provecho de una situación que nos resulta ventajosa
ut
antes de que la competencia ponga en marcha una estrategia defensiva. Como acciones
it
st
concretas, y como ejemplo de aplicación, podríamos redirigir y conducir a los clientes al canal
.in
online; también podríamos, a través del análisis de las bases de datos, optimizar el plan de
contactos con los clientes y realizar una segmentación por variables de consumo y
s
do
Debilidades Oportunidades: Con el fin de desarrollar fortalezas para poder llevar a cabo
rt
oportunidades. Para ello podríamos, por ejemplo, optimizar nuestros resultados en SEO y
los que atraer a nuevos clientes y fidelizar a los existentes. Otra opción óptima resultaría de
centralizar los entornos multicanal de atención y gestión de clientes a través del uso de
herramientas CRM.
Fortalezas Amenazas: Para optimizar fortalezas y minimizar las amenazas se ha de optar por
una estrategia defensiva. Este tipo de estrategia definida en 1988 por Ries y Trout en “La
guerra de la mercadotecnia” es la que debe ser practicada por los líderes, por las empresas que
certificados.institutoeuropa.com
22 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
tienen una posición dominante en el mercado, y consiste en procurar proteger y mantener las
posiciones alcanzadas. Para ello, podríamos, por ejemplo, introducir productos exclusivos e
inexistentes en Internet con los que no contar con competencia. Otra práctica podría ser
contrarrestar tanto las debilidades como las amenazas. Establecer políticas de precios
diferenciados para cada uno de los canales de venta sería una estrategia óptima en este
m
sentido. Otro ejemplo sería reducir los costes de la operación convirtiendo a nuestra empresa
co
en “pure player” es decir, sólo realizando transacciones y ventas en entornos digitales y no
físicos.
a.
op
Otro punto fuerte de la planificación en el diseño del CMI es la necesidad de realizar acopio de
ur
información que nos permita expresar la estrategia en un conjunto coherente de indicadores.
oe
La mayor parte de la información estará disponible en los archivos de la empresa, los informes
ut
expectativas, información sobre el coste de los recursos y toda aquella información que pueda
.in
Tras realizar los análisis anteriores, llega el momento de establecer los objetivos estratégicos de las
cuatro perspectivas del cuadro de mando integral (finanzas, clientes, procesos internos, innovación-
ifi
aprendizaje). Establecer correctamente los objetivos es clave para que el CMI esté enfocado a la
rt
Como ya vimos, los objetivos variarán según el estado en el que se encuentre la empresa, pues no
es lo mismo una empresa recién creada que una empresa consolidada, donde el objetivo quizás sea
certificados.institutoeuropa.com
23 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Definición de indicadores
m
co
Determinar los criterios, parámetros que constituyan puntos de referencia mediante los cuales se
a.
permitirá posteriormente compara los resultados reales de sus operaciones, y determinar si estos
op
resultados son superiores, similares o inferiores a las expectativas.
ur
Es decir, los indicadores son instrumentos de medición de las variables asociadas a las metas
oe
definidas en el paso anterior, pudiendo ser éstos cualitativos o cuantitativos.
ut
Esto es fundamental para mejorar la calidad, debido a que es un medio rápido y económico de
it
identificación de problemas.
st
parámetros establecidos en relación con las metas. La selección del conjunto de indicadores
s
do
que el indicador ha de recoger con precisión el contenido del objetivo buscando la relación de
ca
causa-efecto entre ambos. Por otro lado, las fuentes de información requerida para su elaboración
ifi
Los CMI han de adaptarse al nivel de decisión para el que se diseñan, siendo distinto el da la
dirección general de la empresa, que el que sirve de soporte de ayuda a la decisión para un
departamento o área concreta de la entidad. Cada departamento deberá prestar una atención
especial a los indicadores que más relacionados están con su actividad. No se debe por el contrario,
perder en ningún momento la visión global de la empresa, poniendo de manifiesto como los
En términos prácticos, un CMI no deberá superar los 2-3 indicadores KPI por cada objetivo, ya que
un número excesivo de indicadores por objetivo puede llegar a perjudicar la estrategia y que los
certificados.institutoeuropa.com
24 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Algunos ejemplos de KPI en base a los objetivos definidos para cada perspectiva pueden ser:
KPI financieros: rentabilidad económica, beneficio neto, deuda a corto y largo plazo, deuda
total, capital circulante, beneficio por empleado, dividendo por acción, etc.
KPI de clientes: número de reclamaciones, número de visitas, cuota de mercado, ventas por
cliente, cuota de fidelidad, cuota de satisfacción, clientes perdidos, beneficio por clientes, etc.
m
KPI de procesos internos: cumplimento de auditorías, evaluación de tiempos muertos, índices
co
de mantenimiento, coste de transporte, producción neta, número de suministradores, tiempo
a.
de ciclo de proceso, etc.
op
KPI de crecimiento-aprendizaje: índices de calidad de formación, coste de la formación,
ur
oe
Como vemos, el CMI es una fuente de información estratégica y no sólo unos cuantos indicadores
ut
KPI.
it
st
Un cuadro de mando debe poner en evidencia los resultados de la organización que no se ajusten a
s
los límites establecidos de antemano y advertir sobre aquellos otros que se mueven en zonas
do
comunicación entre los diversos agentes implicados en la decisión, Los aspectos a considerar en
ifi
en total.
Se hace necesario así mismo, involucrar a las personas afectas por su implantación mediante el
certificados.institutoeuropa.com
25 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Además esta validación debe ser continúa en el tiempo para conformar que siguen siendo
m
pertinentes y cumplen con los objetivos definidos en etapas posteriores de desarrollo, pues un
co
indicador puede perder su vigencia cuando la organización defina nuevos objetivos, modifique las
a.
circunstancias y expectativas o cambie. el cliente objetivo.
op
En resumen, el sistema de indicadores y el cuadro de mando deben someterse a un proceso de
ur
mejora continua, manteniendo, modificando, suprimiendo indicadores o creando otros nuevos, con el
oe
fin de mantener y alcanzar el éxito en la estrategia definida.
ut
it
Dashboard en Excel
st
En primera instancia, debemos aclarar la diferenciación existente entre los cuadros de mando
.in
integral (de los que hemos estaba hablando hasta el momento) y los dashboard, ya que es habitual
s
el uso indistinto de ambos términos cuando en realidad hay diferencias entre ellos.
do
Dashboards
ca
ifi
Son herramientas de reporting para consolidar números, métricas y en ocasiones CMI, en una sola
rt
visualización de pantalla. Se utilizan para mostrar los valores de un proceso o las cifras que genera
ce
Es decir, en un panel de control (dashboard) se recoge información detallada de tal forma que
podemos encontrar la causa inmediata de por qué un determinado objetivo no se está cumpliendo.
Comúnmente, utilizan una metodología centrada en el usuario que integra datos de acuerdo con los
problemas, procesos comerciales o de marketing críticos de la empresa. Por norma, suelen estar
diseñados frecuentemente para tratar un único problema de forma aislada y desarrollar desde
certificados.institutoeuropa.com
26 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Los datos que se engloban en el panel de control se actualizan automáticamente de forma diaria,
semanal o mensual y son utilizados principalmente por Community manager o el Responsable de las
Scorecard
Los CMI miden el progreso hacia el logro de una estrategia, metas u objetivos utilizando KPIs. Un
scorecard puede ser parte de un dashboard, pero se diferencian en que un cuadro de mando incluye
m
co
Así por ejemplo, en un CMI tendríamos el KPI Engagement Rate de Twitter que nos permitiría
a.
comprobar si se está cumpliendo o no nuestro objetivo de engagement, en el caso de que no se esté
op
cumpliendo podemos consultar el panel de control para conocer la causa, ya que en él tendremos
desglosadas todas las variables que influyen en la KPI como, retweets, menciones, me gusta y
ur
followers.
oe
En este punto vamos a dar un repaso por las herramientas que a partir de Excel 2013 nos permiten
ut
Power BI son las características de Business Intelligence para Excel que forman parte del entorno de
.in
Excel se ofrece de manera independiente y no forma parte de Power BI para Office 365. Algunas
ca
de estas características de BI en Excel estuvieron disponibles antes y otras son nuevas, pero todas
ifi
ellas están ahora integradas en Excel. Las herramientas del cliente que componen el Power BI en
rt
Power Query
Power Pivot
Power View
Power Map.
Al iniciar por primera vez Excel 2016, se sorprenderá de lo que verá. Puedes configurar tu propia
gama de colores y cambiar el tamaño de la letra, Microsoft ha realizado cambios sobre la interfaz
certificados.institutoeuropa.com
27 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
En tema de Office escogemos Blanco, pulsamos en aceptar y volvemos a reiniciar Excel 2016. Al
ifi
certificados.institutoeuropa.com
28 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
1. POWER QUERY
ur
oe
Es una herramienta de Excel que se utiliza para la búsqueda, la remodelación y la combinación de
datos procedentes de diferentes fuentes. Power Query es uno de los complementos de Excel
ut
certificados.institutoeuropa.com
29 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
.in
Se trata de una herramienta ETL integrada en Excel, esta herramienta se utiliza para buscar o
s
descubrir datos de una amplia variedad de fuentes. Power Query tiene una interfaz de usuario
do
Instalación
ifi
rt
Por defecto en la versión Excel 2016 viene instalado las herramientas de Power Query como
ce
certificados.institutoeuropa.com
30 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
Si nos fijamos en la imagen en el apartado Datos podemos ver todas las opciones pertenecientes a
a.
Power Query.
op
En los siguientes apartados veremos todas las funcionalidades que nos aporta Power Query.
ur
Buscar y cargar datos
oe
Nos dirigimos hacia la pestaña Datos -> Nueva consulta, la cual nos permitirá buscar datos de todo
ut
tipo de fuentes, combinarlos descargarlos, etc… En la pestaña otras fuentes y, Desde una web,
it
En la parte derecha nos aparecerá un cuadro en el cual indicaremos desde la Web donde queremos
descargar los datos, en nuestro caso queremos los datos de S&P 500, los cuales los descargaremos
https://www-slickcharts-com.translate.goog/sp500?_x_tr_sl=en&_x_tr_tl=es&_x_tr_hl=es&_x_tr_pto=
certificados.institutoeuropa.com
31 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
nui,sc
Como vemos aparecen varios resultados, pero nosotros nos centraremos en el primer resultado,
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
Pulsaremos en Cargar, para agregar los datos en la hoja de cálculo y trabajar con ellos.
ifi
Power Query nos permite mezclar datos obtenidos de diferentes orígenes. Vamos a mezclar los
rt
datos obtenidos en las siguientes tablas (NYSE y NASDAQ). Power Query permite varias formas de
ce
cargar datos como se muestra en la imagen. Pero en este caso utilizaremos, importar desde carpeta.
certificados.institutoeuropa.com
32 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
.in
Al cargar, nos aparecerá una ventana en la que nos muestra todos los datos que contiene esa
certificados.institutoeuropa.com
33 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
Al cargar los datos se crea una consulta. Es conveniente cambiar el nombre de la consulta para
do
tenerlo todo más organizado, ya que por defecto el nombre de la consulta es (consulta1).
ca
Profundicemos en los datos, botón derecho sobre Binary de NYSE y clicamos en Explorar en profundidad:
ifi
rt
ce
certificados.institutoeuropa.com
34 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
Al finalizar, Excel muestra que contiene una tabla. Veamos lo que contiene la tabla, clicaremos en la
Al finalizar este proceso, cargara todos los campos que contiene la tabla.
En la primera fila nos muestra el nombre de la columna (columna1, columna2…), como ese dato no
certificados.institutoeuropa.com
35 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
Nos aparecerá en el lateral derecho de nuestro Excel la consulta que acabamos de realizar
oe
(Cosulta1) y nos indica que las filas que se cargaron.
ut
it
st
s .in
do
ca
ifi
rt
Ahora que tenemos los datos de ejemplo y los datos del S&P 500, vamos a combinarlos. Para
certificados.institutoeuropa.com
36 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Incluimos solamente los datos que tienen relación, en este caso vamos a necesitar de la consulta1
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
Una vez seleccionados los datos a combinar, nos aparecerá un mensaje de privacidad el cual le
rt
Una vez terminada la carga de datos nos aparecerá la siguiente ventana que nos muestra todos los datos
combinados:
certificados.institutoeuropa.com
37 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
Estos datos los podemos editar, desde esta ventana editor de consultas, la cual, es la interfaz
do
integral de todas las consultas de Power Query, incluidas las consultas, las combinaciones y los
ca
anexos. En este caso vamos a borrar columnas que no necesitamos, como por ejemplo la columna
certificados.institutoeuropa.com
38 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Al combinar se crean tablas expandibles, para expandirlas, nos dirigimos a la última columna, New
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
Ahora vamos a obtener más datos para combinar, en este caso será del libro de ejemplo NASDAQ.
ifi
En vez de cargar la carpeta entera, vamos a utilizar otra forma de cargar, importar desde Excel.
rt
Para esto, en las Pestaña Datos, Nueva consulta, Desde un archivo, Desde un libro y seleccionamos
ce
certificados.institutoeuropa.com
39 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
certificados.institutoeuropa.com
40 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
Pulsamos botón derecho sobre la hoja de cálculo NASQDA_2009 y en editar, para abrir el editor
.in
certificados.institutoeuropa.com
41 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
anterior.
Realizaremos una nueva combinación entre S&P500 y NASQDA_2009, como hicimos anteriormente
con NYSP.
Ahora tenemos dos combinaciones, una entre S&P500 Y NYSE y otra entre S&P500 y
NASDAQ_2009. Pero queremos tener todos estos datos en un mismo conjunto de datos, con lo que
queremos anexar las dos consultas. Para anexar las dos consultas, nos dirigimos a las herramientas
m
de consulta y anexar.
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
Nos aparecerá una ventana para seleccionar las combinaciones que deseamos anexar, nuestro caso
rt
merge1 y merge2 que son las dos combinaciones que hemos generado, y aceptamos.
ce
certificados.institutoeuropa.com
42 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
Con esto obtendremos un conjunto de datos adaptado a nuestras necesidades, en el que podemos
ca
Con estos pasos, el conjunto de datos queda incorporado en Excel. Los datos a los que le hemos
rt
dado forma, filtrado y combinado, los cargaremos posteriormente en el modelo de datos para poder
ce
POWER PIVOT
PowerPivot se utiliza para obtener acceso directamente a todo tipo de datos e Integrar datos de
multitud de orígenes, como son: bases de datos corporativas, hojas de cálculo, informes, archivos de
Es capaz de crear un propio modelo de datos a partir de distintos orígenes de datos, modelados y
certificados.institutoeuropa.com
43 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
estructurados para que se ajusten a las necesidades, estos datos pueden actualizarse desde sus
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
Power Pivot permite crear y administrar una colección de tablas y relaciones, desde dentro de Excel.
ifi
certificados.institutoeuropa.com
44 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
certificados.institutoeuropa.com
45 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
Una vez ahí, seleccionamos en el menú desplegable administrar, la opción Complementos COM.
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
46 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
Esta ventana muestra los complementos para Excel, así que seleccionamos Power Pivot y
co
aceptamos. Una vez que se complete el proceso obtendremos nuestra herramienta en la pestaña de
a.
Excel.
op
ur
oe
ut
Vamos a cargar las tablas obtenidas en la anexación y la tabla S&P 500 a un modelo de datos. Para
st
cargar las tablas, seleccionamos la tabla en la que se cargó la lista y luego en la pestaña Power
.in
certificados.institutoeuropa.com
47 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
.in
Cuando se agrega la tabla al modelo de datos, se abre una ventana independiente mostrando la
s
tabla que se agregó al modelo. Esta ventana es el editor de la herramienta Power Pivot.
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
48 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
.in
En Power Pivot, las tablas del modelo de datos aparecen en pestañas, de forma similar a como
s
do
aparecen en Excel.
ca
Power Pivot permite también editar las tablas, por ejemplo, vamos a cambiar el nombre de la tabla
ifi
que acabamos de agregar, haciendo doble clic donde indica la flecha y escribiendo el nuevo nombre.
rt
ce
certificados.institutoeuropa.com
49 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Para luego obtener datos más concretos vamos a modificar la consulta combinada, para que nos
muestre solo el primer y último día de cotización. Pero claro a nosotros nos interesa tener solo en un
certificados.institutoeuropa.com
50 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
registro o fila ambos datos, para eso crearemos dos consultas, una para obtener el primer día y otra
para el ultimo, con las dos consultas, combinaremos ambas para tener todos los datos conjuntos.
m
co
Como vemos podemos navegar por las distintas herramientas sin perder nada de lo que estábamos
a.
op
Antes de modificar la consulta haremos un duplicado como copia de seguridad. Seleccionamos la
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Una vez duplicada, editamos, para filtrar y que se incluyan solo el primer día de cotización.
certificados.institutoeuropa.com
51 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Para filtrar por día de cotización tenemos cambiar el tipo del campo New.column.date a tipo fecha.
m
elegimos tipo fecha.
co
a.
op
ur
oe
ut
it
st
Una vez transformado el tipo de dato, ya podemos filtrar por fecha, para que esta columna solo
.in
contenga el primer día de cotización del año. Seleccionamos el primer día de cotización. Pulsando en
Cambiamos el nombre a la consulta para saber que es el primer día de cotización. Y vamos a por la
segunda consulta.
certificados.institutoeuropa.com
52 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Para filtrar por el último día, Hacemos clic en el icono del engranaje, a la derecha de la entrada
m
co
a.
op
ur
oe
ut
it
st
s .in
do
Una vez que tenemos las dos consultas, combinaremos ambas consultas. Barra de herramientas,
combinar.
certificados.institutoeuropa.com
53 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
Como es una consulta combinada contiene columnas expandibles, como hicimos anteriormente,
do
certificados.institutoeuropa.com
54 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
Al terminar el proceso, vamos a cargar la hoja del cálculo en Power Pivot, y desde ahí editaremos
los datos. Para ello con la hoja de datos anuales seleccionada, nos desplazamos hacia la pestaña
ifi
Si nos fijamos se han generado muchas columnas que no vamos a utilizar y otras que necesitamos
cambiarlas de nombre, así que con la herramienta Power Pivot realizaremos estos pasos.
Vamos a cambiar el nombre de la columna New.column.date por Fecha primer día y el nombre de
certificados.institutoeuropa.com
55 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Quitamos las siglas GICS de los nombres de columna Sector GICS y Subsector GICS.
m
co
Cambia el nombre de NewColumn.stock_price_close a Cierre del primer día y el de
a.
NewColumn.NewColumn.stock_price_close a Cierre del último día.
op
Si lo deseamos, podemos eliminar las siguientes columnas, porque son redundantes: Clave,
ur
NuevaColumna.Sector GICS, NuevaColumna.Subsector GICS, NuevaColumna.Dirección de
oe
la sede, NuevaColumna.Clave.
ut
Si queremos, podemos cambiar el nombre a las columnas para facilitar el trabajo más adelante.
it
Ahora que tenemos los datos modelados, podemos empezar a crear cálculos, jerarquías…etc. con
st
Power Pivot.
.in
Crear cálculos
s
do
Ya que tenemos los datos anuales, podemos calcular la ganancia global, tanto en dólares o Euros,
ca
como en porcentajes de cada valor. Todo esto lo realizaremos mediante campos calculados, estos
campos calculados usan fórmulas de Expresiones de análisis de datos (DAX). Estas Expresiones
ifi
son muy parecidas a las de fórmulas de Excel, partiendo de que ya tenemos conocimiento de estas
rt
ce
Después en la barra de fórmulas en la barra de fórmulas de DAX, esta barra a medida que vamos
certificados.institutoeuropa.com
56 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
Ganancias y pérdidas en porcentaje
co
a.
op
ur
Además de las nuevas columnas, podemos crear algunos campos calculados para que muestren
oe
sumas de cantidades, por ejemplo, las ganancias o pérdidas totales. Se hace seleccionando una celda
ut
del área de cálculo de Power Pivot, que es la colección de celdas que hay entre los datos de la tabla
certificados.institutoeuropa.com
57 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Siguiendo los pasos anteriores crearemos dos cálculos, que se utilizaran más adelante para crear informes:
m
co
a.
op
ur
Crear relaciones
oe
La herramienta Power Pivot también es capaz de generar relaciones entre tablas. Estas establecen
ut
una conexión entre tablas, basada en una columna de cada una de las tablas que contienen datos
idénticos o similares. Estas relaciones permiten crear informes que incluyen datos de tablas
it
st
relacionadas.
.in
Vamos a crear una relación entre la tabla SP 500 y la tabla datos anuales. Para esto elegiremos
s
Y se mostrará lo siguiente, vemos como las tablas cargadas en Power Pivot se muestran aquí.
certificados.institutoeuropa.com
58 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
Para crear la relación arrastramos el campo Símbolo del valor de la tabla SP500 hasta el campo
op
Símbolo del valor de la tabla datos anuales.
ur
oe
ut
it
Crear jerarquías
Las jerarquías son agrupaciones de elementos de datos que no tienen una relación lógica. Al usar
jerarquías en Power Pivot permite crear informes para investigar los datos en profundidad.
Nosotros queremos crear una jerarquía entre el campo sector y subsector, nos dirigimos a menú
certificados.institutoeuropa.com
59 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
de diagrama, en la tabla datos anuales, seleccionamos los campos sector y subsector y pulsamos en
m
co
a.
op
Aceptamos y el resultado es una jerarquía, que contiene los campos deseados. Con esto ya tenemos
ur
todo listo para crear informes con la herramienta Power View.
oe
ut
3. POWER VIEW
it
Es una tecnología que permite crear fácilmente informes y visitas analíticas con gráficos
st
interactivos, que ayudan inspeccionar y visualizar los datos de distintas formas. La visualización es
.in
Todo esto nos permite crear rápidamente, y con poco conocimiento, una presentación vistosa que
certificados.institutoeuropa.com
60 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
Se pueden obtener visualizaciones de todo tipo en Power View, y los informes creados en Power
it
View se comparten fácilmente con otros usuarios. Los consumidores de informes pueden analizarlos
st
de forma interactiva.
.in
Instalación
s
do
Power View es una herramienta de Excel, solo debemos de habilitar, para esto seguiremos los pasos
En lugar de seleccionar Power Pivot seleccionamos Power View. Una vez instalado vemos en la
certificados.institutoeuropa.com
61 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Crear informe
Para crear un nuevo informe, nos dirigimos hacia la pestaña Power View indicada en el paso
anterior. Esto crea una hoja de cálculo nueva. La pestaña Power View no aparecerá hasta que haya
m
una hoja de cálculo activa, si observamos ahora ya aparece la pestaña Power View.
co
Al iniciar Power View si tenemos una versión antigua de Silverlight, o directamente no la tenemos
a.
instalada, nos puede saltar una alerta de que no tenemos Silverlight, en este caso pulsamos en
op
Instalar Silverlight:
ur
oe
ut
it
st
Solamente será descargar el paquete para nuestro sistema y ejecutar la instalación, una vez
.in
Empecemos a crear nuestro primer informe, en el que vamos a mostrar los resultados de cada
ca
sector por separado, de la tabla datos anuales. Como vemos en la parte derecha aparecen todas las
tablas disponibles, desplegamos la tabla datos anuales para que aparezcan los campos de esta.
ifi
rt
ce
Si no fijamos bien hay muchos campos que no vamos a utilizar, estos campos los podemos ocultar
certificados.institutoeuropa.com
62 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
mediante la herramienta Power Pivot, con esto facilitaremos la búsqueda de campos ya que al
m
co
Se iniciará Power Pivot, seleccionamos la tabla datos anuales y ocultamos los campos que no
a.
queremos que aparezcan. Para ocultar un campo botón derecho sobre el campo y, ocultar en
op
herramientas cliente.
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
63 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
Una vez ocultados guardamos y nos aparecerá el siguiente mensaje. Nos informa de que se ha
st
modificado el modelo de datos, esta notificación aparecerá siempre que hagamos un cambio en el
.in
Si desplegamos la tabla de nuevo observamos que contiene muchos menos campos, siendo así más
fácil la búsqueda. Si necesitamos algún campo oculto, podemos volver a Power Pivot y mostrar el
certificados.institutoeuropa.com
64 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Para generar el informe, arrastramos el campo ganancia o pérdida en dólares y sector hasta el
informe. Automáticamente nos crea una tabla y la suma de todas las ganancias.
certificados.institutoeuropa.com
65 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
Tabla generada:
ut
it
st
s .in
do
ca
ifi
rt
ce
Vamos a crear este gráfico con barras, con lo que seleccionamos la tabla, después, nos dirigimos a,
certificados.institutoeuropa.com
66 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
Y obtendremos.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Pero están todas las barras del mismo color, pongamos cada sector de un color. Para cambiar esto
debemos cambiar las leyendas del gráfico, arrastrando el campo sector, hasta la sección leyenda de
campos.
certificados.institutoeuropa.com
67 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
certificados.institutoeuropa.com
68 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
Como observamos, tenemos el nombre del sector a lado de cada barra con lo que podemos quitar la
oe
leyenda. Para quitar la leyenda nos dirigimos a, Presentación, Etiquetas, Leyenda y, Elegimos
ut
ninguna.
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
69 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
Con power View podemos crear un informe general el cual se vaya cambiando según el sector que
ur
elijamos en el grafico principal. Crearemos un gráfico que muestre la ganancia por sector, para este
certificados.institutoeuropa.com
70 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
Crearemos todos los gráficos según nuestra necesidad.oe
Comparación de Sectores
ut
Para comparar vamos a utilizar la jerarquía creada anteriormente. Arrastramos la jerarquía Sector
it
st
Creamos la misma tabla pero con el campo de ganancia promedio porcentaje y la alineamos a
certificados.institutoeuropa.com
71 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
Para una mejor visualización, en cada barra de cada tabla vamos a incluir el valor. Nos dirigimos a,
ur
Presentación, etiquetas de datos y, mostrar. oe
ut
it
st
s .in
do
ca
certificados.institutoeuropa.com
72 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Como, hemos agregado una jerarquía si hacemos doble clic en un sector, podremos acceder a la
m
co
a.
op
ur
oe
ut
POWER MAPS
it
st
Es una de las nuevas herramientas de power BI, con ella se pueden hacer visualizaciones en 3D,
.in
es el complemento para Excel con el que se pueden crear mapas, inspeccionar e interactuar con
datos geográficos, permitiéndonos así descubrir y compartir todos los nuevos conocimientos.
s
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
73 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Explore y navegue por datos geoespaciales en una experiencia de mapa 3D dentro de Excel.
Instalación
Power Map es una herramienta de Excel, la cual viene instalada ya por defecto en Excel 2016, esta
m
co
a.
op
Crear recorrido Power Map
ur
Para iniciar Power Map, seleccionamos la tabla de datos anuales y nos dirigimos a la barra de
oe
herramientas, Insertar, Paseos, Mapa 3D.
ut
it
st
s .in
do
ca
certificados.institutoeuropa.com
74 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
Como vemos en la parte derecha de la pantalla, tenemos una lista de campos de la tabla datos
do
anuales y otra sección para las capas. Para generar una representación en el mapa tenemos que
ca
arrastrar algún campo de tipo dirección, país, región, código postal, etc... En nuestro caso vamos a
ifi
certificados.institutoeuropa.com
75 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
Una vez indicada la posición geográfíca, en este caso la dirección, añadiremos el campo sector a
ur
categoría.
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Si observamos los cambios del mapa, crea columnas de color en cada región, según el sector de
certificados.institutoeuropa.com
76 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
certificados.institutoeuropa.com
77 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
.in
representaciones sobre el mapa, axial como cambiar el tema, visión en 2D, etc.…
ca
Tableau es una empresa de Software que desarrolla productos para la visualización de datos
ce
interactivos. Tableau contiene una funcionalidad de mapas, pudiendo trazar cualquier coordenada
de latitud y longitud.
certificados.institutoeuropa.com
78 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
Fuente: Summan.com
co
a.
Estamos ante una herramienta de visualización de datos interactiva, en donde el usuario puede
op
interactuar con los datos, comparando, filtrando, conectando unas variables con otras, etc. Su
creciente popularidad quizás se deba a que no está pensado para un usuario técnico de sistemas,
ur
sino que está orientado a que cualquier persona en cualquier ámbito pueda manejar la información
oe
de manera sencilla y presentarla de una forma llamativa.
ut
datos [[interactivos]]. Tableau contiene una funcionalidad de mapas, pudiendo trazar cualquier
coordenada de [[latitud]] y [[longitud]].
s .in
usuario puede interactuar con los datos, comparando, filtrando, conectando unas
variables con otras, etc.
ca
ifi
Permite el manejo de bases de datos en Excel, Access, Texto, MySQL, Oracle, o bien se puede usar
rt
su API para la extracción sistemática de los datos. Además es multiplataforma y multidispositivo por
ce
Aunque es software propietario se puede adquirir una versión de prueba desde el enlace siguiente:
https://www.tableau.com/es-es/products/server/options
Vamos a ver cómo utilizar Tableau. Una vez lo tengamos instalado tableau nos aparecerá la
siguiente ventana:
certificados.institutoeuropa.com
79 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
En connect podremos elegir si queremos usar un archivo para los datos o un servidor de base de
.in
datos. Elegiremos Excel file y usaremos el archivo de ejemplo Superstore.xls que viene con la
s
do
instalación de tableau.
ca
El archivo de excel tiene tres hojas. Nosotros elegiremos Orders la elegiremos y arrastraremos al
ifi
cuadrado:
rt
ce
certificados.institutoeuropa.com
80 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
Lo siguiente será elegir los datos que serán analizados eligiendo las dimensiones y medidas. Las
ur
dimensiones son los datos descriptivos mientras que las medidas son datos numéricos. Elegiremos
oe
Category y Region como dimensiones y ventas como medidas. Arrastraremos como mostramos en
la siguiente pantalla:
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
81 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Como vemos los datos nos aparecerán en formato de texto. Si queremos visualizarlos en formato
gráfico en la sección marks donde hemos movido Sales podemos coger y arrastrar sales a las
m
co
a.
op
ur
oe
ut
it
st
s .in
do
CartoDB
ifi
rt
CartoDB es una plataforma en la nube utilizado para crear mapas interactivos a partir de un
ce
conjunto de datos.
certificados.institutoeuropa.com
82 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
En este caso estamos ante una herramienta que permite el análisis y visualización de datos
ur
geolocalizados, facilitando la toma de decisiones a todos los niveles. Es decir, se trata de una
oe
herramienta para realizar análisis de datos con mapas, permitiendo a los usuarios analizar y crear
ut
herramientas con sus datos geoespaciales sin necesidad de conocimientos en programación, con el
it
objetivo de hacer de los mapas herramientas para el día a día en los diferentes departamentos de la
st
empresa.
.in
El hecho de presentar esta herramienta se debe a que a pesar de que cada vez más son las
s
empresas que explotan los datos que poseen, menos del 25% de ellas hacen uso de los datos
do
geolocalizados, pese a que entorno el 80% de los datos generados tienen un componente de
ca
localización.
ifi
datos de localización de una forma sencilla y accesible para cualquier compañía y no solo para
ce
Con Carto Builder se puede analizar los datos mediante un sistema de localización inteligente
automática mediante cuadros de mando que pueden compartirse de una forma sencilla y rápida.
Vamos a ver cómo crear un mapa interactivo utilizando un conjunto de datos con CartoDB.
Vamos a utilizar para este el listado de Centros Deportivos Municipales de la página del
ayuntamiento de Madrid:
certificados.institutoeuropa.com
83 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
Nos descargaremos el archivo csv que es uno de los formatos admitidos por CartoDB.
it
st
Una vez tengamos los datos nos iremos a cartodb.com y nos crearemos una cuenta.
.in
Tras crear la cuenta y hacer login le daremos a “Create your firts table”.
s
do
Se nos abrirá la siguiente ventana para elegir nuestra fuente de datos que en este caso abra un
ca
archivo de datos:
ifi
rt
ce
certificados.institutoeuropa.com
84 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
Lo seleccionaremos y le daremos a create table. Automáticamente nos creará una tabla como la
ut
siguiente:
it
st
s .in
do
ca
ifi
rt
ce
Para visualizar los datos solamente veremos darle al botón que pone “Map View”:
certificados.institutoeuropa.com
85 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
Desde el menú de la derecha si lo deseamos podremos realizar una consulta SQL para que solo nos
ur
muestre cierta información: oe
ut
it
st
s .in
do
ca
ifi
rt
ce
Verdadero.
certificados.institutoeuropa.com
86 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Falso.
Comenzar Actividad
m
Relaciona los elementos de la columna Derecha con la columna Izquierda
co
Análisis interno 1 Es el proceso de estudiar las
áreas del entorno, próximas y
a.
remotas, que pueden influir sobre
op
Análisis externo 2 la organización.
ur
oe Supone el conocimiento y
evaluación de la realizada que
está presente dentro de la
ut
(debilidades) y desventajas.
s
do
herramienta fundamental en esta fase del diseño del CMI, creada en 1965 por
Christense, Learned, Guth y Andrews.
ifi
rt
ce
Power View es una herramienta de Excel, solo debemos de habilitar, para esto
seguiremos los pasos de la herramienta anterior, una vez llegados al siguiente
paso.
Verdadero.
Falso.
certificados.institutoeuropa.com
87 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Librerías de visualización
D3
m
Para crear a partir de datos, infogramas interactivos y dinámicos.
co
a.
Leaflet
op
Para la creación de mapas.
ur
oe
Cytoscape
ut
D3 es una librería de Javascript para crear a partir de datos, infogramas interactivos y dinámicos.
s
manera:
ca
ifi
rt
ce
certificados.institutoeuropa.com
88 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
El archivo HTML será el siguiente:
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
89 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
90 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
Leaflet oe
Leaflet como D3 es una librería javascript pero para la creación de mapas.
ut
certificados.institutoeuropa.com
91 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
.in
certificados.institutoeuropa.com
92 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
oe
ut
it
st
s .in
do
Utilizaremos un conversor para convertir datos vectoriales a formato GeoJSON. Una vez tengamos el
ifi
archivo deberemos cambiar su extensión a .js y lo editaremos con notepad añadiéndole var
rt
countrie =:
ce
certificados.institutoeuropa.com
93 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
De esta manera hemos metido todo el contenido del archivo GeoJson a la variable contries ahora
Así añadiremos el archivo js que hemos creado antes. Este archivo debe de estar en la misma
s
do
certificados.institutoeuropa.com
94 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
ur
Este será el aspecto final de nuestro mapa. oe
Cytoscape
ut
it
Como las dos librerías anteriores Cytoscape es una librería de creación de gráficos para análisis y
st
visualización.
.in
El archivo cytoscape.js debe de estar en la misma carpeta que el archivo html que vamos a crear
certificados.institutoeuropa.com
95 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
Ahora vamos a crear el gráfico, crearemos la instancia de cytoscape y un array de elementos para
a.
ser añadidos al gráfico:
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
96 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
m
co
a.
op
De esta manera podremos crear gráficos interactivos usando Cytoscape.
ur
oe
ut
it
Comenzar Actividad
st
análisis y visualización.
do
Leaflet. 2
ca
Cytoscape. 3
rt
dinámicos.
certificados.institutoeuropa.com
97 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Recuerda
[[[Elemento Multimedia]]]
m
co
a.
op
ur
oe
ut
it
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
98 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
Autoevaluación
Tableau…
m
Es una empresa de Hardware que desarrolla productos para la visualización de datos
co
interactivos.
a.
op
Es una pyme de Software que distribuye productos para la visualización de datos
interactivos.
ur
oe
CartoDB…
ut
it
conjunto de datos.
s .in
Es una plataforma en la nube utilizada para crear mapas interactivos sin datos.
do
ca
conjunto de datos.
rt
ce
D3…
certificados.institutoeuropa.com
99 / 100
[AFO017713] IFCT127PO ARQUITECTURA BIG DATA
[MOD015921] IFCT127PO ARQUITECTURA BIG DATA
[UDI080719] VISUALIZACIÓN DE DATOS.
dinámicos.
Verdadero.
m
Falso.
co
a.
Indica si la siguiente afirmación es verdadera o falsa: “Leaflet no permite usar
op
datos Geojson”.
ur
oe
Verdadero.
ut
it
Falso.
st
s .in
do
ca
ifi
rt
ce
certificados.institutoeuropa.com
100 / 100