Está en la página 1de 3

MÓDULO 4.

BIG DATA Y BASES DE DATOS NOSQL

Test - Sistemas Big Data


Prueba realizada

Tu resultado en el test ha sido: 100%

Has mejorado tu anterior nota de 85.

Has superado el test.

Tus respuestas

El nuevo paradigma de big data

a) Implica un cambio de la causalidad a la correlación.

b) Se basa en la validación de hipótesis formuladas previamente.

c) Implica que la muestra de los datos es escogida aleatoriamente.

d) Todas son ciertas.


La b) es falsa porque las hipótesis forman parte del modelo de causalidad. De forma similar, las
muestra de los datos se utiliza en los modelos tradicionales. En Big Data se utilizan todos los datos
para los cálculos.
Según la definición de Big Data más extendida:

a) Aplicar una solución basada en Big Data sólo tiene sentido cuando se cumplen las
condiciones de las 3 V's: velocidad, volumen, variedad.

b) La velocidad significa que el tiempo para procesar los datos es muy pequeño.

c) La variedad significa que los datos pueden provenir de diferentes fuentes.

d) Todas son ciertas.


La a) es falsa porque aplicar una solución BI basada en Big Data tiene sentido aunque se cumpla
sólo una de las condiciones de las 3 V's. La c) también es falsa porque la variedad significa que los
datos son de tipo no estructurado (por ejemplo, texto sin formato). La correcta es la b).
La 4ª V del Big Data

a) Significa la variedad de los datos.

b) Se utiliza para medir la exactitud del cálculo.

c) Fue introducida por IBM y es ampliamente aceptada por la comunidad.

d) Ninguna es cierta.
La 4V significa la veracidad de los datos, evaluada en la exactitud del dato y del cálculo. Aunque
es cierto que fue introducida por IBM, no existe unanimidad en la comunidad sobre su aceptación.
De la relación entre un sistema BI tradicional y un sistema basado en Big Data,
podemos decir que:

a) La solución de Big Data se utiliza como complemento al sistema de BI tradicional; no


sustituye al sistema de BI tradicional.

b) En un sistema basado en Big Data, los datos almacenados en el data warehouse son
derivados o filtrados.

c) A diferencia de los sistemas Big Data, en un sistema de BI tradicional los datos son
almacenados en el data warehouse en su mínima granularidad.

d) Todas son ciertas.


La respuesta correcta es la d). Todas son ciertas.
En el esquema general MapReduce:

a) Los datos iniciales se encuentran divididos en múltiples documentos o ficheros que


pueden ser procesados en paralelo por la función Map.

b) La función Reduce extrae de los datos iniciales las claves que utilizará la función Map
posteriormente para asignarles un valor.

c) La función Map traduce los datos iniciales a una serie de pares clave-valor, y la función
Reduce combina todos los pares clave-valor de los documentos o ficheros tratados.
d) La a) y la c) son ciertas.
La b) es falsa porque la función Reduce se encarga de combinar las claves de múltiples
documentos o datos para crear un valor reducido (combinado) único para cada clave. El resto son
ciertas, por lo que la correcta es la d).
En el sistema de ficheros distribuidos de Apache Hadoop:

a) Los datos se almacenan en bases de datos NoSQL.

b) Los datos se procesan de forma secuencial.

c) Por encima del sistema de ficheros, Hadoop incorpora un motor de ejecución de trabajos
MapReduce.

d) No existe tolerancia a fallos puesto que los procesos de integridad aseguran que los datos
no se encuentran replicados.

La a) es falsa puesto que, generalmente, Hadoop utiliza el sistema de ficheros distribuido HDFS.
La b) es falsa puesto que los datos se distribuyen en diferentes nodos y pueden ser, por tanto,
procesados en paralelo. La d) es falsa puesto que existen múltiples copias de los datos en diferentes
nodos, por lo que existe tolerancia a fallos. La correcta es la c).
El sistema Apache Spark

a) Se basa en el modelo MapReduce, de forma similar a Apache Hadoop.

b) Los datos se almacenan en bases de datos relacionales.

c) Puede utilizar bases de datos NoSQL o HDFS para almacenar los datos.

d) Es un módulo para la extracción de conocimiento del ecosistema de Apache Hadoop.


La a) es falsa puesto que Spark no utiliza el modelo MapReduce. La b) es falsa porque los datos se
pueden almacenar en distintos sistemas de ficheros distribuidos, entre ellos HDFS, y bases de
datos NoSQL. La d) es falsa puesto que Spark es una aplicación independiente, aunque puede
utilizarse conjuntamente con Hadoop.

También podría gustarte