Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tus respuestas
a) Aplicar una solución basada en Big Data sólo tiene sentido cuando se cumplen las
condiciones de las 3 V's: velocidad, volumen, variedad.
b) La velocidad significa que el tiempo para procesar los datos es muy pequeño.
d) Ninguna es cierta.
La 4V significa la veracidad de los datos, evaluada en la exactitud del dato y del cálculo. Aunque
es cierto que fue introducida por IBM, no existe unanimidad en la comunidad sobre su aceptación.
De la relación entre un sistema BI tradicional y un sistema basado en Big Data,
podemos decir que:
b) En un sistema basado en Big Data, los datos almacenados en el data warehouse son
derivados o filtrados.
c) A diferencia de los sistemas Big Data, en un sistema de BI tradicional los datos son
almacenados en el data warehouse en su mínima granularidad.
b) La función Reduce extrae de los datos iniciales las claves que utilizará la función Map
posteriormente para asignarles un valor.
c) La función Map traduce los datos iniciales a una serie de pares clave-valor, y la función
Reduce combina todos los pares clave-valor de los documentos o ficheros tratados.
d) La a) y la c) son ciertas.
La b) es falsa porque la función Reduce se encarga de combinar las claves de múltiples
documentos o datos para crear un valor reducido (combinado) único para cada clave. El resto son
ciertas, por lo que la correcta es la d).
En el sistema de ficheros distribuidos de Apache Hadoop:
c) Por encima del sistema de ficheros, Hadoop incorpora un motor de ejecución de trabajos
MapReduce.
d) No existe tolerancia a fallos puesto que los procesos de integridad aseguran que los datos
no se encuentran replicados.
La a) es falsa puesto que, generalmente, Hadoop utiliza el sistema de ficheros distribuido HDFS.
La b) es falsa puesto que los datos se distribuyen en diferentes nodos y pueden ser, por tanto,
procesados en paralelo. La d) es falsa puesto que existen múltiples copias de los datos en diferentes
nodos, por lo que existe tolerancia a fallos. La correcta es la c).
El sistema Apache Spark
c) Puede utilizar bases de datos NoSQL o HDFS para almacenar los datos.