Ingenieria Marzoo

DATOS PERSONALES FIRMA
Nombre: DNI:
Apellidos:
ESTUDIO ASIGNATURA CONVOCATORIA
MÁSTER UNIVERSITARIO EN
ANÁLISIS Y VISUALIZACIÓN DE 01426.- INGENIERÍA PARA
Ordinaria
DATOS MASIVOS / VISUAL EL PROCESADO MASIVO
ANALYTICS AND BIG DATA (PLAN Número periodo 3370
DE DATOS
2021)
FECHA MODELO CIUDAD DEL EXAMEN
18-20/03/2022 Modelo - A ONLINE (LLEIDA)
Etiqueta identificativa
INSTRUCCIONES GENERALES
1. Lee atentamente cada pregunta antes de responderla.
2. La duración del examen es de 60 minutos. Se recomienda no apurar este tiempo
sino enviar con unos minutos de antelación para evitar posible sobrecarga en el
sistema y/o que sea recibido con posterioridad a la hora límite.
3. No será corregido ningún examen enviado más allá de la hora límite.
4. El examen PRESENCIAL supone el 60% de la calificación final de la asignatura. Es
necesario aprobar el examen, para tener en cuenta la evaluación continua, aunque
esta última sí se guardará para la siguiente convocatoria en caso de no aprobar.
5. No olvides rellenar EN TODAS LAS HOJAS los datos del cuadro que hay en la
parte superior con tus datos personales.
6. Apaga el teléfono móvil.
7. Las preguntas se contestarán en CASTELLANO.
8. El profesor tendrá muy en cuenta las faltas de ortografía en la calificación final.
9. En cada pregunta de test, sólo una opción es correcta.
10. Cada pregunta de test suma 0.35 puntos si se ha contestado correctamente, y resta
0.1 puntos si se ha contestado incorrectamente. No suma ni resta si se deja sin
contestar.
11. Las preguntas de respuesta libre deben responderse en un máximo de dos frases.
Código de examen: 189561

Puntuación
Hadoop-Test
• Puntuación máxima 7.00 puntos
Hadoop-Ensayo
• Puntuación máxima 3.00 puntos
Bloque de preguntas tipo test
• Cada pregunta sólo tiene una respuesta correcta.

• Si cree que hay varias respuestas correctas, marque la más completa.
• Los aciertos suman 0,35 puntos. Los fallos restan 0,1 puntos. Las preguntas sin contestar ni
suman ni restan.
• Puntuación máxima de este apartado: 7 puntos.
1. En el sistema de ficheros HDFS, cuando se solicita la escritura de un fichero:
A. El namenode accede a los datanodes para escribir los bloques

B. El namenode envía el contenido de los bloques del fichero a los datanodes
C. El cliente envía el contenido de los bloques del fichero a namenode
D. El cliente envía el contenido de los bloques del fichero a los datanodes
2. La redundancia en HDFS se consigue:
A. Usando discos de almacenamiento externos al clúster.

B. Copiando varias réplicas de los bloques de un fichero en el mismo nodo.
C. Copiando varias réplicas de los bloques de un fichero en diferentes nodos.
D. Copiando una réplica de los bloques de un fichero en el namenode, y otras de
backup en los datanodes.
3. Uno de los principales problemas de los RDD es que...
A. Se ejecutan siempre en el proceso driver

B. No permiten replicación de sus particiones
C. Sólo pueden ser manejados desde el lenguaje Scala
D. El programador debe conocer exactamente la estructura de los objetos que lo
componen

4. Para cargar datos en un dataframe de Spark, podemos:
A. Pedir a Spark que infiera el esquema para que asigne tipos más específicos que
String, si procede.
B. No especificar esquema ni pedir a Spark que lo infiera, para obtener el tipo más
adecuado para cada campo.
C. No especificar esquema porque la inferencia de esquema que hace el propio Spark
asigna el tipo correcto automáticamente sin coste de eficiencia.
D. Especificar explícitamente y obligatoriamente el esquema para que Spark pueda
cargar los datos.
5. En Impala, el proceso que lleva a cabo las consultas (las planifica, las distribuye a otras
máquinas, lee y escribe datos, etc) es
A. statestored
B. stated
C. catalogd
D. impalad
6. ¿Qué componente NO forma parte de la arquitectura de Apache Hive?
A. Un metastore.
B. Un compilador.
C. Un motor de procesamiento distribuido propio.
D. Un servidor de peticiones.
7. Los mensajes que una aplicación productora envía a Kafka (seleccione la respuesta
correcta):
A. Se almacenan en el clúster de Kafka de forma indefinida y sólo se pueden borrar de

forma manual.
B. Se almacenan en memoria del clúster de Kakfa hasta que los lee el primer
consumidor, y una vez leído se borran de memoria.
C. Se almacenan en almacenamiento persistente del clúster de Kafka hasta que los lee
el primer consumidor, y una vez leído se eliminan.
D. Se almacenan en el clúster de Kafka y se eliminan tras cierto tiempo en el clúster o
cuando el volumen de mensajes alcanza cierto umbral, según configuración.
8. ¿Cuál de las siguientes afirmaciones sobre Kafka es cierta?
A. Kafka utiliza Spark como motor de ejecución

B. Un grupo de mensajes con la misma estructura se denomina broker
C. Es una cola distribuida para paso de mensajes de la que las aplicaciones pueden leer
o escribir
D. Las opciones B y C son correctas
9. ¿Qué afirmación sobre los metadatos de HDFS es cierta?

A. Se almacenan en el metastore de Hive
B. Se almacenan en el datanode federado
C. Son datos acerca de la ubicación física de los bloques que forman cada fichero
D. Sólo se consultan en caso de fallo del namenode
10. HDFS está optimizado para ficheros
A. modificados frecuentemente
B. de tamaño grande
C. de tamaño mediano
D. de tamaño pequeño
11. ¿Cuál de los siguientes elementos NO forma parte de la arquitectura de Impala?
A. Apache Spark
B. impalad
C. Conector ODBC
D. catalogd
12. ¿Cuál de los siguientes casos de uso es típico de Kafka?
A. Una web envía constantemente información sobre clicks a Spark, que calcula
resúmenes en tiempo real del comportamiento de los usuarios
B. Un científico de datos utiliza el histórico de su empresa para entrenar un modelo
predictivo
C. Un analista de negocio lanza consultas SQL sobre datos masivos almacenados en
un cluster
D. Ninguno de los casos anteriores es habitual en Kafka
13. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta):
A. Lee los mensajes en orden dentro de cada partición.

B. Lee los mensajes en orden dentro de cada topic.
C. Lee los mensajes en orden dentro de cada bróker.
D. Kafka no garantiza ningún tipo de orden al consumir los mensajes.
14. Un transformador en Spark MLlib es...
A. Una pieza que requiere una o varias pasadas previas por los datos para
transformarlos
B. Una pieza que está configurada y lista para transformar un DataFrame que le
pasemos
C. Un DataFrame obtenido como resultado de una predicción
D. Una secuencia de etapas (stages)
15. La pieza VectorAssembler de MLlib:

A. Es un estimador para entrenar modelos vectoriales como RandomForest
B. Es un estimador genérico de algoritmos distribuidos
C. Es un transformador que crea una nueva columna de tipo vector fusionando
columnas existentes
D. Es un transformador que codifica los valores de una variable categórica
16. Entre los servicios big data que ofrecen las plataformas de cloud computing estudiadas
(elija la respuesta correcta):
A. Todas las plataformas proporcionan Hive como servicio gestionado.

B. Todas las plataformas proporcionan un servicio de consultas OLAP (OnLine
Analytical Processing, orientado a consultas batch) gestionado.
C. Todas las plataformas proporcionan únicamente servicios de consulta OLTP.
D. Ninguna de las anteriores.
17. En cualquiera de las plataformas de cloud computing estudiadas, los recursos de

computación se distribuyen a lo largo de todo el mundo. Elija la respuesta correcta:
A. Cualquiera de los servicios disponibles se ejecutan siempre en los recursos de

computación más cercanos al desarrollador.
B. Se deben escoger los recursos de computación más cercanos a la ubicación del
desarrollador, ya que sólo son accesibles desde localizaciones cercanas.
C. Es recomendable elegir recursos de computación cercanos al desarrollador de la
aplicación desplegada.
D. Es aconsejable elegir recursos de computación cercanos a los usuarios finales de la
aplicación desplegada.
18. Se quiere desplegar un producto big data en una plataforma de cloud computing. Por
requisitos del producto, se requiere tener el mayor control posible del servidor o servidores
donde se despliegue dicho producto. ¿Qué solución de las disponibles elegiría?
A. IaaS
B. PaaS
C. FaaS
D. SaaS
19. La herramienta Dataproc de Google Cloud...
A. Permite desplegar al vuelo un cluster que trae instaladas herramientas big data como
Spark, HDFS y Kafka
B. Permite desplegar al vuelo una base de datos relacional de Google
C. Permite descargar HDFS y Spark para instalarlos y usarlos en nuestro ordenador
portátil doméstico
D. Ninguna de las respuestas anteriores es cierta
20. Para utilizar una cola de Kafka desde el lenguaje de programación Java ...

A. Basta descargar e importar la librería de Kafka para Java, y tener previamente Kafka
instalado y corriendo en un cluster
B. Es necesario tener instalado Spark en el mismo cluster además de Kafka
C. Es necesario tener instalado HDFS en el mismo cluster además de Kafka
D. No es posible utilizar Kafka desde Java; es necesario hacerlo desde Python

PLANTILLA DE RESPUESTAS
Preguntas / Opciones A B C D
10
11
12
13
14
15
16
17
18

19
20

Bloque de preguntas de ensayo corto.
• Cada pregunta debe responderse en un máximo de dos frases.

• Cada pregunta contestada correctamente suma 0.75 puntos.
• Puntuación máxima de este apartado: 3 puntos.
1. Enumerar los tres orígenes de los datos que se están generando masivamente en la
actualidad y poner un ejemplo de cada uno. (Responder en 4 líneas)
2. Se quiere desplegar un cluster Hadoop para almacenar los datos contables de una empresa
pequeña. Dichos datos están almacenados en archivos CSV, uno por mes desde 1990 hasta la
actualidad, y ningún archivo supera los 10MB de tamaño. Comente si la solución basada en un
clúster de Hadoop le parece adecuada y por qué. (Responder en 4 líneas)
3. Describa brevemente 2 formas de desplegar una base de datos SQL en la plataforma de

cloud computing de su elección. (Responder en 4 líneas)
4. Imagine que es sábado por la tarde, ha iniciado su sesión en Netflix y está navegando por
los contenidos que ofrece con el fin de elegir la película que quiere ver. Indique y justifique en
UNA frase para cada apartado, qué tecnología utilizaría para (a) entrenar un modelo predictivo
de qué película puede gustarle más, y (b) alimentar ese modelo en tiempo real para mostrarle
al usuario, cuando ha hecho click en una película en concreto pero todavía no ha confirmado
que quiere verla, un score indicando cuánto le va a gustar. (Responder en 4 líneas)

Ingenieria Marzoo

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ingenieria Marzoo

Cargado por

Copyright:

Formatos disponibles

DATOS PERSONALES FIRMA

FECHA MODELO CIUDAD DEL EXAMEN

18-20/03/2022 Modelo - A ONLINE (LLEIDA)

Código de examen: 189561

• Puntuación máxima 7.00 puntos

• Puntuación máxima 3.00 puntos

Bloque de preguntas tipo test

• Cada pregunta sólo tiene una respuesta correcta.

1. En el sistema de ficheros HDFS, cuando se solicita la escritura de un fichero:

A. El namenode accede a los datanodes para escribir los bloques

2. La redundancia en HDFS se consigue:

A. Usando discos de almacenamiento externos al clúster.

3. Uno de los principales problemas de los RDD es que...

A. Se ejecutan siempre en el proceso driver

Código de examen: 189561

6. ¿Qué componente NO forma parte de la arquitectura de Apache Hive?

A. Se almacenan en el clúster de Kafka de forma indefinida y sólo se pueden borrar de

8. ¿Cuál de las siguientes afirmaciones sobre Kafka es cierta?

A. Kafka utiliza Spark como motor de ejecución

9. ¿Qué afirmación sobre los metadatos de HDFS es cierta?

Código de examen: 189561

10. HDFS está optimizado para ficheros

11. ¿Cuál de los siguientes elementos NO forma parte de la arquitectura de Impala?

12. ¿Cuál de los siguientes casos de uso es típico de Kafka?

13. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta):

A. Lee los mensajes en orden dentro de cada partición.

14. Un transformador en Spark MLlib es...

15. La pieza VectorAssembler de MLlib:

Código de examen: 189561

A. Todas las plataformas proporcionan Hive como servicio gestionado.

17. En cualquiera de las plataformas de cloud computing estudiadas, los recursos de

A. Cualquiera de los servicios disponibles se ejecutan siempre en los recursos de

19. La herramienta Dataproc de Google Cloud...

Código de examen: 189561

Código de examen: 189561

Código de examen: 189561

Código de examen: 189561

• Cada pregunta debe responderse en un máximo de dos frases.

3. Describa brevemente 2 formas de desplegar una base de datos SQL en la plataforma de

Código de examen: 189561

También podría gustarte