Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nombre: DNI:
Apellidos:
ESTUDIO ASIGNATURA CONVOCATORIA
MÁSTER UNIVERSITARIO EN
ANÁLISIS Y VISUALIZACIÓN DE 01426.- INGENIERÍA PARA
Ordinaria
DATOS MASIVOS / VISUAL EL PROCESADO MASIVO
ANALYTICS AND BIG DATA (PLAN Número periodo 3370
DE DATOS
2021)
Etiqueta identificativa
INSTRUCCIONES GENERALES
1. Lee atentamente cada pregunta antes de responderla.
2. La duración del examen es de 60 minutos. Se recomienda no apurar este tiempo
sino enviar con unos minutos de antelación para evitar posible sobrecarga en el
sistema y/o que sea recibido con posterioridad a la hora límite.
3. No será corregido ningún examen enviado más allá de la hora límite.
4. El examen PRESENCIAL supone el 60% de la calificación final de la asignatura. Es
necesario aprobar el examen, para tener en cuenta la evaluación continua, aunque
esta última sí se guardará para la siguiente convocatoria en caso de no aprobar.
5. No olvides rellenar EN TODAS LAS HOJAS los datos del cuadro que hay en la
parte superior con tus datos personales.
6. Apaga el teléfono móvil.
7. Las preguntas se contestarán en CASTELLANO.
8. El profesor tendrá muy en cuenta las faltas de ortografía en la calificación final.
9. En cada pregunta de test, sólo una opción es correcta.
10. Cada pregunta de test suma 0.35 puntos si se ha contestado correctamente, y resta
0.1 puntos si se ha contestado incorrectamente. No suma ni resta si se deja sin
contestar.
11. Las preguntas de respuesta libre deben responderse en un máximo de dos frases.
Hadoop-Ensayo
A. Pedir a Spark que infiera el esquema para que asigne tipos más específicos que
String, si procede.
B. No especificar esquema ni pedir a Spark que lo infiera, para obtener el tipo más
adecuado para cada campo.
C. No especificar esquema porque la inferencia de esquema que hace el propio Spark
asigna el tipo correcto automáticamente sin coste de eficiencia.
D. Especificar explícitamente y obligatoriamente el esquema para que Spark pueda
cargar los datos.
5. En Impala, el proceso que lleva a cabo las consultas (las planifica, las distribuye a otras
máquinas, lee y escribe datos, etc) es
A. statestored
B. stated
C. catalogd
D. impalad
A. Un metastore.
B. Un compilador.
C. Un motor de procesamiento distribuido propio.
D. Un servidor de peticiones.
7. Los mensajes que una aplicación productora envía a Kafka (seleccione la respuesta
correcta):
A. modificados frecuentemente
B. de tamaño grande
C. de tamaño mediano
D. de tamaño pequeño
A. Apache Spark
B. impalad
C. Conector ODBC
D. catalogd
A. Una web envía constantemente información sobre clicks a Spark, que calcula
resúmenes en tiempo real del comportamiento de los usuarios
B. Un científico de datos utiliza el histórico de su empresa para entrenar un modelo
predictivo
C. Un analista de negocio lanza consultas SQL sobre datos masivos almacenados en
un cluster
D. Ninguno de los casos anteriores es habitual en Kafka
A. Una pieza que requiere una o varias pasadas previas por los datos para
transformarlos
B. Una pieza que está configurada y lista para transformar un DataFrame que le
pasemos
C. Un DataFrame obtenido como resultado de una predicción
D. Una secuencia de etapas (stages)
16. Entre los servicios big data que ofrecen las plataformas de cloud computing estudiadas
(elija la respuesta correcta):
18. Se quiere desplegar un producto big data en una plataforma de cloud computing. Por
requisitos del producto, se requiere tener el mayor control posible del servidor o servidores
donde se despliegue dicho producto. ¿Qué solución de las disponibles elegiría?
A. IaaS
B. PaaS
C. FaaS
D. SaaS
A. Permite desplegar al vuelo un cluster que trae instaladas herramientas big data como
Spark, HDFS y Kafka
B. Permite desplegar al vuelo una base de datos relacional de Google
C. Permite descargar HDFS y Spark para instalarlos y usarlos en nuestro ordenador
portátil doméstico
D. Ninguna de las respuestas anteriores es cierta
20. Para utilizar una cola de Kafka desde el lenguaje de programación Java ...
10
11
12
13
14
15
16
17
18
20
1. Enumerar los tres orígenes de los datos que se están generando masivamente en la
actualidad y poner un ejemplo de cada uno. (Responder en 4 líneas)
2. Se quiere desplegar un cluster Hadoop para almacenar los datos contables de una empresa
pequeña. Dichos datos están almacenados en archivos CSV, uno por mes desde 1990 hasta la
actualidad, y ningún archivo supera los 10MB de tamaño. Comente si la solución basada en un
clúster de Hadoop le parece adecuada y por qué. (Responder en 4 líneas)
4. Imagine que es sábado por la tarde, ha iniciado su sesión en Netflix y está navegando por
los contenidos que ofrece con el fin de elegir la película que quiere ver. Indique y justifique en
UNA frase para cada apartado, qué tecnología utilizaría para (a) entrenar un modelo predictivo
de qué película puede gustarle más, y (b) alimentar ese modelo en tiempo real para mostrarle
al usuario, cuando ha hecho click en una película en concreto pero todavía no ha confirmado
que quiere verla, un score indicando cuánto le va a gustar. (Responder en 4 líneas)