Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. OBJETIVOS
El estudiante será capaz de utilizar la infraestructura Hadoop con varios de sus componentes
componentes.
Además entenderá el ecosistema identificando la mayoría de las tecnologías que lo componen.
componen
Finalmente será capaz de conocer diferentes situaciones en las cuales aplicar Big Data a partir de
distintos formatos de datos.
Actividad Porcentaje
Pregunta Teórica 1 5%
Pregunta Teórica 2 10%
Pregunta Teórica 3 5%
Pregunta Teórica 4 10%
Pregunta Teórica 5 15%
Pregunta Teórica 6 10%
Pregunta Teórica 7 15%
Informe 20%
Presentación 10%
Parte 1
ipos de trabajo se reúnan y se asignen tareas a sus integrantes, para
Se solicita que los equipos
desarrollar el proyecto semestral suministrado por el docente que se continuará en el transcurso
de la asignatura.
Parte 2
desarrollar un
El equipo de trabajo deberá analizar el caso entregado y desarrollar una propuesta que lo
solucione utilizando diferentes componentes disponibles en el ecosistema Hadoop: Hadoop
específicamente Spark y Kafka.
Kafka
Parte 3
El equipo de trabajo debe entregar el resultado en un informe según lo que estipule el docente
describiendo el contexto, problema y la solución generada.
Parte 4
Una vez desarrollado la solución se debe comprimir el proyecto y enviarlo de forma digital al
docente.
1
De difícil comprensión (Nota del Profesor).
2
Se refiere a hervidores y calentadores (Nota del Profesor).
Al principio, buena parte de los datos no estaban en un formato aprovechable. Por ejemplo, los
responsables de los archivos de la ciudad no tenían una forma única y normalizada de describir la
localización;
alización; cada organismo y cada departamento parecían usar su propio sistema. El
Departamento de Inmuebles le asigna un número único a cada estructura, pero el de
Mantenimiento de la Vivienda emplea un sistema de numeración diferente. Por su parte el
Departamento
rtamento de Hacienda le atribuye a cada propiedad una referencia basada en el distrito
municipal, la manzana y la parcela mientras que la Policía utiliza coordenadas cartesianas5. Los
Bomberos se basan en un sistema de proximidad a las cabinas de teléfonos de emergencia en
relación con el emplazamiento de sus cuarteles, aun cuando esas cabinas ya no existan. Los
chicos de Flowers abarcaron este desorden inventando un sistema de identificación de edificios:
usaron un área pequeña de la fachada de cada casa basada
basada en coordenadas cartesianas y luego
importaron otros datos de geolocalización de las bases de datos de las demás organizaciones. Su
método era inherentemente inexacto pero la ingente6 cantidad de datos que eran capaces de
usar compensaban con creces las imperfecciones. El equipo, sin embrago, no se contentó con
procesar datos. Salieron al terreno con los Inspectores para ver como trabajaban. Tomaron
copiosas7 notas y les hicieron todo tipo de preguntas a los profesionales. Cuando un canoso Jefe
de Inspectores decía refunfuñando que el edificio que estaba a punto de visitar no sería un
problema los chicos quisieron saber por qué estaba tan seguro. El hombre no supo explicárselo
del todo, pero los chicos determinaron gradualmente que su intuición se basaba en que el
edificio tenía la fachada renovada hacía poco, lo que sugería que el propietario se preocupaba
por el sitio. Los chicos regresaron a sus cubículos y se preguntaron cómo podrían introducir
3
Remate de propiedades por no pago de su deuda (Nota del Profesor).
4
Correspondencia o relación recíproca entre dos o más cosas o series de cosas (Diccionario RAE) (Nota del
Profesor).
5
dimensiones registrando la ubicación de
Sistema de referencia que normalmente divide un terreno en dos dimensiones
una propiedad en la intersección de dos puntos (Nota del Profesor).
6
Cantidad muy grande (Nota del Profesor).
7
Numerosa, abundante (Nota del Profesor).
Se solicita: Seleccionar los registros donde Alpha tenga mayor riesgo (X,Y,Z) , proponiendo líneas de
códigos en Python y Scala
1
3-. Indique algunos inconvenientes del uso de Spark en general y como afectan estos factores en
el caso NYC.
4-. De acuerdo al Caso de Estudio: Incendios en la Ciudad de Nueva York. Identifique los
conceptos de Tópicos y Productores, para lo cual construya una tabla con todos Productores –
Mensajes – Topic que se encuentran en el texto.
5-. De acuerdo al Caso de Estudio: Incendios en la Ciudad de Nueva York. Analizar que es óptimo:
crear cada uno de los Topicos del ejercicio anterior en 1 sola partición o bien 1 Topico en 3 o
mas particiones.
Considere los siguientes conceptos
2
6-. Por que, Kafka necesita de Zookeeper?, Que funciones o servicios provee Zookeeper a Kafka?
7-. Si Kafka puede ser configurado con 2 tipos de mensajes basados en:
Modelo de colas: Donde los mensajes se van distribuyendo en forma equitativa a los
consumidores
Modelo Publicador/Subscritor: Donde varios subscritores se subscriben a un topic
Analiza cual de los 2 modelos presentados responde mejor a los requerimientos del caso NYC,
fundamente su respuesta y enumere los requerimientos utilizados.
3
Reflexión grupal
Realiza una reflexión que refleje tu experiencia en el desarrollo del caso, por ejemplo, ¿cómo se
relacionan mis tareas asignadas con el contexto del caso?, ¿entiendo lo que me asignan?, ¿Qué
estoy aprendiendo?, ¿estas tareas son importantes?, ¿soy capaz de investigar?
Conclusión
Bibliografía
Formato de entrega
Alineación Justificada
Tipo de letra: Calibri
Tamaño letra: 11
Numeración de pagina debe ser inferior a la derecha
El informe debe tener una extensión máxima de 25 paginas
Formato de archivo PDF