Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Asignatura:
Tema:
“Problemas 1.3”
Alumno:
Catedrático:
Lugar y Fecha:
4. ¿Qué características importantes presentan los sistemas distribuidos básicas para Big
Data?
Los sistemas distribuidos tienen la característica de que son nodos independientes que están
intercomunicados por la misma red, de tal manera que, aunque cada máquina tiene su
sistema operativo, por encima de ese sistema operativo se tiene un software que se
denomina middleware que permite intercomunicar y saber el estado de cada una de las
máquinas
7. Enumerar los diferentes orígenes de donde pueden provenir los diferentes tipos de datos.
Los datos se pueden generar de dos maneras, o bien ya se tienen generados de antemano y
se pueden acezar cuando se quiera, a lo que se le denomina batch. O los datos se generan
dinámicamente en tiempo real, a eso se le denomina accesibilidad o generación de manera
streaming.
Por otro lado, están los esquemas organizativos. Como he dicho anteriormente, esto está
pensado para grandes empresas, por tanto, esas grandes empresas ya tienen un esquema
organizativo preparado, ya tienen un esquema de cómo trabajan en el día a día, qué perfiles
hay, quién depende de quién, qué jerarquía existe, esos esquemas organizativos también se
pueden aplicar a la filosofía del Data Lake.
17. ¿Cómo se plantea dentro de Hadoop La filosofía o el diseño de la arquitectura Big Data?
Pues, muy fácil.
Lo primero de todo como base, un sistema de fichero distribuido HDFS. Por encima del
HDFS, necesitamos de un orquestador que va a saber cómo se encuentran las máquinas y
cuál es la capacidad de reacción que tienen. Aparte tenemos ingestadores de datos y el
streaming. Por otro lado, necesitamos al sistema que permite almacenar datos no
estructurados, que no tiene por qué estar almacenado en un sistema de datos estructurado
podemos acceder mediante SQL, podemos acceder mediante scripting, podemos utilizar
Machine Learning para ello, podemos incluso hacer un work flow de tareas para realizar
una operación determinada sobre un dato, y todo esto desde una visión transparente que
me va a permitir, a través de incluso un navegador web, acceder sobre los datos, y todo
esto obviamente también controlado por un cuidador. El cuidador de los animales, el que
va a encontrarme todas las aplicaciones de una plataforma Hadoop