Está en la página 1de 5

Universidad José Cecilio del Valle

Asignatura:

Ecología de la Información (IIT4027AZ)

Tema:

“Problemas 1.3”

Alumno:

Henrry Adalid Galo Turcios 2019210066

Catedrático:

Ing. Carlos Armando Cerna Discua

Lugar y Fecha:

La Paz, La Paz, domingo 10 de octubre 2021


Problemas 1.3
1. Analizar y explicar el concepto de ¿Por qué Big Data?
Porque es un término que describe el gran volumen de datos – estructurados y no
estructurados – que inundan una empresa todos los días. Pero no es la cantidad de datos lo
importante. Lo que importa es lo que las organizaciones hacen con los datos. El big data
puede ser analizado para obtener insights que conlleven a mejores decisiones y acciones
de negocios estratégicas.

2. Defina con sus propias palabras el termino Big Data


Es un término evolutivo que describe cualquier cantidad voluminosa de datos
estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos
para obtener información.

3. ¿Qué es un sistema distribuido con respecto a Big Data?


Un sistema distribuido está compuesto por n máquinas que dependiendo de la necesidad
de las aplicaciones que vayan a ejecutarse, se colocan unas u otras máquinas.

4. ¿Qué características importantes presentan los sistemas distribuidos básicas para Big
Data?
Los sistemas distribuidos tienen la característica de que son nodos independientes que están
intercomunicados por la misma red, de tal manera que, aunque cada máquina tiene su
sistema operativo, por encima de ese sistema operativo se tiene un software que se
denomina middleware que permite intercomunicar y saber el estado de cada una de las
máquinas

5. Analizar con sus propias palabras el concepto de Map Reduce.


Es el paradigma de programación y de procesamiento de Hadoop. Consiste en dividir el
trabajo en múltiples tareas independientes que se pueden paralelizar para procesar
cantidades masivas de datos en un clúster.

6. Describir el concepto del CAP Theorem.


EL CAP Theorem son tres conceptos en realidad que son muy relacionados a cualquier
sistema distribuido y específicamente a las soluciones Big Data. El primer concepto de la
C es consistencia. ¿Qué quiere decir esto? Si yo accedo a un dato, y los datos son de una
manera determinada, y vuelvo a acceder a ese dato, el dato debería de ser exactamente
igual. Por otro lado, la accesibilidad, availability. Que básicamente lo que dice es, si yo
quiero acceder al sistema para obtener un dato, el sistema tiene que responder. Y por
último, Partition Tolerance, que básicamente es, independientemente del número de
máquinas que tenga mi infraestructura Big Data, si yo pierdo uno de los nodos, si yo pierdo
una de las máquinas, el sistema debería de funcionar. ¿Por qué debería de funcionar? Pues
obviamente porque hemos replicado los datos, hemos replicado los procesos y, por lo tanto,
no pasa nada porque se pierda un nodo, porque el sistema sigue funcionando con toda la
información.

7. Enumerar los diferentes orígenes de donde pueden provenir los diferentes tipos de datos.
Los datos se pueden generar de dos maneras, o bien ya se tienen generados de antemano y
se pueden acezar cuando se quiera, a lo que se le denomina batch. O los datos se generan
dinámicamente en tiempo real, a eso se le denomina accesibilidad o generación de manera
streaming.

8. Analizar el concepto de tipología de datos según Big Data


La tipología de Big data nos ayuda a saber los tipos de datos que podemos conseguir del
internet para así llevar un orden y poder saber qué es lo que necesitamos y como utilizarlo
dependiendo del tipo de dato que este sea.

9. ¿Qué es el Data Lake?


Es el almacenamiento y gestión de los datos, permite almacenar y obtener el dato en una
estructura organizativa, en una empresa, en un colegio, en una universidad, donde
queramos. Es importante destacar que el Data Lake está pensado para estructuras
organizativas muy grandes, tan grandes que no hay escala definida.

10. ¿Cuál es la característica fundamental del Data Lake?


Una de las características fundamentales del Data Lake es que “el contenido parece estar
Centralizado”, igual que en un sistema distribuido.

11. Describa las zonas de un Data Lake.


Landing: llena los datos tal cual se obtienen de la fuente de origen, y a eso se lo denomina
los "datos en crudo". Ahí se almacenan los datos y se recomienda no tocarlos porque en
cualquier momento se van a necesitar desde crudo para procesarlos u operarlos de cualquier
manera. Cuando los datos los operamos o los procesamos, llevamos los datos de "Landing"
a "Staging".
Staging: la usan para, simplemente, cumplir la normativa LOPD (Ley Orgánica de
Protección de Datos). Lo que hacen es anonimizar el dato, una vez que está anominizado
el dato lo pasan a Staging, y saben que sólo en la zona Landing va a estar el dato en crudo,
sin anonimizar. Por lo tanto, un dato que no está anonimizado es mucho más sensible y hay
que tener muchísimo cuidado con él. No se le da acceso a la zona del dato en crudo a nadie,
o prácticamente a nadie, solo a los administradores y sólo se deja acceso a la zona Staging.
Gold: cuando el dato está preparado para sacarle valor, no vamos a ir a la zona Staging,
vamos a ir a la zona Gold. Es la ultima zona con la que se estaría finalizando todo.
12. ¿Qué necesita un Data Lake?
La seguridad es una de las características fundamentales. Como se he dicho antes, no se
debería dejar acceso a un dato que está en crudo, sin anonimizar. Se necesita de seguridad
de que no podamos acceder nunca sobre un dato que está sin anonimizar. ¿Cómo se puede
controlar eso? Existen distintos componentes de Big Data, que veremos más adelante, que
nos permite controlar la seguridad.

Por otro lado, están los esquemas organizativos. Como he dicho anteriormente, esto está
pensado para grandes empresas, por tanto, esas grandes empresas ya tienen un esquema
organizativo preparado, ya tienen un esquema de cómo trabajan en el día a día, qué perfiles
hay, quién depende de quién, qué jerarquía existe, esos esquemas organizativos también se
pueden aplicar a la filosofía del Data Lake.

Otro detalle es el "linaje". ¿Qué es el linaje? Básicamente, es el camino que recorre


el dato desde que se obtienen hasta la fase final.

Y por último la "gobernanza". La gobernanza es otra característica fundamental del data


Lake. ¿Por qué? Porque de alguna manera, yo digo que un determinado dato que procede
de un origen determinado, sólo va a poder permitir un acceso a unas determinadas
características o a unas determinadas operaciones de una determinada persona.

13. ¿Qué es el ecosistema Hadoop?


Hadoop es un framework, es un software open source que va a permitir acceder a datos
de manera distribuida y a procesarlos.

14. ¿En qué se basa la filosofía Hadoop?


Existe un sistema de fichero que se llama HDFS, Hadoop Data File System. Hadoop lo que
hace es tomar un fichero muy grande de datos y lo divide en pequeñas piezas. Esas
pequeñas piezas se llaman chunks, y lo que hace es distribuir esos chunks entre las distintas
máquinas de un sistema distribuido. Claro, no manda una pieza solo a una máquina, manda
una pieza a 10 máquinas, lo que se denomina replicación. ¿Por qué? Porque si perdemos
una máquina, ese dato no lo perdemos, lo tenemos replicado en otras máquinas.

15. ¿Qué es un Name Node?


Un nodo de una máquina; esa máquina va a tener los metadatos de dónde se encuentra cada
pieza del fichero, dónde se encuentra cada fragmento del dato, pero los datos en realidad
no se almacenan en el Name Node.
16. ¿Qué es un Data Node?
Nodo HDFS que almacena datos en el sistema de archivos de Hadoop. Un clúster HDFS
puede tener varios DataNode, con datos replicados entre ellos.

17. ¿Cómo se plantea dentro de Hadoop La filosofía o el diseño de la arquitectura Big Data?
Pues, muy fácil.
Lo primero de todo como base, un sistema de fichero distribuido HDFS. Por encima del
HDFS, necesitamos de un orquestador que va a saber cómo se encuentran las máquinas y
cuál es la capacidad de reacción que tienen. Aparte tenemos ingestadores de datos y el
streaming. Por otro lado, necesitamos al sistema que permite almacenar datos no
estructurados, que no tiene por qué estar almacenado en un sistema de datos estructurado
podemos acceder mediante SQL, podemos acceder mediante scripting, podemos utilizar
Machine Learning para ello, podemos incluso hacer un work flow de tareas para realizar
una operación determinada sobre un dato, y todo esto desde una visión transparente que
me va a permitir, a través de incluso un navegador web, acceder sobre los datos, y todo
esto obviamente también controlado por un cuidador. El cuidador de los animales, el que
va a encontrarme todas las aplicaciones de una plataforma Hadoop

18. Describa algunas de las distribuciones Hadoop.


Plataformas estándar Hadoop, pero en realidad solo es la más descargada, porque está
contabilizando los pequeños componentes que genera Apache de manera separada. En
realidad, la distribución más usada hoy en día es Cloudera.
Frente a Cloudera, el siguiente competidor es Hortonworks, una solución completamente
open source, no tiene forma de pago, todo es gratuito.

También podría gustarte