Está en la página 1de 5

BIG DATA

Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos
de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento
(velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y
herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales
o paquetes de visualización, dentro del tiempo necesario para que sean útiles.

Herramientas
1- Mongo DB: Se trata de una base de datos NoSQL (base de datos no relacional) gratuita y
optimizada para trabajar con grupos de datos que varían con frecuencia, o que son
reestructurados. Es una base de datos distribuida en su núcleo por lo que la alta disponibilidad,
esca labilidad y distribución ya se encuentran integradas.

Caracteristicas;
Algunas de las características del MongoDB son las siguientes:
 Consultas ad hoc. Soporta la búsqueda por campos, consultas de rangos y expresiones
regulares.
 Indexación. Cualquier campo que se encuentre en documento de MongoDB puede ser
indexado, al igual que es posible hacer índices secundarios.
 Replicación. MongoDB soporta el tipo de replicación primario-secundario. Cada grupo
primario y secundario se califica como réplica set.
 Balanceo de carga. Permite escalar tanto de forma horizontal usando el concepto shard.
 Almacenamiento de archivos. Puede ser usado como un sistema de archivos, aprovechando
la capacidad de MongoDB para el balanceo de carga y la replicación de datos en múltiples
servidores. Esta funcionalidad, llamada GridFS15​ e incluida en la distribución oficial.
 Agregación. Proporciona un framework de agregación que permite realizar operaciones
similares al «GROUP BY» de SQL. Se construye como un pipeline en el que los datos van
pasando a través de diferentes etapas en los cuales estos datos son modificados, agregados,
filtrados y formateados hasta obtener el resultado deseado.
 Ejecución de JavaScript del lado del servidor. MongoDB puede realizar consultas
usando JavaScript, haciendo que estas sean enviadas directamente a la base de datos para ser
ejecutadas.

2- Python: Es uno de los lenguajes avanzados de programación más conocidos y utilizados en la


actualidad. Esto se debe a que su usabilidad es bastante sencilla con respecto a otros lenguajes de
programación. De hecho se trata de un software muy utilizado en el Big Data dada su gran
facilildad para trabajar en el análisis de datos.

Caracteristicas
Orientado a objetos
Una de las principales características de Python es que se trata de un lenguaje de programación
orientado a objetos. Esto quiere decir que Python reconoce el concepto de encapsulación de clases
y objetos, lo que hace que lo que se codifique con Python es más eficiente a largo plazo.

Orientado a objetos
Una de las principales características de Python es que se trata de un lenguaje de programación
orientado a objetos. Esto quiere decir que Python reconoce el concepto de encapsulación de clases
y objetos, lo que hace que lo que se codifique con Python es más eficiente a largo plazo.

Fácil de aprender
Python es un código muy amable para todo tipo de desarrolladores, desde los que ya tienen
experiencia con otros lenguajes como para los que están aprendiendo a programar desde cero.
3- Apache Cassandra: pache Cassandra, qué particularidades tiene para almacenar y distribuir
datos masivos (Big Data). Consideraremos su consistencia y disponibilidad y en qué escenarios
son apropiados, junto con algunos casos de uso.

Sus características más importantes son:

 Es una base de datos distribuida, es decir, vamos a tener nuestros servidores distribuidos.
 Escala linealmente, lo que significa que, como vemos en la imagen, si tenemos dos nodos,
vamos a poder realizar 100000 operaciones por segundo. Si tuviéramos cuatro nodos
podremos realizar el doble de operaciones, y así sucesivamente, cada vez que dupliquemos el
número de nodos, duplicaremos el número de operaciones por segundo.
 No sigue un patrón maestro-esclavo, sino que es peer-to-peer o P2P. Esto lo que conlleva es
que si se cae un nodo, el servicio puede seguir funcionando, no como en el patrón maestro-
esclavo, en el que, de forma resumida, si se cae el maestro el sistema cae también.
 Permite la escalabilidad horizontal, que es diferente a la escalabilidad vertical. En la segunda
lo que se aumenta es la máquina, como por ejemplo tener una máquina con 16 gigas de RAM
y la aumentamos a 32 gigas de RAM. Y en la primera tenemos una máquina con 16 gigas de
RAM y lo que hacemos es poner otra máquina también con 16 gigas de RAM trabajando en
paralelo con la otra.
 Es tolerante a fallos, gracias a que posee la replicación de datos, es decir, los datos cuando
son escritos en un nodo se replican en otros nodos, por lo que si uno de estos nodos cae, no
pasa nada porque el dato está replicado en otros dos.
 Permite definir el nivel de consistencia.
 Usa el lenguaje CQL, que es un lenguaje muy similar a SQL.
 Permite la replicación en varios data center, siendo cada data center un anillo de máquinas
Cassandra, ya que permite que el anillo 1 replique sus datos en el anillo 2.

4- Elasticsearch: Elasticsearch permite procesar grandes volúmenes de datos ya sean textuales,


numéricos, estructurados y no estructurados. Gracias a esto, las soluciones Elasticsearch pueden
emplearse para realizar búsquedas en aplicaciones o webs, analíticas de logs, rendimiento de
aplicaciones, entre otras, siendo así una herramienta de gran impacto para las empresas.

Caracteristicas
 Escalabilidad y resistencia. Agrupación y alta disponibilidad. ...
 Administración. Recuperación desde snapshot. ...
 Seguridad. Configuración segura de Elasticsearch. ...
 Alertas. Alertas escalables de alta disponibilidad. ...
 Clientes. Clientes de lenguaje. ...
 API REST. API de documento. ...
 Integraciones. ...
 Despliegue.
Bibliografía

▷ Las 10 mejores herramientas Big Data [2022]. (s/f).


Afiescueladefinanzas.es. Recuperado el 18 de agosto de 2023, de
https://www.afiescueladefinanzas.es/las-10-herramientas-big-data-
mas-importantes

Apache Cassandra: Introducción. (2019, octubre 24). Aprender BIG DATA;


AprenderBigData. https://aprenderbigdata.com/introduccion-apache-
cassandra/

Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad. (s/f).


Powerdata.Es. Recuperado el 18 de agosto de 2023, de
https://www.powerdata.es/big-data

Calero, V. (2022, junio 4). Qué es MongoDB. Arimetrics.


https://www.arimetrics.com/glosario-digital/mongodb

Elasticsearch para la gestión de Big Data. (2021, octubre 11). ToBeIT.


https://tobeit.es/elasticsearch-para-la-gestion-de-big-data/

Mesa, A. R. (2019, junio 17). Qué es Apache Cassandra. Openwebinars.net.


https://openwebinars.net/blog/que-es-apache-cassandra/

No title. (s/f). Google.com. Recuperado el 18 de agosto de 2023, de


https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd
=&ved=2ahUKEwjDhpKY1eWAAxWul2oFHVzHAwMQFnoECAoQAw
&url=https%3A%2F%2Fwww.elastic.co%2Fes%2Felasticsearch%2Ffeat
ures&usg=AOvVaw2Y8S1NyRxwNTSlucNQVVpr&opi=89978449

Ramírez, L. (2022). Las 10 mejores herramientas de Big Data 2023. Thinking


for Innovation. https://www.iebschool.com/blog/mejores-
herramientas-big-data/

Tokio School. (2022, marzo 7). Estas son las características de Python:
¡domina el código! Tokio School.
https://www.tokioschool.com/noticias/caracteristicas-principales-de-
python

También podría gustarte