Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE INGENIERÍA
Apache Cassandra
Integrantes:
Abancay - 2022
Este trabajo de investigación monografía se lo
dedicamos en primer lugar a nuestros padres,
aquellos que siempre nos apoyan
incondicionalmente a pesar de los tropiezos que
cometo en mis cortos años de vida.
Este software salió en el año 2008 como un proyecto de open source y en un inicio
fue creado por facebook, el objetivo de Cassandra es que se pueda gestionar una gran
carga de datos a través de múltiples nodos, en el cual Cassandra réplica y distribuye la
información desde el primer instante a través de todos sus nodos. El cual para garantizar
una baja probabilidad de fallo y el restablecimiento de los datos en caso de emergencia,
Apache Cassandra cuenta con un sistema de replicación adecuadamente configurado.
3
Abstract
This software came out in 2008 as an open source project and was initially created
by facebook. Cassandra's objective is to manage a large load of data through multiple
nodes, in which Cassandra replicates and distributes the information from the first moment
through all its nodes. Which to guarantee a low probability of failure and the restoration of
data in case of emergency, Apache Cassandra has a properly configured replication system.
Due to its scalability, Apache Cassandra can be distributed to different clusters since
it is not linked to a single server, it also offers high availability so that if any of the nodes
goes down, the service will not be degraded.
Apache Cassandra is used by the social network Twitter for its platform. Its main goal
is linear scalability and availability. Cassandra's distributor architecture is based on a series
of equal nodes that communicate with a P2P protocol with which redundancy is maximum.
4
Índice
Indice
Resumen................................................................................................................................ 3
Abstract.................................................................................................................................. 4
Introducción............................................................................................................................ 6
Conclusiones........................................................................................................................ 13
Referencias Bibliográficas....................................................................................................14
5
Introducción
6
1 ¿Qué es apache Cassandra?
7
Como base de datos NoSQL, Cassandra cuenta con un enfoque redundante, lo que
reduce mucho la probabilidad de fallo. Sin embargo, las bases de datos relacionales suelen
tener problemas al replicar los datos.
Cassandra hizo su aparición en 2008 para ser liberada como proyecto open source.
En un principio fue creado por Facebook, que fue desarrollado con el objetivo de mejorar las
búsquedas de su inbox. Desde el año 2010, el proyecto paso a ser mantenido por la
fundación Apache.
Una base de datos NoSQL, es un tipo de base de datos que se diferencia de los
modelos relacionales en que no usan SQL como lenguaje principal, proporcionado
lenguajes propios y modelos más flexibles en las consultas.
8
1.2.1 Diferencia de SQL Y noSQL
Entre sus diferencias principales, las bases de datos SQL combinan de forma
eficiente diferentes tablas para extraer información relacionadas y las NoSQL no lo permiten
o son muy limitadas. Por otro lado, las NoSQL dejan distribuir cantidades elevadas de
información mientras que las SQL facilitan distribuir bases de datos relacionales.
Además, las SQL facilitan la gestión de los datos junto con las relaciones existentes
entre ellos y en las NoSQL ni siquiera existe esta funcionalidad. Por último, las NoSQL
permiten un escalado horizontal sin problemas debido a su capacidad de distribución
mientras con las SQL es mucho más difícil.
Base de Datos Columnar: Al igual que ocurre con las bases de datos
SQL, se guarda la información en columnas. Cassandra es un claro
ejemplo de este tipo de Bases de Datos.
Clave Valor: Esta base de datos almacena los datos en forma clave
valor. Pueden almacenar la información en memoria o persistir un
ejemplo podría ser redis.
Orientadas a Documentos: Este tipo de base de datos permite la
recuperación, guardado y gestión de documentos o datos de alguna
manera estructurada.
Orientadas a Grafos: Este tipo de base de datos está formada por nodos
y aristas, y parten de la teoría de Grafos (Dijkstra, es un ejemplo). Un
ejemplo podría ser ArangoDB.
9
o La arquitectura distribuida de Cassandra está basada en una serie de nodos
iguales que se comunican con un protocolo P2P(Peer-to-peer) si un nodo
cae, el resto del servicio sigue funcionando y posee conceptos como el de
soporte multi-data center.
o Tiene alta tolerancia con los fallos, ya que posee un sistema de replicación
de datos.
Todos los nodos en el cluster tienen el mismo papel, y para ofrecer la replicación
desde el principio necesitan que todos los nodos se encuentren conectados entre si. En el
caso en el que un nodo se caiga o falle, otro nodo funcionará en su lugar, por eso cada
nodo tiene que funcionar de manera totalmente independiente.
10
actualizará el valor del nodo para que tenga la información completamente actualizada, para
que los nodos se comunican uno con otro y se puedan detectar puntos de fallo, se utiliza el
protocolo gossip.
11
razón, el hecho de que todos los nodos visualicen los mismos datos en todo momento, tiene
la menor prioridad en muchos sistemas de big data. Tras un fallo, la consistencia se puede
recuperar relativamente rápido mediante el restablecimiento de los datos, mientras que los
otros dos criterios deben cumplirse en todo momento.
Ventajas
Alta disponibilidad, lo que es muy interesante para el sistema en los que
una caída sea crucial.
Tolerancia a particiones y escalado.
Cantidad de recursos que se tienen disponibles.
Desventajas
La conexión de nuevos nodos no es fácil, ya que el mismo se tiene que
poner de acuerdo con el resto, y conlleva un tiempo.
Debemos saber qué queries se van a ejecutar previamente, ya que al
hacer SELECT sufre un poco debido a la manera en la que almacena los
datos.
12
○ Al finalizado esto, podemos empezar a utilizar nuestro sistema y procedemos
a crear una base de datos.
Conclusiones
● Cassandra es una solución brillante para muchos casos de uso que podemos
encontrar en el mundo Big Data, pero no es adecuada para alojar un data
warehouse convencional.
● Lo ideal es tener claro desde el principio el caso de uso y el tipo de consultas que
haremos para diseñar la base de datos coherentemente, de esta manera podremos
manejar grandes volúmenes de datos y aprovecharnos de las ventajas de esta
potente base de datos distribuida.
13
Referencias Bibliográficas
Bello, E (sf) Bases de datos NoSQL vs SQL: Qué son y en qué se diferencian. iebschool.
Recuperado el día 19 de noviembre de 2022 de la página
https://www.iebschool.com/blog/bases-de-datos-nosql-vs-sql-big-data/#:~:text=Entre
%20sus%20diferencias%20principales%2C%20las,permiten%20o%20son%20muy
%20limitadas.
S.A (11 de marzo de 2016) Cassandra base de datos: agilidad y rendimiento a prueba de
fallos. PowerData. Recuperado el día 19 de noviembre de 2022 de la página
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/cassandra-base-de-datos-
agilidad-y-rendimiento-a-prueba-de-fallos
14