Está en la página 1de 2

Cassandra es una BD de tipo NoSQL basado en un modelo distribuido de estructuras

clave-valor y columnar. Se nos propone (pide) como alumnos del ramo de base de
datos
avanzados que implementemos 3 nodos de Cassandra mediante máquinas de AWS por
medio de contenedores Docker, exportemos los datos de las postulaciones para los
períodos 2015, 2016 y 2017 del DEMRE y diseñemos modelos de BD de acorde a los
requerimientos solicitados, que en este caso es la optimización de consultas.
[DIAPO 2 G]

COMO LO DESARROLLAMOS
Como se mencionó anteriormente, para la implementación de esta base de datos no
SQL,
primero se necesitó crear las tres instancias EC2 necesarias para la estructura
solicitada,
en estas se instaló Docker y con el mismo se descargó la imagen de Cassandra
necesaria
para la implementación de los clusters de esta en los distintos nodos. [DIAPO 3 R]
Una vez que estan corriendo estos nodos, verificamos que estos estén conectados
entre
sí, para proceder a crear la keyspace con los requerimientos solicitados, cuales
eran de
Simple Strategy con un factor de replicación 3. Una vez listo lo anterior, a la
primera
instancia se le importó el archivo entregado con el formato csv transformado
previamente, el cual nos facilitará más adelante la importación de datos con
respecto al
formato original. Ya dentro de la consola de Cassandra se procederá a crear las
tablas
solicitadas las cuales se explicarán a continuación: [DIAPO 4 C]
Se crearon tres tablas diferentes las cuales contendrán los mismos datos, pero
diferentes primary key dependiendo de la consulta a realizar y a su vez, para que
así no
se perdiera ningún valor al ingresar, fue necesario tomar en cuenta en la primary
key de
todas las tablas la presencia del rut, periodo y preferencia, ya que esta era la
única forma
en la que no se omitieran datos por primary keys iguales como por ejemplo la
presencia
de un rut en distintos años y que este además tuviera más de una preferencia.
Para la primera tabla, acorde a la consulta, fue necesario dejar en la partition
key tanto la
carrera como el estado de la matricula, y para la clustering key se ingresó el
periodo, el
cual es necesario para su ordenamiento más adelante.
Para la segunda tabla fue necesario dejar en la partition key nuevamente el estado
de
matrícula con la carrera añadiendo además en este caso la región acorde a la
consulta a
solicitar manteniendo además al igual que el anterior la presencia del periodo en
el clustering key.
Finalmente, para la tercera tabla, fue necesario dejar en la partition key
nuevamente el
estado de matrícula, esta vez con la facultad solamente y en la clustering key para
su
ordenamiento se utilizó el puntaje acorde a la consulta a realizar.
Una vez creadas todas las tablas anteriores, simplemente se procederá a importar
los
datos del archivo csv. [DIAPO 5 R]
Previamente a las consultas a realizar por Excel se verificarán estas mismas por
medio
de cualquiera de las tres consolas disponibles en donde, cada una de las consultas
serán presentadas en pantalla y solo exhibirán la cantidad total de datos que
cumplen con
cada una de las solicitudes por medio de la función count. [DIAPO 6 C]

Ya implementado los modelos de datos, procedemos mediante Excel a extraer


los valores mediante el driver de ODBC de Datastax para Cassandra, que nos permite
ingresar consultas CQL para así extraer los datos necesarios y generar gráficos con
los
datos obtenidos. [DIAPO 7 G]
Para nuestra primera consulta se extrajo todos los postulantes matriculados en la
carrera
de medicina ordenados por periodo, los cuales fueron 182. Se generó un gráfico de
torta
donde se puede observar que la distribución de postulantes matriculados en medicina
para los 3 periodos es bastante similar [DIAPO 8 C]
Para la segunda consulta obtuvimos a 92 postulantes matriculados provenientes de la
región del Maule en la carrera Ingeniería Civil Informática, estos ordenados por
periodos. A través de un gráfico de torta notamos que a medida que el periodo
aumentaba, más eran los postulantes matriculados en Informática. También en otro
grafico circular, notamos que, para todos estos periodos, la cantidad de hombres
postulantes matriculados eran mucho mayor que al de mujeres. [DIAPO 9 G]
Finalmente, para nuestra última consulta la cual fue el retorno de todos los
postulantes
matriculados en la facultad de Ciencias de la Salud ordenado por puntaje PSU, los
cuales
fueron 825. Notamos que para nuestro primer grafico de barras, la mayor
proveniencia de
los matriculados es de la región del Maule, seguida por la región del libertador
Bernardo o’higgins. Nuestro siguiente grafico nos muestra que la mayor cantidad de
matriculados de la facultad de Ciencias de la Salud están en Enfermería (Curico),
Enfermería y Psicología. [DIAPO 10 R]
Se muestra a continuación que, inhabilitando el nodo 1, la data aún se mantiene
replicada permitiendo realizar las consultas en cualquiera de los otros dos nodos
disponibles realizando una consulta mediante ODBC la cual es exitosa sin que el
usuario
se percatara de que el nodo este caído y después verificando directamente desde
consola
manteniendo el total de datos anteriormente solicitados. [DIAPO 11 G]

También podría gustarte