Está en la página 1de 20

FC-FISC-1-8-2016)

UNIVERSIDAD TECNOLÓGICA DE PANAMÁ


FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Facilitador(a): Ing. Carmen Ortega Asignatura: Gestión de la Información


Fecha: 27/3/2022 Grupo: 1SF142
Estudiantes: Sebastian Jurado
A.
TÍTULO DE LA EXPERIENCIA:
• Revisión de características de Herramientas de Software que se emplean para realizar distintas actividades
en el proceso del análisis de los datos.

A. TEMAS:
• Módulo I _ Introducción a la Gestión de la Información

B. OBJETIVO(S):
Conocer la potencialidad de recursos software que pueden apoyar el proceso de Gestión de la Información y que
el estudiante le permitan enriquecer su experiencia en las diversas actividades que se van a desarrollar a través
del curso de Gestión de la Información.

C. METODOLOGÍA Y PROCEMIENTO DE LA EXPERIENCIA:


1. Distribuya el documento pdf --> Data Science Tools.
2. Realice una investigación de cada herramienta de software (Tools) para realizar actividades de Data
Science
3. El objetivo de la investigación de cada Tools es elaborar una tabla comparativa para efectuar una
evaluación técnica y recomendar su uso de uno o varios Tools para implementar un proyecto.
4. La revisión de la información de cada Tools involucra una descripción breve, características, lenguajes que
emplea, software libre o con licenciamiento, entre otros.

D. RECURSOS:
Laptop o PC con los recursos, Internet

E. RESULTADOS: En esta sección puede incluir la tabla comparativa y sus recomendaciones.

F. CONSIDERACIONES FINALES:
Opinión del estudiante(s) sobre el logro del objetivo y el desarrollo de la Asignación.
Opinión del estudiante(s) sobre el valor del trabajo de investigación realizado

G. BIBLIOGRAFIA: Incluir las fuentes formales en formato APA

H. RÚBRICAS:
Tabla de Evaluación de Herramientas – Data Science Tools 50 puntos
Recomendaciones sobre uso de uno o varios Tools para implementar un 50 puntos
proyecto
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Data Cleaning
Tool Descripción de la Características Detalles
herramienta
Cascade es una Con esta plataforma se Este es un
plataforma de puede ejecutar servicio pago
estrategia que estrategias desde un
tiene como solo plan, a muchos. Se originó en
funcionalidad crear, posee seguridad y 2017
compartir y fiabilidad para
ejecutar planes empresas, y exporta los Posee
estrategicos informes estratégicos en integraciones
distintos formatos de con distintas
archivo plataformas
como MS
Teams
(Cascade.app,
s.f.)
Apache Sqoop es Sqoop posee Lenguaje de
una herramienta de importación y Programación:
big data para exportación paralela,
transferir datos también importa Java
entre Hadoop (el resultados de consulta
framwork open sql, y ofrece carga Esta
source para completa e incremental herramienta
transmitir grandes (Gill, s.f.) fue originada
sets de datos) y en marzo del
servidores de base 2012
de datos
relacionales
Talend es una Ayuda a las empresas a Es de código
plataforma de tomar decisiones en abierto
integración de tiempo real y a basarse
software de código más en los datos. Con Está basado
abierto que le esta tecnología, los en Java
ayuda a convertir datos se vuelven más
sin esfuerzo datos accesibles, su calidad Ofrece
en información mejora y se pueden herramientas
empresarial mover rápidamente a los de código
sistemas de destino. abierto que se
pueden bajar
gratuitamente
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Apache Airflow es Proporciona interfaces El proyecto se


una herramienta de comunicación originó en
para gestionar, llamadas Hooks que octubre de
monitorizar y conectan con otras 2014 y
planificar flujos de plataformas y bases de publicado con
trabajo, es utilizada datos externas licencia open
para automatizar source en
trabajos de forma Airflow también permite junio 2015
programada un control visual del
dividiéndolos en estado en cada paso, Esta basado
subtareas facilitando así la en el lenguaje
trazabilidad y de
Permite la localización de errores programación
planificación y Python
monitorización de
manera
centralizada

Recomendación: Utilizar estos tipos de herramientas sirve para planificar y estructurar lo que viene
siendo información de un proyecto, tanto cascade como apache airflow pueden realizar planificaciones
y organización de ideas y tareas a la hora de realizar, planificar o mejorar un proyecto y/o empresa,
También todas estas herramientas, en especial talend y sqoop, ayudan a las empresas a tomar
decisiones de vital importancia viendo los datos a tiempo real.

Statistics
Tool Descripción Características Detalles
R es un lenguaje de Posee estadísticas Es un lenguaje
programación que básicas, es rico en libre de código
ampliamente es funciones para crear abierto
utilizado como una y desarrollar
herramienta de gráficos estáticos y Está integrado a
análisis de datos y proporciona una otros lenguajes
software estadístico, colección integrada (C, C++)
se utiliza como una de herramientas
herramienta líder para el análisis de Es aplicable a
para el análisis de datos todos los
datos, estadísticas y sistemas
aprendizaje operativos
automático
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

NumPy ( Numerical Incluye funciones Es una


Python ) es una para operaciones de herramienta de
biblioteca Python de muchos tipos, código abierto
código abierto que es matemáticas,
utilizado en casi ordenación, Está basado en
todos los campos de estadísticas, entrada Python y C, y
la ciencia y la y salida para leer y debido a esto
ingeniería. escribir ficheros, posee una
etc. velocidad alta
incluso para
grandes
conjuntos de
datos

Julia es un lenguaje Es un lenguaje de Se usa para


de programación escritura dinámica cálculos
dinámico y de alto que hace que su uso estadísticos y
rendimiento que se sea interactivo. análisis de
utiliza para realizar Puede trabajar en datos.
operaciones en las bibliotecas
computación Python, C y Fortran Es de código
científica. llamándolas abierto, por lo
directamente. tanto, todos los
Puede manejar códigos fuente
análisis de datos Julia puede manejar están
complejos con mucha análisis de datos fácilmente
facilidad. complejos con disponibles en
mucha facilidad. línea.

Esta basado
principalmente
en C y Python
GNU Octave es un Proporciona una Es un lenguaje
lenguaje de alto conveniente interfaz basado en C++
nivel, destinado de línea de
principalmente a comandos para Es de código
cálculos numéricos. resolver abierto, lo cual
También se puede numéricamente se le es
utilizar como un problemas lineales y considerado
lenguaje orientado a no lineales, y para como una
lotes. realizar otros alternativa
experimentos válida de
numéricos usando Matlab.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

un lenguaje que es
mayormente
compatible con
Matlab.
Pandas es una Pandas analiza Panda es de
biblioteca de Python series temporales, código abierto y
para el análisis de posee tipos de datos está basado en
datos. Es una DataFrame para C y Python
herramienta de realizar
análisis cuantitativo manipulación de
potente y flexible. datos.

Alinea datos y
maneja
integradamente los
datos faltantes

Recomendación: La principal la razón por la cual recomiendo todas estas herramientas se deben a que
son todas de código abierto, siendo, por ejemplo: GNU Octave una alternativa eficaz y open source de
MatLab, así mismo estas herramientas nos permiten analizar y realizar operaciones con datos.

IDE Tools
Tool Descripción Características Detalles
Rstudio es una Posee un IDE construido Está
herramienta de exclusivo para R. Incluye programado
código abierto que una consola, editor de en C++, Java
proporciona Ide para sintaxis que apoya la y JavaScript
usar el lenguaje R y ejecución de código, así
un software como herramientas para Es un
profesional listo para el trazado, la depuración y software de
la empresa para que la gestión del espacio de código
los equipos de trabajo abierto
ciencia de datos
desarrollen y
compartan el trabajo
con su equipo.
PyCharm es un PyCharm posee asistencia Es de código
entorno de desarrollo y análisis de la cerrado
integrado (IDE) de codificación,
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Python dedicado que refactorización de Python, Está basado


proporciona una pruebas unitarias en Java y
amplia gama de integradas e integración Python
herramientas de control de versiones
esenciales para los
desarrolladores de
Python.
BeakerX es un BeakerX puede reconocer Beaker es de
proyecto de código automáticamente los código
abierto que marcos de datos de abierto, y
proporciona pandas y le permite está basado
compatibilidad con buscar, ordenar, arrastrar, en python
JVM, compatibilidad filtrar, formatear,
con clústeres de seleccionar, graficar,
Spark, programación ocultar, anclar y exportar
políglota, diagramas a CSV o portapapeles. Esto
interactivos, tablas, hace que conectarse a
formularios, hojas de cálculo sea
publicación y más. rápido y fácil.
El Jupyter notebook Proporciona un entorno Es de código
es una herramienta donde puede registrar abierto y
web que nos permite código, ejecutar código, está basado
crear y compartir ver resultados, visualizar en el
código en un entorno datos y ver resultados de lenguaje
interactivo salida. Python, julia
informático que yR
permite a los
usuarios Esta
experimentar con el herramienta
código puede ser
útil de
enseñanza ya
que muestra
de forma
sencilla como
funciona un
script,
lenguaje, etc
Anaconda puede ser Tiene como objetivo Anaconda es
considerada una simplificar la una
distribución de los administración y el herramienta
lenguajes Python y R, despliegue de paquetes. open source
que es utilizada en programada
las ciencias de datos en Python y
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

y en machine Posee repositorio propio es


learning. Esto incluye con más de 8000 beneficiosa
procesamiento de paquetes, así como para la
grandes volúmenes también copia de simplificació
de información, seguridad del entorno de n de
análisis predictivo y la nube paquetes de
cómputos científicos. datos

Recomendación: creo que el mayor beneficio que poseen todas estas herramientas es que sean de
código abierto, ya que se nos permite acceso a ellas de una manera más sencilla, recomiendo más que
todo Anaconda e Jupyter, ya que el entorno que poseen hace que el análisis, simplificación y
visualización de códigos y datos sea de manera mucho más sencilla y ágil.

ML Tools
Tool Descripción Características Detalles
Theano es una Posee estrecha Theano es un
librería de Python integración con Numpy, software de
que permite definir, posee uso transparente código
optimizar y evaluar de una GPU, posee abierto.
eficientemente diferenciación simbólica
expresiones eficiente y generador de Fue escrito
matemáticas que código C dinámico en Python y
involucran matrices CUDA.
multidimensionales.
Está construida sobre
NumPy.
XGBoost es una XGBoost proporciona una XGBoost está
biblioteca de biblioteca de aumento de escrito en
software que gradiente escalable, C++.
proporciona marco portátil y distribuida, se
de refuerzo de ejecuta en una máquina. Este software
regularización de Se ejecuta en una sola es de código
gradientes para C++, máquina. abierto.
Python y distintos
lenguajes de
programación
Keras es una Keras contiene Keras esta
biblioteca de numerosas escrito en
software que ofrece implementaciones de Python y es
API consistentes y bloques de contracción de un software
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

simples siendo así redes neuronales de uso de código


una interfaz de común, como capas, abierto.
Python para redes objetos, funciones de
neuronales. activación, entre otras.
PyTorch es un PyTorch proporciona un PyTorch esta
framwork automático tensor n-dimensional, programado
de código abierto similar a numpy pero no en C++,
que acelera el puede ejecutarse en GPU. Python, C y
camino desde la También proporciona CUDA.
creación de difrienciacion automática
prototipos de para construir y entrenar Pytorch es un
investigación hasta el redes neuronales. software de
despliegue de código
producción. abierto

Scikit-Learn es una Scikit-Learn incluye Scikit-Learn


biblioteca una algoritmos de es un
librería de machine clasificación, regresión y software
learning para el análisis de grupos de libre de
lenguaje de datos código
programación abierto y
está
programado
en Python, C
y C++
Deeplearning4j es Permite entrenar modelos Es un
una biblioteca de desde java mientras software
programación para la interopera con el abierto.
máquina virtual java ecosistema de python a
y es un marco con través de una mezcla de Este escrito
amplio soporte para ejecución de python a en Java, C y
algoritmos de Deep través de nuestros enlaces C++
learning cpython
La plataforma H2O.Ai La plataforma posee uso H2O.Ai esta
utiliza la inteligencia de la automatización para desarrollada
artificial para hacer el realizar tareas claves de en Java y es
machine learning de aprendizaje automático un software
forma mucho mas en solo minutos u horas y de código
sencilla y accesible. no meses. Ofrece abierto
ingeniería automática de
variables, validación,
ajuste y selección e
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

implementación de
modelos.
TensorFlow es una TensorFlow proporciona TensorFlow
biblioteca para diversas API de distintos es un
aprendizaje lenguajes de software de
automático mediante programación y de código
el uso de un rango terceros. También esfacil abierto que
amplio de tareas de ejecutar, efectvo y utilizó en su
realizado por Google posee depuración rápida, desarrollo los
para satisfacer también cabe destacar lenguajes de
necesidades de que el software es programaci;o
sistemas capaces de escalable. n Python y
construir y entrenar C++
redes neuronales
para descifrar
patrones y
correlaciones

Recomendación: Todas estas herramientas, en especial la de H2O.Ai ofrecen las opciones más eficientes
de analizar datos utilizando machine learning.

Real – Time Tools

Tool Descripción Características Detalles

Apache Kafka es una Proporciona una Kafka es de


plataforma de flujo plataforma unificada de código abierto
de eventos alto rendimiento y de y fue
distribuidos de baja latencia para la programado
código abierto manipulación de datos en Java y
utilizada por miles de en tiempo real. Se puede Scala
empresas para visualizar como una cola
canalizaciones de de mensajes,
datos de alto masivamente escalable
rendimiento, análisis lo que la vuelve atractiva
de flujo, integración para las infraestructuras
de datos y de aplicaciones
aplicaciones de empresariales
misión crítica.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Apache Storm es un Apache Storm posee Apache Storm


framework de análisis en tiempo real, está escrito en
procesamiento de aprendizaje automático lenguaje
flujos distribuidos, la en línea, computación Clojure y es de
cual facilita el continua, RPC código abierto
procesamiento distribuido, ETL y más desde que fue
confiable de flujos de adquirido por
datos ilimitados Twitter
Apache NiFi es un Apache NiFi admite Es un
proyecto de software gráficos dirigidos software de
diseñado para potentes y escalables de código abierto
automatizar el flujo enrutamiento de datos, y está escrito
de datos entre el transformación y lógica en java
sistema de software. de mediación del
sistema.
Apache Flink es un Flink ejecuta programas Apache Flink
framework y un de flujo de datos es un
motor de arbitrarios de forma software de
procesamiento paralela y canalizada, y código abierto
distribuido para permite la ejecución de y esta escrito
cálculos con estado programas de en los
sobre flujos de datos procesamiento masivo y lenguajes de
limitados e de flujo gracias al sistema programación
ilimitados. de tiempo de ejecución Java y Scala
canalizado.
Spark Streaming es Permite implementar Spark
una extensión de aplicaciones escalables, Streamin esta
Apache Spark que de alto rendimiento y escrito en el
realiza trabajos de tolerancia a errores para lenguaje de
ejecución prolongada el procesamiento de programación
durante los cuales se flujos de datos Scala y es un
pueden aplicar software de
transformaciones de código abierto
datos e injertaciones
de los resultados en
el sistema de
archivos, base de
datos y en la consola

Recomendación: Todos estos frameworks poseen un aporte a la hora de medir, recopilar y analizar
datos en tiempo real, recomendaría todas estas herramientas debido que todas estas poseen licencia
abierta y nos ayudan a recopilar información y también son utilizadas para realizar investigaciones
comerciales y de mercado bien informadas.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Data Warehouse Tools

Tool Descripción Características Detalles

Spark SQL es un Spark permite que los Spark SQL,


módulo de Apache desarrolladores importen al igual que
Spark utilizado para datos relacionales de Spark
el procesamiento de archivos de Parquet y Straming, es
datos estructurados y tablas de Hive, ejecutar un software
brinda soporte nativo consultas SQL sobre datos de código
para SQL a Spark y importados y RDD abierto y
agiliza el proceso de existentes y escribir está
consulta de datos fácilmente RDD en tablas programado
almacenados. de hive o archivos de en Scala
Parquet

Google BigQuery es Permite gestionar datos Google


un almacen de datos (crear y eliminar objetos BigQuery es
de baje coste y como tablas, vistas y una
totalmente funciones), posee herramienta
administrado que integración ya que se de código
permite la extracción puede usar desde Google cerrado y
analítica de Apps Scrips, posee control fue
petabytes de datos de acceso y aprendizaje programada
automático en los
lenguajes de
programaci
ón PHP,
JavaScript,
C#, Ruby y
Go
Snowflake es Utiliza un repositorio de Snowflake
un almacén de datos datos centralizado para es un
analítico en la nube datos persistentes, el cual software de
que permite al es accesible desde todos código
usuario elegir con qué los nodos del almacén de cerrado y
proveedor de datos fue
servicios trabajar por programado
debajo en Java y
C++
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Apache Hive es un Hive admite el análisis de Hive es un


software de grandes conjuntos de datos software
almacenamiento de almacenados en HDFS de open source
datos para el Hadoop y sistemas de y fue
ecosistema de big archivos compatibles. programado
data creado sobre Proporciona un lenguaje en Java
Hadoop, es exitoso similar al SQL llamado
debido a la HiveQL, da funciones
simplicidad para definidas por el usuario y
administrar y tiene consutas tipo SQL
procesar grandes
cantidades de datos
Greenplum Database Puede usar el formato de Greenplum
es un servidor de almacenamiento es open
base de datos de optimizado para apéndices source y
procesamiento para la carga y lectura programado
paralelo masivo con masiva de datos, y en C
una arquitectura proporciona ventajas de
especialmente rendimiento sobre las
diseñada para tablas HEAP.
administrar
almacenes de datos
analíticos a gran
escala y cargas de
trabajo de
inteligencia
comercial.

Recomendación: Estas herramientas son de gran ayuda a la hora de manejar base de datos, si bien casi
todas hacen básicamente lo mismo, personalmente elegiría Spark SQL ya que, a pesar de ser abierto,
este software agiliza las consultas y se puede usar de forma mucho más sencilla.

Data Store

Tool Descripción Características Detalles

Elasticsearch es Los datos sin procesar Elasticsearch


definido como un fluyen hacia Elasticsearch es distribuido
motor analítico de y una vez indexados los de forma
análisis distribuido, y datos, los usuarios gratuita y
es utilizado para la pueden ejecutar abierta
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

búsqueda de consultas complejas debido a su


aplicaciones, sitio sobre los datos y usar código
web y empresarial, adiciones para recuperar abierto.
también es utilizada resúmenes complejos de También esta
para logging, sus datos herramienta
métricas de tiene la
infraestructura, característica
analítica de de que fue
seguridad y de programado
negocios en el lenguaje
de
programación
Java

Riak es un modelo de Riak posee disponibilidad Riak es un


datos flexible para tolerante a fallas, software de
muchos casos de consultas, latencia código abierto
usos no predecible, opciones de que esta
estructurados, almacenamiento, escrito en el
incluidos datos de replicación de varios lenguaje de
usuario, sesión y centros de datos y programación
perfil que ofrece alta consistencia ajustable Erlang
disponibilidad,
tolerancia a fallas,
simplicidad operativa
y escalabilidad
MongoDB es una MongoDB realiza MongoDb es
herramienta de base consultas ad hoc, un sistema de
de datos que, en vez indexación y replicación código abierto
de guardar los datos de los datos, balanceo de programado
en registros, este los carga, almacenamiento ene l lenguaje
guarda en de archivos, agregación y de
documentos con un ejecución de JavaScript programación
esquema dinámico del lado del servidor C++
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Apache CouchDB es CouchDB puede Apache


una base de datos replicarse en dispositivos CouchDB es
NoSQl orientada a que pueden un software
documentos de desconectarse y manejar de código
código abierto y datos cuando el abierto y fue
utiliza múltiples dispositivo vuelve a estar escrito en los
formatos y en línea, almacena datos lenguajes de
protocolos para como documentos, programación
almacenar, transferir reduce vistas e indicies y Erlang,
y procesar los datos. posee consistencia JavaScript, C y
eventual C++
Hbase es un sistema Hbase posee Apache Hbase
de gestión de bases escalabilidad lineal y es un
de datos no modular, lecturas y software
relacionales escrituras estrictamente abierto y fue
orientado a columnas consistentes, API Java programado
que se ejecutan fácil de usar para el en el lenguaje
sobre Hadoop y acceso del cliente, caché de
proporciona una de bloques y filtros programación
forma tolerante a Bloom para consultas en Java
fallas de almacenar tiempo real y
conjuntos de datos fragmentación
escasos automática y
configurable de tablas
Apache Cassandra es Cassandra es hibrido ya Apache
una base de datos que reciste Cassandra es
distribuida NoSQL de interrupciones completas un software
máxima fiabilidad por del centro de datos sin de código
su escalabilidad y alta perdida de estos sea cual abierto escrito
disponibilidad sin sean el tipo de nubes, es en el lenguaje
comprometer el eficiente, tolerante a de
rendimiento. fallos, posee consistencia programación
eventual y posee Java
lenguaje de consulta
estructurado

Recomendación: Estas herramientas de base de datos tienen en común en ser de código abierto, lo que
quiere decir que a muchas de ellas se pueden acceder de manera muy accesible. Teniendo en cuenta
todo esto, yo recomiendo personalmente a Cassandra ya que esta ofrece mayor fiabilidad y facilidad a la
hora de ser implementado.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Data Visualization

Tool Descripción Características Detalles

D3 representa Data D3 ayuda a darle vida a los D3 es una


Driven Documents, y datos usando HTML, SVG librería open
es una librería de y CSS. D3 se enfatiza en source
JavaScript para poder los estándares web programada
manipular permitiendo toda la en JavaScript
documentos con capacidad de los
base de datos y es un buscadores modernos,
framework combinando
especializado en componentes de
visualización de datos visualización poderosa y
en páginas web un acercamiento dirigido
a datos para manipular el
DOM. También permita
combinar datos arbitrarios
cone l dom y orientar a los
datos para transformar el
documento

Bokeh es una librería Permite a los usuarios Bokeh es un


del lenguaje Python crear diagramas y gráficos software de
que permite la atractivos listos para usar código
visualización casi sin muchos ajustes, es abierto y
interactiva para sencillo de usar con programado
navegadores web Pandas, y admite varios en Python
modernos medios de salida
Shiny es un paquete Shiny ayuda a convertir Shiny esta
R que proporciona un análisis en aplicaciones programado
marco web elegante web interactivas sin en el
y potente para poder necesidad de lenguaje R y
realizar aplicaciones conocimientos de HTML, es open
web con R CSS o JavaScript source
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Tableau es una Tableau permite a las Tableau es


plataforma de organizaciones sacar el un software
análisis visual que maximo rendimiento a los cerrdo
transforma la manera datos, le permite al escrito en R
en la que usamos los usuario obtener
datos para resolver información útil
problemas rápidamente, y se conecta
a los datos en
instalaciones físicas o en
la nube
Matplotlib es una Matplotlib crea parcelas Matplotlib es
biblioteca completa de calidad de publicación, un software
para crear hace figuras interactivas, open source
visualizaciones permite exportar a creado con el
estéticas, animadas e muchos formatos de lenguaje
interactivas en archivos y utiliza gran Python
Python variedad de paquetes de
terceros
Plotly es una Plotly permite a Ploty fue
biblioteca de Python los usuarios crear creado
de trazado visualizaciones utiizando el
interactiva que interactivas basadas en la lenguaje de
admite mas de 40 web que se pueden programació
tipos de gráficos mostrar en cuadernos n Python y es
únicos que cubren Jupyter o servir como de código
una amplia gama de parte de aplicaciones web abierto
casos de usos puras creadas con Python
estadísticos.

Recomendación: Estas herramientas nos permiten visualizar e interactuar de manera dinámica con los
datos, siendo Matlotlib la herramienta más eficiente a la hora de realizar publicaciones y gráficos de
datos, también Shiny ya que también sirve para hacer aplicaciones de manera sencilla utilizando el
lenguaje R.

Consideración final
La realización de esta asignación investigativa nos permitió conocer las herramientas mas eficientes a la
hora de realizar tareas de análisis de datos, cada tipo de herramienta ofrece un aporte importante a la
hora de analizar datos y son de vital importancia tenerlas en cuenta en nuestro futuro en la carrera.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Referencias
Cascade.app. (s.f.). Cascade. Recuperado el 27 de Marzo de 2022, de
https://www.cascade.app/es/strategy-platform

Gill, N. S. (s.f.). Big Data Sqoop | Get Started With Big Data Hadoop Sqoop. Obtenido de 2020:
https://www.xenonstack.com/blog/big-data-apache-sqoop

Alcón, D. (2022, 14 febrero). ¿Qué es Snowflake? Paradigma Digital. Recuperado 30 de marzo de 2022,
de https://www.paradigmadigital.com/dev/que-es-snowflake/

Anaconda. (s. f.). Anaconda | Anaconda Distribution. Recuperado 29 de marzo de 2022, de


https://www.anaconda.com/products/distribution

Apache Cassandra | Apache Cassandra Documentation. (s. f.). Apache Cassandra. Recuperado 31 de
marzo de 2022, de https://cassandra.apache.org/_/index.html

Apache Flink: What is Apache Flink? — Architecture. (s. f.). Apache Flink. Recuperado 30 de marzo de
2022, de https://flink.apache.org/flink-architecture.html

Apache HBase – Apache HBaseTM Home. (s. f.). Apache Hbase. Recuperado 31 de marzo de 2022, de
https://hbase.apache.org/

Apache Kafka. (s. f.). Apache Kafka. Recuperado 29 de marzo de 2022, de https://kafka.apache.org/

Apache NiFi. (s. f.). Apache Nifi. Recuperado 29 de marzo de 2022, de https://nifi.apache.org/

Apache Storm. (s. f.). Apache Storm. Recuperado 29 de marzo de 2022, de https://storm.apache.org/

AprenderBigData. (2022a, marzo 8). ¿Qué es Apache Airflow? Introducción. Aprender BIG DATA.
Recuperado 28 de marzo de 2022, de https://aprenderbigdata.com/apache-airflow/

AprenderBigData. (2022b, marzo 29). Apache Spark: Introducción. Aprender BIG DATA. Recuperado 30
de marzo de 2022, de https://aprenderbigdata.com/introduccion-apache-
spark/#:%7E:text=Soporta%20m%C3%BAltiples%20lenguajes%3A%20Spark%20tiene,science%20como%
20MLlib%20y%20GraphX.

BigQuery - Ayuda de Google Cloud Platform Console. (s. f.). Google. Recuperado 30 de marzo de 2022,
de https://support.google.com/cloud/answer/9113366?hl=es

Bokeh: An Interactive Data Visualization Library in CodeBook | Refinitiv Developers. (s. f.). Refinitiv.
Recuperado 31 de marzo de 2022, de https://developers.refinitiv.com/en/article-catalog/article/bokeh--
an-interactive-data-visualization-library-in-codebook
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

Chand, S. (2021, 29 noviembre). What Is Talend? – An Unified Platform For Data Integration. Edureka.
Recuperado 27 de marzo de 2022, de https://www.edureka.co/blog/what-is-talend-
tool/#AdvantagesOfTalend

Danta Analytics. (2021, 4 febrero). Inteligencia Artificial y Machine Learning con H2O.ai. Recuperado 29
de marzo de 2022, de https://dantaanalytics.com/plataformas/h2o/

Deeplearning4j. (s. f.). Deeplearning4j Suite Overview - Deeplearning4j. Recuperado 29 de marzo de


2022, de https://deeplearning4j.konduit.ai/

Figueiras, S., & Figueiras, S. (s. f.). ¿Conoces Jupyter Notebook? Ceupe.mx. Recuperado 29 de marzo de
2022, de https://www.ceupe.mx/blog/conoces-jupyter-notebook.html

GeeksforGeeks. (2020, 16 abril). Julia Language Introduction. Recuperado 28 de marzo de 2022, de


https://www.geeksforgeeks.org/julia-language-introduction/?ref=gcse

GeeksforGeeks. (2021, 16 agosto). R Programming Language - Introduction. Recuperado 28 de marzo de


2022, de https://www.geeksforgeeks.org/r-programming-language-introduction/

GNU. (s. f.). About. Recuperado 28 de marzo de 2022, de https://www.gnu.org/software/octave/about

Greenplum Database. (s. f.). Greenplum. Recuperado 30 de marzo de 2022, de https://greenplum.org/

JetBrains. (2021, 2 junio). PyCharm: el IDE de Python para desarrolladores profesionales, por.
https://www.jetbrains.com/es-es/pycharm/

K Team. (s. f.). Keras: the Python deep learning API. Keras. Recuperado 29 de marzo de 2022, de
https://keras.io/

Machine learning education |. (s. f.). TensorFlow. Recuperado 31 de marzo de 2022, de


https://www.tensorflow.org/resources/learn-ml?gclid=CjwKCAjwopWSBhB6EiwAjxmqDXQlV_9cMX-
3hVgK83EeA0do3d0Iw6AhFB3V7V-5Itnfo8nQkFmrAxoCCfUQAvD_BwE

Matplotlib — Visualization with Python. (s. f.). Matplotlib. Recuperado 31 de marzo de 2022, de
https://matplotlib.org/

Mesa, A. R. (2020, 27 octubre). Por qué usar NumPy. OpenWebinars.net. Recuperado 28 de marzo de
2022, de https://openwebinars.net/blog/por-que-usar-
numpy/#:%7E:text=Caracter%C3%ADsticas%20principales%20de%20NumPy&text=Incluye%20funciones
%20para%20operaciones%20de,en%20conjunto%20son%20muy%20potentes.

Miño, C. S. (s. f.). ¿Qué es D3.js? - Christian Salazar Miño. Medium. Recuperado 31 de marzo de 2022, de
https://medium.com/@calaca89/qu%C3%A9-es-d3-js-fef02500c154

Mode.com. (2016, 23 mayo). Pandas | Python Library - Mode. Mode Resources. Recuperado 28 de
marzo de 2022, de https://mode.com/python-tutorial/libraries/pandas/#time-series-analysis
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

MongoDB: qué es, cómo funciona y cuándo podemos usarlo (o no). (2014, 3 febrero). Genbeta.
Recuperado 31 de marzo de 2022, de https://www.genbeta.com/desarrollo/mongodb-que-es-como-
funciona-y-cuando-podemos-usarlo-o-no

Numpy. (s. f.). NumPy: the absolute basics for beginners — NumPy v1.22 Manual. Recuperado 28 de
marzo de 2022, de https://numpy.org/doc/stable/user/absolute_beginners.html

Plotly. (s. f.). Plotly. Recuperado 31 de marzo de 2022, de https://plotly.com/python/getting-started/

PyPI. (2020, 27 julio). Theano. Recuperado 29 de marzo de 2022, de https://pypi.org/project/Theano/

PyTorch. (s. f.). PyTorch. Recuperado 29 de marzo de 2022, de https://pytorch.org/

¿Qué es Elasticsearch? (s. f.). Elastic. Recuperado 31 de marzo de 2022, de


https://www.elastic.co/es/what-is/elasticsearch

Riak. (s. f.). Riak. Recuperado 31 de marzo de 2022, de https://riak.com/

Riaza, M. (2021, 13 abril). Spark SQL: Optimizador Catalyst. BI Geek Blog. Recuperado 30 de marzo de
2022, de https://blog.bi-geek.com/spark-sql-optimizador-
catalyst/#:%7E:text=Spark%20SQL%20es%20un%20m%C3%B3dulo,para%20realizar%20procesos%20m
%C3%A1s%20eficientes.

Roberts, D. (s. f.). What Every Developer Should Know About CouchDB :: Dimagi Blog. Dimagi.
Recuperado 31 de marzo de 2022, de https://www.dimagi.com/blog/what-every-developer-should-
know-about-couchdb/

RStudio. (s. f.). RStudio | Open source & professional software for data science teams. Recuperado 28 de
marzo de 2022, de https://www.rstudio.com/

Scikit-Learn. (s. f.). scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentation.
Recuperado 29 de marzo de 2022, de https://scikit-learn.org/stable/index.html

Shiny. (s. f.). RStudio. Recuperado 31 de marzo de 2022, de https://www.rstudio.com/products/shiny/

Trabajos de Spark Streaming con alta disponibilidad en YARN: Azure HDInsight. (2022, 25 marzo).
Microsoft Docs. Recuperado 30 de marzo de 2022, de https://docs.microsoft.com/es-
es/azure/hdinsight/spark/apache-spark-streaming-high-
availability#:%7E:text=Spark%20Streaming%20representa%20un%20flujo,transformaciones%20a%20otr
o%20flujo%20DStream.

Two Sigma. (s. f.). BeakerX. BeakerX. Recuperado 29 de marzo de 2022, de http://beakerx.com/

Wikipedia contributors. (2022, 15 marzo). XGBoost. Wikipedia. Recuperado 29 de marzo de 2022, de


https://en.wikipedia.org/wiki/XGBoost
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1

También podría gustarte