Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A. TEMAS:
• Módulo I _ Introducción a la Gestión de la Información
B. OBJETIVO(S):
Conocer la potencialidad de recursos software que pueden apoyar el proceso de Gestión de la Información y que
el estudiante le permitan enriquecer su experiencia en las diversas actividades que se van a desarrollar a través
del curso de Gestión de la Información.
D. RECURSOS:
Laptop o PC con los recursos, Internet
F. CONSIDERACIONES FINALES:
Opinión del estudiante(s) sobre el logro del objetivo y el desarrollo de la Asignación.
Opinión del estudiante(s) sobre el valor del trabajo de investigación realizado
H. RÚBRICAS:
Tabla de Evaluación de Herramientas – Data Science Tools 50 puntos
Recomendaciones sobre uso de uno o varios Tools para implementar un 50 puntos
proyecto
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Data Cleaning
Tool Descripción de la Características Detalles
herramienta
Cascade es una Con esta plataforma se Este es un
plataforma de puede ejecutar servicio pago
estrategia que estrategias desde un
tiene como solo plan, a muchos. Se originó en
funcionalidad crear, posee seguridad y 2017
compartir y fiabilidad para
ejecutar planes empresas, y exporta los Posee
estrategicos informes estratégicos en integraciones
distintos formatos de con distintas
archivo plataformas
como MS
Teams
(Cascade.app,
s.f.)
Apache Sqoop es Sqoop posee Lenguaje de
una herramienta de importación y Programación:
big data para exportación paralela,
transferir datos también importa Java
entre Hadoop (el resultados de consulta
framwork open sql, y ofrece carga Esta
source para completa e incremental herramienta
transmitir grandes (Gill, s.f.) fue originada
sets de datos) y en marzo del
servidores de base 2012
de datos
relacionales
Talend es una Ayuda a las empresas a Es de código
plataforma de tomar decisiones en abierto
integración de tiempo real y a basarse
software de código más en los datos. Con Está basado
abierto que le esta tecnología, los en Java
ayuda a convertir datos se vuelven más
sin esfuerzo datos accesibles, su calidad Ofrece
en información mejora y se pueden herramientas
empresarial mover rápidamente a los de código
sistemas de destino. abierto que se
pueden bajar
gratuitamente
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Recomendación: Utilizar estos tipos de herramientas sirve para planificar y estructurar lo que viene
siendo información de un proyecto, tanto cascade como apache airflow pueden realizar planificaciones
y organización de ideas y tareas a la hora de realizar, planificar o mejorar un proyecto y/o empresa,
También todas estas herramientas, en especial talend y sqoop, ayudan a las empresas a tomar
decisiones de vital importancia viendo los datos a tiempo real.
Statistics
Tool Descripción Características Detalles
R es un lenguaje de Posee estadísticas Es un lenguaje
programación que básicas, es rico en libre de código
ampliamente es funciones para crear abierto
utilizado como una y desarrollar
herramienta de gráficos estáticos y Está integrado a
análisis de datos y proporciona una otros lenguajes
software estadístico, colección integrada (C, C++)
se utiliza como una de herramientas
herramienta líder para el análisis de Es aplicable a
para el análisis de datos todos los
datos, estadísticas y sistemas
aprendizaje operativos
automático
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Esta basado
principalmente
en C y Python
GNU Octave es un Proporciona una Es un lenguaje
lenguaje de alto conveniente interfaz basado en C++
nivel, destinado de línea de
principalmente a comandos para Es de código
cálculos numéricos. resolver abierto, lo cual
También se puede numéricamente se le es
utilizar como un problemas lineales y considerado
lenguaje orientado a no lineales, y para como una
lotes. realizar otros alternativa
experimentos válida de
numéricos usando Matlab.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
un lenguaje que es
mayormente
compatible con
Matlab.
Pandas es una Pandas analiza Panda es de
biblioteca de Python series temporales, código abierto y
para el análisis de posee tipos de datos está basado en
datos. Es una DataFrame para C y Python
herramienta de realizar
análisis cuantitativo manipulación de
potente y flexible. datos.
Alinea datos y
maneja
integradamente los
datos faltantes
Recomendación: La principal la razón por la cual recomiendo todas estas herramientas se deben a que
son todas de código abierto, siendo, por ejemplo: GNU Octave una alternativa eficaz y open source de
MatLab, así mismo estas herramientas nos permiten analizar y realizar operaciones con datos.
IDE Tools
Tool Descripción Características Detalles
Rstudio es una Posee un IDE construido Está
herramienta de exclusivo para R. Incluye programado
código abierto que una consola, editor de en C++, Java
proporciona Ide para sintaxis que apoya la y JavaScript
usar el lenguaje R y ejecución de código, así
un software como herramientas para Es un
profesional listo para el trazado, la depuración y software de
la empresa para que la gestión del espacio de código
los equipos de trabajo abierto
ciencia de datos
desarrollen y
compartan el trabajo
con su equipo.
PyCharm es un PyCharm posee asistencia Es de código
entorno de desarrollo y análisis de la cerrado
integrado (IDE) de codificación,
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Recomendación: creo que el mayor beneficio que poseen todas estas herramientas es que sean de
código abierto, ya que se nos permite acceso a ellas de una manera más sencilla, recomiendo más que
todo Anaconda e Jupyter, ya que el entorno que poseen hace que el análisis, simplificación y
visualización de códigos y datos sea de manera mucho más sencilla y ágil.
ML Tools
Tool Descripción Características Detalles
Theano es una Posee estrecha Theano es un
librería de Python integración con Numpy, software de
que permite definir, posee uso transparente código
optimizar y evaluar de una GPU, posee abierto.
eficientemente diferenciación simbólica
expresiones eficiente y generador de Fue escrito
matemáticas que código C dinámico en Python y
involucran matrices CUDA.
multidimensionales.
Está construida sobre
NumPy.
XGBoost es una XGBoost proporciona una XGBoost está
biblioteca de biblioteca de aumento de escrito en
software que gradiente escalable, C++.
proporciona marco portátil y distribuida, se
de refuerzo de ejecuta en una máquina. Este software
regularización de Se ejecuta en una sola es de código
gradientes para C++, máquina. abierto.
Python y distintos
lenguajes de
programación
Keras es una Keras contiene Keras esta
biblioteca de numerosas escrito en
software que ofrece implementaciones de Python y es
API consistentes y bloques de contracción de un software
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
implementación de
modelos.
TensorFlow es una TensorFlow proporciona TensorFlow
biblioteca para diversas API de distintos es un
aprendizaje lenguajes de software de
automático mediante programación y de código
el uso de un rango terceros. También esfacil abierto que
amplio de tareas de ejecutar, efectvo y utilizó en su
realizado por Google posee depuración rápida, desarrollo los
para satisfacer también cabe destacar lenguajes de
necesidades de que el software es programaci;o
sistemas capaces de escalable. n Python y
construir y entrenar C++
redes neuronales
para descifrar
patrones y
correlaciones
Recomendación: Todas estas herramientas, en especial la de H2O.Ai ofrecen las opciones más eficientes
de analizar datos utilizando machine learning.
Recomendación: Todos estos frameworks poseen un aporte a la hora de medir, recopilar y analizar
datos en tiempo real, recomendaría todas estas herramientas debido que todas estas poseen licencia
abierta y nos ayudan a recopilar información y también son utilizadas para realizar investigaciones
comerciales y de mercado bien informadas.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Recomendación: Estas herramientas son de gran ayuda a la hora de manejar base de datos, si bien casi
todas hacen básicamente lo mismo, personalmente elegiría Spark SQL ya que, a pesar de ser abierto,
este software agiliza las consultas y se puede usar de forma mucho más sencilla.
Data Store
Recomendación: Estas herramientas de base de datos tienen en común en ser de código abierto, lo que
quiere decir que a muchas de ellas se pueden acceder de manera muy accesible. Teniendo en cuenta
todo esto, yo recomiendo personalmente a Cassandra ya que esta ofrece mayor fiabilidad y facilidad a la
hora de ser implementado.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Data Visualization
Recomendación: Estas herramientas nos permiten visualizar e interactuar de manera dinámica con los
datos, siendo Matlotlib la herramienta más eficiente a la hora de realizar publicaciones y gráficos de
datos, también Shiny ya que también sirve para hacer aplicaciones de manera sencilla utilizando el
lenguaje R.
Consideración final
La realización de esta asignación investigativa nos permitió conocer las herramientas mas eficientes a la
hora de realizar tareas de análisis de datos, cada tipo de herramienta ofrece un aporte importante a la
hora de analizar datos y son de vital importancia tenerlas en cuenta en nuestro futuro en la carrera.
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Referencias
Cascade.app. (s.f.). Cascade. Recuperado el 27 de Marzo de 2022, de
https://www.cascade.app/es/strategy-platform
Gill, N. S. (s.f.). Big Data Sqoop | Get Started With Big Data Hadoop Sqoop. Obtenido de 2020:
https://www.xenonstack.com/blog/big-data-apache-sqoop
Alcón, D. (2022, 14 febrero). ¿Qué es Snowflake? Paradigma Digital. Recuperado 30 de marzo de 2022,
de https://www.paradigmadigital.com/dev/que-es-snowflake/
Apache Cassandra | Apache Cassandra Documentation. (s. f.). Apache Cassandra. Recuperado 31 de
marzo de 2022, de https://cassandra.apache.org/_/index.html
Apache Flink: What is Apache Flink? — Architecture. (s. f.). Apache Flink. Recuperado 30 de marzo de
2022, de https://flink.apache.org/flink-architecture.html
Apache HBase – Apache HBaseTM Home. (s. f.). Apache Hbase. Recuperado 31 de marzo de 2022, de
https://hbase.apache.org/
Apache Kafka. (s. f.). Apache Kafka. Recuperado 29 de marzo de 2022, de https://kafka.apache.org/
Apache NiFi. (s. f.). Apache Nifi. Recuperado 29 de marzo de 2022, de https://nifi.apache.org/
Apache Storm. (s. f.). Apache Storm. Recuperado 29 de marzo de 2022, de https://storm.apache.org/
AprenderBigData. (2022a, marzo 8). ¿Qué es Apache Airflow? Introducción. Aprender BIG DATA.
Recuperado 28 de marzo de 2022, de https://aprenderbigdata.com/apache-airflow/
AprenderBigData. (2022b, marzo 29). Apache Spark: Introducción. Aprender BIG DATA. Recuperado 30
de marzo de 2022, de https://aprenderbigdata.com/introduccion-apache-
spark/#:%7E:text=Soporta%20m%C3%BAltiples%20lenguajes%3A%20Spark%20tiene,science%20como%
20MLlib%20y%20GraphX.
BigQuery - Ayuda de Google Cloud Platform Console. (s. f.). Google. Recuperado 30 de marzo de 2022,
de https://support.google.com/cloud/answer/9113366?hl=es
Bokeh: An Interactive Data Visualization Library in CodeBook | Refinitiv Developers. (s. f.). Refinitiv.
Recuperado 31 de marzo de 2022, de https://developers.refinitiv.com/en/article-catalog/article/bokeh--
an-interactive-data-visualization-library-in-codebook
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
Chand, S. (2021, 29 noviembre). What Is Talend? – An Unified Platform For Data Integration. Edureka.
Recuperado 27 de marzo de 2022, de https://www.edureka.co/blog/what-is-talend-
tool/#AdvantagesOfTalend
Danta Analytics. (2021, 4 febrero). Inteligencia Artificial y Machine Learning con H2O.ai. Recuperado 29
de marzo de 2022, de https://dantaanalytics.com/plataformas/h2o/
Figueiras, S., & Figueiras, S. (s. f.). ¿Conoces Jupyter Notebook? Ceupe.mx. Recuperado 29 de marzo de
2022, de https://www.ceupe.mx/blog/conoces-jupyter-notebook.html
JetBrains. (2021, 2 junio). PyCharm: el IDE de Python para desarrolladores profesionales, por.
https://www.jetbrains.com/es-es/pycharm/
K Team. (s. f.). Keras: the Python deep learning API. Keras. Recuperado 29 de marzo de 2022, de
https://keras.io/
Matplotlib — Visualization with Python. (s. f.). Matplotlib. Recuperado 31 de marzo de 2022, de
https://matplotlib.org/
Mesa, A. R. (2020, 27 octubre). Por qué usar NumPy. OpenWebinars.net. Recuperado 28 de marzo de
2022, de https://openwebinars.net/blog/por-que-usar-
numpy/#:%7E:text=Caracter%C3%ADsticas%20principales%20de%20NumPy&text=Incluye%20funciones
%20para%20operaciones%20de,en%20conjunto%20son%20muy%20potentes.
Miño, C. S. (s. f.). ¿Qué es D3.js? - Christian Salazar Miño. Medium. Recuperado 31 de marzo de 2022, de
https://medium.com/@calaca89/qu%C3%A9-es-d3-js-fef02500c154
Mode.com. (2016, 23 mayo). Pandas | Python Library - Mode. Mode Resources. Recuperado 28 de
marzo de 2022, de https://mode.com/python-tutorial/libraries/pandas/#time-series-analysis
FC-FISC-1-8-2016)
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ
FACULTAD DE INGENIERÍA DE SISTEMAS COMPUTACIONALES
SISTEMAS DE INFORMACION
GUÍA DE ACTIVIDAD N° 1
TRABAJO DE INVESTIGACION No 1
MongoDB: qué es, cómo funciona y cuándo podemos usarlo (o no). (2014, 3 febrero). Genbeta.
Recuperado 31 de marzo de 2022, de https://www.genbeta.com/desarrollo/mongodb-que-es-como-
funciona-y-cuando-podemos-usarlo-o-no
Numpy. (s. f.). NumPy: the absolute basics for beginners — NumPy v1.22 Manual. Recuperado 28 de
marzo de 2022, de https://numpy.org/doc/stable/user/absolute_beginners.html
Riaza, M. (2021, 13 abril). Spark SQL: Optimizador Catalyst. BI Geek Blog. Recuperado 30 de marzo de
2022, de https://blog.bi-geek.com/spark-sql-optimizador-
catalyst/#:%7E:text=Spark%20SQL%20es%20un%20m%C3%B3dulo,para%20realizar%20procesos%20m
%C3%A1s%20eficientes.
Roberts, D. (s. f.). What Every Developer Should Know About CouchDB :: Dimagi Blog. Dimagi.
Recuperado 31 de marzo de 2022, de https://www.dimagi.com/blog/what-every-developer-should-
know-about-couchdb/
RStudio. (s. f.). RStudio | Open source & professional software for data science teams. Recuperado 28 de
marzo de 2022, de https://www.rstudio.com/
Scikit-Learn. (s. f.). scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentation.
Recuperado 29 de marzo de 2022, de https://scikit-learn.org/stable/index.html
Trabajos de Spark Streaming con alta disponibilidad en YARN: Azure HDInsight. (2022, 25 marzo).
Microsoft Docs. Recuperado 30 de marzo de 2022, de https://docs.microsoft.com/es-
es/azure/hdinsight/spark/apache-spark-streaming-high-
availability#:%7E:text=Spark%20Streaming%20representa%20un%20flujo,transformaciones%20a%20otr
o%20flujo%20DStream.
Two Sigma. (s. f.). BeakerX. BeakerX. Recuperado 29 de marzo de 2022, de http://beakerx.com/