Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Parte 2
Herramientas mas usadas en el
mundo de la data
Data science y Machine learning
Pandas: Pandas es una librería de Python especializada en la
manipulación y el análisis de datos. Ofrece estructuras de datos y
operaciones para manipular tablas numéricas y series temporales, es
como el Excel de Python.
Scikit-learn: Es una biblioteca para aprendizaje automático de software
libre para el lenguaje de programación Python. Incluye varios algoritmos
de clasificación, regresión y análisis de grupo. Está diseñada para
interoperar con las bibliotecas numéricas y científicas NumPy y SciPy.
Data science y Machine learning
Pytorch: Es una biblioteca de aprendizaje automático de código abierto
basada en la biblioteca de Torch, utilizado para aplicaciones como visión
artificial y procesamiento de lenguajes naturales principalmente
desarrollado por el Laboratorio de Investigación de Inteligencia Artificial
de Facebook (FAIR)
TensorFlow: Es una biblioteca de código abierto para aprendizaje
automático a través de un rango de tareas, y desarrollado por Google
para satisfacer sus necesidades de sistemas capaces de construir y
entrenar redes neuronales para detectar y descifrar patrones y
correlaciones, análogos al aprendizaje y razonamiento usados por los
humanos.
Almacenamiento
Bases de datos relacionales: MySQL, PostgreSQL, MariaDB,
Microsoft SQL Server y Oracle Database.
Bases de datos no relacionales: Mongo DB (Documentos), Apache
Cassandra (Columna familiar), Neo4J (Grafos), Redis
(Clave-valor).
Lago de datos: Delta Lake, Azure Blob Storage, Amazon S3, Google
Cloud Storage.
Infraestructura
Kubernetes: Es una plataforma de sistema distribuido de código libre
para la automatización del despliegue, ajuste de escala y manejo de
aplicaciones en contenedores que fue originalmente diseñado por
Google y donado a la Cloud Native Computing Foundation (parte de la
Linux Foundation).
Apache Airflow: Es una plataforma de gestión de flujo de trabajo de
código abierto escrita en Python, donde los flujos de trabajo se crean a
través de scripts de Python. Fue creada por Airbnb en octubre de 2014
como solución para la gestión de flujos de trabajo dentro de la empresa.
Infraestructura
Apache Kafka: Es un proyecto de intermediación de mensajes de código
abierto desarrollado por LinkedIn y donado a la Apache Software
Foundation escrito en Java y Scala. El proyecto tiene como objetivo
proporcionar una plataforma unificada, de alto rendimiento y de baja
latencia para la manipulación en tiempo real de fuentes de datos.
Elasticsearch: Es un servidor de búsqueda basado en Lucene. Provee un
motor de búsqueda de texto completo, distribuido y con capacidad de
multitenencia con una interfaz web RESTful y con documentos JSON.
Elasticsearch está desarrollado en Java y está publicado como código
abierto bajo las condiciones de la licencia Apache.
Inteligencia de negocios y
visualización
Power BI: Es un servicio de análisis de datos de Microsoft orientado a
proporcionar visualizaciones interactivas y capacidades de inteligencia
empresarial con una interfaz lo suficientemente simple como para que los
usuarios finales puedan crear por sí mismos sus propios informes y paneles.
Tableu: Es un software el cual desarrolla productos de visualización de datos
interactivos que se enfocan en inteligencia empresarial.
Looker Studio: Anteriormente Google Data Studio, es una herramienta en línea
para convertir datos en informes y tableros informativos personalizables
presentado por Google el 15 de marzo de 2016 como parte de la suite
empresarial Google Analytics 360.
Otras herramientas de Big Data
Apache Hadoop: Es un entorno de trabajo para software, bajo licencia
libre, para programar aplicaciones distribuidas que manejen grandes
volúmenes de datos (big data). Permite a las aplicaciones trabajar
con miles de nodos en red y petabytes de datos.
Apache Spark: Es un framework de computación (entorno de trabajo)
en clúster open-source. Spark proporciona una interfaz para la
programación de clusters completos con Paralelismo de Datos
implícito y tolerancia a fallos. Proporciona APIs en Java, Scala, Python y
R
Otras herramientas de Big Data
Published in 2014 - A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)U.
Shafique, Haseeb Qaiser
Casos de éxitos Big data
Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Casos de éxitos Big data
Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Casos de éxitos Big data
Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Big data: ¿la carrera del futuro en
Colombia?
Las ofertas de empleo para
profesionales con competencias y
habilidades digitales está en aumento. De
acuerdo con Harvard Business Review las 10.00
empresas más grandes de Estados Unidos, el
99% de ellas reportan inversiones en datos y en
Inteligencia Artificial. Sin embargo, el número
actual de profesionales en estas áreas en
Colombia es limitado, por lo que el mercado
está buscando profesionales capacitados.
Fuente: https://www.lafm.com.co/educacion/big-data-la-carrera-del-futuro-en-colombia
Big data: ¿la carrera del futuro en
Colombia?
“Los datos son el insumo más importante de las compañías en la era
de la información”, más importante que muchos commodities.
La acogida que tiene actualmente el Big Data se debe, en principio, a
que es aplicable en cualquier ámbito empresarial. En este sentido, la
consultora IDC estimó que el mercado de big data y analytics en
América Latina, representó una inversión de más de 8000 MDD
(millones de dólares) durante 2021, lo que se traduce en un
crecimiento del 9% en comparación con 2020.
Fuente: https://www.lafm.com.co/educacion/big-data-la-carrera-del-futuro-en-colombia
Los perfiles Big Data más buscados
• Data Scientist
55.000€ a los 80.000€ brutos anuales.
para 2023
• Data Analyst
50.000€ y los 60.000€ brutos anuales.
• Data Engineer
En Estados Unidos puede ganar entre 90.000$ a 130.000 dólares.
• Data Manager
56.600€ brutos anuales.
Referencias
• https://pandas.pydata.org/
• https://scikit-learn.org/stable/
• https://pytorch.org/
• https://www.tensorflow.org/
? Preguntas