Está en la página 1de 22

Conceptos básicos

Parte 2
Herramientas mas usadas en el
mundo de la data
Data science y Machine learning
Pandas: Pandas es una librería de Python especializada en la
manipulación y el análisis de datos. Ofrece estructuras de datos y
operaciones para manipular tablas numéricas y series temporales, es
como el Excel de Python.
Scikit-learn: Es una biblioteca para aprendizaje automático de software
libre para el lenguaje de programación Python. Incluye varios algoritmos
de clasificación, regresión y análisis de grupo. Está diseñada para
interoperar con las bibliotecas numéricas y científicas NumPy y SciPy.
Data science y Machine learning
Pytorch: Es una biblioteca de aprendizaje automático de código abierto
basada en la biblioteca de Torch, utilizado para aplicaciones como visión
artificial y procesamiento de lenguajes naturales principalmente
desarrollado por el Laboratorio de Investigación de Inteligencia Artificial
de Facebook (FAIR)
TensorFlow: Es una biblioteca de código abierto para aprendizaje
automático a través de un rango de tareas, y desarrollado por Google
para satisfacer sus necesidades de sistemas capaces de construir y
entrenar redes neuronales para detectar y descifrar patrones y
correlaciones, análogos al aprendizaje y razonamiento usados por los
humanos.
Almacenamiento
Bases de datos relacionales: MySQL, PostgreSQL, MariaDB,
Microsoft SQL Server y Oracle Database.
Bases de datos no relacionales: Mongo DB (Documentos), Apache
Cassandra (Columna familiar), Neo4J (Grafos), Redis
(Clave-valor).
Lago de datos: Delta Lake, Azure Blob Storage, Amazon S3, Google
Cloud Storage.
Infraestructura
Kubernetes: Es una plataforma de sistema distribuido de código libre
para la automatización del despliegue, ajuste de escala y manejo de
aplicaciones en contenedores que fue originalmente diseñado por
Google y donado a la Cloud Native Computing Foundation (parte de la
Linux Foundation).
Apache Airflow: Es una plataforma de gestión de flujo de trabajo de
código abierto escrita en Python, donde los flujos de trabajo se crean a
través de scripts de Python. Fue creada por Airbnb en octubre de 2014
como solución para la gestión de flujos de trabajo dentro de la empresa.
Infraestructura
Apache Kafka: Es un proyecto de intermediación de mensajes de código
abierto desarrollado por LinkedIn y donado a la Apache Software
Foundation escrito en Java y Scala. El proyecto tiene como objetivo
proporcionar una plataforma unificada, de alto rendimiento y de baja
latencia para la manipulación en tiempo real de fuentes de datos.
Elasticsearch: Es un servidor de búsqueda basado en Lucene. Provee un
motor de búsqueda de texto completo, distribuido y con capacidad de
multitenencia con una interfaz web RESTful y con documentos JSON.
Elasticsearch está desarrollado en Java y está publicado como código
abierto bajo las condiciones de la licencia Apache.
Inteligencia de negocios y
visualización
Power BI: Es un servicio de análisis de datos de Microsoft orientado a
proporcionar visualizaciones interactivas y capacidades de inteligencia
empresarial con una interfaz lo suficientemente simple como para que los
usuarios finales puedan crear por sí mismos sus propios informes y paneles.
Tableu: Es un software el cual desarrolla productos de visualización de datos
interactivos que se enfocan en inteligencia empresarial.
Looker Studio: Anteriormente Google Data Studio, es una herramienta en línea
para convertir datos en informes y tableros informativos personalizables
presentado por Google el 15 de marzo de 2016 como parte de la suite
empresarial Google Analytics 360.
Otras herramientas de Big Data
Apache Hadoop: Es un entorno de trabajo para software, bajo licencia
libre, para programar aplicaciones distribuidas que manejen grandes
volúmenes de datos (big data). Permite a las aplicaciones trabajar
con miles de nodos en red y petabytes de datos.
Apache Spark: Es un framework de computación (entorno de trabajo)
en clúster open-source. Spark proporciona una interfaz para la
programación de clusters completos con Paralelismo de Datos
implícito y tolerancia a fallos. Proporciona APIs en Java, Scala, Python y
R
Otras herramientas de Big Data

Apache Storm: Es un marco de computación de procesamiento de flujo


distribuido escrito predominantemente en el lenguaje de programación
Clojure. Una aplicación Storm está diseñada como una "topología" en
forma de un gráfico acíclico dirigido (DAG) con picos y pernos que
actúan como vértices del gráfico. Los bordes del gráfico son flujos con
nombre y datos directos de un nodo a otro.
Metodologías para proyectos de Data
Science
CRISP-DM, que son las siglas de Cross-Industry
Standard Process for Data Mining, es un método
probado para orientar sus trabajos de minería de datos.
• Como metodología, incluye descripciones de las
fases normales de un proyecto, las tareas necesarias
en cada fase y una explicación de las relaciones
entre las tareas.
• Como modelo de proceso, CRISP-DM ofrece un
resumen del ciclo vital de minería de datos.
Fuente: https://www.ibm.com/docs/es/spss-modeler/saas?topic=dm-crisp-help-overview
Metodologías para proyectos de Data
Science

Published in 2014 - A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)U.
Shafique, Haseeb Qaiser
Casos de éxitos Big data

Airbnb: recomendaciones adaptadas al contexto global


Crear el vínculo perfecto entre huésped y anfitrión puede resultar
complicado, pero el análisis de Big Data ha resultado ser el camino
para crear una experiencia de usuario perfecta en Airbnb. 

Amazon: recomendaciones personalizadas


El 35% de sus ventas anuales provienen de recomendaciones de
productos.

Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Casos de éxitos Big data

Netflix: si no sabes qué mirar, Netflix sí


Los datos de las más de diez horas de series y películas vistas al día
son almacenados y monitoreados para comprender los gustos y
hábitos de los usuarios.
Starbucks: ubicación estratégica de las tiendas
Al analizar la información geográfica, demográfica y el tráfico, esta
empresa logra hacer estimados sobre el posible éxito de una nueva
tienda; es decir, usan el Big Data para elegir sus nuevas ubicaciones. 

Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Casos de éxitos Big data

Tesla: vehículos autónomos


Estamos hablando de más de 100 millones de millas de información
que permitirán que un día, uniendo el análisis de Big Data con machine
learning e inteligencia artificial, todos los Tesla se vuelvan vehículos
autónomos. 

Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Big data: ¿la carrera del futuro en
Colombia?
Las ofertas de empleo para
profesionales con competencias y
habilidades digitales está en aumento. De
acuerdo con Harvard Business Review las 10.00
empresas más grandes de Estados Unidos, el
99% de ellas reportan inversiones en datos y en
Inteligencia Artificial. Sin embargo, el número
actual de profesionales en estas áreas en
Colombia es limitado, por lo que el mercado
está buscando profesionales capacitados.
Fuente: https://www.lafm.com.co/educacion/big-data-la-carrera-del-futuro-en-colombia
Big data: ¿la carrera del futuro en
Colombia?
“Los datos son el insumo más importante de las compañías en la era
de la información”, más importante que muchos commodities. 
La acogida que tiene actualmente el Big Data se debe, en principio, a
que es aplicable en cualquier ámbito empresarial. En este sentido, la
consultora IDC estimó que el mercado de big data y analytics en
América Latina, representó una inversión de más de 8000 MDD
(millones de dólares) durante 2021, lo que se traduce en un
crecimiento del 9% en comparación con 2020. 

Fuente: https://www.lafm.com.co/educacion/big-data-la-carrera-del-futuro-en-colombia
Los perfiles Big Data más buscados
• Data Scientist
55.000€ a los 80.000€  brutos anuales. 
para 2023
• Data Analyst
50.000€ y los 60.000€ brutos anuales.

• Chief Data Officer (CDO)


40.000€ y los 90.000€  brutos al año.

• Data Engineer
En Estados Unidos puede ganar entre 90.000$ a 130.000 dólares.

• Data Manager
56.600€ brutos anuales.
Referencias

• https://pandas.pydata.org/
• https://scikit-learn.org/stable/
• https://pytorch.org/
• https://www.tensorflow.org/
? Preguntas

También podría gustarte