Herramientas y Éxitos en Big Data

Este documento describe varias herramientas y tecnologías clave utilizadas en ciencia de datos y aprendizaje automático. Incluye bibliotecas como Pandas, Scikit-learn, PyTorch y TensorFlow para manipulación y análisis de datos, así como plataformas para almacenamiento como bases de datos SQL y NoSQL, y lagos de datos. También cubre herramientas de infraestructura como Kubernetes, Airflow, Kafka y Elasticsearch, e instrumentos de inteligencia de negocios y visualización como Power BI, Tableau y Looker. Finalmente, presenta

Cargado por

henry

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

79 vistas22 páginas

Herramientas y Éxitos en Big Data

Cargado por

henry

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Conceptos básicos

Parte 2
Herramientas mas usadas en el
mundo de la data
Data science y Machine learning
Pandas: Pandas es una librería de Python especializada en la
manipulación y el análisis de datos. Ofrece estructuras de datos y
operaciones para manipular tablas numéricas y series temporales, es
como el Excel de Python.
Scikit-learn: Es una biblioteca para aprendizaje automático de software
libre para el lenguaje de programación Python. Incluye varios algoritmos
de clasificación, regresión y análisis de grupo. Está diseñada para
interoperar con las bibliotecas numéricas y científicas NumPy y SciPy.
Data science y Machine learning
Pytorch: Es una biblioteca de aprendizaje automático de código abierto
basada en la biblioteca de Torch, utilizado para aplicaciones como visión
artificial y procesamiento de lenguajes naturales principalmente
desarrollado por el Laboratorio de Investigación de Inteligencia Artificial
de Facebook (FAIR)
TensorFlow: Es una biblioteca de código abierto para aprendizaje
automático a través de un rango de tareas, y desarrollado por Google
para satisfacer sus necesidades de sistemas capaces de construir y
entrenar redes neuronales para detectar y descifrar patrones y
correlaciones, análogos al aprendizaje y razonamiento usados por los
humanos.
Almacenamiento
Bases de datos relacionales: MySQL, PostgreSQL, MariaDB,
Microsoft SQL Server y Oracle Database.
Bases de datos no relacionales: Mongo DB (Documentos), Apache
Cassandra (Columna familiar), Neo4J (Grafos), Redis
(Clave-valor).
Lago de datos: Delta Lake, Azure Blob Storage, Amazon S3, Google
Cloud Storage.
Infraestructura
Kubernetes: Es una plataforma de sistema distribuido de código libre
para la automatización del despliegue, ajuste de escala y manejo de
aplicaciones en contenedores que fue originalmente diseñado por
Google y donado a la Cloud Native Computing Foundation (parte de la
Linux Foundation).
Apache Airflow: Es una plataforma de gestión de flujo de trabajo de
código abierto escrita en Python, donde los flujos de trabajo se crean a
través de scripts de Python. Fue creada por Airbnb en octubre de 2014
como solución para la gestión de flujos de trabajo dentro de la empresa.
Infraestructura
Apache Kafka: Es un proyecto de intermediación de mensajes de código
abierto desarrollado por LinkedIn y donado a la Apache Software
Foundation escrito en Java y Scala. El proyecto tiene como objetivo
proporcionar una plataforma unificada, de alto rendimiento y de baja
latencia para la manipulación en tiempo real de fuentes de datos.
Elasticsearch: Es un servidor de búsqueda basado en Lucene. Provee un
motor de búsqueda de texto completo, distribuido y con capacidad de
multitenencia con una interfaz web RESTful y con documentos JSON.
Elasticsearch está desarrollado en Java y está publicado como código
abierto bajo las condiciones de la licencia Apache.
Inteligencia de negocios y
visualización
Power BI: Es un servicio de análisis de datos de Microsoft orientado a
proporcionar visualizaciones interactivas y capacidades de inteligencia
empresarial con una interfaz lo suficientemente simple como para que los
usuarios finales puedan crear por sí mismos sus propios informes y paneles.
Tableu: Es un software el cual desarrolla productos de visualización de datos
interactivos que se enfocan en inteligencia empresarial.
Looker Studio: Anteriormente Google Data Studio, es una herramienta en línea
para convertir datos en informes y tableros informativos personalizables
presentado por Google el 15 de marzo de 2016 como parte de la suite
empresarial Google Analytics 360.
Otras herramientas de Big Data
Apache Hadoop: Es un entorno de trabajo para software, bajo licencia
libre, para programar aplicaciones distribuidas que manejen grandes
volúmenes de datos (big data). Permite a las aplicaciones trabajar
con miles de nodos en red y petabytes de datos.
Apache Spark: Es un framework de computación (entorno de trabajo)
en clúster open-source. Spark proporciona una interfaz para la
programación de clusters completos con Paralelismo de Datos
implícito y tolerancia a fallos. Proporciona APIs en Java, Scala, Python y
R
Otras herramientas de Big Data

Apache Storm: Es un marco de computación de procesamiento de flujo

distribuido escrito predominantemente en el lenguaje de programación
Clojure. Una aplicación Storm está diseñada como una "topología" en
forma de un gráfico acíclico dirigido (DAG) con picos y pernos que
actúan como vértices del gráfico. Los bordes del gráfico son flujos con
nombre y datos directos de un nodo a otro.
Metodologías para proyectos de Data
Science
CRISP-DM, que son las siglas de Cross-Industry
Standard Process for Data Mining, es un método
probado para orientar sus trabajos de minería de datos.
• Como metodología, incluye descripciones de las
fases normales de un proyecto, las tareas necesarias
en cada fase y una explicación de las relaciones
entre las tareas.
• Como modelo de proceso, CRISP-DM ofrece un
resumen del ciclo vital de minería de datos.
Fuente: https://www.ibm.com/docs/es/spss-modeler/saas?topic=dm-crisp-help-overview
Metodologías para proyectos de Data
Science

Published in 2014 - A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)U.
Shafique, Haseeb Qaiser
Casos de éxitos Big data

Airbnb: recomendaciones adaptadas al contexto global

Crear el vínculo perfecto entre huésped y anfitrión puede resultar
complicado, pero el análisis de Big Data ha resultado ser el camino
para crear una experiencia de usuario perfecta en Airbnb.

Amazon: recomendaciones personalizadas

El 35% de sus ventas anuales provienen de recomendaciones de
productos.

Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Casos de éxitos Big data

Netflix: si no sabes qué mirar, Netflix sí

Los datos de las más de diez horas de series y películas vistas al día
son almacenados y monitoreados para comprender los gustos y
hábitos de los usuarios.
Starbucks: ubicación estratégica de las tiendas
Al analizar la información geográfica, demográfica y el tráfico, esta
empresa logra hacer estimados sobre el posible éxito de una nueva
tienda; es decir, usan el Big Data para elegir sus nuevas ubicaciones.

Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Casos de éxitos Big data

Tesla: vehículos autónomos

Estamos hablando de más de 100 millones de millas de información
que permitirán que un día, uniendo el análisis de Big Data con machine
learning e inteligencia artificial, todos los Tesla se vuelvan vehículos
autónomos.

Fuente: https://www.crehana.com/blog/transformacion-digital/big-data-casos-de-exito/
Big data: ¿la carrera del futuro en
Colombia?
Las ofertas de empleo para
profesionales con competencias y
habilidades digitales está en aumento. De
acuerdo con Harvard Business Review las 10.00
empresas más grandes de Estados Unidos, el
99% de ellas reportan inversiones en datos y en
Inteligencia Artificial. Sin embargo, el número
actual de profesionales en estas áreas en
Colombia es limitado, por lo que el mercado
está buscando profesionales capacitados.
Fuente: https://www.lafm.com.co/educacion/big-data-la-carrera-del-futuro-en-colombia
Big data: ¿la carrera del futuro en
Colombia?
“Los datos son el insumo más importante de las compañías en la era
de la información”, más importante que muchos commodities.
La acogida que tiene actualmente el Big Data se debe, en principio, a
que es aplicable en cualquier ámbito empresarial. En este sentido, la
consultora IDC estimó que el mercado de big data y analytics en
América Latina, representó una inversión de más de 8000 MDD
(millones de dólares) durante 2021, lo que se traduce en un
crecimiento del 9% en comparación con 2020.

Fuente: https://www.lafm.com.co/educacion/big-data-la-carrera-del-futuro-en-colombia
Los perfiles Big Data más buscados
• Data Scientist
55.000€ a los 80.000€ brutos anuales.
para 2023
• Data Analyst
50.000€ y los 60.000€ brutos anuales.

• Chief Data Officer (CDO)

40.000€ y los 90.000€ brutos al año.

• Data Engineer
En Estados Unidos puede ganar entre 90.000$ a 130.000 dólares.

• Data Manager
56.600€ brutos anuales.
Referencias

• https://pandas.pydata.org/
• https://scikit-learn.org/stable/
• https://pytorch.org/
• https://www.tensorflow.org/
? Preguntas

También podría gustarte

Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Metodología y Herramientas de Big Data
Aún no hay calificaciones
Metodología y Herramientas de Big Data
8 páginas
Big Data: Herramientas y Usos Empresariales
Aún no hay calificaciones
Big Data: Herramientas y Usos Empresariales
10 páginas
Herramientas de Big Data: Comparativa y Usos
Aún no hay calificaciones
Herramientas de Big Data: Comparativa y Usos
16 páginas
Procesamiento de Datos en Big Data
Aún no hay calificaciones
Procesamiento de Datos en Big Data
9 páginas
Big Data en Negocios: Herramientas y Usos
Aún no hay calificaciones
Big Data en Negocios: Herramientas y Usos
11 páginas
Evidencia 1 BIG DATA-2
Aún no hay calificaciones
Evidencia 1 BIG DATA-2
17 páginas
Introducción a Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción a Big Data y sus Tecnologías
24 páginas
Introducción al Big Data en Negocios
Aún no hay calificaciones
Introducción al Big Data en Negocios
8 páginas
Evidencia 1 - Grupo 10
Aún no hay calificaciones
Evidencia 1 - Grupo 10
16 páginas
Curso de Datos
Aún no hay calificaciones
Curso de Datos
9 páginas
Big Data
Aún no hay calificaciones
Big Data
2 páginas
Herramientas de Big Data: MongoDB y Más
Aún no hay calificaciones
Herramientas de Big Data: MongoDB y Más
12 páginas
Todo
100% (1)
Todo
231 páginas
Metodología y Herramientas de Big Data
Aún no hay calificaciones
Metodología y Herramientas de Big Data
14 páginas
Herramientas Clave de Big Data
Aún no hay calificaciones
Herramientas Clave de Big Data
9 páginas
Herramientas Clave para Análisis de Big Data
Aún no hay calificaciones
Herramientas Clave para Análisis de Big Data
3 páginas
Resumen del Data Engineering Cookbook
Aún no hay calificaciones
Resumen del Data Engineering Cookbook
10 páginas
Herramientas de Código Abierto en Ciencia de Datos
Aún no hay calificaciones
Herramientas de Código Abierto en Ciencia de Datos
2 páginas
Herramientas Clave para Big Data
Aún no hay calificaciones
Herramientas Clave para Big Data
7 páginas
Introducción al Big Data y sus Herramientas
Aún no hay calificaciones
Introducción al Big Data y sus Herramientas
6 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Introducción a Big Data
Aún no hay calificaciones
Introducción a Big Data
38 páginas
Arquitecturas y Herramientas en Big Data
Aún no hay calificaciones
Arquitecturas y Herramientas en Big Data
27 páginas
Big Data: Conceptos y Aplicaciones
Aún no hay calificaciones
Big Data: Conceptos y Aplicaciones
30 páginas
Herramientas Clave para Big Data
Aún no hay calificaciones
Herramientas Clave para Big Data
5 páginas
Curso de Big Data y Aplicaciones
Aún no hay calificaciones
Curso de Big Data y Aplicaciones
10 páginas
Cuadro Comparativo Tecnologías de Big Data
Aún no hay calificaciones
Cuadro Comparativo Tecnologías de Big Data
4 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
11 páginas
Herramientas de Big Data en Negocios
Aún no hay calificaciones
Herramientas de Big Data en Negocios
17 páginas
Gestión de Datos y Big Data en Empresas
Aún no hay calificaciones
Gestión de Datos y Big Data en Empresas
11 páginas
Arquitectura Spark en Big Data
Aún no hay calificaciones
Arquitectura Spark en Big Data
39 páginas
Herramientas y Metodologías de Big Data
Aún no hay calificaciones
Herramientas y Metodologías de Big Data
11 páginas
S1 - Clase 1 - Big Data
Aún no hay calificaciones
S1 - Clase 1 - Big Data
27 páginas
Herramientas Esenciales de Big Data
Aún no hay calificaciones
Herramientas Esenciales de Big Data
14 páginas
Comparativa de Tecnologías Big Data: Storm, Spark y Samza
Aún no hay calificaciones
Comparativa de Tecnologías Big Data: Storm, Spark y Samza
3 páginas
Herramientas Clave de Ciencia de Datos
Aún no hay calificaciones
Herramientas Clave de Ciencia de Datos
2 páginas
Trabajo Completao
Aún no hay calificaciones
Trabajo Completao
10 páginas
Fundamentos del Big Data y Hadoop
Aún no hay calificaciones
Fundamentos del Big Data y Hadoop
12 páginas
Introducción a Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción a Big Data y sus Tecnologías
6 páginas
Big Data: Plataformas y Tecnologías Clave
Aún no hay calificaciones
Big Data: Plataformas y Tecnologías Clave
16 páginas
Comparativa de Arquitecturas Big Data
Aún no hay calificaciones
Comparativa de Arquitecturas Big Data
3 páginas
Introducción a Big Data Analityc
Aún no hay calificaciones
Introducción a Big Data Analityc
25 páginas
Big Data Aa1
Aún no hay calificaciones
Big Data Aa1
13 páginas
Big Data y Transformación Digital
Aún no hay calificaciones
Big Data y Transformación Digital
21 páginas
Evidencia 1 de Big Dta
Aún no hay calificaciones
Evidencia 1 de Big Dta
17 páginas
Big Data y su Impacto en Negocios
Aún no hay calificaciones
Big Data y su Impacto en Negocios
11 páginas
Big Data: Atributos y Evolución
Aún no hay calificaciones
Big Data: Atributos y Evolución
31 páginas
Big Data Analytics Oportunidades Retos PDF
Aún no hay calificaciones
Big Data Analytics Oportunidades Retos PDF
20 páginas
Mapa Mental Big Data
Aún no hay calificaciones
Mapa Mental Big Data
1 página
Arquitectura Lambda en Big Data
Aún no hay calificaciones
Arquitectura Lambda en Big Data
15 páginas
Introducción a Hadoop y Big Data
100% (2)
Introducción a Hadoop y Big Data
58 páginas
Introducción a Big Data y su evolución
Aún no hay calificaciones
Introducción a Big Data y su evolución
9 páginas
Big Data Mining: Retos y Técnicas Clave
Aún no hay calificaciones
Big Data Mining: Retos y Técnicas Clave
3 páginas
LEC2-NVL-1Anahi Citlali Diaz Reyes2
Aún no hay calificaciones
LEC2-NVL-1Anahi Citlali Diaz Reyes2
3 páginas
Big Data en Negocios: Herramientas y Beneficios
Aún no hay calificaciones
Big Data en Negocios: Herramientas y Beneficios
20 páginas
Introducción al Big Data y su Impacto
Aún no hay calificaciones
Introducción al Big Data y su Impacto
18 páginas
Introducción al Big Data y sus Aplicaciones
Aún no hay calificaciones
Introducción al Big Data y sus Aplicaciones
23 páginas
Guía Básica de Excel: Funciones y Formatos
Aún no hay calificaciones
Guía Básica de Excel: Funciones y Formatos
29 páginas
CLASE 04 - ANÁLISIS ESTADÍSTICO v2
Aún no hay calificaciones
CLASE 04 - ANÁLISIS ESTADÍSTICO v2
20 páginas
Clase 03 - Gobernanza de Datos
100% (1)
Clase 03 - Gobernanza de Datos
22 páginas
Análisis y Big Data: Guía Completa
Aún no hay calificaciones
Análisis y Big Data: Guía Completa
25 páginas
Proyectos de Investigación en el Colombo Alemán
100% (1)
Proyectos de Investigación en el Colombo Alemán
22 páginas
Tecnologias en La Inteligencia Artificial para El Marketing
Aún no hay calificaciones
Tecnologias en La Inteligencia Artificial para El Marketing
12 páginas
Big Data en Políticas Públicas: Programa Formativo
Aún no hay calificaciones
Big Data en Políticas Públicas: Programa Formativo
13 páginas
Guía de Aprendizaje Unidad 6 - Visualización de Datos
Aún no hay calificaciones
Guía de Aprendizaje Unidad 6 - Visualización de Datos
3 páginas
Anticipacion Estrategica y Gestion de Ri PDF
Aún no hay calificaciones
Anticipacion Estrategica y Gestion de Ri PDF
18 páginas
Big Data: Soluciones para Empresas
Aún no hay calificaciones
Big Data: Soluciones para Empresas
2 páginas
Tus Primeros Pasos en La Ciencia de Datos
100% (1)
Tus Primeros Pasos en La Ciencia de Datos
26 páginas
Estrategia Digital: Superando la Inercia
Aún no hay calificaciones
Estrategia Digital: Superando la Inercia
15 páginas
Normas y Uso de GEOINT en Operaciones
Aún no hay calificaciones
Normas y Uso de GEOINT en Operaciones
56 páginas
3.3. Las 7V Del Big Data
Aún no hay calificaciones
3.3. Las 7V Del Big Data
4 páginas
MUI40 - BDA - PER1823 - Tema 02 - Análisis de Datos
Aún no hay calificaciones
MUI40 - BDA - PER1823 - Tema 02 - Análisis de Datos
43 páginas
Tabares Hernandez 2014-Big Data Analytics FINAL-with-cover-page-v2
Aún no hay calificaciones
Tabares Hernandez 2014-Big Data Analytics FINAL-with-cover-page-v2
21 páginas
Introducción A La Analítica de Datos
Aún no hay calificaciones
Introducción A La Analítica de Datos
7 páginas
Conceptos y Principios Acerca de Configuración Se Servicios. GA10 220501097-AA4-EV01
100% (3)
Conceptos y Principios Acerca de Configuración Se Servicios. GA10 220501097-AA4-EV01
5 páginas
Análisis de Video - Amazon - Jeff Bezos y La Colección de Datos
100% (1)
Análisis de Video - Amazon - Jeff Bezos y La Colección de Datos
7 páginas
Mario Alberto Villaseñor Orozco
Aún no hay calificaciones
Mario Alberto Villaseñor Orozco
61 páginas
Memoria Anual Securitas 2017
Aún no hay calificaciones
Memoria Anual Securitas 2017
29 páginas
Impacto de TIC en la Gestión Tecnológica
Aún no hay calificaciones
Impacto de TIC en la Gestión Tecnológica
13 páginas
Postverdad y Geopolítica Actual
Aún no hay calificaciones
Postverdad y Geopolítica Actual
35 páginas
Evolución Contable y Big Data
Aún no hay calificaciones
Evolución Contable y Big Data
25 páginas
Historia y Evolución de La Balística Forense
Aún no hay calificaciones
Historia y Evolución de La Balística Forense
3 páginas
Tendencias Logísticas 2020 Que No Te Puedes Perder: Expertos en La Gestión Del Transporte
Aún no hay calificaciones
Tendencias Logísticas 2020 Que No Te Puedes Perder: Expertos en La Gestión Del Transporte
6 páginas
Taf Perfil Del Analista de Conflictos Sociales para La Toma de Decisiones Final
Aún no hay calificaciones
Taf Perfil Del Analista de Conflictos Sociales para La Toma de Decisiones Final
99 páginas
Definiciones Clave en Marketing y SEO
Aún no hay calificaciones
Definiciones Clave en Marketing y SEO
7 páginas
Tarea Pentaho
Aún no hay calificaciones
Tarea Pentaho
6 páginas
Informe de Mantenimiento Predictivo en SENATI
Aún no hay calificaciones
Informe de Mantenimiento Predictivo en SENATI
11 páginas
Informe sobre Big Data y sus dimensiones
Aún no hay calificaciones
Informe sobre Big Data y sus dimensiones
3 páginas
Tarea Actividad 02 Grupal Seguridad Sistemas v2
Aún no hay calificaciones
Tarea Actividad 02 Grupal Seguridad Sistemas v2
19 páginas
Evolución de la Industria Manufacturera en México
Aún no hay calificaciones
Evolución de la Industria Manufacturera en México
8 páginas