Está en la página 1de 17

“Año del Fortalecimiento de la Soberanía Nacional”

“Año del Fortalecimiento de la Soberanía Nacional”

“Año del Fortalecimiento de la Soberanía Nacional”


UD Big Data aplicada a los negocios

Índice:

Contenido
Introducción: 2
1. Marco Teórico: 3
2. Descripción de herramientas: 4
3. Comparativa de herramientas de Big Data: 5
4. Ventajas de las herramientas de Big Data: 7
5. Beneficios de las herramientas de Big Data: 9
6. Usos de las herramientas de Big Data: 11
7. Conclusiones: 12
8. Referencias bibliográficas: 13
Bibliografía 13

1
UD Big Data aplicada a los negocios

Introducción:
En el presente informe daremos a conocer lo que son las herramientas del Big Data
y como se aplican, identificando la necesidad por la que es necesaria analizarla,
señalando los pasos clave para lograrlo, argumentar buenas recomendaciones
basadas en presentaciones de datos y apoyar la competitividad, así mismo como
equipo reflejar en nuestro informe la capacidad de aprendizaje que tenemos con el
apoyo formativo de nuestro docente.

2
UD Big Data aplicada a los negocios

1. Marco Teórico:
Descripción de los pasos la metodología de procesamiento de datos
a. Recopilación de datos:
El procesamiento y análisis de datos parte recopilando los datos de las fuentes
de almacenamiento que estén disponibles y que contengan información de
calidad. Por lo que deberán estar en óptimas condiciones y actualizadas.
b. Preparación de datos:
En este punto comienza la preparación para su organización, la detección de
errores y el descarte de información repetitiva e incompleta. De este modo,
pasa a seleccionar la información necesaria y puntual con la que se trabajará
para el procesamiento y análisis de datos.
c. Introducción de datos:
En este paso los datos en bruto comienzan a tomar forma como información
útil, que podrá visualizarse.
d. Procesamiento y limpieza de datos:
En esta etapa, los datos procesados por la etapa anterior son finalmente
preparados y optimizados para su uso final. Esto ocurre a través de algoritmos
por medio de una técnica de programación denominada machine learning.
e. Interpretación de datos:
En este punto será cuando finalmente tendrás todo el resultado de las etapas
previas. De una forma totalmente entendible para ti y los miembros que la
requieran.
f. Almacenamiento de datos:
Finalmente, queda la última etapa de este proceso que consiste en el
almacenamiento de toda esta información útil resultante del procesamiento y
análisis de datos. (Group, 2020)

3
UD Big Data aplicada a los negocios

2. Descripción de herramientas:
Descripción de herramientas analíticas de Big data.
● Python:
“Python es un lenguaje de programación que cumple con lo planteado y se
viene perfilando como una opción recomendada para el desarrollo de software
libre.” (Challenger-Pérez, Díaz-Ricardo, & Becerra-García, 2014)
● Lenguaje R:
R es un entorno de software libre (licencia GNU GLP) y lenguaje de
programación interpretado, es decir, ejecuta las instrucciones directamente,
sin una previa compilación del programa a instrucciones en lenguaje máquina.
El término entorno, en R, se refiere a un sistema totalmente planificado y
coherente. (Rioja, 2019)
● Hadoop:
Es un framework opensource para almacenar datos y ejecutar aplicaciones en
clusters de hardware básicos. Proporciona un almacenamiento masivo para
cualquier tipo de datos, un enorme poder de procesamiento y la capacidad de
manejar tareas o trabajos prácticamente ilimitados. Esto básicamente y de
forma muy concreta. (Data P. , ¿Qué es Big Data Hadoop y para qué sirve?,
2017)
● Apache spark:
Es un framework de programación para procesamiento de datos
distribuidos diseñado para ser rápido y de propósito general. Como su propio
nombre indica, ha sido desarrollada en el marco del proyecto Apache, lo que
garantiza su licencia Open Source. (ESIC, 2018)
● Apache storm:
Es un sistema utilizado para procesar datos en tiempo real. Es de fuente
abierta y gratuita. Este gran sistema facilita el procesamiento de flujos
ilimitados de datos. Además, su uso resulta muy simple, y puede ser utilizado
con cualquier lenguaje de programación. (Data E. E., 2018)

4
UD Big Data aplicada a los negocios

3. Comparativa de herramientas de Big Data:

PYTHON LENGUAJE R

Es fácil de usar para los principiantes. Tiene muchos idiomas

Facilita trabajar con big data, machine learning R no ofrece un desarrollo de software de propósito
y data science. general como Python.
Python es más sencilla ya que utiliza una R ofrece una especialización para el análisis de big
sintaxis más cercana al inglés escrito para data, pero no para el desarrollo web de propósito
ejecutar los comandos. general.
Es uno de los lenguajes de programación más R es un tema que vas descubriendo poco a poco,
demandados en el mundo laboral. este no tiene fin.
Trabaja en la ciencia de datos orientada al Esta construido para las estadísticas.
negocio.
(edX, 2021)

HADOOP APACHE SPARK

Es un framework de código abierto que Es un motor unificado de analíticas para procesar


permite usar modelos sencillos de datos gran escala que integra módulos para SQL,
programación para almacenar y procesar de (streaming, aprendizaje automático y procesamiento
forma distribuida grandes conjuntos de datos de grafos.
de distintos clústeres de ordenadores
Se usa en multitudes de empresas como Esta especialmente diseñado para su
plataforma central de sus Date Lakes (lago de implementación de Big Data y machine learning.
datos).
Es posible integrar otros sistemas con él, como Es más avanzado que Hadoop, por su diseño de
por ejemplo el Big Data de Amazon a través de trabajo.
los servicios de análisis de datos de AWS.
Permite escalar el sistema según crece el Es usado por grandes empresas para el
volumen de datos recibidos, puesto que, para almacenamiento y análisis de datos, ya que tiene
procesar más datos, solo es necesario agregar una rápida velocidad.
más nodos a la estructura.
Operar a través de diferentes nodos es que, si Está diseñado desde cero para ser fácil de instalar y
uno falla, ni la estructura ni los datos se ven utilizar para personas que tienen mínimo de
comprometidos, puesto sus tareas pasan a otro experiencia en informática. (Cloud, 2007)
de los nodos. (Ayudaley, s.f.)

5
UD Big Data aplicada a los negocios

APACHE STORM ELACTICSEARCH

Es una fuente abierta y gratuita, también se Permite guardar todo tipo de datos.
puede utilizar en cualquier lenguaje de
programación.
Cuenta con tres nodos: Es un motor de búsqueda y análisis de datos a la
- Nodo Nimbos ves es de código abierto, y es muy veloz.
- Nodo Zookeerper
- Nodo de supervisor
Es un sistema muy rápido, es capaz de Elacticsearch se puede conectar con Javascript,
procesar más de un millón de registros por Java, Go, PHP, NET, Python, API, etc.
segundo por nodo en un clúster de modesto
tamaño.
Se puede utilizar para analizar flujos en Elasticsearch utiliza Query DSL (Lenguaje de
tiempo real, realizar tareas de aprendizaje dominio específico) para realizar las consultas a
automático, etc. los documentos indexados.
Storm se compara con la plataforma Elacticsearch forma parte de los sistemas de
Hadoop, y la diferencia clave es que los datos gestión de eventos e información de seguridad,
no se colocan en el repositorio, sino que se específicamente en la plataforma ELK
reciben desde el exterior y se procesan en (Elacticsearch, long Stash, Kibana).
tiempo real. (Net, s.f.) También acepta de manera nativa otras
herramientas de visualización y exploración
pudiéndose utilizar Grafama y Kibana para tales
propósitos. (CUERVO, 2019)

6
UD Big Data aplicada a los negocios

4. Ventajas de las herramientas de Big Data:


● Python:

✔ Lenguaje de alto nivel, se pueden usar elementos del lenguaje natural, ya

que tiene una sintaxis similar al inglés, por lo que es fácil de leer, escribir
y aprender.

✔ Se le considera un lenguaje de paradigmas múltiples, que admite

programación estructurada, funcional y orientada a objetos.

✔ La biblioteca estándar de Python es muy extensa, puesto que contiene

muchos módulos integrados.

✔ Python es un lenguaje de programación desarrollado bajo la licencia de

código abierto aprobada por OSI, todos pueden usarlo y distribuirlo


libremente. (KeepCoding, 2022)

● Lenguaje R:

✔ Acumula, en un único programa, todo lo necesario para analizar los datos

con eficacia. Las diversas herramientas de medición de datos y de


realización de estadísticas se convierten en imprescindibles para ahorrar
tiempo y esfuerzo.

✔ Incluye modelos lineales y no lineales usados en el sector de la estadística.

Es idóneo para la clasificación y el agrupamiento de los datos, facilitando


así su posterior interpretación.

✔ Los diversos operadores permiten realizar cálculos con matrices más

rápidamente.

✔ La inclusión de gráficos permite el análisis de la información generada en

menos tiempo. (IMF, 2020)

● Hadoop:

7
UD Big Data aplicada a los negocios

✔ Los desarrolladores no tienen que enfrentar los problemas de la

programación en paralelo.

✔ Permite distribuir la información en múltiples nodos y ejecutar los

procesos en paralelo.

✔ Dispone de mecanismos para la monitorización de los datos.

✔ Permite la realización de consultas de datos.

✔ Dispone de múltiples funcionalidades para facilitar el tratamiento,

seguimiento y control de la información que se almacenada. (UNIR, 2020)

● Apache Spark:

✔ Una plataforma de código abierto con una comunidad activa, una de las

propiedades más interesantes de una solución de código abierto es la


actividad de su comunidad. Es la comunidad de desarrolladores la que
mejora las características de la plataforma, y ayuda al resto de
programadores a implementar soluciones o resolver problemas.

✔ Permite a los programadores realizar operaciones sobre un gran volumen

de datos en clústeres de forma rápida y con tolerancia a fallos. Cuando


tenemos que manejar algoritmos, trabajar en memoria y no en disco
mejora el rendimiento

✔ Agiliza mucho el funcionamiento y el mantenimiento de sus soluciones,

Es una plataforma de plataformas. Un ‘todo en uno’ (API_Market, 2015)

● Apache Storm:

✔ Se integra con sistemas de colas como Kestrel, RabbitMQ/AMQP, Kafka,

JMS o Amazon Kinesis y los sistemas de bases de datos.

✔ Proporciona un API simple y fácil de usar.

8
UD Big Data aplicada a los negocios

✔ Escalable

✔ Tolerante a fallos

✔ Fácil de configurar e implementar

✔ Programable en diferentes lenguajes como: Ruby, Python, Javascript o

Perl.

✔ Garantiza que una tupla se procese completamente. (Calvo, 2018)

9
UD Big Data aplicada a los negocios

5. Beneficios de las herramientas de Big Data:


● Python:

✔ Cuenta con una amplia colección de biblioteca con variedad de módulos

integrados.

✔ Tiene una excelente portabilidad porque es compatible para todos los

sistemas operativos.

✔ Se utiliza gratuitamente contando con un código abierto, así puede

desarrollarse libremente.

✔ Python admite varios paradigmas de programación

✔ Software impulsado por IA. (Maria, 2022)

● Lenguaje R:

✔ R automatiza mejor en muchas operaciones y es muy rápido calculando.

✔ Tiene la ventaja de cambiar el código y la interfaz como se desee,

pudiendo aportar a otros usuarios libremente.

✔ R es más preciso en los análisis estadísticos.

✔ R es resolutivo y eficaz preparando datos.

✔ Es capaz de leer prácticamente cualquier tipo de datos, con diversos

paquetes extras.

✔ R puede absorber grandes volúmenes de datos de fuentes como Hadoop.

✔ Tiene increíbles gráficos. Gráficos tridimensionales, de tallo, Boxplot, de

puntos, circulares, histogramas, de dispersión, de independencia. (Arles,


2021)

10
UD Big Data aplicada a los negocios

● Hadoop:

✔ Su tecnología es altamente escalable

✔ Cuenta con un almacenamiento de bajo costo

✔ Su flexibilidad es muy eficaz

✔ Ejecuta un proceso y análisis de manera rápida

✔ Se puede recuperar datos en casos de fallos o pérdidas (Data P. , 2015)

● Apache spark:

✔ Tiene plataforma de código abierto con una comunidad activa

✔ Permite realizar operaciones sobre un gran volumen de datos en clústeres

de forma rápida y con tolerancia a fallos.

✔ Tiene una plataforma de plataformas que agiliza mucho el funcionamiento

y el mantenimiento.

✔ Tiene una consola interactiva que permite analizar los datos de forma

interactiva, con conexión a los clústeres.

✔ Cuenta con un conjunto de APIs facilita a los programadores el desarrollo

de aplicaciones en estas sintaxis. (Api, 2015)

● Apache storm:

✔ Los análisis de referencia procesan un millón de mensajes de 100 bytes

por segundo y por nodo.

11
UD Big Data aplicada a los negocios

✔ Cuando un nodo de trabajo deja de funcionar, Storm lo reinicia

automáticamente

✔ Storm garantiza que cada unidad de datos (tupla) se procese al menos una

vez

✔ Las configuraciones estándar facilitan el uso de Storm. (Cloudera, s.f.)

12
UD Big Data aplicada a los negocios

6. Usos de las herramientas de Big Data:


● Técnicas de machine learning:
El uso principal que se le puede dar al Biga Data en este caso es la
posibilidad de un aprendizaje automático en base a datos en base a datos, así
las propias máquinas desarrollan técnicas de aprendizaje prediciendo patrones
de comporta.
● Mantenimiento en base al análisis predictivo:
La cantidad de datos que se manejan cotidianamente pueden predecir
patrones de comportamiento, así planteando desde ya posibles problemas.
● Desarrollo de nuevos productos:
Se usa la base de datos disponibles de productos actuales y pasados, datos
como el éxito que lograron, cuál fue la demanda de los clientes o en qué año
lo realizaron, con ello las empresas pueden analizar los datos así ser capaces
de desarrollar nuevos productos y predecir cuántas le podría resultar.
Empresas como Netflix y Procter & Gamble fueron pioneros en el uso está
tecnología.
● Experiencia el cliente:
Gracias al Big data se pueden obtener datos de interacción de los usuarios de
distintos canales como las redes sociales, e-mail, web, teléfono así
combinarlos para plantear estrategias y mejorar la experiencia de los usuarios,
ya que es indispensable para la fidelización.
● Control de stock:
Con el análisis de datos se pueden hacer predicciones de las ventas en función
a diferentes factores como; época del año, producción, opinión de los clientes
o devoluciones que se hayan realizado, así plantear posibles escenarios de
problemas con el stock y encontrar soluciones en menos tiempo.
● Prevención de fraude:
Gracias al análisis predictivo se analizan patrones de fraude y ataques
informáticos a las compañías y a las empresas a tiempo para que se pueda
actuar en el momento. (Points, 2021)

13
UD Big Data aplicada a los negocios

7. Conclusiones:

▪ A partir de esta investigación llegamos a la conclusión de que el uso de


herramientas tecnologías en Big data cumplen un rol muy importante porque
permite que el análisis de los datos sea ordenado, que las estadísticas sean
específicas, y lo más importante que todo se trabaja en tiempo real, de este modo
nos ayuda a evitar fallas, así mismo las futuras decisiones serán mucho mas
claras ante en beneficio y crecimiento de la empresa.

▪ El Big Data cuenta con las herramientas que para muchas empresas es la
oportunidad o la puerta del avance que buscan, ya que así pueden explotar todos
los datos internos y externos.

▪ Las herramientas que nos ofrecen una mejor calidad y eficacia a comparación de
las herramientas como EXCEL, para ello debemos estar preparados y aptos para
poder usarlo, de esa manera nuestra mentalidad se amplia potenciando nuestros
conocimientos, esto nos incentiva a querer aprender más de las tecnologías y
dándolo un buen eso, se podría decir que, estudiar todas las herramientas del Big
data es una inversión y no un gasto.

14
UD Big Data aplicada a los negocios

8. Referencias bibliográficas:

Bibliografía:
(s.f.).
(s.f.).
Api, M. (25 de Septiembre de 2015). Apache spark: las ventajas de al nuevo rey de big
data. Bbva Api_Msrket. . Obtenido de
https://www.bbvaapimarket.com/es/mundo-api/apache-spark-las-ventajas-de-us
ar-al-nuevo-rey-de-big-data/.
API_Market, B. (25 de Setiembre de 2015). Apache Spark: las ventajas de usar al
nuevo ‘rey’ de Big Data. Obtenido de
https://www.bbvaapimarket.com/es/mundo-api/apache-spark-las-ventajas-de-us
ar-al-nuevo-rey-de-big-data/
Arles, G. (16 de Septiembre de 2021). Lenguaje de programación R. vs Excel: ventajas
y desventajas. Obtenido de
https://www.integratecnologia.es/la-innovacion-necesaria/lenguaje-de-programa
cion-r-vs-excel-ventajas-y-desventajas/#:~:text=Tratamiento%20de%20datos%
3A%20R%20permite,preparaci%C3%B3n%20de%20datos%20que%20Excel.
Ayudaley. (s.f.). ¿Qué es Hadoop y para qué sirve en Big Data? Obtenido de
https://ayudaleyprotecciondatos.es/big-data/hadoop/
Calvo, D. (05 de Julio de 2018). Storm. Obtenido de https://www.diegocalvo.es/storm/
Challenger-Pérez, I., Díaz-Ricardo, Y., & Becerra-García, R. A. (2014). Ciencias
Holguín. El lenguaje de programación Python , 1. Obtenido de
https://www.redalyc.org/pdf/1815/181531232001.pdf
Cloud, G. (2007). ¿Qué es Apache Spark? Obtenido de
https://cloud.google.com/learn/what-is-apache-spark?hl=es
Cloudera. (s.f.). Finalidad de storm, s.f. . Obtenido de
https://es.cloudera.com/products/open-source/apache-hadoop/apache-storm.ht
ml
CUERVO, V. (26 de Febrero de 2019). EN ELASTICSEARCH. Obtenido de
https://www.arquitectoit.com/elasticsearch/que-es-elasticsearch/
Data, E. E. (06 de Marzo de 2018). Herramientas de Big data. Obtenido de
https://expertoenbigdata.com/apache-storm/
Data, P. (16 de Febrero de 2015). 5 ventajas de la arquitectura de Hadoop. Obtenido
de
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402826/5-ventajas
-de-la-arquitectura-de-Hadoop.
Data, P. (27 de Enero de 2017). ¿Qué es Big Data Hadoop y para qué sirve? Obtenido
de
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/que-es-big-data-hado
op-y-para-que-sirve
edX, E. d. (25 de Mayo de 2021). R vs. Python para la ciencia de datos. Obtenido de
https://blog.edx.org/es/r-vs-python-para-la-ciencia-de-datos-explicacion-y-conse
jos-de-aprendizaje#:~:text=R%20no%20ofrece%20un%20desarrollo,CRAN%20
(Comprehensive%20R%20Archive%20Network)

15
UD Big Data aplicada a los negocios

ESIC. (Octubre de 2018). Apache Spark: Introducción, qué es y cómo funciona.


Obtenido de
https://www.esic.edu/rethink/tecnologia/apache-spark-introduccion-que-es-y-co
mo-funciona
EXW, J. (s.f.). Power Query: ¿Qué es y por qué tenemos que empezar a utilizarlo?
Obtenido de
https://es.justexw.com/power-query-que-es-y-por-que-tenemos-que-empezar-a-
utilizarlo.html
Group, b. B. (30 de Marzo de 2020). Las 6 etapas del procesamiento y análisis de
datos. Obtenido de
https://www.bantugroup.com/blog/etapas-del-procesamiento-y-analisis-de-datos
IMF, T. B. (Julio de 2020). Ventajas y desventajas del lenguaje R. Obtenido de
https://blogs.imf-formacion.com/blog/tecnologia/ventajas-y-desventajas-del-leng
uaje-r-202007/
KeepCoding, R. (12 de Setiembre de 2022). Ventajas y Desventajas de Python.
Obtenido de https://keepcoding.io/blog/ventajas-y-desventajas-de-python/
Maria, V. (13 de Julio de 2022). Beneficios a desarrollar con Python Reclu. Obtenido
de https://recluit.com/beneficios-al-desarrollar-con-python/#.YyOfyHbMJPb
Net, B. D. (s.f.). Apache Storm un sistema de procesamiento de datos en tiempo real.
Obtenido de
https://blog.desdelinux.net/apache-storm-un-sistema-de-procesamiento-de-dato
s-en-tiempo-real/?utm_source=dlvr.it&utm_medium=facebook
Points, T. (2021). Usos del Big Data en las empresas. Obtenido de
https://www.threepoints.com/politica-de-privacidad
Rioja, U. -U. (29 de Noviembre de 2019). Lenguaje R, ¿qué es y por qué es tan usado
en Big Data? Obtenido de
https://www.unir.net/ingenieria/revista/lenguaje-r-big-data/
UNIR. (15 de Enero de 2020). Hadoop: qué es y para qué se utiliza. Obtenido de
https://www.unir.net/ingenieria/revista/que-es-hadoop/#:~:text=Ventajas%20de
%20utilizar%20Hadoop&text=%E2%80%93Los%20desarrolladores%20no%20t
ienen%20que,realizaci%C3%B3n%20de%20consultas%20de%20datos.

16

También podría gustarte