GRUPO 8 - Evaluacion 1

1
“DOCENTE Y PARTICIPANTES DEL INFORME”
DOCENTE: ROBERTO RICHARD LORENZO ROMERO
CURSO: BIG DATA APLICADA A LOS NEGOCIOS
INTEGRANTES:
 Huachaca Cáceres Estefanny
 Lizana de la Cruz, Xiomara
 Llashag Sarmiento Adriana
 Quispe Yupanqui Eduardo
 Ventura Chozo Mayte
 Vidaurre Valdera Edith
CICLO: lll ciclo
FECHA:
2023
3
INDICE
INTRODUCCION........................................................................4
5. MARCO TEORICO..................................................................5
5.A. INTERPRETACIÓN DE DATOS:.............................................6
5.B. DESCRIPCIÓN DE MANERA GENERAL DE LAS
HERRAMIENTAS O TECNOLOGÍAS ANALÍTICA............................6
6. DESCRIPCIÓN DE HERRAMIENTAS.........................................6
7. USOS DE LAS HERRAMIENTAS DE BIG DATA..........................7
8. COMPARATIVO DE HERRAMIENTAS BIG DATA......................8
9. VENTAJAS DE LAS HERRAMIENTAS DE BIG DATA...................9
10. BENEFICIOS DE LAS HERRAMIENTAS DE BIG DATA.............11
11. CONCLUSIONES.................................................................13
12. REFERENCIAS BIBLIOGRAFICAS..........................................14
4
4. INTRODUCCION
En este caso estamos realizando la investigación; acerca

del tema del BIG DATA que es un término que describe el
gran volumen de datos lo que hace que sea tan útil para
muchas ya que proporciona respuestas a muchas
preguntas que las empresas ni siquiera sabían que tenían.
En otras palabras, proporciona un punto de referencia
con una cantidad tan grande de información, los datos
pueden ser moldeados o probados de cualquier manera
que la empresa considere adecuada y de como también
este tema influye en lo laboral y se transforman los
procesos de negocio de una empresa, en la cual es un
elemento clave para que las compañías logren mejorar su
competitividad y establezcan su liderazgo ante sus pares.
Pero ¿Cómo es que su aplicación ha ayudado a crear
nuevas oportunidades de negocio y empleo? A
continuación, lo hablaremos en este trabajo, como grupo
enfocarnos y explicar los pasos de procesamiento de
datos, el Big Data, sus herramientas y el uso de cada una
de ellas.
5
5. MARCO TEORICO
El procesamiento de los datos se refiere a todo el proceso que sigue un investigador
desde la recolección de datos, hasta la presentación de los mismos en forma resumida.
A continuación, la explicación de los pasos de la metodología de procesamiento de
datos:
 Recopilación de datos:
La recolección de datos es el proceso de recopilación y medición de información sobre
variables establecidas de una manera sistemática, que permita obtener respuestas
relevantes, probar hipótesis y evaluar resultados. La recolección de datos en el proceso
de investigación es común a todos los campos de estudio.
 Preparación de datos:
La preparación de datos, también conocida como “preprocesamiento”, es el acto de
limpiar y consolidar los datos sin procesar antes de utilizarlos para realizar un análisis
de negocio.
 Procesamiento y limpieza de datos:
El proceso de limpieza de datos consiste en varios pasos para identificar y corregir
entradas de problemas. El primer paso es analizar los datos para identificar errores.
Esto puede suponer el uso de herramientas de análisis cualitativo que usen reglas,
patrones y límites para identificar valores no válidos.
5.A. Interpretación de datos:

La interpretación de datos es un proceso consistente en la inspección, limpieza y
transformación de datos, con el fin de extraer información de utilidad para derivar en
unas conclusiones concretas que permitan esclarecer la toma de decisiones.
5.B. Descripción de manera general de las

herramientas o tecnologías analítica.
Cuando se habla del Big data nos referimos a conjuntos de datos o combinaciones de
conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis
mediante tecnologías tales como Data Mining, Artificial Intelligence, Machine Learning
o Deep Learning y herramientas convencionales, Python, R, Hadoop, Apache Spark,
Apache Storm o Elasticsearch, entre otros, que se usan para tratar Big data y gestionar
las grandes cantidades de información que se generan en tu compañía y para tomar
decisiones en torno a estos datos.
6
6. Descripción de herramientas
Las herramientas big data son todos los software y aplicaciones que permiten a las
empresas maximizar el valor de sus grandes datos y que permiten extraer valor de los
datos es contar con el talento de profesionales capacitados para aprovechar todas las
oportunidades que brindan a la organización. Existen muchos tipos de herramientas
big data y cada uno de ellos da cobertura a una necesidad diferente del negocio en
relación con la gestión, el análisis o el gobierno de sus activos informacionales.
PODEMOS ENCONTRAR:
 Apache Hadoop: Es el software para Big Data más usado. De hecho, lo usan
grandes empresas como Facebook o The New York Times. Este framework
permite el procesamiento de grandes volúmenes de datos en lote empleando
modelos de programación simples. Además, es escalable, así que es posible
pasar de operar en un único servidor a hacerlo en muchos.
 Apache Spark: es hasta cien veces más veloz que Apache Hadoop. Así, este
software permite analizar datos por lotes en tiempo real, además de crear
aplicaciones en diversos lenguajes como Java, Python, R o Scala, entre otros.
 Apache Storm: es una herramienta open Source que se puede emplear con
cualquier lenguaje de programación y que procesa fácilmente y en tiempo real
un sinfín de datos. Además, el sistema crea topologías de los macro datos para
convertirlos y analizarlos continuamente a la vez que los flujos de información
entran al sistema constantemente.
 LENGUAJE R: es un entorno y lenguaje de programación dirigido al análisis
estadístico muy similar al lenguaje matemático. Sin embargo, también se usa
para análisis de grandes cantidades de datos. Puesto que hay una amplia
comunidad de usuarios, existen numerosas librerías. Muchos estadistas y data
miners lo utilizan
 Python: se puede utilizar con unos conocimientos mínimos de informática,

por lo que no es de extrañar que cuente con una gran cantidad de usuarios que
pueden crear sus propias librerías. No obstante, una pega de sus pegas es su
velocidad porque es bastante más lenta que sus rivales.
 Elasticsearch: Esta herramienta permite el procesamiento de grandes

cantidades de datos y ver la evolución de éstos en tiempo real. Además,
proporciona gráficos que ayudan a comprender con más facilidad la
información obtenida.
7
7. Usos de las herramientas de Big Data

Las organizaciones que usan la herramienta de Big data son también
empresas muy reconocidas como:
 Netflix: que utilizó de manera inteligente los datos que habían

recopilado sobre el comportamiento de sus clientes para saber qué tipo
de contenido preferían ver. Así, al analizar más de 3 millones de
búsquedas, 4 millones de calificaciones hechas por suscriptores y 30
millones de reproducciones diarias, fueron capaces de desarrollar
auténticos éxitos aclamados por la crítica y los usuarios, como House of
Cards y Arrested Development.
 Uber: resolver la brecha entre la oferta y la demanda de conductores
en un área específica. Por suerte, gracias al análisis predictivo, la
compañía puede analizar datos históricos y métricas clave que incluyen
la hora, el día, la cantidad de viajes que se solicitan y que se completan
en diferentes zonas de una ciudad.
 Amazon: Un tipo de compañía que suele utilizar muy bien la cultura
Data-Driven es un e-commerce. Y Amazon es el referente de esta
industria, ya que utiliza los datos recopilados para personalizar la cuenta
de sus usuarios, ofreciéndole todo tipo de productos que se puedan
adaptar a sus necesidades y gustos (de forma muy similar a los que está
haciendo Netflix). El análisis permite a UBER saber qué áreas tienen
escasez de oferta, y, de esta forma, poder informar a los conductores
para que se movilicen anticipadamente y así aprovechar el aumento en
la demanda.
 Google: Si hay una compañía que sabe que debe hacer con la
información y aplica la cultura Data-Driven a la perfección, esa es
Google. Demás está decir por qué afirmamos esto. El buscador más
popular del mundo tiene acceso a una gran cantidad de información de
personas de todo el mundo, gestionando toda la información y
ofreciéndola a sus usuarios en cuestión de segundos.
 BBVA: Consiguió la forma de enfocar el análisis de datos desde una
perspectiva diferente. Principalmente, esta empresa enfoca sus
decisiones empresariales basadas en los datos, incluyendo los proyectos
internos y la experiencia que le ofrecen a los usuarios. Esto lo
evidencian sus clientes, ya que su experiencia con el banco está
condicionada por el Data-Driven.
8
8. Comparativo de herramientas Big Data.
Apache Hadoop: PYTHON

-Es un framework gratuito y de código -Es bastante sencilla de comprender
abierto que permite procesar grandes -Ejecuta directamente el código línea por
volúmenes de datos. línea.
-Es escalable, por lo que puede pasar de -Cuenta con una biblioteca enorme
operar en un sólo servidor a hacerlo en -Esta herramienta es la velocidad, ya que es
múltiples. notablemente más lenta que sus
-Sistema con un alto nivel de seguridad competidoras.
usando servidores HTTP.
APACHE SPARK: APACHE STORM:

-Paraleliza el cálculo de datos. -Paraleliza el cálculo de tareas
-Es un marco de análisis de propósito -Es un marco de procesamiento de flujo en
general para datos a gran escala. tiempo real
-Proporciona API de transmisión de alto -Storm tiene una función multilingüe: Java,
nivel para los siguientes idiomas: Java, Clausura y Scala
Scala y Pitón -Opera en secuencias de tuplas, mientras
-El flujo continuo de datos se divide en que Trident opera en lotes y particiones de
flujos discretos (DStreams), una secuencia tuplas
de bases de datos distribuidas resistentes
(RDD).
LENGUAJE R ELASTICSEARCH
-Dispone de una amplia variedad de -Un poco más joven y no cuenta con el
técnicas estadísticas (modelos lineales y no respaldo de la experimentada comunidad
lineales, pruebas estadísticas clásicas, de Apache
análisis de series de tiempo, clasificación, -es popular por su manejo de datos
agrupamiento, etc.) y gráficas. dinámicos: gracias a un procedimiento
-Funciona en plataformas UNIX y sistemas especial de almacenamiento en caché
similares (incluidos FreeBSD y Linux),
Windows y MacOS.
9
9. Ventajas de las herramientas de Big Data
9.1. Ventajas de las herramientas de Big Data

 Ahorro de tiempo y esfuerzo: Si a estas empresas les añadimos la
digitalización de la información, ese porcentaje se reduce enormemente,
y si, les añadimos Big Data, pasará a reducirse a prácticamente un 0-1%,
ya que la información buscada se podrá obtener en cuestión de
segundos.
 Aumento del rendimiento empresarial: Big Data permite acelerar y
solventar cualquier proceso y cualquier incidencia empresarial. Por
ejemplo, si un empleado se pone enfermo, quien le sustituya no podrá
cubrir su puesto de forma eficiente si no dispone de una forma
 Aumento del rendimiento empresarial: Big Data permite acelerar y
solventar cualquier proceso y cualquier incidencia empresarial. Por
ejemplo, si un empleado se pone enfermo, quien le sustituya no podrá
cubrir su puesto de forma eficiente si no dispone de una forma de
encontrar enseguida la información que necesita para el trabajo, algo a lo
que las herramientas Big Data contribuyen.
 Segmentación más acertada del público objetivo: Debido a que Big Data
permite realizar un análisis completo de todas las variables del público
objetivo y mostrar los resultados que buscamos de forma casi inmediata.
 Mejora de la toma de decisiones: Una toma sabía de decisiones se basa
en conocer todas las variables que influyen en ella y encontrar la forma
en la que, combinadas, mejor funcionan. Las herramientas Big Data
ayudan muchísimo a conseguir esto, debido a que pueden mostrar todas
las variables combinadas de la forma que deseemos.
 Desarrollo de nuevos productos y servicios: Big Data aporta información
en investigación, desarrollo, innovación y otros campos imprescindibles
en el desarrollo de nuevos productos y servicios.
9.2. VENTAJAS DE CADA HERRAMIENTA INVESTIGADA
APACHE HADOOP:
 Hadoop tiene una alta confiabilidad de almacenamiento de bits y
capacidades de procesamiento de datos.
 Hadoop distribuye datos a través de los clústeres de computadoras
disponibles para completar las tareas de almacenamiento y cálculo.
 La velocidad de procesamiento es muy rápida y altamente eficiente.
10
 Hadoop puede guardar automáticamente múltiples copias de datos

y puede redistribuir automáticamente las tareas fallidas, con alta
tolerancia a fallas.
APACHE SPARK:
 Consulta de datos en tiempo real.
 Gran escalabilidad del sistema
 Emplea estructura de datos Inverted Índex lo que ofrece mayor
rapidez en las consultas.
 Ofrece distribución de los datos en diferentes servidores y No
requiere un esquema predefinido de datos
APACHE STORM:
 Crea topologías de los macro datos para transformarlos y analizarlos
de manera continua, sin dejar de recibir información
continuamente.
 Fácil de usar: las configuraciones estándar sirven para la producción
desde el primer momento.
LENGUAJE R:
 Acumula, en un único programa, todo lo necesario para analizar los
datos con eficacia.
 Incluye modelos lineales y no lineales usados en el sector de la
estadística.
 Los diversos operadores permiten realizar cálculos con matrices
más rápidamente.
 El formato LaTeX se amolda a la documentación virtual y física con
enorme facilidad.
 Funciona con sistemas UNIX, Windows y MacOS.
 Fue creado por el R Development Team, pero admite la
colaboración altruista de cualquier usuario que quiera ir mejorando
el lenguaje con aportaciones.
 Su uso es gratuito. Solo el programa en su web oficial.
PYTHON:
 LENGUAJE SENCILLO Y DE GRAN POTENCIAL: Es mucho más
parecido a hablar con otro ser humano, por lo que su aprendizaje es
11
intuitivo, incluso. Esto permite, además, poder sacar provecho a sus

posibilidades, creando programas de todo tipo con gran eficiencia
 BIBLIOTECAS Y FRAMEWORKS: Como ya se conoce, Python, al ser de
código libre y gratuito, permite que una gran comunidad detrás
pueda contribuir en el desarrollo de código y frameworks que
ayudan a otros programadores a crear proyectos. Así, parte de una
base conocida y facilita el desarrollo de otras aplicaciones.
 MULTIPLATAFORMA: Puede ser ejecutado en cualquier sistema
operativo en el cual se opere. Así es: no importa si se trata de
Windows, Linux, macOS, y otros, este se puede ejecutar sin
problema. Y, lo mejor, es que se desarrolla el código una única vez y
podrá emplearse en los demás SO.
ELASTICSEARCH:
 Los datos se almacenan en diferentes sistemas que colaboran entre
sí y nos muestran los resultados que les demandamos en cada
momento en una sola petición.
 Implementan una gran cantidad de funciones, tales como la división
personalizada de texto en palabras, derivación personalizada,
búsqueda personalizada, etc.
 Autocompletado y búsqueda instantánea, tiene una poderosa DSL
basada en JSON, que permite a los equipos de desarrollo construir
consultas complejas y afinarlas para recibir los resultados más
precisos de una búsqueda.
 Ahorro tiempo de análisis y mayor velocidad, acepta documentos
JSON e intenta detectar la estructura de datos, indexar los datos y
hacer que se pueda buscar.
12
10. Beneficios de las herramientas de Big Data
● Mejores decisiones: Las tecnologías Big Data te permiten observar

con nuevos ojos, analizar el comportamiento de los clientes o
incluso evaluar tus productos para tomar decisiones acertadas
reduciendo los riesgos que conlleva dejarse llevar por la intuición. El
hecho de tener acceso a más información nos permite contar con
una visión global y ver a lo grande para abordar los retos del mundo
globalizado.
● Soluciones diferentes: Mediante el análisis de datos diferentes y

variados podemos llegar a soluciones diferentes que no podíamos
plantearnos en un principio. La idea es poder enseñar a un
ordenador a resolver cuestiones por sí mismo a partir de los datos
que le transferimos, con lo cual nos ayudaría a entender el origen
de un problema o a hallar la solución óptima.
● Nuevas oportunidades de negocio: Basar las decisiones de negocio

en la información disponible proporciona sin duda una ventaja
competitiva. Con ellos pueden identificarse oportunidades para
generar negocio y vender anuncios basados en los intereses de cada
usuario. Esto les permite redirigir su estrategia a grupos
determinados de usuarios que personifican el cliente ideal o
potencial.
● Ahorro de costes: Gestionar el alto volumen de datos que supone el

Big Data puede suponer un problema de infraestructura de
almacenamiento, por eso conviene plantearse trabajar con ellos en
un entorno que no ponga límites como la nube, que supone además
un ahorro de costes en hardware. Además, es una mejora en la
accesibilidad y la fluidez de la información para los propios
empleados de la empresa, con lo cual se gana en eficacia, rapidez y
eficiencia.
● Visualización más dinámica de los datos: Las iniciativas Big Data

requieren mejores herramientas de visualización de datos, que
presenten los datos en gráficas, tablas y presentaciones intuitivas.
Estas aplicaciones permiten a los usuarios finales hacer búsquedas y
13
acceder a la información rápidamente, en algunos casos incluso en

tiempo real. Es una gran ventaja para los clientes, que se muestran
muy satisfechos puesto que tienen el control de la información en el
mismo momento en que se está generando.
10. 1. BENEFICIOS DE CADA HERRAMIENTA INVESTIGADA.
 APACHE HADOOP: Capacidad para almacenar toda clase de

datos, Almacenaje escalable a bajo costo, al ser una
herramienta Open Source, Asegura la alta disponibilidad y
recuperación de datos, Exploración y descubrimiento en
DataLakes para formular preguntas nuevas o difíciles sin
restricciones, Plataforma computacional y caja de arena para
analítica avanzada y Extensión Complementaria de un
DataWarehouse.
 APACHE SPARK: Velocidad; puede ejecutar cargas de trabajo

con una rapidez 100 veces mayor a la de MapReduce de
Hadoop, Facilidad de uso; ofrece más de 80 operadores de
alto nivel que facilitan la compilación de apps paralelas,
generalidad; suministra una pila de bibliotecas, incluidas SQL
y DataFrames, MLlib para aprendizaje automático, GraphX y
Spark Streaming e Innovación en framework de código
abierto; está respaldado por comunidades globales unidas
con el objetivo de presentar conceptos y funciones nuevas
con mayor rapidez.
 APACHE STORM: puede usarse para analizar flujos de datos

en tiempo real, realizar tareas de aprendizaje automático,
organizar cálculos continuos, implementar RPC, ETL, etc.
Puede realizar solicitudes continuas y procesar flujos
continuos.
 LENGUAJE R: Es un lenguaje creado específicamente para el
análisis de datos, es de código abierto y no tener restricciones
en cuanto a sistemas operativos, hay una gran cantidad de
usuarios que apoyan este lenguaje, todo esto sumado a una
gran cantidad de recursos que puedes encontrar online y
14
puesto que tiene funciones de automatización. Así mismo,

permite ver estos datos gráficamente para facilitar su
comprensión.
 PYTHON: Es un lenguaje muy amigable: uno de los más

sencillos, es completamente versátil: puede ser usado en
campos diferentes y Está desarrollado bajo una licencia de
código abierto.
 ELASTICSEARCH: ofrece API sencillas basadas en REST, una

interfaz HTTP simple y utiliza documentos JSON sin esquema,
permite procesar grandes volúmenes de datos en paralelo, al
encontrar rápidamente las mejores coincidencias para sus
consultas, Herramientas y complementos gratuito,
Operaciones casi en tiempo real y es compatible con varios
lenguajes como Java, Python, PHP, JavaScript, Node.js, Ruby y
muchos más.
15
11. CONCLUSIONES
En conclusión, como hemos visto este trabajo se ha realizado centrándose

en aquellas herramientas que son accesibles para las PYMES, de forma
que, sus limitaciones de recursos no les impidan gestionar sus datos y
alcanzar ventajas competitivas a través del BI (Business Intelligence) y BD
(Big Data). Las herramientas analizadas han sido Python, Lenguaje R,
Hadoop, Apache Spark, Apache Storm o Elasticsearch. Todo ello, ha
permitido mostrar aplicaciones y técnicas, útiles para la pequeña y
mediana empresa, que se pueden emplear sin habilidades ni
conocimientos informáticos muy específicos, como lenguajes de
programación, para tratar los datos y obtener información que mejore las
decisiones y pueda conducir a obtener ventajas competitivas.
La mayoría de herramientas en el mundo de big data muchas de ellas
tienen relación, cumpliendo algunas funciones o coordenadas similares,
solo tenemos que saber muy bien sus funciones para aplicarlos en base de
datos distintos, ya que lo que importa del el Big Data es lo que las
organizaciones hacen con los datos. Por ellos concluiré con dos
herramientas que vi interesante:
Python, una herramienta y lenguaje de programación más usado en toda
empresa de todo el mundo, aprender las claves de este sistema y, a partir
de ahí, encontrar una especialización a la que dirigirte para mejorar y
crecer a nivel laboral, donde podemos construir aplicaciones y crear
aplicaciones empresariales fiables y escalables, etc.
Al igual que Hadoop, el software más utilizado en empresas, donde su
puede procesar grandes cantidades de datos genómicos y otros conjuntos
de datos científicos de gran tamaño de forma rápida y eficiente.
16
12. REFERENCIAS BIBLIOGRAFICAS.
https://www.powerdata.es/big-data
https://www.crehana.com/blog/transformacion-digital/herramientas-de-big-data/
https://phoenixnap.com/kb/apache-storm-vs-spark

GRUPO 8 - Evaluacion 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GRUPO 8 - Evaluacion 1

Cargado por

Copyright:

Formatos disponibles

1

“DOCENTE Y PARTICIPANTES DEL INFORME”

DOCENTE: ROBERTO RICHARD LORENZO ROMERO

CURSO: BIG DATA APLICADA A LOS NEGOCIOS

CICLO: lll ciclo

En este caso estamos realizando la investigación; acerca

5.A. Interpretación de datos:

5.B. Descripción de manera general de las

 Python: se puede utilizar con unos conocimientos mínimos de informática,

 Elasticsearch: Esta herramienta permite el procesamiento de grandes

7. Usos de las herramientas de Big Data

 Netflix: que utilizó de manera inteligente los datos que habían

8. Comparativo de herramientas Big Data.

Apache Hadoop: PYTHON

APACHE SPARK: APACHE STORM:

9. Ventajas de las herramientas de Big Data

9.1. Ventajas de las herramientas de Big Data

9.2. VENTAJAS DE CADA HERRAMIENTA INVESTIGADA

 Hadoop puede guardar automáticamente múltiples copias de datos

intuitivo, incluso. Esto permite, además, poder sacar provecho a sus

10. Beneficios de las herramientas de Big Data

● Mejores decisiones: Las tecnologías Big Data te permiten observar

● Soluciones diferentes: Mediante el análisis de datos diferentes y

● Nuevas oportunidades de negocio: Basar las decisiones de negocio

● Ahorro de costes: Gestionar el alto volumen de datos que supone el

● Visualización más dinámica de los datos: Las iniciativas Big Data

acceder a la información rápidamente, en algunos casos incluso en

10. 1. BENEFICIOS DE CADA HERRAMIENTA INVESTIGADA.

 APACHE HADOOP: Capacidad para almacenar toda clase de

 APACHE SPARK: Velocidad; puede ejecutar cargas de trabajo

 APACHE STORM: puede usarse para analizar flujos de datos

puesto que tiene funciones de automatización. Así mismo,

 PYTHON: Es un lenguaje muy amigable: uno de los más

 ELASTICSEARCH: ofrece API sencillas basadas en REST, una

En conclusión, como hemos visto este trabajo se ha realizado centrándose

12. REFERENCIAS BIBLIOGRAFICAS.

También podría gustarte