Está en la página 1de 20

EVIDENCIA 1: BIG DATA

CURSO:

BIG DATA APLICADA A LOS NEGOCIOS

DOCENTE:

 NEMIAS CESAR MANTILLA QUILICHE

INTEGRANTES:

 MARIA FERNANDA ALOR BENITES

 WERNER BRAYAN UMERES LOPEZ

 EYMY ADAMS RAMIREZ QUISPE

 RUTH TRELLES SALAS

2023
1

INDICE

INTRODUCCION
Pag.2

MARCO TEORICO
Pag.3

DESCRIPCION DE LAS HERRAMIENTAS


Pag.5

USO DE LAS HERRAMIENTAS DE BIG DATA


Pag.5

BENEFICIOS Y VENTAJAS DE LAS HERRAMIENTAS


Pag.11

CONCLUSIONES
Pag.12

BIBLIOGRAFIA
Pag.15
2

BIG DATA
1. Introducción

Big Data se refiere a


conjuntos de datos que son
demasiado grandes o complejos
para ser
tratados por el software de
aplicación de procesamiento de
datos tradicional. Actualmente
uno de
los términos más importantes
que existe en el ámbito
empresarial, este conjunto de
estrategias está
3

presente desde cosas tan


simples hasta las cosas más
importantes en una empresa
tales como la
toma decisiones y el análisis
de gran información. A pesar
que a la mayoría de
competencias
profesionales encargados de
analizar la información obtenida
no estén orientadas a conocer a
nivel
técnico como se define y se
construye una solución de Big
4

Data, cada día se requiere que


los
profesionales tengan
conocimientos de cómo
funciona y para qué sirve, ya
que en realidad quienes
pueden dar valor a una
solución de Big Data son los
profesionales que hacen uso de
la información
que da como resultado los
diferentes procesos y análisis
que se realizan.
Big Data se refiere a conjuntos de datos que son demasiado grandes o
complejos para ser tratados por el software de aplicación de procesamiento de
datos tradicional. Actualmente uno de los términos más importantes que existe
en el ámbito empresarial, este conjunto de estrategias está presente desde
cosas tan simples hasta las cosas más importantes en una empresa tales como
5

la toma decisiones y el análisis de gran información. A pesar que a la mayoría


de competencias profesionales encargados de analizar la información obtenida
no estén orientadas a conocer a nivel técnico como se define y se construye
una solución de Big Data, ya que cada día se requiere que los profesionales
tengan conocimientos de cómo funciona y para qué sirve, ya que en realidad
quienes pueden dar valor a una solución de Big Data son los profesionales que
hacen uso de la información que da como resultado los diferentes procesos y
análisis que se realizan.

En la presente se explicará los pasos de procesamiento de datos, el análisis al


obtener la información, seguidamente las herramientas y el uso de ellas,
teniendo en cuenta el desarrollo como parte final se implementará algunas
conclusiones en cuanto a la información.

Big Data se refiere a


conjuntos de datos que son
demasiado grandes o complejos
para ser
tratados por el software de
aplicación de procesamiento de
datos tradicional. Actualmente
uno de
6

los términos más importantes


que existe en el ámbito
empresarial, este conjunto de
estrategias está
presente desde cosas tan
simples hasta las cosas más
importantes en una empresa
tales como la
toma decisiones y el análisis
de gran información. A pesar
que a la mayoría de
competencias
profesionales encargados de
analizar la información obtenida
7

no estén orientadas a conocer a


nivel
técnico como se define y se
construye una solución de Big
Data, cada día se requiere que
los
profesionales tengan
conocimientos de cómo
funciona y para qué sirve, ya
que en realidad quienes
pueden dar valor a una
solución de Big Data son los
profesionales que hacen uso de
la información
8

que da como resultado los


diferentes procesos y análisis
que se realizan.

2. Marco teórico

A continuación, los pasos de la metodología del procesamiento de datos.

 Preparación de datos
la preparación de datos asegura disponer de datos de calidad que permiten
extraer conocimiento.
El 80% de la información que se puede obtener de una variedad de fuentes
incluidas las bases de datos, almacenes de documentos, red y archivos planos o
PDF, ya que esta desestructurada, no está relacionada por lo que primero se tiene
que ordenar la información y darle un formato adecuado para que con algoritmos
se puedan conseguir modelos.
 Procesamiento y limpieza de datos
Este proceso de divide en 2 pasos:
9

Adquisición y registro: Es el proceso que se usa para recoger información o


datos y así poder documentarla y analizarla. En la información que es recogida
deben quedar claros los datos que se ha capturado, cuando se ha adquirido,
como se ha adquirido, donde se ha adquirido antes de incluirla en el almacén de
datos.
Metadatos de tablas: Una vez que tiene la información del almacén esa
información se guarda en el metadato que son los datos y hace referencia a la
fecha de carga, fuente de origen, proceso de carga, numero de registros, tamaño,
autor, localización, etc. Toda esta información de datos se pasa a la tabla de
datos y es muy importante para el gobierno de datos adecuado para que cuando
se tenga que consultar algún dato esta información esté disponible.
 Interpretación de datos:
Este proceso se divide en 3 pasos:
Formato y Construcción:
Una vez que la información se encuentra en la tabla de datos se debe
verificar si la información que se tiene esta en el formato adecuado para
que les permiten construir variables en la construcción de modelos
analíticos.
Exploración y Análisis:
Para cada variable de tablas se puede hacer una serie de agregaciones
para poder comprender de mejor manera la información que se tiene en
los datos e identificar problemas que puedan surgir.
Calidad y Limpieza:
Proceder con el tratamiento y limpieza de datos se debe identificar los
valores vacíos (se imputan o borrar los registros), valores incoherentes
(poner en cuarentena o crear variables adicionales para controlar estos
valores), valores atípicos, corregir errores, eliminar repetidos, normalizar
datos, etc. Porque a la hora de poner el modelo en producción se deben
tener en cuenta las decisiones tomadas hasta ese punto.
10

Se deben describir de manera general las herramientas o tecnologías


analítica de Big Data
Ya que más del 90% de los datos se han creado en los últimos años, se necesitan
herramientas necesarias para poder extraerlos, estas son algunas herramientas:

Lenguaje R: Es software que se utiliza para el cálculo estadístico y grafico es


muy usado por parte de los estadísticos y profesionales del sector del dato como
los quants (Analíticos del Big data).

MongoDB: Es una base de datos focalizada en los documentos, almacena los


datos en documentos y no en registros, se almacenan en formatos BSON.

Apache Cassandra: Tiene una base de datos distribuida y puede obtener un alto
rendimiento en la entrada y salida, el uso es sencillo y es fácil de escalar a pesar
de ser una base de datos de alto rendimiento, no es la mejor para almacenaje de
datos empresariales.

3. Descripción de herramientas
Python:
Destaca porque su usabilidad es bastante sencilla con respecto a otras, es
de código abierto y esto permite que los usuarios que han usado el software
comparten sus usos mejorando la plataforma para beneficios de otros
usuarios. (htt2)

Hadoop:
cuenta con una licencia de código abierto es considerada la framework
estándar para el almacenamiento de grandes volúmenes de datos, esta
herramienta se utiliza para analizar y procesar datos, es mayor mente usada
en empresas como Facebook o Yahoo!

Lenguajes R:
11

El lenguaje de programación en R es un entorno de software que utiliza para el


cálculo estadístico y gráfico. Se trata de la herramienta Big Data más utilizada por
parte de los estadistas y profesionales del sector del dato como los quants o Big Data
Analytics.
Al igual que sucede con Python uno de los puntos más destacados del
lenguaje de programación en R es su filosofía colaborativa ya que cuenta con
una licencia de código abierto. Esto permite que los usuarios puedan acceder
a una gran cantidad de librerías creadas por la comunidad de R. (htt4)

Mongodb:
Es un sistema de base de datos NoSQL orientado a documentos de código
abierto y escrito en C++, que en lugar de guardar los datos en tablas lo hace en
estructuras de datos BSON (similar a JSON) con un esquema dinámico. Al ser
un proyecto de código abierto, sus binarios están disponibles para los sistemas
operativos Windows, GNU/Linux, OS X y Solaris y es usado en múltiples
proyectos o implementaciones en empresas como MTV Network, Craigslist, BCI
o Foursquare.
4. USO DE LAS HERRAMIENTAS DE BIG DATA
Python
- Instagram:
Instagram es una red social principalmente visual, donde un Usuario puede
publicar fotos y videos de corta duración, aplicar efectos y también interactuar
con las publicaciones de otras personas, a través de comentarios y me gusta.
Actualmente, Instagram presenta la implementación más grande del mundo del
marco web Django, que está escrito completamente en Python. Inicialmente,
elegimos usar Python debido a su reputación de simplicidad y practicidad, que
se alinea bien con nuestra filosofía de "hacer lo simple primero".
Pero la simplicidad puede venir con una compensación: eficiencia. Instagram ha
duplicado su tamaño en los últimos dos años y recientemente superó los 500
millones de usuarios, por lo que existe una gran necesidad de maximizar la
eficiencia del servicio web para que nuestra plataforma pueda continuar
escalando sin problemas. El año pasado hicimos de nuestro programa de
eficiencia una prioridad, y durante los últimos seis meses pudimos mantener
12

nuestro crecimiento de usuarios sin agregar nueva capacidad a nuestros niveles


de Django.
- Netflix:
Netflix es la red de televisión por Internet líder en el mundo con más de 33
millones de miembros en 40 países que disfrutan de más de mil millones de
horas de programas de televisión y películas al mes, incluidas las series
originales de Netflix, los desarrolladores de Netflix tienen la libertad de elegir las
tecnologías más adecuadas para el trabajo. Cada vez más, los desarrolladores
recurren a Python debido a su rica biblioteca estándar con baterías incluidas, su
sintaxis sucinta y limpia pero expresiva, su gran comunidad de desarrolladores y
la riqueza de bibliotecas de terceros a las que uno puede acceder para resolver
un problema determinado.

-Spotify:
Spotify permite la escucha instantánea de pistas o álbumes específicos
prácticamente sin demora de almacenamiento en búfer. La aplicación se lanzó
en 2008 y desde entonces ha llegado a más de 75 millones de suscriptores
pagos.
Mientras que el sitio web de Spotify se crea con WordPress, la aplicación de
Spotify se crea con Python. El ingeniero de Spotify Geoff van der Meer explica
cómo Spotify usó Python para codificar el backend de la aplicación dice que el
backend de Spotify consta de muchos servicios interdependientes, conectados
por [su] propio protocolo de mensajería sobre ZeroMQ. Alrededor del 80% de
estos servicios están escritos en Python.

Hadoop
-Microsoft:
13

Microsoft no es históricamente conocida como una empresa que abarque el


software de código abierto, pero en este caso está tomando grandes pasos, no
solo para permitir que Hadoop funcione en Windows, sino por extender el código
para el proyecto de código abierto con el fin de avanzar ampliamente en el
ecosistema Hadoop. Los frutos de esa labor se ven en su producto de la nube
pública de Microsoft (Azure). Es una oferta de Hadoop como servicio basado en
la distribución Hortonworks de la plataforma, pero diseñada específicamente
para funcionar en Azure.
Microsoft también tiene algunos otros proyectos ingeniosos, incluyendo una
función de producción lista llamada Polybase que permite obtener información
sobre SQL Server en las consultas de Hadoop. "La significativa presencia de
Microsoft en la base de datos, almacenamiento de datos, nube, OLAP, BI, hoja
de cálculo (PowerPivot), colaboración y desarrollo de mercados de instrumentos,
ofrece una ventaja cuando se trata de la entrega de una pila Hadoop creciente
para los clientes de Microsoft", señala Forrester. Al igual que Intel, Microsoft fue
catalogado como un "intérprete fuerte", pero todavía no es un líder en esta
industria.
-MapR Technologies:
MapR Technologies es quizás la mejor empresa de distribución de Hadoop y que
muchas personas desconocen. En la encuesta de Forrester sobre los usuarios
de Hadoop que se utilizó para elaborar su informe Wave, MapR calificó como la
más alta de su oferta actual, con las mejores calificaciones de las capacidades
de procesamiento de datos de la arquitectura y distribución.
La receta secreta de la empresa es un conjunto de capacidades únicas que
MapR ha logrado trabajar en su versión de Hadoop. Por ejemplo, la distribución
de MapR soporta los sistemas de archivos de red (NFS) y MapR ha construido
características de recuperación de desastres y de alta disponibilidad en su
distribución. Forrester indica que MapR simplemente no tiene el reconocimiento
de la marca en comparación con Cloudera y Hortonworks en el mercado de
Hadoop. Sin embargo, considera que un aumento de las alianzas y de marketing
podrían convertir a MapR en una importante empresa de Hadoop.
-IBM:
Cuando las empresas piensan en los grandes proyectos de TI, muchas piensan
en IBM, y con razón. Debido a eso, IBM se ha convertido en un jugador
importante en el mundo de los proyectos de Hadoop. Forrester señala que IBM
ya tiene más de 100 implementaciones de Hadoop, y muchos clientes con
petabytes de datos equivalentes.
14

La compañía aprovecha su amplia experiencia en computación, un centro de


datos global y experiencia en la implementación de la empresa para sus
proyectos de big data. "La hoja de ruta de IBM incluye continuidad para integrar
la solución Big insights Hadoop con activos de IBM relacionados, como la
analítica avanzada SPSS, gestión de carga de trabajo para la computación de
alto rendimiento, herramientas de BI y gestión de datos y herramientas de
modelado"

Lenguajes R
-Google:
Google usa el lenguaje de programación R para calcular el ROI (Return On
Investment) de las campañas publicitarias, predecir la actividad económica y
para aumentar la eficiencia de su publicidad en línea. Google analiza millones de
datos de sus clientes y las publicidades para tomar decisiones que optimicen sus
procesos de publicidad.

-Facebook:
La popular red social que cuenta con millones de usuarios que interactúan al día
con ella usa el lenguaje de programación R para actualizar el estado de cómo
está funcionando, si hay caídas, saturación de datos y otros problemas. Todos
estos datos son visualizados en gráficos estadísticos y analizados por
profesionales encargados en la empresa. Asimismo, Facebook utiliza R para
predecir las interacciones entre los usuarios de la red social y en base a los
datos obtenidos, sugerirles publicaciones.
-Ford:
Esta empresa confía en la herramienta Hadoop, la cual está basada en el
lenguaje de programación R. Lleva a cabo análisis estadísticos de sus
productos, así como para realizar un soporte basado en datos para la toma de
decisiones. Cada producto nuevo que es lanzado al mercado u otro cambio u
otro cambio a realizarse en la empresa, es ejecutado en base a datos. (htt2)
Mongodb
-Visión unificada:
15

La primera de estas categorías incluye a la empresa MetLife. El gigante de los


seguros trabaja con MongoDB para conseguir según afirma una visión de 360
grados de sus más de cien millones de clientes. La aplicación consiste en la
creación de un repositorio central que ofrece una visión a partir de muchas
fuentes de datos que provienen de otros repositorios o sistemas. (htt5)
-Analítica en tiempo real:
Cuando hablamos de analítica en tiempo real nos referimos a la necesidad de
conseguir resultados de manera inmediata. La ciudad de Chicago ha
desarrollado una aplicación llamada Windy Grid que está basada en MongoDB, y
recoge datos de policía, transporte e incendios. La aplicación además notifica
alertas por obras en carretera, retrasos en recolección de basura, quejas por
ruido o tweets públicos, entre otros. (htt2)
-Tecnologías móviles:
The Weather Channel utiliza MongoDB para sus aplicaciones móviles que
disfrutan cerca de cuarenta millones de personas en todo el mundo. La idea de
que MongoDB se convierta en la parte backend del mundo de los smartphones y
tablets toma cada vez más fuerza.

5. COMPARATIVA DE HERRAMIENTAS DE BIG DATA


16

HERRAMIENTAS

CARACTERISTICAS MONGODH PYTHON HADOOP LENGUAJES R

Manejo de asociaciones
Sigue un esquema Automatica Automatica Automatico y ordenado
de datos

Si gracias a su variedad de
Necesita trabajar con
Manejo de grandes Si por procesar Si por que librerias, su capacidad de
GridFS dividiendo
volumenes de datos con librería tambien porta visualizacion grafica y el
los documentos en
informacion Numpy codigo abierto hecho de ser codigo
partes iguales
abierto

Solo cuando No tiene


especifica un herramientas
Analisis de contenido Con la biblioteca Utlilizacion de metadatos
content-type completas y
con metadatos importlib.data junto con el lenguaje R
atributo de faciles para
metadato metadatos
17

6. VENTAJAS Y BENEFICIOS

VENTAJAS DE LAS BENEFICIOS DE LAS


HERRAMIENTAS DE BIG DATA HERRAMIENTAS BIG DATA

Ahorro de tiempo y esfuerzo


Permite a las empresas a
obtener informacion relevante
y tomar decisiones inteligentes
Aumento del rendimiento basadas en datos.
empresarial

HERRAMIENTAS Segmentación mas acertada del Impulsar la innovacion y tomar


TECNOLOGICAS publico objetivo mejores decisiones de negocio
ANALITICA DE
BIG DATA

Mejora la toma de decisiones

Permite responder a multiples


preguntas de las empresas,
proporciona vision y puntos de
Desarrollo de nuevos productos referencia
y servicios

CONCLUSIONES
18

Big Data
Big Data es un término que describe el gran volumen de datos, tanto
estructurados como no estructurados, que inundan los negocios cada día. Pero
no es la cantidad de datos lo que es importante. Lo que importa con el Big Data
es lo que las organizaciones hacen con los datos.
Python
El lenguaje de programación Python es ampliamente utilizado por empresas de
todo el mundo para construir aplicaciones web, analizar datos, automatizar
operaciones y crear aplicaciones empresariales fiables y escalables
Hadoop
Hadoop es una estructura de software de código abierto para almacenar datos y
ejecutar
aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento
masivo para
cualquier tipo de datos, enorme poder de procesamiento y la capacidad de
procesar tareas o trabajos
concurrentes virtualmente ilimitados.
Lenguajes R
Es un lenguaje bastante adecuado para a estadística, ya que permite
manipularlos datos rápidamente y de forma precisa. Se puede automatizar
fácilmente, gracias a la creación de scripts que automatizan procesos, por
ejemplo, leer datos o hacer operaciones con los datos, y hacerlo
siempre de forma automática
Mongodb
Es un sistema para la gestión de datos NoSQL o no relacional. Se trata de un
modelo orientado a documentos que se almacenan en BSON, una
representación binaria de JSON, y que no usa tablas como los sistemas SQL ni
necesita seguir un esquema.
19

Bibliografía
(s.f.). Obtenido de • https://blogs.imf-formacion.com/blog/tecnologia/el-lenguaje-r-

202012/

(s.f.). Obtenido de • https://cohete.digital/guia-carrera-profesional/desarrollador-python/

google-utiliza-python/#:~:text=Los%20colaboradores%20de%20Python

%20siguen,por%20eso%20que%20lo%20utiliza.

(s.f.). Obtenido de • https://cohete.digital/guia-carrera-profesional/desarrollador-python/

google-utiliza-python/#:~:text=Los%20colaboradores%20de%20Python

%20siguen,por%20eso%20que%20lo%20utiliza.

(s.f.). Obtenido de • https://cioperu.pe/articulo/16239/9-empresas-hadoop-que-debe-

conocer/?p=2

(s.f.). Obtenido de • https://www.cyberclick.es/numerical-blog/7-ejemplos-de-empresas-

que-usan-el-big-data-a-su-favor

(s.f.). Obtenido de •

https://www.inesem.es/revistadigital/informatica-y-tics/herramientas-big-data/

• https://blogs.imf-formacion.com/blog/tecnologia/el-lenguaje-r-202012/. (s.f.).

También podría gustarte