Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CURSO:
DOCENTE:
INTEGRANTES:
2023
1
INDICE
INTRODUCCION
Pag.2
MARCO TEORICO
Pag.3
CONCLUSIONES
Pag.12
BIBLIOGRAFIA
Pag.15
2
BIG DATA
1. Introducción
2. Marco teórico
Preparación de datos
la preparación de datos asegura disponer de datos de calidad que permiten
extraer conocimiento.
El 80% de la información que se puede obtener de una variedad de fuentes
incluidas las bases de datos, almacenes de documentos, red y archivos planos o
PDF, ya que esta desestructurada, no está relacionada por lo que primero se tiene
que ordenar la información y darle un formato adecuado para que con algoritmos
se puedan conseguir modelos.
Procesamiento y limpieza de datos
Este proceso de divide en 2 pasos:
9
Apache Cassandra: Tiene una base de datos distribuida y puede obtener un alto
rendimiento en la entrada y salida, el uso es sencillo y es fácil de escalar a pesar
de ser una base de datos de alto rendimiento, no es la mejor para almacenaje de
datos empresariales.
3. Descripción de herramientas
Python:
Destaca porque su usabilidad es bastante sencilla con respecto a otras, es
de código abierto y esto permite que los usuarios que han usado el software
comparten sus usos mejorando la plataforma para beneficios de otros
usuarios. (htt2)
Hadoop:
cuenta con una licencia de código abierto es considerada la framework
estándar para el almacenamiento de grandes volúmenes de datos, esta
herramienta se utiliza para analizar y procesar datos, es mayor mente usada
en empresas como Facebook o Yahoo!
Lenguajes R:
11
Mongodb:
Es un sistema de base de datos NoSQL orientado a documentos de código
abierto y escrito en C++, que en lugar de guardar los datos en tablas lo hace en
estructuras de datos BSON (similar a JSON) con un esquema dinámico. Al ser
un proyecto de código abierto, sus binarios están disponibles para los sistemas
operativos Windows, GNU/Linux, OS X y Solaris y es usado en múltiples
proyectos o implementaciones en empresas como MTV Network, Craigslist, BCI
o Foursquare.
4. USO DE LAS HERRAMIENTAS DE BIG DATA
Python
- Instagram:
Instagram es una red social principalmente visual, donde un Usuario puede
publicar fotos y videos de corta duración, aplicar efectos y también interactuar
con las publicaciones de otras personas, a través de comentarios y me gusta.
Actualmente, Instagram presenta la implementación más grande del mundo del
marco web Django, que está escrito completamente en Python. Inicialmente,
elegimos usar Python debido a su reputación de simplicidad y practicidad, que
se alinea bien con nuestra filosofía de "hacer lo simple primero".
Pero la simplicidad puede venir con una compensación: eficiencia. Instagram ha
duplicado su tamaño en los últimos dos años y recientemente superó los 500
millones de usuarios, por lo que existe una gran necesidad de maximizar la
eficiencia del servicio web para que nuestra plataforma pueda continuar
escalando sin problemas. El año pasado hicimos de nuestro programa de
eficiencia una prioridad, y durante los últimos seis meses pudimos mantener
12
-Spotify:
Spotify permite la escucha instantánea de pistas o álbumes específicos
prácticamente sin demora de almacenamiento en búfer. La aplicación se lanzó
en 2008 y desde entonces ha llegado a más de 75 millones de suscriptores
pagos.
Mientras que el sitio web de Spotify se crea con WordPress, la aplicación de
Spotify se crea con Python. El ingeniero de Spotify Geoff van der Meer explica
cómo Spotify usó Python para codificar el backend de la aplicación dice que el
backend de Spotify consta de muchos servicios interdependientes, conectados
por [su] propio protocolo de mensajería sobre ZeroMQ. Alrededor del 80% de
estos servicios están escritos en Python.
Hadoop
-Microsoft:
13
Lenguajes R
-Google:
Google usa el lenguaje de programación R para calcular el ROI (Return On
Investment) de las campañas publicitarias, predecir la actividad económica y
para aumentar la eficiencia de su publicidad en línea. Google analiza millones de
datos de sus clientes y las publicidades para tomar decisiones que optimicen sus
procesos de publicidad.
-Facebook:
La popular red social que cuenta con millones de usuarios que interactúan al día
con ella usa el lenguaje de programación R para actualizar el estado de cómo
está funcionando, si hay caídas, saturación de datos y otros problemas. Todos
estos datos son visualizados en gráficos estadísticos y analizados por
profesionales encargados en la empresa. Asimismo, Facebook utiliza R para
predecir las interacciones entre los usuarios de la red social y en base a los
datos obtenidos, sugerirles publicaciones.
-Ford:
Esta empresa confía en la herramienta Hadoop, la cual está basada en el
lenguaje de programación R. Lleva a cabo análisis estadísticos de sus
productos, así como para realizar un soporte basado en datos para la toma de
decisiones. Cada producto nuevo que es lanzado al mercado u otro cambio u
otro cambio a realizarse en la empresa, es ejecutado en base a datos. (htt2)
Mongodb
-Visión unificada:
15
HERRAMIENTAS
Manejo de asociaciones
Sigue un esquema Automatica Automatica Automatico y ordenado
de datos
Si gracias a su variedad de
Necesita trabajar con
Manejo de grandes Si por procesar Si por que librerias, su capacidad de
GridFS dividiendo
volumenes de datos con librería tambien porta visualizacion grafica y el
los documentos en
informacion Numpy codigo abierto hecho de ser codigo
partes iguales
abierto
6. VENTAJAS Y BENEFICIOS
CONCLUSIONES
18
Big Data
Big Data es un término que describe el gran volumen de datos, tanto
estructurados como no estructurados, que inundan los negocios cada día. Pero
no es la cantidad de datos lo que es importante. Lo que importa con el Big Data
es lo que las organizaciones hacen con los datos.
Python
El lenguaje de programación Python es ampliamente utilizado por empresas de
todo el mundo para construir aplicaciones web, analizar datos, automatizar
operaciones y crear aplicaciones empresariales fiables y escalables
Hadoop
Hadoop es una estructura de software de código abierto para almacenar datos y
ejecutar
aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento
masivo para
cualquier tipo de datos, enorme poder de procesamiento y la capacidad de
procesar tareas o trabajos
concurrentes virtualmente ilimitados.
Lenguajes R
Es un lenguaje bastante adecuado para a estadística, ya que permite
manipularlos datos rápidamente y de forma precisa. Se puede automatizar
fácilmente, gracias a la creación de scripts que automatizan procesos, por
ejemplo, leer datos o hacer operaciones con los datos, y hacerlo
siempre de forma automática
Mongodb
Es un sistema para la gestión de datos NoSQL o no relacional. Se trata de un
modelo orientado a documentos que se almacenan en BSON, una
representación binaria de JSON, y que no usa tablas como los sistemas SQL ni
necesita seguir un esquema.
19
Bibliografía
(s.f.). Obtenido de • https://blogs.imf-formacion.com/blog/tecnologia/el-lenguaje-r-
202012/
google-utiliza-python/#:~:text=Los%20colaboradores%20de%20Python
%20siguen,por%20eso%20que%20lo%20utiliza.
google-utiliza-python/#:~:text=Los%20colaboradores%20de%20Python
%20siguen,por%20eso%20que%20lo%20utiliza.
conocer/?p=2
que-usan-el-big-data-a-su-favor
(s.f.). Obtenido de •
https://www.inesem.es/revistadigital/informatica-y-tics/herramientas-big-data/
• https://blogs.imf-formacion.com/blog/tecnologia/el-lenguaje-r-202012/. (s.f.).