Introducción

Introducción
El big data es la expresión utilizada para referirnos a la gestión que se especializa

en el manejo de datos masivos, llamada también ciencia de datos; sus métodos
son una serie de herramientas informáticas y estadísticas para la agrupación y el
análisis de datos recolectados, gracias a los volúmenes de información generados
en la interacción de los individuos, muchos de ellos a través de plataformas
virtuales y dispositivos electrónicos y móviles. La importancia del big data radica
en que facilita la toma de decisiones para las organizaciones y empresas, a partir
de la lectura y el análisis de los comportamientos y afinidades de sus diferentes
grupos de interés, permitiéndoles generar estrategias y acciones centradas en los
mismos.
La sociedad de la información nombrada así por diferentes autores, no adquiere

ese nombre en vano, en el sentido de que, las personas y las organizaciones que
aprendan a agrupar y manejar la información, tendrán una ventaja significativa a la
hora de tomar las decisiones importantes a nivel comercial, logístico o
administrativo. Si en los grandes mercados del mundo han comprendido la
importancia de utilizar el big data, es necesario que las aspiraciones comerciales
desarrollen y fortalezcan un nivel interno dentro de la economía, y asi tener el
manejo de datos especializados.
1. Fundamentos Generales del Big Data
En los últimos años las empresas se han embarcado en un proceso de

transformación digital de profundo calado dentro del marco de lo que se conoce
como la cuarta revolución industrial, que está dando paso a una nueva manera de
organizar los medios de producción. Las empresas se están transformando en
fábricas inteligentes capaces de una mayor adaptabilidad a las necesidades y a
los procesos de producción, así como de una asignación más eficaz de los
recursos, lo que abre la vía a una nueva revolución industrial. No solo se trata de
la digitalización de los procesos de negocio, sino también del uso del dato y las
tecnologías de la información (TI) para la optimización y automatización de dichos
procesos. Las TI han pasado de estar en la periferia de la organización a estar en
el centro y erigirse en uno de sus pilares. Esta progresiva transformación de base
tecnológica se ha combinado con otros aspectos, como el advenimiento de las
redes sociales, la democratización de internet o el despliegue de la internet de las
cosas.
El resultado de esta tormenta perfecta en la que se hallan todas las

organizaciones es una explosión del dato en volumen, velocidad y variedad. Y de
modo natural ha crecido la complejidad para capturar, procesar, almacenar,
analizar y visualizar los datos.
Como resultado, han aparecido múltiples métodos, técnicas y tecnologías que

buscan ayudar a las organizaciones a tomar mejores decisiones a partir de los
datos y a extraer valor de estos. Estos métodos, técnicas y tecnologías para la
captura, el procesamiento, el almacenamiento, la gestión y el análisis se han ido
progresivamente estructurando en diferentes estrategias que conocemos como big
data.
El primer fundamento de Big Data es que opera en el entorno de los datos. El Big
Data, ya sea un dato agrupado o un mundo Cloud, se debe ubicar en un entorno
en el cual sea posible almacenar toda la información. El Big Data es un concepto
que engloba a muchos otros. Está formado por un ecosistema de tecnologías que,
combinadas entre sí, nos aportan la potencia necesaria para extraer valor al dato y
hacer que nuestra organización sea Data Driven (Curto, 2018).
1.1 Definición
Big Data es una colección de grandes volúmenes de datos, complejos que son
muy difíciles de procesar, a través de las herramientas de gestión de
procesamiento de datos tradicionales (Moreno, 2015).
1.2 Características del big data
 La cantidad de datos que se tienen, sino en lo que se hace con ellos.

 Las organizaciones puedan tomar decisiones más rápidamente, sin
complicaciones y de manera eficiente.
 Ayuda a las organizaciones a identificar nuevas oportunidades.
 General la información obtenida del análisis de datos.
 Reducir los costos: Las grandes tecnologías de datos y el análisis basado
en la nube aportan importantes ventajas en términos de costos cuando se
trata de almacenar grandes cantidades de datos e identificar maneras más
eficientes de hacer negocios.
 Detectar el comportamiento fraudulento.
 Tomar decisiones inteligentes y disminuir el tiempo de ellas: La velocidad
del análisis, mezclada con la capacidad de examinar nuevas fuentes de
datos, hace que las organizaciones puedan tomar decisiones basadas en lo
que han aprendido.
 Determinar las causas de origen de fallos, problemas y defectos casi en
tiempo real.
 Desarrollar nuevos productos: Con la capacidad de evaluar las necesidades
de los clientes y su satisfacción, viene el poder de darles lo que quieren.
Esto significa que es posible crear nuevos ítems para dar respuesta a esos
requerimientos.
 Optimizar las ofertas: El big data permite predecir cómo se comportarán los
compradores en el futuro en función de sus comportamientos anteriores,
por lo que se pueden establecer ofertas de un modo fundamentado y
ahorrar dinero.
 Generar cupones para los clientes en el punto de venta basados en sus
hábitos de compra.
 Tener un mayor conocimiento del mercado.
 Seguimiento de la competencia: Los macrodatos proporcionan una mayor
comprensión de la competencia y anticiparse a ella.
 Información en tiempo real: La información anticuada no tiene valor
aplicable en el presente y menos en el futuro, por eso la recopilación de
datos de manera diaria que proporciona esta tecnología permite disponer
de un feedback casi en el momento (Internet, 2023).
1.3 Beneficios del big data
 Mejora la toma de decisiones: Mediante el análisis de datos se puede

reducir riesgos, captar nuevas oportunidades y prevenir accidentes. Así, es
posible tomar decisiones con más información de manera rápida y con más
probabilidad de éxito.
 Permite anticiparse a los cambios del mercado: Los análisis predictivos
aplicados al mercado permiten identificar tendencias y anticipar los
movimientos de la competencia. De este modo, las empresas serán
capaces de definir estrategias más adecuadas a cada contexto.
 Optimiza los costos: El Big Data genera mayor productividad en las
empresas ya que reduce los costos al tener información actualizada
constantemente. Además, contar con un software en la nube implica el
ahorro de grandes infraestructuras para el almacenamiento de datos.
 Permite mejorar la segmentación de bases de datos: Gracias al análisis
del comportamiento de los clientes, es posible orientar productos y servicios
a los clientes específicos que los consuman teniendo en cuenta sus deseos
y necesidades. Es decir, el Big Data permite realizar un marketing
personalizado, campañas de comunicación específicas y call to action más
efectivos.
 Provee seguridad en los datos: Al mantener un control rápido y eficaz de
los datos de la empresa es posible identificar posibles amenazas internas y
externas. Además, permite detectar puntos débiles en la seguridad para
reforzar.
 Mejora la accesibilidad de la información dentro de una empresa:
Tener datos digitalizados y herramientas de búsqueda de información
posibilita una dinámica de trabajo fluida y mayores beneficios para la
empresa.
 Posibilita ventajas comparativas: El análisis del comportamiento de los
clientes ayuda a fijar precios y optimizar los inventarios en función de la
demanda en tiempo real (Pablo, 2023).
2. Terminología básica
Big Data: Es un término sombrilla para datasets que no pueden ser

razonablemente manipulados mediante computadores tradicionales o
herramientas debido a su volumen, velocidad y variedad. Este término es también
aplicado típicamente a tecnologías y estrategias para trabajar con este tipo de
datos.
Batch Processing (Procesamiento por Lotes): El procesamiento por lotes es

una estrategia de computación que involucra el procesamiento de datos en
conjuntos grandes. Esto es típicamente ideal para trabajo que no sea sensible al
tiempo y que opere sobre conjuntos muy grandes de datos. El proceso se inicia en
una ocasión posterior
Cluster Computing (Computación en Cluster): La computación en cluster es la

práctica de agrupar los recursos de múltiples máquinas y administrar sus
capacidades colectivas para completar tareas. Los cluster de computadoras
requieren una capa de administración del cluster que manipula la comunicación
entre los nodos individuales y coordina la asignación de trabajo.
Data Lake (Lago de Datos): Es un término utilizado para referirse a un gran

repositorio de datos recolectados en un estado relativamente crudo. Este término
se usa frecuentemente para referirse a los datos recolectados en un sistema de
Big Data que podría estar sin estructurar y en frecuente cambio. Esto difiere en
espíritu de los Data Warehouses (Almacenes de Datos).
Data Mining (Minería de Datos): Es un término amplio para referirse a la práctica

intentar encontrar patrones en Datasets grandes. Es el proceso de intentar refinar
la masa de datos hacia un conjunto de información más comprensible y cohesivo.
Data Warehouse (Almacén de Datos): Son repositorios de datos grandes y
ordenados, que pueden utilizarse para el análisis y reportería. En contraste con un
Data Lake, un Data Warehouse de datos que han sido limpiados, integrados con
otras fuentes y en general está bien ordenado. Los Data Warehouses a menudo
se mencionan en relación con Big Data, pero típicamente están compuestos de
sistemas más tradicionales.
ETL (Extract, Transform, Load): El término ETL significa extraer (Extract),

transformar (Transform) y Cargar (Load). Se refiere al proceso de tomar los datos
crudos y preparlos para el uso de un sistema. Este es tradicionalmente un proceso
asociado con Data Warehouses, pero debido a las características de este proceso
también es posible encontrarlo en las pipelines (cañerías) de ingestión de
sistemas de Big Data.
Hadoop: Es un proyecto Apache que fué tempranamente exitoso en Big Data.

Consiste en un sistema de archivos distribuido llamado HDFS, con la
administración de cluster (cluster management) y agendamiento de recursos
(resource scheduler) encima mediante YARN (Yer Another Resource Negotiator).
Las capacidades de procesamiento Batch son proveídas por el motor de
computación MapReduce. Otros sistemas de análisis y computación pueden correr
en paralelo con MapReduce en los despliegues modernos de Hadoop.
In-Memory Computing (Computación en Memoria): Es una estrategia que

involucra el movimiento de datasets en uso enteramente dentro de la memoria
colectiva de un cluster. Los cálculos intermedios no son escritos al disco y, en vez
de eso, se mantienen en memoria. Esto da a sistemas de In-Memory Computing
como Apache Spark una gran ventaja en velocidad sobre sistemas restringidos por
I/O como Hadoop’s MapReduce.
Machine Learning (Aprendizaje de Máquina): Es el estudio y la práctica del

diseño de sistemas que pueden aprender, ajustarse y mejorar basados en los
datos con que son alimentados. Esto típicamente involucra la implementación de
algoritmos predictivos y estadísticos que pueden concentrarse continuamente en
el comportamiento “correcto” y la comprensión mientras más datos fluyan por el
sistema.
Map Reduce (Big Data Algorithm): Es un algoritmo para agendar trabajo en un

cluster de computación. El proceso involucra dividir la estructura del problema
(mapeandolo a diferentes nodos) y computar sobre las partes para producir
resultados intermedios, reordenando los resultados para alinear conjuntos
similares, y luego reduciendo los resultados mediante la emisión de un único valor
por cada conjunto.
NoSQL: Es un término amplio referente a las bases de datos diseñadas para fuera
del modelo relacional tradicional. Las bases de datos NoSQL tienen diferentes
trade-offs (ventajas/desventajas) comparadas con las bases de datos relacionales,
pero a menudo se ajustan bien a los sistemas de Big Data debido a su flexibilidad
y su frecuente arquitectura tipo primero-distribuida (distribuited-first).
Stream Processing (Procesamiento de Flujos): Es la práctica de la

computación sobre datos individuales a medida que se mueven por un sistema.
Esto permite el análisis en tiempo-real de los datos con que se está alimentando el
sistema y es útil para operaciones sensibles al tiempo (time-sensitive) utilizando
métricas de alta velocidad (Segura, 2019).
2.1 Dato vs Información
Dato es el componente mínimo de una información mayor. Necesario para llegar al

conocimiento exacto de una cosa o hecho, que describe objetos, situaciones.
Información es el conjunto de datos procesados en forma significativa, ordenados

y con una secuencia lógica sobre algún suceso o hecho de importancia. Con valor
real para la toma de decisiones, a medida que se tiene más información, más fácil
resulta tomar decisiones correctas. Esa es la función de la información: disminuir
la incertidumbre o aumentar el conocimiento, incrementando además la
probabilidad de éxito (Dip, 2018)
2.2 Magnitudes físicas del dato y su almacenamiento

2.3 Definición del big data
Big Data es un gran volumen de datos, estructurados y no estructurados, que,

debido a su tamaño, complejidad y rapidez para generar nueva información,
pueden ser difíciles de recopilar, gestionar, procesar y analizar sin el uso de la
tecnología apropiada.
Estos datos pueden utilizarse para el aprendizaje automático en proyectos de

machine learning, modelado predictivo y diversas aplicaciones de análisis. En
general, se lo conoce por sus "tres V": volumen, variedad y velocidad. El volumen
se refiere a su gran tamaño; la variedad, a la amplia cantidad de formatos no
estándar; y la velocidad, a la necesidad de procesarlos con rapidez y eficiencia
(SYDLE, 2023).
2.4 Las 3 V`s del big data
Volumen: Esta característica hace referencia a la ingente cantidad de datos

generados y disponibles en nuestro entorno. En un proyecto de Big Data la
cantidad de información que se genera es inmensa y sobre todo, no para de
producirse. A medida que las BBDD aumentan de tamaño, también lo hacen las
aplicaciones y la arquitectura construida para recoger y almacenar esos datos.
Velocidad: Rapidez con la que los datos son creados, almacenados y

procesados. En algunos procesos el tiempo resulta fundamental y una demora en
su procesamiento, resultaría fatal. Sí los datos no son recibidos, almacenados y
procesados en tiempo real, quedarán obsoletos y se perderá su utilidad.
Variedad: Los datos que se reciben en un proyecto de Big Data son generalmente
muy diversos. Estos datos pueden proceder de diversas fuentes y se pueden
encontrarse en distintos formatos. Por este motivo se necesita integrar diferentes
tecnologías y aplicaciones para poder organizar, procesar e integrar los diferentes
datos y para poder obtener conclusiones efectivas o identificar patrones útiles.
2.5 Las 7 V’s del big data

Veracidad de los datos: Se refiere a la fiabilidad de la información que se recoge
en el proceso. La calidad de estos datos será fundamental para alcanzar
conclusiones efectivas e incluso una ventaja competitiva en el mundo empresarial.
Las compañías tendrán que invertir en aplicaciones que sean capaces de
identificar y eliminar datos imprevisibles o que causen incertidumbre.
Viabilidad: La inteligencia empresarial es un aspecto fundamental para la

viabilidad y el éxito. Hace referencia a la capacidad de usar la gran cantidad de
datos a manejar de forma eficaz. De igual modo, la inteligencia competitiva hace
referencia a la innovación en los equipos de trabajo y al uso de las tecnologías
empleadas. Se debe conocer en gran profundidad el mercado y a los clientes con
el fin de diseñas estrategias eficaces.
Visualización de los datos: Tras ser procesados los datos, estos son
presentados. La forma en la que se presentan es la visualización de los datos.
Necesitan ser representados de manera que sean tanto legibles como accesibles,
para que puedan ser comprendidos por las herramientas. Todo ello con el fin de
encontrar patrones y claves ocultas en la data que se analizará.
Valor de los datos: Por último, otra de las principales características del Big Data
es el valor de los datos. Los datos son almacenados pero lo que realmente se
necesita es extraer valor de los mismos, mediante tecnologías, transformándolos
en conocimiento y finalmente acciones. El resultado de ello será poder llegar bien
a nuestro público y poder gestionar bien nuestro negocio (Málaga, 2023).
3. Metodología de un proyecto big data
3.1 Almacenamiento
3.2 Procesamiento
3.3 Analisis
3.4 Visualizacion
3.5 Sistemas Hiridos

4. Fuentes de big data
En la actualidad, existen una gran cantidad de tipos de fuentes de datos disponible

para llevar a cabo big data. Podemos diferenciar distintos tipos de fuentes en
función de distintas características, por ejemplo. su procedencia o de si son
fuentes de pago o no (Sofware, 2022).
4.1 fuentes de adquisición de datos
El gran volumen de datos procede de numerosas fuentes, especialmente de las

nuevas fuentes, tales como medios sociales (social media) y los sensores de
máquinas (máquina a máquina, M2M, e Internet de las cosas). La oportunidad de
expandir el conocimiento incrustado en ellos, por combinación de esa inmensidad
de datos con los datos tradicionales existentes en las organizaciones, está
acelerando su potencialidad; además, gracias a la nube (cloud), a esa enorme
cantidad de información se puede acceder de modo ubicuo, en cualquier lugar, en
cualquier momento y, prácticamente, desde cualquier dispositivo inteligente. Los
directivos y ejecutivos de las compañías se pueden volver más creativos a medida
que extraen mayor rendimiento de las nuevas fuentes de datos externas y las
integran con los datos internos procedentes de las bases de datos relacionales y
heredadas (legacy) de las propias compañías. Los medios sociales están
generando terabytes de información de datos no estructurados como
conversaciones, fotos, video, documentos de texto de todo tipo, a los que hay que
añadir los flujos de datos que fluyen de sensores, de la monitorización de
procesos, fuentes externas de todo tipo, desde datos demográficos hasta
catastrales, historial y predicciones de datos del tiempo climático, entre otros.
Las fuentes de datos que alimentan los Big Data no paran de crecer, pero, como
reconocía tempranamente el estudio de McKinsey (2011), citando fuentes oficiales
de estadística, numerosas empresas de todos los sectores tenían almacenados,
ya en 2009, al menos 100 terabytes, y muchas podían llegar a tener más de 1
petabyte. Algunos datos ilustrativos de almacenamiento utilizadas, en esas fechas,
por sectores, eran: fabricación discreta, 966 petabytes; banca, 619 petabytes;
gobierno, 858 petabytes; comunicación y medios, 715 petabytes. Es decir, además
de las nuevas fuentes de datos que ya hemos comentado, numerosas empresas
de todo tipo tienen almacenados petabytes de datos, que se convierten en fuentes
de datos tradicionales que son responsables, a su vez, de los grandes volúmenes
de datos actuales. El origen de los datos que alimentan los Big Data procederán
de numerosas fuentes, tanto tradicionales como nuevas, que iremos desglosando
a continuación, y aunque los datos no estructurados constituirán los porcentajes
más elevados que deberán gestionar las organizaciones al menos del 80% al
90%, según los estudios que se consulten, no podemos dejar a un lado la
inmensidad de datos estructurados presentes en organizaciones y empresas, y
que en numerosísimas ocasiones están aflorando datos que permanecían ocultos,
y esta creciente avalancha de datos de innumerables fuentes está comenzando a
tener gran fuerza y potencialidad a la hora de la toma de decisiones (Joyanes,
2022).
4.1.2 Datos de internet y móviles
Incluye contenido web e información que es obtenida de los medios sociales como
Facebook, Twitter, LinkedIn, Pinterest, Instagram; blogs como Technorati, de
periódicos y televisiones; wikis como MediaWiki, Wikipedia; marcadores sociales
como Del.icio.us, Stumbleupon; agregadores de contenidos como Digg, Meneame.
En esta categoría los datos se capturan, almacenan o distribuyen teniendo
presente las características siguientes: los datos incluyen datos procedentes de
los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr,
entradas (posting) de Facebook y sistemas de gestión de contenidos web
diversos, tales como YouTube, Flickr, Picasa; o sitios de almacenamiento de
información como Dropbox, Box.com y One Drive. Los datos de la Web y de los
medios sociales se analizan con herramientas de analítica web y analítica social,
mediante el uso de métricas y de indicadores KPI.
4.1.3 Datos de Internet de las Cosas
M2M se refiere a las tecnologías que permiten conectarse a otros diferentes
dispositivos entre sí. M2M utiliza dispositivos como sensores, medidores que
capturan datos de señales particulares (humedad, velocidad, temperatura, presión,
variables meteorológicas, variables químicas como la salinidad), contadores
inteligentes (medición de consumo de electricidad en hogares, oficina e industria).
Estos datos se transmiten a través de redes cableadas, inalámbricas, móviles, y
satelizadas a otros dispositivos y aplicaciones que traducen estos datos en
información significativa. Entre los dispositivos que se emplean para capturar
datos de esta categoría, podemos considerar chips o etiquetas RFID, chips NFC,
medidores inteligentes (de temperaturas, de electricidad, presión), sensores,
dispositivos GPS que ocasionan la generación de datos mediante la lectura de los
medidores, lecturas de los chips RFID y NFC, lectura de los sensores, señales
GPS, señales de GIS.
4.1.4 Datos sectoriales recopilados por empresas especializadas
La biometría o reconocimiento biométrico se refiere a la identificación automática

de una persona basada en sus características anatómicas o trazos personales,
tales como información procedente del cuerpo humano y actividad física (huellas
digitales, reconocimiento facial, escaneo de la retina, genética). Los datos
anatómicos se crean a partir del aspecto físico de una persona, lo que incluye
huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, ADN,
reconocimiento de voz e, incluso, olor corporal. Los datos de comportamiento
incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han
incrementado considerablemente los datos biométricos disponibles.
Algunas aplicaciones de interés son: en el área de seguridad e inteligencia, los

datos biométricos han sido información importante para las agencias de
investigación; en el área de negocios y de comercio electrónico, los datos
biométricos se pueden combinar con datos procedentes de medios sociales, lo
que hace aumentar el volumen de datos contenidos en los datos biométricos. Los
datos generados por la biometría se pueden agrupar en dos grandes categorías:
genética y reconocimiento facial.
4.1.5 Datos experimentales
Se crean datos experimentales cuando las empresas experimentan con diferentes

acciones de marketing y mensajes para ver cuáles son los más efectivos hacia los
consumidores. También podemos interpretar los datos experimentales como una
combinación de datos creados y transaccionales.
Una característica importante en el caso de los datos procedentes de los seres

humanos es la trazabilidad, huellas o rastro digital que dejamos las personas al
navegar o utilizar Internet y los diferentes sitios que visitamos, tales como páginas
de periódicos, revistas o blogs, el uso de las redes sociales. Esta huella o traza
digital identifica el rastro y, en consecuencia, nuestra identidad digital, que se
puede utilizar para definir nuestro perfil o patrón de comportamiento (fotos, videos
que se suben a la nube, contenidos más demandados, mensajes o post (entradas
o artículos) que publican en Facebook o Twitter, búsquedas que realizan, clic en
me gusta, etiquetas en las redes sociales.
5. Arquitectura y ecosistemas de big data
5.1 Arquitectura del big data
5.1.1 Definición
5.1.2 Características
5.1.3 Capas
5.2 Herramientas de almacenamiento
5.2.1 SGBD para datos estructurados (mysql, sqlite, sql server)
5.2.2 SGBD para datos no estructurados (mongo db)
5.3 Herramientas de gestión del big data
5.3.1 Apache Cassandra
Cassandra es una base de datos NoSQL desarrollada en un principio por

Facebook. Es un motor de almacenamiento muy útil para aplicaciones que
necesiten expandirse masivamente. Es la mejor opción si lo que se necesita es
escalabilidad y alta disponibilidad sin comprometer el rendimiento. Netflix y Reddit
son usuarios de esta herramienta.
5.3.2 Apache Spark
Apache Spark es un motor de procesamiento de datos de código abierto

realmente rápido. Creado por Matei Zaharia en la Universidad de Berkeley, se
considera el primer software open source que hace la programación distribuida
(muy en esencia, consiste en distribuir el trabajo entre un grupo de ordenadores,
“cluster”, que trabajan como uno) realmente accesible a los científicos de datos.
Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala,
Python o R. pudiendo ser, según el programa, hasta 100 veces más rápido en
memoria o 10 veces más en disco que Hadoop MapReduce.
Características
 Procesa datos por lotes y en tiempo real

 Admite grandes cantidades de petabytes de datos sin reducir la resolución
 Facilita la combinación de varias bibliotecas como SQL, MLib, Graphx y
Stream en un solo flujo de trabajo.
 Funciona en Hadoop YARN, Apache Mesos, Kubernetes, e incluso en la
nube y tiene acceso a múltiples fuentes de datos
5.3.3 Python
Es una de las herramientas de Big Data más conocidas y usadas en la actualidad,

La razón tiene que ver con su usabilidad, ya que es bastante sencilla de
comprender respecto a otros lenguajes de programación. Python es un lenguaje
avanzado de programación con la ventaja de ser relativamente fácil de usar para
usuarios que no estén familiarizados con la informática de manera profesional,
pero que necesitan trabajar con análisis de datos (estadistas, biólogos, físicos,
lingüistas).
Es una herramienta para Big Data muy eficiente, en parte debido a la gran
comunidad existente, por lo que Python dispone de muchas librerías ya hechas
por otros usuarios. Sin embargo, tiene en su contra que no es un lenguaje muy
rápido en su ejecución, por lo que suele ser empleado para tareas de integración o
tareas donde no haya cálculos pesados.
5.3.4 Lenguaje R
Es un lenguaje de programación y entorno de software para cálculo estadístico y

gráficos. El lenguaje R es de los más usados por los estadistas y otros
profesionales interesados en la minería de datos, la investigación bioinformática y
las matemáticas financieras. Lenguaje R se parece más al lenguaje de las
matemáticas que a otros lenguajes de programación, lo que puede ser un
inconveniente para los programadores a la hora de elegir programar en R para
temas de Big Data. Lo que está claro es que si eliges usar Lenguaje R podrás
disponer de una gran cantidad de librerías creadas por la comunidad de Lenguaje
R y otras tantas herramientas de altísima calidad, por ejemplo, RStudio.
Lenguaje R es actualmente uno de los lenguajes de programación más solicitados

en el mercado laboral de Data Science, lo que lo convierte en una herramienta de
big data muy popular (Ingeniería, 2020).
6 Herramientas de visualización
6.1 Plotly
Es una herramienta de visualización y análisis de datos online. Se trata de un

software colaborativo bastante flexible que ofrece visualizaciones complejas y
sofisticadas. Posee todo tipo de gráficas: columnas, líneas, circulares,
histogramas, etc. Funciona con cualquier formato de datos (Excel, CSV o texto) y
se puede importar desde Google Drive o Dropbox.
Admite una buena colección de tipos de gráficos con funciones integradas para
compartir en redes sociales. Los cuadros y tipos de gráficos disponibles tienen un
aspecto profesional. Crear un gráfico es solo una cuestión de cargar su
información y personalizar el diseño, los ejes, las notas y la leyenda (Itelligent,
2018).
Características:
 Está integrado con lenguajes de programación como Python, JavaScript o

Matlab.
 Se puede compartir y editar datos, gráficas y macros con otros usuarios.
6.2 Visual.ly
Es una herramienta de marketing que crea un contenido atractivo que ayuda a

destacarse de manera sencilla. Esta herramienta posee gran número de talentos,
con más de 1000 diseñadores seleccionados a mano independientes, escritores y
desarrolladores, que escogen el talento adecuado para su proyecto y así, producir
contenidos de gran impacto. Ofrecen una respuesta rápida con su plataforma de
colaboración que hace más eficiente el proceso y te permite trabajar de manera
más cercana con el equipo creativo. Con un representante disponible para
ayudarte. Es una manera rentable y adaptable a tu presupuesto de marketing para
conseguir tus objetivos. Plataforma que crea infografías muy visuales en pocos
segundos con datos extraídos de Twitter o Facebook (Herrero, 2016).
6.3 Google Charts
Es un software de visualización de datos basado en la nube y diseñado para

ayudar a las empresas a gestionar y visualizar datos en forma de gráficos
circulares, pictogramas, histogramas y más. La aplicación ofrece una galería de
gráficos que permite a los usuarios acceder a diversos tipos de gráficos, incluidos
gráficos de líneas y mapas de árbol de jerarquías.
Ofrece diversas funciones, como gestión de contenido, panel interactivo,

analíticas, gestión de conjuntos de datos, descubrimiento visual, creación de
informes y más. Google Charts posibilita a los analistas de datos incorporar datos
comerciales en los gráficos y crear objetos de gráficos personalizados. Los
gráficos se renderizan mediante tecnología HTML5/SVG, que ofrece a los
empleados portabilidad multiplataforma en varios dispositivos (Antonio, 2022).

Introducción

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción

Cargado por

Copyright:

Formatos disponibles

Introducción

El big data es la expresión utilizada para referirnos a la gestión que se especializa

La sociedad de la información nombrada así por diferentes autores, no adquiere

1. Fundamentos Generales del Big Data

En los últimos años las empresas se han embarcado en un proceso de

El resultado de esta tormenta perfecta en la que se hallan todas las

Como resultado, han aparecido múltiples métodos, técnicas y tecnologías que

1.2 Características del big data

 La cantidad de datos que se tienen, sino en lo que se hace con ellos.

 Mejora la toma de decisiones: Mediante el análisis de datos se puede

Big Data: Es un término sombrilla para datasets que no pueden ser

Batch Processing (Procesamiento por Lotes): El procesamiento por lotes es

Cluster Computing (Computación en Cluster): La computación en cluster es la

Data Lake (Lago de Datos): Es un término utilizado para referirse a un gran

Data Mining (Minería de Datos): Es un término amplio para referirse a la práctica

ETL (Extract, Transform, Load): El término ETL significa extraer (Extract),

Hadoop: Es un proyecto Apache que fué tempranamente exitoso en Big Data.

In-Memory Computing (Computación en Memoria): Es una estrategia que

Machine Learning (Aprendizaje de Máquina): Es el estudio y la práctica del

Map Reduce (Big Data Algorithm): Es un algoritmo para agendar trabajo en un

Stream Processing (Procesamiento de Flujos): Es la práctica de la

2.1 Dato vs Información

Dato es el componente mínimo de una información mayor. Necesario para llegar al

Información es el conjunto de datos procesados en forma significativa, ordenados

2.2 Magnitudes físicas del dato y su almacenamiento

Big Data es un gran volumen de datos, estructurados y no estructurados, que,

Estos datos pueden utilizarse para el aprendizaje automático en proyectos de

2.4 Las 3 V`s del big data

Volumen: Esta característica hace referencia a la ingente cantidad de datos

Velocidad: Rapidez con la que los datos son creados, almacenados y

2.5 Las 7 V’s del big data

Viabilidad: La inteligencia empresarial es un aspecto fundamental para la

3. Metodología de un proyecto big data

3.5 Sistemas Hiridos

En la actualidad, existen una gran cantidad de tipos de fuentes de datos disponible

4.1 fuentes de adquisición de datos

El gran volumen de datos procede de numerosas fuentes, especialmente de las

4.1.2 Datos de internet y móviles

4.1.4 Datos sectoriales recopilados por empresas especializadas

La biometría o reconocimiento biométrico se refiere a la identificación automática

Algunas aplicaciones de interés son: en el área de seguridad e inteligencia, los

Se crean datos experimentales cuando las empresas experimentan con diferentes

Una característica importante en el caso de los datos procedentes de los seres

5. Arquitectura y ecosistemas de big data

5.1 Arquitectura del big data

5.2 Herramientas de almacenamiento

5.2.1 SGBD para datos estructurados (mysql, sqlite, sql server)

5.2.2 SGBD para datos no estructurados (mongo db)

5.3 Herramientas de gestión del big data

5.3.1 Apache Cassandra

Cassandra es una base de datos NoSQL desarrollada en un principio por

5.3.2 Apache Spark

Apache Spark es un motor de procesamiento de datos de código abierto

 Procesa datos por lotes y en tiempo real

Es una de las herramientas de Big Data más conocidas y usadas en la actualidad,

Es un lenguaje de programación y entorno de software para cálculo estadístico y

Lenguaje R es actualmente uno de los lenguajes de programación más solicitados

Es una herramienta de visualización y análisis de datos online. Se trata de un

 Está integrado con lenguajes de programación como Python, JavaScript o

Es una herramienta de marketing que crea un contenido atractivo que ayuda a

6.3 Google Charts

Es un software de visualización de datos basado en la nube y diseñado para

Ofrece diversas funciones, como gestión de contenido, panel interactivo,

También podría gustarte