Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Practica 2.1
Lic. Sistemas Computacionales
DEFINICIÓN
Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que
inundan los negocios cada día. Pero no es la cantidad de datos lo que es importante. Lo que importa con el Big
Data es lo que las organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas que
conduzcan a mejores decisiones y movimientos de negocios estratégicos.
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo
tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura,
gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos
relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que
sean útiles.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con datos
estructurados (normalmente de una base de datos relacional) de una aplicación comercial más convencional,
como un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship Management).
Volumen
Velocidad
Variedad de los datos
Veracidad de los datos
Viabilidad
Visualización de los datos
Valor de los datos
1. Volumen de información
El volumen se refiere a la cantidad de datos que son generados cada
segundo, minuto y días en nuestro entorno. Es la característica más
asociada al Big Data, ya que hace referencia a las cantidades masivas
de datos que se almacenan con la finalidad de procesar dicha
información, transformando los datos en acciones.
Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más datos. Para algunas empresas,
el estar en el mundo digital es algo obligatorio, por lo que la cantidad de datos generados es aún mayor. Por
ejemplo, una empresa que vende sus productos únicamente a través de un canal online, le convendría implantar
tecnología Big Data para procesar toda aquella información que recoge su página web rastreando todas las
acciones que lleva a cabo el cliente; conocer donde cliquea más veces, cuántas veces ha pasado por el carrito
de la compra, cuáles son los productos más vistos, las páginas más visitadas, etc.
La velocidad se refiere a los datos en movimiento por las constantes interconexiones que realizamos, es decir, a
la rapidez en la que son creados, almacenados y procesados en tiempo real.
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser
datos estructurados y fáciles de gestionar como son las bases de datos, o datos no estructurados, entre los que
se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos
en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales, artículos que leemos en
blogs, las secuencias de click que hacemos en una misma página, formularios de registro e infinidad de acciones
más que realizamos desde nuestro Smartphone, Tablet y ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que el tratamiento de la información es
totalmente diferente con respecto a los datos estructurados. Para ello, las empresas necesitan integrar, observar
y procesar datos que son recogidos a través de múltiples fuentes de información con herramientas cualificadas.
Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad
de la información recibida.
La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data que está a la orden del día
en las compañías dedicadas al análisis de datos.
5. Viabilidad
Es necesario filtrar a través de esta información y seleccionar cuidadosamente los atributos y factores que son
capaces de predecir los resultados que más interesan a las empresas. El secreto del éxito es descubrir las
relaciones entre las variables ocultas.
Una vez que conoces la viabilidad de tu organización, es el momento de detallar el proyecto en una hoja de
ruta, y desarrollar el plan de negocio.
Cuando hablamos de visualización nos referimos al modo en el que los datos son presentados. Una vez que los
datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de
manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar. Para
que los datos sean comprendidos existen herramientas de visualización que te ayudarán a comprender los datos
gráficamente y en perspectiva contextual.
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de información. El
valor se obtiene de datos que se transforman en información; esta a su vez se convierte en conocimiento, y este
en acción o en decisión. El valor de los datos está en que sean accionables, es decir, que los responsables de
la empresa puedan tomar una decisión (la mejor decisión) en base a estos datos.
No todos los datos de los que partimos se convierten en acción o decisión. Para ello, es necesario tener
tecnologías aplicadas. Por ejemplo, una publicación en una red social, que, gracias al uso de tecnologías de
procesamiento de lenguaje natural, puede medir el sentimiento positivo o negativo, con la ayuda de un
algoritmo de análisis de redes sociales o herramientas que permitan obtener de esto información.
En definitiva, el Big Data es una combinación de estas siete características donde las empresas pueden
obtener una ventaja competitiva frente a sus competidores contribuyendo al éxito asegurado con las tres
últimas V de viabilidad, visualización y la más importante, la de valor.
No todas las compañías optaran por la misma metodología con respecto al desarrollo y la creación de sus
capacidades con tecnologías Big Data. Sin embargo, en todos los sectores existe la posibilidad de recurrir a
estas nuevas tecnologías y analíticas para mejorar la toma de decisiones y el rendimiento, tanto a nivel interno
como en el mercado.
ARQUITECTURA
La arquitectura big data es en la actualidad una de las preocupaciones principales de las empresas y uno de
los campos de la información y la industria 4.0 que más empleo está generando. Tanto quienes están estudiando
esta materia como quienes piensan en convertirse en expertos en ello, deberían conocer los seis pasos
fundamentales que permiten trabajar con el big data para exprimir los datos al máximo.
En el comienzo del trabajo con el big data hay que ir a la fuente e identificar los sistemas originales que van a
proporcionarnos los datos, reuniéndolos en categorías dependiendo del tipo al que pertenezcan. Este primer
paso permite decidir cómo será la arquitectura en la que trabajemos de forma global en el proceso. Para ello
tendremos que identificar todas las fuentes, tanto internas como externas, planificar qué cantidad de datos
vamos a obtener de cada una de las fuentes e identificar el mecanismo que usaremos para realizar la obtención
de la información. También se determinarán los tipos de fuente que se utilizarán, que pueden ser desde servicios
web hasta documentos o bases de datos. También habrá que realizar un análisis para determinar el tipo de los
datos con los que trabajaremos, que pueden tener una estructura, no tener ninguna o tener una semi-estructura.
Obtención de la información
En este segundo punto tendremos en cuenta la importancia de determinar bajo qué periodos se realizará la
obtención de los datos y en especial de cada una de las vías de información utilizadas. Otras cuestiones que se
plantean en este momento incluyen si hay que configurar algún paso clave antes del pre-procesado o si se deben
unificar en distintos grupos.
Almacenamiento de datos
Resulta destacable que, sin importar el contexto, estemos preparados para almacenar grandes cantidades de
información y datos que se pueden actualizar de forma diaria dependiendo de los requisitos y características
de la arquitectura big data que se esté aplicando en la empresa. Hay distintos métodos de almacenamiento,
como el sistema de distribución de archivos Hadoop, muy utilizado en todo tipo de entidades. Estos niveles de
almacenamiento se pueden escalar y administrar con facilidad, utilizando distintas configuraciones. Una de ellas
es el almacenamiento sincrónico, en el cual la información se analiza siempre en tiempo real o con un breve
espacio de espera. El otro es el asíncrono, en el que los datos se capturan y se analizan posteriormente en
bloques. En esta fase determinaremos qué tipo de almacenamiento nos interesa en base a los requisitos que
tengamos en la compresión de la información, el formato de los datos, el tipo o la frecuencia con la cual van a
entrar nuevos.
Procesado de la información
Volvemos a lo mencionado anteriormente en esta fase en la cual, después de haberse recogido los datos, o en
el mismo momento, comienza el procesado de la información. Han cambiado mucho los tiempos y ahora mismo
se han estipulado dos formatos distintos para el procesado. El procesado en bloque se determina para un
intervalo específico de tiempo y se planifica con unos horarios y procesos bien estipulados. Se pueden usar
sistemas como Hive o MapReduce con los que se analiza, por ejemplo, la carga de datos históricos. Otro de los
procesados es el que se lleva a cabo en tiempo real, con transformaciones en vivo de la información que lo
requiere. Para ello se utilizan herramientas como Tez, Spark o Apache Drill. En último lugar está el procesado
híbrido, que combina características de los dos tipos dependiendo de las necesidades exactas del big data en
cada caso.
A partir de aquí la información ya queda disponible para su consumo, de lo cual se pueden beneficiar los
profesionales de distintos departamentos de las empresas. Se puede consumir la información exportándola a
otros grupos de datos donde se aplicará de forma activa. También se pueden usar herramientas de escaneo
para visualizar y usar esta información para realizar informes, mientras que por supuesto, no hay que restar
relevancia a la exploración de los datos en un entorno de trabajo cerrado tipo Sandbox. Hagamos lo que
hagamos con la información obtenida es conveniente que sepamos aprovechar los datos y la arquitectura del
big data en el cual hayamos trabajado.
Hay que saber seleccionar del árbol aquello que llama la atención. No es lo mismo un usuario que “pasa por
la Web”, que la persona que decide comprar, registrarse, pagar y dejar un comentario en una red social. La
información no es sencilla de gestionar, recolectar y separar, porque hay indicadores que son difíciles de
medir en su origen y salida.
Aun así, debemos hacer el esfuerzo de interpretar los datos de manera eficiente y productiva. La aparición
del Inbound Marketing, Marketing de Contenidos y otra serie de detalles, como el retargeting, son conceptos
que facilitan la comunicación e intercambio de intereses.
Método
Leemos, identificamos y analizamos los datos sin problema. La ayuda de un experto logra concentrar el
esfuerzo de los profesionales que ayudan a la consolidación de la mejor estrategia en materia de Big Data en
las empresas. Lo que hace que pensemos en un interlocutor o varios para saber qué tipo de indicadores son los
más adecuados en la definición.
Recopilación
La búsqueda de otros canales, al margen de las redes sociales, la propia herramienta de gestión y otras
aplicaciones, llevan a las corporaciones a acercarse a nuevos métodos de recopilación de datos, ya que
precisan de un gran volumen y variedad para ser más ágiles en un sector concreto.
CONCLUSIÓN
Tras haber finalizado esta investigación, podemos concluir que el Big Data permite una mayor transparencia y
una mejor utilización de la información. Si los datos llegaran a ser transparentes y al alcance de todos se
beneficiarían muchos sectores (por ejemplo, el sector público).
Los datos son fundamentales para mejorar el rendimiento y comprender mejor el contexto en que se mueven
las organizaciones.
Los datos nos ayudan a entender mejor a nuestros clientes y a nuestro público. A través de los datos podemos
anticipar las necesidades y escuchar de una manera más activa las demandas de los consumidores,
convirtiendo la escucha en estrategias de acción concretas. El Big Data también es útil para la segmentación.
o Automatizar el proceso de toma de decisiones y hacerlo más simple.
REFERENCIAS BIBLIOGRAFICAS
https://www.powerdata.es/big-data
http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-7-v/
https://www.universidadviu.com/arquitectura-big-data-seis-pasos-sacarle-partido/
https://www.iebschool.com/blog/big-data-en-las-empresas-big-data/