Está en la página 1de 13

Unidad N°2

Las 3+ V del Big Data

Fuente: ngdata

2.1 Qué es Big Data

El concepto de Big Data se puede definir como el análisis y observación de una cantidad
enorme conjuntos de datos. Los requisitos para poner este concepto en práctica se requiere
recolectar, tratar grandes volúmenes de datos y analizar la información obtenida de éstos. El gran
obstáculo de esto es la necesidad de utilizar fórmulas y herramientas de procesamiento que
permitan procesar cantidades altas de datos en poco tiempo, y con alta calidad de procesamiento.
Estas herramientas pudieron desarrollarse en estos últimos tiempos, debido a la evolución de las
capacidades de las computadoras.

En comparación a los métodos tradicionales de análisis, estos procesos se llevan a cabo


en un tiempo muy reducido. En la actualidad, una empresa tiene una producción enorme de datos
de manera diaria. Estos datos, de ser presentados y analizados permite que la productividad y el
progreso de la empresa aumenten notablemente, lo cual es de alta utilidad para estas entidades.
De esta manera la empresa puede conocer las capacidades de sus trabajadores, y generar un
ambiente donde se puede sacar el mayor potencial de los empleados, lo que beneficia tanto a los
individuos como a la misma empresa.

Debido a estas características, el Big Data posee la capacidad de procesar y administrar


una gran cantidad de información en un corto período de tiempo. Así, las empresas comienzan a
adaptarse a un nuevo sistema de trabajo. Todo esto suena a positivo, pero, debido a su
complejidad y cantidad de trabajo, no cualquiera puede manejar el Big Data de manera efectiva.
Es necesario un gran número de profesionales dedicados exclusivamente a este trabajo. A esto
se le suma la gran demanda actual por partes de las empresas. Es por ello que se le considera un
puesto de trabajo con una gran demanda y una multitud de salidas.

2.2 Breve historia de los procesos de gestión de datos

Bueno, para poder entender qué es Big Data, conviene empezar a narrar desde los inicios
de la gestión de datos, para poder comprender de dónde surgió, como progresó, y cómo llegó al
estado actual, donde tenemos tecnologías avanzadas trabajando cantidades industriales de datos
constantemente..

Muchos considerarían que cada nuevo paradigma que surge en materia de gestión de
datos es un comienzo desde cero, pero no sería realmente así. Al igual que otros campos del
conocimiento y de desarrollo tecnológico, la gestión de datos fue atravesando diferentes etapas
que se fueron construyendo sobre los logros de momentos anteriores. Usualmente este tipo de
avances se refiere principalmente al progreso a nivel de software en sí, pero en el caso de la
gestión de datos, se debería considerar fuertemente los avances a nivel de hardware.
Considerando el hecho de que las capacidades de almacenamiento, de entrada y salida de datos,
de conectividad y los cambios completos de paradigma como virtualización y/o trabajos directo
sobre la nube, se debería considerar fuertemente al progreso del hardware también. Además, el
hecho de que no solo los precios de equipamiento se haya tornado más accesible y que se hayan
desarrollado variedades de tecnologías que se adaptan a los requisitos específicos de las
empresas influyen notoriamente en el crecimiento de Big Data en la sociedad.

2.2.1: Las búsquedas por “Fuerza Bruta”.

Alrededor de la década de los 60, las computadoras comenzaron a comercializarse a nivel


de empresas, para flexibilizar sus negocios. Debido a esto, las empresas almacenaban datos
(sobre sus ventas, sus clientes). Como en esta época no se habían establecido protocolos
generales de almacenamiento, los datos almacenados se encontraban dispersos en los
almacenamientos. Esto produjo que cualquier búsqueda que se requiera para un posible análisis,
por ejemplo, para revisar el historial de sus clientes, tenían que emplear métodos de búsqueda
exhaustiva (también llamados métodos de fuerza bruta). El método de fuerza bruta es
simplemente recorrer todos los datos almacenados hasta encontrar los datos pertinentes, lo que
conllevaba que cualquier operación requerida generara una pérdida importante de tiempo hasta
encontrar los datos.

.
2.2.2: Modelo Relacional.

Durante los años 70 surge el modelo relacional de base de datos, de la mano de IBM. Los
principios de este modelo pasaron a formar parte del núcleo de algunas herramientas entre las
cuales el lenguaje de programación SQL (Structured Query Language) es la más conocida. Este
modelo permitió efectuar simples consultas con el objetivo de recuperar información particular
almacenadas dentro de bases de datos, así como realizar cambios en ellas. Esta versatilidad
resultó ser una gran ventaja para aquellos que tenían acceso a esta tecnología, y fueron
utilizadas a nivel masivo en el mercado por décadas.

El nivel de demanda y uso de este modelo terminó generando su propia serie de


problemas, la cantidad de datos a almacenar incrementaba de manera acelerada y en
consecuencia, el modelo se volvió costoso y lento el acceso a las consultas. Estos problemas a
su vez permitieron que ciertos problemas secundarios salgan a la luz, tales como duplicación de
datos, o falta de precisión a la hora de hacer cálculos. Esto llevó a que una buena parte de la
industria del software se enfocara en resolver progresivamente estos problemas, desarrollando
programas cada vez más sofisticados y eficientes que los anteriores, esto permitió mitigar en gran
parte los problemas que fueron surgiendo.

En este contexto de crecimiento de datos fue donde empezó a surgir a fines de los años 80
el término de Big Data (los trabajos John Mashey, un científico informático estadounidense, son
uno de los orígenes aceptados del término). que se difunde por primera vez el término Big Data
para referir los enormes volúmenes de datos almacenados en las organizaciones.

2.2.3 Guardianes del Big Data

En 1989,Erik Larson, periodista estadounidense, utilizó por primera vez el término


Big Data en el sentido que se le da actualmente. En un artículo publicado por la revista
Harpers Magazine del mismo año

“Los guardianes del Big Data dicen que lo hacen por el beneficio de sus clientes. Pero los
datos pueden ser utilizados para propósitos diferentes de sus intenciones iniciales”. Erik
Larson. Fuente
En este artículo, Larson desarrolla algunas especulaciones sobre el origen del
spam(correo basura) que recibe, y lo vincula a los usos comerciales más amplios, teniendo
una visión que precede a cientos de debates sobre la privacidad de los datos personales
que llegarían varios años después.

Finalmente, a principios de los 90 se empiezan a popularizar herramientas de


software más sofisticadas que son capaces de facilitar el análisis la actividad comercial y el
rendimiento de las operaciones, lo que coincide con el despliegue de Internet y, por lo
tanto, da comienzo a una nueva etapa

2.2.3: El universo heterogéneo de la web.

Resulta contra intuitivo considerar el hecho de que las organizaciones habían invertido
tantos recursos en desarrollar modelos basados en la lógica de los datos eficientemente
estructurados cuando es sabido que, al generarse la globalización de Internet, la mayoría de los
datos transmitidos y almacenados presentaban formatos independientes y presentaciones
individuales, es decir, que el grueso de los datos en movimiento dejaron de ser del tipo
estructurado.

Muy pronto, las organizaciones tuvieron la necesidad de gestionar contenido en sus bases
de datos que llegaba a través de Internet y con esto, la plétora de tipos diferentes de datos, tales
como páginas web, imágenes, audio, video, etc. Adicionalmente fueron surgiendo, de modo
independiente, en el mercado, herramientas para la gestión de negocios, control de versiones y
colaboración que fueron haciendo aún más complejo el universo de lo que podía almacenarse en
las bases de datos.
Título: “Netscape, uno de los primeros navegadores” Fuente

Esta alta taza de heterogeneidad a la hora de la distribución de datos conllevó al desarrollo


de metodologías y soluciones para generar un punto en común entre diferentes tipos de datos.
Entre estas soluciones surgió el concepto de metadatos, un conjunto de datos adicionales dentro
de los archivos, los cuales detallan características de los mismos, facilitando el trabajo sobre
ellos.

2.2.3.1 Metadatos

Los metadatos son un subconjunto de datos que describen y permiten identificar a otros
datos de un calibre mayor. Un ejemplo de metadatos en la vida real, puede ser la etiqueta de una
bebida, la cual contiene los ingredientes, valor nutricional, lugar de fabricación, datos de contacto
a la empresa y atención al consumidor, etc. Otro ejemplo de metadatos, son los hashtags y/o
etiquetas utilizadas en las redes sociales, las cuales le dan un factor descriptivo y contexto a la
foto subida

En informática, los metadatos son vitales a la hora de definir el significado y el objetivo de


un dato. Esto es de vital importancia para una organización, ya que mediante los metadatos uno
puede encontrar y recuperar datos guardados en bases enormes de manera efectiva.

Título: “Ejemplo de metadatos en un pote de mayonesa” Fuente

Los metadatos continúan hoy siendo esenciales para muchas organizaciones. Sin
embargo, el avance tecnológico, planteó un escenario donde surge toda una nueva generación de
fuentes de datos que se actualizan a velocidades sin precedentes. A partir de este momento
ingresamos, entonces, en la etapa del Big Data, propiamente dicha.
2.2.4: El Big Data

¿Es la era del Big data realmente algo nuevo o es, en definitiva, una evolución natural de la
gestión de datos a medida que los recursos tecnológicos se sofisticaban? Quizá la respuesta más
adecuada es pensar que ambas respuestas son correctas, porque el desarrollo actual no sería
posible sin los antecedentes de las últimas cinco décadas. No obstante, lo que resulta
extremadamente novedoso en la actualidad es que el costo de almacenamiento sea razonable
para que el análisis de la información y su eventual uso resulte viable. Algunas tecnologías
desarrolladas recientemente como la virtualización, el almacenamiento en la nube y el
procesamiento paralelo (tecnologías que abordaremos en los próximos apartados), hicieron que
el uso del Big Data fuera posible en términos prácticos.

Título: Línea temporal de Big Data

Fuente: Elaboración propia.


2.3. Las tres+ V de la Big Data

En el año 2001, Doug Laney, un reconocido analista de la consultora Gartner, hizo la


primera definición formal del Big Data (en español, a veces se traduce como Macrodatos o Datos
Masivos). Laney postuló, para esta definición, lo que se conoce como “las tres V” (volumen,
variedad y velocidad) definiendo así las características principales del Big Data.

Las tres primeras V presentadas, conforman la definición clásica de Big Data. Sin
embargo, más recientemente, se han añadido nuevas V a la caracterización original de Laney que
buscan ampliar aún más la definición conceptual.

2.3.1: Volumen

Como hemos hablado previamente, el Big Data se refiere a un volumen enorme de datos.
La gran mayoría de estos datos son generados de forma automatizada, tanto por máquinas,
redes e interacciones electrónicas que se han vuelto masivas. Al haber avanzado en conjunto, las
tecnologías para almacenarlos y procesarlos ha avanzado considerablemente, esto ya no supone
un problema tecnológico. Es decir, el problema de los volúmenes requeridos para el
almacenamiento fue solucionado de varias maneras, entre ellas el almacenamiento en la nube
con capacidades de almacenamiento elásticas.

2.3.2; Variedad

Variedad se refiere intrínsecamente a la heterogeneidad, tanto de fuentes como de tipos de


datos. Hace no muchos años los únicos datos que se almacenaban eran planillas de cálculos y
bases de datos convencionales. En la actualidad se almacenan también imágenes, videos,
audios, coordenadas GPS, entre otros datos Este tipo de datos, usualmente no se encuentran
archivados de forma estructurada por lo que exigen tecnologías especiales para ser
almacenados, identificados y analizados.

2.3.3: Velocidad

El concepto de velocidad se refiere al ritmo en que los datos de entrada fluyen desde sus
diversas fuentes, es decir,velocidad se refiere al flujo de datos. En la actualidad, el flujo de datos
es continuo y masivo. Los datos relevados en tiempo real permiten que investigadores y
organizaciones puedan tomar mejores decisiones porque aportan información valiosa que, entre
otras cuestiones, suelen implicar ventajas competitivas estratégicas.

Acá inician las Vs restantes


2.3.4: Veracidad

La veracidad de los datos expresa y plantea la preocupación por el posible sesgo, el ruido,
los errores de muestreo y la alteración de datos. Es posible que constituya el reto principal del Big
Data en la actualidad. El problema de la veracidad de los datos, pone en juego algo que podemos
considerar como una V extra,la volatilidad, que será explicada más abajo.

2.3.5: Valor

Y finalmente hay quienes mencionan, además, una quinta V: el valor de los datos. Se trata,
en este sentido, de utilizar los datos de manera rentable y a la vez eficiente, para que los análisis
de Big Data justifiquen la inversión que requiere su implementación. Esta V es muy simple,
plantearse antes que nada, que la inversión en Big Data termine generando ganancias al final del
día y no pérdidas

2.3.6 Volatilidad

La volatilidad indica, que los datos obtenidos puede que ya no sean vigentes al momento
de analizarlos y procesarlos. Principalmente en las redes sociales, y en otras plataformas como
por ejemplo la bolsa de valores, las tendencias son extremadamente inestables, cambian
constantemente dependiendo de múltiples causantes, y si el muestreo de datos termina siendo
lento, puede generar resultados erróneos, o “vencidos”, ya sea que trate de decir que una
tendencia que se dio la semana pasada es algo en lo que invertir el día de hoy, en el cual la
tendencia principal es otra totalmente diferente

Título: Las 5 V. Fuente

2.4 Big Data en tres minutos


El siguiente video de youtube presenta de manera simple los fundamentos de Big Data: las
cinco V y algunos de los usos y aplicaciones de esta tecnología que son ya hoy una realidad en el
mundo moderno.

https://youtu.be/w4vsFKMO7XA

2.5 Datos Sucios y limpieza de datos

Los datos sucios son, en términos simples, datos erróneos por múltiples motivos, ejemplo:

● Datos incompletos
● Datos inválidos
● Datos duplicados
● Datos falsos,
● Etc.

El origen de estos datos sucios es realmente variado. Una de las causas más comunes es
el error humano al momento de que el data entry ingresa los datos al sistema y se equivoca al
introducirlos en el sistema. Otra de las causas suele ser porque esos datos han quedado
obsoletos y nadie los ha actualizado a través de toda la infraestructura, como, por ejemplo, un
cambio de domicilio de un cliente. O bien porque los datos se generaron con intenciones
maliciosas para ofuscar cierta información, ya sea con objetivos ilegales como, por ejemplo,
manipulación de registros de pagos

Estos son un potencial riesgo para cualquier análisis que se planee hacer sobre los datos,
debido a que pueden generar resultados no deseados y/o irregulares.Para evitar que estos datos
sucios influyan en el procesamiento de estos datos, se suele aplicar las pautas de la limpieza de
datos.

Y las consecuencias de los datos sucios no son poca cosa, se estima que en Estados
Unidos, las pérdidas monetarias por consecuencia de los datos sucios ronda alrededor de 3.100
millones de dólares anuales, una cifra para nada pequeña.
Título: Dirty Data Fuente

El objetivo principal de la limpieza de datos es poder mantener la calidad de los datos lo


más alta posible. Para lograr ese objetivo se trata de ir por fases

2.5.1. Análisis de datos:

Su misión es determinar qué tipo de errores e inconsistencias deben ser eliminados.


además de una inspección manual de las muestras de datos, es necesaria la
automatización, en otras palabras, la incorporación de programas que actúen sobre los
metadatos para detectar problemas de calidad de datos que afecten a sus propiedades.

2.5.2. Definición del flujo de transformación y reglas de mapeo:

Dependiendo del número de fuentes de origen de datos, su heterogeneidad y la


previsión de problemas de calidad de los datos, será necesario ejecutar más o menos
pasos en la etapa de transformación y adecuación. Lo más adecuado es plantear una
acción a dos niveles, una en un estadio temprano, que corrija los problemas relacionados
con datos procedentes de una única fuente y los prepare para una buena integración; y
otra, que intervenga de forma posterior, tratando los problemas de datos procedentes de
una diversidad de fuentes.

2.5.3. Verificación:

El nivel de adecuación y la efectividad de una acción de transformación debe


siempre ser testado y evaluado; uno de los principios del data cleansing. Por norma
general, esta validación se aplica a través de múltiples iteraciones de los pasos de análisis,
diseño y verificación; ya que algunos errores sólo se ponen de evidencia tras aplicarse a
los datos un número determinado de transformaciones.

2.5.4. Transformación:
Consiste en proceder a ejecutar el flujo ETL para cargar y refrescar el data
warehouse, o durante la respuesta a consultas, en los casos de multiplicidad de fuentes de
origen.

2.5.5. Reflujo de datos limpios:

Una vez se han eliminado los errores de calidad, los datos "limpios" deben
reemplazar a los que no lo están en las fuentes originales, para que las aplicaciones de
legado puedan beneficiarse también de ellos, evitando necesitar la aplicación de acciones
de data cleansing en el futuro.

Título: Ciclo de depuración de datos Fuente

La limpieza de datos también posee sus propios desafíos e inconvenientes a los cuales se
tiene que considerar y enfrentar constantemente. Estos son:

2.5.6. Corrección de Error y pérdida de información:

El mayor desafío dentro de la limpieza de datos es la corrección de valores, pues


incluye el quitar duplicados y entradas inválidas. En muchos casos, la información
disponible sobre tales anomalías es limitada e insuficiente de determinar las
transformaciones necesarias o correcciones abandonando la tachadura de tales entradas
como la única solución. La eliminación de datos aunque, conduce a la pérdida de
información que puede ser en particular costosa si hay una cantidad grande de datos
suprimidos.

2.5.7 Mantenimiento de Datos Limpiados:

La limpieza de datos es cara y el tiempo consumido es grande. Después de haber


realizado la limpieza de datos y el alcanzar una colección de datos sin errores, uno querría
evitar la relimpieza de datos íntegramente después de que se realizan algunos cambios en
la base de datos. El proceso sólo debería ser repetido sobre los valores que se han
cambiado, esto significa, que debemos guardar un linaje limpiador que requiere una
eficiente recolección de datos y técnicas de administración de datos.

2.5.8. Limpieza de Datos en Entornos virtualmente Integrados:

En Fuentes prácticamente integradas como DiscoveryLink de la IBM, la limpieza de


datos tiene que ser realizada siempre con acceso de datos de diferentes fuentes, con una
considerable disminución el tiempo de respuesta y la eficacia.

2.5.9 Limpieza de datos en el Framework:

En muchos casos no será posible llegar a un completo mapa de limpieza de datos,


que guíe el proceso por adelantado. Esto hace que la limpieza de datos sea un proceso
iterativo que implica la exploración significativa y la interacción que puede requerir un
framework, es decir, un marco que incluya una colección de métodos para la detección de
errores y la eliminación además de la revisión de datos. Esto puede ser integrado con otras
etapas informáticas como la integración y el mantenimiento

Título: Depuración de datos Fuente

Bibliografía
https://ignsl.es/historia-del-big-data/

https://hablemosdeempresas.com/empresa/dirty-data-2/

https://www.tableau.com/es-es/learn/whitepapers/costs-of-dirty-data

https://empresas.blogthinkbig.com/5-v-big-data/

También podría gustarte