Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fuente: ngdata
El concepto de Big Data se puede definir como el análisis y observación de una cantidad
enorme conjuntos de datos. Los requisitos para poner este concepto en práctica se requiere
recolectar, tratar grandes volúmenes de datos y analizar la información obtenida de éstos. El gran
obstáculo de esto es la necesidad de utilizar fórmulas y herramientas de procesamiento que
permitan procesar cantidades altas de datos en poco tiempo, y con alta calidad de procesamiento.
Estas herramientas pudieron desarrollarse en estos últimos tiempos, debido a la evolución de las
capacidades de las computadoras.
Bueno, para poder entender qué es Big Data, conviene empezar a narrar desde los inicios
de la gestión de datos, para poder comprender de dónde surgió, como progresó, y cómo llegó al
estado actual, donde tenemos tecnologías avanzadas trabajando cantidades industriales de datos
constantemente..
Muchos considerarían que cada nuevo paradigma que surge en materia de gestión de
datos es un comienzo desde cero, pero no sería realmente así. Al igual que otros campos del
conocimiento y de desarrollo tecnológico, la gestión de datos fue atravesando diferentes etapas
que se fueron construyendo sobre los logros de momentos anteriores. Usualmente este tipo de
avances se refiere principalmente al progreso a nivel de software en sí, pero en el caso de la
gestión de datos, se debería considerar fuertemente los avances a nivel de hardware.
Considerando el hecho de que las capacidades de almacenamiento, de entrada y salida de datos,
de conectividad y los cambios completos de paradigma como virtualización y/o trabajos directo
sobre la nube, se debería considerar fuertemente al progreso del hardware también. Además, el
hecho de que no solo los precios de equipamiento se haya tornado más accesible y que se hayan
desarrollado variedades de tecnologías que se adaptan a los requisitos específicos de las
empresas influyen notoriamente en el crecimiento de Big Data en la sociedad.
.
2.2.2: Modelo Relacional.
Durante los años 70 surge el modelo relacional de base de datos, de la mano de IBM. Los
principios de este modelo pasaron a formar parte del núcleo de algunas herramientas entre las
cuales el lenguaje de programación SQL (Structured Query Language) es la más conocida. Este
modelo permitió efectuar simples consultas con el objetivo de recuperar información particular
almacenadas dentro de bases de datos, así como realizar cambios en ellas. Esta versatilidad
resultó ser una gran ventaja para aquellos que tenían acceso a esta tecnología, y fueron
utilizadas a nivel masivo en el mercado por décadas.
En este contexto de crecimiento de datos fue donde empezó a surgir a fines de los años 80
el término de Big Data (los trabajos John Mashey, un científico informático estadounidense, son
uno de los orígenes aceptados del término). que se difunde por primera vez el término Big Data
para referir los enormes volúmenes de datos almacenados en las organizaciones.
“Los guardianes del Big Data dicen que lo hacen por el beneficio de sus clientes. Pero los
datos pueden ser utilizados para propósitos diferentes de sus intenciones iniciales”. Erik
Larson. Fuente
En este artículo, Larson desarrolla algunas especulaciones sobre el origen del
spam(correo basura) que recibe, y lo vincula a los usos comerciales más amplios, teniendo
una visión que precede a cientos de debates sobre la privacidad de los datos personales
que llegarían varios años después.
Resulta contra intuitivo considerar el hecho de que las organizaciones habían invertido
tantos recursos en desarrollar modelos basados en la lógica de los datos eficientemente
estructurados cuando es sabido que, al generarse la globalización de Internet, la mayoría de los
datos transmitidos y almacenados presentaban formatos independientes y presentaciones
individuales, es decir, que el grueso de los datos en movimiento dejaron de ser del tipo
estructurado.
Muy pronto, las organizaciones tuvieron la necesidad de gestionar contenido en sus bases
de datos que llegaba a través de Internet y con esto, la plétora de tipos diferentes de datos, tales
como páginas web, imágenes, audio, video, etc. Adicionalmente fueron surgiendo, de modo
independiente, en el mercado, herramientas para la gestión de negocios, control de versiones y
colaboración que fueron haciendo aún más complejo el universo de lo que podía almacenarse en
las bases de datos.
Título: “Netscape, uno de los primeros navegadores” Fuente
2.2.3.1 Metadatos
Los metadatos son un subconjunto de datos que describen y permiten identificar a otros
datos de un calibre mayor. Un ejemplo de metadatos en la vida real, puede ser la etiqueta de una
bebida, la cual contiene los ingredientes, valor nutricional, lugar de fabricación, datos de contacto
a la empresa y atención al consumidor, etc. Otro ejemplo de metadatos, son los hashtags y/o
etiquetas utilizadas en las redes sociales, las cuales le dan un factor descriptivo y contexto a la
foto subida
Los metadatos continúan hoy siendo esenciales para muchas organizaciones. Sin
embargo, el avance tecnológico, planteó un escenario donde surge toda una nueva generación de
fuentes de datos que se actualizan a velocidades sin precedentes. A partir de este momento
ingresamos, entonces, en la etapa del Big Data, propiamente dicha.
2.2.4: El Big Data
¿Es la era del Big data realmente algo nuevo o es, en definitiva, una evolución natural de la
gestión de datos a medida que los recursos tecnológicos se sofisticaban? Quizá la respuesta más
adecuada es pensar que ambas respuestas son correctas, porque el desarrollo actual no sería
posible sin los antecedentes de las últimas cinco décadas. No obstante, lo que resulta
extremadamente novedoso en la actualidad es que el costo de almacenamiento sea razonable
para que el análisis de la información y su eventual uso resulte viable. Algunas tecnologías
desarrolladas recientemente como la virtualización, el almacenamiento en la nube y el
procesamiento paralelo (tecnologías que abordaremos en los próximos apartados), hicieron que
el uso del Big Data fuera posible en términos prácticos.
Las tres primeras V presentadas, conforman la definición clásica de Big Data. Sin
embargo, más recientemente, se han añadido nuevas V a la caracterización original de Laney que
buscan ampliar aún más la definición conceptual.
2.3.1: Volumen
Como hemos hablado previamente, el Big Data se refiere a un volumen enorme de datos.
La gran mayoría de estos datos son generados de forma automatizada, tanto por máquinas,
redes e interacciones electrónicas que se han vuelto masivas. Al haber avanzado en conjunto, las
tecnologías para almacenarlos y procesarlos ha avanzado considerablemente, esto ya no supone
un problema tecnológico. Es decir, el problema de los volúmenes requeridos para el
almacenamiento fue solucionado de varias maneras, entre ellas el almacenamiento en la nube
con capacidades de almacenamiento elásticas.
2.3.2; Variedad
2.3.3: Velocidad
El concepto de velocidad se refiere al ritmo en que los datos de entrada fluyen desde sus
diversas fuentes, es decir,velocidad se refiere al flujo de datos. En la actualidad, el flujo de datos
es continuo y masivo. Los datos relevados en tiempo real permiten que investigadores y
organizaciones puedan tomar mejores decisiones porque aportan información valiosa que, entre
otras cuestiones, suelen implicar ventajas competitivas estratégicas.
La veracidad de los datos expresa y plantea la preocupación por el posible sesgo, el ruido,
los errores de muestreo y la alteración de datos. Es posible que constituya el reto principal del Big
Data en la actualidad. El problema de la veracidad de los datos, pone en juego algo que podemos
considerar como una V extra,la volatilidad, que será explicada más abajo.
2.3.5: Valor
Y finalmente hay quienes mencionan, además, una quinta V: el valor de los datos. Se trata,
en este sentido, de utilizar los datos de manera rentable y a la vez eficiente, para que los análisis
de Big Data justifiquen la inversión que requiere su implementación. Esta V es muy simple,
plantearse antes que nada, que la inversión en Big Data termine generando ganancias al final del
día y no pérdidas
2.3.6 Volatilidad
La volatilidad indica, que los datos obtenidos puede que ya no sean vigentes al momento
de analizarlos y procesarlos. Principalmente en las redes sociales, y en otras plataformas como
por ejemplo la bolsa de valores, las tendencias son extremadamente inestables, cambian
constantemente dependiendo de múltiples causantes, y si el muestreo de datos termina siendo
lento, puede generar resultados erróneos, o “vencidos”, ya sea que trate de decir que una
tendencia que se dio la semana pasada es algo en lo que invertir el día de hoy, en el cual la
tendencia principal es otra totalmente diferente
https://youtu.be/w4vsFKMO7XA
Los datos sucios son, en términos simples, datos erróneos por múltiples motivos, ejemplo:
● Datos incompletos
● Datos inválidos
● Datos duplicados
● Datos falsos,
● Etc.
El origen de estos datos sucios es realmente variado. Una de las causas más comunes es
el error humano al momento de que el data entry ingresa los datos al sistema y se equivoca al
introducirlos en el sistema. Otra de las causas suele ser porque esos datos han quedado
obsoletos y nadie los ha actualizado a través de toda la infraestructura, como, por ejemplo, un
cambio de domicilio de un cliente. O bien porque los datos se generaron con intenciones
maliciosas para ofuscar cierta información, ya sea con objetivos ilegales como, por ejemplo,
manipulación de registros de pagos
Estos son un potencial riesgo para cualquier análisis que se planee hacer sobre los datos,
debido a que pueden generar resultados no deseados y/o irregulares.Para evitar que estos datos
sucios influyan en el procesamiento de estos datos, se suele aplicar las pautas de la limpieza de
datos.
Y las consecuencias de los datos sucios no son poca cosa, se estima que en Estados
Unidos, las pérdidas monetarias por consecuencia de los datos sucios ronda alrededor de 3.100
millones de dólares anuales, una cifra para nada pequeña.
Título: Dirty Data Fuente
2.5.3. Verificación:
2.5.4. Transformación:
Consiste en proceder a ejecutar el flujo ETL para cargar y refrescar el data
warehouse, o durante la respuesta a consultas, en los casos de multiplicidad de fuentes de
origen.
Una vez se han eliminado los errores de calidad, los datos "limpios" deben
reemplazar a los que no lo están en las fuentes originales, para que las aplicaciones de
legado puedan beneficiarse también de ellos, evitando necesitar la aplicación de acciones
de data cleansing en el futuro.
La limpieza de datos también posee sus propios desafíos e inconvenientes a los cuales se
tiene que considerar y enfrentar constantemente. Estos son:
Bibliografía
https://ignsl.es/historia-del-big-data/
https://hablemosdeempresas.com/empresa/dirty-data-2/
https://www.tableau.com/es-es/learn/whitepapers/costs-of-dirty-data
https://empresas.blogthinkbig.com/5-v-big-data/