Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ir a la navegaci�nIr a la b�squeda
Un sistema de representaci�n creado por IBM que muestra macrodatos que consisten en
las ediciones de Wikipedia realizadas por el bot Pearle. Su visualizaci�n m�s
racional aparece acompa�ada de colores y posiciones en su representaci�n.
Los macrodatos,1? tambi�n llamados datos masivos, inteligencia de datos, datos a
gran escala o big data (terminolog�a en idioma ingl�s utilizada com�nmente) es un
t�rmino que hace referencia al concepto relativo a conjuntos de datos tan grandes y
complejos como para que hagan falta aplicaciones inform�ticas no tradicionales de
procesamiento de datos para tratarlos adecuadamente. Por ende, los procedimientos
usados para encontrar patrones repetitivos dentro de esos datos son m�s
sofisticados y requieren software especializado. En textos cient�ficos en espa�ol
con frecuencia se usa directamente el t�rmino en ingl�s big data, tal como aparece
en el ensayo de Viktor Sch�nberger La revoluci�n de los datos masivos.2?3?
El uso moderno del t�rmino "big data" tiende a referirse al an�lisis del
comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando
predicciones a trav�s de los patrones observados. La disciplina dedicada a los
datos masivos se enmarca en el sector de las tecnolog�as de la informaci�n y la
comunicaci�n. Esta disciplina se ocupa de todas las actividades relacionadas con
los sistemas que manipulan grandes conjuntos de datos. Las dificultades m�s
habituales vinculadas a la gesti�n de estas cantidades de datos se centran en la
recolecci�n y el almacenamiento,4? b�squeda, compartici�n, an�lisis,5? y
visualizaci�n. La tendencia a manipular enormes cantidades de datos se debe a la
necesidad, en muchos casos, de incluir dicha informaci�n para la creaci�n de
informes estad�sticos y modelos predictivos utilizados en diversas materias, como
los an�lisis de negocio, publicitarios, los datos de enfermedades infecciosas, el
espionaje y seguimiento a la poblaci�n o la lucha contra el crimen organizado.6?
Una definici�n de 2016 establece que "Big data representa los activos de
informaci�n caracterizados por un volumen, velocidad y variedad tan altos que
requieren una tecnolog�a espec�fica y m�todos anal�ticos para su transformaci�n en
valor".23? Adem�s, algunas organizaciones agregan una nueva V, veracidad para
describirlo,24? revisionismo cuestionado por algunas autoridades de la
industria.25? Las tres V (volumen, variedad y velocidad) se han ampliado a otras
caracter�sticas complementarias del big data:
La creciente madurez del concepto describe de manera m�s n�tida la diferencia entre
"big data" y "business intelligence":
La business intelligence usa estad�sticas descriptivas con datos con alta densidad
de informaci�n para medir cosas, detectar tendencias, etc.
big data usa estad�sticas inductivas y conceptos de identificaci�n de sistemas no
lineales28? para inferir leyes (regresiones, relaciones no lineales y efectos
causales) a partir de grandes conjuntos de datos con baja densidad de informaci�n
para revelar relaciones y dependencias, o para realizar predicciones de resultados
y comportamientos.29?
Caracter�sticas
Los macrodatos se pueden describir por las siguientes caracter�sticas:30?
En 2004, Google public� un documento sobre un proceso llamado MapReduce que utiliza
una arquitectura similar. El concepto MapReduce proporciona un modelo de
procesamiento en paralelo, y se lanz� una implementaci�n asociada para procesar
grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen
a trav�s de nodos paralelos y se procesan en paralelo (el paso del Mapa). Los
resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso,
por lo que otros quisieron replicar el algoritmo. Por lo tanto, una implementaci�n
del marco MapReduce fue adoptada por un proyecto de c�digo abierto Apache llamado
Hadoop.36?Apache Spark se desarroll� en 2012 en respuesta a las limitaciones del
paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones
(no solo el mapa seguido de la reducci�n).
Los estudios de 2012 mostraron que una arquitectura de capas m�ltiples es una
opci�n para abordar los problemas que presenta el big data. Una arquitectura
paralela distribuida distribuye datos entre m�ltiples servidores; estos entornos de
ejecuci�n paralela pueden mejorar dr�sticamente las velocidades de procesamiento de
datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa
el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el
poder de procesamiento sea transparente para el usuario final mediante el uso de un
servidor de aplicaciones para el usuario.39?
El lago de datos permite que una organizaci�n cambie su enfoque del control
centralizado a un modelo compartido para responder a la din�mica cambiante de la
administraci�n de la informaci�n. Esto permite una segregaci�n r�pida de datos en
el lago de datos, lo que reduce el tiempo de sobrecarga.41?42?
Tecnolog�a
Existen much�simas herramientas para el manejo de big data. Algunos ejemplos
incluyen Hadoop, NoSQL, Cassandra, inteligencia empresarial, aprendizaje autom�tico
y MapReduce. Estas herramientas tratan con algunos de los tres tipos de big
data:43?
Datos estructurados: datos que tienen bien definidos su longitud y su formato, como
las fechas, los n�meros o las cadenas de caracteres. Se almacenan en tablas. Un
ejemplo son las bases de datos relacionales y los almacenes de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen
de un formato espec�fico. No se pueden almacenar dentro de una tabla ya que no se
puede desgranar su informaci�n a tipos b�sicos de datos. Algunos ejemplos son los
PDF, documentos multimedia, correos electr�nicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero que
contiene marcadores para separar los diferentes elementos. Es una informaci�n poco
regular como para ser gestionada de una forma est�ndar. Estos datos poseen sus
propios metadatos semiestructurados44? que describen los objetos y las relaciones
entre ellos, y pueden acabar siendo aceptados por convenci�n. Como ejemplos tenemos
los archivos tipo hojas de c�lculo, HTML, XML o JSON.
Un informe de 2011 del McKinsey Global Institute caracteriza los componentes
principales y el ecosistema de big data de la siguiente manera:45?
Los profesionales de los procesos de an�lisis de big data generalmente son hostiles
al almacenamiento compartido m�s lento,53? prefieren el almacenamiento de conexi�n
directa (DAS) en sus diversas formas, desde unidad de estado s�lido (SSD) hasta
disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo.
La percepci�n de las arquitecturas de almacenamiento compartidas, la red de �rea de
almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son
relativamente lentas, complejas y costosas. Estas cualidades no son consistentes
con los sistemas de an�lisis de datos grandes que prosperan en el rendimiento del
sistema, infraestructura de productos b�sicos y bajo costo.
Captura
�De d�nde provienen todos estos datos? Los fabricamos directa e indirectamente
segundo tras segundo. Un iPhone hoy en d�a tiene m�s capacidad de c�mputo que la
NASA cuando el ser humano lleg� a la Luna,54? por lo que la cantidad de datos
generados por persona y en unidad de tiempo es muy grande. Catalogamos la
procedencia de los datos seg�n las siguientes categor�as:55?
Almacenamiento NoSQL
El t�rmino NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de
almacenamiento que no cumplen con el esquema entidad-relaci�n.61? Proveen un
sistema de almacenamiento mucho m�s flexible y concurrente y permiten manipular
grandes cantidades de informaci�n de manera mucho m�s r�pida que las bases de datos
relacionales.
Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y
se basan en la teor�a de grafos, donde se establece que la informaci�n son los
nodos y las relaciones entre la informaci�n son las aristas,64? algo similar al
modelo relacional. Su mayor uso se contempla en casos de relacionar grandes
cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en unos y otros. Las operaciones
de join se sustituyen por recorridos a trav�s del grafo, y se guarda una lista de
adyacencias entre los nodos.62? Encontramos un ejemplo en las redes sociales: en
Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con
otros usuarios, o aristas de publicaci�n con nodos de contenidos. Soluciones como
Neo4J y GraphDB64? son las m�s conocidas dentro de las bases de datos en grafo.
Almacenamiento orientado a columnas: por �ltimo, este almacenamiento es parecido al
documental. Su modelo de datos es definido como �un mapa de datos multidimensional
poco denso, distribuido y persistente�.62? Se orienta a almacenar datos con
tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo una misma clave. A diferencia del documental y el clave-
valor, en este caso se pueden almacenar varios atributos y objetos, pero no ser�n
interpretables directamente por el sistema. Permite agrupar columnas en familias y
guardar la informaci�n cronol�gicamente, mejorando el rendimiento. Esta tecnolog�a
se acostumbra a usar en casos con 100 o m�s atributos por clave.64? Su precursor es
BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.
An�lisis de datos
El an�lisis permite mirar los datos y explicar lo que esta pasando. Teniendo los
datos necesarios almacenados seg�n diferentes tecnolog�as de almacenamiento, nos
daremos cuenta que necesitaremos diferentes t�cnicas de an�lisis de datos como las
siguientes:
Por otro lado, las infograf�as se han vuelto un fen�meno viral, donde se recogen
los resultados de los diferentes an�lisis sobre nuestros datos, y son un material
atractivo, entretenido y simplificado para audiencias masivas.71?
Aplicaciones
El uso de big data ha sido utilizado por la industria de los medios, las empresas y
los gobiernos para dirigirse con mayor precisi�n a su p�blico y aumentar la
eficiencia de sus mensajes.
Las econom�as desarrolladas usan cada vez m�s tecnolog�as intensivas en datos. Hay
4.600 millones de suscripciones de tel�fonos m�viles en todo el mundo, y entre
1.000 y 2.000 millones de personas que acceden a Internet. Entre 1990 y 2005, m�s
de mil millones de personas en todo el mundo ingresaron a la clase media, lo que
significa que m�s personas se volvieron m�s alfabetizadas, lo que a su vez llev� al
crecimiento de la informaci�n. La capacidad efectiva mundial para intercambiar
informaci�n a trav�s de redes de telecomunicaciones era de 281 petabytes en 1986,
471 petabytes en 1993, 2.2 exabytes en 2000, 65 exabytes en 200773? y las
predicciones cifran el tr�fico de internet en 667 exabytes anualmente para 2014.
Seg�n una estimaci�n, un tercio de la informaci�n almacenada en todo el mundo est�
en forma de texto alfanum�rico e im�genes fijas,74? que es el formato m�s �til para
la mayor�a de las aplicaciones de big data. Esto tambi�n muestra el potencial de
los datos a�n no utilizados (es decir, en forma de contenido de video y audio).
Si bien muchos proveedores ofrecen soluciones est�ndar para big data, los expertos
recomiendan el desarrollo de soluciones internas personalizadas para resolver el
problema de la compa��a si la empresa cuenta con capacidades t�cnicas
suficientes.75?
Gobierno
El uso y la adopci�n de big data dentro de los procesos gubernamentales permite
eficiencias en t�rminos de costo, productividad e innovaci�n, pero no viene sin sus
defectos76?. El an�lisis de datos a menudo requiere que varias partes del gobierno
(central y local) trabajen en colaboraci�n y creen procesos nuevos para lograr el
resultado deseado.
Desarrollo internacional
La investigaci�n sobre el uso efectivo de las tecnolog�as de informaci�n y
comunicaci�n para el desarrollo (tambi�n conocido como ICT4D) sugiere que la
tecnolog�a de big data puede hacer contribuciones importantes pero tambi�n
presentar desaf�os �nicos para el desarrollo internacional.80?81? Los avances en el
an�lisis de big data ofrecen oportunidades rentables para mejorar la toma de
decisiones en �reas de desarrollo cr�ticas como la atenci�n m�dica, el empleo, la
productividad econ�mica, la delincuencia, la seguridad y el manejo de recursos y
desastres naturales.82? Adem�s, los datos generados por el usuario ofrecen nuevas
oportunidades para ofrecer una voz inaudita. Sin embargo, los desaf�os de larga
data para las regiones en desarrollo, como la infraestructura tecnol�gica
inadecuada y la escasez de recursos econ�micos y humanos exacerban las
preocupaciones existentes con los grandes datos, como la privacidad, la metodolog�a
imperfecta y los problemas de interoperabilidad.82?
Industria
El big data proporciona una infraestructura para la transparencia en la industria
manufacturera, que es la capacidad de desentra�ar incertidumbres como el
rendimiento y la disponibilidad de componentes inconsistentes. La fabricaci�n
predictiva como un enfoque aplicable para el tiempo de inactividad y la
transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de
predicci�n avanzadas para un proceso sistem�tico de datos en informaci�n �til.83?
Un marco conceptual de fabricaci�n predictiva comienza con la adquisici�n de datos
donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como
ac�stica, vibraci�n, presi�n, corriente, voltaje y datos de controlador. Una gran
cantidad de datos sensoriales, adem�s de los datos hist�ricos, construyen los
grandes datos en la fabricaci�n. Los big data generados act�an como la entrada en
herramientas predictivas y estrategias preventivas como Pron�sticos y Gesti�n de
Salud (PHM).84?
Medios
Los profesionales en medios y publicidad abordan los grandes datos como muchos
puntos de informaci�n procesables sobre millones de personas. La industria parece
alejarse del enfoque tradicional de utilizar entornos de medios espec�ficos, como
peri�dicos, revistas o programas de televisi�n, y en su lugar aprovecha a los
consumidores con tecnolog�as que llegan a las personas objetivo en momentos �ptimos
en ubicaciones �ptimas. El objetivo final es servir o transmitir, un mensaje o
contenido que (estad�sticamente hablando) est� en l�nea con la mentalidad del
consumidor. Por ejemplo, los entornos de publicaci�n adaptan cada vez m�s los
mensajes (anuncios publicitarios) y el contenido (art�culos) para atraer a los
consumidores que han sido recolectados exclusivamente a trav�s de diversas
actividades de extracci�n de datos.85?