Big Data Wiki

Macrodatos
Ir a la navegaci�nIr a la b�squeda
Un sistema de representaci�n creado por IBM que muestra macrodatos que consisten en
las ediciones de Wikipedia realizadas por el bot Pearle. Su visualizaci�n m�s
racional aparece acompa�ada de colores y posiciones en su representaci�n.
Los macrodatos,1? tambi�n llamados datos masivos, inteligencia de datos, datos a
gran escala o big data (terminolog�a en idioma ingl�s utilizada com�nmente) es un
t�rmino que hace referencia al concepto relativo a conjuntos de datos tan grandes y
complejos como para que hagan falta aplicaciones inform�ticas no tradicionales de
procesamiento de datos para tratarlos adecuadamente. Por ende, los procedimientos
usados para encontrar patrones repetitivos dentro de esos datos son m�s
sofisticados y requieren software especializado. En textos cient�ficos en espa�ol
con frecuencia se usa directamente el t�rmino en ingl�s big data, tal como aparece
en el ensayo de Viktor Sch�nberger La revoluci�n de los datos masivos.2?3?
El uso moderno del t�rmino "big data" tiende a referirse al an�lisis del
comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando
predicciones a trav�s de los patrones observados. La disciplina dedicada a los
datos masivos se enmarca en el sector de las tecnolog�as de la informaci�n y la
comunicaci�n. Esta disciplina se ocupa de todas las actividades relacionadas con
los sistemas que manipulan grandes conjuntos de datos. Las dificultades m�s
habituales vinculadas a la gesti�n de estas cantidades de datos se centran en la
recolecci�n y el almacenamiento,4? b�squeda, compartici�n, an�lisis,5? y
visualizaci�n. La tendencia a manipular enormes cantidades de datos se debe a la
necesidad, en muchos casos, de incluir dicha informaci�n para la creaci�n de
informes estad�sticos y modelos predictivos utilizados en diversas materias, como
los an�lisis de negocio, publicitarios, los datos de enfermedades infecciosas, el
espionaje y seguimiento a la poblaci�n o la lucha contra el crimen organizado.6?
El l�mite superior de procesamiento ha ido creciendo a lo largo de los a�os.7? Se

estima que el mundo almacen� unos 5 zettabytes en 2014. Si se pone esta informaci�n
en libros, convirtiendo las im�genes y todo eso a su equivalente en letras, se
podr�a hacer 4500 pilas de libros que lleguen hasta el sol.8? Los cient�ficos con
cierta regularidad encuentran l�mites en el an�lisis debido a la gran cantidad de
datos en ciertas �reas, tales como la meteorolog�a, la gen�mica,9? la conect�mica,
las complejas simulaciones de procesos f�sicos10? y las investigaciones
relacionadas con los procesos biol�gicos y ambientales.11? Las limitaciones tambi�n
afectan a los motores de b�squeda en internet, a los sistemas de finanzas y a la
inform�tica de negocios. Los data sets crecen en volumen debido en parte a la
recolecci�n masiva de informaci�n procedente de los sensores inal�mbricos y los
dispositivos m�viles (por ejemplo las VANET), el constante crecimiento de los
hist�ricos de aplicaciones (por ejemplo de los registros), c�maras (sistemas de
teledetecci�n), micr�fonos, lectores de identificaci�n por radiofrecuencia.12?13?
La capacidad tecnol�gica per c�pita a nivel mundial para almacenar datos se dobla
aproximadamente cada cuarenta meses desde los a�os 1980.14? Se estima que en 2012
cada d�a fueron creados cerca de 2.5 trillones de bytes de datos.15?
Los sistemas de gesti�n de bases de datos relacionales y los paquetes de software

utilizados para visualizar datos, a menudo tienen dificultades para manejar big
data. Este trabajo puede requerir "un software masivamente paralelo que se ejecute
en decenas, cientos o incluso miles de servidores"16?. Lo que califica como "big
data" var�a seg�n las capacidades de los usuarios y sus herramientas, y las
capacidades de expansi�n hacen que big data sea un objetivo en movimiento. "Para
algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez
puede provocar la necesidad de reconsiderar las opciones de administraci�n de
datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el
tama�o de los datos se convierta en una consideraci�n importante".17?
�ndice
1 Definici�n
2 Caracter�sticas
3 Arquitectura
4 Tecnolog�a
4.1 Captura
4.2 Transformaci�n
4.3 Almacenamiento NoSQL
4.4 An�lisis de datos
4.5 Visualizaci�n de datos
5 Aplicaciones
5.1 Gobierno
5.2 Desarrollo internacional
5.3 Industria
5.4 Medios
5.5 Seguros
5.6 Deportes
5.7 Finanzas
5.8 Marketing y ventas
6 Investigaci�n
6.1 Muestreo de big data
6.2 Salud y medicina
6.3 Defensa y seguridad
6.4 Caso espec�fico del proyecto Aloja
7 Cr�ticas
7.1 Cr�ticas al paradigma de los grandes datos
7.2 Cr�ticas del modelo 'V'
7.3 Cr�tica de la novedad
7.4 Cr�ticas de la ejecuci�n de big data
8 Virtualizaci�n de big data
9 V�ase tambi�n
10 Referencias
11 Enlaces externos
Definici�n
El t�rmino ha estado en uso desde la d�cada de 1990, y algunos otorgan cr�dito a
John Mashey18? por popularizarlo. Big data o macrodatos es un t�rmino que hace
referencia a una cantidad de datos tal que supera la capacidad del software
convencional para ser capturados, administrados y procesados en un tiempo
razonable. El volumen de los datos masivos crece constantemente. En el 2012, se
estimaba su tama�o de entre una docena de terabytes hasta varios petabyte de datos
en un �nico conjunto de datos. En la metodolog�a MIKE2.0, dedicada a investigar
temas relacionados con la gesti�n de informaci�n, definen big data19? en t�rminos
de permutaciones �tiles, complejidad y dificultad para borrar registros
individuales.
Se ha definido tambi�n como datos lo suficientemente masivos como para poner de

relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde
una perspectiva m�s pr�ctica que te�rica.20?
En el 2001, en un informe de investigaci�n que se fundamentaba en congresos y

presentaciones relacionadas,21? la META Group (ahora Gartner) defin�a el
crecimiento constante de datos como una oportunidad y un reto para investigar en el
volumen, la velocidad y la variedad. Gartner' contin�a usando datos masivos como
referencia.22? Adem�s, grandes proveedores del mercado de datos masivos est�n
desarrollando soluciones para atender las demandas m�s cr�ticas sobre c�mo procesar
tal cantidad de datos, como MapR y Cloudera.
Una definici�n de 2016 establece que "Big data representa los activos de
informaci�n caracterizados por un volumen, velocidad y variedad tan altos que
requieren una tecnolog�a espec�fica y m�todos anal�ticos para su transformaci�n en
valor".23? Adem�s, algunas organizaciones agregan una nueva V, veracidad para
describirlo,24? revisionismo cuestionado por algunas autoridades de la
industria.25? Las tres V (volumen, variedad y velocidad) se han ampliado a otras
caracter�sticas complementarias del big data:
aprendizaje autom�tico: los grandes datos a menudo no preguntan por qu� y

simplemente detectan los patrones26?
huella digital: el big data es a menudo un subproducto libre de costo de la
interacci�n digital
Una definici�n de 2018 establece que "Big Data es donde se necesitan herramientas
inform�ticas paralelas para manejar los datos", y se�ala: "Esto representa un
cambio distinto y claramente definido en la inform�tica utilizada a trav�s de
teor�as de programaci�n paralelas y p�rdidas de algunas de las garant�as y
capacidades hechas por el modelo relacional de Codd ".27?
La creciente madurez del concepto describe de manera m�s n�tida la diferencia entre
"big data" y "business intelligence":
La business intelligence usa estad�sticas descriptivas con datos con alta densidad
de informaci�n para medir cosas, detectar tendencias, etc.
big data usa estad�sticas inductivas y conceptos de identificaci�n de sistemas no
lineales28? para inferir leyes (regresiones, relaciones no lineales y efectos
causales) a partir de grandes conjuntos de datos con baja densidad de informaci�n
para revelar relaciones y dependencias, o para realizar predicciones de resultados
y comportamientos.29?
Caracter�sticas
Los macrodatos se pueden describir por las siguientes caracter�sticas:30?
Volumen: la cantidad de datos generados y guardados.

Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizar
los datos y usar los resultados de forma eficaz. Los macrodatos usan textos,
im�genes, audio y v�deo. Tambi�n completan pedazos �Que pedazos? pedidos a trav�s
de la fusi�n de datos.
Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos
para cumplir las exigencias y desaf�os de su an�lisis.
Veracidad: la calidad de los datos capturados puede variar mucho y as� afectar a
los resultados del an�lisis.
Valor: los datos generados deben ser �tiles, accionables y tener valor.31?
Arquitectura
Los repositorios de big data han existido en muchas formas, a menudo creadas por
corporaciones con una necesidad especial. Hist�ricamente, los proveedores
comerciales ofrec�an sistemas de administraci�n de bases de datos paralelos para
big data a partir de la d�cada de 1990. Durante muchos a�os, WinterCorp public� un
informe de base de datos m�s grande.32?
Teradata Corporation en 1984, comercializ� el sistema de procesamiento paralelo DBC

1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte
de datos en 1992. Los discos duros eran de 2,5 GB en 1991, por lo que la definici�n
de big data evoluciona continuamente seg�n la Ley de Kryder. Teradata instal� el
primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017, hay
unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte
instaladas, la mayor de las cuales excede de 50 PB. Los sistemas hasta 2008 eran
datos relacionales estructurados al 100%. Desde entonces, Teradata ha agregado
tipos de datos no estructurados, incluidos XML, JSON y Avro.
En 2000, Seisint Inc. (ahora LexisNexis Group) desarroll� un marco de intercambio

de archivos distribuido basado en C++ para el almacenamiento y consultas de datos.
El sistema almacena y distribuye datos estructurados, semiestructurados y no
estructurados en varios servidores. Los usuarios pueden crear consultas en un
dialecto de C++ llamado ECL. ECL utiliza un m�todo de "aplicar esquema en lectura"
para inferir la estructura de los datos almacenados cuando se consulta, en lugar de
cuando se almacena. En 2004, LexisNexis adquiri� Seisint Inc.33? y en 2008 adquiri�
ChoicePoint, Inc.34?y su plataforma de procesamiento paralelo de alta velocidad.
Las dos plataformas se fusionaron en sistemas HPCC (o cluster de computaci�n de
alto rendimiento) y en 2011, HPCC fue de c�digo abierto bajo la licencia Apache
v2.0. Quantcast File System estuvo disponible aproximadamente al mismo tiempo.35?
El CERN y otros experimentos de f�sica han recopilado grandes conjuntos de datos

durante muchas d�cadas, generalmente analizados a trav�s de computadoras de alto
rendimiento (supercomputadores) en lugar de las arquitecturas de mapas reducidos de
productos, que generalmente se refieren al movimiento actual de "big data".
En 2004, Google public� un documento sobre un proceso llamado MapReduce que utiliza
una arquitectura similar. El concepto MapReduce proporciona un modelo de
procesamiento en paralelo, y se lanz� una implementaci�n asociada para procesar
grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen
a trav�s de nodos paralelos y se procesan en paralelo (el paso del Mapa). Los
resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso,
por lo que otros quisieron replicar el algoritmo. Por lo tanto, una implementaci�n
del marco MapReduce fue adoptada por un proyecto de c�digo abierto Apache llamado
Hadoop.36?Apache Spark se desarroll� en 2012 en respuesta a las limitaciones del
paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones
(no solo el mapa seguido de la reducci�n).
MIKE2.0 es un enfoque abierto para la administraci�n de la informaci�n que reconoce

la necesidad de revisiones debido a las implicaciones de big data identificadas en
un art�culo titulado "Oferta de soluciones de Big Data".37?La metodolog�a aborda el
manejo de big data en t�rminos de permutaciones �tiles de fuentes de datos,
complejidad en interrelaciones y dificultad para eliminar (o modificar) registros
individuales.38?
Los estudios de 2012 mostraron que una arquitectura de capas m�ltiples es una
opci�n para abordar los problemas que presenta el big data. Una arquitectura
paralela distribuida distribuye datos entre m�ltiples servidores; estos entornos de
ejecuci�n paralela pueden mejorar dr�sticamente las velocidades de procesamiento de
datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa
el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el
poder de procesamiento sea transparente para el usuario final mediante el uso de un
servidor de aplicaciones para el usuario.39?
El an�lisis de big data para aplicaciones de fabricaci�n se comercializa como una

arquitectura 5C (conexi�n, conversi�n, cibern�tica, cognici�n y configuraci�n).40?
El lago de datos permite que una organizaci�n cambie su enfoque del control
centralizado a un modelo compartido para responder a la din�mica cambiante de la
administraci�n de la informaci�n. Esto permite una segregaci�n r�pida de datos en
el lago de datos, lo que reduce el tiempo de sobrecarga.41?42?
Tecnolog�a
Existen much�simas herramientas para el manejo de big data. Algunos ejemplos
incluyen Hadoop, NoSQL, Cassandra, inteligencia empresarial, aprendizaje autom�tico
y MapReduce. Estas herramientas tratan con algunos de los tres tipos de big
data:43?
Datos estructurados: datos que tienen bien definidos su longitud y su formato, como
las fechas, los n�meros o las cadenas de caracteres. Se almacenan en tablas. Un
ejemplo son las bases de datos relacionales y los almacenes de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen
de un formato espec�fico. No se pueden almacenar dentro de una tabla ya que no se
puede desgranar su informaci�n a tipos b�sicos de datos. Algunos ejemplos son los
PDF, documentos multimedia, correos electr�nicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero que
contiene marcadores para separar los diferentes elementos. Es una informaci�n poco
regular como para ser gestionada de una forma est�ndar. Estos datos poseen sus
propios metadatos semiestructurados44? que describen los objetos y las relaciones
entre ellos, y pueden acabar siendo aceptados por convenci�n. Como ejemplos tenemos
los archivos tipo hojas de c�lculo, HTML, XML o JSON.
Un informe de 2011 del McKinsey Global Institute caracteriza los componentes
principales y el ecosistema de big data de la siguiente manera:45?
T�cnicas para analizar datos, como pruebas A / B, aprendizaje autom�tico y

procesamiento del lenguaje natural
Grandes tecnolog�as de datos, como inteligencia de negocios, computaci�n en la nube
y bases de datos
Visualizaci�n, como tablas, gr�ficos y otras visualizaciones de los datos
Los big data multidimensionales tambi�n se pueden representar como cubos de datos
o, matem�ticamente, tensores. Los sistemas de bases de datos Array se han propuesto
proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de
datos. Las tecnolog�as adicionales que se aplican a big data incluyen un c�lculo
basado en tensor eficiente,46? como el aprendizaje de subespacio multilineal,47?
bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en
b�squeda, extracci�n de datos,48? sistemas de archivos distribuidos, bases de datos
distribuidas, nube e infraestructura basada en HPC(aplicaciones, almacenamiento y
recursos inform�ticos)49? e Internet. A pesar de que se han desarrollado muchos
enfoques y tecnolog�as, sigue siendo dif�cil llevar a cabo el aprendizaje
autom�tico con grandes datos.50?
Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y

administrar petabytes de datos. Impl�cita es la capacidad de cargar, supervisar,
realizar copias de seguridad y optimizar el uso de las tablas de datos de gran
tama�o en el RDBMS.51?
El programa de An�lisis Topol�gico de Datos de DARPA busca la estructura

fundamental de los conjuntos de datos masivos y en 2008 la tecnolog�a se hizo
p�blica con el lanzamiento de una compa��a llamada Ayasdi.52?
Los profesionales de los procesos de an�lisis de big data generalmente son hostiles
al almacenamiento compartido m�s lento,53? prefieren el almacenamiento de conexi�n
directa (DAS) en sus diversas formas, desde unidad de estado s�lido (SSD) hasta
disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo.
La percepci�n de las arquitecturas de almacenamiento compartidas, la red de �rea de
almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son
relativamente lentas, complejas y costosas. Estas cualidades no son consistentes
con los sistemas de an�lisis de datos grandes que prosperan en el rendimiento del
sistema, infraestructura de productos b�sicos y bajo costo.
La entrega de informaci�n real o casi en tiempo real es una de las caracter�sticas

definitorias del an�lisis de big data. Por lo tanto, se evita la latencia siempre
que sea posible. Los datos en la memoria son buenos; los datos en el disco
giratorio en el otro extremo de una conexi�n FC SAN no lo son. El costo de una SAN
en la escala necesaria para las aplicaciones anal�ticas es mucho mayor que otras
t�cnicas de almacenamiento.
Hay ventajas y desventajas para el almacenamiento compartido en el an�lisis de big

data, pero los practicantes de an�lisis de big data a partir de 2011 no lo
favorecieron.
Captura
�De d�nde provienen todos estos datos? Los fabricamos directa e indirectamente
segundo tras segundo. Un iPhone hoy en d�a tiene m�s capacidad de c�mputo que la
NASA cuando el ser humano lleg� a la Luna,54? por lo que la cantidad de datos
generados por persona y en unidad de tiempo es muy grande. Catalogamos la
procedencia de los datos seg�n las siguientes categor�as:55?
Generados por las propias personas. El hecho de enviar correos electr�nicos o

mensajes por WhatsApp, publicar un estado en Facebook, publicar relaciones
laborales en Linkedin, tuitear contenidos o responder a una encuesta por la calle
son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser
analizados. Se estima que cada minuto al d�a se env�an m�s de 200 millones de
correos electr�nicos, se comparten m�s de 700 000 piezas de contenido en Facebook,
se realizan dos millones de b�squedas en Google o se editan 48 horas de v�deo en
YouTube.56? Por otro lado, las trazas de utilizaci�n en un sistema ERP, incluir
registros en una base de datos o introducir informaci�n en una hoja de c�lculo son
otras formas de generar estos datos.
Obtenidas a partir de transacciones. La facturaci�n, tarjetas de fidelizaci�n, las
llamadas telef�nicas, las conexiones torres de telefon�a, los accesos a wifis
p�blicas, el pago con tarjetas de cr�dito o las transacciones entre cuentas
bancarias generan informaci�n que tratada puede ser datos relevantes. Por ejemplo
transacciones bancarias: Lo que el usuario conoce como un ingreso de X euros, el
sistema lo capturar� como una acci�n llevada a cabo en una fecha y momento
determinado, en un lugar concreto, entre unos usuarios registrados, y con ciertos
metadatos.
Mercadotecnia electr�nica y web. Se genera una gran cantidad de datos cuando se
navega por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-
lector y los mismos usuarios se convierten en creadores de contenido gracias a su
interacci�n con el sitio. Existen muchas herramientas de seguimiento utilizadas en
su mayor�a con fines de mercadotecnia y an�lisis de negocio. Los movimientos de
rat�n quedan grabados en mapas de calor y queda registro de cu�nto pasamos en cada
p�gina y cu�ndo las visitamos.
Obtenidos a partir de las interacciones m�quina a m�quina (M2M). Son datos
obtenidos a partir de la recogida de m�tricas obtenidas desde dispositivos
(medidores, sensores de temperatura, de luz, de altura, de presi�n, de sonido�) que
transforman las magnitudes f�sicas o qu�micas y las convierten en datos. Existen
desde hace d�cadas, pero la llegada de las comunicaciones inal�mbricas (wifi,
Bluetooth, RFID, etc.) ha revolucionado el mundo de los sensores. Algunos ejemplos
son los GPS en la automoci�n, los sensores de signos vitales (muy �til para seguros
de vida), pulseras en los festivales57?, monitorizadores del funcionamiento y
conducci�n de auto?oviles (se obtiene informaci�n muy �til para la
aseguradoras)58?, los smartphone (son sensores de localizaci�n).
Datos biom�tricos recolectados. En general provienen de servicios de seguridad,
defensa y servicios de inteligencia.59? Son cantidades de datos generados por
lectores biom�tricos como esc�neres de retina, esc�neres de huellas digitales, o
lectores de cadenas de ADN. El prop�sito de estos datos es proporcionar mecanismos
de seguridad y suelen estar custodiados por los ministerios de defensa y
departamentos de inteligencia. Un ejemplo de aplicaci�n es el cruce de ADN entre
una muestra de un crimen y una muestra en nuestra base de datos.
Transformaci�n
Una vez encontradas las fuentes de los datos necesarios, muy posiblemente
dispongamos de un sinf�n de tablas de origen que no estar�n relacionadas. El
siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un
formato adecuado.
Aqu� entran en juego las plataformas extraer, transformar y cargar (ETL). Su

prop�sito es extraer los datos de las diferentes fuentes y sistemas, para despu�s
hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de
formato, etc.) y finalmente cargar los datos en la base de datos o almac�n de datos
especificada.60? Un ejemplo de plataforma ETL es el Pentaho Data Integration, m�s
concretamente su aplicaci�n Spoon.
Almacenamiento NoSQL
El t�rmino NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de
almacenamiento que no cumplen con el esquema entidad-relaci�n.61? Proveen un
sistema de almacenamiento mucho m�s flexible y concurrente y permiten manipular
grandes cantidades de informaci�n de manera mucho m�s r�pida que las bases de datos
relacionales.
Distinguimos cuatro grandes grupos de bases de datos NoSQL:
Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a

los mapas o diccionarios de datos, donde se accede al dato a partir de una clave
�nica.62? Los valores (datos) son aislados e independientes entre ellos, y no son
interpretados por el sistema. Pueden ser variables simples como enteros o
caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una
estructura de datos clara y establecida, por lo que no requiere un formateo de los
datos muy estricto.63?
Son �tiles para operaciones simples basadas en las claves. Un ejemplo es el aumento
de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de
usuario, teniendo mapeados los archivos que hay que incluir seg�n el id de usuario
y que han sido calculados con anterioridad. Apache Cassandra es la tecnolog�a de
almacenamiento clave-valor m�s reconocida por los usuarios.64?
Almacenamiento documental: las bases de datos documentales guardan un gran parecido

con las bases de datos Clave-Valor, diferenci�ndose en el dato que guardan. Si en
el anterior no se requer�a una estructura de datos concreta, en este caso guardamos
datos semiestructurados.64? Estos datos pasan a llamarse documentos, y pueden estar
formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave �nica con la que pueden ser accedidos e
identificados expl�citamente. Estos documentos no son opacos al sistema, por lo que
pueden ser interpretados y lanzar queries sobre ellos.62? Un ejemplo que aclare
c�mo se usa lo encontramos en un blog: se almacena el autor, la fecha, el t�tulo,
el resumen y el contenido del post.
CouchDB o MongoDB64? son quiz� las m�s conocidas. Hay que hacer menci�n especial a
MapReduce, una tecnolog�a de Google inicialmente dise�ada para su algoritmo
PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos
y cargarlos en otra colecci�n, y a Hadoop que es una tecnolog�a de Apache dise�ada
para almacenar y procesar grandes cantidades de datos.
Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y
se basan en la teor�a de grafos, donde se establece que la informaci�n son los
nodos y las relaciones entre la informaci�n son las aristas,64? algo similar al
modelo relacional. Su mayor uso se contempla en casos de relacionar grandes
cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en unos y otros. Las operaciones
de join se sustituyen por recorridos a trav�s del grafo, y se guarda una lista de
adyacencias entre los nodos.62? Encontramos un ejemplo en las redes sociales: en
Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con
otros usuarios, o aristas de publicaci�n con nodos de contenidos. Soluciones como
Neo4J y GraphDB64? son las m�s conocidas dentro de las bases de datos en grafo.
Almacenamiento orientado a columnas: por �ltimo, este almacenamiento es parecido al
documental. Su modelo de datos es definido como �un mapa de datos multidimensional
poco denso, distribuido y persistente�.62? Se orienta a almacenar datos con
tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo una misma clave. A diferencia del documental y el clave-
valor, en este caso se pueden almacenar varios atributos y objetos, pero no ser�n
interpretables directamente por el sistema. Permite agrupar columnas en familias y
guardar la informaci�n cronol�gicamente, mejorando el rendimiento. Esta tecnolog�a
se acostumbra a usar en casos con 100 o m�s atributos por clave.64? Su precursor es
BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.
An�lisis de datos
El an�lisis permite mirar los datos y explicar lo que esta pasando. Teniendo los
datos necesarios almacenados seg�n diferentes tecnolog�as de almacenamiento, nos
daremos cuenta que necesitaremos diferentes t�cnicas de an�lisis de datos como las
siguientes:
Asociaci�n: permite encontrar relaciones entre diferentes variables.65? Bajo la

premisa de causalidad, se pretende encontrar una predicci�n en el comportamiento de
otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los
comercios electr�nicos.
Miner�a de datos (data mining): tiene como objetivo encontrar comportamientos
predictivos. Engloba el conjunto de t�cnicas que combina m�todos estad�sticos y de
aprendizaje autom�tico con almacenamiento en bases de datos.66? Est� estrechamente
relacionada con los modelos utilizados para descubrir patrones en grandes
cantidades de datos.
Agrupaci�n (clustering): el an�lisis de cl�steres es un tipo de miner�a de datos
que divide grandes grupos de individuos en grupos m�s peque�os de los cuales no
conoc�amos su parecido antes del an�lisis.66? El prop�sito es encontrar similitudes
entre estos grupos, y el descubrimiento de nuevos, conociendo cu�les son las
cualidades que lo definen. Es una metodolog�a apropiada para encontrar relaciones
entre resultados y hacer una evaluaci�n preliminar de la estructura de los datos
analizados. Existen diferentes t�cnicas y algoritmos de clusterizaci�n.67?
An�lisis de texto (text analytics): gran parte de los datos generados por las
personas son textos, como correos, b�squedas web o contenidos. Esta metodolog�a
permite extraer informaci�n de estos datos y as� modelar temas y asuntos o predecir
palabras.68?
Visualizaci�n de datos
Esto es una infograf�a.

Tal y como el Instituto Nacional de Estad�stica dice en sus tutoriales, �una imagen
vale m�s que mil palabras o que mil datos�. La mente agradece mucho m�s una
presentaci�n bien estructurada de resultados estad�sticos en gr�ficos o mapas en
vez de en tablas con n�meros y conclusiones. En los macrodatos se llega un paso m�s
all�: parafraseando a Edward Tufte, uno de los expertos en visualizaci�n de datos
m�s reconocidos a nivel mundial �el mundo es complejo, din�mico, multidimensional,
el papel es est�tico y plano. �C�mo vamos a representar la rica experiencia visual
del mundo en la mera planicie?�.
Mondrian69? es una plataforma que permite visualizar la informaci�n a trav�s de los

an�lisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se
intenta llegar a un p�blico m�s concreto, y una utilidad m�s acotada como un cuadro
de mando integral de una organizaci�n. En los �ltimos a�os se han generalizado
otras plataformas como Tableau, Power BI y Qlik70?.
Por otro lado, las infograf�as se han vuelto un fen�meno viral, donde se recogen
los resultados de los diferentes an�lisis sobre nuestros datos, y son un material
atractivo, entretenido y simplificado para audiencias masivas.71?
Aplicaciones
El uso de big data ha sido utilizado por la industria de los medios, las empresas y
los gobiernos para dirigirse con mayor precisi�n a su p�blico y aumentar la
eficiencia de sus mensajes.
El big data ha aumentado la demanda de especialistas en administraci�n de la

informaci�n tanto que Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP
y Dell han gastado m�s de $ 15 mil millones en firmas de software especializadas en
administraci�n y an�lisis de datos. En 2010, esta industria val�a m�s de $ 100 mil
millones y crec�a a casi un 10 por ciento anual: aproximadamente el doble de r�pido
que el negocio del software en general.72?
Las econom�as desarrolladas usan cada vez m�s tecnolog�as intensivas en datos. Hay
4.600 millones de suscripciones de tel�fonos m�viles en todo el mundo, y entre
1.000 y 2.000 millones de personas que acceden a Internet. Entre 1990 y 2005, m�s
de mil millones de personas en todo el mundo ingresaron a la clase media, lo que
significa que m�s personas se volvieron m�s alfabetizadas, lo que a su vez llev� al
crecimiento de la informaci�n. La capacidad efectiva mundial para intercambiar
informaci�n a trav�s de redes de telecomunicaciones era de 281 petabytes en 1986,
471 petabytes en 1993, 2.2 exabytes en 2000, 65 exabytes en 200773? y las
predicciones cifran el tr�fico de internet en 667 exabytes anualmente para 2014.
Seg�n una estimaci�n, un tercio de la informaci�n almacenada en todo el mundo est�
en forma de texto alfanum�rico e im�genes fijas,74? que es el formato m�s �til para
la mayor�a de las aplicaciones de big data. Esto tambi�n muestra el potencial de
los datos a�n no utilizados (es decir, en forma de contenido de video y audio).
Si bien muchos proveedores ofrecen soluciones est�ndar para big data, los expertos
recomiendan el desarrollo de soluciones internas personalizadas para resolver el
problema de la compa��a si la empresa cuenta con capacidades t�cnicas
suficientes.75?
Gobierno
El uso y la adopci�n de big data dentro de los procesos gubernamentales permite
eficiencias en t�rminos de costo, productividad e innovaci�n, pero no viene sin sus
defectos76?. El an�lisis de datos a menudo requiere que varias partes del gobierno
(central y local) trabajen en colaboraci�n y creen procesos nuevos para lograr el
resultado deseado.
Los datos masivos se usan habitualmente para influenciar el proceso democr�tico.

Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los
ciudadanos pueden dictar la vida p�blica de los representantes mediante tuits y
otros m�todos de extender ideas en la sociedad. Las campa�as presidenciales de
Obama y Trump los usaron de manera generalizada77? y hay expertos que advierten de
que hay que �reinventar la democracia representativa. Si no, es posible que se
convierta en una dictadura de la informaci�n�78?.
El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en Am�rica

Latina en los que presenta distintos casos del uso de Macrodatos en el dise�o e
implementaci�n de pol�ticas p�blicas. Destacando intervenciones en temas de
movilidad urbana, ciudades intelgientes y seguridad, entre otras tem�ticas. Las
recomendacione de los mismos han girado en torno a c�mo construir instituciones
p�blicas que logren, mediante el uso de datos masivos, a ser m�s transparentes y
ayuden a tomar mejores decisiones.79?
Desarrollo internacional
La investigaci�n sobre el uso efectivo de las tecnolog�as de informaci�n y
comunicaci�n para el desarrollo (tambi�n conocido como ICT4D) sugiere que la
tecnolog�a de big data puede hacer contribuciones importantes pero tambi�n
presentar desaf�os �nicos para el desarrollo internacional.80?81? Los avances en el
an�lisis de big data ofrecen oportunidades rentables para mejorar la toma de
decisiones en �reas de desarrollo cr�ticas como la atenci�n m�dica, el empleo, la
productividad econ�mica, la delincuencia, la seguridad y el manejo de recursos y
desastres naturales.82? Adem�s, los datos generados por el usuario ofrecen nuevas
oportunidades para ofrecer una voz inaudita. Sin embargo, los desaf�os de larga
data para las regiones en desarrollo, como la infraestructura tecnol�gica
inadecuada y la escasez de recursos econ�micos y humanos exacerban las
preocupaciones existentes con los grandes datos, como la privacidad, la metodolog�a
imperfecta y los problemas de interoperabilidad.82?
Industria
El big data proporciona una infraestructura para la transparencia en la industria
manufacturera, que es la capacidad de desentra�ar incertidumbres como el
rendimiento y la disponibilidad de componentes inconsistentes. La fabricaci�n
predictiva como un enfoque aplicable para el tiempo de inactividad y la
transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de
predicci�n avanzadas para un proceso sistem�tico de datos en informaci�n �til.83?
Un marco conceptual de fabricaci�n predictiva comienza con la adquisici�n de datos
donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como
ac�stica, vibraci�n, presi�n, corriente, voltaje y datos de controlador. Una gran
cantidad de datos sensoriales, adem�s de los datos hist�ricos, construyen los
grandes datos en la fabricaci�n. Los big data generados act�an como la entrada en
herramientas predictivas y estrategias preventivas como Pron�sticos y Gesti�n de
Salud (PHM).84?
Medios
Los profesionales en medios y publicidad abordan los grandes datos como muchos
puntos de informaci�n procesables sobre millones de personas. La industria parece
alejarse del enfoque tradicional de utilizar entornos de medios espec�ficos, como
peri�dicos, revistas o programas de televisi�n, y en su lugar aprovecha a los
consumidores con tecnolog�as que llegan a las personas objetivo en momentos �ptimos
en ubicaciones �ptimas. El objetivo final es servir o transmitir, un mensaje o
contenido que (estad�sticamente hablando) est� en l�nea con la mentalidad del
consumidor. Por ejemplo, los entornos de publicaci�n adaptan cada vez m�s los
mensajes (anuncios publicitarios) y el contenido (art�culos) para atraer a los
consumidores que han sido recolectados exclusivamente a trav�s de diversas
actividades de extracci�n de datos.85?
Orientaci�n de los consumidores (para publicidad de los vendedores)86?

Miner�a de datos
Periodismo de datos: los editores y los periodistas usan herramientas de Big Data
para proporcionar informaci�n e infograf�as �nicas e innovadoras.

Big Data Wiki

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data Wiki

Cargado por

Copyright:

Formatos disponibles

Macrodatos

El l�mite superior de procesamiento ha ido creciendo a lo largo de los a�os.7? Se

Los sistemas de gesti�n de bases de datos relacionales y los paquetes de software

Se ha definido tambi�n como datos lo suficientemente masivos como para poner de

En el 2001, en un informe de investigaci�n que se fundamentaba en congresos y

aprendizaje autom�tico: los grandes datos a menudo no preguntan por qu� y

Volumen: la cantidad de datos generados y guardados.

Teradata Corporation en 1984, comercializ� el sistema de procesamiento paralelo DBC

En 2000, Seisint Inc. (ahora LexisNexis Group) desarroll� un marco de intercambio

El CERN y otros experimentos de f�sica han recopilado grandes conjuntos de datos

MIKE2.0 es un enfoque abierto para la administraci�n de la informaci�n que reconoce

El an�lisis de big data para aplicaciones de fabricaci�n se comercializa como una

T�cnicas para analizar datos, como pruebas A / B, aprendizaje autom�tico y

Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y

El programa de An�lisis Topol�gico de Datos de DARPA busca la estructura

La entrega de informaci�n real o casi en tiempo real es una de las caracter�sticas

Hay ventajas y desventajas para el almacenamiento compartido en el an�lisis de big

Generados por las propias personas. El hecho de enviar correos electr�nicos o

Aqu� entran en juego las plataformas extraer, transformar y cargar (ETL). Su

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a

Almacenamiento documental: las bases de datos documentales guardan un gran parecido

Asociaci�n: permite encontrar relaciones entre diferentes variables.65? Bajo la

Esto es una infograf�a.

Mondrian69? es una plataforma que permite visualizar la informaci�n a trav�s de los

El big data ha aumentado la demanda de especialistas en administraci�n de la

Los datos masivos se usan habitualmente para influenciar el proceso democr�tico.

El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en Am�rica

Orientaci�n de los consumidores (para publicidad de los vendedores)86?

También podría gustarte