Está en la página 1de 21

Linked Data - La historia hasta ahora

1. Introducción
La World Wide Web ha cambiado radicalmente la manera de compartir el conocimiento
mediante la reducción de la barrera a la publicación y acceso a los mismos como parte de
un espacio de información global. Los enlaces de hipertexto permiten a los usuarios
recorrer este espacio información usando navegadores Web, mientras que el índice motores
de búsqueda los documentos y analizar la estructura de los vínculos entre ellos para inferir
el potencial relevancia a las consultas de búsqueda de los usuarios (Brin y Página, 1998).
Esta funcionalidad ha sido posible gracias a la naturaleza genérica, abierta y extensible de
la Web (Jacobs y Walsh,
2004), que también se ve como una característica clave en el crecimiento sin restricciones de
la Web.

A pesar de las ventajas indiscutibles de la Web proporciona, hasta hace poco, los mismos
principios que permitieron a la Web de los documentos que florezcan no se han aplicado a
los datos. Tradicionalmente, los datos publicados en la Web se ha hecho disponible como
vertederos primas en formatos tales como CSV o XML, o marcado como tablas HTML,
sacrificar gran parte de su estructura y la semántica. En la Web de hipertexto convencional,
la naturaleza de la relación entre dos documentos vinculados está implícito, como el formato
de datos, es decir, HTML, no es suficientemente expresiva para permitir que las entidades
individuales que se describen en un documento particular para ser conectadas por enlaces
mecanografiadas a relacionada
entidades.

Sin embargo, en los últimos años la Web ha evolucionado desde un espacio de información
global de documentos vinculados a una donde se vinculan ambos documentos y datos. Que
sustenta esta evolución es un conjunto de mejores prácticas para la publicación y la
conexión de datos estructurados en la Web conocido como Linked Data. La adopción de las
mejores prácticas de Linked Data ha dado lugar a la extensión de la Web con un espacio de
datos global que conecta los datos de diversos ámbitos, tales como los programas de
personas, empresas, libros, publicaciones científicas, películas, música, televisión y radio,
genes, proteínas, medicamentos y ensayos clínicos, comunidades online, datos estadísticos
y científicos, y revisiones. Esta red de datos permite nuevos tipos de aplicaciones. Hay
genéricos navegadores de Linked Data, que permiten a los usuarios comenzar a navegar en
una fuente de datos y luego navegar a lo largo de los enlaces en las fuentes de datos
relacionados. No están ligados los motores de búsqueda de datos que rastrean la web de
datos siguiendo los enlaces entre las fuentes de datos y proporcionar capacidades de
consulta más expresivos los datos agregados, de forma similar a cómo una base de datos
local se consulta en la actualidad. La trama de datos también abre nuevas posibilidades para
aplicaciones específicas de dominio. A diferencia de los mashups Web 2.0 que trabajan en
contra de un conjunto fijo de fuentes de datos, aplicaciones de Linked Data operan
en la parte superior de un espacio de datos no unido, mundial. Esto les permite
ofrecer respuestas más completas como nuevas fuentes de datos aparecen en la
Web.

El resto de este trabajo se estructura de la siguiente manera. En la Sección 2 se


proporciona un resumen de las características clave de Linked Data. La sección 3 describe
las actividades y resultados del proyecto Linking Open Data, un esfuerzo comunitario para
aplicar los principios de Linked Data los datos publicados bajo licencias abiertas. El estado
del arte en la publicación de datos vinculados se revisa en la sección 4, mientras que la
sección 5 proporciona una visión general de las aplicaciones de Linked Data. Sección 6
compara datos vinculados a otras tecnologías para la publicación de datos estructurados en
la Web, antes de discutir los retos de investigación en curso en la Sección 7.
2. Lo que se Linked Data?
En resumen, Linked Data es simplemente sobre el uso de la Web para crear enlaces con
tipo entre los datos de diferentes fuentes. Estos pueden ser tan diversas como las bases de
datos mantenidas por ambas organizaciones en diferentes ubicaciones geográficas, o
simplemente sistemas heterogéneos dentro de una organización que, históricamente, no
han interoperated fácilmente a nivel de datos. Técnicamente, Linked datos se refiere a los
datos publicados en la web de una manera tal que sea legible por máquina, su significado
se define explícitamente, que está vinculada a otros conjuntos de datos externos, y puede a
su vez estar vinculado a partir de conjuntos de datos externos.

Mientras que las unidades primarias de la web de hipertexto son HTML (HyperText Markup
Language) documentos conectados por hipervínculos sin tipo, Linked Data se basa en
documentos que contienen datos en formato RDF (Resource Description Framework) (Klyne
y Carroll, 2004). Sin embargo, en lugar de la simple conexión de estos documentos, datos
vinculados utiliza RDF para hacer declaraciones mecanografiadas que enlazan cosas
arbitrarias en el mundo. El resultado, que nos referiremos como la web de datos, puede
describirse más exactamente como una red de cosas en el mundo, descrito por los datos
en la Web.

Berners-Lee (2006) describe un conjunto de 'reglas' para la publicación de datos en la Web


de forma que todos los datos publicados se convierte en parte de un único espacio de datos
global:

1. Uso URIs como nombres para las cosas


2. Usar HTTP URI para que las personas pueden buscar esos nombres
3. Cuando alguien mira hacia arriba un URI, proporcionan información útil, utilizando las
normas
(RDF, SPARQL)
4. Incluir enlaces a otras URIs, para que puedan descubrir más cosas

Estos se conocen como los 'principios de Linked Data', y proporcionar una receta básica
para la publicación y la conexión de datos a través de la infraestructura de la Web, si
bien respetando su arquitectura y estándares.

La pila de tecnología Linked Data

Linked Data se basa en dos tecnologías que son fundamentales para la Web: (. Berners-Lee
et al, 2005) identificadores uniformes de recursos (URI) y el Protocolo de transferencia de
hipertexto (HTTP) (Fielding et al., 1999). Mientras Uniform Resource Locator (URL) se han
familiarizado como direcciones de documentos y otras entidades que se pueden encontrar
en la web, identificadores de recursos uniformes proporcionan un medio más genérico para
identificar cualquier entidad que existe en el mundo.

Cuando las entidades son identificados por URIs que utilizan el esquema http: //, estas
entidades se pueden buscar simplemente mediante la eliminación de referencias del URI a
través del protocolo HTTP. De esta manera, el protocolo HTTP proporciona un mecanismo
simple y universal para la recuperación de recursos que pueden ser serializados como un
flujo de bytes (como una fotografía de un perro), o recuperar las descripciones de las
entidades que no pueden estar a su vez envía a través de la red en este forma (como el
perro en sí).

URIs y HTTP se complementan con una tecnología que es fundamental para la Web de
Datos - RDF, introducido anteriormente. Mientras HTML proporciona un medio para
estructurar y documentos de enlace en la Web, RDF proporciona un modelo genérico de
datos, basado en el gráfico con el que a la estructura y enlace de datos que describe las
cosas en el mundo.
El modelo RDF codifica los datos en forma de triples sujeto, predicado, objeto. El sujeto y
objeto de un triple son ambos URI que cada identificar un recurso o un URI y una cadena
literal, respectivamente. El predicado especifica cómo el sujeto y el objeto están
relacionados, y también se representa mediante un URI.

Por ejemplo, un triple de RDF puede afirmar que dos personas, A y B, cada uno identificado
por un URI, están relacionados por el hecho de que A sabe B. Del mismo modo un triple de
RDF puede referirse a una persona C y D un artículo científico en una base de datos
bibliográfica al afirmar que C es el autor de D. Dos recursos vinculados de esta manera se
pueden extraer de diferentes conjuntos de datos en la web, permitiendo que los datos en
una fuente de datos a estar vinculado a la de otra, creando así una red de datos. En
consecuencia, es posible pensar en tripletas RDF que los puntos de enlace en diferentes
conjuntos de datos como análogos a los enlaces de hipertexto que atan juntos la web de
documentos.

enlaces RDF (Bizer y Cyganiak & Heath, 2007) toman la forma de tripletas RDF, donde el
tema de la triple es una referencia URI del espacio de nombres de un conjunto de datos,
mientras que el objeto de la triple es una referencia URI en la otra. La figura 1 muestra dos
enlaces ejemplo RDF. El primer enlace establece que un recurso identificado por el
URIhttp://www.w3.org/People/Berners-Lee/card#i es miembro de otro recurso
llamadohttp://dig.csail.mit.edu/data#DIG. Cuando el sujeto
URI se eliminan las referencias a través del protocolo HTTP, las respuestas del servidor
dig.csail.mit.edu con una descripción RDF del recurso identificado, en este caso la
información descentralizada Grupo MIT. Cuando se elimina la referencia del objeto URI del
servidor de W3C proporciona un gráfico que describe RDF Tim Berners-Lee. Eliminación de
referencias a la URI de predicadoshttp://xmlns.com/foaf/0.1/member produce una definición
del miembro de tipo de enlace, se describe en RDF usando el lenguaje de definición de RDF
Vocabulario (RDFS), introducido a continuación. El segundo enlace RDF conecta la
descripción de la película Pulp Fiction en la Base de Datos de Películas Vinculado con la
descripción de la película proporcionada por DBpedia, al afirmar que el
URIhttp://data.linkedmdb.org/resource/film/77 y el URI
http://dbpedia.org/resource/Pulp_Fiction_%28film%29 se refieren a la misma entidad del
mundo real - la película Pulp Fiction.

Tema:http://dig.csail.mit.edu/data#DIG
Predicado: http://xmlns.com/foaf/0.1/member
Objeto:http://www.w3.org/People/Berners-Lee/card#i

Tema:http://data.linkedmdb.org/resource/film/77
Predicado:http://www.w3.org/2002/07/owl#sameAs
Objeto:http://dbpedia.org/resource/Pulp_Fiction_%28film%29

Figura 1. Ejemplo enlaces


RDF

El lenguaje de definición de RDF Vocabulario (RDFS) (Brickley y Guha, 2004) y el Lenguaje


de Ontologías Web (OWL) (McGuinness y van Harmelen, 2004) proporcionan una base para
la creación de vocabularios que se pueden utilizar para describir las entidades en el mundo y
la forma en que están relacionados. Vocabularios son conjuntos de clases y propiedades.
Vocabularios están ellos mismos expresan en RDF, usando términos de RDFS y OWL, que
proporcionan diversos grados de expresividad en dominios de modelado de interés.
Cualquier persona es libre de publicar vocabularios a la Web de Datos (Berrueta y Phipps,
2008), que a su vez se puede conectar en RDF triples que las clases de enlace y
propiedades en un vocabulario para los de otro, definiendo de este modo las asignaciones
entre los vocabularios relacionados.
Mediante el empleo de URIs HTTP para identificar los recursos, el protocolo HTTP
mecanismo como la recuperación y el modelo de datos RDF para representar descripciones
de recursos, Linked Data se basa directamente en la arquitectura general de la Web (Jacobs
y Walsh, 2004). Por ello, la web de datos puede ser visto como una capa adicional que está
estrechamente entrelazada con la Web documento clásico y tiene muchas de las mismas
propiedades:

• La trama de datos es genérico y puede contener cualquier tipo de datos.


• Cualquier persona puede publicar datos a la Web de Datos.
• Proveedores de datos no se ven limitados en la elección de los vocabularios
con los que representar los datos.
• Las entidades están conectadas por enlaces RDF, creando un gráfico de datos
global que se extiende por las fuentes de datos y permite el descubrimiento de
nuevas fuentes de datos.

Desde el punto de vista del desarrollo de aplicaciones Web de datos tiene las
siguientes características:

• Los datos se estrictamente separado de formato y aspectos de presentación.


• Los datos se auto-descripción. Si una aplicación que se consume Datos Vinculados
encuentra datos que se describen con un vocabulario desconocido, la aplicación
puede eliminar la referencia de las URIs que identifican términos de vocabulario
con el fin de encontrar su definición.
• El uso de HTTP como mecanismo de acceso de datos estandarizados y RDF como
un modelo estandarizado de datos simplifica el acceso de datos en comparación
con las API Web, que se basan en modelos de datos heterogéneos e interfaces de
acceso.
• La trama de datos está abierto, lo que significa que las aplicaciones no tienen que
ser aplicadas en contra de un conjunto fijo de fuentes de datos, pero pueden
descubrir nuevas fuentes de datos en tiempo de ejecución siguiendo los enlaces
RDF.

3. El Proyecto de Enlace de Datos Abiertos


El ejemplo más visible de la adopción y aplicación de los principios de Linked Data ha sido el
proyecto Linking Open Data [Nota:http://esw.w3.org/topic/SweoIG/TaskForces/
CommunityProjects / LinkingOpenData], un esfuerzo de la comunidad de base fundada en
enero
2007 y apoyado por la Educación Web Semántica del W3C y Difusión Group
[Nota:http://www.w3.org/2001/sw/sweo/]. El objetivo inicial y permanente del proyecto
es para arrancar el web de datos mediante la identificación de los conjuntos de datos
existentes que están disponibles bajo licencias abiertas, convirtiéndolas en RDF acuerdo
con los principios de Linked Data, y su publicación en la Web.

Los participantes en las primeras etapas del proyecto fueron principalmente investigadores
y desarrolladores en los laboratorios de investigación universitarios y pequeñas empresas.
Desde entonces, el proyecto ha crecido considerablemente, para incluir la participación
significativa de las grandes organizaciones como la BBC, Thomson Reuters y la Biblioteca
del Congreso. Este crecimiento es posible gracias al carácter abierto del proyecto, en el que
cualquiera puede participar simplemente mediante la publicación de un conjunto de datos
de acuerdo con los principios de Linked Data y la articulación con los conjuntos de datos
existentes. Una indicación de la gama y la escala de la Web de los datos procedentes del
proyecto Linking Open Data se proporciona en la Figura 2. Cada nodo en este diagrama
nube representa un conjunto de datos distinto publicada como Linked Data, a partir de
marzo de 2009.
Figura 2. Linking Open Data diagrama nube dar una visión general de conjuntos de datos
publicados y sus relaciones interrelación.

Los arcos de la Figura 2 indican que existen enlaces entre los elementos de los dos
conjuntos de datos conectados. arcos más pesados corresponden aproximadamente a un
mayor número de enlaces entre dos conjuntos de datos, mientras que los arcos
bidireccionales indican los enlaces hacia el exterior a la otra existir en cada conjunto de
datos. El contenido de la nube es de naturaleza diversa, que incluye datos sobre
geográfica lugares, las personas, las empresas, los libros (Bizer y Cyganiak y Gauss,
2007), publicaciones científicas (Van de Sompel et al., 2009), películas (Hassanzadeh y
Consens, 2009), música, programas de televisión y radio (Kobilarov et al, 2009), los
genes, proteínas, fármacos y ensayos clínicos (Belleau et al.,
2008, Jentzsch et al., 2009), comunidades en línea, datos estadísticos, los resultados
del censo, y revisiones (Heath y Motta, 2008).

Cálculo del tamaño exacto de la Web de datos es un reto debido al hecho de que muchos de
los datos está siendo generado por envolturas alrededor de las bases de datos relacionales
o APIs existentes y por lo tanto primero necesita ser arrastrado antes de que pueda ser
contado o analizada (Hausenblas et al. ,
2008). Por otra parte, el tamaño de la web de datos se puede estimar en base a las
estadísticas de conjuntos de datos que son recogidos por la comunidad LOD en el wiki ESW.
Según estas estadísticas, la Web de Datos se compone actualmente de 4,7 mil millones de
triples RDF, que están vinculados entre sí por unos 142 millones de enlaces RDF (mayo de
2009). [Nota:http://esw.w3.org/topic/ grupos de trabajo / CommunityProjects /
LinkingOpenData / conjuntos de datos / LinkStatistics y
http://esw.w3.org/topic/TaskForces/CommunityProjects/LinkingOpenData/DataSets/
Estadísticas]

Como muestra la Figura 2, ciertos conjuntos de datos sirven como conexión entre los
centros en la Web de Datos. (. Auer et al, 2007) Por ejemplo, el conjunto DBpedia de datos
consta de RDF tripes extraído de las "infoboxes" comúnmente visto en el lado derecho de los
artículos de Wikipedia, mientras Geonames [Nota:http://www.geonames.org/ontology/]
proporciona descripciones RDF de millones de lugares geográficos en todo el mundo. A
medida que estos dos conjuntos de datos proporcionan URI y las descripciones RDF para
muchas entidades o conceptos comunes, que están referenciadas con frecuencia en otros
conjuntos de datos más especializados y por lo tanto se han convertido en los centros a los
que están conectados un número creciente de otros conjuntos de datos.

4. Publishing datos enlazados en la Web


Mediante la publicación de datos en la Web de acuerdo con los principios de Linked Data,
proveedores de datos añaden sus datos a un espacio de datos global, lo que permite que
los datos sean descubiertos y utilizados por varias aplicaciones. La publicación de un
conjunto de datos como datos vinculados en la Web implica los siguientes tres pasos
básicos:

1. Asignar URIs a las entidades descritas por el conjunto de datos y proporcionar para
eliminación de referencias estos
URIs a través del protocolo HTTP en representaciones RDF.
2. Establecer enlaces RDF a otras fuentes de datos en la Web, por lo que los clientes pueden
navegar por la web de
Los datos en su conjunto, siguiendo enlaces RDF.
3. Proporcionar metadatos sobre los datos publicados, por lo que los clientes
pueden evaluar la calidad de los datos publicados y elegir entre diferentes medios
de acceso.

A continuación, vamos a dar una visión general acerca de cada una de estas tareas, así
como sobre las herramientas que se han desarrollado para apoyar editores con cada
tarea.

La elección de los URI y vocabularios RDF


Los proveedores de datos pueden elegir entre dos patrones de uso de URI HTTP para
identificar entidades: 303
URI y croquetas de URIs. Ambos patrones aseguran que los clientes puedan distinguir entre
los URIs que identifican las entidades y URIs que identifican los documentos web que
describen estas entidades del mundo real (Sauermann y Cyganiak, 2008) en el mundo real.
En un entorno abierto como el Web, diferentes proveedores de información publican datos
sobre la misma entidad del mundo real, por ejemplo, una ubicación geográfica o una
celebridad. Ya que pueden no saber el uno del otro, se introducen diferentes URIs para
identificar el mismo entitiy. Por ejemplo, DBpedia utiliza el
URIhttp://dbpedia.org/resource/Berlin para identificar Berlín, mientras que Geonames
utiliza el URIhttp://sws.geonames.org/2950159/ para identificar Berlín. Como ambos URI
se refieren a la misma entidad del mundo real, que se llaman alias URI. alias URI son
comunes en la Web de datos, ya que no es realista esperar que todos los proveedores de
información de acuerdo en los mismos URI para identificar una entidad. alias URI también
proporcionan una importante función social a la web de datos, ya que se eliminan las
referencias a diferentes descripciones de la misma entidad del mundo real y por lo tanto
permiten a los diferentes puntos de vista y opiniones que se expresen en la Web. Con el fin
de seguir siendo capaz de realizar un seguimiento de que los diferentes proveedores de
información hablan de la misma entidad, es una práctica común que los proveedores de
información establecidos búho: sameAs enlaces a alias URI que conocen.

Las diferentes comunidades tienen preferencias específicas sobre los vocabularios que
prefieren utilizar para la publicación de datos en la Web. La trama de datos es, por tanto,
abierto a vocabularios arbitrarias que se utilizan en paralelo. A pesar de esta apertura
general, se considera una buena práctica de reutilizar términos de vocabularios RDF
conocidos como FOAF, SIOC, SKOS, DOAP, vCard, Dublin Core, la OAI-ORE o GoodRelations
siempre que sea posible con el fin de que sea más fácil para las aplicaciones cliente para
procesar datos vinculados. Sólo si estos vocabularios no proporcionan los términos
requeridos deben definir los editores de datos de terminología específica del origen nuevo,
los datos (y Bizer
Cyganiak & Heath, 2007). Si se define una nueva terminología, debe hacerse auto-
descripción haciendo que las URIs que identifican términos dereferencable Web (Berrueta y
Phipps, 2008). Esto permite a los clientes recuperar el esquema de RDF o OWL definiciones
de los términos, así como las asignaciones de plazo a otros vocabularios. La web de datos
por lo tanto se basa en una modalidad de pago según el enfoque de integración de datos
(Das Sarma y Dong y Halevy, 2008) basado en una mezcla de utilizar vocabularios
comunes junto con los términos específicos de la fuente de datos que están conectados por
asignaciones que se consideren necesarias.

Un formato de serialización común para Linked Data es RDF / XML (Beckett, 2004). En
situaciones donde se requiere la inspección humana de los datos RDF, Notation 3 (Berners-
Lee, 1998), y su tortuga subconjunto (Beckett y Berners-Lee, 2008), se proporcionan a
menudo como serializaciones convertibles alternativos, inter, debido a la mayor percepción
legibilidad de estos formatos. Alternativamente, los datos vinculados también se puede
serializar como RDFa (Adida et al., 2008), que proporciona para incrustar RDF triplica en
HTML. En el segundo caso, los editores de datos deben utilizar el atributo sobre RDFa para
asignar URIs a entidades con el fin de permitir que otros proveedores de datos para
establecer enlaces RDF a ellos.

enlace Generación
RDF enlaces permiten que las aplicaciones cliente para navegar entre las fuentes de datos y
descubrir datos adicionales. Con el fin de ser parte de la red de datos, fuentes de datos
deben establecer enlaces RDF a entidades relacionadas en otras fuentes de datos. Como
fuentes de datos a menudo proporcionan información sobre un gran número de entidades,
es una práctica común el uso de métodos automatizados o semi-automatizado para generar
enlaces RDF.

En varios dominios, no son generalmente aceptados nombrar esquemas. Por ejemplo, en


el dominio de publicación hay un número ISBN e ISSN, en el dominio financiero hay
identificadores ISIN, EAN y códigos EPC son ampliamente utilizados para identificar los
productos, en ciencias de la vida diversos esquemas de identificación aceptadas existen
para los genes, moléculas, y sustancias químicas . Si la fuente de enlace y los conjuntos
de datos de destino enlace ya tanto de apoyo uno de estos esquema de identificación, la
relación implícita entre entidades en ambos conjuntos de datos puede
fácilmente explicitarse como enlaces RDF. Este enfoque ha sido utilizado para generar
enlaces entre varias fuentes de datos en la nube LOD.
Si no existe ningún esquema de nomenclatura común, enlaces RDF se generan a menudo
basada en la similitud de las entidades dentro de ambos conjuntos de datos. Tales cálculos
de similitud pueden construir en un gran número de trabajos relacionados con el registro
de vinculación (Winkler, 2006) y la detección de duplicados (Elmagarmid et al.,
2007) dentro de la comunidad de base de datos, así como en la coincidencia ontología
(Euzenat y Shvaiko,
2007) en la comunidad de la representación del conocimiento. Un ejemplo de un
algoritmo de interconexión basado similitud se presenta en (Raimond et al., 2008). Con
el fin de establecer vínculos entre artistas RDF en los conjuntos de datos Jamendo y
Musicbrainz, los autores utilizan una métrica de similitud que compara los nombres de
los artistas, así como los títulos de sus álbumes y canciones.

Varios marcos de generación de enlace RDF están disponibles, que proporcionan los
lenguajes declarativos para especificar qué se deben crear tipos de enlaces RDF, que la
combinación de métricas de similitud se debe utilizar para comparar entidades y cómo
similitud calificaciones de propiedades específicas se agregan en una puntuación global. (.
Volz et al, 2009) el marco de la Seda va en contra de SPARQL local y remota
[Nota:http://www.w3.org/TR/rdf-sparql-query/] puntos finales
y está diseñado para ser empleado en entornos distribuidos sin tener que replicar conjuntos
de datos localmente. El marco LinQL (Hassanzadeh et al., 2009) funciona sobre bases de
datos relacionales y está diseñado para ser utilizado junto con la base de datos de
herramientas de mapeo RDF como D2R Server o Virtuoso.

metadatos

Datos asociados deben ser publicados junto con varios tipos de metadatos, con el fin de
aumentar su utilidad para los consumidores de datos. Con el fin de permitir a los clientes
para evaluar la calidad de los datos publicados y para determinar si quieren confiar en los
datos, los datos se deben acompañar con meta-información acerca de su creador, su fecha
de creación, así como el método de creación (Hartig,
2009). procedencia meta-información básica se puede realizar utilizando términos Dublin
Core o el vocabulario Publicación en la Web Semántica (Carroll et al., 2005). El Procedencia
modelo abierto (Moreau et al., 2008) proporciona términos para describir los flujos de
trabajo de transformación de datos. En (Zhao et al., 2008), los autores proponen un método
para proporcionar la evidencia de eslabones RDF y para el seguimiento de cómo cambian los
enlaces RDF con el tiempo

Con el fin de apoyar a los clientes en la elección de la forma más eficiente para acceder a
datos de la web para la tarea específica que tienen que realizar, los editores de datos
pueden proporcionar metadatos técnica adicional sobre sus conjunto de datos y sus
relaciones interrelación con otros conjuntos de datos: La Web Semántica se arrastra
extensión mapa del sitio (Cyganiak et al., 2008) permite a los editores de datos a estado
que medios alternativos de acceso (SPARQL punto final, RDF vertederos) están provistos
además de URIs Dereferenceable. El vocabulario de Enlazadas Conjuntos de datos
(Alexander et al.,
2009) define los términos y las mejores prácticas para categorizar y proporcionar
información estadística acerca de meta conjuntos de datos, así como los
conjuntos de enlaces que los unen.

Herramientas de publicación
Se ha desarrollado una variedad de herramientas de publicación de Linked Data. Las
herramientas sirven ya sea el contenido de los almacenes como RDF Linked Data en la Web
o proporcionan Vinculados vistas de datos sobre las fuentes de datos existentes no RDF. Los
editores de herramientas escudo de tratar con los detalles técnicos tales como la
negociación de contenido y asegurar que los datos se publica de acuerdo con las mejores
prácticas de la comunidad de Linked Data (Sauermann y Cyganiak, 2008; Berrueta y
Phipps, 2008; Bizer y Cyganiak & Heath, 2007). Todas las herramientas de soporte de
eliminación de referencias URI en descripciones RDF. Además, algunas de las herramientas
también proporcionan acceso de consulta SPARQL a los conjuntos de datos servido y apoyar
la publicación de RDF vertederos.

• D2R servidor. D2R servidor (Bizer y Cyganiak, 2006) es una herramienta para la
publicación no RDF
bases de datos relacionales como datos vinculados en la Web. El uso de un
mapeo declarativa
idioma, el editor de datos define un mapeo entre el esquema relacional de la
base de datos y el objetivo RDF vocabulario. Sobre la base de la asignación, el
servidor D2R publica una vista Linked Data sobre la base de datos y permite a
los clientes consultar la base de datos a través del protocolo SPARQL.
• Virtuoso Universal Server. El servidor Openlink Virtuoso
[Nota:http://www.openlinksw.com/dataspace/dav/wiki/Main/VOSRDF] proporciona
para servir datos RDF a través de una interfaz de datos vinculados y un punto final
de SPARQL. Puede datos RDF
ser almacenados directamente en Virtuoso o pueden ser creados sobre la marcha
de las bases de datos relacionales no RDF basado en un mapeo.
• Plataforma Talis. La Plataforma Talis [Nota:http://www.talis.com/platform/] se
entrega como software como servicio se accede a través de HTTP, y proporciona
almacenamiento nativo para RDF / Linked Data. Los derechos de acceso lo permite,
los contenidos de cada tienda Plataforma Talis son accesibles a través de un
SPARQL endpoint y una serie de APIs REST que se adhieren a los principios de
Linked Data.
• pubby. El servidor pubby (Cyganiak y Bizer, 2008) se puede utilizar como una
extensión a cualquier tienda de RDF que soporta SPARQL. Pubby reescribe
peticiones de URI en SPARQL DESCRIBE consultas en el almacén RDF subyacente.
Además de RDF, pubby también proporciona una vista HTML simple a través de la
memoria de datos y se encarga de manejar las redirecciones 303 y la negociación
de contenido entre las dos representaciones.
• Triplify. El kit de herramientas Triplify (Auer et al, 2009) es compatible con los
desarrolladores en la ampliación de las aplicaciones Web existentes con datos
front-end Enlazados. Sobre la base de plantillas de consulta SQL, Triplify sirve
Linked Data y una vista JSON sobre la base de datos de la aplicación.
• SparqPlug. SparqPlug (Coetzee, Heath y Motta, 2008) es un servicio que permite la
extracción de datos vinculados a partir de documentos HTML legado en la Web que
no contienen datos RDF. El servicio funciona mediante serialising el DOM HTML
como RDF y que permite a los usuarios definir consultas SPARQL que transforman
elementos de este en un grafo RDF de su elección.
• OAI2LOD servidor. El OAI2LOD (Haslhofer y Schandl, 2008) es un envoltorio de
Linked Data para servidores de documentos que soportan los archivos abiertos
del protocolo OAI-RMH.
• SIOC exportadores. El proyecto SIOC ha desarrollado Vinculado envoltorios de datos
para varios motores de blogs populares, sistemas de gestión de contenidos y foros
de discusión como WordPress, Drupal y phpBB [Nota:http://sioc-
project.org/exporters].

Un servicio que ayuda a los editores a depurar su sitio Linked Data es la validación de
vaporservicio [Nota: http://vapour.sourceforge.net/]. verifica vapor que publicaron
datos cumple con los principios de Linked Data y las mejores prácticas de la
comunidad.

5. Aplicaciones de datos Vinculados


Con un volumen significativo de datos enlazados se publican en la Web, numerosos
esfuerzos están en marcha para investigar y desarrollar aplicaciones que explotan esta red
de datos. En la actualidad estos esfuerzos se pueden clasificar en tres categorías: los
navegadores datos vinculados, motores de búsqueda de datos vinculados, y aplicaciones
de Linked Data de dominio específico. En la siguiente sección vamos a examinar cada una
de estas categorías.

Los navegadores de Linked Data

Al igual que los navegadores web tradicionales permiten a los usuarios navegar por las
páginas HTML siguiendo los enlaces de hipertexto, los navegadores de Linked Data
permiten a los usuarios navegar entre las fuentes de datos siguiendo los enlaces
expresadas como triples RDF. Por ejemplo, un usuario puede ver la descripción RDF de
DBpedia de la ciudad de Birmingham (Reino Unido), a un vínculo 'cuna' de la descripción de
la
el cómico Tony Hancock (que nació en la ciudad), y de allí en adelante en datos RDF de las
emisiones que describen la BBC en la que protagonizó Hancock. El resultado es que un
usuario puede iniciar la navegación en una fuente de datos y atravesar progresivamente la
Web siguiendo RDF en lugar de enlaces HTML. El navegador HyperData Disco [Nota:http:
berlin.de/bizer/ng4j/disco/ //www4.wiwiss.fu-] sigue este enfoque y puede ser visto como
una aplicación directa del paradigma de navegación de hipertexto a la Web de Datos.

Los datos, sin embargo, ofrece oportunidades de interfaz humana y desafíos más allá de
los de la web de hipertexto. La gente tiene que ser capaz de explorar la Web de enlaces
entre los elementos, sino también para analizar poderosamente datos de forma masiva. El
tabulador (Berners-Lee et al, 2006; Berners-Lee et al, 2008), por ejemplo, permite al
usuario recorrer la web de datos, y exponer fragmentos de él en
de manera controlada, en "modo de esquema"; para descubrir y poner de relieve un patrón
de interés; y entonces se le pregunta por cualquier otros patrones similares en la Web de
datos. Los resultados de la consulta forman una tabla que puede ser analizada con diversos
métodos de presentación de datos convencionales, tales como navegadores de facetas,
mapas, líneas de tiempo, y así sucesivamente.

Tabulador y mármoles (Becker & Bizer, 2008) (ver Figura 3) se encuentran entre los
navegadores de datos que realizan un seguimiento de la procedencia de los datos, mientras
que la fusión de datos de la misma cosa de diferentes fuentes. Mientras que autores como
(Karger y schraefel, 2006) han cuestionado el uso de
vistas orientado a gráficos de-más de datos RDF, como se ve en los navegadores tales
como FOAFNaut [Nota: http://www.jibbering.com/foaf/], (Hastrup, Cyganiak y Bojars,
2008) sostienen que tales interfaces de llenar un nicho importante, y describen su
navegador Fenfire que sigue a este paradigma de visualización.
Figura 3. Los Mármoles Vinculados navegador de datos que muestra datos sobre Tim
Berners-Lee. Los puntos de colores indican las fuentes de datos de la que se
ha combinado los datos.

Datos Vinculados motores de búsqueda e índices

En la web de hipertexto tradicional, navegación y búsqueda a menudo son vistos como los
dos modos dominantes de interacción (Olston y Chi, 2003). Mientras que los navegadores
proporcionan los mecanismos para navegar por el espacio de información, los motores de
búsqueda son a menudo el lugar en el que comienza el proceso de navegación. Un número
de motores de búsqueda se han desarrollado que se arrastran datos enlazados desde la
Web siguiendo los enlaces RDF, y proporcionar capacidades de consulta sobre datos
agregados. En términos generales, estos servicios se pueden dividir en dos categorías: los
motores de búsqueda orientada a humanos, y los índices orientados a la aplicación.

orientada humanos-motores de búsqueda

Los motores de búsqueda como Falcons (Cheng y Qu, este número) y SWSE (Hogan et al.,
2007) proporcionan basados en palabras clave de servicios de búsqueda orientados a
usuarios humanos, y siguen un paradigma de interacción similar a los líderes del mercado
existentes, tales como Google y Yahoo. El usuario se presenta con un cuadro de búsqueda
en la que se pueden introducir palabras clave relacionadas con el artículo o tema en el que
están interesados, y la aplicación devuelve una lista de resultados que pueden ser
relevantes para la consulta. Sin embargo, en lugar de simplemente proporcionar enlaces
de los resultados de búsqueda a través de los documentos de origen en el que se
mencionan las palabras clave consultados, tanto SWSE y Falcons proporcionar una interfaz
más detallada al usuario que explota el subyacente
estructura de los datos. Ambos proporcionan un resumen de la entidad el usuario selecciona
de la lista de resultados, junto con los datos estructurados adicionales se arrastraban desde
la web y enlaces a entidades relacionadas.

Falcons proporciona a los usuarios la opción de buscar objetos, conceptos y documentos,


cada uno de los cuales conduce a un poco diferente presentación de los resultados.
Mientras que la búsqueda de objetos (Figura 4.) es adecuado para la búsqueda de
personas, lugares y otros elementos más concretos, el concepto de búsqueda está
orientada a la localización de las clases y propiedades en ontologías publicados en la Web.
La función de búsqueda documento proporciona una experiencia de motor de búsqueda
más tradicional, donde los resultados apuntan a documentos RDF que contienen los
términos de búsqueda especificados.

Vale la pena señalar que, si bien pueden ser referidos a entidades distintas, la web de
documentos y el formulario Web de datos que está conectado, navegable espacio de
información. Por ejemplo, un usuario puede realizar una búsqueda en la Web documento
existente, seguir un enlace de un documento HTML en la web de datos, navegar por este
espacio desde hace algún tiempo, y luego seguir un enlace a un documento HTML diferente,
y así sucesivamente.

Figura 4. Falcons de resultados de búsqueda de objetos para la palabra clave


'Berlín'.

Es interesante observar que mientras tanto SWSE y Falcons operan sobre los corpus de
datos estructurados se arrastró desde la Web, optan por ofrecer muy simple capabilitie
consulta que imitan las interfaces de consulta de los buscadores web convencionales.
Mientras que uno puede intuitivamente esperaría que la estructura adicional en los datos
para ser explotados para proporcionar capacidades de consulta sofisticados para usuarios
avanzados, por lo menos, esto no ha demostrado ser el caso hasta la fecha, con la
excepción del estilo de consulta por el ejemplo de tabulador y facetado interfaces de
navegación para el refinamiento de la consulta. SWSE proporciona acceso a su almacén de
datos subyacente a través del lenguaje de consulta SPARQL, sin embargo esto es adecuado
principalmente para los desarrolladores de aplicaciones con un conocimiento de la lengua en
lugar de usuarios regulares que deseen hacer preguntas muy específicas a través de una
interfaz humana utilizable.

Índices orientados a la aplicación

Mientras SWSE y Falcons proporcionan capacidades de búsqueda orientados hacia los


seres humanos, otra raza de los servicios se han desarrollado para satisfacer las
necesidades de las aplicaciones construidas en la parte superior del distribuida Linked
Data. Estos índices orientados a la aplicación, tales como Swoogle (Ding et al,
2005), Sindice (Oren et al, 2008) y Watson (de Aquino et al, 2008) proporcionan API a
través de las cuales unían aplicaciones de datos pueden descubrir documentos RDF en la
Web que hacen referencia a un cierto URI o que contengan determinadas palabras clave.
La justificación de este tipo de servicios es que cada nueva aplicación Linked Data no
debería necesitar para implementar su propia infraestructura para el rastreo y la
indexación de todas las partes de la web de datos de la que tal vez desee utilizar. En su
lugar, las aplicaciones pueden consultar estos índices para recibir punteros a documentos
potencialmente relevantes que luego puede ser recuperado y procesado por la propia
aplicación. A pesar de este tema común, estos servicios tienen ligeramente diferentes
énfasis. Sindice está más orientada a facilitar el acceso a los documentos que contengan
datos de instancia,

Aplicaciones específicas de dominio

Mientras que los navegadores de Linked Data y motores de búsqueda descritas


anteriormente proporcionan funcionalidad en gran medida genérica, una serie de servicios
han sido desarrollados que ofrecen una mayor funcionalidad específica del dominio por
'machacar arriba' datos de diversas fuentes de Linked Data.

Revyu

Revyu (Heath y Motta, 2008) es una revisión y calificación sitio genérico basado en los
principios de Linked Data y la pila de tecnología de Web Semántica. Además de la
publicación de datos Vinculado, Revyu consume Datos Vinculados de la Web para mejorar
la experiencia de los usuarios del sitio. Por ejemplo, cuando las películas son revisados en
Revyu, el sitio intenta hacer coincidir estos con la entrada correspondiente en DBpedia.
Cuando se produce una coincidencia, información adicional sobre la película (como el
nombre del director y el cartel de la película) se recupera de DBpedia y se muestra
en las páginas orientado a humanos (HTML) del sitio. Además, los enlaces se hacen a nivel
de RDF para el elemento correspondiente, asegurando que mientras que los usuarios
humanos ven una visión más rica del tema a través de la maceración de datos de diversas
fuentes, Vinculados aplicaciones de reconocimiento de datos se proporcionan con referencias
a URI de la cual datos relacionados pueden ser recuperados. Similar
principios son seguidos para vincular objetos como libros y publicaciones a las entradas
correspondientes en los conjuntos de datos externos, y para mejorar los perfiles de
usuario con los datos FOAF.

DBpedia móvil

DBpedia móvil (Becker & Bizer, 2008) es un navegador Linked Data reconoce la ubicación
diseñado para ser ejecutado en un iPhone u otro dispositivo móvil. DBpedia móvil está
orientado al caso de uso de un turista explorar una ciudad. Sobre la base de la posición
actual del GPS del dispositivo móvil, la aplicación proporciona un mashup ubicación céntrica
de otras regiones de DBpedia, opiniones asociado de Revyu, y fotos relacionados a través
de un envoltorio de Linked Data en todo el Flickr foto-compartir API. La Figura 5 muestra
presentan DBpedia móvil datos de DBpedia y Revyu sobre la puerta de Brandenburgo en
Berlín. Además de acceder a datos de la Web, DBpedia Mobile también permite a los
usuarios publicar sus actuales ubicación, fotos y comentarios a la Web como Linked Data,
para que puedan ser utilizados por otras aplicaciones. En lugar de simplemente ser
etiquetados con coordenadas geográficas,

Figura 5. DBpedia móvil mostrando información sobre Berlín

Talis Aspire

Talis Aspire (Clarke, 2009) es una aplicación basada en Web de administración de lista de
recursos desplegados para profesores y estudiantes universitarios. A medida que los
usuarios crear listas a través de una interfaz Web convencional, la aplicación produce
triples RDF que se conservan en un almacén con capacidad para Linked Data subyacente.
El uso de los principios de Linked Data permite a los elementos presentes en una lista a ser
transparente vinculados a los artículos correspondientes que figuran en las listas en otras
instituciones, construyendo así una red de datos académicos a través de las acciones de
los usuarios no especializados.

Programas de la BBC y Música

La British Broadcasting Corporation (BBC) usos vinculados datos internamente como una
tecnología de integración de datos de peso ligero. La BBC se ejecuta numerosas estaciones
de radio y canales de televisión. Tradicionalmente, estas estaciones y canales utilizan
sistemas de gestión de contenido independientes. por tanto, la BBC ha comenzado a utilizar
las tecnologías de Linked Data, junto con DBpedia y
MusicBrainz como vocabularios controlados para conectar el contenido sobre el mismo tema
que residen en diferentes repositorios y para aumentar el contenido con datos adicionales
de la nube Linking Open Data. Sobre la base de estas conexiones, programas y BBC Music
acumulación Linked sitios de datos para todos sus programas de música y las marcas
relacionadas (Kobilarov et al., 2009).

Tubos DERI

Siguiendo el modelo de Yahoo Pipes, DERI Pipes (Le Phuoc et al., 2009) ofrece una
plataforma mashup nivel de datos que permite a las fuentes de datos para ser conectado
entre sí para formar nuevas fuentes de datos. Los flujos de trabajo de agregación
resultantes pueden contener operaciones sofisticadas tales como la consolidación
identificador, el mapeo de esquema, RDFS o razonamiento OWL, con transformaciones de
datos que se expresan utilizando SPARQL CONSTRUIR operaciones o plantillas XSLT.
Figura 6. muestra el conjunto de un flujo de trabajo para integrar los datos sobre Tim
Berners-Lee dentro del entorno de desarrollo de tuberías DERI.

Figura 6. DERI tuberías de flujo de trabajo de la integración de datos sobre Tim


Berners-Lee de tres fuentes de datos.

6. Evolución relacionados (en Investigación y Práctica)


Hay varios otros acontecimientos relacionados con datos vinculados sucediendo en la Web
o ser perseguido por las comunidades de investigación relacionados. En las siguientes
secciones, vamos a comparar estos desarrollos con datos enlazados.

microformatos

Al igual que en Linked Data, microformatos [Nota:http://microformats.org/] se destinan a


ampliar la Web con datos estructurados. Microformatos definir un conjunto de formatos de
datos simples que están incrustados en páginas HTML a través de los atributos de clase.
Dos diferencias importantes entre los microformatos y datos vinculados en su serialización
RDFa son: Datos Vinculados no está limitado en los vocabularios que se pueden utilizar
para representar los datos, y el proceso de desarrollo del vocabulario en sí es totalmente
abierto, mientras que los microformatos están restringidas a un pequeño conjunto de
vocabularios desarrollado a través de un proceso estrechamente gestionado por una
comunidad específica. Los elementos de datos que se incluyen en las páginas HTML a
través de los microformatos no tienen su propio identificador. Esto evita que la afirmación,
a través de documentos y sitios Web, de las relaciones entre los elementos de datos.
Mediante el uso de URIs como identificadores globales y RDF para representar relaciones,
Linked Data no tiene estas limitaciones.

web APIs

Muchas de las principales fuentes de datos Web como Amazon, eBay, Yahoo !, Google y
proporcionan acceso a sus datos a través de las API Web. La página web cuenta
actualmente con 1309 ProgrammableWeb.com API web, así como los mashups 3966 sobre
la base de estas API. API web se accede mediante una amplia gama de diferentes
mecanismos, y los datos recuperados de estas API se representa usando diferentes
formatos de contenido. Por el contrario, Linked Data se compromete a un pequeño conjunto
de tecnologías estandarizadas: URI y HTTP como mecanismo de identificación y acceso, RDF
como contenido
formato. El uso de un único conjunto de tecnologías en lugar de depender de diversos
interfaces y formatos de resultados permite que las fuentes de datos sean más fácilmente
rastreado por los motores de búsqueda y acceder
utilizando navegadores de datos genéricos. Al lado de estos detalles técnicos, también hay
una importante diferencia conceptual entre las API Web y datos vinculados: la mayoría de
las API Web no asignar identificadores únicos globales de elementos de datos. Por lo tanto,
no es posible establecer vínculos entre los elementos de diferentes fuentes de datos con el
fin de conectar los datos en un espacio de datos global. Mashups basado en estos
API por lo tanto siempre se aplican en un conjunto fijo de fuentes de datos. Por el
contrario, las aplicaciones de Linked Data pueden trabajar en la parte superior de un
espacio de datos ilimitada, mundial. Ellos pueden descubrir nuevas fuentes de datos
siguiendo los enlaces RDF y aprovechar las nuevas fuentes de datos tal y como aparecen
en la web sin necesidad de cambiar el código de la aplicación. Por lo tanto, las tecnologías
de Linked Data pueden contribuir a la conexión de los diferentes silos de datos que existen
actualmente en la web de nuevo en el único espacio de información global.

Dataspaces

Un concepto reciente dentro de la comunidad de bases de datos que es muy similar a los
datos vinculados es Dataspaces (Franklin et al., 2005). Dataspaces proporcionan una
arquitectura de sistema de destino alrededor de la cual se unifican la investigación en curso
en la reconciliación de referencia, a juego de esquema y de asignación, el linaje de datos,
calidad de datos y la extracción de información (Halevy et al., 2006). A diferencia de otros
sistemas de integración de información, sistemas de Dataspaces ofrecen respuestas de
mejor esfuerzo antes de correspondencias semánticas completas se proporcionan al
sistema. Una idea clave de Dataspaces es que la cohesión semántica de un espacio de datos
se incrementa con el tiempo por diferentes partes proporcionar asignaciones; la misma
modalidad de pago según enfoque de integración de datos que emerge actualmente en la
Web de Datos. Por ello, la web de datos puede ser visto como una realización del concepto
Dataspaces a escala global, apoyándose en un conjunto específico de los estándares web
con el fin de estar estrechamente alineado con la arquitectura general de la web. Por tanto,
es probable que la web de datos se beneficiará considerablemente de la investigación en
Dataspaces que está en curso en la comunidad de base de datos.

Web semántica

El deseo de ampliar las capacidades de la Web para la publicación de datos estructurados no


es nueva y se remonta a los primeros propuesta de la World Wide Web
[Nota:http://www.w3.org/History/1989/proposal.html] y posteriores trabajos sobre el tema
(Berners-Lee et al., 1994). Tendencias previstas en estas primeras etapas de la existencia
de la web incluyen “Evolución de los objetos de ser documentos principalmente legibles para
contener más información semántica orientada a máquina” (Berners-Lee et al., 1994), que
se puede ver como las semillas de una idea que se conoce como la web Semántica.

La visión de una Web Semántica ha sido interpretado de muchas maneras diferentes (por
ejemplo, Berners-Lee, Hendler y Lassila, 2001; Marshall & Shipman, 2003). Sin embargo, a
pesar de esta diversidad en la interpretación, el objetivo original de la construcción de una
red global de datos legibles por máquina permanece constante a través de la literatura
original sobre el tema. De acuerdo con (Berners-Lee, 2000, pp.191), “El primer paso es
poner los datos en la Web en una forma que las máquinas puedan entender de forma
natural, o su conversión en esa forma. Esto crea lo que llamo una Web Semántica - una red
de datos que pueden ser procesados directamente o indirectamente por las máquinas”. Por
lo tanto, mientras que la Web Semántica o Web de datos, es el objetivo o el resultado final
de este proceso, Linked Data proporciona los medios para alcanzar ese objetivo.

Por la publicación de Linked Data, numerosos individuos y grupos han contribuido a la


construcción de una red de datos, lo que puede disminuir las barreras para la reutilización,
la integración y aplicación de datos de múltiples fuentes heterogéneas y distribuidas. Con
el tiempo, con datos vinculados como base, algunas de las propuestas más sofisticadas
que se asocian con la visión de la Web Semántica, tales como agentes inteligentes, puede
llegar a ser una realidad.

7. Desafíos de investigación
Por la publicación y la interconexión de varias fuentes de datos en la Web, la comunidad
Linking Open Data ha creado un punto de cristalización para la Web de Datos y un banco
de pruebas para las tecnologías difícil de Linked Data. Sin embargo, para abordar el
objetivo final de poder utilizar la Web como una sola base de datos mundial, varios retos
de investigación restantes deben ser superados.

Interfaces de usuario y paradigmas de interacción

Podría decirse que la principal ventaja de Linked Data desde la perspectiva del usuario es la
provisión de un acceso integrado a datos de una amplia gama de fuentes de datos
distribuidas y heterogéneas. Por definición, esto puede implicar la integración de los datos
procedentes de fuentes no seleccionados explícitamente por los usuarios, ya que hacerlo
sería probable incurrir en una sobrecarga cognitiva inaceptable. Mientras que la
navegadores descritos en la Sección 5 demuestran las tendencias prometedoras en cómo se
pueden desarrollar aplicaciones que explotan Linked Data, numerosos retos permanecen en
la comprensión de los paradigmas de interacción del usuario apropiados para las
aplicaciones basadas en datos reunidos de forma dinámica de esta manera (Heath, 2008b).
Por ejemplo, mientras que los navegadores de hipertexto proporcionan mecanismos para los
delanteros de navegación y hacia atrás en un espacio de información centrada en el
documento, controles de navegación similares en un navegador Linked Data deberían
permitir al usuario desplazarse hacia delante y hacia atrás entre las entidades, cambiando
de este modo el punto focal de la aplicación. navegadores datos vinculados también tendrán
que proporcionar mecanismos intuitivos y eficaces para añadir y eliminar fuentes de datos a
partir de una visión integrada, entidad-céntrica. Sigma (Catasta y Cyganiak
Y Tummarello, 2009), un motor de búsqueda basado en el servicio Sindice, da una
indicación de cómo se podría entregar dicha funcionalidad. Sin embargo la comprensión
de cómo este tipo de interfaz se puede realizar cuando el número de fuentes de datos en
los miles o millones es un reto de investigación cautivador.

arquitecturas de aplicaciones
En principio, Linked Data se puede acceder a través de rastreo por adelantado y el
almacenamiento en caché, o en sitio al vuelo en tiempo de ejecución de aplicaciones a
través de recorrido de enlace o consulta federada. Los motores de búsqueda como SWSE,
Sindice, halcones, y Watson rastrean la web de datos y proporcionan aplicaciones con
acceso a los datos rastreados a través de APIs. Federados arquitecturas de consulta para
Linked Data incluyen DARQ (Quilitz y Leser, 2008) y SemaPlorer (Schenk et al., 2008). La
biblioteca de cliente Web Semántica [Nota:http://www4.wiwiss.fu-
berlin.de/bizer/ng4j/semwebclient/]
y Lentejuelas [Nota:http://squin.org/] han demostrado que las consultas expresivos pueden
ser contestadas en contra de la web de datos basándose en el tiempo de ejecución de
enlace transversal. La mezcla apropiada de estos métodos siempre dependerá de las
necesidades específicas de una aplicación de datos Vinculado. Sin embargo, debido a la
probabilidad de problemas de escalabilidad con el recorrido de enlace en la marcha y
consulta federada, puede ocurrir que el rastreo generalizado y almacenamiento en caché se
convertirá en la norma en hacer que los datos disponibles para las aplicaciones en el
momento oportuno, mientras que ser capaz de tomar ventaja de la apertura de la web de
datos mediante el descubrimiento de nuevas fuentes de datos a través del enlace de
recorrido.

Mapeo de esquema y Fusión de Datos

Una vez que los datos se han recuperado de fuentes distribuidas, debe integrarse de
una manera significativa antes de que se muestra al usuario o se procesa
adicionalmente. Hoy en día, las aplicaciones de datos más Vinculados muestran datos
de diferentes fuentes junto a la otra, pero hacen poco para integrar aún más. Para
hacerlo no requiere asignación de términos de diferentes
vocabularios a las aplicaciones tratan de esquema, así como la fusión de datos sobre la
misma entidad de diferentes fuentes, mediante la resolución de conflictos de datos.

Vinculados Fuente de datos ya sea utilizar su propio esquemas o utilizan una mezcla de
términos de vocabularios existentes, bien conocidos junto con los términos auto-definidas
específicas a la fuente de datos particular. Con el fin de apoyar a los clientes en la
transformación de datos entre los diferentes esquemas, fuentes de datos pueden publicar
correspondencias entre su terminología local y la terminología de las fuentes de datos
relacionados en la Web de Datos. recomendaciones actuales del W3C como Esquema RDF
(Brickley y Guha, 2004) y OWL (McGuinness y van Harmelen, 2004) definen la terminología
básica, como búho: equivalentClass, búho: equivalentProperty, rdfs: subClassOf, rdfs:
subPropertyOf que puede ser utilizado para publicar básica correspondencias. En muchas
situaciones, estas correspondencias son demasiado grano grueso para transformar
correctamente los datos entre
esquemas. Los problemas incluyen, por ejemplo, la heterogeneidad estructural, así como
transformaciones de valor. Por lo tanto, un tema de investigación abierto es el desarrollo
de las lenguas a publicar asignaciones de esquema de grano más fino en la Web.
Idealmente, tales idiomas apoyarían asignaciones transitivos y proporcionar para la
combinación de asignaciones parciales con el fin de cubrir los casos en que las fuentes de
datos de mezcla terminología de diferentes vocabularios. tecnologías candidatas para
esto incluyen los idiomas presentados en alineación (Haslhofer, 2008) y (Euzenat y
Scharffe y Zimmermann, 2007), así como el formato de las reglas de intercambio (RIF)
[Nota: http://www.w3.org/2005/rules/wiki/RIF_Working_Group].

Además de soporte mejorado para el mapeo de esquema, se necesita más investigación en


el área de la fusión de datos para aplicaciones de datos vinculados. Fusión de datos es el
proceso de integración de múltiples elementos de datos que representan el mismo objeto
del mundo real en una representación única, consistente y limpio. El principal reto en la
fusión de datos es la resolución de conflictos de datos, iechoosing un valor en situaciones en
las múltiples fuentes proporcionan valores diferentes para la misma propiedad de un objeto.
Hay un gran número de trabajos sobre la fusión de datos en la comunidad de base de datos
(Bleiholder y Naumann, 2008) y un creciente cuerpo de trabajo sobre la reconciliación
identidad en la comunidad de la Web (Halpin y Thomson, 2008). Los requisitos específicos
que distinguen a la Web de datos de otros escenarios de fusión de datos surgen de la
autonomía de las fuentes de datos y la escasez y la incertidumbre de la meta-información
relacionada con la calidad que se requiere para evaluar la calidad de los datos con el fin de
resolver las incoherencias. sistemas prototípicos para la fusión de datos vinculados a partir
de múltiples fuentes incluyen DERI Pipes (Le Phuoc et al., 2009) y la arquitectura KnoFuss
(Nikolov et al., 2008).

enlace Mantenimiento

El contenido de Linked Data Fuentes de cambios: se añaden los datos sobre nuevas
entidades, datos obsoletos se modifique o elimine. Hoy en día, los enlaces entre las fuentes
de datos RDF se actualizan de manera esporádica que conduce a enlaces muertos que
señalan en URIs que ya no se mantienen y enlaces a potenciales no están ajustadas como
se publica nuevos datos. arquitectura de la web es, en principio, tolerante a los enlaces
muertos, pero tener demasiados de ellos conduce a un gran número de peticiones HTTP
innecesarias por las aplicaciones cliente. Por tanto, un tema de investigación actual dentro
de la comunidad Linked Data es el mantenimiento del enlace. enfoques de este rango
problema propuesto de recalcular enlaces a intervalos regulares usando marcos como seda
(Volz et al., 2009) o LinQL (Hassanzadeh et al., 2009), a través de las fuentes de datos que
publican alimentaciones de actualización (Auer et al.,

la concesión de licencias

Las aplicaciones que consumen datos de la Web deben ser capaces de acceder a las
especificaciones explícitas de los términos en que los datos pueden ser reutilizados y
publicado. Disponibilidad de marcos adecuados para la publicación de tales especificaciones
es un requisito esencial en el fomento de los propietarios de datos para participar en la red
de datos, y en la prestación de garantías a los consumidores de datos que no están
infringiendo los derechos de los demás mediante el uso de los datos de una determinada
manera. Iniciativas como la Creative Commons [Nota:http://creativecommons.org/] han
proporcionado un marco para la concesión de licencias abiertas de trabajos creativos,
apoyado en la noción de los derechos de autor. Sin embargo, como (Miller et al., 2008)
discuten, el derecho de autor no es aplicable a los datos, que desde un punto de vista legal
también es un trato diferente entre las distintas jurisdicciones. Por lo tanto los marcos
como la dedicación Open Data Domain Commons Licencia Pública y[Nota:
http://www.opendatacommons.org/licenses/pddl/1.0/] deben ser aprobadas por la
comunidad para proporcionar claridad en esta área. En situaciones en las que la atribución
es una condición de la reutilización de datos, también puede ser necesaria más
investigación para explorar cómo esto se puede lograr de interfaces de usuario que
combinan datos de un gran número de fuentes.

Confianza, Calidad y relevancia

Una consideración importante para las aplicaciones de Linked Data es cómo asegurar los
datos más relevantes o apropiados para las necesidades del usuario es identificado y puesto
a disposición. Por ejemplo, en escenarios en los que la calidad de los datos y la fiabilidad
son de suma importancia, ¿cómo puede ser determinado de forma heurística,
particularmente cuando el conjunto de datos no se haya encontrado previamente?

Una visión general de los diferentes contenido-, al contexto, y técnicas basadas en la


calificación que se pueden utilizar para evaluar de forma heurística la pertinencia, calidad y
fiabilidad de los datos se dan en (Bizer y Cyganiak, 2009; Heath, 2008a). Equivalentes al
algoritmo PageRank probablemente serán importantes en la determinación de las medidas
de grano grueso de la popularidad o importancia de una fuente de datos en particular, como
sustituto de la relevancia o la calidad de los datos, sin embargo se tienen que adaptarse a
los patrones de vinculación dichos algoritmos que emerger en la web de datos.

Desde una perspectiva de interfaz, la cuestión de cómo representar la procedencia y la


confiabilidad de los datos extraídos de muchas fuentes en una visión integrada es un reto
importante investigación. (Berners-Lee, 1997) propuso que las interfaces del navegador
deben ser mejorados con un “Ah, sí?” Para ayudar al usuario en la evaluación de la
fiabilidad de la información encontrada en la Web. Cada vez que un usuario encounteres
una pieza de información que les gustaría para verificar, al pulsar un botón, tales produciría
una explicación de la confiabilidad de la información que se muestra. Este objetivo aún no
se ha dado cuenta, sin embargo, los desarrollos existentes, como WIQA (Bizer y Cyganiak,
2009) y InferenceWeb (McGuinness y da Silva,

Intimidad

El objetivo final de Linked Data es ser capaz de utilizar la Web como una sola base de datos
global. La realización de esta visión proporcionaría beneficios en muchas áreas, pero
también va a agravar los peligros en otros. Una de las áreas problemáticas son las
oportunidades de violar la privacidad que surgen de la integración de datos procedentes de
fuentes distintas. La protección de la intimidad en el contexto de Linked Data es probable
que requiera una combinación de medios técnicos y legales, junto con una mayor
conciencia de los clientes sobre qué datos se proporcionan en qué contexto. iniciativas de
investigación interesantes en este ámbito son la obra de Weitzner sobre la privacidad
paradoja (Weitzner, 2007) y el reciente trabajo por el proyecto TAMI en la responsabilidad
de la información (Weitzner et al., 2008).

conclusiones
principios y prácticas de Linked Data han sido adoptadas por un número creciente de
proveedores de datos, lo que resulta en la creación de un espacio global de datos en la Web
que contiene mil millones de RDF se triplica. Del mismo modo que la Web ha dado lugar a
una revolución en la publicación de los documentos y el consumo, Linked Data tiene el
potencial de permitir una revolución en cómo se accede y se utilizan los datos. El éxito de
las API Web ha demostrado el poder de las aplicaciones que se pueden crear por maceración
de seguridad del contenido de diferentes fuentes de datos Web. Sin embargo, los
desarrolladores de mashups se enfrentan al reto de ampliar su enfoque de desarrollo más
allá de los silos de datos predefinidas, fijas, para abarcar un gran número de conjuntos de
datos con modelos de datos heterogéneos y métodos de acceso. Por el contrario, Linked
Data da cuenta de la visión de la evolución
Web en un bien común de datos globales, permitiendo que las aplicaciones operan en la
parte superior de un conjunto ilimitado de fuentes de datos, a través de mecanismos de
acceso estandarizados. Si los retos de investigación resaltados anteriormente pueden
abordarse de manera adecuada, esperamos que los datos vinculados permitirá un paso
evolutivo importante en la conducción de la Web hacia su máximo potencial.

También podría gustarte