Está en la página 1de 16

Universidad Carlos III de Madrid

Recuperación y acceso a la Información


Curso 2006/2007

Metadatos y Documentos
XML/RDF para
Recuperación

Ayllón Bonet, Julio César 100033467


Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

ÍNDICE
1. INTRODUCCIÓN ........................................................................................................................................3

2. ¿QUÉ SON LOS METADATOS? ..................................................................................................................4

2.1. Uso de los Metadatos ...............................................................................................................4

2.2. Clasificación de los Metadatos .................................................................................................5

2.3. Estructura de los Metadatos .....................................................................................................6

2.3.1. Metainformacion en HTML .................................................................................... 6

Especificación de Metadatos HTML....................................................................................... 6

2.4. Evolución de los Metadatos ......................................................................................................7

2.4.1. Metadatos Dublin Core.......................................................................................... 7

Motivación y Objetivos ........................................................................................................... 7

Descripción de Dublin Core ................................................................................................... 7

3. ¿QUÉ ES XML?.......................................................................................................................................9

3.1. ¿Por qué surgió XML? ..............................................................................................................9

3.2. Objetivos de XML......................................................................................................................9

3.3. Funciones de XML ..................................................................................................................10

3.4. Ventajas de XML.....................................................................................................................10

3.5. Estructura de un documento XML ..........................................................................................11

3.6. Aplicaciones de XML ..............................................................................................................11

4. ¿QUÉ ES Y PARA QUÉ SE USA RDF? ......................................................................................................12

4.1. ¿Como está diseñado RDF? ..................................................................................................12

4.2. Estructura de un documento RDF ..........................................................................................13

4.3. Diferencias entre XML y RDF .................................................................................................14

5. ¿QUÉ ES RSS? .....................................................................................................................................15

5.1. ¿Para qué sirve RSS ? ...........................................................................................................15

5.2. Otros formatos ........................................................................................................................16

2 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

1. INTRODUCCIÓN

Desde hace ya varios años y a raíz de la popularización de Internet, y sobre todo de su colección
distribuida de recursos multimedia (World-Wide Web), la cantidad de información disponible en la red
creció desmesuradamente. Esto hizo que la gestión, mantenimiento y, lo que aquí se trata, la
recuperación de información se convirtiese en un problema difícil de resolver para los gestores de la
información y para el usuario de información electrónica. La relevancia en la recuperación resultaba cada
vez más difícil desde que el conocimiento humano no estaba sólo determinado por unidades físicas de
información, sino que se había convertido en un acervo distribuido de textos, imágenes, sonidos,
publicaciones electrónicas, etc., con formatos heterogéneos y heteróclitos, que conforman nuevas
representaciones de conocimiento.

Para evitar tal problema se impulsaron diferentes soluciones para mejorar la recuperación de
información en Internet. Una de esas soluciones fue el desarrollo de modelos de metadatos, estructuras
de base para describir distintos objetos de información distribuidos en la web, de tal forma que la
búsqueda basada en esos metadatos disminuyese el problema de la recuperación de información.

En este contexto, surge lo que algunos denominan la Segunda Generación del Web propiciada por
el desarrollo del XML (eXtensible Markup Language). Sobre la base de XML, se han definido distintos
lenguajes de marca para los diferentes tipos de documentos. Uno de estos lenguajes de marcado
semántico es el Resource Description Framework (RDF). En esta comunicación se contempla el RDF
como una alternativa para la descripción o "catalogación" de recursos web y por ende, como un modelo
de metadatos para mejorar la recuperación de información. Asimismo se tratarán de dilucidar algunos
mitos sobre el concepto de metadatos, de XML y de algún otro formato de este último como el RSS.

3 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

2. ¿QUÉ SON LOS METADATOS?

Son datos que describen otros datos, es decir, información relativa a los propios datos que facilitan
su catalogación y además proporcionan información semántica asociada. En general, un grupo de
metadatos se refiere a un grupo de datos, llamado recurso.

El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por
ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares
para buscar libros. Así, los metadatos ayudan a ubicar datos.

Para varios campos de la informática como la recuperación de información o la web semántica,


los metadatos son un enfoque importante para construir un puente sobre el intervalo semántico [1].

Debido a que los metadatos son datos en sí mismos, es posible crear metadatos sobre metadatos.
Aunque, a primera vista, parece absurdo, los metadatos sobre metadatos pueden ser muy útiles. Por
ejemplo, fusionando dos imágenes y sus metadatos distintos puede ser muy importante deducir cual es
el origen de un grupo de metadatos.

[1] - La diversidad de significado de dos descripciones de la misma cosa por causa de usar
lenguajes de expresividad distintos.

2.1. Uso de los Metadatos

Los metadatos se utilizan en ámbitos muy diversos: bases de datos relacionales, aplicaciones data
warehouse, sistemas de ficheros, etc. La posibilidad de definir cómo es la información contenida en un
lugar, hace de los metadatos una herramienta de amplio espectro.

Este documento se va a centrar sobre el uso de los metadatos mencionado más frecuentemente,
la recuperación de información. Usando informaciones adicionales los resultados son más precisos, y
el usuario se ahorra filtraciones manuales complementarias. Los metadatos añaden semántica al código
de las páginas, lo cual puede ayudar a los motores de búsqueda, indexadores, etc. a encontrar aquello
que estamos buscando.

En una primera aproximación, el código HTML con el que se definían las páginas, no tenía ningún
tipo de información semántica, debido a que HTML es un lenguaje de marcado, únicamente se define la
forma de la página, no el contenido de la misma.

La aplicación de los metadatos en el diseño de páginas web aporta a la descripción de la forma de


las páginas, información sobre su contenido. Incluso se pueden llegar a definir estructuras de datos y las
interrelaciones entre los mismos (véanse las secciones XML y RDF).

4 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

El uso de lenguajes para la definición de metadatos estandarizados, tales como XML ó RDF
permiten el intercambio de información entre diferentes máquinas, con diferentes sistemas operativos,
favoreciendo así la recuperación. Nacen con este propósito diferentes estándares como Dublin Core
Metadata Initiative que pretenden definir una serie de vocabularios de metadatos para describir recursos.
De esta forma se puede crear un lenguaje estandarizado que defina recursos de forma internacional.
Esto facilita el acceso y la recuperación de información.

2.2. Clasificación de los Metadatos

Según la función que proporcionan, se pueden clasificar en:

TIPO OBJETIVO EJEMPLOS

Dublin Core o
Describen e identifican recursos de información. Permite a
Descriptivos Etiquetas META de
los usuarios la búsqueda y recuperación de la información.
HTML

Facilitan la navegación y la presentación de los recursos.


Estructurales Proporcionan información sobre la estructura interna de los XML y RDF o SGML
documentos, así como la relación entre ellos.

Facilitan la gestión de conjuntos de recursos. Incluye la


Administrativos MOA2
gestión de derechos y sobre control de acceso y uso.

Dublin Core o
Describen e identifican recursos de información. Permite a
Descriptivos Etiquetas META de
los usuarios la búsqueda y recuperación de la información.
HTML

Facilitan la navegación y la presentación de los recursos.


Estructurales Proporcionan información sobre la estructura interna de los XML y RDF o SGML
documentos, así como la relación entre ellos.

5 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

2.3. Estructura de los Metadatos

Los metadatos están estructurados por un mínimo de elementos tales como por ejemplo: título,
autor, fecha de creación, etc.

Típicamente, los elementos que conforman un metadato están definidos por algún estándar o perfil,
donde los usuarios que deseen compartir metadatos están de acuerdo con el significado preciso de cada
elemento.

A continuación se muestran los metadatos utilizados en HTML para categorizar, describir y poder
así distinguir los documentos.

2.3.1. METAINFORMACION EN HTML

La forma de asignar metainformación a los documentos HTML es mediante las etiquetas <META>.
Existen diversos tipos de etiquetas <META>, pero las más utilizadas son: description, que muestra
información general sobre la página como su temática o su responsable, keywords, que contiene las
palabras claves significativas, junto con las definidas en el estándar Dublin Core.

Especificación de Metadatos HTML

Cada elemento <META> especifica una tupla de propiedad junto con su valor. Los principales
atributos que tiene son name, content, scheme y http-equiv. El atributo name identifica unívocamente
a la propiedad y content le asigna un valor. Se puede de esta forma, por ejemplo, asignar en un mismo
documento metadatos en función del idioma:

<META name="keywords" lang="en" content="Information Retrieval">


<META name="keywords" lang="es" content="Recuperacion Informacion">

El significado de una propiedad y sus valores asignados están asociados a un diccionario llamado
perfil. El estándar Dublin Core es un ejemplo de perfil.

Por ejemplo, el documento HTML http://metadatos-xml-rdf.awardspace.com/index.html contiene


los siguientes metadatos:

<META name="Author" content="Julio César Ayllón Bonet"/>


<META name="title" content="Recuperacion y acceso a la informacion - Metadatos
y documentos XML/RDF para recuperacion - Metadatos"/>
<META name="Keywords" content="metadatos,
recuperacion,xml,rdf,acceso,informacion"/>
<META name="Description" content="Recuperacion y acceso a la informacion -
Metadatos y documentos XML/RDF para recuperacion - Metadatos"/>
<META name="robots" content="all,index,follow,archive"/>
<META name="revisit" content="2 days"/>
<META name="revisit-after" content="2 days"/>
<META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/>
<META name="verify-v1" content="A1vebOcHu8F7l46CVCDVKl5FboBeC7ET6 ... /U0="/>

6 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

2.4. Evolución de los Metadatos

Los metadatos en lenguaje HTML usando <META> tiene muchas limitaciones debido
principalmente a su ambigüedad y a la cantidad de alternativas existentes. Por ello, en la especificación
de HTML 4.01 del W3C, se introdujo el concepto de RDF (Resource Description Framework) para definir
metadatos siguiendo la sintaxis de XML.

2.4.1. METADATOS DUBLIN CORE

Motivación y Objetivos

La iniciativa de Metadatos de Dublin Core (DCMI), llamada también Dublin Core, es una
organización dedicada a fomentar la adopción extensa de los estándares interoperables de los
metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir
recursos que permitan sistemas más inteligentes del descubrimiento del recurso.

Se creó en 1995 con el propósito de crear estándares que facilitaran la descripción y recuperación
de recursos de información. Se creó un conjunto de descriptores que hoy en día es el más extendido en
la Web.

Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y
encontrar un documento. Si este estándar se usara mundialmente, se conseguiría que todas las
aplicaciones automáticas que intentan indexar la información de Internet, como los buscadores, tendrían
toda la información necesaria para manipular los documentos en su propia cabecera, facilitando su
indización y provocando una mejora de eficiencia de los motores de búsqueda.

Descripción de Dublin Core

Dublin Core es un sistema de 15 definiciones semánticas descriptivas que pretenden transmitir


un significado semántico a las mismas. Cada definición es opcional, puede repetirse y aparecer en
cualquier orden.

Este sistema de definiciones fue diseñado específicamente para proporcionar un vocabulario de


características "base", capaces de proporcionar la información descriptiva básica sobre cualquier recurso,
sin que importe el formato de origen, el área de especialización o el origen cultural.

7 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

Los elementos de Dublin Core puede clasificarse en tres categorías según el tipo de información
que contengan:

♦ Sobre el contenido del recurso

ETIQUETA DC DESCRIPCIÓN

DC.Title Título. El nombre dado al recurso.

DC.Subject Materias y palabras clave. El tema del contenido del recurso.

Descripción del contenido del recurso. Puede incluir un resumen, una tabla de
DC.Description
contenidos, etc.

DC.Source Fuente. Referencia al recurso del que deriva el documento actual.

DC.Languaje Lengua. El idioma del contenido del recurso.

DC.Relation Relación. Una referencia a un recurso relacionado con el contenido.

Cobertura. Ámbito del contenido del recurso. Puede tratarse de un especificación


DC.Coverage
geográfica, temporal o legal.

♦ Sobre la propiedad intelectual del recurso

ETIQUETA DC DESCRIPCIÓN

Autor. Responsable de la creación del contenido. Puede ser una entidad, una
DC.Creator
persona o un servicio

DC.Publisher Editor. Responsable de que el recurso se encuentre disponible

DC.Contributor Colaborador. Responsable de hacer colaboraciones al contenido del recurso

Derechos. Información sobre los derechos de la propiedad intelectual del recuso,


DC.Rights
como por ejemplo el copyright

♦ Sobre la instancia del recurso

ETIQUETA DC DESCRIPCIÓN

Fecha. Fecha asociada a la creación o modificación del recurso. Se suele seguir la


DC.Date
notación AAAA-MM-DD

El tipo o categoría del contenido. Palabras clave de un vocabulario que describen la


DC.Type
naturaleza del recurso

Formato. Descripción física del recurso, como su tamaño, duración, dimensiones, etc.
DC.Format
si son aplicables. Se suelen usar tipos MIME

Identificación. Referencia unívoca para el contenido del recurso. Por ejemplo una URL
DC.Identifier
o un ISBN

8 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

3. ¿QUÉ ES XML?

XML, siglas en inglés de eXtensible Markup Language («lenguaje de marcas extensible»), es un


metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C). Es una
simplificación y adaptación del SGML y permite definir la gramática de lenguajes específicos (de la
misma manera que HTML es a su vez un lenguaje definido por SGML). Por lo tanto XML no es
realmente un lenguaje en particular, sino una manera de definir lenguajes para diferentes necesidades.

3.1. ¿Por qué surgió XML?

A medida que el número de materiales disponible en soporte digital aumentaba, también se hacían
mayores las dificultades para acceder a los mismos. Para solucionar este problema, se comenzó a
trabajar a favor de la normalización de formatos.

Tal normalización llevó a, XML. Representación de datos “etiquetados” (las etiquetas dan
estructura a los datos) sin preocuparnos de la visualización de los mismos.

3.2. Objetivos de XML

Cuando se creo XML, se hizo con el propósito de diseñar un lenguaje de marcas optimizado para
el WWW uniendo la simplicidad de HTML con la capacidad expresiva de SGML.

Con todo esto los objetivos que persigue XML son:

♦ Distinguir el contenido y la estructura de los documentos de su presentación en papel o en


pantalla.

♦ Hacer explícita su estructura y sus contenidos informativos.

9 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

♦ Crear documentos portables, que puedan intercambiarse y procesarse con facilidad en


sistemas informáticos heterogéneos.

Para lograr estos objetivos XML propone:

♦ Un formato de documentos en texto plano (evitando las complejidades de los documentos


binarios).

♦ Intercalar marcas con el objetivo de distinguir las distintas partes o elementos estructurales
que conforman cada tipo de documento.

♦ Las marcas que se intercalan en un documetno XML no contienen ninguna instrucción a


partir de la cual se pueda deducir como imprimir o mostrar en pantalla el documento.

3.3. Funciones de XML

Una vez definidos los objetivos de XML y las reglas a seguir para conseguirlo se muestra cual es
la funcionalidad real de XML:

♦ Representar y distribuir tanto documentos como información textual.

♦ Intercambio de datos e información estructurada a través de Internet y WWW.

♦ Integración de datos procedentes de fuentes heterogéneas.

♦ Eliminar la barrera entre información estructurada e información textual.

3.4. Ventajas de XML


♦ Es extensible, lo que quiere decir que una vez diseñado un lenguaje y puesto en producción,
igual es posible extenderlo con la adición de nuevas etiquetas de manera de que los
antiguos consumidores de la vieja versión todavía puedan entender el nuevo formato.

♦ El analizador es un componente estándar, no es necesario crear un analizador específico


para cada lenguaje. Esto posibilita el empleo de uno de los tantos disponibles. De esta
manera se evitan bugs y se acelera el desarrollo de la aplicación.

♦ Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y


procesarlo. Mejora la compatibilidad entre aplicaciones.

10 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

3.5. Estructura de un documento XML

La tecnología XML busca dar solución al problema de expresar información estructurada de la


manera más abstracta y reutilizable posible. Que la información sea estructurada quiere decir que se
compone de partes bien definidas, y que esas partes se componen a su vez de otras partes. Entonces se
tiene un árbol de pedazos de información. Ejemplos son un tema musical, que se compone de compases,
que están formados a su vez con notas. Estas partes se llaman elementos, y se las señala mediante
etiquetas.

Una etiqueta consiste en una marca hecha en el documento, que señala una porción de este como
un elemento, un pedazo de información con un sentido claro y definido. Las etiquetas tienen la forma
<nombre>, donde nombre es el nombre del elemento que se está señalando.

A continuación se muestra un ejemplo para entender la estructura de un documento XML:

<?xml version=”1.0”?>
<!DOCTYPE MENSAJE SYSTEM “mensaje.dtd”>
<mensaje>
<remitente>
<nombre>Alfredo Reino</nombre>
<mail>alf@ibium.com</mail>
</remitente>
<destinatario>
<nombre>Bill Clinton</nombre>
<mail>president@WhiteHouse.gov</mail>
</destinatario>
<asunto>Hola Bill</asunto>
<texto>
<parrafo>¿Hola que tal? Hace <enfasis> mucho</enfasis> que no
escribes. A ver si llamas y quedamos para tomar algo.
</parrafo>
</texto>
</mensaje>

3.6. Aplicaciones de XML

Estas son algunas de la aplicaciones de XML:

♦ RDF – Resource Description FrameWork – Catalogación de recursos de Internet.

♦ CDF – Channel Description Format - Envío de información a través de push.

♦ OSD – Open Software Description – Descripción de packs de actualización de software.

Aunque existen muchas más aplicaciones de XML.

11 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

4. ¿QUÉ ES Y PARA QUÉ SE USA RDF?

El Marco de Descripción de Recursos (del inglés Resource Description Framework, RDF), es un


framework para metadatos en la World Wide Web (WWW), desarrollado por el World Wide Web
Consortium (W3C). y basado en XML, siendo un estándar flexible para la estructuración de la
información en Internet.

RDF es una especificación del W3C para la definición mediante metadatos, generalmente en XML,
de los recursos que se pueden encontrar en un sitio.

El lenguaje RDF es muy útil en situaciones en las que la información necesita ser procesada por
aplicaciones que intercambian información legible por máquina, más que por humanos.

RDF también provee una sintaxis basada en XML, llamada RDF/XML, para guardar e intercambiar
la información

Está construido en base a las siguientes reglas:

♦ Un recurso es cualquier cosa que puede tener un URI, esto incluye todas las páginas web,
todos los elementos individuales de cada documento XML y mucho más.

♦ Una propiedad es un recurso que tienen un nombre y que puede usarse como una
propiedad, por ejemplo autor o título. En muchos casos todo lo que nos importa en realidad
es el nombre, pero una propiedad necesita ser un recurso de forma tal que pueda tener sus
propias propiedades.

♦ Una sentencia consiste en la combinación de un recurso, una propiedad y un valor. Estas


partes son conocidas como el sujeto, predicado y el objeto de la sentencia. Una sentencia
es por ejemplo "El autor de http://metadatos-xml-rdf.awardspace.com/rdf.html es Julio César
Ayllón Bonet". El valor puede ser un string por ejemplo "Julio César Ayllón Bonet" o puede
ser otro recurso por ejemplo "El home page de http://metadatos-xml-
rdf.awardspace.com/rdf.html es http://metadatos-xml-rdf.awardspace.com".

4.1. ¿Como está diseñado RDF?

RDF esta cuidadosamente diseñado para tener las siguientes características:

♦ Independencia - Dado que una propiedad es un recurso, toda organización independiente o


incluso cada persona puede inventarlas.

♦ Intercambio - Ya que las sentencias RDF se escriben en XML pueden ser fácilmente
usadas para intercambiar información.

12 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

♦ Escalabilidad - Las sentencias RDF son simples, registros con tres campos (Recurso,
propiedad, valor) por lo que son fáciles de manejar y de usar para buscar objetos incluso en
volúmenes realmente grandes. La web ya es lo suficientemente grande y continúa creciendo.
Es probable que tengamos en algún momento miles de millones de RDFs flotando a nuestro
alrededor algún día. Por eso la escalabilidad es importante.

♦ Las propiedades son recursos - Las propiedades pueden tener sus propias propiedades y
pueden ser encontradas y manipuladas como cualquier otro recurso. Esto es importante
porque tendremos muchísimos recursos que manejar. Demasiados como para buscarlos
uno por uno.

♦ Los valores pueden ser recursos - Por ejemplo, la mayoría de las páginas web podrían
tener una propiedad llamada "home" que apunte al home del sitio. Por lo tanto los valores
de sus propiedades que podrían incluir el titulo y autor de la pagina también tienen que
incluir recursos.

♦ Las sentencias pueden ser recursos - Las sentencias también tienen propiedades. Dado
que no hay un estándar para todos los recursos posibles y dado que la web es demasiado
grande como para que cada uno provea el suyo tendremos que realizar búsquedas basadas
en los metadatos de otras personas. Esto significa que querremos, dada una sentencia
como "El tema de esta pagina es monos" poder preguntar "¿Quien lo dice?", "¿Cuando?".
Una forma útil de hace esto es mediante metadatos y por ello las sentencias deben poder
tener sus propias propiedades.

4.2. Estructura de un documento RDF

RDF toma un tanto de terminología abstracta y otro tanto de sintaxis XML para definir los
documentos, de manera que se puedan escribir programas para procesarlos.

Un ejemplo muy sencillo sería la definición de un contenido de la Wikipedia:

<rdf:RDF
xmlns:rdf="http://w3.org/.../22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/">
<rdf:Description
rdf:about="http://en.wikipedia.org/Tony">
<dc:title>Tony</dc:title>
<dc:publisher>Wikipedia</dc:publisher>
</rdf:Description>
</rdf:RDF>

En este ejemplo definimos un recurso cuya descripción se encuentra en el enlace


http://en.wikipedia.org/Tony, cuyo título es Tony y que ha sido publicado por la Wikipedia.

13 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

Esta forma de codificar como metadatos los recursos se utiliza principalmente para favorecer la
recuperación de información por parte de los sistemas informáticos. Si esto no se hiciese así un
sistema informático no sería capaz de diferenciar ni saber qué es Tony, un título o qué información
referente se puede encontrar en el enlace.

4.3. Diferencias entre XML y RDF

Mientras que XML es un lenguaje para modelar datos, RDF es un lenguaje para especificar
metadatos. XML falla en la escalabilidad de los datos puesto que el orden de los elementos es
antinatural y su mantenimiento es muy difícil y costoso, por el contrario, RDF permite la interoperabilidad
entre aplicaciones que intercambian información comprensible por la página web, para proporcionar una
infraestructura que soporte actividades de metadatos.

14 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

5. ¿QUÉ ES RSS?

El RSS es un formato basado en XML que permite encontrar aquella información que mejor se
adapta a lo que el usuario desea, pero también ofrecerla de forma rápida y actualizada.

Figura 1. Imagen que indica la presencia de feeds RSS

Existen tres tipos de formato RSS y sus siglas adquieren un significado diferente según la
especificación usada:

♦ Rich Site Summary (RSS 0.91)

♦ RDF Site Summary (RSS 0.9 y 1.0)

♦ Really Simple Syndication (RSS 2.0)

La versión RSS 1.0 incluye RDF. En esta versión RSS significa RDF Site Summary (Resumen de
sitios RDF). Asimismo, RSS 1.0 incorpora el módulo Dublin Core, un conjunto de metadatos estándar
que se usa para describir el agregador y los elementos individuales.

Los archivos RSS son un nuevo método para obtener y ofrecer información gracias a que
contienen metadatos sobre las fuentes de información. Este formato es de gran utilidad para sitios Web
que actualicen sus contenidos con frecuencia, ya que permite compartir la información y verla en otros
sitios de forma inmediata. A este intercambio de información se le denomina "sindicación".

Sin embargo, para poder compartir esta información se necesitan unos software determinados,
llamados "agregadores", es decir, programas capaces de leer e interpretar las fuentes RSS o "feeds".

El término anglosajón "feed" se utiliza para denominar a los documentos con formato RSS legibles
por los agregadores o lectores de feeds.

5.1. ¿Para qué sirve RSS ?

El formato RSS sirve para facilitar el acceso a la información Web que se actualiza con regularidad,
logrando que el usuario recupere al momento las novedades producidas en la información de su interés.

Cualquier usuario puede suscribirse a un feed y obtener las últimas noticias enviadas a su
agregador o lector RSS, el cual le alertará cuando haya nueva información para leer.

15 de 16
Metadatos y documentos XML/RDF para Recuperación Julio César Ayllón Bonet

Esto le permite obtener los datos que necesita de forma rápida y precisa, pues no tiene que
comprobar los múltiples sitios que ofrecen los contenidos que le interesan sin saber si se ha producido
algún cambio en ellos o no.

Utilizando feeds y agregadores podemos decidir, tras la alerta del lector RSS, si queremos visitar
el sitio en el que se ha originado la información para ampliarla o no.

Pero el RSS no sólo le sirve al usuario para recibir la información que otros le ofrecen, sino que
también le es de utilidad para mostrar los contenidos novedosos de su Web a otros internautas.

Para ello se necesita que el usuario cree su propio feed y lo actualice frecuentemente con noticias
novedosas sobre el tema que haya elegido.

De este modo creará contenidos interesantes para otros usuarios que recibirán la información que
les ofrece mediante un agregador o lector RSS.

El proceso de sindicación de contenidos se convierte de este modo en un circuito de doble sentido


en el que todos acceden y crean información con mayor facilidad y de forma más rápida.

5.2. Otros formatos

En relación con RSS, también hay que destacar una especificación similar llamada Atom que ha
sido desarrollada por IBM, Google y otras empresas de hosting y que ha sido muy promocionada por
Blogger, empresa que pertenece a Google. Atom también es un sublenguaje XML. No se corresponde
ni se basa en ninguna versión de RSS, pero es un formato muy similar a éste y que sobre todo tiene el
mismo objetivo: permitir la distribución de contenidos y noticias de sitios web. Un documento Atom
puede contener más información (y más compleja) y es más consistente que un documento RSS.

El proyecto FOAF (Friend Of A Friend) trata de crear un estándar para documentos que describan
a la gente, los enlaces entre ellos y las cosas que hacen. Todo ello usando XML para que sea fácilmente
interpretado por software. Técnicamente es vocabulario semántico en RDF/XML. Existe mucha más
información y documentos relacionados sobre FOAF en The FOAF Project.

SKOS (Simple Knowledge Organization System) es un modelo para sistemas organizados de


conocimiento en formato digital. Proporciona las estructuras básicas para representar tesauros,
esquemas de clasificación, taxonomías, terminologías, glosarios y otros tipos de vocabularios
controlados. El estándar se encuentra en el W3C.

16 de 16

También podría gustarte