Está en la página 1de 12

El concepto de metadato.

Algo ms que descripcin de


recursos electrnicos
Jos A. Senso INTRODUCCIN
Doctor en Documentacin. Profesor del Departamento de
Biblioteconoma y Documentacin. Universidad de Granada.
Espaa.
Desde hace varios aos, los profesionales de la
E-mail: jsenso@ugr.es informacin tienen que afrontar el reto de solucionar
los problemas de recuperacin de informacin
Antonio de la Rosa Piero provocados por la aparicin de las bibliotecas digitales y
Licenciado en Documentacin. Software engineer and consultant.
Wisdom. Amsterdam. Holanda.
el aumento vertiginoso de la informacin en formato
E-mail: antonio@wisdom.nl electrnico.

Como resultado de este crecimiento, cada vez es ms


Resumen difcil el proceso de localizar informacin. Se han
propuesto distintos mecanismos capaces de, por un lado,
Resulta evidente la necesidad de establecer mecanismos superar las limitaciones de los sistemas de recuperacin
que permitan una descripcin ms exhaustiva de los basados en la navegacin hipertextual recordemos que
recursos electrnicos. En este trabajo se propone como
solucin el uso de metadatos. Por ese motivo se estudia el el Web no estaba planeado para permitir esto (Husby,
concepto de metadato con el fin de determinar tanto su campo 1997) y, por otro, facilitar la recuperacin de la
de accin como los diferentes presupuestos subyacentes en informacin a texto completo. Las propuestas se han
este.
materializado en tres grandes lneas de accin*:
Palabras clave
1. ndices compilados manualmente
Recuperacin de informacin; Metadatos; Objetos;
Descripcin de recursos.
2. Bases de datos creadas por robots o araas
The metadata concept. Something more than
description of electronic resources 3. Mtodos de indizacin distribuida

Abstract Vamos a analizar detenidamente estos tres modelos.


It is evident the necessity to establish mechanisms that allow ndices compilados manualmente
a more exhaustive description of the electronic resources. In
this work we propose as solution the use of metadata. For that
reason the concept of metadata is studied for the purpose of Se trata de grandes bases de datos donde los usuarios o
determining their action field and the underlying different creadores de las pginas Web sugieren su ubicacin
meanings in this.
dentro de unas categoras mediante un formulario. En
Keywords la mayora de ocasiones esta organizacin es la que se
traslada directamente al servicio (caso de Terra). En
Information retrieval; Metadata; Objects; Resource
Yahoo, por el contrario, son profesionales quienes las
description.
evalan, organizan y clasifican en la categora adecuada.
Para realizar la consulta, un gestor de pginas Web se
encarga de hacer de pasarela entre la base de datos y el
usuario que consulta (Montes Hernndez, 1999).

*
Obviamos los servicios que se engloban dentro del grupo de los
metabuscadores ya que no se pueden considerar como un sistema
de informacin completo (no realizan tareas de indizacin, y el trabajo
de recuperacin de la informacin lo llevan a cabo por medio de
llamadas a procesos generados por otros sistemas).

Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003 95


Jos A. Senso / Antonio de la Rosa Piero

En cuanto a la forma de realizar la bsqueda, la Evidentemente las estrategias de seleccin de URLs


informacin est clasificada en varios grupos iniciales, extraccin de contenido de los documentos y
conceptuales encabezados por trminos generales, y cada asignacin de valores a estos trminos de indizacin
grupo se encuentra subdividido, a su vez, en ms estn abiertas a numerosas posibilidades, y cada
subcategoras a travs de las cuales se va descendiendo implementacin ha podido optar por distintas
en niveles de especificidad. alternativas.

Bases de datos creadas por robots o araas Mtodos de indizacin distribuida

Partiendo del esquema clsico: una interface, un motor El ejemplo clsico de este sistema lo encontramos en el
de bsqueda, y una base de datos, los buscadores utilizan servicio Harvest, que surge a finales de 1993 dentro de
un robot para la alimentacin automtica de su base de la lnea de trabajo del IRTF-RD (Internet Research Task
datos. El robot tambin llamado araa es un Force Research Group - Resource Discovery).
programa de ordenador que est diseado para recorrer
de forma automtica la estructura hipertexto de un Si bien es posible identificar similitudes con Aliweb*,
servidor Web con el fin de alimentar bases de datos Harvest no se basa en un esfuerzo humano distribuido,
textuales a partir de documentos HTML, as como otro sino en una arquitectura hardware y software repartida
tipo de formatos de edicin electrnica, distribuidos en entre distintos servidores Web. Distinguiremos dos
diferentes servidores. elementos principales en el modelo Harvest:

Tomando como punto de partida una URL inicial, el Gatherers: un software instalado en un servidor Web
robot recupera un fichero en formato HTML que que peridicamente extrae informacin relativa a los
transfiere al sistema local, de forma similar a como lo ficheros disponibles (en ese mismo servidor) para la
hace un cliente Web, pero, una vez recuperado, en lugar comunidad de usuarios de Internet.
de proceder a su visualizacin, se sirve de l para generar
nuevos registros en una base de datos. Cada entrada de Brokers: recuperan automticamente la informacin
esta base de datos recoger la URL completa del extrada por uno o ms gatherers y la integran en ndices
documento y una serie de palabras significativas extradas, sobre los que se podrn lanzar ecuaciones de bsqueda.
bien de los fragmentos con un mayor contenido
informativo (<TITLE>, <H1>, etc.), o bien a partir de su La comunicacin entre brokers y gatherers utiliza como
frecuencia de aparicin en el documento (Harvest, 2000). protocolo un sistema de metadatos denominado SOIF
(Summary Objetc Interchange Format). En la actualidad
Una vez indizado el documento, el robot identifica las se est trabajando para que el fichero de intercambio se
referencias hipertextuales que contiene y que nos dirigen genere tambin en formato RDF (Resource Description
a otras unidades informativas en el mismo o en otros Format) (WebTop, 2000).
servidores de la Red. De forma recursiva, el robot
recupera los documentos referenciados en estos nexos, La solucin al problema
procediendo a su indizacin, obtencin de nuevas
referencias, etc. Independientemente del sistema utilizado para alimentar
la base de datos, siempre nos encontraremos con varios
Complementando al robot encargado de la extraccin/ problemas. Por un lado los servicios de bsqueda
indizacin de documentos, encontraremos un motor de recuperan gran cantidad de documentos que, en la
bsqueda que permite interrogar estas bases de datos mayora de los casos, no satisfacen las necesidades de
desde los clientes WWW mediante programas de distinta informacin al no ser pertinentes. Y esto es debido a
complejidad accesibles mediante la especificacin CGI*. que los documentos de la Red carecen de datos suficientes
para la descripcin (Gill, 1998; Ortiz-Repiso, 1999).
*
Common Gateway Interface, especificacin tcnica que posibilita la
mayor interaccin entre clientes y servidores WWW. La principal
*
prestacin de CGI se centra en la generacin de documentos HTML El modelo Aliweb propone que sean los administradores de
de forma dinmica, es decir, enviando al cliente un documento servidores web quienes alimenten las bases de datos. Para ello, el
previamente inexistente. El documento puede consistir en una pgina administrador de cada servidor debe generar un fichero en un formato
HTML, una imagen, texto plano, etc., pudiendo incluir informacin estndar (IAFA) donde incluira el nombre de cada uno de los ficheros
procesada por el servidor como resultado de un clculo o de la que forman su web as como una serie de palabras claves que
consulta a una base de datos. identifiquen su contenido.

96 Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003


El concepto de metadato. Algo ms que descripcin de recursos electrnicos

Gran parte de consultas realizadas sobre un motor de de bsqueda de Internet, los agentes ms utilizados hasta
bsqueda cualquiera de la Red genera una excesiva ahora tampoco son capaces de realizar bsquedas por
cantidad de ruido en la recuperacin a menos que el campos concretos en documentos a texto completo ya
usuario sea capaz de formular complejas ecuaciones de que stas se lanzan, en la mayora de ocasiones, sobre
bsqueda. Aun as, el nivel de precisin es relativamente las bases de datos de los buscadores .
bajo (Olvera Lobo, 2000). Por ejemplo, a mediados de
agosto de 2000, la empresa britnica WebTop hizo pblica A tenor de lo expuesto aqu resulta evidente la necesidad
una encuesta segn la cual el 82% de los internautas de establecer mecanismos permitan una descripcin ms
britnicos no lograba encontrar la informacin que exhaustiva de los recursos electrnicos. En la actualidad
buscaba en la Red (WebTop, 2000). se cuenta con sistemas de metadatos que pueden ser las
herramientas que permitan la realizacin de estas
El hecho de que la mayora de pginas Web apenas utilice descripciones. En este trabajo nos centraremos en el
descripciones bsicas para informar del contenido de estudio del concepto de metadato con el fin de
las mismas (The search engine report, 1997), as como determinar tanto su campo de accin como los diferentes
las limitaciones de los sistemas de recuperacin a texto presupuestos subyacentes en este.
completo utilizados en la actualidad, imposibilita acceder
de forma directa e instantnea a los documentos por EL CONCEPTO DE METAD
METADA
ATO
campos concretos (autor, instituciones, materias...).
Los metadatos, en s, no suponen algo completamente
A esto hay que sumar que gran parte de motores de nuevo dentro del mundo bibliotecario. Segn Howe
bsqueda usa mtodos de ponderacin poco eficaces (1993), el trmino fue acuado por Jack Myers en la
bien por las restricciones del software utilizado en la dcada de los 60 para describir conjuntos de datos. La
recuperacin, bien por la pobre implementacin de sus primera acepcin que se le dio (y actualmente la ms
sistemas de indexacin lo que repercute en una baja extendida) fue la de dato sobre el dato, ya que
tasa de eficiencia (Husby, 1997). proporcionaban la informacin mnima necesaria para
identificar un recurso. En este mismo trabajo se afirma
Por otra parte hay que resear la sobrecarga de trfico que puede incluir informacin descriptiva sobre el
en la Red, que causa, adems del constante deambular contexto, calidad y condicin o caractersticas del dato.
de las araas (Koster, 1995), la necesidad que los usuarios La evolucin del trmino desde esta fecha hasta 1997
realicen gran cantidad de bsquedas en un mismo ha sido descrita por Lange y Winkler (1997) revelando
servicio hasta encontrar la informacin deseada (Elsen, que no existen demasiadas novedades.
1998; NetGambit, 1999).
Atendiendo a la definicin antes mencionada,
Una de las soluciones propuestas, los agentes inteligentes, podramos considerar la catalogacin como un proceso
no es capaz de resolver tampoco estos problemas. Para de generacin de metadatos. Teniendo en cuenta que la
que uno de estos programas funcione correctamente debe mayora de sistemas de metadatos ha sido creada no slo
generar una pequea base de conocimiento del entorno por profesionales de la informacin sino tambin por
que le viene dada por su propia experiencia (generada a informticos, diseadores de programas, tcnicos de
partir de las peticiones del usuario y de la informacin sistemas, etc., la utilizacin de este trmino puede
que localiza en la Red) y por la de otros agentes que se conllevar una carga excesiva (por ejemplo, reglas de
comunican con l (Vargas-Quesada; Hpola, 1999). catalogacin, clasificaciones de materias...). El concepto
de metadato se utiliza como un trmino neutral (Caplan,
Si bien es cierto que en cuestiones de recuperacin de 1995), que permite alejarnos de posibles prejuicios por
informacin los agentes inteligentes pueden resultar ms parte de todas aquellas personas menos cercanas al
precisos que los motores de bsqueda (Hpola; Vargas- mundo bibliotecario, y que coloca a todos los grupos
Quesada; Montes Hernndez, 1999), el hecho de que su profesionales implicados en su desarrollo en una
productividad tenga una relacin directamente posicin de igualdad.
proporcional con el tiempo que estn vagando por la
Red (con el fin de generar parte de la base de Por otra parte, y si se analiza desde el punto de vista de
conocimiento antes mencionada) hace que su uso la informacin distribuida, metadato, como concepto,
ralentice en exceso el resto de operaciones a realizar en aporta ms informacin que el trmino catalogacin,
ella. Sin hacer mencin que, al igual que los servicios tal y como veremos ms adelante.

Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003 97


Jos A. Senso / Antonio de la Rosa Piero

Incidiendo sobre el aspecto bsico de la definicin, otros Ofrecer informacin relativa al propietario/creador
autores amplan el concepto de dato sobre el dato al
afirmar que incluyen informacin sobre su contexto, Indicar relaciones con otros recursos
contenido y control as como todo lo que tenga que ver
con el dato (Pasquinelli, 1997). Controlar la gestin

En el informe de Biblink* (Heery, 1996) el metadato se El padre del Web, Tim Berners-Lee, se percat
define como informacin sobre una publicacin en rpidamente de la importancia de los metadatos. Para
oposicin a su contenido. No slo incluye descripcin l, su concepto no deba limitarse a la descripcin de
bibliogrfica, sino que tambin contiene informacin recursos Web. Ms bien se deba ampliar, englobando
relevante como materias, precio, condiciones de uso, las particularidades de gente, cosas, conceptos e ideas
etc. (Berners-Lee, 1997). Si bien es cierto que su definicin
es ambiciosa, Berners-Lee no contempl la posibilidad
Ercegovac (1999), por su parte, afirma que un metadato de extrapolar sistemas de metadatos a otros recursos
describe los atributos de un recurso, teniendo en cuenta electrnicos que no fueran Web*.
que el recurso puede consistir en un objeto bibliogrfico,
registros e inventarios archivsticos, objetos geoespaciales, Para Berners-Lee existen tres tipos de metadatos en el Web:
recursos visuales y de museos o implementaciones de
software. Aunque puedan presentar diferentes niveles El primero de ellos es el que se encuentra dentro del
de especificidad o estructura, el objetivo principal es el documento mismo (por ejemplo aquellos que se pueden
mismo: describir, identificar y definir un recurso para encontrar en cualquier documento generado por un
recuperar, filtrar, informar sobre condiciones de uso, procesador de textos).
autentificacin y evaluacin, preservacin e
interoperatividad. El segundo es el que se produce durante una
transferencia HTTP (HyperText Transfer Protocol)
En resumen, la mayora de funciones descritas por estos cliente y servidor se envan informacin sobre el objeto
autores las podemos encontrar agrupadas en el trabajo que estn transmitiendo por medio de metadatos .
de Iannela y Waugh (1997):
El ltimo es ms difcil de encontrar, ya que el metadato
Resumir el significado de los datos se utiliza cuando se consulta en otro documento (para
comprobar si se puede acceder a l o al sitio Web-,
Permitir la bsqueda verificar derechos de autor...).

Determinar si el dato es el que se necesita Este ltimo caso es especialmente peculiar, ya que
determina un papel activo por parte del metadato, y
Prevenir ciertos usos (PICS**) no pasivo (esperar a ser visto), como suele ser habitual.
En realidad, este sistema de verificacin se ha sustituido
Recuperar y usar una copia del dato en la actualidad por otros mecanismos ms precisos y
complejos como pudieran ser las cookies o la realizacin
Mostrar instrucciones de cmo interpretar un dato de pginas HTML utilizando ASP (Active Server Pages)
o cualquier otro lenguaje de programacin (Visual Basic
Obtener informacin sobre las condiciones de uso Script, JavaScript...).
(derechos de autor)
Una de las ideas que se encuentra subyacente en la
Aportar informacin acerca de la vida del dato definicin de Berners-Lee es la del trabajo con objetos**,

*
Nos estamos refiriendo a sistemas de metadatos como IAFA (Internet
*
Nombre del proyecto puesto en marcha por iniciativa de un grupo Anonymouys FTP Archive) utilizado para la descripcin de ficheros
de bibliotecas nacionales europeas que tena como principal objetivo en servidores FTP annimos o SOIF (Summary Object Interchange
el estudio del rol de las bibliografas nacionales en relacin con las Format) para el intercambio de descripciones de ficheros en la
publicaciones electrnicas. arquitectura Harvest.
** **
Platform for Internet Content Selection. Mecanismo que utiliza Entidad informativa que puede ser manipulada individualmente.
metadatos para controlar el acceso a determinado tipo de pginas Cabe que sea informacin primaria de cualquier tipo o informacin
atendiendo a un sistema de clasificacin previamente establecido. sobre otra informacin (metadatos).

98 Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003


El concepto de metadato. Algo ms que descripcin de recursos electrnicos

tal y como se entiende en programacin. Para Rosa (1999) El esquema sera el siguiente:
muchos de los conceptos que pertenecen a la orientacin
a objetos existen desde hace mucho tiempo y se trabaja
con ellos en Internet.

Apoyando esta teora encontramos a Miller (1996),


que incide en la necesidad de incluir el trmino
objeto dentro de la definicin al afirmar que existen
medatados para la mayora de objetos o grupos de
En realidad no se trata ms que de una estructura
objetos concebibles, se almacenen en formato
elaborada a partir de los actuales sistemas de repositorios
electrnico o no; y a Husby (1997); quien present un
de datos.
trabajo en el congreso ELAG97 con el que define los
metadatos como atributos que describen un objeto. Hasta ahora, ninguna de las definiciones citadas ha
Estos objetos pueden ser documentos en papel, dentro entrado a describir objetivos o fines del uso de los
de la Red o informacin de otro tipo. Otros autores metadatos. Cathro (1997) fue uno de los primeros en
que han desarrollado ideas similares son Hakala hacerlo al considerar que el metadato no slo sirve para
que aport el concepto de documento como objeto* describir un recurso sino que, adems, ayuda a acceder a
(1999) y Drewry (1997). un recurso informativo. Es muy importante esta
aportacin, ya que nos sirve para retomar la idea expuesta
En estas definiciones podemos observar un salto
en el primer captulo de este trabajo: la utilizacin de
cualitativo importante pues consideran que los
metadatos para mejorar la recuperacin de la
documentos (as como sus partes: lneas, prrafos,
informacin en Internet.
imgenes...) se pueden tratar como objetos, y los
metadatos como los atributos que definen las Kerhev y Gerb (1997), que tambin comparten esta
caractersticas de cada uno de ellos, sin limitarse a idea, afirman adems que la utilizacin de estos sistemas
su descripcin simple (lo que hasta ahora vena facilita la gestin y el compartir grandes conjuntos de
siendo la catalogacin). sta es una de las ideas datos.
que se desprende del proyecto Desire (Dempsey;
Heery, 1997). De todo lo expuesto hasta ahora podemos extraer varios
puntos cruciales (dato sobre el dato, concepto de objeto,
Dentro del intento de teorizar sobre el concepto de recuperacin de informacin) que nos pueden ser tiles
metadato junto al de objeto, destaca la aportacin de para la realizacin de una nueva definicin que aglutine
Chilvers y Feather (1998). Estos autores distinguen entre a todas las publicadas hasta la fecha, de tal forma que
metadato y super-metadato. Este ltimo se define como resulte posible concluir que metadato es toda aquella
el dato asignado a cada DDO** que puede contener informacin descriptiva sobre el contexto, calidad,
informacin del tipo: condicin o caractersticas de un recurso, dato u objeto
que tiene la finalidad de facilitar su recuperacin,
Nombre del sistema de metadatos utilizado en el DDO
autentificacin, evaluacin, preservacin o
que permite su lectura.
interoperatividad.
Cualquier informacin necesaria para gestionar el
De esta forma, son ejemplos de metadatos:
DDO que pueda no estar contenida dentro del metadato
del DDO (expectativas de vida, cundo ser reemplazado El encabezamiento de un fichero multimedia (imagen,
por una prxima versin, etc.).
vdeo o audio).

El resumen de un documento.

El catlogo de una base de datos.


*
DLO (Document Like Object).
**
Chilvers define Digital Data Object como cualquier recurso
Los trminos asignados haciendo uso de un tesauro.
informtico (pginas Web o revistas electrnicas) cuya informacin
pueda ser almacenada y localizable independientemente de la forma Las palabras extradas de un texto.
en la que fue originalmente creada.

Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003 99


Jos A. Senso / Antonio de la Rosa Piero

Las fichas catalogrficas en cualquier formato (ISBD, metadatos hacen posible la bsqueda de informacin
MARC...). en mltiples colecciones a la vez. Por medio del mapeo
entre sistemas heterogneos es posible consultar, con
Las pginas amarillas. una nica ecuacin de bsqueda, bases de datos que
utilicen diferentes sistemas de metadatos para describir
Etc. sus objetos.

En Internet podemos encontrarlos tambin en multitud Disminucin del trfico en la Red: Red al indizar la
de formas: representacin del objeto, y no el objeto en s, no requiere
demasiado ancho de banda para hacer las bsquedas o
PICS generar los ndices (Ortiz-Repiso, 1999).
ndices de documentos contenidos en una Intranet Expandir el uso de la informacin:
informacin ya que
facilitan la difusin de versiones digitales de un nico
Direcciones IP o DNS objeto.
Directorios X-500 Control de versiones:
versiones no slo en lo que se refiere
a gestionar la vida de un objeto, sino tambin en lo que
Encabezamiento de mensajes de correo electrnico
tiene que ver con su difusin, es decir: generar diferentes
Descripcin de los archivos accesibles va FTP metadatos con distintas cantidades de informacin sobre
un mismo objeto con el fin de distribuirla a un pblico
Trminos extrados por los motores de indizacin/ heterogneo.
bsqueda
Aspectos legales:
legales los metadatos permiten establecer
Etc. claramente las restricciones de explotacin, informar
sobre los derechos de autor, control del uso de todo, o
De todos estos sistemas, slo vamos a centrarnos en el una parte, del objeto, mtodo de pago por su disfrute,
estudio de aquellos que facilitan la: controlar el acceso a informacin restringida...

Identificacin de documentos en un entorno Preservacin del objeto original.


original
distribuido
Tal y como afirman Milstead y Feldman (1999), las
Descripcin de su contenido bsquedas a travs del Web son, en la actualidad, un
proceso de equiparacin (matching) entre los trminos
Localizacin y accesibilidad de la consulta y los del documento. Si esa equiparacin
no se produce (bien sea por un problema en la forma de
Gestin de derechos: copyright, reproduccin, definir la peticin, bien porque esa informacin s se
restricciones de acceso..., encuentra pero bajo otro concepto que lo describe), el
documento no se recuperar. Para estas autoras la
ya que son los que ms se acercan a la posible solucin utilizacin de metadatos junto al uso de lenguajes
del problema planteado a lo largo del apartado 1 de este controlados permitira aumentar la precisin en la
texto: el exceso de informacin en Internet y la dificultad mayora de bsquedas en Internet.
de su localizacin y posterior recuperacin.
Instituciones implicadas en la introduccin de
Importancia de los metadatos metadatos

Tras lo expuesto podemos destacar varias razones que Siempre que se habla de metadatos, tarde o temprano,
resaltan la importancia de los sistemas de metadatos: aparece la pregunta: quin debera ser el responsable
de introducirlos en los documentos electrnicos? Este
Incrementan la accesibilidad:
accesibilidad la existencia de interrogante nos lo encontramos especialmente en el
un conjunto de metadatos que describa correctamente entorno Internet. Si bien es cierto que el objetivo
uno o varios objetos aumenta la posibilidad de acceder principal de nuestro trabajo no es el de aclarar esta
a ellos (Gilliland-Swetland, 1998). Por otro lado, los cuestin no es menos cierto que el xito de lo que se

100 Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003


El concepto de metadato. Algo ms que descripcin de recursos electrnicos

propone aqu tiene una estrecha relacin con una electrnico, la introduccin de metadatos es fruto del
respuesta clara para esta pregunta. trabajo de varias organizaciones. Adems de estas
categoras existe un nuevo grupo de entidades implicadas
A decir verdad, han sido pocos los autores que hayan dentro del proceso de edicin:
propuesto soluciones suficientemente eficaces para este
problema. Entre otras cosas, y muy probablemente, 1. Autores: el ejemplo ms claro lo tenemos en las
porque no se trata de un aspecto tcnico o de un pginas Web;
problema tecnolgico sino de concienciacin sobre la
necesidad de las cosas. A estas alturas poca gente 2. Servicios de bsqueda en Internet;
cuestiona que sean los bibliotecarios los que realicen
las descripciones bibliogrficas de los ejemplares que 3. Servicios de archivos electrnicos: colecciones de
componen la coleccin en sus centros y, en realidad, lo materiales electrnicos como Oxford Text Archive, Essex
que hacen es describir el contenido de fondos, es decir, Data Archive, Electronic Text Centre de la University
introducir metadatos. Con esto no pretendemos sealar of Virginia, Cervantes Virtual;
al bibliotecario como eje fundamental para que funcione
un sistema de recuperacin de informacin distribuida. 4. Depsitos (repositorios) de colecciones de documentos:
Tan slo apuntamos a la posibilidad de que la respuesta algo muy comn dentro del mundo acadmico
sea mucho ms sencilla de lo que parece. norteamericano (Los Alamos National Psysics Pre-print
Archive);
Tal y como seala Heery (1996), las organizaciones
involucradas en la creacin, mantenimiento y 5. Bibliotecas digitales.
actualizacin de metadatos se pueden categorizar en:
De estos cinco grupos, quiz los que ms interesen para
1. Editores: del campo de la edicin clsica y del mundo los objetivos de este trabajo sean los dos primeros. En
de la edicin electrnica. principio porque utilizan sistemas sencillos de metadatos
centrados en tcnicas muy bsicas de descripcin de
2. Servicios de informacin: agencias bibliogrficas contenido (Dublin Core, IAFA, PICS...) y, segundo,
nacionales (en el entorno britnico el British Library porque son los que ms posibilidades presentan de
National Bibliographic Service), agencias bibliogrficas interactuar con metalenguajes (SGML, XML...).
comerciales (Whitaker), agencias que sirven resmenes
o servicios de indizacin (INSPEC), bases de datos de Metalenguajes
publicaciones peridicas (Blackwells, CARL).
Varias tecnologas aplicadas al Web han expandido
3. Proveedores: de monografas (Dawson) o de recientemente las posibilidades y capacidades de los
publicaciones peridicas o seriadas (Swets, EBSCO). metadatos, aumentando su riqueza en la descripcin y
facilitando el acceso al documento objeto. Estas
4. Bibliotecas: por medio de agencias generadoras o herramientas suministran una mayor semntica y
gestoras de catlogos colectivos (OCLC precisamente estructuracin de los documentos, permitiendo ms
Dublin Core nace como iniciativa de este consorcio opciones de trabajo con los objetos (datos) y los metadatos
bibliotecario) y de cada una de las bibliotecas que preste (Hudgins; Agnew; Brown, 1999). Estas tecnologas son
especial atencin a los recursos electrnicos (bibliotecas el SGML (Standard Generalized Markup Language) y
digitales). XML (eXtensible Markup Language).

Un aspecto que resulta evidente es que con el aumento Si bien es cierto que SGML no se puede considerar
de productos en formato electrnico, la generalizacin como algo reciente con sus orgenes en la dcada de
de la edicin y la aparicin constante de nuevas los setenta, en 1986 se convirti en ISO con el nmero
herramientas, la descripcin de estos recursos por medio 8879 su utilizacin como sistema incubador de
de metadatos es un hecho que debe tender a globalizarse. metadatos s resulta novedoso. SGML es un metalenguaje
que permite la creacin de diferentes lenguajes de
Para Heery (1996), las organizaciones involucradas en etiquetado a partir de una DTD (Document Type
esta propuesta se pueden considerar como clsicas Definition). Las DTDs pueden convertirse en estndares
dentro del mundo de la edicin ya sea sta electrnica para diferentes comunidades de usuarios. Esto es lo que
o no . Con el aumento de productos en formato ha sucedido con sistemas como TEI (Text Encoding

Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003 101


Jos A. Senso / Antonio de la Rosa Piero

Initiative) para las humanidades y arte o EAD (Encoded entre bases de datos que estn elaboradas utilizando
Archival Description) para archivos. En el fondo ambos diferentes formatos.
sistemas, de manera ms o menos directa, se pueden
considerar conjuntos de metadatos. A la par que estas tecnologas, se estn desarrollando
diferentes modelos de trabajo que permiten, utilizando
Algo parecido est sucediendo con XML. Este lenguaje, estndares ampliamente reconocidos y valorados por los
de reciente creacin, es una versin abreviada de SGML. profesionales de la informacin como puede ser la
Su objetivo se centra en la posibilidad de intercambiar norma Z39.50 junto a sistemas de metadatos Dublin
documentos (referenciales o a texto completo) Core especialmente , una organizacin ms eficaz de
estructurados a travs del Web (Rosa; Senso, 1999). En las colecciones as como mayor efectividad en la
realidad, lo que XML aade a HTML es la estructuracin recuperacin de la informacin.
del documento sin detenerse slo en la presentacin.
Con XML es posible establecer una estructura arbrea Tipologa de los metadatos
con todos los elementos que constituyen un documento Existe una gran variedad de formatos en la
para discriminar, rpidamente, los aspectos genricos actualidad. Adems, nos encontramos con que la
de los especficos. Este sistema de representacin se ha mayora de las bibliotecas digitales que utilizan
revelado como vital para la generacin automtica de metadatos para identificar sus objetos (bien mediante
metadatos en diversos sistemas compatibles, como, por repositorios, bien dentro del mismo objeto) tienden
ejemplo, RDF (Resocurce Descritpion Format). a generar sus propios modelos (Hpola; Vargas-
Tal es la integracin que existe entre estos lenguajes de Quesada; Senso, 2000). Esto crea serios problemas a
etiquetado con los sistemas de metadatos que los ltimos la hora de integrar estos sistemas dentro de un
modelos han sido elaborados utilizando su misma criterio comn. Por este motivo, en el presente
filosofa de trabajo: trabajo nos centraremos en aquellos formatos que
son de dominio pblico y que ms estn siendo
Al basarse en DTDs, la creacin, modificacin y descritos por la comunidad cientfica.
gestin de metadatos es muy sencilla (especialmente si
la comparamos con la lenta evolucin que sufren Utilizando como base el criterio utilizado por
sistemas ms complejos como MARC). Gilliland (1998), podemos considerar los siguientes
tipos (Cuadro 1):
Como estn integrados con
lenguajes que permiten el CUADRO 1
tratamiento de cadenas de Tipologia de los metadatos
caracteres, es fcilautomatizar
procesos (incluido la
introduccin automtica de
metadatos en documentos).
Aportan ms posibilidades
de trabajo. En la actualidad
los metadatos pueden estar
incluidos dentro del propio
objeto (por ejemplo, dentro de
la etiqueta HEAD del cdigo
HTML), en un documento
aparte (e incluyendo una
llamada tipo LINK del objeto
al metadato y viceversa) o
almacenados en repositorios
con enlaces al objeto.

Permiten, utilizando una


DTD de puente, el
intercambio de informacin

102 Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003


El concepto de metadato. Algo ms que descripcin de recursos electrnicos

Esta clasificacin, a la que por CUADRO 2


supuesto no se le pueden Sistema classificatorio en el proyecto Biblink
asignar formatos definidos
por ser demasiado general, no
es excluyente. Es decir, que un
sistema puede pertenecer a
ms de un tipo. Lo que tiene
de importante es que, adems,
permite obtener una visin
global de las diferentes
acciones para las que se puede
orientar el uso de metadatos.

Echamos en falta en esta


clasificacin una serie de
criterios que consideramos
clave, como pueden ser el CUADRO 3
mtodo de creacin o Esquema propuesto por Dempsey y Heery
asignacin (manual o
automtico), los protocolos
con los que est asociado el
metadato, o la complejidad y
la riqueza en la descripcin
del recurso.

Un sistema clasificatorio
que se acerca bastante a este
modelo es el propuesto por
Heery en el proyecto Biblink
(la primera fila expresa la
evolucin en cuanto a complejidad de creacin, y va A pesar de ser sustancialmente ms simple, el esquema
del ms sencillo al ms difcil. La segunda se refiere propuesto por Dempsey y Heery (1997) es el que ms se
al objetivo) (1996), como se presenta en el Cuadro 2. acerca al sistema clasificatorio necesario para este
trabajo (Cuadro 3).
Debemos tener en cuenta que esta estructuracin se
engloba dentro de un proyecto europeo que tiene como La Columna uno incluye datos relativamente
finalidad la bsqueda del modelo a seguir por Bibliotecas estructurados cuya recuperacin suele ser automtica.
Nacionales con vistas al tratamiento electrnico de En la mayora de los casos, se trata de informacin con
registros. No obstante, este sistema avanza un poco ms una semntica reducida y que no permite la bsqueda
en los puntos antes mencionados. Al mismo tiempo, por campos, es decir, todos aquellos datos que son
presenta el problema de ser excesivamente ambiguo y, generados por robots (sistemas actuales). El hecho de
por lo tanto, mezclar sistemas de metadatos simples con que los recursos no estn indexados de forma apropiada
otros complejos. hace que el usuario pueda perder informacin relevante
(como de hecho as ocurre).
Basndose en este esquema clasificatorio, Smits (1996)
realiz una modificacin para crear una tipologa de El segundo grupo est compuesto por todos aquellos
metadatos para cartografa e informacin espacial. Por sistemas que contienen una descripcin lo
este motivo no hemos considerado oportuno el incluirlo suficientemente clarificadora como para que el usuario
en el presente apartado. No obstante, la clasificacin pueda acceder fcilmente al recurso. Adems, el hecho
descrita presenta diferentes deficiencias como, por de almacenar la informacin en campos agiliza la
ejemplo, considerar Dublin Core como un modelo bsqueda. Una de las caractersticas clave de este
nicamente vlido para Internet. segmento es que su introduccin no tiene por qu

Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003 103


Jos A. Senso / Antonio de la Rosa Piero

corresponder a especialistas (salvo, CUADRO 4


claro est, el formato SOIF que es Atributos y caractersticas de los metadatos
generado automticamente por el
gather dentro de Harvest).

Para finalizar, el tercer conjunto


est formado por todos aquellos
formatos que contienen un alto
grado de descripcin y, por tanto,
de complejidad en lo que se refiere
a su creacin. Es tal su nivel de
especificidad que en la mayora de
los casos no slo son vlidos para
la localizacin y recuperacin de
informacin sino que, adems, son
el complemento ideal para la
descripcin total de conjuntos de
objetos.

Junto a esta clasificacin, podemos


observar los siguientes atributos y
caractersticas propias de los
metadatos (Baca, 1998) (Cuadro 4):

Sistemas de metadatos

En la actualidad existen numerosos


sistemas que se estn
implementando en gran cantidad
de proyectos. Dado que es
prcticamente imposible recogerlos
todos, nos centraremos en aquellos
que afectan directamente al
TEI (Text Encoding Initiative).
procesamiento de la informacin, los que tengan un
uso ms extendido y los que, adems, satisfacen los MARC DTD (Machine Readable Cataloging Document
siguientes requerimientos: Type Definition).
Identificacin de documentos en un entorno distribuido. EAD (Encoded Archival Description).
Descripcin de su contenido. PICS (Platform for Internet Content Selection).

Localizacin y accesibilidad. MCF (Meta Content Format).

Gestin de derechos: copyright, reproduccin, IAFA (Internet Anonymous FTP Archive).


restricciones de acceso...
SOIF (Summary Object Interchange Format).
Entre ellos destacan:
La mayora de estos sistemas se utilizan de forma aislada,
Los aceptados por la norma HTML. ya que su objetivo es, fundamentalmente, satisfacer unos
requerimientos muy especficos (EAD para descripcin
DC o DCMI (Dublin Core Metadata Initiative). de documentos de archivos, SOIF e IAFA como ficheros
de intercambio en sistemas de indizacin distribuida, PICS
RDF (Resource Description Framework). para permitir o no el acceso a determinados contenidos...).

104 Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003


El concepto de metadato. Algo ms que descripcin de recursos electrnicos

Mencin aparte merece RDF que, gracias a su para generar servicios determinados (DSI), as como el
orientacin, permite la inclusin de otros sistemas de desarrollo del Web, hacen vislumbrar un futuro
metadatos para favorecer el intercambio de informacin halageo a los metadatos.
entre bases de datos heterogneas.
En palabras de Duval (Chen y Chang, 1998), los
CONCLUSIONES metadatos son parte de la infraestructura de la
informacin necesaria para ayudar a crear orden en el
Resulta evidente que las estructuras de metadatos estn caos del Web, proporcionando descripcin, clasificacin
adquiriendo una posicin preponderante en lo que se y organizacin.
refiere a la descripcin de recursos electrnicos
entendidos como objetos. Cada vez son ms numerosos
los proyectos, sitios Web o sistemas de consulta que se Artigo recebido em 17-03-2003 e aceito para publicao em 02-04-2003
valen de ellos para lograr mejores prestaciones a la hora
de la representacin, localizacin y recuperacin de
recursos electrnicos. REFERNCIAS
META attributes by count. Disponvel em: <http://vancouver-
Al contrario de lo que sucede con formatos ms webpages.com/META/bycount.shtml>. Acesso em: fev. 2003.
complejos y menos flexibles como TEI, el sistema ms BACA, Murtha. Introduction to metadata: pathways to digital
extendido en la actualidad Dublin Core Metadata information. Los Angeles : Getty Information Institute, 1998.
Initiative pone ms nfasis en facilitar al mximo el BERNERS-LEE, Tim. Metadata architecture: documents, metadata
acceso al recurso y menos en proporcionar una and link. Disponvel em: <http://www.w3.org/DesignIssues/
Metadata.html>. Acesso em: fev. 2003..
descripcin exhaustiva del mismo. Esto resulta vital, ya
que ha sido un fallo tradicional en los catlogos CAPLAN, P. You call it corn, we call it syntax-independent metadata
for document-like objects. The Public Access Computer Systems
bibliotecarios en los que, por el contrario, se hace ms Review, v. 4, n. 6, 1995.
hincapi en la descripcin que en dotar a los registros
CATHRO, W. Metadata: an overview. Disponvel em: <http://
de ms y mejores elementos de recuperacin. www.nla.gov.au/nla/staffpaper/cathro3.html>. Acesso em: fev. 2003.
CHEN, H. H.; CHANG, Y. S. The role of metadata in national taiwan
La mayora de sistemas de metadatos ofrecen la solucin university digital library / museum project. Journal of Library and
tcnica necesaria para realizar una descripcin Information Science, v. 23, n. 2, p. 51-65, 1998.
homognea y estricta de los recursos sin necesidad de CHILVERS, A.; FEATHER, J. The management of digital data: a
limitar las opciones de localizacin y recuperacin. Al metadata approach. Electronic Library, v. 16, n. 5, p. 335-371, 1998.
mismo tiempo es posible utilizar la mayora de conjuntos DEMPSEY, L.; HEERY, R. Desire: development of an European Service
de metadatos actuales junto a cualquier lenguaje de for Information on Research and Education. Unin Europea, 1997.
marcas derivado del SGML, lo que les aporta la DREWRY, M. et al. Metadata: quality vs. quantity. In: IEEE METADATA
caracterstica de multiplataforma que los convierte en CONFERENCE, 2., 1997. [S. l.] : IEEE, 1997.
la herramienta ideal para crear un entorno de ELSEN, J. Portals will open webs doors to masses. New York Post, 18
informacin integrada en el que el catlogo proporcione enero 1998.
acceso tanto a los documentos tradicionales como a la ERCEGOVAC, Z. Introduction. Journal of the American Society for
informacin electrnica. Information Science, v. 50, n. 13, p. 1165-1168, 1999.
GILL, T. Metadata and the World Wide Web. In:_______.
Junto a esto, la posibilidad de incluir informacin referida Introduction to metadata: pathways to digital information. Los Angeles
a la calidad, condicin o caractersticas del recurso aporta : Getty Information Institute, 1998, p. 9-18.
un valor aadido inestimable que los actuales sistemas GILLILAND-SWETLAND, A. J. Defining metadata. In:_______.
no pueden ofrecer. Introduction to metadata: pathways to digital information. Los Angeles:
Getty Information Institute, 1998, p. 1-8.

El uso de conjuntos de metadatos que faciliten la HAKALA, J. Internet metadata and library cataloguing. ICBC, v. 28,
n. 1, p. 21-5, 1999.
interoperatividad entre diversas bases de datos (como
puede ser el uso de RDF y DC), la utilizacin de lenguajes HARVEST. 2000. Disponvel em: <http://www.searchtools.com/
tools/harvest.html>. Acesso em: fev. 2003.
de etiquetado ms manejables que el SGML y menos
simples que el HTML (XML), la aplicacin de protocolos HEERY, R. Biblink: LB4034 D1.1 metadata formats. [S. l.] : Biblink,
1996.
pensados para la recuperacin de informacin (Z39.50),
la aplicacin de tcnicas de recuperacin de informacin

Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003 105


Jos A. Senso / Antonio de la Rosa Piero

HPOLA, P.; VARGAS-QUESADA, B.; MONTES HERNNDEZ, A. NETGAMBIT. Search engines generate traffic. Disponvel em: <http:/
Descripcin y evaluacin de agentes multibuscadores. El Profesional /www.nua.net/surveys/?f=VS&art_id=868880518&rel=true>. Acesso
de la Informacin, v. 8, n. 11, p. 15-26, 1999. em: fev. 2003.
_______;_______; SENSO, J. Bibliotecas digitales: situacin actual OLVERA LOBO, M. D. Rendimiento de los sistemas de recuperacin
y problemas. El Profesional de la Informacin, v. 9, n. 4, p. 4-13, de informacin en la Wold Wide Web: revisin metodolgica. Revista
2000. Espaola de Documentacin Cientfica, v. 23, n. 1, p. 63-77, 2000.
HOWE, D. Free on-line dictionary of computing. Disponvel em: ORTIZ-REPISO, JIMNEZ, V. Nuevas perspectivas para la
<http://wombat.doc.ic.ac.uk/foldoc/>. Acesso em: fev. 2003. catalogacin: metadatos versus MARC. Revista Espaola de
Documentacin Cientfica, v. 22, n. 2, p. 198-219, 1999.
HUDGINS, J.; AGNEW, G.; BROWN, E. Library and Information
Technology Association: getting mileage out of metadata applications PASQUINELLI, A. Information technology directions in libraries: a
for the library. Chicago : American Library Association, 1999. sun microsystems white paper. Disponvel em: <http://wwwsun.com/
products-n-solutions/edu/libraries/libtechdirection.html>. Acesso em:
HUSBY, O. Metadata: Elag97. [S. l. : s. n.], 1997. fev. 2003.
IANNELA, R.; WAUGH, A. Metadata: enabling the Internet. ROSA, A. XML orientado a objetos. El Profesional de la Informacin,
Disponvel em: <http://archive.dstc.edu.au/RDU/reports/ v. 8, n. 9, p. 4-23, 1999.
CAUSE97>. Acesso em: fev. 2003.
_________; SENSO, J. XML como medio de normalizacin y
KERHERV, B.; GERB, O. Models for metadata or metamodels for
desarrollo documental. Revista Espaola de Documentacin
data? In: IEEE METADATA CONFERENCE, 2., 1997. [S. l.], 1997.
Cientfica, v. 22, n. 4, p. 488-504, 1999.
KOSTER, M. Robots in the web. Disponvel em: <http:// SMITS, J. Digital metadata, standards for communication and
www.robotstxt.org/wc/threat-or-treat.html>. Acesso em: fev. 2003. preservation. European Research Libraries Cooperation, v. 6, n. 4, p. 83-
LANGE, H R.; WINKLER, B J. Taming the Internet: metadata, a 406, 1996.
work in progress. Advances in Librarianship, v. 21, p. 47-72, 1997.
THE SEARCH ENGINE REPORT. The new meta tag are coming - or
MILLER, P. Metadata for the mases. Ariadne, n. 5, 1996. are they? Disponvel em: <http://searchenginewatch.internet.com/
sereport/97/12-metatags.html>. Acesso em: fev. 2003.
MILSTEAD, J.; FELDMAN, S. Metadata: cataloguing by any other
name. Online, n. 1, p. 25-31, 1999. VARGAS-QUESADA, B.; HPOLA, P. Agentes inteligentes: definicin
y tipologia. Los agentes de informacin. El Profesional de la
MONTES HERNNDEZ, A. Posibilidades de consulta de los Informacin, v. 8, n. 3, p. 13-21, 1999.
buscadores. El Profesional de la Informacin, v. 8, n. 3, p. 8-14,
1999. WEBTOP. Disponvel em: <http://www.webtop.com/search/vanilla/
press190800.htm>. Acesso em: fev. 2003.

106 Ci. Inf., Braslia, v. 32, n. 2, p. 95-106, maio/ago. 2003

También podría gustarte