Está en la página 1de 4

SISTEMA GENERADOR Y COSECHADOR DE METADATOS

DUBLIN CORE PARA DOCUMENTOS DE TESIS

Nicandro FARIAS, Martha EVANGELISTA, Pablo ALCARAZ, Luis ALCARAZ.


Facultad de Ingeniera Mecnica y Elctrica Universidad de Colima.
Colima, Col. C.P. 28040, Mxico.
{nmendoza, mevangel, pablo_alcaraz}@ucol.mx

RESUMEN
En este artculo se presenta el desarrollo de un sistema Web
En este artculo se presenta el desarrollo de un sistema Web de para la administracin de documentos de tesis almacenados en
acceso abierto para la administracin de documentos de tesis un repositorio de documentos en formato PDF y asociado a un
almacenados en un repositorio de documentos en formato PDF repositorio de metadatos del mismo tipo pero en formato
y asociado a un repositorio de metadatos del mismo tipo pero XML, utilizando el estndar Dublin Core.
en formato XML, utilizando el estndar Dublin Core.
El sistema propuesto ofrece una interfaz con los usuarios para
El sistema propuesto ofrece una interfaz de usuario que provee proveer servicios de bsqueda y recuperacin de documentos de
de servicios de bsqueda y recuperacin de documentos de tesis tesis generados en la Facultad de Ingeniera Mecnica y
generados en la Facultad de Ingeniera Mecnica y Elctrica de Elctrica de la Universidad de Colima almacenados en formato
la Universidad de Colima, almacenados en formato DCMI y DCMI y estructurados con XML. Asimismo utilizamos la
estructurados en XML. Asimismo, dicho sistema utiliza iniciativa OAI-PMH para enlazarnos en la Web con dos
protocolos OAI-PMH auto-archivo para enlazarse a otros propsitos: Primero, proveer los datos generados
sistemas del mismo tipo con dos propsitos: Primero, proveer a institucionalmente a otras universidades o centros de
otras universidades o centros de investigacin de los metadatos investigacin. Segundo cosechar los metadatos almacenados en
generados institucionalmente. Segundo, cosechar los metadatos otras instituciones con el fin de proveer una amplia gama de
producidos y almacenados en sistemas del mismo tipo, fuentes de informacin para los usuarios del sistema. [1,6,9]
pertenecientes a otras instituciones educativas con el fin de
disponer de un amplio acervo de fuentes de informacin para Para darle funcionalidad a nuestro sistema se estructuraron los
los usuarios del sistema. siguientes cinco mdulos: Un mdulo que incluye un conjunto
de aplicaciones Web que nos permiten la importacin y
En este sistema se integran tcnicas y mtodos que contribuyen exportacin de metadatos de redes desde y hacia otras redes
en el desarrollo de redes de acceso abierto a la informacin tales cosechadoras de metadatos. Un mdulo que almacena los
como; algoritmos basados en ontologas para la recuperacin de metadatos generados localmente o importados de las redes y
informacin en repositorios de metadatos, mtodos para lograr que incluye una representacin en XML de los mismos. Un
una interfaz de comunicacin entre las diversas mdulo que nos permita el almacenamiento y la recuperacin de
representaciones de la informacin y mecanismos de documentos en nuestros repositorios de metadatos. Un mdulo
interconexin entre proveedores de datos y servicios. para almacenar los documentos PDF, que corresponden a los
documentos tesis. Y finalmente un modulo Web presenta la
Palabras Claves: Metadatos, Dublin Core, XML, OAI-PMH, interfaz grafica para el usuario que realiza consultas.
HTTP.
Actualmente el sistema desarrollado funciona de manera local,
constituyndose como una herramienta til de soporte
1. INTRODUCCIN bibliogrfico para los maestros y estudiantes de la Facultad de
Ingeniera Mecnica y Elctrica de la Universidad de Colima,
El desarrollo de sistemas en contextos abiertos requiere la impactando en el desarrollo de sus trabajos de investigacin.
aplicacin de normas, estndares o iniciativas establecidas
internacionalmente, como las normas ISO 2709 o MARK 21, En las ltimas dcadas se han desarrollado varios sistemas de
las ISBD (CF), las AACR2, OAI-PMH, XML y DCMI para el acceso abierto: en 1997 se lanz CogPrints, en el rea de
procesamiento, recuperacin, acceso e intercambio de psicologa, neurociencias y lingstica http://cogprints.org/,
informacin. [1,2,3,8] tambin se emiti el directorio de revistas LATINDEX
http://www.latindex.unam.mx. En 1998 se lanz
En la actualidad el uso de los metadatos incide de manera http://SCielo.www.scielo.org. En 1999 la Iniciativa de Archivo
relevante en la conformacin de redes de bibliotecas digitales Abierto http://www.openarchives.org, desarrolla y promueve los
que comparten informacin a travs de la Web, haciendo uso de estndares de interoperabilidad, a travs de metadatos, contando
estndares para la representacin de la informacin en forma de con el apoyo de la NSF de Estados Unidos, implementando los
metadatos como el Dublin Core, IEEELom, SCORM, Canadian protocolos: OAI-PMH, que es un protocolo de intercambio de
Encore, MARC21 y otros protocolos internacionales. [1,4,7] metadatos, considerando que los metadatos a transmitir va
OAI-PMH debern codificarse en Dublin Core. En 2000 se referencia a los diversos temas que puede contener el
desarrollaron Biomed Central http://www.biomedcentral.com/. material. Descripcin (Description). Se hace un breve
y PubMedCentral http://www.pubmedcentral.nih.gov. En 2002 resumen sobre el contenido del objeto digital. Fuente
la UNESCO desarroll las guas para tesis y disertaciones (Source). Es como una pequea ficha bibliogrfica que se
electrnicas, que promueven una iniciativa a nivel mundial elabora para asentar los datos sobre la procedencia del
http://www.unesco.org/webworld/etd del acceso pblico a la documento original. Relacin (Relation). Este campo tiene
informacin. En 2002 se lanz Redalyc. Red de Revistas que ver con el material principal u objetos de su misma
Cientficas de Amrica Latina, el Caribe, Espaa y Portugal referencia, ya sea una coleccin, una serie, un documento,
http://oai.redalyc.uaemex.mx. [1,3,7,8,11] etctera. Cobertura (Coverage). Este campo se refiere al
proyecto o sitio donde estar resguardada la informacin.
Sin embargo en nuestro proyecto ofrecemos un enfoque Aqu pueden anotarse fechas, zonas geogrficas.
particular e innovador de las tcnicas y mtodos para el
desarrollo de sistemas de acceso abierto, como, algoritmos b).- En el apartado de Propiedad Intelectual, encontramos los
basados en ontologas para la recuperacin de informacin en siguientes campos:
repositorios de metadatos, mtodos para lograr una interface Creador (Creator). Aqu se anota el autor intelectual de la
entre diversas representaciones de la informacin y tcnicas y obra o documento original. Editor (Publisher). Este campo se
mtodos de interconexin con diversas redes de conocimientos. refiere al sitio o coleccin responsable, a la que est adscrito
el material. Colaborador (Contributor). En este campo se
anotan, si es que se da el caso, el nombre u organizacin que
2. DESARROLLO contribuy a la creacin del material, que no se especific en
la parte de Creador. Derechos (Rights). Se anota en este
Este proyecto tiene como base al Sistema Automatizado para el campo el nombre o la institucin a la cual pertenece el
Control de Proyectos de Seminario de Investigacin: SACPSI, material y lo facilit.
este proyecto fue desarrollado y puesto en operacin en la
Facultad de Ingeniera Mecnica y Elctrica de la Universidad c).- En el apartado de Aplicacin tenemos los siguientes
de Colima, con el propsito de registrar y consultar los campos:
proyectos de tesis de los alumnos egresados de esta facultad. Fecha (Date). Se anota la fecha de elaboracin del registro.
Formato (Format). En este campo se registra el tipo de
Con el afn de ofrecer un acervo bibliogrfico mas extenso y extensin con que se presenta el objeto digital, ya sea HTML,
flexible para el registro, consulta y acceso a los documentos y JPG, GIFF o PDF. Identificador (Identifier). Se refiere a la
temas de tesis se extendi el SACPSI para que este opere en direccin electrnica de origen a la que est adscrito el
lnea y apegado a los principios del acceso abierto. Este sistema material. Para ello se utilizan las siglas URL. Tipo (Type).
se denomin: Sistema Generador y Cosechador de Metadatos Aqu se menciona la presentacin que tiene el objeto digital,
Dublin Core para Documentos de Tesis (SGCMDCDT). ya sea como texto, audio, video, etctera. Lenguaje
(Language). En este campo se establecen las siglas
En nuestro proyecto utilizamos DCMI como instrumento para correspondientes al idioma en que se presenta la publicacin.
especificar los metadatos, con los cuales se describe, se
organizan y recuperan grandes volmenes de informacin El Sistema Generador y Cosechador de Metadatos Dublin Core
almacenados en formato electrnico. As mismo utilizamos para Documentos de Tesis (SGCMDCDT) es un software de
XML para proporcionar la interoperabilidad que nuestro sistema aplicacin cuya tarea principal es recolectar y compartir
requiere. XML( eXtensibleMarkup Language) es un Meta- informacin referente a trabajos de tesis generados y publicados
lenguaje de marcado, consiste de un conjunto de reglas simples dentro de la Universidad de Colima y las distintas instituciones
para proveer un mtodo uniforme para describir intercambiar acadmicas del mundo que en conjunto se suman a la iniciativa
datos estructurados, con XML se describe la estructura y la de acceso abierto (OAI). El sistema opera como proveedor de
semntica, no el formato de los datos, adems provee un servicios y como proveedor de datos a travs de la contribucin
estndar internacional independiente de la plataforma de bibliogrfica de los metadatos que describen a los documentos
operacin, para describir informacin. de tesis generados internamente y los metadatos cosechados de
otros proveedores de datos de manera automtica por el propio
El sistema de metadatos de Dublin Core est constituido por sistema. El objetivo de ste proceso consiste en motivar tanto a
quince campos bsicos, los cuales se dividen en tres apartados: estudiantes como a profesores e investigadores que trabajan en
Contenido, Propiedad Intelectual y Aplicacin. La Tabla I labores de docencia e investigacin consultar fuentes de
muestra la estructura del metadato que empleamos en este informacin elaboradas en otras instituciones o a publicar y
proyecto. difundir sus proyectos de investigacin en un ambiente
colaborativo.
Tabla I. Estructura del metadato Dublin Core
Contenido Propiedad Intelectual Aplicacin El SGCMDCDT se compone de tres mdulos bsicos de
Ttulo (Title). Creador (Creator). Fecha (Date).
Materia (Subject). Editor (Publisher). Formato (Format). software que en conjunto permiten alcanzar los objetivos
Descripcin Colaborador Identificador (Identifier). establecidos. El primer modulo se encarga de establecer y
(Description). (Contributor).
Fuente (Source). Derechos (Rights). Tipo (Type).
proporcionar una interface Web que permite gestionar una
Relacin (Relation). Lenguaje (Language). interaccin entre el los servicios que ofrece el propio sistema y
Cobertura (Coverage). los usuarios que hacen uso de ellos. Su objetivo es brindar un
medio de comunicacin sobre el cual transcurran las
a).- En el apartado Contenido tenemos los siguientes campos: interacciones que permitan consultar tanto las tesis provenientes
Ttulo (Title). Se refiere al ttulo que lleva por nombre el de la misma Universidad de Colima como aquellas tesis que han
documento. Materia (Subject). En este campo se hace sido recolectadas a travs del protocolo OAI-PMH de sistemas
proveedores de datos de distintas partes del mundo en cualquier nuestro sistema le resulta relevante conocer; ya sea para
momento y a travs de consultas especializadas en las que representarla y/o adecuarla a nuestra propia manera de
puede variar el tpico de bsqueda segn la necesidad del almacenar y/o difundir la informacin.
usuario. Es en ste el modulo del sistema donde se proporciona
tanto a alumnos como a maestros de la Universidad de Colima, El tercer mdulo del SGCMDCDT se divide en dos sub
las herramientas de gestin que permiten adherir al mismo los mdulos de trabajo. El primero de ellos se encarga del conjunto
trabajos de tesis que sern sometidos a revisin, y con ello de rutinas definidas dentro de una funcin o servicio Web
determinar si cumplen o no con los parmetros establecidos que mediante la cual es posible que se realice una consulta de
posibilitarn a ste recurso a su publicacin dentro de la informacin dentro del repositorio de metadatos en el que estn
plataforma. contenidas las tesis publicadas de la Universidad de Colima.
Para acceder a esta informacin es necesario que un proveedor
La Figura 1 muestra el modelo conceptual de nuestro proyecto, de servicios o cosechador de metadatos se conecte a nuestro
en esta figura se representan los componentes bsicos del servidor a travs de la URL que conduce al mismo y adems, es
sistema y la forma en que estos estn relacionados. necesario que dicha aplicacin conozca el nombre del servicio
de recoleccin de metadatos necesario para identificar y
Servicio web OAI-PMH para la
desencadenar la consulta de informacin solicitada y que en ella
cosecha y distribucin de
metadatos de tesis se definen; los parmetros referentes a la especificacin de los
Repositorio de
Tesis U. de C. Solicitud HTTP de
metadatos
datos que se desean conocer. El intercambio de informacin en
donde se gestiona tanto la solicitud de informacin como la
Internet
respuesta a la peticin de datos realizada; transcurren
Interface Grafica de
Repositorio de
Metadatos de
Metadatos recolectados
y/o distribuidos en
formato XML
directamente sobre el protocolo de comunicacin HTTP. En
Tesis U. de C.
Usuario
Usuario para la gestin
de documentos de
tesis de la U. de C.
dicha funcin definida dentro de ste sub modulo se leern los
parmetros de la consulta realizada, sern estos ejecutados de
Repositorio de
Metadatos
Repositorio X Repositorio Y
inmediato y se devolver los resultados que coincidieron de
Cosechados de metadatos
de metadatos
de tesis XML de tesis XML forma estandarizada y apegndose siempre al Protocolo de
Proveedor de metadatos de tesis y servicios de creacin, gestin y Proveedores externos de
Acceso Simple a Objetos conocido comnmente como SOAP y
almacenamiento. metadatos de tesis a las normas OAI-PMH en donde se especifica la estricta
Figura 1. Modelo conceptual del SGCMCDT representacin de los mensajes referentes a la peticin de datos
o consulta de informacin realizada y la estructura de datos
El segundo mdulo del SGCMDCDT es el encargado de definida referente a la respuesta de la misma, basados estos
realizar las tareas claves que permiten almacenar tanto la mensajes en el lenguaje de etiquetas XML. [6,10,11]
informacin recabada de manera local como aquella
proveniente de universidades externas. Una vez que las tesis han El segundo sub mdulo se encarga de la tarea contraria al
sido ingresadas al sistema por parte de los alumnos o maestros trabajo descrito en prrafos anteriores, realizada de manera
de la propia Universidad de Colima y en ellas han sido automtica durante cada semana del ao. En este sub mdulo se
revisados cada uno de los aspectos que definen a dicho recurso realiza el trabajo necesario para que el SGCMDCDT sea capaz
como susceptible a publicacin; las tesis son almacenadas de recolectar metadatos desde otros sistemas que comparten
dentro de repositorios de datos especficos de acuerdo a su informacin del mismo tipo. Debido a que la estructura general
procedencia, y con ello se da comienzo al proceso de creacin para representar el conjunto de peticiones de datos y respuesta a
automtica del metadato correspondiente a la informacin las mismas es el SOAP y el OAI-PMH; en este sub mdulo de
general que describe el recurso publicado, y que al mismo trabajo se comienza por definir el conjunto de URL`s que
tiempo; estar disponible para que otros proveedores de determinan la ubicacin virtual de cada uno de los servidores
servicios cosechen los metadatos accediendo al sistema a travs que comparte informacin con ste sistema. Consecuente al
de peticiones http y servicios Web especializados y paso anterior, se estructuran los parmetros en los que se define
representados en un lenguaje de programacin como Java para la informacin que se desea solicitar y en los que es importante
su posterior acceso y recoleccin. [1,5,9] destacar que solo vara la informacin referente a la fecha de la
ltima extraccin de datos realizada sobre cada preciso
El metadato se forma a partir de la informacin referente a la proveedor de recursos; evitando con ello obtener metadatos que
descripcin del recurso publicado (titulo del trabajo, tema de ya fueron recolectados en eventos anteriores. Finalmente, al
estudio, autor(es), fecha de publicacin, etc.) en formato Dublin obtener los metadatos producto de la consulta realizada; estos
Core y siendo ste representado y codificado en un archivo de son interpretados y analizados de nuevo para verificar que en
datos XML estandarizado vinculado al acceso del recurso cada uno de ellos no falte informacin o sta sea redundante a la
compartido. Una vez creado el metadato correspondiente al ya contenida dentro de nuestros repositorios de informacin.
recurso publicado y compartido; ste es almacenado en otro
repositorios de metadatos donde se vincula de forma directa con
la tesis que ste representa, a efectos de que con l otro sistema 3. RESULTADOS
pueda acceder de manera rpida y sencilla a dicho recurso.
Cuando un metadato es recolectado de forma automtica por Actualmente el sistema desarrollado se encuentra funcionando
nuestro sistema desde un generador de metadatos externo; se da de manera local, constituyndose como una herramienta til de
comienzo al proceso de adaptacin del mismo a nuestro propio soporte bibliogrfico para los maestros y estudiantes de la
estndar de almacenamiento y representacin de la informacin Facultad de Ingeniera Mecnica y Elctrica de la Universidad
que en dicho recurso se representa, es decir, en cada uno de los de Colima, impactando en el desarrollo de sus trabajos de
metadatos recolectados se analiza la informacin contenida investigacin.
dentro del mismo y as; verificar la correspondencia de
informacin representada dentro de l y la informacin que a
La Figura 2 muestra la interfaz que el sistema ofrece al usuario de fichas bibliogrficas y documentos electrnicos de las tesis
para realizar accesos para la consulta o recuperacin de generadas institucionalmente y de las tesis ofrecidas por
documentos y temas de tesis de su inters particular. proveedores de datos de otras instituciones educativas y de
investigacin alrededor del mundo.

Estamos convencidos de la importancia de este proyecto por su


impacto positivo en la calidad de las tareas educativas y de los
proyectos de investigacin de toda la comunidad acadmica y
cientfica.

Recomendamos que en un futuro realizar las actualizaciones y


convenios que sean necesarios a nuestro sistema para publicar
un Journal de acceso abierto (Gold Open Access) o la
publicacin en un Journal convencional y la publicacin en un
repositorio institucional (Green Open Access).

Figura 2.- Interfaz de bsquedas o recuperacin 5. REFERENCIAS

La figura anterior muestra los criterios disponibles para realizar [1] Aguado Lpez E. et al. Redalyc OAI-PMH the open
una bsqueda de proyectos de investigacin o tesis: No. de archives initiative protocol for metadata harvesting
cuenta, Nombre del alumno, Carrera, Facultad, Proyecto o (protocol version 2.0). DC-2006 Proceeding of the
nombre de la tesis, Asesor, Descripcin y por ltimo International Conference on Dublin Core and Metadata
Generacin a la que pertenece el alumno. Aplications. 2006. pp 244-252.
[2] Brogan, M. L. A Survey of Digital Library Aggregation
En la Figura 3 se muestra el resultado obtenido de la bsqueda Services. Digital Library Federation, Washington, DC,
realizada por carrera, la cual despliega informacin general 2003. http://www.diglib.org/pubs/brogan/
referente al documento de tesis: Autor(es).- Nombre de los [3] Dublin Core Metadata Initiative. (1999). Dublin Core
alumnos que realizaron la tesis. Facultad y carrera.- Nombre Metadata Element Set, Version 1.1: Reference Description.
de la facultad y carrera a la que pertenece el alumno o Retrieved November 24, 2002, from
investigador. Nombre de la tesis.- Nombre del documento de http://www.dublincore.org/documents/dces/.
tesis. Generacin.- Generacin a la que pertenece el alumno. [4] Heery, R., and Anderson, S. Digital Repositories Review.
Clasificacin.- Nmero de control generado por la biblioteca en UKOLN, AHDS. (Feb. 19, 2005). http://www.jisc.ac.uk/
donde se encuentra el documento de tesis impreso. Biblioteca.- uploaded_documents/ digitalrepositories-review-2005.pdf.
Nmero identificador de biblioteca perteneciente a la [5] Heery, R., and Powell, A. Digital Repositories Roadmap:
Universidad de Colima en donde se encuentra impresa la tesis. Looking Forward. UKOLN, Eduserv Foundation. (April
Archivo.- Enlace HTTP de acceso al documento de tesis en 2006).http://www.jisc.ac.uk/uploaded_documents/reproadm
formato digital. ap-v15.doc
[6] Hunter, J.L. A survey of metadata research for organizing
the web. Library Trends, 52, 2 (2003), 318-344.
http://www.dlib.org/dlib/november05/kastens/11kastens.ht
ml
[7] Knutson, E., Palmer, C.L., and Twidale, M. Tracking
metadata use for digital collections. In Proceedings of the
International DCMI Metadata Conference and Workshop
(DC03) (Seattle, WA, Sept. 28Oct. 2, 2003), 243-244.
[8] Lagoze, C., Van de Sompel, H., Nelson, M., & Warner, S.
(2002). The Open Archives Initiative Protocol for
Metadata Harvesting. Protocol Version 2.0 of 2002-6-14,
document version 2002/09/13T11:34:00Z. Retrieved July
12, 2002, available from
http://www.openarchives.org/OAI_protocol/openarchivespr
otocol.html.
Figura 3. Bsqueda por carrera [9] Lagoze, C. et al. Metadata aggregation and automated
digital libraries: A retrospective on the NSDL experience.
El sistema est en operacin desde 2007 ofreciendo servicios de In Proceedings of the 6th ACM/IEEE-CS Joint Conference
registro y consultas de documentos y temas de tesis a la on Digital Libraries (Chapel Hill, NC, June 11-15, 2006),
comunidad de la Universidad de colima. 230 239.
[10] Palmer, C.L., and Knutson, E. Metadata practices and
implications for federated collections. In Proceedings of the
4. CONCLUSIONES 67th ASIS&T Annual Meeting (Providence, RI, Nov. 12-17,
2004).
El SGCMDCDT es una iniciativa de la Universidad de Colima [11] Shreeves, S.L., Kaczmarek, J.S., and Cole, T.W.
para proveer a los alumnos, profesores e investigadores de una Harvesting cultural heritage metadata using the OAI
herramienta para el registro, consulta, recuperacin y difusin protocol. Library Hi Tech, 21, 2 (2003), 159-169.

También podría gustarte