Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Antonio Martín
toni@us.es
Carlos León
cleon@us.es
El desarrollo de sistemas de búsqueda que faciliten la gestión del conocimiento académico en un espacio
distribuido como son las Bibliotecas digitales universitarias, es uno de los principales objetivos de
instituciones y proveedores de información. Estos nuevos retos motivan a los investigadores y a la
comunidad docente a buscar nuevos enfoques en la recuperación eficiente de la información. El presente
estudio supone un esfuerzo en innovación educativa, y propone un enfoque pragmático en la aplicación de
la recuperación del conocimiento en las bibliotecas digitales. Para ello utilizamos un enfoque ontológico
y técnicas de la inteligencia artificial.
Palabras Claves: Sistemas Expertos, Protégé, Integración Semántica de la Información, Web Semántica,
Ontología, Integración de Sistemas, extracción del conocimiento.
The main goal of the academic institutions and information providers is to development a search engine
to retrieval information in a super distributed data space like digital university libraries. This begets new
challenges to docent community and motivates researchers to look for intelligent information retrieval
approach that search and/or filter information automatically. We make an effort in innovation education
in this direction and we propose a semantic method for efficient information search. This paper suggests
a pragmatic approach to the implementation of intelligent techniques and ontologies for efficient knowledge
retrieval in the academic digital libraries.
Keywords: Expert Systems, Protégé, Integration of Semantic Information, Semantic Web, Ontology,
Integration Systems, knowledge information.
- 75 -
Martín, A. y León, C.
- 76 -
Pixel-Bit. Revista de Medios y Educación
puesto que toman un único punto de vista La Web semántica define y describe los
del mundo. Describe los objetos o instancias datos contenidos en la Web, de tal forma que
de interés, pero bajo una sola posible puedan ser utilizados y comprendidos por las
interpretación. Si uno quiere reutilizar algún máquinas sin necesidad de intervención
término, se hace evidente que el término humana. Admite una nueva manera de
puede tener diferentes interpretaciones concebir la red, donde los contenidos pueden
dependiendo del contexto. Para poder ser pre-procesados por agentes, que
reutilizar el conocimiento complejo es garanticen la significatividad de la información
necesario tener en cuenta diferentes aspectos obtenida. En primer lugar, lenguajes de
y significados de la información. Esto puede marcado que establecen normas acerca de
resolverse teniendo un entendimiento cómo declarar la meta-información, como son
compartido que unifique los diferentes puntos las ontologías y en segundo lugar, un software
de vista y establezca unos propósitos de inteligente o “agentes”, que sean capaces de
comunicación e interoperabilidad entre hacer uso de estas normas de meta-
sistemas. Para dar sentido a la información información como son los sistemas expertos.
que contiene la Web es necesario basarse en De este modo, la Web se puede convertir en
la capacidad de asociar semánticamente datos un espacio navegable y comprensible, donde
independientes entre sí, pero relacionados en es posible la relación entre términos
un determinado contexto. independientes de una misma búsqueda que
Las tecnologías semánticas permiten un ofrece como resultado sólo aquellas páginas
mejor aprovechamiento del espacio Web, que realmente se adaptan a los requisitos
informacional, a la vez que facilitan la gestión especificados por el usuario. Es decir
del conocimiento y búsqueda de información únicamente aquellos términos que cumplen la
desde distintas puntos de vista: condición de búsqueda, así como aquellos
? Ayudando a la comunidad educativa en el que tienen el mismo significado o uno
desempeño de sus tareas de forma más equivalente. De esta manera, se dota una
flexibles. Permitiendo disponer de servicios nueva Web de más significado, donde las
educativos en línea más eficientes y menos máquinas no sólo son capaces de presentar
aislados. Incluyendo tareas de desarrollo de toda la información contenida en ella (la
enseñanza en línea, servicios al alumno, sintaxis), sino que además puede entender y
mejora de la obtención del conocimiento, gestionar de forma inteligente su significado.
manejo y administración de los recursos, etc. La Web semántica propone una nueva
? Ayudando a las personas que cumplen arquitectura basada en 7 capas (Hagino, 2100)
diferentes roles (alumnos, tutores y (véase la Figura 1)
proveedores de contenido), a desempeñar sus Esta arquitectura permite el desarrollo de
funciones de forma más efectiva y servicios Web semánticos y el diseño de
eficientemente en espacios de aprendizaje agentes inteligentes, que facultan al usuario
grandes, distribuidos, basados en recursos de una nueva forma de petición de servicios.
de procedencia multiplataforma, multi- Los agentes interactúan de forma autónoma
dominios, creando ambientes inteligentes de entre ellos y se encargan de ubicar la
aprendizaje centrados en el usuario y información requerida, transformarla en
adaptables a sus necesidades. conocimiento accesible y presentable al
- 77 -
Martín, A. y León, C.
- 78 -
Pixel-Bit. Revista de Medios y Educación
- 79 -
Martín, A. y León, C.
que la describen. Cuando no hay suficiente en forma adecuada para que el usuario pueda
información, las computadoras pueden hacer adquirir el conocimiento requerido y la
inferencias con estos metadatos acerca de los capacidad de generar preguntas al sistema
datos, su significado y cómo se relaciona según el significado de las mismas.
unos con otros a fin de obtener los resultados
esperados. Para conseguir que los 4.1. Descripción de la ontología del sistema.
computadores entiendan los datos, es
necesario expresarlos en un formato uniforme, Considerando la cantidad, variedad de
de forma que, por ejemplo, un campo llamado datos y de fuentes de información diferentes
«titulo_publicacion» presente siempre el existente en el dominio educativo, es
mismo formato y contenga el mismo tipo de necesario recurrir a lenguajes y tecnologías
información en dominios distintos. que los clasifiquen sobre la base de sus
Las ontologías buscan capturar y propiedades y sus relaciones con otros datos.
representar el conocimiento de forma Aquí es donde aparecen las tecnologías de
consensuada, para ser reutilizado y Web Semántica como RDF, RDFS y OWL.
compartido tanto por aplicaciones docentes, Estos lenguajes permiten mediante relaciones
como por grupos de personas pertenecientes taxonómicas, crear una jerarquía de conceptos.
a la comunidad universitaria. Una ontología Las clasificaciones semánticas se añaden a la
consiste en clases y sus atributos, las red como meta-información para que sea leída
relaciones entre las clases, las propiedades por máquinas. Por lo tanto, necesitan normas,
de las relaciones y los axiomas que permiten como la Web Ontology Language (OWL) o el
restringir las interpretaciones de definiciones, Resource Description Framework (RDF),
de acuerdo al significado pretendido de los lenguajes legibles por las máquinas para
conceptos. describir formalmente contenidos multimedia.
En el ámbito educativo ya existen diferentes Aunque durante los últimos años se han
propuestas de ontologías para describir el propuesto varios lenguajes para la definición
contenido de los recursos educativos, aunque de ontologías, en Febrero del 2004 el W3C ha
creemos que en lugar de esperar una Web estandarizado OWL como lenguaje para la
educativa semántica universal, es más descripción semántica de recursos en la Web
argumentable decir que habrá diferentes Semántica (Heflin, 2010). OWL se diseñó
sistemas para diferentes ámbitos de teniendo como objetivo ofrecer un mecanismo
conocimiento que tienen que encontrar sus común de representar el conocimiento en la
propias maneras de acercarse al mundo de la Web, de forma que fuera posible procesarlo
información semántica, hasta que llegue el día de forma automática. Por lo tanto, OWL está
en que quizás se unan todas. pensado para que sea “leído” por máquinas y
La ontología que hemos desarrollado define no por humanos. Este lenguaje cuenta con
un vocabulario común para estudiantes e numerosas ventajas: posibilidad de compartir
investigadores que necesitan compartir ontologías “públicamente” accesibles, permitir
información en un dominio concreto, en la evolución y compatibilidad de ontologías,
nuestro caso la biblioteca digital de la capacidad de integración de ontologías que
Universidad de Sevilla. El dominio ontológico representan un mismo concepto de formas
proporciona los conocimientos presentados diferentes, detección de inconsistencias,
- 80 -
Pixel-Bit. Revista de Medios y Educación
equilibrio entre expresividad y escalabilidad, los elementos necesarios para describir las
etc. De este modo, OWL es el lenguaje utilizado características de un potencial usuario,
para desarrollar nuestra ontología. Asimismo permite además especificar determinadas
para la construcción y modelado de la mimas preferencias de usuario. Incluye las
hemos utilizado la herramienta de edición de propiedades y clases relacionadas
ontologías de libre distribución llamada directamente con la caracterización de los
Protégé (PROTÉGÉ, 2010). Este editor usuarios del sistema. La ontología permite
ontológico ha sido desarrollado por la disponer de mecanismos inteligentes de guía
universidad de Stanford, basado en el lenguaje al usuario, en un entorno asistido de
Java y en forma de plugins (Horridge et al aprendizaje. Se identifican varios conceptos
2004). o clases que pueden ser denominadas de
La ontología construida, incluye la primer nivel y que representan los distintos
definición de los conceptos y relaciones tipos de usuarios de búsquedas:
necesarios para desarrollar servicios eficientes - Externo: Usuarios que aunque no
de búsqueda de información, en el dominio pertenecen a la comunidad universitaria,
de las bibliotecas universitarias. Debido a la pueden circunstancialmente hacer uso de los
gran cantidad de términos identificados en recursos y servicios: alumnos y profesores
nuestro dominio, la ontología se organiza en visitantes, personal investigador externos,
varios espacios de nombres (o sub- etc.
ontologías) que incluyen las propiedades, con - PAS: Personal de Administración y
sus vocabularios correspondientes (Kim, Servicios de la Universidad.
2005). Se distinguen dos ontologías: - Estudiantes: Alumnos de primero y
- Ontología de usuarios. Define los grupos segundo ciclo de carrera.
de personas y sus relaciones con otros - Investigador: Personal docente e
individuos. La interacción entre grupos de investigador. (Véase la figura 3).
usuarios durante las tareas de aprendizaje
colaborativo, la semántica relacionada con los - Ontología de Servicios. Esta segunda sub-
objetos del aprendizaje y finalmente, la ontología localiza los servicios y recursos
semántica implícita en lenguajes orientados ofrecidos en un determinado espacio o área
al diseño del aprendizaje. El modelo identifica de trabajo. Forma parte de la Web semántica
- 81 -
Martín, A. y León, C.
- 82 -
Pixel-Bit. Revista de Medios y Educación
nuestro sistema contiene la taxonomía de de casos. Esta entidad almacena todos los
todos los conceptos que existen en nuestro casos o instancias del sistema experto
dominio académico y que servirá como base definidos a través de las sucesivas búsquedas
para la realización de las búsquedas. La expertas. Incluye toda la información recogida
estructura del caso definido por el experto e inferida por el sistema tanto de los recursos
deberá ser consistente con la ontología y y servicios ofrecidos, como de los propios
tendrá una correspondencia directa con las usuarios. La organización del conocimiento
clases y propiedades definidas. Los recursos en los casos provistos, es realizada por un
estarán representados por las instancias de experto y dotada de una estructura común
cada concepto en la ontología. Un usuario definida por el ingeniero del conocimiento. La
podrá no solo consultar la información representación de los casos utiliza las
disponible gracias al concepto por el cual se denominadas “tripletas” formadas por:
preguntó, sino que también podrá sugerir asunto, predicado y objeto. Por ejemplo el
otros conceptos asociados y términos más recurso “Computer Science” (asunto) está en
generales o más específicos de exploración, la dirección (predicado) http://bib.us.es/
para ampliar o precisar sus búsquedas. recursoelectrónico/computerscience.pdf
Además, si el usuario busca por un concepto (objeto).
alternativo, podrá realizar la consulta de la Una clasificación manual de estas instancias
misma forma que si hubiera preguntado por el en las clases establecidas dentro de la
concepto preferente. ontología sería una tarea sumamente costosa,
Un elemento imprescindible asociado a la dada la bastedad de conocimiento existente
ontología y que forma parte del Onto- en el dominio. Por tanto, se realizó una primera
Buscador es la Base de Conocimiento o Base carga de información procedente desde las
- 83 -
Martín, A. y León, C.
distintas fuentes existentes en la Biblioteca. etc.) así como la administración de las bases
Esta información se transformó en de datos necesarias. Este agente CBR se ha
declaraciones OWL, que acepta las implementado mediante la plataforma de
búsquedas complejas utilizando un lenguaje desarrollo jCOLIBRI, que permite crear
de consultas sobre instancias de ontologías aplicaciones CBR, de una forma sencilla.
(véase figura 5). jCOLIBRI es un Shell de desarrollo software
La Base de datos que integra el sistema, que incluye una interfaz gráfica de usuario
dará soporte físico a la base de casos. Es decir, (GUI), que posibilita de forma tutelada la
servirá como implementación del alojamiento construcción de sistemas CBR (Recio-García,
de forma permanente de la base de casos. et al 2006). El uso de esta herramienta como
Además contendrá las tablas de definición de entorno de construcción de sistemas CBR, se
perfiles de usuarios, para crear los distintos justifica por ser un sistema implementado en
entornos de búsqueda y para la habilitación Java, de código abierto, fácilmente adaptable
de políticas de acceso al sistema (Dumais et y/o extensible a entornos específicos.
al, 2003). Incluye también el control del acceso
a los mismos: edición de casos, gestión de 6. Interfaz gráfica de usuario.
usuarios, autentificación de usuarios, etc.
Por último el sistema Experto Basado en Nuestro sistema trata de agilizar el acceso a
Correspondencia de Casos, CBR es la entidad los recursos pertenecientes a la biblioteca
encargada de realizar las inferencias sobre los digital, optimizando para ello el resultado de
casos almacenados (Golbreich, 2004). La las búsquedas realizadas sobre la ontología y
presentación de los datos obtenidos, como haciendo uso de distintos perfiles inteligentes
solución optima del caso propuesto al sistema de búsqueda. El usuario interactúa con el
experto (catalogación, búsquedas, sistema de forma eficiente a través de la
presentación de resultados, visualización, interfase, que permite a cada tipo de usuario
- 84 -
Pixel-Bit. Revista de Medios y Educación
- 85 -
Martín, A. y León, C.
uso y preferencias de búsquedas aportadas al menos una resulta por sí misma ambigua,
por los distintos colectivos que utilizan el pero tiene sentido con el contexto de la
OntoBuscador y facilita la creación dinámica consulta.
del perfil de búsqueda correspondiente a cada Para evaluar los resultados de las
tipo de usuario. búsquedas tendremos en cuenta el orden de
los términos buscados, que deben aparecer
7. Evaluación del sistema en el mismo en el que se formuló la consulta y
no solo las palabras por separado. Es decir si
En esta sección exponemos el método la expresión a buscar es: “Libro de Ingeniería
seguido para la evaluación de nuestro onto- de la Programación”, se puntúa que esa sea la
buscador respecto de un buscador tradicional frase que aparece en la página buscada y no
como es por ejemplo Google. Usuarios en otro orden.
pertenecientes a los distintos colectivos Otro factor que valoramos como resultado
definidos en el sistema, han realizado una de calidad, es que el contexto donde se integra
batería de consultas relacionadas con los la frase tenga algo que ver con el sentido que
recursos y servicios existentes en nuestra se esta buscando. Por ejemplo, si buscamos:
Biblioteca Digital. Las consultas realizadas “Recursos electrónicos sobre inteligencia
abarcan consultas con una única palabra y artificial” esperamos obtener todos los
consultas con varias palabras, de las cuales accesos on-line ofrecidos por la biblioteca
- 86 -
Pixel-Bit. Revista de Medios y Educación
Relevancia 4 3 2 1
Calidad 4 3 2 1
- 87 -
Martín, A. y León, C.
- 88 -
Pixel-Bit. Revista de Medios y Educación
(http://protege.stanford.edu/) (5-09-2009)
Recio-García, J.A. & Díaz-Agudo, B. (2006).
Ontology based CBR with jCOLIBRI. Procs.
of the 26th SGAI Int. Conference AI-2006.
Springer-Verlang.
Taniar, D. & Wenny, J.(2006). Web
semantics and ontology. Hershey, PA: Idea
Group Pub.
Toussaint, J. & Cheng, K. (2006). Web-
based CBR (case-based reasoning) as a tool
with the application to tooling selection.
International Journal of Advanced
Manufacturing Technology. 29(1–2), 24–34.
Hagino, T. (2010). What Semantic Web
Different from Current Web, W3C
Recommendation, Word Wide Web
Consortium. (http://www.w3.org/2001/09/21-
orf/hagino-sw/) (28-12-2010).
- 89 -