Está en la página 1de 10

Copyright (c) 2012, Miguel ngel Abin

BUSCADORES SEMNTICOS: COMPRENDER PARA ENCONTRAR (Parte 1)


Miguel ngel Abin

Pgina 1 de 10

Copyright (c) 2012, Miguel ngel Abin

BUSCADORES SEMNTICOS: COMPRENDER PARA ENCONTRAR (Parte 1)


Palabras clave: bsqueda semntica, buscadores semnticos, web semntica, ontologas, minera de datos Keywords: Semantic Search, Semantic Search Engines, Semantic Web, Ontologies, Data Mining

En este artculo, primero de una serie, se definen conceptos como bsqueda semntica y buscador semntico y se exponen ejemplos de las ventajas de los buscadores semnticos con respecto a los buscadores convencionales, basados en el uso de palabras clave para encontrar informacin y mostrarla al usuario. El inters industrial y comercial de las bsquedas semnticas se manifiesta tanto en la aparicin de numerosos buscadores semnticos como en la utilizacin de tcnicas semnticas para complementar las bsquedas convencionales (en Google, por ejemplo). En un artculo anterior habl del nuevo buscador semntico de Microsoft. En este artculo definir precisamente conceptos como "bsqueda semntica" y "buscador semntico" y expondr ejemplos de sus ventajas con respecto a los buscadores convencionales, as como de sus limitaciones actuales. Muchos de los buscadores actuales se basan en palabras clave. Es decir, el usuario introduce las palabras relevantes de su bsqueda ("Albert Einstein" y "Nobel", p. ej.), y la aplicacin devuelve todos los documentos que contienen esas palabras. En el apartado 3.2 de El futuro de la Web (http://www.javahispano.org/portada/2011/8/1/el-futuro-de-la-web.html) puede encontrarse una exposicin de las desventajas de esos buscadores. Dos son las ms importantes: 1. Escasa precisin o relevancia en los resultados (se devuelven muchos documentos poco relevantes para la bsqueda: la presencia de una palabra clave en un documento no implica necesariamente que ste sea relevante). 2. Excesiva sensibilidad al vocabulario empleado en las bsquedas (y, por tanto, imposibilidad de obtener a la primera todos los resultados relevantes disponibles: muchos documentos de inters pueden no incluir las palabras clave, pero s sinnimos, hipnimos o hipernimos de ellas). Un estudio de David Hawking y de varios investigadores evalu 20 buscadores convencionales (basados en palabras clave) usando 54 bsquedas. El porcentaje de resultados relevantes despus de inspeccionar las 20 primeras pginas web devueltas fue del 0,5% para el mejor buscador (Northern Light), y Google fue el segundo buscador ms preciso. As pues, la popularidad de los buscadores basados en palabras clave no tiene mucho que ver con su precisin, sino con la paciencia de buey de los usuarios. As las cosas, las bsquedas semnticas seran una vacuna para el contagioso virus de la falta de relevancia en los resultados.
Pgina 2 de 10

Copyright (c) 2012, Miguel ngel Abin

Una bsqueda semntica es una consulta en la que se tiene en cuenta el contexto, y por tanto el significado, de aquello por lo que se pregunta (y no solamente las palabras de la consulta), con el objetivo de evitar la ambigedades tanto de las consultas como del texto de los documentos donde se busca. Por ejemplo, una bsqueda semntica con las palabras "descubridor" y "penicilina" devolvera documentos sobre Alexander Fleming, aunque en ellos no aparecieran esos dos trminos, porque identificara los conceptos que estructuran la bsqueda (la penicilina es un producto del cual se desea averiguar su descubridor o, dicho ms formalmente, Medicina(Penicilina) tieneInventor Persona(Alexander Fleming)). El fin ltimo de las bsquedas semnticas radica en que los usuarios puedan formular bsquedas ms precisas y expresivas, que originen resultados relevantes para el usuario con la mnima intervencin de ste. Normalmente, se admite que las bsquedas semnticas se basan en tcnicas para extraer informacin mediante la utilizacin de ontologas o metadatos. El uso de ontologas permite definir formalmente los dominios de inters (teoras cientficas, por ejemplo) con la suficiente riqueza expresiva para que los usuarios pueden especificar sus bsquedas con bastante detalle, ya sea antes de ejecutar la consulta o durante su ejecucin. Desde un punto de vista tcnico, un buscador semntico es una aplicacin que comprende las bsquedas de los usuarios y los textos de los documentos de la web mediante el uso de algoritmos que simulan comprensin o entendimiento, y que a partir de stos proporciona resultados correctos sin que el usuario tenga que abrir el documento e inspeccionarlo por s mismo. Un buscador de este tipo reconoce el contexto correcto para las palabras o sentencias de bsqueda. Google o Yahoo no son buscadores semnticos, pues se basan fundamentalmente en algoritmos que generan estadsticas a partir de palabras y enlaces, y no en algoritmos cognitivos que capturen el conocimiento implcito en las palabras y su contexto. Por ejemplo, una bsqueda como "Quin fue Urano?" en cualquiera de esos buscadores devolver resultados afines al sptimo planeta del Sistema Solar, cuando est claro que el propsito de la bsqueda es encontrar informacin sobre el dios primordial del cielo en la mitologa griega. Los buscadores semnticos no siempre pueden acertar a la primera el significado de una palabra polismica. Por tanto, deben disponer de medios de desambiguacin para conocer el sentido exacto que tiene la palabra en la bsqueda. Por ejemplo, un buscador semntico que utilize internamente ontologas con conceptos informticos y medios de transporte deber disponer de herramientas para determinar a qu se refiere el usuario cuando hace una consulta con la palabra bus, que puede significar autobs o "sistema digital que transfiere datos entre los componentes de un computador o computadores". Para ello, puede escoger el significado ms probable, preguntar al usuario para que elija entre varias opciones (como hace el buscador Hakia, que presenta las opciones extrayndolas de su ontologa) o usar las dems palabras de la bsqueda para inferir el significado exacto de bus en ese contexto (p. ej., en una consulta como "A qu hora sale este viernes el bus para Soria desde Madrid?").

Pgina 3 de 10

Copyright (c) 2012, Miguel ngel Abin

Como un buscador semntico se basa en algoritmos que simulan la comprensin de las palabras y, por ende, establecen relaciones entre ellas, pueden realizar bsquedas de inters para el usuario aunque en los documentos devueltos no figuren las palabras o expresiones de bsqueda. Por ejemplo, un buscador semntico en que se introdujera la palabra "marsupial" mostrara documentos donde apareceran trminos como stos: canguro, koala, satanelo de Nueva Guinea, monito del monte, rata canguro, zarigeya, tlacuache, demonio de Tasmania. Como demuestra este ejemplo, las bsquedas semnticas son muy superiores a las basadas en palabras clave: uno puede encontrar documentos de inters que jams encontrara buscando con palabras clave. Adems, si uno buscara informacin sobre distintas especies de marsupiales, no necesitara formular la consulta de distintas maneras, con el nombre de cada especie, para obtener la informacin deseada. La falta de estructura y de anotaciones semnticas en los recursos de la web (documentos Word, PDF, pginas HTML, etc.) obliga a que los buscadores semnticos analicen mediante algoritmos cognitivos los recursos, palabra a palabra y oracin a oracin, para asignar las palabras y oraciones a conceptos ontolgicos. Estos algoritmos son lentos y requieren supervisin humana. De ah que los buscadores semnticos no cubran por ahora tantos recursos de la web como los convencionales, que emplean algoritmos estadsticos, mucho ms rpidos y completamente automatizados. Esta limitacin desaparecer cuando se vayan mejorando los algoritmos cognitivos o en cuanto los "islotes semnticos" se unan para formar la web semntica o, al menos, "continentes semnticos". "Nunca existir la web semntica oigo a lo lejos. Es tan imposible que funcione como las mquinas voladoras de Leonardo da Vinci." Tengo dos objeciones contra esa opinin. Una: el pesimismo no tiene futuro. Dos: hubo un tiempo, no lejano, en que se pensaba que la interoperabilidad sintctica era imposible salvo con enormes inversiones, y casi todos apostaron a que no habra un nico caballo ganador en la carrera de los lenguajes de intercambio de datos. Se equivocaron. Y algunos perdieron hasta la camisa. A falta de la web semntica, algunos ya se han puesto al tajo. Existen buscadores semnticos que trabajan ya estructurando la informacin a la que luego se accede mediante bsquedas, pues resulta posible obtener cierto nivel de conocimiento semntico a partir de la estructura de los datos. Por ejemplo, Freebase (http://www.freebase.com/), un buscador social, utiliza RDF para definir su estructura de datos como una serie de nodos y un conjunto de enlaces que establecen relaciones entre los nodos. Freebase tiene una gran coleccin de vocabularios codificados mediante RDF(S), con los cuales expresa un amplio rango de dominios y reas de inters.

Pgina 4 de 10

Copyright (c) 2012, Miguel ngel Abin

Figura 1. Freebase: una base de datos social y un buscador

Segn la documentacin oficial de Freebase, lo que diferencia a Freebase de otras bases de datos es que cualquier asunto puede ir acompaado de muchas clases distintas de informacin. El ejemplo que dan es muy claro: "Por ejemplo, Arnold Schwarzenegger podra aparecer como actor en una base de datos de pelculas, como gobernador en una base de datos de poltica y como Mr. Universo en una base de datos de culturistas. En Freebase, solamente hay un tema sobre Arnold Schwarzenegger, que contiene informacin sobre las tres facetas de su vida pblica. El tema unificado acta como un centro de informacin, por lo que es fcil encontrar informacin sobre l y aportarla, independientemente de qu clase de informacin es".

Pgina 5 de 10

Copyright (c) 2012, Miguel ngel Abin

Figura 2. Relaciones en FreeBase En principio, los buscadores semnticos podran evitar las pginas basura, que proliferan en la web como malas hierbas en un campo abandonado. Como tienen en cuenta el contexto de las palabras o frases de los documentos, podran descartar esas pginas enseguida. Por ejemplo, una pgina web que incluya la frase "web semntica" rodeada de frases sobre cmo aumentar la potencia sexual, juguetes erticos y sexo fcil en algn pas lejano de costumbres relajadas sera eliminada de cualquier bsqueda sobre la web semntica o tendra una relevancia muy baja; pues el contexto de estas ltimas frases (sexo) no tiene ninguna relacin con la web semntica. Que un buscador permita introducir preguntas en lenguaje natural ("Qu tiempo hace ahora en Viena?") y las responda correctamente no significa necesariamente que sea un buscador semntico: puede que solamente traduzca las preguntas en lenguaje natural a consultas sobre una base de datos. Por el momento, casi todos los buscadores semnticos permiten solamente bsquedas en ingls, aunque se estn ampliando para que admitan otros lenguajes. Aparte del predominio del ingls, la causa de eso se debe tambin a las dificultades inherentes a reflejar el conocimiento de los lenguajes naturales en estructuras de datos que permitan bsquedas rpidas y escalables (matrices, listas, pilas, colas, rboles, grafos, etc.). Por ejemplo, el buscador Hakia utiliza un vocabulario en forma de ontologa que incluye unos 100.000 sentidos de palabras inglesas, y ese nmero continuar aumentando
Pgina 6 de 10

Copyright (c) 2012, Miguel ngel Abin

segn se perfeccione la aplicacin. Confeccionar cualquier vocabulario de ese tamao es una empresa lenta, tediosa y muy cara, y que debe ser realizada por un equipo bien coordinado de especialistas en lingstica. Se equivocar quien piense que, teniendo una ontologa de sentidos de palabras en ingls, resulta sencilla su conversin a una ontologa en otro idioma: la conversin de ontologas lingsticas de un idioma a otro es un proceso muy complejo y que requiere la supervisin constante de un equipo de traductores. Por poner un ejemplo, si queremos pasar de una ontologa lingstica en espaol a una en alemn, debemos considerar todas las posibles traducciones al alemn de cada palabra espaola; en caso contrario, los resultados de las bsquedas en alemn estarn ms limitados que los de las bsquedas en espaol. Una palabra espaola sencilla y sin ambigedades como "automvil" puede traducirse en alemn como "Auto", "Wagen", "Kraftwagen", "Kraftfahrzeug", "Automobil", "Motorfahrzeug" o "KFZ" (seguro que hay ms traducciones, pero hasta ah llega mi alemn bsico). En una bsqueda interlingustica espaol-alemn de tipo semntico, todas estas palabras deberan tenerse en cuenta para encontrar todos los documentos relevantes cuando alguien escriba "automvil" en el buscador. (Las bsquedas interlingusticas son aquellas en que se traduce una bsqueda en un lenguaje a otro lenguaje, y los resultados se traducen de nuevo al primer lenguaje. Google est trabajando para aadir a su buscador esta clase de bsquedas, que permitirn, entre otras muchas cosas, que un hispanohablante puede reservar entradas en museos y cines en Tokio, aunque la informacin de horarios y venta de entradas no est disponible en espaol.) Es probable que los buscadores semnticos cambien la manera en que se busca y se muestra la informacin y que supongan un gran cambio para los usuarios ocasionales. Considrense, por ejemplo, las interfaces que aparecen en las siguientes capturas de pantalla, procedentes de Mnemo (http://www.mnemo.org/) Kart00 (http://www.kartoo.com/) y KoolTorch ( http://www.kooltorch.com/).

Pgina 7 de 10

Copyright (c) 2012, Miguel ngel Abin

Figura 3. Interfaz de Mnemo. Quizs los navegadores semnticos del futuro tengan interfaces similares a sta

Figura 4. Interfaz de Kart00. Podra ser que los navegadores semnticos del futuro tuvieran interfaces similares a sta

Pgina 8 de 10

Copyright (c) 2012, Miguel ngel Abin

Figura 5. Interfaz de KoolTorch. Quizs los navegadores semnticos del futuro tengan interfaces similares a sta

Pgina 9 de 10

Copyright (c) 2012, Miguel ngel Abin

Sobre el autor: Miguel ngel Abin naci en Soria. Obtuvo la suficiencia investigadora en el Dpto. de Fsica Aplicada de la Universidad de Valencia con una tesina sobre electromagnetismo. Realiz varios cursos de doctorado relacionados con electromagnetismo, electrnica, semiconductores y cristales fotnicos. Ha recibido becas del IMPIVA (Instituto de la Mediana y Pequea Industria Valenciana) y de la Universidad Politcnica de Valencia. Curs un Mster estadounidense en UML y Java y otro sobre tecnologas de Internet/Intranet. Se incorpor en 1998 a AIDIMA, donde ha participado como investigador en 24 proyectos de investigacin nacionales e internacionales relacionados con la Web semntica, tecnologas de la informacin, madera en construccin, biosensrica, bioelectrnica, telecomunicaciones, visin artificial; as como en la Red de Excelencia de la Comisin Europea INTEROP 2003-2007. Algunos de los proyectos europeos relacionados con las tecnologas semnticas en los que ha participado son ATHENA y STASIS (http://www.stasisproject.net/). El ao 2006 estuvo cuatro meses como investigador invitado en el departamento Lehrstuhl fr Messsystem und Sensortechnik de la Universidad Politcnica de Munich (TUM), donde colabor en el desarrollo de nuevos mtodos para la deteccin de defectos en superficies acabadas y en el diseo e implementacin de sistemas distribuidos de sensores para el sector del automvil y de energas renovables. En 2007 recibi un premio BANCAJAUPV por un proyecto relacionado con la calidad interna de la madera. En 2009 recibi el premio internacional Schweighofer Innovation Prize -el premio ms prestigioso en el sector forestal y de la madera- por su aportacin al desarrollo de nuevas tecnologas de evaluacin no destructiva de la madera en construccin. Actualmente es Responsable del Departamento de Tecnologa y Biotecnologa de la Madera y del rea de Construccin de Madera. Es coautor de 7 libros y guas tcnicas relacionadas con el uso de la madera en la construccin y la visin artificial. Tambin ha publicado varios artculos cientficos en revistas como IEEE Transactions on Microwave Theory and Techniques y Wood Science and Technology. Ha participado como ponente en congresos y conferencias como European Congress on Computational Methods in Applied Sciences and Engineering, IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, International Conference on Space Structures (IABSE-IASS) y en reuniones COST (European Cooperation in Science and Technology). Ha publicado ms de 22 artculos tcnicos en revistas sectoriales y tcnicas. Es autor o coautor de 6 patentes, algunas de ellas en trmite. Tres de ellas corresponden a dispositivos y mtodos para detectar la biodegradacin de la madera en construccin. Actualmente, entre otros proyectos como WOODRUB o CELLUWOOD, trabaja en SEMCONCEPT, un proyecto de I+D+i para aplicar tecnologas semnticas (ontologas, buscadores semnticos) en el diseo conceptual de productos industriales. Sus intereses actuales son la evolucin de la programacin orientada a objetos, Java, la Web semntica y sus tecnologas, la arquitectura orgnica, el surrealismo y Pars, siempre Pars.

Pgina 10 de 10