Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Búsqueda Eficaz de Información en La Web - (BÚSQUEDA EFICAZ DE INFORMACIÓN EN LA WEB)
Búsqueda Eficaz de Información en La Web - (BÚSQUEDA EFICAZ DE INFORMACIÓN EN LA WEB)
1
<www.robotstxt.org/>
Directorios
Los directorios o índices temáticos son listados de recursos
organizados según una jerarquía de temas. La jerarquía sigue una
estructura de árbol, de forma que vaya desde las categorías más
generales hacia categorías más específicas conforme bajamos en la
estructura. Tradicionalmente, los documentos que forman parte de este
tipo de sistemas son clasificados por humanos, que pueden ser los propios
autores de la página. Recientemente, están comenzando a aparecer
algoritmos automáticos de clasificación que realizan esta tarea de forma
automática. Por ejemplo, Kim (2003) propone un algoritmo que utiliza la
lógica borrosa para obtener a partir de una colección de documentos una
jerarquía. Otro mecanismo de categorización automática es TAPER (a
Taxonomy And Path Enhanced Retrieval system) desarrollado por IBM.
Copyright © 2011. D - Editorial de la Universidad Nacional de La Plata. All rights reserved.
2
<www.opengrid.org.>
Buscadores Web
Los buscadores o motores de búsqueda son sistemas de recuperación
de información que indexan los documentos de la Web sin seguir una
estructura jerárquica como hacen los directorios. Este tipo de sistemas
poseen unos programas especializados en recorrer la Web de forma
automática denominados crawlers (también llamados robots, spiders,
wanderers, walkers o knowbots), que indexan los documentos que no
contiene su base documental. Normalmente este tipo de sistemas
abarca un mayor número de documentos que los directorios debido al
proceso de automatización de la indexación. Además, suelen estar
Copyright © 2011. D - Editorial de la Universidad Nacional de La Plata. All rights reserved.
3
<www.terra.es/>.
4
<www.yahoo.com>.
5
<dmoz.org>.
6
<www.elmundo.es/>.
7
<www.elpais.es/>.
Base documental
Documentos relevantes
recuperados con la consulta
2 precisión recall
F
precisión recall
8
<trec.nist.gov/>.
9
<archive.ics.uci.edu/ml/datasets/Reuters-
21578+Text+Categorization+Collection>.
Operadores de búsqueda
10
<dublincore.org/>.
11
<www.google.com/>.
12
<www.yahoo.com/>.
13
<www.bing.com/>.
Otros operadores
14
<citeseer.ist.psu.edu>.
15
<www.mwsearch.com>.
Indexador
Interfaz
Crawler
(robots)
Usuarios (consultas)
Páginas Web
Extractor
de links
Dirección IP
Resolutor
de DNS Gestor del crawler
URL
URLs
Archivos URLs
Spider Spider
Motor de búsqueda. Recoge las consultas introducidas por los usuarios, las
preprocesa si es necesario y las contrasta con los datos contenidos en el
índice, obteniendo de esta manera la lista de resultados ordenados según la
relevancia de cada documento con respecto a la consulta realizada.
Interfaz de búsqueda. El usuario expresa su consulta mediante
términos y operadores sobre dichos términos. Cuando la consulta es
enviada al motor de búsqueda, ésta se examina y manipula para poder
ser contrastada con los datos contenidos en la base de datos. Tras
obtener los documentos relevantes a la consulta éstos son ordenados
por un algoritmo de ranking acorde con el modelo del índice, de
forma que los documentos más relevantes para la consulta realizada
aparezcan en primer lugar.
Un buen representante de la arquitectura típica de un buscador en la Web
es la arquitectura de Altavista (véase la figura 5). Baeza-Yates (1999)
describe la arquitectura de Altavista como una arquitectura centralizada.
Se le aplica este calificativo debido a que utiliza un proceso de rastreo e
indexación de la Web centralizado. Este rastreo de la Web en busca de
páginas Web lo realiza el componente denominado crawler, el cual se
encarga de enviar peticiones a los servidores Web remotos para obtener
Metabuscadores
Un Metabuscador es un motor de búsqueda, que a diferencia de los
buscadores conocidos, no tiene una base de datos propia donde
indexar documentos. Otra desventaja con respecto a los motores de
distancia.
Agentes inteligentes
Un agente es una entidad software que recoge, filtra y procesa
información contenida en la Web, realiza inferencias sobre dicha
información e interactúa con el entorno sin necesidad de supervisión o
control constante por parte del usuario. Estas tareas son realizadas en
representación del usuario o de otro agente. Hay que distinguir los
agentes inteligentes de los buscadores inteligentes. Estos últimos,
incorpora información semántica en el proceso de búsqueda para
mejorar los resultados de la búsqueda, normalmente la precisión,
utilizando en la búsqueda los recursos previamente indexados. Sin
embargo, un agente inteligente recorre la Web a través de los enlaces
entre recursos (hiperdocumentos, ontologías,...) en busca de aquella
información que le sea solicitada, pudiendo además interactuar con el
entorno para el cumplimiento de tareas encomendadas. Los agentes
pueden realizar funciones de búsqueda, discriminación y selección.
16
<www.vertexera.com/>.
17
<www.spider-food.net/>.