Ballari Motor

Motores de bsqueda en Internet
Un enfoque generacional
Ballari, Tulio L. tulio_ballari@yahoo.com.ar

Resumen
En el presente trabajo se presentan las distintas tecnologas utilizadas por los motores de bsqueda de Internet,
teniendo en cuenta las distintas realidades en que dichas tecnologas fueron diseadas. As en un primer momento se
vern las tcnicas utilizadas principalmente durante la primer poca de la web, como una red educacional; luego se
mostrarn los cambios producidos por la comercializacin de la misma y las consecuencias en las tcnicas utilizadas
en los motores de bsqueda. Por ltimo se presentarn algunos comentarios sobre la evolucin futura de estas
tecnologas.

Introduccin
La World Wide Web surgi en 1989 como una forma de distribuir informacin. El rpido crecimiento de la misma,
sobre todo a partir de 1993, y su propia naturaleza no jerrquica cre la necesidad de herramientas que ordenaran o
catalogaran la informacin disponible para posibilitar su fcil acceso. Se produce la "primera generacin" de
buscadores, la cual se caracteriza por catalogar los documentos en forma manual o en base a la informacin interna
de los mismos, utilizando tcnicas provenientes de Recuperacin de Informacin (Information Retrieval) tradicional.
Debido las limitaciones intrnsecas de este tipo de buscadores, al crecimiento continuo y exponencial de la web (un
orden de magnitud en un ao) y los cambios cualitativos debido a la explosin de los sitios ".com", estas soluciones
empezaron a resquebrajarse hacia 1995, dando lugar al origen de una nueva gama de herramientas, las que
llamaremos "segunda generacin" de herramientas de bsqueda.
Dentro de esta segunda generacin podemos encontrar a los metabuscadores (siendo MetaCrawler el primero de
ellos) y los buscadores verticales, como tambin nuevos sistemas que obtienen informacin de fuentes externas a los
documentos. Otro cambio importante es que ya no se asume la honestidad de los autores de los documentos.
Actualmente nos encontramos en pleno auge de esta segunda generacin, pero teniendo presente que la misma no
est libre de imperfecciones y el mencionado crecimiento exponencial de la web, al final se presentar distintas
"perspectivas" al horizonte en la evolucin de los sistemas de bsqueda.
Debo aclarar que en el uso del trmino "generacin" quiero hacer referencia no tanto a la tecnologa concreta
utilizada, sino a las suposiciones sobre las cuales esta tecnologa est basada. As, las soluciones que son vlidas
bajo determinadas suposiciones pueden volverse invlidas bajo otras; lo que realmente ocurri al pasar de la primera
a la segunda generacin, como veremos ms adelante.

Primera Generacin
Ubicacin Histrica
En la primavera de 1989, en el Laboratorio Europeo de Partculas Fsicas (CERN), Tim Berners Lee propuso un
sistema de hipertexto distribuido sobre la red Internet, cuyo primer prototipo fue puesto en operacin hacia finales
de 1991. Su principal objetivo fue proveer un formato para intrerrelacionar e intercambiar la informacin entre
acadmicos. En 1993 se produce la primera explosin de la web, a raz del desarrollo del primer "navegador"
grfico, Mosaic [1]. Pronto nace la necesidad de poseer herramientas que cataloguen u ordenen la informacin
disponible para posibilitar su fcil acceso, naciendo el primer buscador: World Wide Web Wanderer de Matthew
Gray [2].
Para poder entender el tipo de soluciones empleadas hay que entender la realidad en la que son gestadas. La web en
ese entonces consista bsicamente en dominios ".edu", con documentos de caractersticas mucho ms homogneos
de lo que estamos acostumbrados hoy en da, siendo su principal objetivo publicar e intercambiar informacin
acadmica. La mayora de los documentos posean una autor reconocible (ya sea su autor real o la institucin en la
que era producido) y las descripciones y/o clasificacin que este pudiese incluir en el documento eran consideradas
confiables. Por otro lado, exista una amplia experiencia en bsqueda de informacin en base de datos documentales
del campo de Recuperacin de Informacin (Information Retrieval), la cual asume colecciones de documentos
homogneos y de tamao limitado.
Motores de bsqueda e ndices temticos
En el comienzo se pudo distinguir a los buscadores en dos tipos: los motores de bsqueda o buscadores propiamente
dichos y los ndices temticos o directorios. Los primeros utilizan programas automticos, generalmente llamados
crawlers o spiders, que rastrean la web recolectando pginas o parte de ellas, y las almacenaban en bases de datos
documentales, proveyendo una herramienta para hacer bsquedas sobre estas base de datos. Los segundos
mantienen clasificados los distintos documentos en una estructura temtica arbrea, estando encargados de la
clasificacin personas, ya sean los autores al inscribir las pginas en el servicio (el caso ms usual) o un grupo de
personas internas al sistema. La principal ventaja de los motores de bsqueda es que al ser automatizados poseen
una mayor cantidad de documentos, en cambio los ndices temticos permiten "navegar" sobre los temas hasta
encontrar el documento concreto que se necesitaba. Ejemplos obtenidos de [3] de motores de bsqueda populares en
1995 son World Wide Web Worm, WebCrawler, Lycos y World Wide Web Home Pages; mientras que entre los
ndices encontramos a Galaxy y Yahoo. Eventualmente, los motores de bsqueda incorporaron servicios de los
ndices temticos y viceversa, con lo cual en la actualidad prcticamente no existe esta divisin; siendo un ejemplo
de esta unificacin Yahoo, que tradicionalmente prestaba un servicio de ndice temtico, y actualmente incorpora el
motor de bsqueda Google para las bsquedas globales.
Tanto los buscadores como los ndices utilizan el mismo supuesto: toda la informacin necesaria para la
catalogacin y clasificacin de un documento se obtiene directa o indirectamente de su autor, el cual es confiable.
Los sistemas automticos suelen utilizar informacin disponible en las denominadas etiquetas Meta del lenguaje
HTML, las cuales son un medio que permite a sus autores agregar a una pgina informacin describiendo el
documento (palabras clave, idioma, descripcin ttulo, etc. ...) mientras que los sistemas de ndice temtico suelen
solicitar dicha informacin a travs de los formularios de alta de documentos.
Funcionamiento Interno
Un motor de bsqueda esta compuesto por cuatro componentes: el robot o spider, el motor de indexacin, los
ndices y el motor de bsqueda [4].
Figura 1: Composicin de un motor de bsqueda
El robot, tambin llamado spider o web crawler, es un programa que se encarga de recorrer la web obteniendo la
informacin relevante para el buscador de cada una de las pginas que visita. Como primer paso, todo robot parte de
una lista de URLs conocida. La misma puede ser producida por el conjunto de usuarios que ha dado de alta su sitio
en el buscador. Luego se elige una URL de la lista, y se obtiene el correspondiente documento de la web. La
informacin a recuperar varia de un sistema a otro, algunos almacenan todo el documento, mientras que otros se
limitan al ttulo, y las primeras n lneas o palabras. Los enlaces presentes son agregados a la lista de URL
pendientes, tras lo cual se contina con la siguiente URL de la lista. La forma en que estos enlaces son agregados
determina en gran parte el comportamiento de la bsqueda, destacndose las polticas de "primero en profundidad"
y las de "primero en anchura".
Una vez que se posee la informacin de la pgina, esta debe ser analizada y condensada, para permitir tanto su
organizacin como su posterior presentacin a los usuarios del sistema. La parte del sistema encargada de realizar
esta tarea es el motor de indexacin. La indexacin puede ser por palabras claves, el caso ms comn, o por
conceptos. En el caso de la indexacin por palabras claves, algunos buscadores, como Altavista, indexan todo el
texto del documento, a excepcin de las llamadas palabras vacas (los artculos, preposiciones, etc.), otros se limitan
a incluir las palabras que ms se repiten, junto a las que aparecen en determinados tags (cmo title o h1). Muchos
dan mayor importancia a los trminos que se encuentran en le ttulo, el URL, las cabeceras, los enlaces y los
primeros prrafos. Tambin se suelen tener en cuenta las descripciones o palabras claves incluidas en las etiquetas
meta. En la indexacin por conceptos, (utilizada por Exite), tpicamente se busca determinar que conceptos aparecen
juntos o relacionados, mediante tcnicas estadsticas, con el objetivo de recuperar documentos que tratan de un tema
aunque los trminos del documento no coincidan exactamente con los de la pregunta.
Para permitir las bsquedas en la informacin recolectada son mantenidos estructuras de datos llamados "ndices o
ficheros inversos", mediante las cuales se asocia una palabra a una lista de documentos relacionados con ella. En
estos ndices cada entrada corresponde a cada una de las palabras distintas que figuran en la base de datos seguida de
una lista de identificadores de cada uno de los documentos que son descriptos por dicha palabra y la informacin
estadstica respecto a la frecuencia o importancia de esta palabra en ese documento.
El motor de bsqueda es el encargado de procesar las consultas recibidas por los usuarios, para lo cual recorre los
ndices inversos buscando los trminos relacionados con la consulta, y obteniendo los identificadores de
documentos. Luego ordena los documentos segn el criterio de ponderacin del sistema. Por ltimo presenta al
usuario las salidas. La mayora de los sistemas presentan caractersticas para permitir al usuario expresar su consulta
en una forma ms poderosa, a travs de operadores booleanos, de proximidad, truncamiento, as como capacidades
para delimitar los resultados obtenidos a partir de datos como la fecha de creacin, zonas geogrficas, idioma, etc. El
criterio utilizado para ordenar los resultados (ponderacin) vara segn el motor de bsqueda, pero en general se
basan en la posicin donde aparecen los trminos, dando mayor importancia a los ttulos, las palabras resaltadas y
las primeras lneas; la frecuencia de los trminos, si un documento contiene todas las palabras o frases solicitadas y
la cercana de los distintos trminos dentro de un documento. Tambin se suelen utilizar las etiquetas meta de
descripcin (description) y palabras clave (keywords); aunque con el paso del tiempo muchos buscadores dejaron de
usarla o ponerles restricciones, como discutir ms adelante.
Comparativa
A continuacin presentar una comparativa entre distintos buscadores existentes en la actualidad, pero que
ejemplifican los temas visto hasta ahora.
Altavista (http://www.altavista.com/): Es un motor de bsqueda mediante indexado de claves. Cuando surgi en
1995 posea el ndice ms grande existente, pero a junio del 2000 se ubicaba en un tercer lugar, con 350 millones de
pginas web indexadas [4]. Actualmente tambin incluye un servicio de directorio. Presenta la interfaz para expresar
condiciones de bsqueda ms poderosa, aunque un poco complicada. Incluye soporte para los operadores and, not,
or, near, truncamiento, uso de parntesis y bsqueda textuales. En la bsqueda simple el operador por defecto es el
or. Tambin permite filtrar los resultados por idioma, tipo de recurso o fecha. El formato de salida por defecto
incluye ttulo, descripcin, URL y palabras claves, permitiendo opcionalmente incluir el idioma, como parte de la
personalizacin de la interfaz. El ranking se basa en la frecuencia en que los trminos ingresados estn presentes en
los documentos y en la cercana de los distintos trminos entre s. Posee versiones en distintos idiomas, entre ellos el
castellano.
Yahoo (http://www.yahoo.com/): Es uno de los servicios de directorio ms antiguos y grandes de la web. Est
organizado en forma de ndice jerrquico de temas, poseyendo una herramienta de bsqueda dentro del directorio
(para bsqueda en toda la web, Yahoo enva la pregunta al motor de bsqueda Google). Dicha herramienta est
basada en claves, soporta los operadores and, not, or, de truncamiento y manejo de expresiones literales, siendo or el
operador por defecto. Los resultados son ordenados por categora, mostrando el ttulo del sitio, la URL y una
pequea descripcin. Los sitios recientemente agregados son marcados mediante una etiqueta. Posee sitios
regionales en distintos pases, incluyendo Espaa y Argentina.
Excite (http://www.excite.com/): Este buscador siempre ha anunciado que realiza bsquedas basadas en conceptos,
utilizando mtodos estadsticos, as como informacin sobre la popularidad de los sitios. Su interfaz de bsqueda
permite utilizar los operadores and, or, not, de truncamiento, manejo de literales, adems de sugerir trminos para
aumentar la efectividad de la bsqueda. Tambin permite filtrar los resultados por idioma, por tipo de recurso y por
categoras. Los resultados muestran el ttulo, la URL y una descripcin generada por el sistema de cada documento.
Lycos (http://www.lycos.com/): Es un motor de bsqueda basado en palabras claves que actualmente utiliza el
"Engine" de Fast. Posee un servicio de directorios bastante importante. Su interfaz de bsqueda posibilita el uso de
los operadores and y or, as como realizar bsquedas por idioma, tipo de recurso o categora. Tambin es posible
restringir la bsqueda al ttulo, la URL o todo el documento. Los resultados solo muestran el ttulo y una descripcin
de los sitios encontrados. Posee versiones en distintos idiomas, incluyendo el castellano.
Fast (http://www.alltheweb.com/): Es uno de los motores de bsqueda ms recientes, con un ndice con 340
millones de pginas web (apenas inferior a Altavista) a junio del 2000 [4]. Tiene la particularidad de que actualiza
con mayor frecuencia los sitios que son ms populares, dato que calcula a travs de la revisin de los enlaces hacia
un sitio. Esta es una caracterstica que pertenece ms a lo que estamos denominando segunda generacin, como
expondr ms adelante. Su interfaz de bsqueda posibilita el uso de los operadores and y or, as como realizar
bsquedas por idioma o tipo de recurso. Los resultados solo muestran el ttulo y una descripcin de los sitios
encontrados.

Segunda Generacin
Cambios en la red
En sus comienzos, Internet era una red subsidiaria por el gobierno, el cual restringa su uso a comunicaciones,
educacin y gobierno. A partir de 1991 surgi CIX (Comercial Information Interchange), una parte de Internet
mantenida por un conjunto de empresas proveedoras de servicios de comunicaciones, que permitan su uso
comercial. En ese mismo ao, el gobierno de EEUU anunci que dejara de subsidiar a Internet a partir de1995,
comenzando el proceso de privatizacin. En unos pocos aos los dominios ".com", casi inexistentes hasta entonces,
pasaron a cubrir ms del 60% de los dominios registrados [1].
La ".comercializacin" de Internet provoc que el contenido de la web se diversificara en forma explosiva, pero
sobre todo cambi la intencin de los sitios web. A partir de ahora el objetivo de muchos sitios no es proveer
informacin, sino atraer clientes y obtener una buena posicin como resultado de una bsqueda en un buscador
conocido es una buena forma de lograrlo. Por otro lado, la competencia que surgi entre los distintos motores de
bsquedas sobre quin tiene el ndice ms grande, provoc que para cualquier bsqueda ms o menos general
devuelvan entre cientos y miles de pginas, la mayora de ellas irrelevantes y de las cuales cualquier usuario normal
no revisa ms all de las primeras decenas. Muchos autores de pginas web comerciales empezaron a usar distintas
tcnicas para la manipulacin de los motores de bsqueda, incluyendo repetir un nmero grande de veces las
palabras claves con el mismo color del fondo, para que los clientes no los vean pero los robots s, y aumenten el
rangking de la pgina; incluir en las etiquetas meta palabras claves muy buscadas, (como sex, free, o nombres de
empresas como Microsoft), aunque la pgina no tenga nada que ver con estos temas, entre otras [5]. Teniendo en
cuenta estas tcnicas, muchos buscadores dejaron de utilizar las etiquetas meta, as como incluir polticas de
penalizacin de pginas que repiten palabras claves por encima de cierto nmero. Otra de las consecuencias fue que
el tamao de la web creci tanto, y se diversific de tal forma que es imposible que un solo motor de bsqueda
basados en robots pueda indexar toda la red.
Metabuscadores y buscadores verticales
Una de las primeras soluciones surgidas fueron los metabuscadores, siendo MetaCrawler el primero de ellos,
desarrollado en 1995 por Eric Selburg [1].
La idea de un metabuscador es que un solo buscador no puede almacenar ms que una parte muy restringida de la
web, y que distintos buscadores poseen ndices distintos, por lo que si realizamos una consulta en varios de dichos
buscadores y unimos los resultados es ms probable obtener lo que se busca. Para realizar esto se debe de convertir
una peticin de bsqueda a los distintos formatos de cada uno de los buscadores usados, y despus integrar las
respuestas de los distintos sistemas en una sola, preferiblemente eliminando las repeticiones. Otro problema que
surgi fue que los metabuscadores utilizaban a distintos buscadores, pero no presentaban las publicidades o servicios
que estos ofrecan a sus clientes, sino solo los resultados de la bsqueda; lo que hizo que no sean bien vistos por
estos [7].
Actualmente tambin han surgido los llamados buscadores especializados o verticales, que solo contienen
documentos sobre un determinado tema. Ejemplos de estos buscadores son e-sports para los deportes y Moreover
para las noticias. Tambin se incluyen en esta clasificacin los buscadores de recursos y los multimedia, que se
especializan en imgenes, documentos pdf, sonidos, flash, etc. [6].
Nuevas formas de obtener informacin
Debido a las nuevas caractersticas de la web nuevas tcnicas de ranking fueron desarrolladas. Por un lado, para
prevenir la manipulacin del buscador por parte del autor de un sitio, quien siempre busca que su pgina se
encuentre en buena posicin. Por el otro, para aumentar la precisin de las respuestas, dado que si se devuelven cien
o cien mil pginas los usuarios de los buscadores no suelen revisar ms all de las diez primeras.
Los nuevos sistemas recaban informacin externa a los documentos, tanto de la misma morfologa de la red como de
sugerencias o ranking hechos por personas que las utilizan. Una forma de utilizar la estructura de hipertexto de la
web es contar la cantidad de sitios que poseen enlaces a una pgina dada, como una medida de la popularidad de
esta. Ya vimos que Lycos y Fast utilizan esta tcnica para optimizar la frecuencia de actualizacin de sus ndices.
Google (http://www.google.com) utiliza una tcnica similar para el clculo de la importancia de una pgina, que
denominan PageRank [8], el cual para el clculo de la popularidad de una pgina se tiene en cuenta la popularidad
de las pginas que tienen un enlace a ella y la posicin de dicho enlace. Direct Hit (http://www.directhit.com)
mantiene registros de las pginas elegidas dentro de los resultados de una bsqueda y cuanto tiempo pierden los
usuarios en leerlas, y los usa para calcular la popularidad de un documento [10].
Otras soluciones surgidas utilizan un sistema de ranking basado en personas. Por ejemplo HotLinks Guide
(http://www.hotlinks.com) permite a sus clientes mantener y organizar sus bookmarks, con la posibilidad opcional
de disponerlos para libre acceso de todos los clientes mediante una interfaz de bsqueda [9]. Con ms de tres
millones de enlaces, es una interesante fuente de recursos, que como son los enlaces preferidos de alguien se asumen
de buena calidad. Backflip tambin incluye un servicio semejante, pero con mayor poder en las capacidades de
bsqueda, al recuperar e indexar las pginas a las que apuntan los bookmarks [10].
Tambin dentro de las soluciones basadas en clasificaciones manuales, tenemos el Open Directory Project (ODP)
(http://www.dmoz.org), un proyecto que refundi los directorios de ms de cien ndices temticos incluyendo
Altavista, Lycos, MetaCrawler, entre otros. [10]. Distintos sistemas, como Oingo
(http://www.oingo.com), utilizan ODP como fuente para sus bsquedas.

Perspectivas
La red ha seguido evolucionando y expandindose; y nuevos cambios se estn produciendo en ella. Por un lado, se
observa que cada vez existen menos lugares donde esta no llegue, y en los pases ms tecnificados son cada vez ms
los usuarios comunes que se encuentran conectados a la red todo el tiempo. Por el otro, la web est perdiendo su
tradicional rol pasivo de repositorio de documentos, para parecerse cada vez ms a un conjunto de servicios. En su
conjunto, se puede ver que el concepto de usuario de la red est dejando lugar al de "participante".
En el caso concreto de los buscadores, muchos incluyen servicios de traduccin de pginas (por ejemplo Altavista),
otros se han convertidos en portales y/o correos web (el caso de Yahoo!). En el lado del cliente estn surgiendo
diversas aplicaciones, pudiendo ser adosables al navegador (pluggins) o correr en forma independiente, que
permiten realizar bsquedas "in situ" sobre una palabra, obtener pginas relacionadas, realizar traducciones, etc.;
mediante el uso en lnea de los recursos de un buscador. Discovery de Altavista, GuruNet y Babylon son ejemplos
de este tipo de aplicaciones [10].
La arquitectura empleada hasta ahora en la mayora de los buscadores es principalmente centralizada, que no se
escala bien con el crecimiento continuo y exponencial de la web. Los metabuscadores son una excepcin, al ejecutar
la misma consulta en forma paralela en distintos sistemas. Es inevitable que surja en un mediano plazo una "nueva
generacin" de sistemas de bsqueda distribuidos, que se puedan adaptar ms fcilmente al volumen de datos que
deben manejar.

Bibliografa
1. Stallings W., Van Slyke R. Business Data Communication (3 edicin).
2. Reich, Sonnen. A history of Search Engines. Disponible en
www.wiley.com/legacy/compbooks/sonnenreich/history.html.
3. Winship, Ian R. World Wide Web searching tools - an evaluation. 06/1995. Disponible en
http://bubl.ac.uk/journals/lis/oz/vine/n09995/winship.htm.
4. Fernndez Leal, Fco. J avier. Diseo e implementacin de una Arquitectura multiplataforma para el estudio
de Motores de bsqueda en Internet. Disponible en http://acoruna.tuportal.com.
5. Darnell Rick, HTML Unleashed, Professional Reference Edition. ISBN 1-57521-380-X.
6. Olatz, Arrieta. Disponible en http://www.telepolis.com/cgi-
bin/t30/!URNREDIR?tema=weekart&dir=week73.
7. Sander-Beuermann Wolfgang y Schomburg Mario. Internet Information Retrieval - The Further
Development of Meta-Searchengine Technology. Disponible en www.uni-hannover.de/inet98/paper.html.
8. Brin, S. y Page, L.. The Anatomy of a Large-Scale Hypertextual Web Search Engine. WWW7 / Computer
Networks 30(1-7): 107-117 (1998). Disponible en http://dbpubs.stanford.edu:8090/pub/1998-8.
9. Greg R. Notess. Up and Coming Search Technologies. Disponible en
http://www.onlineinc.com/onlinemag/OL2000/net5.html.
10. Sherman, Chris. The Future Revisited: What's New with Web Search. Disponible en
http://www.onlineinc.com/onlinemag/OL2000/sherman5.html.

Ballari Motor

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ballari Motor

Cargado por

Copyright:

Formatos disponibles

Motores de bsqueda en Internet

También podría gustarte