Está en la página 1de 12

MOTORES DE BSQUEDA EN INTERNET

Trabajo de Investigacin
MOTORES DE BSQUEDA EN INTERNET
Natalia S. Stark
nstark@ing.unlpam.edu.ar
Teleinformtica y Redes
Licenciatura en Sistemas de Informacin
Universidad Nacional de Lujn

Resumen
En este trabajo se describe la arquitectura de un motor de bsqueda convencional y su modo de operacin. Se presenta
el relevamiento de los motores de bsqueda: Google, Yahoo, Altavista, Infoseek y Terra, en base a sus caractersticas
generales, modo de operacin, capacidad para expresar condiciones de bsqueda, formato de salida y capacidad de
personalizacin. As mismo se explican en detalle mtodos de indexacin.
Introduccin
Uno de los problemas actuales de las bsquedas en Internet es el enorme crecimiento que se evidencia en la Web,
adems de la cantidad de altas, bajas y modificaciones de recursos que se realizan. Un motor de bsqueda tiene por
finalidad la seleccin de pginas web que respondan a las solicitudes de informacin que emiten los usuarios, es decir,
buscar qu es lo que hay y para qu sirve, de manera de demostrar que las pginas web que se proporcionan son
relevantes para el usuario y no para los intereses de los distintos sitios web o para los propietarios de los motores de
bsqueda.
Los motores de bsqueda visitan las pginas Web y realizan la indexacin. La manera en que se efecta dicha
indexacin es propia de cada motor. Uno de los elementos claves de un motor de bsqueda es el crawler (araa) que se
ocupa de recuperar pginas web, generalmente se lo describe como un softbot (robot de software) usado por los
motores de bsqueda automatizados que crean ndices de URLs, palabras claves, textos, etc. En el mercado existen
motores muy populares que no utilizar crawlers y se les denomina directorios, trabajan usando descripciones de las
pginas que les proporcionan sus propietarios [1].
En un principio la cantidad de pginas que un motor era capaz de escanear, el tamao del motor, constitua una medida
de calidad o excelencia. Actualmente este criterio se est desplazando hacia otros como la indexacin y el ranking.
Estos dos factores estn relacionados con la importancia de las pginas para el usuario que realiza una bsqueda, lo
que lleva al desarrollo de modelos para crear criterios aplicables de forma coherente y sin ambigedades

Motores de Bsqueda y Arquitectura de un Motor de Bsqueda


Los motores de bsqueda (search engines) son programas encargados de realizar las bsquedas dentro de las bases
de datos de documentos web. Actualmente se clasifican en tres categoras principales: motores de bsqueda temtica,
tambin conocidos como directorios o catlogos; motores de bsqueda por palabras claves o "crawlers" y sistemas
basados en el "content-routing [1, 2].
Los primeros se caracterizan por ser un ndice de documentos recopilados manualmente, los mismos son sugeridos por
sus propietarios, quienes adems los clasifican en reas especficas y brindan una descripcin de la informacin que
contiene el sitio, formando as una jerarqua de URLs. Para realizar bsquedas se debe recorrer un rbol jerrquico
hasta dar con la informacin requerida. Debido a que la indexacin se realiza en forma manual, la informacin que se
encuentra no siempre est actualizada.
Los crawlers estn basados en el concepto de una nica base de datos centralizada en donde se almacena toda la
informacin. Algunos sistemas contienen varias bases de datos en una misma mquina, sin ningn tipo de conexin y
cada una es tratada autnomamente . Se componen de un ndice de URLs recopiladas en forma automtica por un
robot o mediante el envo de las mismas por parte de los administradores web. Cada sistema de esta categora tiene sus
propias caractersticas, herramienta de indexacin y opciones de consulta, pero casi todos ofrecen la misma
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (1 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

funcionalidad.
Finalmente, el tercer grupo de motor de bsqueda es el llamado sistemas basados en "content-routing". Estos sistemas se caracterizan
por poseer una estructura distribuida y mecanismos de "content-routing" para guiar las peticiones de los usuarios a travs de los
servidores de informacin.
En general, todos los motores de bsqueda reciben la consulta del usuario, que consiste en el ingreso de una o varias
palabras claves, realizan la bsqueda en la base de datos y extraen una lista ordenada de documentos que responden a
la consulta en forma total o parcial. El orden de las respuestas depende de una puntuacin, que asocia el programa a
cada documento cuando realiza la bsqueda y vara en cada caso, como por ejemplo cuanto antes aparecen las
palabras o por proximidad entre las mismas. Estn compuestos bsicamente por: un robot, un ndice y un mecanismo de
bsqueda. [3]
Un robot, es el programa que rastrea la web, tomando informacin sobre las pginas que encuentra. Cada robot
trabaja en forma particular, generalmente parten de una lista determinada y a partir de ah, hacen un rastreo
recursivo de los documentos que se referencia en un documento.

Un ndice es la base de datos que contiene una copia completa o parcial de los documentos reunidos por el robot.

Un Mecanismo de bsqueda, programa que permite al usuario encontrar pginas de su inters que estn en el
ndice a travs de una pgina web y que devuelve resultados correspondientes a la bsqueda ordenados segn
los criterios establecidos previamente por el usuario.

Operacionalmente, para recuperar determinada informacin, el usuario realiza una consulta (query), la cual llega al
motor de bsqueda y donde es tomada por un componente (Query Expansion) que se encarga de transformar la
consulta del usuario en un conjunto de incgnitas posibles en base a las palabras claves ingresadas por el usuario. Esto
se realiza de acuerdo con el conjunto de trminos indexados que posee el motor de bsqueda (topic terms). Una vez
que se tienen las posibles incgnitas, las mismas son pasadas a un "Clustering" en donde se construye la informacin
que se le mostrar al usuario, para lo cual se envan las palabras claves posibles al generador de frases (phase
generation) y al mecanismo de rankeo de bsqueda (search engine ranking). El generador de frases selecciona la serie
de ttulos posibles para cada palabra buscada y el mecanismo de rankeo, al tener el rankeo de todas las bsquedas
realizadas, completa los lugares de las palabras claves despus del encabezado que creo para cada una de las frases
generadas.
La indexacin de la informacin puede realizarse de dos maneras: los robots toman las listas de URLs provistas por

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (2 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

servicios que promueven sitios o pginas web o que son registradas por los usuarios al completar un formularios en
forma manual en el que se sugiere una URL para su indexacin proporcionando categora, palabras claves e
informacin adicional del sitio; o a travs de los robots que son activados por los motores de bsqueda para que visiten
las Web en busca de URLs o tpicos de inters. Se activa el "Neighborhood-based Topic Identification" para buscar
URLs que pueden o no estar catalogadas y que se envan al "search engine selection index" para selecciona trminos y
tpicos de inters dentro de las mismas. En el caso de que el robot ya tuviese catalogada o registrada una URL
encontrada verificar si fue modificada y de ser as, actualizar la informacin que contiene sobre ella.
Cuando el "search engine selection index" finaliza la seleccin, enva los resultados obtenidos al mecanismo de rankeo
de bsqueda (search engine ranking).
A continuacin se presenta el relevamiento de cinco motores de bsqueda seleccionados aleatoriamente.
GOOGLE: surgi como un proyecto en la Universidad de Standford [4,5,6,7]. A pesar que no es uno de los primeros
motores de bsqueda que aparecieron en la web, se ha convertido rpidamente en uno de los ms usados.
Modo de operacin: Google cuenta con la tecnologa de PageRank, con lo que aprovecha los vnculos directos entre
las pginas web de distintos sitios, evitando la jerarqua de pginas. PageRank usa la gran estructura de vnculos como
una herramienta para organizar la informacin. Google considera que un vnculo de una pgina a otra es como un "voto"
que la primer pgina hace a la segunda. Una pgina es posicionada ms arriba, al ser ordenada, que otra segn tenga
un PageRank mayor. La pgina que emite el voto es evaluada y si es considerada importante tambin dar mayor
ponderacin a la pgina votada y en consecuencia ms importancia. PageRank es un indicador de Google y no depende
de una consulta especfica, se trata de la caracterstica de una pgina, basada en datos de la web que Google analiza
utilizando algoritmos complejos que evalan la estructura de vnculo. Adems utiliza tcnicas de coincidencia de textos
para encontrar pginas de resultado a una determinada consulta.
Recibe sitios web enviados por los usuarios pero no garantiza su aparicin en su ndice. Se envan a travs de un
formulario donde se les solicita la URL del sitio (no es necesario enviar cada pgina individualmente) y un comentario o
palabras claves que es optativo, a modo de informacin y no afecta la manera en que la pgina es indexada.
Capacidad para expresar condiciones de bsqueda: para bsquedas bsicas slo requiere que se tipeen palabras
descriptivas en el campo de bsqueda y buscar la coincidencia exacta permitiendo ajustar el nmero de resultados que
se desea ver en cada pgina (10, 30 o 100, por defecto es 10). El operador lgico predeterminado es "AND" por lo que
devuelve pginas que contengan la totalidad de los trminos. Permite limitar una bsqueda o buscar en los resultados
de la bsqueda actual. Para evitar una palabra en la bsqueda debe usarse el signo (-). No admite el operador OR, ni
las bsquedas de raz, ni las bsquedas con comodines. Google considera todas las letras como minsculas.
Acepta varios signos (guiones, barras, signos igual, puntos y apstrofes) como conectores de frases los que funcionan
como comillas, devolver las pginas donde las palabras estn juntas.
Permite realizar bsquedas por categoras y subcategoras.
Para la bsqueda avanzada presenta un formulario que permite seleccionar entre buscar resultados con todas las
palabras ingresadas y la cantidad de resultados que se desea (10,20,30,50,100) , por frases exactas, con alguna
palabra o sin las palabras ingresadas. Permite bsquedas por pginas actualizadas en base a determinada fecha y por
algn idioma en particular. Se puede especificar entre buscar pginas donde los trminos ingresados se encuentren en
el ttulo, en la URL o en cualquier parte de la pgina. Tambin se puede condicionar si las bsquedas se harn slo de
un determinado dominio o sitio web o si no se desea que pertenezcan a un dominio o sitio.
Permite la bsqueda de imgenes y bsqueda especfica a una pgina, esto es encontrar pginas similares o pginas
con enlaces a una dada.
Formatos de salida: los resultados devueltos se corresponden con todos los trminos ingresados para la consulta y
analiza la proximidad de esos trminos dentro de una pgina, para evitar devolver pginas que no tengan nada que ver
con lo que se desea encontrar.
La primer lnea del resultado es el ttulo de la pgina web que cumple con la consulta. Si la pgina an no fue indexada
por Google o no se conoce su ttulo, en vez del ttulo se observa la URL de la pgina. En lugar de mostrar resmenes
del contenido de las pginas web encontradas, muestra el prrafo que coincide con la consulta, con las palabras de
bsqueda remarcadas.
En algunos resultados puede aparecer la marca RN (RealName), indica que se trata de una palabra clave en Internet
como el nombre un producto, marca, empresa o servicio y que vincular al sitio web del propietario. Cuando la palabra

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (3 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

clave de Internet coincide con el primer resultado de la bsqueda, la palabra clave de Internet y la marca RN
aparecern al final del ttulo. Cuando la palabra clave de Internet es diferente del primer resultado de la bsqueda,
aparecer sobre los resultados de Google.
Para todos los resultados muestra una lnea de estadstica donde se observa el nmero de resultados devueltos y el
tiempo que tard la bsqueda.
Cuando devuelve varios resultados del mismo sitio web, el ms importante va al inicio y los dems aparecen con
sangra.
Despus de la direccin URL aparece un vnculo en cach y el tamao de la parte del texto de la pagina web.
Muestra la opcin GoogleScout para usarla en caso de que se desee encontrar pginas relacionadas.
Si los resultados estn en ingls, se encuentra un vnculo que lo lleva directamente a una versin de la pgina en
espaol
Cuenta con un botn "me siento afortunado" que lleva directamente al sitio Web del primer resultado de bsqueda.
Google almacena pginas Web en la memoria cach de la PC del usuario con el fin de recuperarlas para los usuarios
como una copia de seguridad, en caso de que el servidor de la pgina falle temporalmente, se observan vnculos al final
de los enlaces resultantes.
Opciones anexas: brinda la opcin de contactos para realizar preguntas de tipo comercial, tcnicas o de cualquier tipo,
adems de su sistema de ayuda.
No presenta carteles de publicidad en su pgina principal, s un enlace para servicio de publicidad.
Capacidad de personalizacin:
Permite que los usuarios puedan configurarlo como motor de bsqueda predeterminado o como pgina de inicio
del navegador.

Brinda logotipos y un pequeo cdigo para quienes quieran incorporarlos en sus propias pginas web.
Presenta un sector de preferencias donde los usuarios pueden seleccionar el idioma de la interfaz y si desean
traducir los resultados de la bsqueda a dicho idioma. Tambin pueden seleccionar el o los idiomas de
bsquedas, especificar la cantidad de resultados a mostrar por pginas y si se desean ver los resultados de la
bsqueda en una nueva ventana del navegador.

ALTAVISTA: fue construido por la empresa Digital, inici sus servicios en 1995. Es un buscador de contenido
internacional con versiones en distintos idiomas. Posee sitios de bsqueda en Brasil, Canad, Estados Unidos, Austria,
Blgica, Suiza, Alemania, Dinamarca, Espaa, Francia, Irlanda, Italia, Pases Bajos, Noruega, Portugal, Suecia, Reino
Unido, Australia, India , Corea del Sur. [3,5,8]
Modo de operacin: las pginas son recogidas por un robot que las indexa tomando todas las palabras de un
documento, excepto los comentarios. Esto incluye todo el texto, el texto del cdigo ALT de las imgenes, vnculos,
enlaces, ttulos, cdigos META, nombres de objeto applet y ActiveX, la direccin URL de la pgina, el nombre del host y
el nombre de dominio. Usa las primeras palabras del documento como un breve resumen.
Para dar de alta una pgina el usuario debe completar un formulario con solamente la URL de la pgina. El sistema es
capaz de reconocer las etiquetas META de ttulo, descripcin y palabras-clave y extraer la informacin que contienen. El
usuario puede usar cdigos META para especificar palabras clave adicionales y una breve descripcin, como nica
manera de controlar la forma como se incluye la pgina en el ndice.
Cuando se recibe una URL, sta se agrega al ndice junto con todas las de los dems sitios con los que tenga enlace.
Capacidad para expresar condiciones de bsqueda: presenta dos formularios, uno para bsquedas simples y otro
para avanzadas.
En los formularios para bsquedas simples, permite especificar el idioma de bsqueda. Trata a las frases ingresadas en
el campo de bsqueda como si fuesen un conjunto de palabras separadas por espacios. Para que tome toda una frase
debe "encerrrsela" entre comillas, o reemplazar los espacios por ";". Es posible usar las opciones de interseccin "+",

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (4 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

de exclusin (-) y de unin (OR) adems de parntesis para acotar bsquedas. Para buscar palabras que derivan de
una misma raz se usa el "*".
En las bsquedas avanzadas adems del idioma se puede limitar resultados a fechas especficas (por intervalos de
tiempo o intervalos de fechas), limitar la cantidad de resultados por pginas (10,20,30,40,50) o limitar la bsqueda a una
URL determinada. En bsquedas avanzadas no se permiten comillas simples, operadores , ni palabras sueltas.
Si las palabras claves se escriben en minscula las buscar tanto en minscula como en mayscula, en cambio si se
escribe alguna letra mayscula buscar la coincidencia exacta.
Formatos de salida: cada documento obtiene una categora o puntuacin para determinar el orden de aparicin en la
pgina de resultados. Esa puntuacin est basada en la cantidad de palabras, coincidentes con la consulta, que
contiene el documento, segn el lugar que ocupan las palabras en el documento y segn la proximidad que existe entre
ellas. En los formularios simples las pginas seleccionadas son presentadas por un orden de relevancia establecido por
el propio sistema. En el formulario de bsqueda avanzada el usuario decide el orden de presentacin haciendo uso de la
opcin ranqueo (Ranking), indicando el trmino que deben contener las pginas presentadas en primer lugar.
De cada pgina de resultado se visualiza: el ttulo, la URL y las primeras palabras en el caso de que no contenga
etiqueta META de descripcin; si contiene etiqueta META, aparece el contenido de la misma. Segn el tipo de bsqueda
y la personalizacin de la misma, se muestra el tamao de la pgina (bits), el idioma y la fecha de la ltima modificacin.
Se pueden mantener abiertas simultneamente la pgina de resultados y uno de los documentos presentados.
Opciones anexas: cuenta con otras opciones tales como un sistema de ayuda en lnea, software de traduccin a
numerosos idiomas y permite bsqueda de multimedia: sonido, mp3, video e imgenes.
Capacidad de personalizacin: cuenta con una seccin, en la que el usuario puede personalizar el buscador a su
manera :
especificar si desea buscar resultados en una determinada regin o a nivel mundial.

configurar para obtener resultados como slo texto o texto e imgenes,

determinar la informacin de los resultados en forma compacta o de pgina completa (fecha de la ltima
modificacin, el tamao HTML en Kb. y el idioma para cada pgina).

establecer la cantidad de resultados a mostrar por pginas (por defecto es 10),

realizar bsquedas en uno o ms idiomas.

activar o desactivar la traduccin de pginas.


agregar Altavista al navegador mediante la barra de vnculos (Power Browser) o agregar un cuadro de bsqueda
de Altavista a una pgina web propia.

YAHOO (Ya Another Hiererchical Officious Oracle): pertenece a la empresa Yahoo! Inc. Es uno de los motores de
bsqueda temtica ms antiguo en Internet. [3,5,8]. En cuanto a contenidos, su alcance es internacional, con versiones
en distintos idiomas.
Modo de operacin: Yahoo evala los sitios web sugeridos por sus usuarios y los indexa en forma manual. Estos
rellenan un formulario donde se solicita la URL, el ttulo y la descripcin del recurso a incluir como as la categora o las
categoras a las que pretende que pertenezca. El motor de bsqueda de Yahoo se basa en el ttulo y la descripcin, no
permite incluir palabras claves y no trabaja con los elementos META.
Capacidad para expresar condiciones de bsqueda: una de las formas de bsqueda es a travs de la clasificacin
temtica donde se pueden ir seleccionando los links de inters mientras se avanza por categoras y subcategoras hasta
donde se considere necesario. Es conveniente usarla cuando se desea encontrar todo lo relacionado con un tema.
Otra manera de realizar la bsqueda, cuando se trata de una pgina o servidor en concreto, es ingresando en el campo
de bsqueda la palabra o las palabras consideradas claves de lo que se necesita encontrar, de esta forma se podr
buscar
siguiendo la categorizacin mostrada,

siguiendo el link de los sitios web que han sido enumerado por yahoo, que contienen las palabras ingresadas, o

siguiendo las pginas web contenidas en el ndice de Google.

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (5 of 12) [10/11/2001 8:38:26 AM]

MOTORES DE BSQUEDA EN INTERNET

Para los dos primeros casos Yahoo busca las correspondencias en su base de datos y luego ordena los resultados por
orden de relevancia, que est dado por la cantidad de palabras claves que se hayan encontrado (a mayor cantidad de
palabras claves mayor relevancia), las coincidencias exactas con las palabras claves y en qu parte del documento se
encontraron las palabras claves (las encontradas en el ttulo son de mayor relevancia que las encontradas en las URL o
en los comentarios).
Dado que Google es un buscador especializado si Yahoo no encuentra correspondencias para la bsqueda en sus
bases de datos, arroja los resultados obtenidos en su asociado, Google.
A veces puede resultar de utilidad combinar las dos formas de bsqueda.
Las bsquedas pueden ampliarse o acotarse de acuerdo a las opciones de bsqueda y a la sintaxis usada. Si la
consulta no fuese satisfactoria se podra enlazar con otros buscadores mencionados por yahoo.
El sistema permite truncar, buscar por frases mediante el uso de comillas, el uso de los operadores bolanos AND (+),
NOT (-) y OR, pero no permite el uso de parntesis, lo que hace a las posibilidades de bsqueda medianamente
satisfactorias.
No es sensible a maysculas / minsculas.
Formatos de salida: si la bsqueda se realiz en las bases de datos de Yahoo, los sitios web resultantes de la misma
mostraran el ttulo con el enlace y devolvern la categora a la que pertenece. Tendrn mayor rango en la presentacin
aquellos documento que contengan ms cantidad de palabras claves o si las palabras claves ingresadas pertenecen al
ttulo del recurso o a una categorizacin general.
No se pueden mantener abiertas paralelamente la lista de resultados de la bsqueda y una de las direcciones
recuperadas.
Algunos signos brindan mayor informacin sobre un enlace determinado.
El signo @ al final de un enlace: significa que el encabezado del enlace est incluido en ms de un lugar dentro
de la jerarqua de Yahoo.

[Xtra!]: existe informacin que se actualiza diariamente sobre el tema elegido.

NEW!: significa que el enlace fue dado de alta durante la ltima semana.

Nmeros entre parntesis luego de las categoras de Yahoo: indican la cantidad de documentos enumerados
directamente bajo ese encabezado temtico.

Unas gafas: para destacar los servidores que considera ms interesantes por contenido, novedad, diseo, etc.

Opciones anexas: las ayudas detallan ejemplos de cmo realizar las bsquedas. Desde su pgina principal se puede
acceder a distintas opciones, como por ejemplo: lista de servicios aadidos durante la ltima semana, casilla de correo
electrnico, agendas, chats, finanzas, pginas amarillas, juegos, etc.
Capacidad de personalizacin: permite convertirlo en la pgina de inicio.

INFOSEEK: fue lanzado en febrero de 1995, creado por la empresa The Infoseek Corp. Es un buscador dee cobertura
internacional.[3,5,10]
Modo de operacin: las pginas son localizadas e indexadas por un robot. Pueden darse de alta pgina a pgina,
completando en un formulario dado por el sistema, solamente la URL de la pgina web. El robot es capaz de identificar
las etiquetas META de palabras clave y de descripcin existentes en las pginas utilizando la primera para la indizacin
de la pgina y la segunda como resumen del contenido en la visualizacin de resultados.
Capacidad para expresar condiciones de bsqueda: el mtodo que sigue para indexar y ordenar los resultados de las bsquedas se
basa en criterios: en primer lugar aquellas pginas en cuyo ttulo ( o cerca de ste) se encuentra la palabra clave ingresada, cantidad
de palabras claves o frases que aparecen en la pagina web o si el trmino ingresado es poco comn en la base de datos. Presenta dos
formularios de bsquedas, uno para bsquedas simples y otras para bsquedas avanzadas. La sintaxis por defecto es "o", es decir que
los espacios entre las palabras claves ingresadas se interpretan como "o". Si se ingresan palabras que contengan alguna o todas las
letras en mayscula busca la coincidencia exacta, si los trminos se ingresan en minscula busca tanto maysculas como minsculas.
Para buscar por frases, deber escribrselas entre comillas o separadas por guiones. Permite el uso del signo + en lugar del AND y el
en lugar del OR, pero no el uso de parntesis. En el idioma Ingls ofrece reconocimiento de conceptos (ej. sinnimos) y el
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (6 of 12) [10/11/2001 8:38:27 AM]

MOTORES DE BSQUEDA EN INTERNET

truncamiento de trminos es automtico, no existe un smbolo para representarlo en otro idioma. Las bsquedas pueden hacerse en
texto libre o bien limitarse a los campos URL y ttulo. No limita la cantidad de palabras a ingresarse en el campo de bsqueda.
Permite separar nombres propios con una coma y la barra vertical para buscar por el segundo trmino en aquellos documentos que
contengan el primero.
Formatos de salida: En cada pgina de resultado aparece el ttulo, la URL, la descripcin (la que aparece en la etiqueta
META, en el caso de que exista, o las primera lneas que aparecen en la pgina propiamente dicha), el tamao de la
pgina (bits) y la fecha de alta en el sistema. Agrupa los resultados provenientes del mismo sitio, asocindolos con el
ms relevante de ellos, de manera que se tiene la opcin de pedir que los presente juntos en una misma pgina.
Existe un nico formato de presentacin que es el propuesto por el sistema. No permite acotar bsquedas por el criterio
fecha de alta de las pginas.
Se recuperan pginas y no recursos que adems no pueden ser agrupadas por servidores.
Permite ocultar la descripcin de las pginas arrojadas como resultado mostrando nicamente los ttulos
Opciones anexas: en las ayudas se explica cmo realizar la bsqueda y los criterios de presentacin de los resultados.
Presenta secciones de pginas clasificadas y noticias.

TERRA: es una herramienta de bsqueda con contenidos realizados en espaol, cataln, euskera, gallego, bable y
portugus para facilitar la navegacin de usuarios de Internet de habla hispana. [11] Este buscador est presente en
Argentina, Brasil, Colombia, Costa Rica, Chile, El Salvador, Espaa, Guatemala, Honduras, Mxico, Nicaragua,
Panam, Per, Uruguay, USA, Venezuela.
Modo de operacin: Contiene un directorio tipo ndice con sitios clasificados temticamente en 16 categoras, con
distintas subcategoras. El directorio se actualiza diariamente con el alta de pginas que se cargan en forma manual a
travs de una formulario. Los datos solicitados en el formulario son: sector en donde ubicar la pgina web, ttulo, URL,
idioma en que est redactada la pgina, pas de origen, zona geogrfica de influencia, tipo de servicio o tipo de
documento que proporciona la pgina, explicacin que acompaar al ttulo, palabras claves (hasta siete), e-mail de
contacto tcnico, e-mail de contacto contenido y clave de borrador.
Capacidad para expresar condiciones de bsquedas: presenta una categorizacin temtica, donde se puede
inspeccionar la jerarqua hasta dar con el tema de inters.
Para bsquedas especficas puede introducirse una o ms palabras claves en el campo de bsqueda separadas por
espacio. A travs de un formulario se pueden expresar las condiciones de bsqueda avanzadas: buscar ocurrencias en
ttulo, URL, palabras clave, descripcin, servicios o zonas de influencia; se puede especificar el mbito de bsqueda en
local, regional o mundial; por idioma de pginas; por antigedad de las mismas; por pas de origen y por tipo de servicio.
Las bsquedas avanzadas pueden ser por pginas o por sitios web. Para sitios se debe seleccionar en un formulario los
campos donde se pretenden estn las palabras consultadas (ttulo, URL, etc), el idioma de la pgina, el mbito (local,
internacional), tipo de servicio, antigedad de la pgina y pas de origen. Para bsquedas por pginas se debe
especifica la o las palabras a buscar separadas solamente por espacios, el mtodo de bsqueda (OR/ AND entre
palabras, por frases, en el ttulo, frases con links a ese dominio, como nombre de personas, frases lgicas), idioma de
las pginas, filtrado de recursos segn otras palabras (pginas de resultados con todas las palabras, con algunas o con
ninguna), control de fechas (despus de o antes de), control geogrfico, control del servicio donde se encuentra la
pgina, profundidad de la pgina en el servidor (principal, pgina personal, profundidad entre 0 y 4, o cualquiera).
Brinda la opcin de "bsquedas al azar", que sugiere en forma aleatoria una pgina web para comenzar a navegar y un
abecedario donde buscar los temas de interes sin tener que explorar el directorio temtico.
Formatos de salida: presenta los siguientes elementos de resultados:
enlaces a empresas, productos, servicios y marcas que cumplen la condicin de bsqueda,

servicios ofrecidos por Terra relacionados con el trmino de bsqueda,

URLs relacionadas que se ajusten a la bsqueda, en funcin del volumen de resultados obtenido puede presentar
los resultados agrupados por sectores de a 25 sitios o datos de cada uno los enlaces resultantes de la consulta
con el ttulo, URL y una breve explicacin de la misma, presentados de diez en diez y sin lmite de cantidad.

Se detalla el nmero de resultados obtenidos para los idiomas: espaol, cataln, euskera, bable, gallego y portugus.

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (7 of 12) [10/11/2001 8:38:27 AM]

MOTORES DE BSQUEDA EN INTERNET

En la presentacin tambin se distinguen los resultados segn correspondan a sitios, pginas web o productos
En "estrenos" se encuentra la seleccin de las mejores pginas webs dadas de alta en los ltimos siete das. Las webs
seleccionadas son identificadas por estrellas rojas. Con "N , nuevos" se indican los Webs de resultado dadas de alta en
los ltimos quince das.
Opciones anexas: tiene una base de datos Realnames con sitios de empresas, productos, servicios y marcas y una
base de datos Inktomi que contiene pginas web a diferencia del buscador de Terra que contiene sitios web.
Presenta un "rbol de sectores" que muestra la organizacin jerrquica de las categoras y subcategoras en las que se
distribuyen las webs dadas de alta para poder visualizar fcilmente la estructura que hay debajo de un sector
determinado.
Servicio de publicidad para que las pginas aparezcan en los primeros lugares de una determinada categora.
En su pgina principal presenta opciones como por ejemplo: diccionario de traduccin online a varios idiomas, la opcin
disco virtual, y la de "newsletter" donde se recibe lo mejor de Terra, permite enviar tarjetas de vos, participar de foros,
chats, compras, noticias, horscopo, etc.
Capacidad de personalizacin: Permite introducir enlaces hacia Terra desde una pgina web del usuario as como
realizar bsquedas desde la pgina del usuario.

Modo de Operacin

Google

Altavista

Robot

Manual

Yahoo

Infoseek

Terra

Recoleccin de datos

Organizacin de datos

Palabras
claves

Categoras

Conceptos

PageRank

Ttulo
URL
Datos imprescindibles para dar de alta una
Pg. (por el usuario)

Descripcin

Categora

otras
Condiciones de bsquedas
Coincidencia exacta

Bsqueda por

X
Google

Altavista

Yahoo

Infoseek

Nro. de palabras claves

Ubicacin en la Pg.

Proximidad entre
palabras

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (8 of 12) [10/11/2001 8:38:27 AM]

Terra

MOTORES DE BSQUEDA EN INTERNET

Seleccionar cant. de rtas.

(10 por defecto)

AND

X pred.

NOT

X pred.

(;)

OR
Operadores

""

(-, /, =, )

()

X
X

Parcial

Parcial

Parcial

Simple

Avanzado

Todos/algunos/ninguno

De actualizacin

Por idioma
Por categoras
Formulario de Bsqueda
Bsqueda por trminos

Bsqueda por fechas

Intervalos de tiempo

Entre fechas

URL

Ttulo

Descripcin

Dominios

Todo min

Google

Altavista

Yahoo

Infoseek

Terra

Ttulo

URL

Bsqueda en

Bsqueda de imgenes
Maysculas - minsculas

No sensible

Formatos de Salida

Prrafo que coincide con la


consulta
Comentario

Contenido de <META>

Resumen o comentario
Estadsticas:
tiempo y nro de
resultados

X
X

Categora

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (9 of 12) [10/11/2001 8:38:28 AM]

MOTORES DE BSQUEDA EN INTERNET

Marca RN

Informacin sobre
enlaces

enlace nuevo

Sitios interesantes

Varios resultados de un mismo


sitio

Actualizado permanentemente

Fecha de ltima
actualizacin

Tamao de la Pg.

Vnculos

en otro idioma

A pg. relacionadas

A pg. en memoria cach

lista de resultados y
direccin
recuperada

Capacidad de Personalizacin

Google

Altavista

Buscar en ndices locales o mundiales

Formato de resultados (solo texto /texto e


imgenes)

informacin compacta o detallada de los resultados

Cantidad de resultados por pgina

Idioma de bsqueda

Activar / desactivar Traduccin

Idioma de interfaz

Ver resultados de bsqueda en ventanas nuevas

Como pgina de inicio

Yahoo

Infoseek

Terra

Mtodos de Indexacin
Con la operacin de indexacin se representan los resultados del anlisis de contenido de un documento o de una parte
del mismo, mediante elementos que facilitan la recuperacin, generalmente denominados "trminos de indexacin".
A diferencia de los directorios, cuya indexacin es intelectual, los motores de bsqueda realizan una indexacin
automtica, haciendo uso de distintos mtodos para indexar recursos que se incorporan a sus bases de datos.[12]:

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (10 of 12) [10/11/2001 8:38:28 AM]

MOTORES DE BSQUEDA EN INTERNET

La indexacin en el nivel submorfolgico, es decir, sin hacer un anlisis morfolgico, sintctico o semntico ofrece un
mtodo muy flexible para la recuperacin de informacin: las fuentes de informacin se indexan como patrones de bits
(bit patterns) con lo que texto, sonido e imgenes en movimiento, pueden indexarse y recuperarse usando la misma
forma de representacin.
La indexacin por palabra clave es la forma de indexacin ms comn en la web. Para que las bsquedas recuperen
datos rpidamente, se utilizan rboles y palabras clave, direcciones, ubicacin y frecuencia de apariciones. Este mtodo,
bsicamente morfolgico y estadstico, basa la recuperacin de informacin en la similitud formal de las palabras, y las
estadsticas de su presencia en un mismo documento y en distintos documentos. Crean en sus ndices de trabajo
interno una entrada para cada una de las palabras nicas que figuran en la base de datos. Cada una de las palabras
tiene asociada informacin sobre su frecuencia estadstica y , un puntero para cada registro que describe cada una de
las pginas donde ocurre, el cual a su vez incluye la direccin URL.
Los artculos, preposiciones, conjunciones, y en general palabras que aparecen con mucha frecuencia en el conjunto de
documentos, conocidas como palabras vacas son filtradas comparndolas con una lista de palabras vacas o
"antidiccionario" y no se incluyen en el ndice.
Las palabras asignadas mediante la indexacin automtica se complementan con palabras de indexacin que sugiere el
autor del documento HTML en los tag<META>. A veces, los autores no son honestos (por desear que su sitio aparezca
entre los primeros resultados o por motivos comerciales) y colocan palabras que, aunque no se corresponden con el
contenido del sitio, tienen posibilidades de ser tipeadas en la consulta de un usuario como por ejemplo sex, free,
Microsoft, Netscape, etc.
La Indexacin por conceptos es el mtodo de indexacin ms usado en la Web despus del de indexacin por palabra
clave. Existen varios procedimientos para construir bases de datos basadas en conceptos. Algunos se apoyan en
teoras lingsticas y de inteligencia artificial, otros se basan en aproximaciones numricas, calculando la frecuencia de
aparicin de palabras significativas. Con el anlisis estadstico, se puede determinar qu conceptos estn relacionados o
aparecen juntos en textos que tratan sobre un tema concreto. Mediante este sistema se pueden recuperar sitios que
tratan un tema dado, aunque las palabras del sitio no coincidan con las ingresadas por el usuario para realizar la
consulta.
Otros sistemas de indexacin por concepto realizan un anlisis profundo a nivel semntico y sintctico. El mayor nivel de
anlisis semntico lo ofrecen los sistemas que brindan informacin evaluada, revisada e indexada por humanos, que se
presenta en algunos directorios temticos.
Existen variaciones en cada motor de bsqueda: algunos no seleccionan trminos para ingresar en sus bases de datos,
sino que indexan el texto completo de los documentos que captan, exceptuando las palabras vacas mientras que otros
incluyen el contenido de tags y toman como trminos para indexar las 3 o 4 palabras del texto que ms se repiten.
Existen los que ponderan las pginas segn los trminos se encuentren en el ttulo, en la URL, en la cabecera, en los
enlaces a otros documentos o en otra parte del documento.
La Indexacin por hiperenlaces representa a la web como un grafo , en el que cada pgina es un nodo y cada enlace un
arco. Se puede decir que hay un grafo dirigido entre una pgina que apunta o se relaciona con otra, es decir un arco con
direccin determinada. Los vnculos permiten de esta manera obtener informacin de las pginas, por ejemplo puede
pensarse que dos pginas que reciben enlaces desde los mismos nodos tienen contenido parecido o relacionado con un
mismo tema. Con este tipo de mtodo de indexacin se trabajan los hipervnculos como palabras claves o conceptos,
pero permite eliminar diferencias idiomticas y reducir la capacidad de almacenamiento y procesamiento necesaria.

Conclusin
No se puede dejar de dar importancia a la calidad de los resultados de las bsquedas de informacin en Internet. Este
planteamiento es vlido tanto para los usuarios de la informacin como para quienes posibilitan las bsquedas, los
motores de bsqueda.
Se ha mostrado que cada motor de bsqueda, tiene su propia arquitectura. Los motores de bsquedas temticos son
ms apropiados para encontrar todo lo relacionado con un tema, mientras que los motores de bsqueda que utilizan
robots presentan resultados ms actualizados. El conocimiento por parte de los usuarios (que generalmente no leen las
ayudas propias de cada buscador) y la aplicacin de las capacidades de bsqueda y personalizacin posibilitaran que
los resultados sean lo ms acordes posibles a sus propios intereses.
Principalmente para representacin e indexacin de la informacin se usan los mtodos de indexacin por palabra clave

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (11 of 12) [10/11/2001 8:38:28 AM]

MOTORES DE BSQUEDA EN INTERNET

o concepto. La indexacin por palabra clave es la forma ms comn en la web. Dado el creciente volumen de
informacin en Internet, a pesar de la utilizacin de robots, la informacin encontrada no estar siempre actualizada.
Bibliografa
[1] Grupo Interuniversitario de Certificacin de Redes - "Motores de bsqueda en Internet" http://www.ispjae.cu/gicer.
[2] Rodrguez G. "Estudio tcnico de los buscadores Web" - http://www.AlephWeb-ISOCCAT.htm
[3] Cowan A. - "Motores de bsqueda" disponible en
http://www.desde-el-atico.com.ar/buscadores/search.html
[4] Brin. S y Page. L. "The Anatomy of a Large-Scale Hyper Textual Web Search Engine"
http://dbpubs.standford.edu:8090/pub/1998-8
[5] Martnez A. Snchez E. "Evaluacin de los principales buscadores desde un punto de vista documental
recogida, anlisis y recuperacin de recursos de informacin"
http://fesabid98.florida-uni.es/Comunicaciones/a_maldonado/A_Maldonado.htm
[6] Proyecto GOOGLE -http://google.standford.edu
[7] Google - http://google.com/intl/es/about.html
[8] Altavista - http://es-es.www.altavista.com/foother/about.htm
[9] Yahoo http://www.yahoo.com/help.htm
[10] Infoseek http://infoseek.com/about.html
[11] Terra http://www.terra.com
[12] Leal. J. "Cmo se realiza el descubrimiento y la seleccin e indexacin de recursos en el Web"
disponible en http://acoruna.tuportal.com/proyecto/3.htm

file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (12 of 12) [10/11/2001 8:38:28 AM]

También podría gustarte