Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD POLITCNICA
Informtica I
Grupo: I
INTRODUCCIN
1.1 Buscador
1994:
En 2006 y 2007
Los buscadores son o bien motores de bsqueda, es decir, bases de datos que
incorporan nuevos trminos en forma constante y automtica, o bien, ndices
temticos, sistemas que requieren de un componente humano y manual para el
ingreso y asignacin de sitios web a palabras clave y categoras.
Proporcionar al usuario informacin sobre todas las pginas Web relacionado con
el tema que le hemos indicado.
Web spiders. Estas araas (spiders, en ingls) son programas que registran la red
buscando documentos mientras usted va siguiendo hipervinculado de las pginas
web.
Los buscadores utilizan a menudo esas araas. Cuando una de ellas descubre
una pgina relativa a la temtica indicada, aparece un agente de software, que
enva el documento y, adems, informacin sobre l y un software de indexacin.
Un robot de rastreo,
Un programa o algoritmo de indexacin
interfaz de bsqueda.
Los robots de rastreo tienen otros nombres: araas de rastreo, crawlers o bots
rastreadores. Pero en definitiva son simplemente programas automatizados que
recorren la web, buscando sitios web y las pginas que los componen, y en
general todos los archivos que pueda encontrar en la red.
Los robots de rastreo recorren la web y visitan los diferentes sitios web de una
manera generalmente aleatoria. As pues, las visitas de las araas rastreadores
pueden ser ocasionales o muy frecuentes. Pero aun cuando sean ocasionales las
visitas, estas siempre llegarn y verificarn cambios en el contenido de la web o
de las pginas, modificaciones, eliminaciones, adiciones, etc.
Se puede decir que la interfaz de bsqueda, se presenta bajo dos formatos: antes
de cualquier bsqueda y con los resultados de las bsquedas.
TCNICAS DE BSQUEDA.
ESTRATEGIAS DE BSQUEDA.
Puede unir palabras con +, Y o AND, es decir, los trminos unidos por esos
operadores deben aparecer en las lista de resultados. Un signo menos (-), o
NOT excluye la palabra, que no debe aparecer en la presentacin de resultados.
Resumen
Se definen, describen y caracterizan un grupo de los principales motores de bsqueda
que operan en Internet. Se analizan los mtodos reconocidos para su evaluacin y
seleccin, as como se ofrecen algunos consejos para perfeccionar el proceso de
bsqueda con el fin de mejorar sus resultados. Se exponen, de forma general, sus
semejanzas y diferencias, ventajas y desventajas y se analizan sus tendencias actuales
de uso.
Mtodos
La bsqueda en el web mediante Google.com, por trminos como "motores de
bsqueda" y "search engines", devolvi entre los resultados ms importantes sitios
como: http://www.allsearchengines.com y http://www.searchenginewatch.com, ambos
con una gran cantidad de enlaces importantes a trabajos sobre estos temas. Producto de
una lectura crtica de la bibliografa consultada, se obtuvo un grupo de conclusiones
importantes en cuanto a definiciones y tipos de los buscadores, funcionamiento,
estrategias para un uso ms efectivo, ventajas y desventajas.
Buscadores en Internet. Conceptos, clasificacin y caractersticas
Muchos son los nombres que han recibido los buscadores de acuerdo con su estructura y
funcionamiento. Algunos autores los clasifican en ndices, robots y metabuscadores,2
otros los agrupan en directorios y buscadores,3 o bien en ndices y motores de
bsqueda.4,5 Todos estos trminos tienen su equivalente en ingls, sin embargo, en
esta lengua adems de "index", "meta- search engine" "directory" y "search engine",
para los 2 ltimos aparecen en la literatura sinnimos como "crawler o spider" y
"human-powered" respectivamente. Veamos a continuacin algunas definiciones.
En el artculo "Buscadores: Los puntos de partida en la red"2 se plantea que se dividen
bsicamente en ndices, robots y metabuscadores. Aqu se consideran los ndices como
los pioneros en Internet, ellos funcionan mediante la incorporacin constante de nuevas
pginas a su base de datos, generalmente disponen de un evaluador que minimiza el
nmero de pginas que ingresan al sistema y asegura su calidad; los robots (llamados
por la gran mayora motores de bsqueda) disponen de programas "araas" que
recorren la red e incluyen de forma automtica "todo cuanto encuentran", esto genera
grandes dificultades para los navegantes al momento de seleccionar los recursos, sobre
todo en el caso de bsquedas con un alto recobrado; por ltimo, los metabuscadores se
limitan a redirigir la pregunta que reciben a varios buscadores a la vez, y segn el
estado de opinin prevaleciente, suele ser difcil pero recomendable el trabajo con ellos,
cuando no se encuentra informacin en los ndices y motores.
Efectivamente, de acuerdo con las diferentes formas de funcionamiento, es acertado
establecer estas 3 categoras para clasificar los buscadores, pero cabra preguntar qu
significa "todo lo que encuentran" los robots, o ser que realmente no hay lmites en lo
que ellos recogen en la red.
En otra clasificacin, se dividen en directorios y buscadores. Se dice que los directorios
son catlogos de direcciones que tienen relativamente pocos sitios (cientos o miles),
pero ellos se seleccionan y verifican; esto supone cierta calidad, incluso, algunos
directorios que contienen una evaluacin del sitio que indica cun bueno es, otros
presentan un breve resumen, escrito por un reseador o evaluador, que explica el
contenido (la mayora slo tienen una descripcin que proporciona el propio autor del
sitio); por otra parte, se definen los buscadores como enormes ndices que comnmente
registran millones de pginas y donde las bsquedas producen miles de sitios como
respuesta.3
En estas clasificaciones, si bien es cierto que la definicin de los directorios es muy
amplia y clara, el concepto de buscador se queda sin explicar cmo funciona esta
herramienta?, adems por qu llamarle buscador?, acaso no son buscadores tambin
los directorios?; por otra parte, estos llamados "buscadores" no deben considerrseles
ndices precisamente, porque ellos no muestran listas de trminos o categoras a los
navegantes, el ndice no es ms que una parte interna donde se almacena una copia de
cada una de las pginas identificadas.
Otras 2 clasificaciones, tal vez menos comunes, son buscadores de categoras y
buscadores de contenido (o de palabras por contexto), al primero se le llama tambin
ndices, que est claro que se refieren a los directorios y aunque no se describen
conceptos los ejemplos hablan por s solos: por categoras, Yahoo y por contexto,
Altavista.6
Es oportuno sealar que aun cuando los motores de bsqueda no se estructuran por
categoras temticas como los directorios, existen tambin motores especializados en
reas geogrficas y temticas, por tipos de recursos, entre otros.
Sullivan,7 un importante autor vinculado al tema de los motores de bsqueda, editor de
la revista Search Engine Watch, plantea que el trmino "motor de bsqueda" se emplea
indistintamente para los motores basados en los programas "crawler" o "spider", y para
los directorios accionados por humanos, pero enfatiza en las diferencias entre ambos
justamente porque los primeros trabajan automticamente y los segundos dependen del
factor humano.
Un aspecto importante, tratado por este autor, son las partes de los motores de
bsqueda: el primer elemento es el "spider" o "crawler", encargado de visitar las pginas
web, leerlas y analizar sus enlaces a otras pginas, esta operacin se repite cada cierto
tiempo en busca de cambios. El segundo elemento es el ndice, tambin llamado
catlogo donde se almacena una copia de cada pgina web que se encuentra, cada vez
que cambia la pgina se actualiza con la nueva informacin, claramente transcurre un
tiempo desde que se encuentra la pgina hasta que se indiza y no es hasta entonces que
est disponible en el motor de bsqueda. El tercer elemento es el software, programa
que se encarga de examinar los millones de pginas web contenidas en el ndice, busca
aquellas que contengan las palabras iguales a las solicitadas en la bsqueda, para luego
ordenarlas segn su relevancia. Para muchos navegantes es una interrogante saber si
realmente el orden de los registros es aleatorio o responde a un determinado mtodo de
ordenamiento, ms adelante se ofrecern algunas consideraciones al respecto.7
Como puede apreciarse, en cada una de las definiciones, la funcin de cada una de estas
herramientas es la misma: "buscar en la red", todos entonces se sitan en una gran
categora general: buscadores. Son pginas web que analizan la red con el objetivo de
que los navegantes encuentren los sitios donde se encuentra la informacin que ellos
necesitan, ponen a su disposicin "alternativas" para moldear las bsquedas con ayuda
de sus propios lenguajes de interrogacin, la diferencia est en el funcionamiento de
cada uno; segn esto, se dividen en 3 subcategoras, que en la opinin de la autora la
manera ms acertada de agruparlos es en:
Directorios (se refiere a los llamados ndices o buscadores de categoras).
Motores de bsqueda (que algunos le llaman buscadores, robots, araas o
buscadores de contenido).
Metabuscadores (que se abordarn ms adelante).
Si se analizan detenidamente los conceptos referentes a las 2 primeras categoras es
fcil encontrar ventajas y desventajas en cada una, por ejemplo, los directorios son
excelentes para buscar por temas o categoras y los resultados se ordenan por dichas
categoras, pero ellos no catalogan tantas direcciones como un motor de bsqueda; por
su parte, los motores de bsqueda son muy tiles para buscar datos especficos y
permiten encontrar "casi todo", pero esto, a su vez, produce como resultado demasiados
sitios de todo tipo y calidad (miles) en una respuesta tpica.
Pero hablar en la actualidad de buscadores, obliga necesariamente a hablar de los
metabuscadores, innumerables trabajos, en la literatura especializada, abordan el tema,
debaten sobre aspectos como funcionamiento, ventajas, desventajas y eficiencia, entre
otros. A pesar de los beneficios indiscutibles de los motores de bsqueda y de los
directorios temticos, su crecimiento condujo a la creacin de estas nuevas
herramientas.1,8-12
Segn Tyner,11 se conoce como metabuscadores, a aquellos que permiten interrogar
varias bases de datos simultneamente desde una nica interfaz; aunque ellos no
ofrecen el mismo nivel de control sobre la lgica y la interfaz de bsqueda que los
motores y directorios, la mayora son bastante rpidos. Apunta, adems que la tendencia
es mejorar sus capacidades con la incorporacin de opciones de bsqueda al uso de los
operadores convencionales, entre ellas, se destaca la posibilidad de poder escoger los
motores de bsqueda donde debe buscarse, la bsqueda por campos (ttulo, URL, etc.),
entre otras.
Otras cualidades se agregan a la definicin anterior, se plantea que al no tener sus
propias bases de datos, a diferencia de los motores de bsqueda y los directorios
temticos, los metabuscadores no almacenan pginas web, no agregan direcciones, ni
clasifican y resean sitios web, sino que envan una solicitud de bsqueda a varios
buscadores a la vez.8
Stanley,1 considera que los metabuscadores constituyen el prximo eslabn dentro de la
cadena alimenticia de la informacin en los motores de bsqueda convencionales, se
consideran son superiores. Muy claramente expone aquellos elementos que considera
sus ventajas esenciales:
Se accede a una sola pgina web para formular la bsqueda.
Se necesita slo conocer la interfaz de una pgina para la bsqueda.
Se formula slo una vez la estrategia de bsqueda.
Los resultados permiten redireccionar la bsqueda a otros buscadores.
Se obtienen los resultados integrados, a partir de varios buscadores.
Una importante reflexin de la autora apunta al siguiente hecho: que los
metabuscadores no dispongan de sus propias bases de datos sino que interroguen las de
otros buscadores, significan una importante reduccin en los costos por concepto de
hardware para los productores. Ciertamente podra considerarse esta, una causa para el
auge de los metabuscadores y su aceptacin entre los navegantes.
No es menos cierto que los elementos descritos por Stanley1 sobre los metabuscadores,
constituyen ventajas para el proceso de bsqueda; sin embargo, otros autores, que
enfatizan en los problemas que puede causar su uso, llaman la atencin de los
navegantes para que los tengan siempre muy en cuenta, reconocen, por tanto, que son
una herramienta muy til.
Liu8 expone algunos elementos que son vlidos anotar, sobre todo porque otros autores,
que han escrito sobre el tema de los metabuscadores, no los tratan. l plantea que es
totalmente imposible que estas herramientas puedan unificar todas las ventajas de cada
uno de los motores y que, por consiguiente, las bsquedas booleanas pueden generar
resultados diferentes en diversos buscadores, las bsquedas por frases puede que no se
ejecuten en alguno de ellos, y otros elementos como el uso de limitadores pueden
sacrificarse. Apunta que los metabuscadores no devuelven, desde cada buscador, todas
las pginas que se corresponden con la solicitud sino que toman un rango entre 10 y 100
registros de cada uno, por lo que efectivamente permiten redireccionar la bsqueda,
como apunta Stanley,1 una vez que se escoja el motor, que ms resultados relevantes
arroj, para continuar la bsqueda.
Algunos autores aseguran que la mayora de los grandes buscadores utilizan lenguajes
similares para interrogar sus bases de datos. Por esto, los resultados de la bsqueda en
los metabuscadores pueden verse favorecidos si se conocen, en alguna medida, los
lenguajes utilizados por los buscadores que estos procesan. Afortunadamente algunos
metabuscadores ofrecen al navegante la opcin de escoger dentro de un grupo
determinado de buscadores disponibles, cules incluir en su metabsqueda. Si se
escogen aquellos conocidos por su confiabilidad, potencia y rapidez, los resultados de la
bsqueda sern mejores.1
Cierto es, que cada categora difiere de la otra sustancialmente por el funcionamiento y
por las herramientas para la bsqueda en la red, pero incluso dentro de una misma
categora se diferencian unos de otros. Son eBlast y Yahoo directorios temticos, pero no
son iguales, son Altavista y Northern Light motores de bsqueda, pero son diferentes, de
igual forma son Metacrawler y Savvy Search metabuscadores, y difieren uno del otro.
El uso de estos 3 mecanismos no presenta grandes diferencias a primera vista, por lo
que es posible que los navegantes no distingan en cul de ellos realizan habitualmente
sus bsquedas, todos muestran un recuadro para introducir las palabras claves que se
desean encontrar, solo que vara la forma en que se debe plantear la cuestin, porque,
en algunos casos, puede complicarse con elaboradas reglas lgicas. Esta tabla resume
brevemente la naturaleza de cada categora de buscador.
Ejemplos
Mucho se ha debatido sobre la necesidad de conocer las herramientas con que se busca
en la red, precisamente por la gran variedad que existe, donde unos suelen ser ms
eficientes que otros. Un aspecto importante a considerar para seleccionar los buscadores
es la evaluacin de sus bases de datos. Como se ha explicado anteriormente, los
resultados de las bsquedas, obtenidos de cada buscador no son ms que la "salida en
pantalla" de la informacin de sus bases de datos, despus que esta se localiza, procesa,
evala y ordena. Por supuesto, no es comparable la evaluacin de una base de datos en
CD con otra en Internet, esta ltima es mucho ms difcil.
Notess13 expone, de manera muy sencilla, sus puntos de vista al respecto, plantea que
el mayor problema para evaluar una base de datos en Internet es que sus registros
nunca son estticos, porque existen muchas pginas "efmeras" que se indizan en el
tiempo en que se crea o actualiza la base de datos y poco tiempo despus se mueven,
cambian o redisean completamente; sin embargo, aun cuando el contenido de los
registros es variable, plantea el autor, que las bases de datos en Internet pueden
evaluarse en cuanto a alcance, estructura y actualidad. Se explica en este artculo, que
para determinar el alcance de la base de datos se debe consultar la ayuda o las FAQs, se
sugiere tambin, que el examen de la estructura es efectivo, por ejemplo, si el nico
acceso a los registros individuales es por una bsqueda de palabras claves, cabra
entonces, pensar que es una base de datos que se genera automticamente, mientras
que, si tiene una estructura jerrquica de materias, debe construirse selectivamente.
Ciertamente, estos son aspectos importantes, pero no se pueden obviar otros ms
elementales, sobre todo, para los buscadores de tipo directorio, como el ttulo de la
pgina, que se supone sea claro y refleje, con exactitud, el contenido del sitio y la
consulta del "about" que ofrece informacin general.
Wighton14 concede tambin, una especial importancia a la consulta de las FAQs de los
buscadores, antes de formular una bsqueda, enfatiza, que esto permite saber cmo se
puede buscar y hasta dnde se puede llegar y, a partir de aqu, elegir o desechar el
buscador.
Notess,13 explica que la estructura de los registros de la base de datos, que se muestra
en los resultados, puede parecer un elemento difcil de evaluar, sobre todo, porque a
diferencia de otras, en las bases de datos en Internet, los campos no aparecen
explcitamente, sin embargo, generalmente son fciles de identificar, incluso existen
buscadores como Google que explican detalladamente en su ayuda, a qu se refiere
cada dato expuesto en los resultados de la bsqueda, la mayora de los buscadores
entregan sus resultados con los siguientes campos: ttulo, descripcin del contenido,
categora de materia y URL.
Realmente el navegante nunca podr ver la estructura de la base de datos, por esto
resulta un poco difcil saber cmo se maneja una bsqueda, una vez formulada la
pregunta a la base de datos, pero conocer a qu se refiere cada elemento mostrado en
los resultados puede ser un factor determinante a la hora de decidir cules son los
registros ms relevantes.
Otro aspecto enunciado por este autor para evaluar las bases de datos, es su modo de
actualizacin, es difcil encontrar un motor que actualice constantemente cada uno de los
sitios; para los grandes motores, porque tendran una gran demanda en cuanto al ancho
de banda y para los directorios, aunque ms pequeos en volumen de informacin,
porque exigira una sobrexplotacin del recurso humano. Plantea este autor, que es muy
difcil determinar la frecuencia de actualizacin de una base de datos, pero el anlisis de
algunos de los resultados devueltos puede ser una va para esto. Por ejemplo, en un
intento de acceso a los enlaces que luego no se pueden alcanzar, o que te ofrecen un
mensaje de que la pgina se ha movido a otra direccin sera conveniente fijarse en la
fecha de la pgina si es posible, esto proporciona una medida del tiempo que lleva sin
actualizarse; la ltima fecha de actualizacin de los sitios que forman parte de los
resultados de la bsqueda muchas veces son de un ao, 2 o ms, ello indica que el
creador del sitio cambi de empleo o sencillamente perdi el inters, un motor de
bsqueda que se respete no debe incluir este tipo de sitios en sus ndices.13
Existen varios trabajos donde se exponen diversos anlisis y comparaciones entre
buscadores, estos pueden ayudar a una mejor comprensin de su
funcionamiento.6,11,12,15-22
Internet es una gran biblioteca, solo que a diferencia de la biblioteca tradicional no tiene
libros y revistas impresas, materiales audiovisuales o diapositivas sino que sus
documentos son sitios web sin control bibliogrfico, no disponen de un equivalente al
ISBN, que identifica los libros, tampoco existen sistemas anlogos para su catalogacin y
clasificacin, como los establecidos por la Biblioteca del Congreso, mucho menos, existe
un catlogo central que registre todas sus pginas y, ni siquiera lo ms elemental,
muchos de los documentos que se encuentran en Internet carecen de autor y fecha de
publicacin.11
Evidentemente, como Internet es un medio libre para publicar, no existen normas
estndares para hacerlo ni para indizar la informacin que fluye por ella. Las bases de
datos de los buscadores no reconocen e indizan los mismos campos, y su funcionamiento
para recuperar la informacin es diferente. De todo lo anterior, se infiere que para que
los buscadores se conviertan en una herramienta eficaz es necesario que se conozcan
muy bien.
Como se ha explicado anteriormente, la tendencia inevitable es la especializacin de las
herramientas de bsqueda en el web. Esto ha provocado la aparicin de una gran
variedad de buscadores, que generalmente resultan difciles de evaluar por el
navegante; por otra parte, en muchos casos han devenido, incluso en portales, aaden
entonces a su oferta, un conjunto ms o menos homogneo de servicios, como noticias,
bolsas de vivienda, chats o correo electrnico. Son gratuitos y se financian mediante la
publicidad, debido a esto, el acceso a sus pginas principales es, a veces, la primera
causa para que el navegante se sienta perdido entre tantos efectos especiales,
comerciales y propagandas.
Muchos son los expertos que han sugerido los aspectos que deben considerar los
navegantes para buscar en el web. En algunos casos, se apunta a que el navegante solo
debe preocuparse por buscar la caja de dilogo, que permite introducir las palabras
claves por las que pretende realizar la bsqueda, el cual tiene al lado un botn o un
grfico con las palabras "buscar", "search", "go", "go to get it", donde el navegante
mediante un click inicia el proceso de bsqueda, es recomendable buscar, cerca de esta
caja de dilogo, opciones para seleccionar el nmero de registros a mostrar por pgina,
los dominios donde buscar, los tipos de recursos o el tipo de lgica a emplear.6
Gresham23 opina que encontrar resultados relevantes en Internet es una mezcla de
experiencia, tcnicas, aptitudes, inventiva y buena suerte, todas combinadas con la
habilidad de proceder en una direccin clara y metdica, en otras palabras, es
simplemente "navegar con un propsito", apunta adems que depende ms de la
estrategia de bsqueda que de la propia herramienta a utilizar. Sugiere la siguiente
secuencia lgica de pasos:
Determinar el tipo de informacin que se necesita (artculos cientficos,
estadsticas, documentos gubernamentales) y luego determinar qu tipo de
organizaciones pueden ofrecer estos documentos.
Crear una lista de todas las palabras claves posibles y de sus sinnimos.