Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Qu es la Web Invisible?
La "web visible" es lo que se ve en las pginas resultantes de los motores de bsqueda
generales de la web. Es tambin lo que se ve en casi todos los directorios de temas. La
"web invisible" es lo que no se puede recuperar ("ver") en los resultados de bsqueda y
otros links contenidos en estos tipos de herramientas.
- Base de datos con opcin de bsqueda: La mayora de la web invisible est
compuesta de contenidos de miles de bases de datos especializadas con opcin de
bsqueda que se pueden buscar va la web. Los resultados de bsqueda de muchas
de estas bases de datos son entregadas en pginas web que son slo para tu
bsqueda. Ese tipo de pginas muy a menudo no se almacenan en ninguna parte: es
ms fcil y ms barato generar dinmicamente la pgina respuesta para cada
bsqueda que almacenar todas las posibles pginas que contienen todas las posibles
respuestas para todas las posibles bsquedas que las personas puedan hacer en la
base de datos. Los motores de bsqueda no pueden encontrar o crear estas pginas.
- Pginas excludas: hay algunos tipos de pginas que las compaas de motores de
bsqueda excluyen por poltica. No hay ninguna razn tcnica para no incluirlas si
ellos quieren. Es un asunto de seleccionar qu y qu no incluir en bases de datos que
ya son enormes, costosas de operar, y poco productoras de ingresos.
Los motores de bsqueda no pueden encontrarlas o recrearlas. Es necesario ir a la
pgina con una caja de bsqueda para cada base de datos especializada y buscarla.
Otras pginas de la web invisible son aquellas que los motores de bsqueda
escogen, por varias razones, excluirlas. (para ms informacin ver los apartados
Por qu algunas pginas son invisibles?, La ambigedad inherente a la web
invisible)
Tamao
Generales
Caractersticas
Con
opcin
de
bsqueda o slo para
navegar?
Evaluaciones de
las
Bases
de
Datos
Cajas
de
bsqueda
Direct Search
****
No
realmente.
Slo
breves
descripciones.
Ninguna
Excelente, til.
S,
casi
siempre.
La
herramienta
de
bsqueda,
nueva
en
otoo de 2000, dice en
que pgina buscar. Usar
Ctrl+F para encontrar el
trmino en la pgina.
Web
AMBOS
Coleccin
grande
(#
no
especificado) de bases de datos
con opcin de bsqueda.
Tambin selecciona sitios web, a
menudo de inters acadmico.
Busca un concepto o tpico.
Mantener las bsquedas amplias.
Dos presentaciones de resultados
algo confusos:
1.
Si
aparece
en
negrita,
numerado y ordenado por %, los
AMBOS.
Pero
usa
SELECCIONA
UNA
CATEGORA
(Select
a
Category) y navega.
El motor de bsqueda
produce
resultados
intiles a menudo.
Ninguna
Raramente
Se le llama
"Base
de
Datos
en
Lnea".
pero
**
Coleccin
de
pginas
web,
directorios y algunas bases de
datos con opcin de bsqueda
obtenidas
del
"DMOZ
Open
Directory". A menudo las cajas de
bsquedas no van a contenidos de
la pgina con los cuales est
enlazado, sino a otras bases de
datos (como en Amazon.com)
AMBOS.
Breves
descripciones.
se
supone que
identifica
y
enlaza
con
una caja de
bsqueda en
la pgina.
Algunas,
poco
confiables.
somete
tus trminos
al motor de
bsqueda
(no til).
Bsqueda,
luego
usa
enlaces "Category" en
cada
entrada
para
navegar.
No evaluaciones.
Algunas
descripciones,
algunas series de
palabras
claves,
algunos extractos
de la pgina.
Ninguna.
1. Barreras tcnicas:
Se requiere MECANOGRAFA y/o JUICIO. Si la nica manera de acceder
pginas web requiere que se mecanografe algo o se examine una pgina y se
seleccione una combinacin de opciones, los motores de bsqueda son incapaces
de proceder.
POR QU? Las bases de datos de los motores de bsqueda son creadas por
programas robot llamados spiders (araas), programas robot de computacin que se
arrastran por la web buscando el contenido de los motores de bsqueda. Estas
araas se arrastran o navegan la web siguiendo los enlaces en las pginas web que
ya estn en la base de datos de su motor de bsqueda padre. Si no hay ningn enlace
a una pgina, una araa no puede "verlo". Ellos no tienen la capacidad de
mecanografiar o pensar en ninguna serie de caracteres. Ellos tampoco pueden
examinar un grupo de opciones y escoger cual seleccionar. Ellos no slo no tiene
dedos para mecanografiar, sino que tampoco tienen un cerebro capaz de juzgar.
Las pginas creadas como resultado de una bsqueda se les llama pginas
"dinmicamente generadas". La respuesta a la bsqueda es colocada en una
pgina web diseada para llevar la respuesta y enviarla a tu computadora. A
menudo la pgina no se almacena en ninguna parte despus, porque su contenido
nico (la respuesta a tu bsqueda especfica) probablemente no es de utilidad para
muchas otras personas. Es ms fcil para la base de datos regenerar la pgina
cuando sea necesario que guardarla por ah.
Lo opuesto a una pgina "dinmica" es una pgina "esttica". Las pginas estticas
residen en servidores, cada una identificada por un URL nico, y esperando ser
recuperada cuando su URL es invocada. Los spiders pueden encontrar una pgina
esttica si un enlace a ella aparece en cualquier otra pgina que ellos "conocen".
Ellos siguen los enlaces hacia ella y la recuperan tal como si tu hicieras clic en ese
enlace si lo conocieras. Las pginas estticas no son invisibles, aunque los motores
de bsqueda puedan escoger omitirlas por razones de poltica discutidas antes.
El contenido de muchas pginas web es tanto "buscable" como "navegable"
haciendo clic en los enlaces. En la medida en que el contenido encontrado en la
bsqueda se replica en pginas web con enlaces en alguna parte, parte (o todo) el
contenido puede ser encontrado en un motor de bsqueda general de la Web.(a
menos que las pginas sean excludas de los motores de bsqueda por razones de
poltica, discutidas antes). Cualquier contenido no includo en pginas estticas
enlazadas hacia algn otro sitio permanece invisible. Se debe buscar en una base de
datos directamente para encontrarlas.
La incapacidad de los spiders de mecanografiar y pensar causa dos tipos de pginas
de Web Invisible:
spider no tiene la libertad y la creatividad que t tienes para saltar dentro de un sitio
inteligentemente.
Categora 4: Pginas basadas en script, que llevan un "chivato" ? en su
URL:
EJEMPLOS de bases de datos cuyos contenidos son generados
completamente en script: Google. No hay URLs estticas en estos sitios para
el tipo de cosas que se puede acceder buscando, y si las hubiera, los spiders
de los motores de bsqueda escogeran no indexarlos. Ellos son doblemente
invisibles (por un lado caen en la Categora 1, y por el otro, son excludos
por poltica).
Un EJEMPLO de un sitio que utiliza parcialmente scripts es Librarians'
Index. Algunos de los links en el directorio con opcin de bsqueda que
empiezan en la pgina principal estn basados en script (contienen ?), y
otros no. Google y otros motores de bsqueda contienen las pginas sin
ningn ?, pero no ninguna que s contenga un ?.
La pgina LII de Automobile (http://lii.org/search/file/automobiles) est en
Google, pero la pgina LII de Motorcycles (http://lii.org/search?title=Motorcycles;
query=Motorcycles; searchtype=subject) no est. Ntese el signo de interrogacin.
El spider de Google es tcnicamente capaz de recuperar ambas pginas
siguiendo sus enlaces, tal como t puedes haciendo clic en ellos. Pero,
debido al ?, omite la pgina "Motorcycles".
En Yahoo!, cuando se hace clic en los enlaces (manera en que un spider
tendra que hacerlo) no hay ? en las URLs resultantes. Pero si buscas
Yahoo!, todas las URLs contienen ? indicando scripts. Adivina cules URLs
encontrars
en
un
motor
de
bsqueda?
Presentacin clara de los aspectos bsicos con bibliografa: Invisible Web de Liane
Luckman
Un nuevo libro: Gary Price & Chris Sherman. The Invisible Web : Uncovering
Information Sources Search Engines Can't See. CyberAge Books, July 2001. ISBN
091096551X (Paper $29.95).
Extractos de los captulos 4 y 6 de este libro han sido adaptados o reimpresos en:
Gary Price & Chris Sherman. "Premier(e) Books: The Invisible Web," SEARCHER
[magazine], vol. 9, no. 6, June 2001. Pages 62-74. This article is available for a fee
from
Northern
Light
Special
Collection
NOTA: el autor no est de acuerdo con algunas de las, a su juicio, demasiado confusas explicaciones
en este artculo, opina que los autores hacen la Web Invisible ms complicada de lo que es.
Una discusin inteligente puede encontrarse en: Robert J. Lackie, Those Dark
Hiding Places: The "Invisible Web" Revealed
http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web.html
Otros links de posible inters sobre la Web Invisible estn disponibles bajo este
tpico en About.com