Está en la página 1de 9

WEB INVISIBLE

Teaching Library Internet Workshops


University of California Berkeley
TRADUCCIN:
Lissette Fernndez
Frum Telemtic de Docncia Universitria, Universidad de Barcelona.

Qu es la Web Invisible?
La "web visible" es lo que se ve en las pginas resultantes de los motores de bsqueda
generales de la web. Es tambin lo que se ve en casi todos los directorios de temas. La
"web invisible" es lo que no se puede recuperar ("ver") en los resultados de bsqueda y
otros links contenidos en estos tipos de herramientas.
- Base de datos con opcin de bsqueda: La mayora de la web invisible est
compuesta de contenidos de miles de bases de datos especializadas con opcin de
bsqueda que se pueden buscar va la web. Los resultados de bsqueda de muchas
de estas bases de datos son entregadas en pginas web que son slo para tu
bsqueda. Ese tipo de pginas muy a menudo no se almacenan en ninguna parte: es
ms fcil y ms barato generar dinmicamente la pgina respuesta para cada
bsqueda que almacenar todas las posibles pginas que contienen todas las posibles
respuestas para todas las posibles bsquedas que las personas puedan hacer en la
base de datos. Los motores de bsqueda no pueden encontrar o crear estas pginas.
- Pginas excludas: hay algunos tipos de pginas que las compaas de motores de
bsqueda excluyen por poltica. No hay ninguna razn tcnica para no incluirlas si
ellos quieren. Es un asunto de seleccionar qu y qu no incluir en bases de datos que
ya son enormes, costosas de operar, y poco productoras de ingresos.
Los motores de bsqueda no pueden encontrarlas o recrearlas. Es necesario ir a la
pgina con una caja de bsqueda para cada base de datos especializada y buscarla.
Otras pginas de la web invisible son aquellas que los motores de bsqueda
escogen, por varias razones, excluirlas. (para ms informacin ver los apartados
Por qu algunas pginas son invisibles?, La ambigedad inherente a la web
invisible)

Cmo Encontrar la Web Invisible?


Simplemente piensa "bases de datos" y mantn tus ojos abiertos: Es posible encontrar
bases de datos con opcin de bsqueda y otras cosas de la web invisible en el transcurso de

bsquedas rutinarias en los directorios web ms generales. Los de valor particular en


investigacin acadmica son:
-Librarians Index
- AcademicInfo
- Infomine
Utilice Google y otros motores de bsqueda para localizar bases de datos con opcin de
bsqueda, utilizando un trmino que defina un tema y la palabra "database". Si la base de
datos utiliza la palabra "database" en sus propias pginas, es probable encontrarla en
Google. La palabra "database" es tambin til buscando un tpico en Yahoo!, debido a que
Yahoo! Utiliza el trmino este trmino para describir las bases de datos con opcin de
bsqueda en sus listados.
EJEMPLOS PARA GOOGLE Y YAHOO!:

plane crash database


languages database
toxic chemicals database
Recuerda que la Web Invisible existe. Recuerda que, adems de lo que se encuentra en los
resultados de los motores de bsqueda y la mayora de directorios, existen estas minas de
oro que debes buscar directamente.
Como parte de tu estrategia de bsqueda en la web, utiliza un poco de tiempo buscando
bases de datos en tu rea o tpico de estudio o de investigacin. La tabla que aparece a
continuacin puede ayudar, si no puedes encontrar nada utilizando las sugerencias antes
mencionadas.
Directorios Seleccionados de Bases de Datos con Opcin de Bsqueda: Tabla de
Caractersticas
La tabla que aparece a continuacin describe varios de los mejores directorios y listas de
bases de datos con opcin de bsqueda en la web general con contenido frecuentemente
til en investigacin acadmica. Hay muchos ms directorios hacia partes de la web
invisible que los listados aqu, pero su contenido es ms popular o comercial.
Listados en orden de grado, para propsitos de investigacin acadmica. Ordenados como:
**** muy til para investigacin acadmica, *** til para investigacin acadmica, **
menos til para investigacin acadmica
Directorio de Bases de
Datos con Bsqueda

Tamao
Generales

Caractersticas

Con
opcin
de
bsqueda o slo para
navegar?

Evaluaciones de
las
Bases
de
Datos

Cajas
de
bsqueda

Varias pginas largas listando y


describiendo bases de datos con
bsqueda sobre muchos tpicos
acadmicos. Escoger la seccin o
pgina desde los enlaces cerca de
la parte superior.

Direct Search
****

Elaborada por un bibliotecario


acadmico con la investigacin en
mente.

AMBOS, pero no es una


base de datos con opcin
de bsqueda.

No
realmente.
Slo
breves
descripciones.

Ninguna

Excelente, til.

S,
casi
siempre.

La
herramienta
de
bsqueda,
nueva
en
otoo de 2000, dice en
que pgina buscar. Usar
Ctrl+F para encontrar el
trmino en la pgina.

DIFCIL DE USAR. Excepto en


Negocios
y
Economa,
mejor
utilizar los otros directorios ms
abajo.
The
Invisible
Catalog
***

Web

Coleccin grande (ms de 10.000)


de bases de datos con opcin de
bsqueda.
Muchos
temas
acadmicosy mucho pblico.

AMBOS

Click [more] para


leer la evaluacin
completa.

Bsqueda rpida de conceptos o


tpicos.
Bsqueda
avanzada
permite
Boolean
y
otras
bsquedas.
Mantener
las
bsquedas amplias. Click GO.
Mirar en "Hot List" y las categoras
se expanden para una seleccin
conveniente.
Es posible ordenar los resultados
Alfabticamente o por Puntaje
(relevancia por defecto).
Click en nombre de la base de
datos para caja de bsqueda.
Enlaces a categoras de temas
relacionados en la parte superior
de los resultados llevan a ms
bases de datos en esa categora.
Excelente Ayuda.
No tan fcil de usar como otros
directorios
ms
abajo
que
contienen muchos de los mismos
sitios.
Internets
**

Coleccin
grande
(#
no
especificado) de bases de datos
con opcin de bsqueda.
Tambin selecciona sitios web, a
menudo de inters acadmico.
Busca un concepto o tpico.
Mantener las bsquedas amplias.
Dos presentaciones de resultados
algo confusos:
1.
Si
aparece
en
negrita,
numerado y ordenado por %, los

AMBOS.
Pero
usa
SELECCIONA
UNA
CATEGORA
(Select
a
Category) y navega.
El motor de bsqueda
produce
resultados
intiles a menudo.

Ninguna

Raramente
Se le llama
"Base
de
Datos
en
Lnea".

resultados son sub-categoras de


un tema. Escoger la categora ms
apropiada para ver la lista de
bases de datos.
2. Si aparece una lista con vietas
y sin negritas, es la lista de bases
de datos. Click sobre el ttulo para
ir directamente al sitio.
IncyWincy

Grande (afirma 100.000


pocas son bases de datos).

pero

**
Coleccin
de
pginas
web,
directorios y algunas bases de
datos con opcin de bsqueda
obtenidas
del
"DMOZ
Open
Directory". A menudo las cajas de
bsquedas no van a contenidos de
la pgina con los cuales est
enlazado, sino a otras bases de
datos (como en Amazon.com)

AMBOS.

Breves
descripciones.

Los resultados algunas


veces aparecen en una
segunda caja.

se
supone que
identifica
y
enlaza
con
una caja de
bsqueda en
la pgina.

Usar trminos especficos y los


soportes AND, OR ANDNOT, "" y *,
ya que es un directorio de temas
entero.
Complete Planet
**

Gran base de datos de bases de


datos con opcin de bsqueda,
pginas
web
con
cajas
de
bsqueda (no bases de datos), y
slo pginas web. Aunque el sitio
habla
elocuentemente
de
lo
"profundo" (su trmino para web
"invisible"), muchos de los enlaces
son para la web "visible" o
"superficial".

Algunas,
poco
confiables.

somete
tus trminos
al motor de
bsqueda
(no til).
Bsqueda,
luego
usa
enlaces "Category" en
cada
entrada
para
navegar.

No evaluaciones.
Algunas
descripciones,
algunas series de
palabras
claves,
algunos extractos
de la pgina.

Ninguna.

Difcil de saber cules son bases de


datos.
Bsquedas
utilizando
frases,
operadores Boolean y Stems.
Bsquedas simples usualmente
recuperan demasidos documentos.
El enlace "Categoras" (categories)
al final de la entrada, muestra
clasificaciones de temas asignados
para acceso fcil a ms en esa
categora.

Por qu Algunas Pginas son Invisibles?


Hay dos razones por las cuales un motor de bsqueda no contiene una pgina: (1) barreras
tcnicas que prohiben el acceso y (2) escogencias o decisiones para excluirla.

1. Barreras tcnicas:
Se requiere MECANOGRAFA y/o JUICIO. Si la nica manera de acceder
pginas web requiere que se mecanografe algo o se examine una pgina y se
seleccione una combinacin de opciones, los motores de bsqueda son incapaces
de proceder.
POR QU? Las bases de datos de los motores de bsqueda son creadas por
programas robot llamados spiders (araas), programas robot de computacin que se
arrastran por la web buscando el contenido de los motores de bsqueda. Estas
araas se arrastran o navegan la web siguiendo los enlaces en las pginas web que
ya estn en la base de datos de su motor de bsqueda padre. Si no hay ningn enlace
a una pgina, una araa no puede "verlo". Ellos no tienen la capacidad de
mecanografiar o pensar en ninguna serie de caracteres. Ellos tampoco pueden
examinar un grupo de opciones y escoger cual seleccionar. Ellos no slo no tiene
dedos para mecanografiar, sino que tampoco tienen un cerebro capaz de juzgar.
Las pginas creadas como resultado de una bsqueda se les llama pginas
"dinmicamente generadas". La respuesta a la bsqueda es colocada en una
pgina web diseada para llevar la respuesta y enviarla a tu computadora. A
menudo la pgina no se almacena en ninguna parte despus, porque su contenido
nico (la respuesta a tu bsqueda especfica) probablemente no es de utilidad para
muchas otras personas. Es ms fcil para la base de datos regenerar la pgina
cuando sea necesario que guardarla por ah.
Lo opuesto a una pgina "dinmica" es una pgina "esttica". Las pginas estticas
residen en servidores, cada una identificada por un URL nico, y esperando ser
recuperada cuando su URL es invocada. Los spiders pueden encontrar una pgina
esttica si un enlace a ella aparece en cualquier otra pgina que ellos "conocen".
Ellos siguen los enlaces hacia ella y la recuperan tal como si tu hicieras clic en ese
enlace si lo conocieras. Las pginas estticas no son invisibles, aunque los motores
de bsqueda puedan escoger omitirlas por razones de poltica discutidas antes.
El contenido de muchas pginas web es tanto "buscable" como "navegable"
haciendo clic en los enlaces. En la medida en que el contenido encontrado en la
bsqueda se replica en pginas web con enlaces en alguna parte, parte (o todo) el
contenido puede ser encontrado en un motor de bsqueda general de la Web.(a
menos que las pginas sean excludas de los motores de bsqueda por razones de
poltica, discutidas antes). Cualquier contenido no includo en pginas estticas
enlazadas hacia algn otro sitio permanece invisible. Se debe buscar en una base de
datos directamente para encontrarlas.
La incapacidad de los spiders de mecanografiar y pensar causa dos tipos de pginas
de Web Invisible:

Categora 1: el contenido de bases de datos especializadas con opcin de


bsqueda puede ser enteramente o parcialmente invisible o visible,
dependiendo de cunto est contenido en pginas estticas con enlaces.
EJEMPLOS de sitios con bases de datos con opcin de bsqueda incluyen
a la mayora de los motores de bsqueda como Google o Northern Light o
AltaVista. Los contenidos de todas los catlogos de bibliotecas on-line que
no requieren una contrasea (como el Pathfinder de UC Berkeley) son
tambin web invisible. Los resultados de las bsquedas se generan
dinmicamente. A veces es posible retener esa URL en la parte superior del
resultado de la bsqueda, y usarla para regenerar la pgina dinmicamente
cuando se hace clic sobre ella. Sin embargo, las pginas de resultados no se
almacenan en ninguna parte.
Un EJEMPLO de un sitio con contenidos que son accesibles tanto
buscando directamente como por enlaces accesibles a los spiders de los
motores de bsqueda es Yahoo! y muchos otros directorios organizados
como "buscables" pero dando acceso tambin a sus contenidos navegando
(siguiendo enlaces). Los spiders tienen que aproximarse a los contenidos
siguiendo el enfoque navega/enlace lento, mientras que tu puedas
mecanografiar bsquedas o navegar. Si un motor de bsqueda quiere, puede
llegar a toda la informacin en Yahoo! que est accesible siguiendo enlaces.
Categora 2: Requieren contrasea o login. Todos los sitios que requieren
una contrasea o un login estn cerrados para los spiders de los motores de
bsqueda debido a que requieren mecanografiar algo que los spiders no
pueden "saber". Los contenidos de estos sitios es muy poco probable que
estn en cualquier motor de bsqueda general de la Web. Esto incluye todos
los recursos que existen que requieren contrasea (en UC Berkeley , existen
cientos de servicios indexados, enciclopedias, directorios, y otros recursos
basados en la web, donde se necesita algn tipo de contrasea para acceder,
hay miles otros miles de sitios web donde todo o parte del sitio requiere una
contrasea porque el sitio no est libre o el uso est restringido por otras
razones).
2. Pginas que el motor de bsqueda escoge excluir:
FORMATO de la pgina. Los motores de bsqueda pueden escoger no incluir
pginas porque el formato del documento sera buscado raras veces o sin xito por
los usuarios del motor de bsqueda. No hay ninguna razn tcnica para que ellos
deban excluirlas, slo es una poltica tomada por muchas compaas de motores de
bsqueda.
POR QU? Las bases de datos y spiders de los motores de bsqueda estn
optimizados para "leer" HTML, el lenguaje bsico de la Web. Estos otros tipos de
lenguajes de programacin contienen cdigos y requerimientos de formato que son
incompatibles con HTML. HTML puede llevar enlaces a estas pginas, pero no el

texto completo de su contenido en su formato especial. Las pginas con imgenes y


sin texto son tambin a menudo omitidas porque, sin texto, no hay nada que utilizar
como palabra clave para buscar esa imagen, entonces por qu preocuparse en
incluirlas?
Categora 3: Las pginas formateadas en PDF y otras pginas escritas
utilizando muy poco o nada de texto HTML. A los motores de bsqueda
tambin les es difcil indexar los contenidos de los documentos en Flash,
Shockwave, y otros programas como Word, WordPerfect, PowerPoint, etc.
Las pginas que consisten casi enteramente de imgenes son amneudo
excludas tambin.
EXCEPCIONES:
- Google ahora tiene la habilidad de buscar el texto completo de muchos
archivos PDF convirtiendo estos archivos a texto, y colocando el texto en
HTML de manera que pueda trabajar como una pgina web ordinaria en la
base de datos de Google. En los resultados de la bsqueda aparece un enlace
al documento original completo en PDF. Otros motores de bsqueda
actualmente no proveen este servicio (Prueba buscando "form 1040" en
Google. Haz click en los enlaces "Text version" y "PDF" ).
- Las bases de datos imagen que Google, AltaVista, y otras compaas de
motores de bsqueda ofrecen, estn estructuradas para manejar estos tipos
de archivos con menos texto.
Pginas basadas en SCRIPT: Enlaces que contienen un ?. Un script es un tipo
de lenguaje de programacin que puede ser utilizado para traer ir mostrar pginas
web. Hay muchos tipos y usos de scripts en la Web. Ellos pueden ser utilizados para
crear toda o parte de una pgina web, y para comunicarse con bases de datos con
opcin de bsqueda. Muchas de las bsquedas y de las respuestas de las bases de
datos discutidas en la Categora 1 usan scripts. Cuando se encuentra un smbolo de
interrogacin (?) en la URL de una pgina, algn tipo de comando script se utiliza
en esa pgina. Muchos motores de bsqueda estn instruidos para no revisar sitios o
incluir pginas que usen tecnologa script, aunque a menudo es tcnicamente
posible para ellos hacerlo. Esta es otra decisin de poltica.
POR QU? Si los spiders encuentran un ? en una URL o enlace, estn
programados para retirarse. Ellos pobremente encuentran script escrito o "trampas
de araa" intencionales diseadas para atrapar spiders (araas), algunas veces
atascndolos en bucles (loops) infinitos que aumentan el costo y el tiempo que les
toma a los spiders hacer su trabajo. En consecuencia, las compaas de motores de
bsqueda instruyen a sus spiders a no recuperar (colocar en el motor de bsqueda)
pginas con URLs que contengan ?. Esto puede dar lugar a que los contenidos de un
sitio completo que utilice scripts sean excludos del motor de bsqueda, o que un
motor de bsqueda pueda arrastrar una parte segura de un sitio y omitir otras. Un

spider no tiene la libertad y la creatividad que t tienes para saltar dentro de un sitio
inteligentemente.
Categora 4: Pginas basadas en script, que llevan un "chivato" ? en su
URL:
EJEMPLOS de bases de datos cuyos contenidos son generados
completamente en script: Google. No hay URLs estticas en estos sitios para
el tipo de cosas que se puede acceder buscando, y si las hubiera, los spiders
de los motores de bsqueda escogeran no indexarlos. Ellos son doblemente
invisibles (por un lado caen en la Categora 1, y por el otro, son excludos
por poltica).
Un EJEMPLO de un sitio que utiliza parcialmente scripts es Librarians'
Index. Algunos de los links en el directorio con opcin de bsqueda que
empiezan en la pgina principal estn basados en script (contienen ?), y
otros no. Google y otros motores de bsqueda contienen las pginas sin
ningn ?, pero no ninguna que s contenga un ?.
La pgina LII de Automobile (http://lii.org/search/file/automobiles) est en
Google, pero la pgina LII de Motorcycles (http://lii.org/search?title=Motorcycles;
query=Motorcycles; searchtype=subject) no est. Ntese el signo de interrogacin.
El spider de Google es tcnicamente capaz de recuperar ambas pginas
siguiendo sus enlaces, tal como t puedes haciendo clic en ellos. Pero,
debido al ?, omite la pgina "Motorcycles".
En Yahoo!, cuando se hace clic en los enlaces (manera en que un spider
tendra que hacerlo) no hay ? en las URLs resultantes. Pero si buscas
Yahoo!, todas las URLs contienen ? indicando scripts. Adivina cules URLs
encontrars
en
un
motor
de
bsqueda?

La Ambigedad Inherente a la Web Invisible


Es muy difcil predecir qu sitios o tipos de sitios o porciones de sitios sern o no parte de
la Web Invisible. Hay variosfactores involucrados:
- Cules sitios replican algunos de sus contenidos en pginas estticas (hbridos de
visible
e
invisible
en
alguna
combinacin)?
- Cules replican todo (visible en los motores de bsqueda si se construye una
bsqueda
que
coincida
con
la
pgina)?
- Cules no replican nada y deben ser buscadas directamente (totalmente invisible)?
- A menudo no sabes si una pgina tiene un ? en su URL hasta despus que la has
encontrado
de
alguna
manera
(excluda
por
poltica).
- Los motores de bsqueda pueden cambiar sus polticas sobre qu excluir y qu
incluir.

Quieres Saber Ms Acerca de la Web Invisible?

Presentacin clara de los aspectos bsicos con bibliografa: Invisible Web de Liane
Luckman

Un nuevo libro: Gary Price & Chris Sherman. The Invisible Web : Uncovering
Information Sources Search Engines Can't See. CyberAge Books, July 2001. ISBN
091096551X (Paper $29.95).

Extractos de los captulos 4 y 6 de este libro han sido adaptados o reimpresos en:
Gary Price & Chris Sherman. "Premier(e) Books: The Invisible Web," SEARCHER
[magazine], vol. 9, no. 6, June 2001. Pages 62-74. This article is available for a fee
from
Northern
Light
Special
Collection

NOTA: el autor no est de acuerdo con algunas de las, a su juicio, demasiado confusas explicaciones
en este artculo, opina que los autores hacen la Web Invisible ms complicada de lo que es.

Una discusin inteligente puede encontrarse en: Robert J. Lackie, Those Dark
Hiding Places: The "Invisible Web" Revealed

http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web.html

Otros links de posible inters sobre la Web Invisible estn disponibles bajo este
tpico en About.com

SearchAbility Descripciones de muchos directorios y listas de bases de datos con


opcin de bsqueda extensivamente comentadas, valoradas y descritas. Excelente
informacin sobre bases de datos especializadas con opcin de bsqueda en la web.

También podría gustarte