Está en la página 1de 4

Web Superficial y Web Profunda

P
ara buscar bien, es imprescindible tener en cuenta, que adems de los buscadores
convencionales, hay disponibles otras fuentes especficas de informacin.

Los buscadores tradicionales slo ofrecen acceso a una pequea parte de lo que existe online, lo
que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o
invisible, es un amplio banco de informacin ubicado en catlogos, revistas digitales, blogs,
entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros
tipos de contenido que no aparecen entre los resultados de una bsqueda convencional.

La Web Superficial o visible


La Web Superficial comprende todos aquellos sitios cuya informacin puede ser indexada por los
robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta
en sus formularios de bsqueda.
Las caractersticas principales de los sitios de la Web visible son:
su informacin no est contenida en bases de datos
es de libre acceso
no se requiere la realizacin de un proceso de registro para acceder a la informacin.
mayoritariamente est formada por pginas Web estticas, es decir pginas o archivos
con una URL fija y accesibles desde otro enlace.
La Web Profunda o invisible
Web invisible es el trmino utilizado para describir toda la informacin disponible en Internet que
no se recupera interrogando a los buscadores convencionales. Generalmente es informacin
almacenada y accesible mediante bases de datos.
Parte de la informacin es "invisible" a los robots de los buscadores convencionales, ya que los
resultados se generan en la contestacin a una pregunta directa mediante pginas dinmicas (ASP,
PHP, etc.) es decir pginas que no tienen una URL fija y que se construyen en el mismo instante
(temporales) desapareciendo una vez cerrada la consulta.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the
opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la
Web realmente invisible (the truly invisible Web).

MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX


- La Web opaca est compuesta por archivos que, si bien podran estar incluidos en los
ndices de los buscadores, no lo estn por alguno de los siguientes motivos:

Extensin de la indizacin: a veces, por economa, no todas las pginas de un sitio son
indizadas en los buscadores.
Frecuencia de la indizacin: los buscadores no poseen la capacidad de indizar todas las
pginas existentes; a diario se agregan y modifican muchas y la indizacin no se realiza
al ritmo que permita incluirlas a todas.
Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a
veces un gran nmero de resultados, generalmente limitan el nmero de documentos
que se muestran (entre 200 y 1000).
URL desconectadas: las generaciones ms recientes de buscadores, presentan los
documentos por relevancia basada en el nmero de veces que aparecen referenciados
en otros. Si un documento no tiene un link a l, desde otro documento, ser imposible
que la pgina sea encontrada, pues no se encuentra indizada.

- La Web privada consiste en las pginas Web que podran estar indizadas en los
buscadores pero son excluidas deliberadamente por alguno de estos motivos:

Las pginas estn protegidas por contraseas.


Contienen un archivo robots.txt para evitar ser indizadas.
Contienen un campo noindex para evitar que el buscador pueda indizar la parte
correspondiente al cuerpo de la pgina.
Este segmento de la Web contiene, en general, documentos excluidos deliberadamente
por su falta de utilidad. Ya que son los dueos de la informacin que contienen, los que
deciden que no se encuentre disponible, por lo que difcilmente se podrn encontrar
mecanismos legtimos para franquear esa barrera.

- La Web propietaria incluye aquellas pginas en las que es necesario registrarse para tener
acceso al contenido, ya sea de forma gratuita o arancelada.

- La Web realmente invisible se compone de pginas que no pueden ser indizadas por
limitaciones tcnicas de los buscadores, programas ejecutables y archivos comprimidos,
pginas generadas dinmicamente, es decir, que se generan a partir de datos que
introduce el usuario, informacin almacenada en bases de datos relacionales, que no
puede ser extrada a menos que se realice una peticin especfica.

MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX


Veamos algunos de los recursos de bsqueda en la Web Profunda, que si bien los sitios estn
desarrollados en idioma ingls, las bsquedas pueden realizarse en espaol, utilizando los
cuadros de texto.

The WWW Virtual Library (http://vlib.org/) se considera el catlogo ms antiguo en la


web y fue iniciado por Tim Berners-Lee, el creador de la web.

Academia.edu (https://www.academia.edu) es una red social 2.0 para investigadores que


cuenta con un directorio de ms de 12.000 publicaciones cientficas de todo el mundo,
facilitando la tarea de los que buscan artculos para sus trabajos. Lanzado en septiembre
de 2008, se convirti en uno de los mayores sitios de redes sociales para universitarios en
el ao 2010. Actualmente tiene 830.000 visitantes mensuales y cuenta con ms de
191.000 acadmicos de todo el mundo.

Reefseek.com (http://www.refseek.com/) es un motor de bsqueda en Internet para


estudiantes e investigadores que tiene como objetivo hacer que la informacin acadmica
sea de fcil acceso para todos. Busca en ms de un billn de documentos, incluyendo
pginas web, libros, enciclopedias, revistas y peridicos, intentando eliminar cualquier
resultado no relativo a ciencia e investigacin.

Jurn (http://www.jurn.org) es otro motor de bsqueda que permite buscar en millones de


artculos libres acadmicos, captulos y tesis de mltiples disciplinas (Artes, Historia,
Humanidades, Negocios, Economa, Ecologa, Ciencia y ms).

Microsoft Academic Search (http://academic.research.microsoft.com/) el buscador


acadmico de Microsoft.

TechXtra (http://techxtra.tradepub.com/) centra su informacin, en ingeniera,


matemticas e informtica. Es posible navegar a travs de una extensa lista de revistas
gratuitas especializadas de ingeniera, documentos tcnicos, descargas y podcasts.

Ciencia (http://ciencia.science.gov/) es la versin en espaol del portal Science.gov


(http://www.science.gov/ ) para la bsqueda de informacin cientfica e investigacin del
gobierno de los Estados Unidos de Amrica. Puede indexar ms de 60 bases de datos y 200
millones de pginas con informacin cientfica para mostrar los resultados por subtemas,
autores o fechas. Tambin ofrece la posibilidad de bsqueda avanzada y bsqueda de
imgenes.

MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX


Segn Lluis Codina: Internet invisible es un nombre claramente inadecuado para referirse al
sector de sitios y de pginas web que no pueden indizar los motores de bsqueda de uso pblico.
Debera denominarse, en realidad, la web "no indizable", lo cual es un trmino mucho ms
adecuado.

MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX

También podría gustarte