Está en la página 1de 2

Motivos[editar]

Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:

 Documentos o información oculta: Archivos pdf que no se encuentran en las


páginas indexadas, listas de datos no públicas (sobre todo los ciber-criminales).
 Web contextual: páginas cuyo contenido varía dependiendo del contexto (por
ejemplo, la dirección IP del cliente, de las visitas anteriores, etc).
 Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros,
por ejemplo, datos enviados a través de un formulario.
 Contenido de acceso restringido: páginas protegidas con contraseña, contenido
protegido por un Captcha, etc.
 Contenido No HTML: contenido textual en archivos multimedia, otras extensiones
como exe, rar, zip, etc.
 Software: Contenido oculto intencionadamente, que requiere un programa o
protocolo específico para poder acceder (ejemplos: Tor, I2P, Freenet)
 Páginas no enlazadas: páginas de cuya existencia no tienen referencia los
buscadores; por ejemplo, páginas que no tienen enlaces desde otras páginas.

Denominación[editar]
La Web profunda se refiere a la colección de sitios o bases de datos que un buscador
común, como Google o bing no pueden o no quiere indexar. Es un lugar específico del
internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser
asociado con la identidad de uno, a menos que uno lo desee. 12
Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of
Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web invisible»
en 1994 para referirse a los sitios web que no están registrados por ningún motor de
búsqueda.13
En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:14
Sería un sitio que, posiblemente, esté diseñado razonablemente, pero no se molestaron en
registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás
oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo
B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web
profunda, en un comunicado de prensa de diciembre de 1996. 15
La importancia potencial de las bases de datos de búsqueda también se reflejó en el
primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció a bombo y platillo
a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida
por AOL en 1998, y poco después el servicio AT1 fue abandonado. 13
El primer uso del término específico de web profunda, ahora generalmente aceptada,
ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:

 Muchos usuarios asumen que la única forma de acceder a la web es consultando


un buscador.
 Alguna información puede ser encontrada más fácilmente que otra, pero esto no
quiere decir que esté invisible.
 La web contiene información de diversos tipos que es almacenada y recuperada en
diferentes formas.
 El contenido indexado por los buscadores de la web es almacenado también en
bases de datos y disponible solamente a través de las peticiones o consultas del
usuario, por tanto no es correcto decir que la información almacenada en bases de
datos es invisible.16

Internet académica invisible[editar]


Se denomina Internet Académica Invisible o Academic Invisible Web (AIW) al conjunto de
bases de datos y colecciones relevantes para la academia, o con fines académicos, que
no es posible ser buscado por los motores de búsqueda convencionales 6. La
preocupación sobre este tema radica en que millones de documentos permanecen
invisibles frente a los ojos de los usuarios convencionales. Dentro de estos documentos se
pueden encontrar artículos, libros, reportes, documentos de acceso abierto, datos de
encuestas, entre otros. El problema con los motores de búsqueda convencionales es que
no muestran aquellos datos que cambian constantemente, como información climática o
imágenes satelitales y dicha información, al cambiar de manera tan rápida es imposible de
ser indexada por lo que restringe su aparición en los motores de búsqueda
convencionales.17
Una aproximación al indexamiento y apertura de la Internet académica invisible son los
motores de búsqueda que se centran en información académica, como Google
Scholar o Scirus. El problema de estos motores de búsqueda mencionados anteriormente
es que fueron creados por compañías comerciales. El portal de ciefbssfsfncia Vascoda ha
demostrado ser la alternativa más efectiva para eliminar el espacio entre la Internet
académica visible e invisible ya sddfdque integra bases de datos de literatura, colecciones
de librerías y demás contenido académico mediante un indexamiento basado en el uso de
las etiquetas de cada uno de los dominios que albergan dicha información. 6
Cabe resaltar que no toda la ausencia de esta información en la Internet Visible se debe a
los motores de búsqueda, otro de estos factores se debe a que algunos de estos
documentos son propiedad de editoriales de base de datos.

Tamaño de la Internet académica invisible.[editar]


El intento más acertado por realizar una medición de la cantidad de documentos
académicos presentes en la web invisible fue realizado por Bergman en 2001 en su
estudio The Deep Web: Surfacing Hideen Value.17 En dicha investigación Bergman realizó
un listado de los 60 sitios académicos más largos de la Deep Web entre los que se
encontraba el National Climatic Data Center (NOAA), NASA EOSDIS, National
Oceanographic (combined with Geophysical) Data Center (NOAA), entre otras.

También podría gustarte