Está en la página 1de 6

DEEP WEB

Web Profunda
Sergio Shovanny Hern andez Betanzos
Universidad del Papaloapan
Loma Bonita
June 27, 2014
Abstract
Se denomina web invisible o profunda a la informaci on que no puede
recuperarse con los mecanismos de b usqueda comunes. Estos mecanismos
tratan de abarcar toda la web, pero se calcula que los mayores motores
de b usqueda alcanzan a indizar s olo entre un tercio y la mitad de los doc-
umentos disponibles. La web invisible no s olo es de mayor tama no que
la web visible o supercial sino que crece a mayor velocidad. Asimismo,
mucha informaci on disponible en la web profunda, como la que sencuen-
tra en bases de datos, tiene un alto valor potencial para el usuario. La
multiplicidad de mecanismos de rastreo, indizacion, recuperacion y organi-
zaci on de documentos en la web puede causar confusi on al usuario com un.
Adem as, el n umero de motores de b usqueda, as como los hbridos resul-
tado de la combinacion de diferentes mecanismos, ha aumentado. Esto
hace necesario clasicar y diferenciar los tipos de herramientas disponibles.
En este documento recomiendo algunas estrategias utiles para la b usqueda
en la web y presento una compilaci on de recursos de b usqueda en la web
invisible o profunda.
1 ORIGENES
El termino ?web invisible? fue utilizado por primera vez por la Dra. Jill
Ellsworth para denominar la informaci on que resultaba ?invisible? para
las maquinarias de b usqueda convencionales en la web (Ellsworth, 1995).
Tambien se la denomina ?web profunda? (deep web), por oposici on a la
?web supercial? (surface web) cuya informaci on puede recuperarse con
los buscadores de Internet (Bergman, 2000).
Un buscador es un sitio web cuyo prop osito principal consiste en que el
p ublico pueda encontrar informacion. Estos mecanismos y el software que
los apoya tratan de indizar toda la web, por lo que generan y mantienen
enormes bases de datos recuperables. A pesar de su pretendida exhaus-
tividad, se calcula que los mayores motores de b usqueda indizan s olo entre
un tercio y la mitad de los documentos disponibles al p ublico en la Red
(Turner, 2003). Un estudio muy citado de Bright Planet ha estimado
1
que la informaci on contenida en la web invisible es aproximadamente 550
veces mayor que la de la web supercial y crece a mucha mayor veloci-
dad (Bergman, 2000). Un estudio posterior de Cyveillance calcula que el
tama no de la web profunda es 275 veces mayor que el de la web visible
(Murray, 2000, citado en Ouf, 2001). Estimaciones posteriores, en cambio,
se nalan que el tama no de la web invisible es s olo entre 2 y 50 veces mayor
que el de la web visible (Sherman y Price, 2001b). Las diferencias en las
cifras se deben a las diferentes metodologas utilizadas por los autores.
En cualquier caso, el valor de la informaci on contenida en la llamada web
profunda justica su estudio y el de sus formas de acceso.
1.1 Mecanismos de B uqueda
La multiplicidad de terminos con que se alude a los mecanismos de rastreo,
indizaci on,recuperaci on y organizaci on de documentos en la web puede
causar confusi on al usuario com un. Lo cierto es que cada herramienta de
b usqueda funciona y tiene un prop osito y alcance diferentes, pero cada
vez m as las diferentes herramientas se combinan dando lugar a hbridos,
que pueden dicultar la comprensi on del funcionamiento interno de estos
mecanismos. Una dicultad adicional es el n umero creciente de mecanis-
mos disponibles, lo que hace a un m as necesario clasicarlos y diferencia-
rlos.
1.2 Buscadores
A los softwares que usan los llamados buscadores, motores o maquinar-
ias de b usqueda (search engines) para localizar paginas agregables a sus
bases de datos tambien se les denomina indistintamente ?ara nas? (spi-
ders), ?rastreadores? (crawlers) o robots (en el contexto web). Estos
rastrean e indizan de forma autom atica p aginas web, as como todos los
documentos referenciados en ellas. Los buscadores tambien a naden a sus
bases de datos las paginas de cuya existencia son informados directamente
por sus autores, as como los documentos referenciados en las mismas. Los
buscadores presentan interfaces para el p ublico, que consisten en cuadros
donde realizar b usquedas de forma sencilla. Opera, Mozilla Firefox, Ya-
hoo, Bing y Google, entre otros, son buscadores.
Los buscadores arrojan resultados sobre las b usquedas realizadas en
sus propios ndices y no sobre la web directamente. Esto ultimo sera
imposible debido al volumen de informaci on y al tiempo requerido para
realizar la b usqueda. El rastreo de p aginas web que efect uan los robots
se realiza con periodicidad variable y, por economa, tiende a no ser muy
frecuente. Por ello, siempre existe una diferencia entre lo que pueden
recuperar los buscadores y lo que realmente se encuentra en la web.
Aparte del volumen y frecuencia de indizaci on de documentos, la difer-
encia m as notoria entre los buscadores es su f ormula para calcular la rele-
vancia de la informaci o recuperada y ordenar as su presentaci on. Algunos
buscadores se basan en un an alisis estadstico de frecuencia de palabras
en el texto, otros en el an alisis de la frecuencia con que las p aginas est an
ligadas a otras. En algunos casos, los buscadores muestran los resulta-
dos indicando el grado de relevancia de cada documento, mediante signos
2
como estrellas, o bien con porcentajes.
Un estudio del 2000 (Notess, citado por Sherman y Price, 2001b) de-
mostr o que existe poco solapamiento entre buscadores, lo cual tal vez
justica su proliferaci on, ya que cada uno va cubriendo diferentes areas
del espacio web, sin que por ahora sea posible tecnicamente que ninguno
sea exhaustivo.
1.3 Metabuscadores
Los metabuscadores (metasearch engines) son servidores web que realizan
b usquedas en muchos buscadores y/o directorios y presentan un resumen
de los resultados, eliminando duplicaciones. Los metabuscadores no se
sirven de robots, sino que van a buscar directamente a los ndices de cada
buscador. Dogpile, Mamma, Metacrawler o InfoSpace son ejemplos de
metabuscadores.
Los metabuscadores, al igual que los buscadores, suelen presentar los
resultados ordenados por relevancia y muchas veces indican de que bus-
cadores especcos se ha recuperado cada documento.
Una limitacion de los metabuscadores es que no suelen presentar op-
ciones de b usqueda avanzada, con lo cual se sacrica la precisi on en los
resultados de las b usquedas. Existen sitios web concentradores de bus-
cadores y/o directorios, donde es posible realizar b usquedas sucesivas en
varios de ellos, seleccionandolos de listas preestablecidas. A veces, en es-
tos directorios los buscadores y/o directorios se encuentran clasicados por
especialidad o cobertura geogr aca. En otros casos, como en Metasearch
por ejemplo, existe un mecanismo que traduce la f ormula de b usqueda y
permite realizar b usquedas sucesivas en varios buscadores y/o directorios.
1.4 ESTRATEGIAS DE B

USQUEDA WEB
1.4.1 Estrategias Generales
Muchas veces, resulta tan frustrante no encontrar informaci on en la web,
como confuso disponer de demasiadas opciones de b usqueda y no saber
c omo emprenderla. A continuacion presento algunas estrategias generales
que deben tenerse en cuenta para utilizar las diferentes herramientas de
b usqueda en la web de forma m as rapida y eciente. Los rubros bajo los
cuales aparecen son orientativos.
Usar varios recursos de b usqueda, y no ce nirse a uno exclusivamente
para todos los tipos de b usqueda.
Elaborar y mantener una lista propia de buscadores, metabuscadores,
directorios, guas y recursos m as utiles. Guardar la selecci on en un
archivo de ?Favoritos? (bookmarks) en nuestra computadora y/o en
un servicio de acceso remoto a ?favoritos? que permita consultar
el archivo desde cualquier computadora con acceso a la web, como
Backip.
Consultar a los bibliotecarios para recibir orientaci on sobre estrate-
gias de b usqueda y localizaci on de recursos de informaci on en la web,
y para obtener documentos. Selecci on de herramientas
3
Usar los tutoriales para aprender a seleccionar y utilizar las diferentes
herramientas de b usqueda.
1.4.2 Objetivo de B usqueda
Usar buscadores o metabuscadores para localizar informaci on de la que
poseemos datos especcos. Usar directorios o guas para explorar areas
de interes tem atico.
1.4.3 Forma de B usqueda
Usar buscadores o metabuscadores para realizar b usquedas por palabras.
Usar directorios o guas para revisar por categoras.
1.4.4 Especializacion de la b usqueda
Usar metabuscadores para realizar b usquedas generales en muchos bus-
cadores a la vez. Usar los concentradores o directorios de buscadores para
buscar en varios buscadores especializados.
1.4.5 Precision de la b usqueda
Seleccionar e instalar en nuestra computadora la versi on gratuita de alg un
motor avanzado o agente auxiliar para las b usquedas en la web. Solicitar
la adquisici on para uso institucional de la versi on completa de alg un motor
avanzado o agente auxiliar para las b usquedas en la web
1.5 CARACTERISTICAS DE LA WEB PRO-
FUNDA
1.5.1 Sherman y Price (2001a)
identican cuatro tipos de contenidos invisibles en la web: la web opaca
(the opaque web), la web privada (the private web), la web propietaria
(the proprietary web) y la web realmente invisible (the truly invisible
web).
1.5.2 Web Opaca
Se compone de archivos que podran estar incluidos en los ndices de los
motores de b usqueda, pero no lo est an por alguna de estas razones: Ex-
tensi on de la indizaci on: por economa, no todas las p aginas de un sitio
son indizadas en los buscadores;Frecuencia de la indizaci on: los motores
de b usqueda no tienen la capacidad de indizar todas las p aginas existentes;
diariamente se a naden, modican o desaparecen muchas y la indizaci on no
se realiza al mismo ritmo;N umero m aximo de resultados visibles: aunque
los motores de b usqueda arrojan a vecesun gran n umero de resultados de
b usqueda, generalmente limitan el n umero de documentos que se mues-
tran (entre 200 y 10 documentos); URL?s desconectados: las generaciones
m as recientes de buscadores, como Google, presentan los documentos por
4
relevancia basada en el n umero de veces que aparecen referenciados o lig-
ados en otros. Si un documento no tiene una liga en otro documento ser a
imposible que la p agina sea descubierta, pues no habr a sido indizada.
1.5.3 Web Privada
Consiste en las paginas web que podran estar indizadas en los motores de
b usqueda pero son excluidas deliberadamente por alguna de estas causas:
Las p aginas est an protegidas por contrase nas (passwords);Contienen un
archivo ?robots.txt? para evitar ser indizadas; Contienen un campo ?noin-
dex? para evitar que el buscador indice la parte correspondiente al cuerpo
de la p agina.
1.5.4 La web propietaria
Incluye aquellas p aginas en las que es necesario registrarse para tener
acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al
menos 95 porciento de la web profunda contiene informaci on de acceso
p ublico y gratuito (Turner, 2003).
1.5.5 La web realmente invisible
Se compone de p aginas que no pueden ser indizadas por limitaciones
tecnicas de los buscadores, como las siguientes: P aginas web que incluyen
formatos como PDF, PostScript, Flash, Shockwave, programas ejecuta-
bles y archivos comprimidos; P aginas generadas din amicamente, es decir,
que se generan a partir de datos que introduce el usuario.Informaci on
almacenada en bases de datos relacionales, que no puede ser extrada a
menos que se realice una petici on especca. Otra dicultad consiste en
la variable estructura y dise no de las bases de datos, as como en los
diferentes procedimientos de b usqueda.
1.6 HERRAMIENTAS
1.6.1 TOR
Tor es un software gratuito y de una red abierta que le ayuda a defend-
erse contra una forma de vigilancia que amenaza la libertad personal y la
privacidad, la condencialidad en los negocios y relaciones, y la seguridad
del estado conocido como an alisis de tr aco. Tor le protege transmitiendo
sus comunicaciones a una red distribuida de repetidores llevados por vol-
untarios de todo el mundo: evita que alguien que observa su conexi on a
Internet aprenda que sitios visita, y evita que los sitios que visita aprendan
su posici on fsica.
Tor funciona con muchas de sus aplicaciones existentes, incluyendo
navegadores web, clientes de mensajera instant anea, acceso remoto, y
otras aplicaciones basadas en el protocolo TCP.
5
1.6.2 Como funciona Tor?
The Onion Router, en su forma abreviada Tor, es un proyecto cuyo obje-
tivo principal es el desarrollo de una red de comunicaciones distribuida de
baja latencia y superpuesta sobre internet en la que el encaminamiento de
los mensajes intercambiados entre los usuarios no revela su identidad, es
decir, su direcci on IP (anonimato a nivel de red) y que, adem as, mantiene
la integridad y el secreto de la informaci on que viaja por ella. Por este
motivo se dice que esta tecnologa pertenece a la llamada darknet o red os-
cura tambien conocida con el nombre de deep web o web profunda.[Fuente
Original: Roger Dingledine, Nick Mathewson].
La red de Tor, en la que cualquiera puede participar como nodo volun-
tario, consta de mas de 4.000 m aquinas repartidas por decenas de pases
de todo el mundo. Esta cantidad de nodos garantiza anonimato y conec-
tividad para los usuarios de Tor.
Usar Tor te protege contra una forma habitual de vigilancia en Internet
conocida como an alisis de tr aco. El an alisis de traco puede usarse
para deducir quien esta hablando a quien sobre una red p ublica. Conocer
el origen y el destino de tu tr aco de Internet permite a otros seguir el
rastro de tu comportamiento e intereses.
Esto puede impactar sobre tu chequera si, por ejemplo, un sitio de
comercio electronico utiliza discriminaci on de precios basandose en el pas
o instituci on de origen. Puede incluso amenazar tu trabajo y seguridad
fsica revelando quien eres y donde est as. Por ejemplo, si estas viajando
por el extranjero y te conectas al computador de tu empresa para revisar o
enviar correo t u puedes revelar inadvertidamente tu nacionalidad y tu al-
iaci on profesional a cualquiera que vigile la red, incluso si la comunicaci on
est a encriptada.
La mayora de la gente lo ocupa para recibir la informaci on verdadera
(la informaci on es poder), para difundir sus ideales sin censura, para hack-
ear, por morbo (si snu, gore, xxx, pedoia, etc) o simplemente por cu-
riosidad, para abrir paginas que para los simples mortales no les es posible
ver por que viven en un lugar donde el internet esa censurado cof cof..
.China etc.
References
[1] Deep Web, Web Profunda DW Web-Seite: http://thehackernews.
com/2012/05/what-is-deep-web-first-trip-into-abyss.html
[2] Herramienta, Tor tor Web-Seite: http://es.wikipedia.org/wiki/
Tor
6

También podría gustarte