Está en la página 1de 4

Internet profunda

Ir a la navegaciónIr a la búsqueda
«Deep web» redirige aquí. Para el documental, véase Deep Web (documental).

Cifrado de la Internet profunda

Internet profunda1 (del inglés, deep web), internet invisible2 o internet oculta3 es el
contenido de internet que no está indexado por los motores de búsqueda convencionales,
debido a diversos factores.4 El término se atribuye al informático Mike Bergman.5 Es el
opuesto al Internet superficial.

Índice

 1Origen
 2Tamaño
 3Motivos
 4Denominación
 5Internet académica invisible
o 5.1Tamaño de la Internet académica invisible.
 6Rastreando la internet profunda
 7Métodos de profundización
o 7.1Las arañas (web crawlers)
o 7.2Tor
o 7.3Criptomoneda
 8Recursos de la internet profunda
 9Véase también
 10Referencias
 11Enlaces externos

Origen[editar]
La principal causa de la existencia de la internet profunda es la imposibilidad de los
motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la
información existente en Internet. Si los buscadores tuvieran la capacidad para acceder a
toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su
totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información
de la internet profunda esto no significaría que esta dejara de existir, ya que siempre
existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la
información de estas páginas y sólo determinados usuarios, aquellos con contraseñas o
códigos especiales, pueden hacerlo.
En la Deep Web pueden establecerse contactos que no son monitoreados, nadie está allí
observando. Además las transferencias tanto de mercancía como de pagos son
prácticamente imposible de rastrear. La web está dividida en dos partes, la web
superficial y la web profunda. Esta última es la que se conoce como Deep Web, donde se
ubica todo contenido que no es indexable por los buscadores, o al que los usuarios no
pueden acceder mediante un buscador
web como DuckDuckGo, Startpage, Yandex, Ecosia, Yahoo!, Google o Bing.
La internet profunda no es una región prohibida o mística de internet, y la tecnología
relacionada con ella por lo general no es conspirativa, peligrosa o ilegal. En ella se alberga
todo tipo de recurso al que se es difícil de acceder mediante métodos comunes como los
motores de búsqueda populares.
Una parte de la internet profunda consiste en redes internas de instituciones científicas y
académicas que forman la denominada Academic Invisible Web: («Internet académica
invisible») la cual se refiere a las bases de datos que contienen avances tecnológicos,
publicaciones científicas, y material académico en general a los cuales no se pueden
acceder fácilmente.6

Tamaño[editar]
La internet profunda es un conjunto de sitios web y bases de datos que buscadores
comunes no pueden encontrar ya que no están indexadas. El contenido que se puede
hallar dentro de la internet profunda es muy amplio.7
El internet se ve dividido en dos ramas, la internet profunda y la superficial. La internet
superficial se compone de páginas indexadas en servidores DNS con una alfabetización y
codificación de página perfectamente entendible por los motores de búsqueda, mientras
que la internet profunda está compuesta de páginas cuyos dominios están registrados con
extensiones .onion y los nombres de los dominios están codificados en una trama HASH.
Estas páginas se sirven de forma ad hoc, y no necesitan registrarse, basta con que tu
ordenador tenga funcionando un servicio onion, que hará las veces de un servicio dns,
pero especial para las páginas del internet profundo. Mediante una red P2P, se replican las
bases de datos que contienen la resolución de nombres HASH.
Mientras que las páginas normales son identificadas mediante el protocolo UDP/IP, las
páginas .onion son repetidas por el ramal al que se ha conectado el navegador
especializado para tal sistema de navegación segura. El sistema de búsqueda es el mismo
que usa BitTorrent. El contenido se coloca en una base de datos y se proporciona sólo
cuando lo solicite el usuario.8
En 2010 se estimó que la información que se encuentra en la internet profunda es de
7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que
se puede encontrar en la internet superficial. En comparación, se estima que la internet
superficial contiene solo 19 terabytes de contenido y un billón de documentos individuales.
También en 2010 se estimó que existían más de 200 000 sitios en la internet profunda.9
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en
Berkeley especula que actualmente la internet profunda debe tener unos 91 000
terabytes.10
La Association for Computing Machinery (ACM) publicó en 2007 que Google y Yahoo
indexaban el 32 % de los objetos de la internet profunda, y MSN tenía la cobertura más
pequeña con el 11 %. Sin embargo, la cobertura de los tres motores era de 37 %, lo que
indicaba que estaban indexando casi los mismos objetos.11

Motivos[editar]
Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
 Documentos o información oculta: Pdfs que no se encuentran en las paginas
indexadas, listas de datos no publicas (sobre todo los ciber-criminales)...
 Web contextual: páginas cuyo contenido varía dependiendo del contexto (por
ejemplo, la dirección IP del cliente, de las visitas anteriores, etc.).
 Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por
ejemplo, datos enviados a través de un formulario.
 Contenido de acceso restringido: páginas protegidas con contraseña, contenido
protegido por un Captcha, etc.
 Contenido No HTML: contenido textual en archivos multimedia, otras extensiones
como exe, rar, zip, etc.
 Software: Contenido oculto intencionadamente, que requiere un programa o protocolo
específico para poder acceder (ejemplos: Tor, I2P, Freenet)
 Páginas no enlazadas: páginas de cuya existencia no tienen referencia los
buscadores; por ejemplo, páginas que no tienen enlaces desde otras páginas.

Denominación[editar]
Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder por
medio de la World Wide Web que los buscadores de uso general no pueden, debido a
limitaciones o deliberadamente, agregar a sus índices de páginas web.
La Web profunda se refiere a la colección de sitios o bases de datos que un buscador
común, como Google, no puede o no quiere indexar. Es un lugar específico del internet
que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado
con la identidad de uno, a menos que uno lo desee.12
Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of
Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web invisible»
en 1994 para referirse a los sitios web que no están registrados por ningún motor de
búsqueda.13
En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:14
Sería un sitio que, posiblemente, esté diseñado razonablemente, pero no se molestaron en
registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás
oculto. Yo llamo a esto la Web invisible.
Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo
B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web
profunda, en un comunicado de prensa de diciembre de 1996.15
La importancia potencial de las bases de datos de búsqueda también se reflejó en el
primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció a bombo y platillo
a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida
por AOL en 1998, y poco después el servicio AT1 fue abandonado.13
El primer uso del término específico de web profunda, ahora generalmente aceptada,
ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:

 Muchos usuarios asumen que la única forma de acceder a la web es consultando un


buscador.
 Alguna información puede ser encontrada más fácilmente que otra, pero esto no
quiere decir que esté invisible.
 La web contiene información de diversos tipos que es almacenada y recuperada en
diferentes formas.
 El contenido indexado por los buscadores de la web es almacenado también en bases
de datos y disponible solamente a través de las peticiones o consultas del usuario, por
tanto no es correcto decir que la información almacenada en bases de datos es
invisible.16

Internet académica invisible[editar]


Se denomina Internet Académica Invisible o Academic Invisible Web (AIW) a el conjunto
de bases de datos y colecciones relevantes para la academia, o con fines académicos,
que no es posible ser buscado por los motores de búsqueda convencionales 6. La
preocupación sobre este tema radica en que millones de documentos permanecen
invisibles frente a los ojos de los usuarios convencionales. Dentro de estos documentos se
pueden encontrar artículos, libros, reportes, documentos de acceso abierto, datos de
encuestas, entre otros. El problema con los motores de búsqueda convencionales es que
no muestran aquellos datos que cambian constantemente, como información climática o
imágenes satelitales y dicha información, al cambiar de manera tan rápida es imposible de
ser indexada por lo que restringe su aparición en los motores de búsqueda
convencionales.17
Una aproximación al indexamiento y apertura de la Internet académica invisible son los
motores de búsqueda que se centran en información académica, como Google
Scholar o Scirus. El problema de estos motores de búsqueda mencionados anteriormente
es que fueron creados por compañías comerciales. El portal de ciencia Vascoda ha
demostrado ser la alternativa más efectiva para eliminar el espacio entre la Internet
académica visible e invisible ya que integra bases de datos de literatura, colecciones de
librerías y demás contenido académico mediante un indexamiento basado en el uso de
las etiquetas de cada uno de los dominios que albergan dicha información.6
Cabe resaltar que no toda la ausencia de esta información en la Internet Visible se debe a
los motores de búsqueda, otro de estos factores se debe a que algunos de estos
documentos son propiedad de editoriales de base de datos.
Tamaño de la Internet académica invisible.[editar]
El intento más acertado por realizar una medición de la cantidad de documentos
académicos presentes en la web invisible fue realizado por Bergman en 2001 en su
estudio The Deep Web: Surfacing Hideen Value17. En dicha investigación Bergman realizó
un listado de los 60 sitios académicos más largos de la Deep Web entre los que se
encontraba el National Climatic Data Center (NOAA), NASA EOSDIS, National
Oceanographic (combined with Geophysical) Data Center (NOAA), entre otras.

También podría gustarte