Deep Web

Internet profunda
Ir a la navegaciónIr a la búsqueda
«Deep web» redirige aquí. Para el documental, véase Deep Web (documental).
Cifrado de la Internet profunda

Internet profunda1 (del inglés, deep web), internet invisible2 o internet oculta3
es el contenido de internet que no está indexado por los motores de búsqueda
convencionales, debido a diversos factores.4 El término se atribuye al informático
Mike Bergman.5 Es el opuesto al Internet superficial.
Índice
1 Origen
2 Tamaño
3 Motivos
4 Denominación
5 Internet académica invisible
5.1 Tamaño de la Internet académica invisible.
6 Rastreando la internet profunda
7 Métodos de profundización
7.1 Las arañas (web crawlers)
7.2 Tor
7.3 Criptomoneda
8 Recursos de la internet profunda
9 Véase también
10 Referencias
11 Enlaces externos
Origen
La principal causa de la existencia de la internet profunda es la imposibilidad de
los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran
parte de la información existente en Internet. Si los buscadores tuvieran la
capacidad para acceder a toda la información entonces la magnitud de la «internet
profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de
búsqueda pudieran indexar la información de la internet profunda esto no
significaría que esta dejara de existir, ya que siempre existirán las páginas
privadas. Los motores de búsqueda no pueden acceder a la información de estas
páginas y sólo determinados usuarios, aquellos con contraseñas o códigos
especiales, pueden hacerlo.
En la Deep Web pueden establecerse contactos que no son monitoreados, nadie está
allí observando. Además las transferencias tanto de mercancía como de pagos son
prácticamente imposible de rastrear. La web está dividida en dos partes, la web
superficial y la web profunda. Esta última es la que se conoce como Deep Web, donde
se ubica todo contenido que no es indexable por los buscadores, o al que los
usuarios no pueden acceder mediante un buscador web como DuckDuckGo, Startpage,
Yandex, Ecosia, Yahoo!, Google o Bing.
La internet profunda no es una región prohibida o mística de internet, y la

tecnología relacionada con ella por lo general no es conspirativa, peligrosa o
ilegal. En ella se alberga todo tipo de recurso al que se es difícil de acceder
mediante métodos comunes como los motores de búsqueda populares.
Una parte de la internet profunda consiste en redes internas de instituciones

científicas y académicas que forman la denominada Academic Invisible Web:
(«Internet académica invisible») la cual se refiere a las bases de datos que
contienen avances tecnológicos, publicaciones científicas, y material académico en
general a los cuales no se pueden acceder fácilmente.6
Tamaño
La internet profunda es un conjunto de sitios web y bases de datos que buscadores
comunes no pueden encontrar ya que no están indexadas. El contenido que se puede
hallar dentro de la internet profunda es muy amplio.7
El internet se ve dividido en dos ramas, la internet profunda y la superficial. La

internet superficial se compone de páginas indexadas en servidores DNS con una
alfabetización y codificación de página perfectamente entendible por los motores de
búsqueda, mientras que la internet profunda está compuesta de páginas cuyos
dominios están registrados con extensiones .onion y los nombres de los dominios
están codificados en una trama HASH. Estas páginas se sirven de forma ad hoc, y no
necesitan registrarse, basta con que tu ordenador tenga funcionando un servicio
onion, que hará las veces de un servicio dns, pero especial para las páginas del
internet profundo. Mediante una red P2P, se replican las bases de datos que
contienen la resolución de nombres HASH.
Mientras que las páginas normales son identificadas mediante el protocolo UDP/IP,
las páginas .onion son repetidas por el ramal al que se ha conectado el navegador
especializado para tal sistema de navegación segura. El sistema de búsqueda es el
mismo que usa BitTorrent. El contenido se coloca en una base de datos y se
proporciona sólo cuando lo solicite el usuario.8
En 2010 se estimó que la información que se encuentra en la internet profunda es de

7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de
lo que se puede encontrar en la internet superficial. En comparación, se estima que
la internet superficial contiene solo 19 terabytes de contenido y un billón de
documentos individuales.
También en 2010 se estimó que existían más de 200 000 sitios en la internet
profunda.9
Estimaciones basadas en la extrapolación de un estudio de la Universidad de

California en Berkeley especula que actualmente la internet profunda debe tener
unos 91 000 terabytes.10
La Association for Computing Machinery (ACM) publicó en 2007 que Google y Yahoo
indexaban el 32 % de los objetos de la internet profunda, y MSN tenía la cobertura
más pequeña con el 11 %. Sin embargo, la cobertura de los tres motores era de 37 %,
lo que indicaba que estaban indexando casi los mismos objetos.11
Motivos
Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
Documentos o información oculta: Pdfs que no se encuentran en las páginas

indexadas, listas de datos no públicas (sobre todo los ciber-criminales)...
Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo,
la dirección IP del cliente, de las visitas anteriores, etc.).
Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por
ejemplo, datos enviados a través de un formulario.
Contenido de acceso restringido: páginas protegidas con contraseña, contenido
protegido por un Captcha, etc.
Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como
exe, rar, zip, etc.
Software: Contenido oculto intencionadamente, que requiere un programa o protocolo
específico para poder acceder (ejemplos: Tor, I2P, Freenet)
Páginas no enlazadas: páginas de cuya existencia no tienen referencia los
buscadores; por ejemplo, páginas que no tienen enlaces desde otras páginas.
Denominación
La Web profunda se refiere a la colección de sitios o bases de datos que un
buscador común, como Google, no puede o no quiere indexar. Es un lugar específico
del internet que se distingue por el anonimato. Nada que se haga en esta zona puede
ser asociado con la identidad de uno, a menos que uno lo desee.12
Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of

Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web
invisible» en 1994 para referirse a los sitios web que no están registrados por
ningún motor de búsqueda.13
En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en

1996:14
Sería un sitio que, posiblemente, esté diseñado razonablemente, pero no se
molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto,
nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.
Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y
Mateo B. Koll de Personal Library Software, en una descripción de la herramienta @
1 de web profunda, en un comunicado de prensa de diciembre de 1996.15
La importancia potencial de las bases de datos de búsqueda también se reflejó en el

primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció a bombo y
platillo a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida
por AOL en 1998, y poco después el servicio AT1 fue abandonado.13
El primer uso del término específico de web profunda, ahora generalmente aceptada,
ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:
Muchos usuarios asumen que la única forma de acceder a la web es consultando un

buscador.
Alguna información puede ser encontrada más fácilmente que otra, pero esto no
quiere decir que esté invisible.
La web contiene información de diversos tipos que es almacenada y recuperada en
diferentes formas.
El contenido indexado por los buscadores de la web es almacenado también en bases
de datos y disponible solamente a través de las peticiones o consultas del usuario,
por tanto no es correcto decir que la información almacenada en bases de datos es
invisible.16
Internet académica invisible
Se denomina Internet Académica Invisible o Academic Invisible Web (AIW) a el
conjunto de bases de datos y colecciones relevantes para la academia, o con fines
académicos, que no es posible ser buscado por los motores de búsqueda
convencionales 6. La preocupación sobre este tema radica en que millones de
documentos permanecen invisibles frente a los ojos de los usuarios convencionales.
Dentro de estos documentos se pueden encontrar artículos, libros, reportes,
documentos de acceso abierto, datos de encuestas, entre otros. El problema con los
motores de búsqueda convencionales es que no muestran aquellos datos que cambian
constantemente, como información climática o imágenes satelitales y dicha
información, al cambiar de manera tan rápida es imposible de ser indexada por lo
que restringe su aparición en los motores de búsqueda convencionales.17
Una aproximación al indexamiento y apertura de la Internet académica invisible son

los motores de búsqueda que se centran en información académica, como Google
Scholar o Scirus. El problema de estos motores de búsqueda mencionados
anteriormente es que fueron creados por compañías comerciales. El portal de ciencia
Vascoda ha demostrado ser la alternativa más efectiva para eliminar el espacio
entre la Internet académica visible e invisible ya que integra bases de datos de
literatura, colecciones de librerías y demás contenido académico mediante un
indexamiento basado en el uso de las etiquetas de cada uno de los dominios que
albergan dicha información.6
Cabe resaltar que no toda la ausencia de esta información en la Internet Visible se

debe a los motores de búsqueda, otro de estos factores se debe a que algunos de
estos documentos son propiedad de editoriales de base de datos.
Tamaño de la Internet académica invisible.

El intento más acertado por realizar una medición de la cantidad de documentos
académicos presentes en la web invisible fue realizado por Bergman en 2001 en su
estudio The Deep Web: Surfacing Hideen Value17. En dicha investigación Bergman
realizó un listado de los 60 sitios académicos más largos de la Deep Web entre los
que se encontraba el National Climatic Data Center (NOAA), NASA EOSDIS, National
Oceanographic (combined with Geophysical) Data Center (NOAA), entre otras.
Los sesenta sitios de la Deep Web más grandes17

Nombre Tipo URL Tamaño (GBs)
National Climatic Data Center (NOAA) Público
https://web.archive.org/web/20010801194159/http://www.ncdc.noaa.gov/ol/satellite/sa
telliteresources.html 366,000
NASA EOSDIS Público
https://web.archive.org/web/19991013045201/http://harp.gsfc.nasa.gov/
%7Eimswww/pub/imswelcome/plain.html 219,600
National Oceanographic (combined with Geophysical) Data Center (NOAA) Público/Pago
http://www.nodc.noaa.gov/, http://www.ngdc.noaa.gov/ 32,940
DBT Online Pago http://www.dbtonline.com/ 30,500
Alexa Público (parcial) http://www.alexa.com/ 15,860
Right-to-Know Network (RTK Net) Público http://www.rtk.net/ 14,640
Lexis-Nexis Pago http://www.lexis-nexis.com/lncc/ 12,200
Dialog Pago http://www.dialog.com/ 10,980
Genealogy - ancestry.com Pago http://www.ancestry.com/ 6,500
MP3.com Público http://www.mp3.com/ 4,300
Terraserver Público/Pago http://terraserver.microsoft.com/ 4,270
ProQuest Direct (incl. Digital Vault) Pago http://www.umi.com 3,172
Dun & Bradstreet Pago http://www.dnb.com 3,113
Westlaw Pago http://www.westlaw.com/ 2,684
Dow Jones News Retrieval Pago
https://web.archive.org/web/20000711092305/http://dowjones.wsj.com/p/main.html
2,684
HEASARC (High Energy Astrophysics Science Archive Research Center) Público
http://heasarc.gsfc.nasa.gov/W3Browse/ 2,562
US PTO - Trademarks + Patents Público
https://web.archive.org/web/20170418010949/https://www.uspto.gov/tmdb/,
http://www.uspto.gov/patft/ 2,440
Informedia (Carnegie Mellon Univ.) Público
https://web.archive.org/web/20070610040617/http://www.informedia.cs.cmu.edu/
1,830
infoUSA Pago/Público http://www.infousa.com/ 1,584
Alexandria Digital Library Público http://www.alexandria.ucsb.edu/adl.html
(enlace roto disponible en Internet Archive; véase el historial y la última
versión). 1,220
JSTOR Project Limitado http://www.jstor.org/ 1,220
10K Search Wizard Público http://www.tenkwizard.com/ 769
UC Berkeley Digital Library Project Público
https://web.archive.org/web/20081120180544/http://www.elib.cs.berkeley.edu/
766
SEC Edgar Público
https://web.archive.org/web/20170714214607/https://www.sec.gov/edgarhp.htm
610
US Census Público http://factfinder.census.gov 610
Elsevier Press Pago http://www.elsevier.com 570
NCI CancerNet Database Público http://cancernet.nci.nih.gov/ 488
EBSCO Pago http://www.ebsco.com 481
Amazon.com Público http://www.amazon.com/ 461
IBM Patent Center Público/Privado http://www.patents.ibm.com/boolquery 345
NASA Image Exchange Público http://nix.nasa.gov/ 337
Springer-Verlag Pago
https://web.archive.org/web/20030618175504/http://link.springer.de/ 221
InfoUSA.com Público/Privado http://www.abii.com/ 195
OVID Technologies Pago http://www.ovid.com 191
Investext Pago
https://web.archive.org/web/20130515092121/http://www.investext.com/ 157
Blackwell Science Pago http://www.blackwell-science.com 146
Betterwhois (muchos similares) Público http://betterwhois.com/ 152
GPO Access Público
https://web.archive.org/web/20120105095841/http://www.access.gpo.gov/ 146
Adobe PDF Search Público
https://web.archive.org/web/20050908071920/http://searchpdf.adobe.com/ 143
Internet Auction List Público
https://web.archive.org/web/20140622163706/http://www.internetauctionlist.com/searc
h_products.html 130
Commerce, Inc. Público http://search.commerceinc.com/ 122
Library of Congress Online Catalog Público http://catalog.loc.gov/ 116
GenServ Pago http://gs01.genserv.com/gs/bcc.htm 106
Academic Press IDEAL Pago http://www.idealibrary.com 104
Sunsite Europe Público
https://web.archive.org/web/20031124152529/http://src.doc.ic.ac.uk/ 98
Uncover Periodical DB Público/Pago
https://web.archive.org/web/20020124232702/http://uncweb.carl.org/ 97
Astronomer's Bazaar Público http://cdsweb.u-strasbg.fr/Cats.html 94
eBay.com Público http://www.ebay.com/ 82
Tradecompass Pago http://www.tradecompass.com/ 61
REALTOR.com Real Estate Search Público http://www.realtor.com/ 60
Federal Express Público http://www.fedex.com/ 53
Integrum Público/Privado
https://web.archive.org/web/20080223083232/http://www.integrumworld.com/eng_test/in
dex.html 49
NIH PubMed Público http://www.ncbi.nlm.nih.gov/PubMed/ 41
Visual Woman (NIH) Público
http://www.nlm.nih.gov/research/visible/visible_human.html 40
AutoTrader.com Público
https://web.archive.org/web/20031005171851/http://www.autoconnect.com/index.jtmpl/?
LNX=M1DJAROSTEXT 39
UPS Público http://www.ups.com/ 33
NIH GenBank Público http://www.ncbi.nlm.nih.gov/Genbank/index.html 31
AustLi (Australasian Legal Information Institute) Público
http://www.austlii.edu.au/austlii/ 24
Digital Library Program (UVa) Público http://www.lva.lib.va.us/ 21
INSPEC Pago
https://web.archive.org/web/20030418010721/http://www.iee.org.uk/publish/inspec/onl
ine/online.html 16
Subtotal fuentes públicas y mixtas 673,035
Subtotal fuentes pagas 75.469
TOTAL 748,504
El problema con dicha medición es que se realizó por el tamaño de la página (en GB)
más no por la cantidad de artículos publicados. No obstante dicha cantidad
expresaba que se albergaba más de 700TB (o 700000GB) de información que no está
expuesta en la Internet superficial.
Esta información es complementada por Lewandosky adicionando datos de la Gale

Directory of Databases los cuales fueron comparados con los datos de Bergman6. En
dicho directorio se aproximó que existe un total de 18.92 billones de documentos
académicos en total.
Rastreando la internet profunda
Infografía sobre la deep web

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos
para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e
introducido por Google en 2005) y OAI son mecanismos que permiten a los motores de
búsqueda y otras partes interesadas descubrir recursos de la internet profunda en
los servidores web en particular. Ambos mecanismos permiten que los servidores web
anuncien las direcciones URL que se puede acceder a ellos, lo que permite la
detección automática de los recursos que no están directamente vinculados a la Web
de la superficie. El sistema de búsqueda de la Web profunda de Google pre-calcula
las entregas de cada formulario HTML y agrega a las páginas HTML resultantes en el
índice del motor de búsqueda de Google. Los resultados surgidos arrojaron mil
consultas por segundo al contenido de la Web profunda.18 Este sistema se realiza
utilizando tres algoritmos claves:
La selección de valores de entrada, para que las entradas de búsqueda de texto

acepten palabras clave.
La identificación de los insumos que aceptan solo valores específicos (por ejemplo,
fecha).
La selección de un pequeño número de combinaciones de entrada que generan URLs
adecuadas para su inclusión en el índice de búsqueda Web.
Métodos de profundización
Las arañas (web crawlers)
Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre
la totalidad de internet en busca de las posibles respuestas, sino que busca en su
propia base de datos, que ha sido generada e indexada previamente. Se utiliza el
término «araña web» (en inglés web crawler) o robots (por software, comúnmente
llamados "bots") inteligentes que van haciendo búsquedas por enlaces de hipertexto
de página en página, registrando la información ahí disponible.19
Cuando una persona realiza una consulta, el buscador no recorre la totalidad de
internet en busca de las posibles respuestas, lo cual supondría una capacidad de
reacción bastante lenta. Lo que hace es buscar en su propia base de datos, que ha
sido generada e indizada previamente. En sus labores de búsqueda, indización y
catalogación, utilizan las llamadas arañas (o robots inteligentes) que van saltando
de una página web a otra siguiendo los enlaces de hipertexto y registran la
información allí disponible.
[...] datos que se generan en tiempo real, como pueden ser valores de Bolsa,
información del tiempo, horarios de trenes.
El contenido que existe dentro de la internet profunda es en muy raras ocasiones
mostrado como resultado en los motores de búsqueda, ya que las «arañas» no rastrean
bases de datos ni los extraen. Las arañas no pueden tener acceso a páginas
protegidas con contraseñas, algunos desarrolladores que no desean que sus páginas
sean encontradas insertan etiquetas especiales en el código para evitar que sea
indexada. Las «arañas» son incapaces de mostrar páginas que no estén creadas en
lenguaje HTML, ni tampoco puede leer enlaces que incluyen un signo de
interrogación. Pero ahora sitios web no creados con HTML o con signos de
interrogación están siendo indexados por algunos motores de búsqueda. Sin embargo,
se calcula que incluso con estos buscadores más avanzados solo se logra alcanzar el
16 % de la información disponible en la internet profunda. Existen diferentes
técnicas de búsqueda para extraer contenido de la internet profunda como librerías
de bases de datos o simplemente conocer el URL al que quieres acceder y escribirlo
manualmente.20
Tor
Artículo principal: Tor (red de anonimato)
Logo de Tor
The Onion Router (abreviado como TOR) es un proyecto diseñado e implementado por la
marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente
fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en
defensa de los derechos digitales). Al presente (2019), subsiste como TOR Project,
una organización sin ánimo de lucro galardonada en 2011 por la Free Software
Foundation por permitir que millones de personas en el mundo tengan libertad de
acceso y expresión en internet manteniendo su privacidad y anonimato.21
A diferencia de los navegadores de internet convencionales, Tor le permite a los

usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a 50
millones de veces al año, hay 0,8 millones de usuarios diarios de Tor y un
incremento del 20 % solamente en 2013. Tor puede acceder a unos 6 500 sitios web
ocultos.22
Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los

datos de la computadora se cifran en capas. El software envía los datos a través de
una red de enlaces a otros equipos ―llamados en inglés «relays» (‘nodos’)― y lo va
retransmitiendo quitando una capa antes de retransmitirlo de nuevo, esta
trayectoria cambia con frecuencia. Tor cuenta con más de 4 000 retransmisiones y
todos los datos cifrados pasan a través de ―por lo menos― tres de estos relays. Una
vez que la última capa de cifrado es retirado por un nodo de salida, se conecta a
la página web que desea visitar.
El contenido que puede ser encontrado dentro de la internet profunda es muy vasto,
se encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser
valores de Bolsa, información del tiempo, horarios de trenes, bases de datos sobre
agencias de inteligencia, disidentes políticos y contenidos criminales.19
Criptomoneda
Artículo principal: Criptomoneda
Logo de Bitcoin, una criptomoneda

Es posible encontrar sitios web que realicen transacciones ilegales (como drogas,
armas, o incluso sicarios) en servidores exclusivos para usuarios de Tor. Es una
práctica común utilizar monedas digitales como el Bitcoin21 que se intercambia a
través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea
prácticamente imposible de rastrear.23
Vale la pena acotar que salvo por excepciones de algunos mercados como Silk Roads,
The Trade Route, o Wall Street Market, la mayor parte del comercio en la deep web
se constituye a base de ofertas engañosas y fraudes en general, existe una gran
tendencia a satanizar a comunidades que buscan la libertad de expresión y el
anonimato, en el mundo hispano-hablante esta tendencia fue originada por blogueros
y youtubers que lejos de informar a las comunidades buscan crear escándalos
amarillistas para obtener ingresos por conceptos de publicidad de sistemas como
Adsense. En los últimos años se ha demostrado que el Bitcoin no es una criptomoneda
segura cuando se trata de la confidencialidad de los datos de sus usuarios, motivo
por el cual tendría poco sentido utilizarla en redes de anonimato como Tor,
Freenet, o I2P, cuyos usuarios intentan alcanzar el clímax del anonimato, por lo
cual no se puede descartar tampoco la intervención de empresas propagandistas que
intentan aumentar el valor de mercado del bitcoin.
Recursos de la internet profunda

Los recursos de la internet profunda pueden estar clasificados en las siguientes
categorías:
Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una
manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o
captcha, que prohíben los motores de búsqueda de la navegación por y la creación de
copias en caché.24
Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta
presentada o acceder a través de un formulario, especialmente si se utilizan
elementos de entrada en el dominio abierto como campos de texto.
Contenido no enlazado: páginas que no están conectadas con otras páginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como páginas sin enlaces entrantes.
Contenido programado: páginas que solo son accesibles a través de enlaces
producidos por JavaScript, así como el contenido descargado de manera dinámica a
partir de los servidores web a través de soluciones de Flash o Ajax.
Sin contenido HTML: contenido textual codificado en multimedia (imagen o video)
archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
Web privada: los sitios que requieren de registro y de una contraseña para iniciar
sesión
Web contextual: páginas con contenidos diferentes para diferentes contextos de
acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de
navegación anterior).
Véase también
.onion
I2P
Darknet
The Hidden Wiki
Referencias
«internet profunda, mejor que Deep Web.» («Aunque es posible emplear tanto el
masculino como el femenino, la forma femenina es la que de hecho está más extendida
con gran diferencia.»). Fundeu. Consultado el30 de marzo de 2016.
Devine, Jane; Egger-Sider, Francine (julio de 2004). «Beyond google: the invisible
web in the academic library». The Journal of Academic Librarianship 30 (4): 265-
269. doi:10.1016/j.acalib.2004.04.010. Consultado el 6 de febrero de 2014.
Raghavan, Sriram; Garcia-Molina, Hector (11-14 de septiembre de 2001). «Crawling
the Hidden Web». 27th International Conference on Very Large Data Bases (Roma,
Italia).
«'Deep web': guía básica para saber qué es y cómo se usa». El País. 2016.
Consultado el 2017.
Wright, Alex (22 de febrero de 2009). «Exploring a 'Deep Web' That Google Can’t
Grasp». The New York Times. Consultado el 23 de febrero de 2009.
Lewandowski, Exploring the academic invisible web (11 de noviembre de 2013).
Library Hi Tech (en inglés). «the Academic Invisible Web (AIW). We define the
Academic Invisible Web as consisting of all databases and collections relevant to
academia but not searchable by the general-purpose internet search engines.»
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés).
Consultado el 28 de octubre de 2014. «Technically the Deep Web refers to the
collection of all the websites and databases that search engines like Google don't
or can't índex».
Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library
Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014.
«Surface Web is made up of static and fixed pages, whereas Deep Web is made up of
dynamic pages. Static pages do not depend on a database for their content. They
reside on a server waiting to be retrieved, and are basically html files whose
content never changes.»
Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014.
«Public information on the Deep Web is currently 400-550 times larger than the
commonly-defined World Wide Web. The Deep Web contains 7,500 terabytes of
information, compared to 19 on the Surface Web. Deep Web contains nearly 550
billion individual documents compared to one billion on the Surface Web. More than
200,000 Deep Web sites presently exist.»
DeepWeb.
He, Bin (1 de mayo de 2007). «Ebscohost.». Communications of the ACM (en inglés).
Consultado el 29 de octubre de 2014. «Google and Yahoo both indexed 32% of the deep
Web objects, and MSN had the smallest coverage of 11%. However, there was
significant overlap in what they covered: the combined coverage of the three
largest search engines increased only to 37%, indicating they were indexing almost
the same objects.»
Grossman, Lev; Newton-Small, Roy & Stampler (noviembre de 2013). «The Deep Web».
Time 182 (20).
Bergman, Michael K. «White Paper: The Deep Web: Surfacing Hidden Value» (en
inglés). Consultado el 30 de octubre de 2014.
Garcia, Frank (enero de 1996). «Business and Marketing on the Internet». Masthead
9 (1). Archivado desde el original el 5 de diciembre de 1996. Consultado el 24 de
febrero de 2009.
@1 comenzó con 5.7 terabytes de contenido, estimado en 30 veces el tamaño de la
naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @1 fue abandonado.«PLS
introduce AT1, el servicio de la primera "segunda generación" de búsqueda en
internet». Personal Library Software. diciembre de 1996. Archivado desde el
original el 21 de octubre de 1997. Consultado el 24 de febrero de 2009.
Llanes Vilaragut, Lourdes & Suárez Carro, Juan R. «Para acceder al web profundo:
conceptos y herramientas». Archivado desde el original el 30 de octubre de 2014.
Consultado el 30 de octubre de 2014.
Bergman, Michael K. (2001-8). «The Deep Web: Surfacing Hidden Value». Journal of
Electronic Publishing 7 (1). ISSN 1080-2711. Consultado el 11 de marzo de 2019.
Madhavan, Jayant; Ko, David; Kot, Lucja; Ganapathy, Vignesh; Rasmussen, Alex &
Havely, Alon. «Google’s DeepWeb Crawl» (en inglés). Consultado el 30 de octubre de
2014.
Salazar, Idoia «El inmenso océano del Internet profundo.» 20 de octubre de 2005.
El País (Madrid). Consultado el 29 de octubre de 2014.
Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014. «The
content of the Deep Web is rarely shown in a search engine result, since the search
engine spiders do not crawl into databases and extract the data. These spiders can
neither think nor type, but jump from link to link. As such, a spider cannot enter
pages that are password protected. Web page creators who do not want their page
shown in search results can insert special meta tags to keep the page from being
indexed. Spiders are also unable to pages created without the use of html, and also
links that include a question mark. But now parts of the Deep Web with non-html
pages and databases with a question mark in a stable URL are being indexed by
search engines, with non-html pages converted to html. Still, it is estimated that
even the best search engines can access only 16 percent of information available on
the Web. There are other Web search techniques and technologies that can be used to
access databases and extract the content.»
Becerra Gutiérrez Juan Armando. «Mitos y realidades de la internet profunda».
Consultado el 28 de octubre de 2014. «Unlike conventional Internet browsers, Tor's
allows users to surf the Web anonymously. Tor is downloaded 30 million-50 million
times a year. There are 800,000 daily Tor users―a jump of 20% in the past year. Tor
can access 6,500 hidden websites.»
Consultado el 28 de octubre de 2014. «Bitcoin».
«Hypertext Transfer Protocol (HTTP/1.1): Caching.» (en inglés). junio de 2014.
Enlaces externos
«Las profundidades del mar de internet», artículo en el sitio web CNN Expansion
(Atlanta).
Tor Project, sitio oficial del proyecto TOR.
Hidden Wiki, Deep Web Links.
Deep Web para Todos, grupo de discusiones sobre la Deep Web.
TOR, el oscuro mundo de la internet profunda @efe_tec
La verdad sobre la Deep Web Web de hackers e informáticos.

Deep Web

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Deep Web

Cargado por

Copyright:

Formatos disponibles

Internet profunda

Cifrado de la Internet profunda

La internet profunda no es una región prohibida o mística de internet, y la

Una parte de la internet profunda consiste en redes internas de instituciones

El internet se ve dividido en dos ramas, la internet profunda y la superficial. La

En 2010 se estimó que la información que se encuentra en la internet profunda es de

Estimaciones basadas en la extrapolación de un estudio de la Universidad de

Documentos o información oculta: Pdfs que no se encuentran en las páginas

Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of

En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en

La importancia potencial de las bases de datos de búsqueda también se reflejó en el

Muchos usuarios asumen que la única forma de acceder a la web es consultando un

Una aproximación al indexamiento y apertura de la Internet académica invisible son

Cabe resaltar que no toda la ausencia de esta información en la Internet Visible se

Tamaño de la Internet académica invisible.

Los sesenta sitios de la Deep Web más grandes17

Esta información es complementada por Lewandosky adicionando datos de la Gale

Rastreando la internet profunda

Infografía sobre la deep web

La selección de valores de entrada, para que las entradas de búsqueda de texto

A diferencia de los navegadores de internet convencionales, Tor le permite a los

Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los

Logo de Bitcoin, una criptomoneda

Recursos de la internet profunda

También podría gustarte