Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ir a la navegaciónIr a la búsqueda
«Deep web» redirige aquí. Para el documental, véase Deep Web (documental).
Índice
1 Origen
2 Tamaño
3 Motivos
4 Denominación
5 Internet académica invisible
5.1 Tamaño de la Internet académica invisible.
6 Rastreando la internet profunda
7 Métodos de profundización
7.1 Las arañas (web crawlers)
7.2 Tor
7.3 Criptomoneda
8 Recursos de la internet profunda
9 Véase también
10 Referencias
11 Enlaces externos
Origen
La principal causa de la existencia de la internet profunda es la imposibilidad de
los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran
parte de la información existente en Internet. Si los buscadores tuvieran la
capacidad para acceder a toda la información entonces la magnitud de la «internet
profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de
búsqueda pudieran indexar la información de la internet profunda esto no
significaría que esta dejara de existir, ya que siempre existirán las páginas
privadas. Los motores de búsqueda no pueden acceder a la información de estas
páginas y sólo determinados usuarios, aquellos con contraseñas o códigos
especiales, pueden hacerlo.
En la Deep Web pueden establecerse contactos que no son monitoreados, nadie está
allí observando. Además las transferencias tanto de mercancía como de pagos son
prácticamente imposible de rastrear. La web está dividida en dos partes, la web
superficial y la web profunda. Esta última es la que se conoce como Deep Web, donde
se ubica todo contenido que no es indexable por los buscadores, o al que los
usuarios no pueden acceder mediante un buscador web como DuckDuckGo, Startpage,
Yandex, Ecosia, Yahoo!, Google o Bing.
Tamaño
La internet profunda es un conjunto de sitios web y bases de datos que buscadores
comunes no pueden encontrar ya que no están indexadas. El contenido que se puede
hallar dentro de la internet profunda es muy amplio.7
Mientras que las páginas normales son identificadas mediante el protocolo UDP/IP,
las páginas .onion son repetidas por el ramal al que se ha conectado el navegador
especializado para tal sistema de navegación segura. El sistema de búsqueda es el
mismo que usa BitTorrent. El contenido se coloca en una base de datos y se
proporciona sólo cuando lo solicite el usuario.8
También en 2010 se estimó que existían más de 200 000 sitios en la internet
profunda.9
La Association for Computing Machinery (ACM) publicó en 2007 que Google y Yahoo
indexaban el 32 % de los objetos de la internet profunda, y MSN tenía la cobertura
más pequeña con el 11 %. Sin embargo, la cobertura de los tres motores era de 37 %,
lo que indicaba que estaban indexando casi los mismos objetos.11
Motivos
Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
El primer uso del término específico de web profunda, ahora generalmente aceptada,
ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:
https://web.archive.org/web/20010801194159/http://www.ncdc.noaa.gov/ol/satellite/sa
telliteresources.html 366,000
NASA EOSDIS Público
https://web.archive.org/web/19991013045201/http://harp.gsfc.nasa.gov/
%7Eimswww/pub/imswelcome/plain.html 219,600
National Oceanographic (combined with Geophysical) Data Center (NOAA) Público/Pago
http://www.nodc.noaa.gov/, http://www.ngdc.noaa.gov/ 32,940
DBT Online Pago http://www.dbtonline.com/ 30,500
Alexa Público (parcial) http://www.alexa.com/ 15,860
Right-to-Know Network (RTK Net) Público http://www.rtk.net/ 14,640
Lexis-Nexis Pago http://www.lexis-nexis.com/lncc/ 12,200
Dialog Pago http://www.dialog.com/ 10,980
Genealogy - ancestry.com Pago http://www.ancestry.com/ 6,500
MP3.com Público http://www.mp3.com/ 4,300
Terraserver Público/Pago http://terraserver.microsoft.com/ 4,270
ProQuest Direct (incl. Digital Vault) Pago http://www.umi.com 3,172
Dun & Bradstreet Pago http://www.dnb.com 3,113
Westlaw Pago http://www.westlaw.com/ 2,684
Dow Jones News Retrieval Pago
https://web.archive.org/web/20000711092305/http://dowjones.wsj.com/p/main.html
2,684
HEASARC (High Energy Astrophysics Science Archive Research Center) Público
http://heasarc.gsfc.nasa.gov/W3Browse/ 2,562
US PTO - Trademarks + Patents Público
https://web.archive.org/web/20170418010949/https://www.uspto.gov/tmdb/,
http://www.uspto.gov/patft/ 2,440
Informedia (Carnegie Mellon Univ.) Público
https://web.archive.org/web/20070610040617/http://www.informedia.cs.cmu.edu/
1,830
infoUSA Pago/Público http://www.infousa.com/ 1,584
Alexandria Digital Library Público http://www.alexandria.ucsb.edu/adl.html
(enlace roto disponible en Internet Archive; véase el historial y la última
versión). 1,220
JSTOR Project Limitado http://www.jstor.org/ 1,220
10K Search Wizard Público http://www.tenkwizard.com/ 769
UC Berkeley Digital Library Project Público
https://web.archive.org/web/20081120180544/http://www.elib.cs.berkeley.edu/
766
SEC Edgar Público
https://web.archive.org/web/20170714214607/https://www.sec.gov/edgarhp.htm
610
US Census Público http://factfinder.census.gov 610
Elsevier Press Pago http://www.elsevier.com 570
NCI CancerNet Database Público http://cancernet.nci.nih.gov/ 488
EBSCO Pago http://www.ebsco.com 481
Amazon.com Público http://www.amazon.com/ 461
IBM Patent Center Público/Privado http://www.patents.ibm.com/boolquery 345
NASA Image Exchange Público http://nix.nasa.gov/ 337
Springer-Verlag Pago
https://web.archive.org/web/20030618175504/http://link.springer.de/ 221
InfoUSA.com Público/Privado http://www.abii.com/ 195
OVID Technologies Pago http://www.ovid.com 191
Investext Pago
https://web.archive.org/web/20130515092121/http://www.investext.com/ 157
Blackwell Science Pago http://www.blackwell-science.com 146
Betterwhois (muchos similares) Público http://betterwhois.com/ 152
GPO Access Público
https://web.archive.org/web/20120105095841/http://www.access.gpo.gov/ 146
Adobe PDF Search Público
https://web.archive.org/web/20050908071920/http://searchpdf.adobe.com/ 143
Internet Auction List Público
https://web.archive.org/web/20140622163706/http://www.internetauctionlist.com/searc
h_products.html 130
Commerce, Inc. Público http://search.commerceinc.com/ 122
Library of Congress Online Catalog Público http://catalog.loc.gov/ 116
GenServ Pago http://gs01.genserv.com/gs/bcc.htm 106
Academic Press IDEAL Pago http://www.idealibrary.com 104
Sunsite Europe Público
https://web.archive.org/web/20031124152529/http://src.doc.ic.ac.uk/ 98
Uncover Periodical DB Público/Pago
https://web.archive.org/web/20020124232702/http://uncweb.carl.org/ 97
Astronomer's Bazaar Público http://cdsweb.u-strasbg.fr/Cats.html 94
eBay.com Público http://www.ebay.com/ 82
Tradecompass Pago http://www.tradecompass.com/ 61
REALTOR.com Real Estate Search Público http://www.realtor.com/ 60
Federal Express Público http://www.fedex.com/ 53
Integrum Público/Privado
https://web.archive.org/web/20080223083232/http://www.integrumworld.com/eng_test/in
dex.html 49
NIH PubMed Público http://www.ncbi.nlm.nih.gov/PubMed/ 41
Visual Woman (NIH) Público
http://www.nlm.nih.gov/research/visible/visible_human.html 40
AutoTrader.com Público
https://web.archive.org/web/20031005171851/http://www.autoconnect.com/index.jtmpl/?
LNX=M1DJAROSTEXT 39
UPS Público http://www.ups.com/ 33
NIH GenBank Público http://www.ncbi.nlm.nih.gov/Genbank/index.html 31
AustLi (Australasian Legal Information Institute) Público
http://www.austlii.edu.au/austlii/ 24
Digital Library Program (UVa) Público http://www.lva.lib.va.us/ 21
INSPEC Pago
https://web.archive.org/web/20030418010721/http://www.iee.org.uk/publish/inspec/onl
ine/online.html 16
Subtotal fuentes públicas y mixtas 673,035
Subtotal fuentes pagas 75.469
TOTAL 748,504
El problema con dicha medición es que se realizó por el tamaño de la página (en GB)
más no por la cantidad de artículos publicados. No obstante dicha cantidad
expresaba que se albergaba más de 700TB (o 700000GB) de información que no está
expuesta en la Internet superficial.
Tor
Artículo principal: Tor (red de anonimato)
Logo de Tor
The Onion Router (abreviado como TOR) es un proyecto diseñado e implementado por la
marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente
fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en
defensa de los derechos digitales). Al presente (2019), subsiste como TOR Project,
una organización sin ánimo de lucro galardonada en 2011 por la Free Software
Foundation por permitir que millones de personas en el mundo tengan libertad de
acceso y expresión en internet manteniendo su privacidad y anonimato.21
El contenido que puede ser encontrado dentro de la internet profunda es muy vasto,
se encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser
valores de Bolsa, información del tiempo, horarios de trenes, bases de datos sobre
agencias de inteligencia, disidentes políticos y contenidos criminales.19
Criptomoneda
Artículo principal: Criptomoneda
Vale la pena acotar que salvo por excepciones de algunos mercados como Silk Roads,
The Trade Route, o Wall Street Market, la mayor parte del comercio en la deep web
se constituye a base de ofertas engañosas y fraudes en general, existe una gran
tendencia a satanizar a comunidades que buscan la libertad de expresión y el
anonimato, en el mundo hispano-hablante esta tendencia fue originada por blogueros
y youtubers que lejos de informar a las comunidades buscan crear escándalos
amarillistas para obtener ingresos por conceptos de publicidad de sistemas como
Adsense. En los últimos años se ha demostrado que el Bitcoin no es una criptomoneda
segura cuando se trata de la confidencialidad de los datos de sus usuarios, motivo
por el cual tendría poco sentido utilizarla en redes de anonimato como Tor,
Freenet, o I2P, cuyos usuarios intentan alcanzar el clímax del anonimato, por lo
cual no se puede descartar tampoco la intervención de empresas propagandistas que
intentan aumentar el valor de mercado del bitcoin.
Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una
manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o
captcha, que prohíben los motores de búsqueda de la navegación por y la creación de
copias en caché.24
Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta
presentada o acceder a través de un formulario, especialmente si se utilizan
elementos de entrada en el dominio abierto como campos de texto.
Contenido no enlazado: páginas que no están conectadas con otras páginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como páginas sin enlaces entrantes.
Contenido programado: páginas que solo son accesibles a través de enlaces
producidos por JavaScript, así como el contenido descargado de manera dinámica a
partir de los servidores web a través de soluciones de Flash o Ajax.
Sin contenido HTML: contenido textual codificado en multimedia (imagen o video)
archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
Web privada: los sitios que requieren de registro y de una contraseña para iniciar
sesión
Web contextual: páginas con contenidos diferentes para diferentes contextos de
acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de
navegación anterior).
Véase también
.onion
I2P
Darknet
The Hidden Wiki
Referencias
«internet profunda, mejor que Deep Web.» («Aunque es posible emplear tanto el
masculino como el femenino, la forma femenina es la que de hecho está más extendida
con gran diferencia.»). Fundeu. Consultado el30 de marzo de 2016.
Devine, Jane; Egger-Sider, Francine (julio de 2004). «Beyond google: the invisible
web in the academic library». The Journal of Academic Librarianship 30 (4): 265-
269. doi:10.1016/j.acalib.2004.04.010. Consultado el 6 de febrero de 2014.
Raghavan, Sriram; Garcia-Molina, Hector (11-14 de septiembre de 2001). «Crawling
the Hidden Web». 27th International Conference on Very Large Data Bases (Roma,
Italia).
«'Deep web': guía básica para saber qué es y cómo se usa». El País. 2016.
Consultado el 2017.
Wright, Alex (22 de febrero de 2009). «Exploring a 'Deep Web' That Google Can’t
Grasp». The New York Times. Consultado el 23 de febrero de 2009.
Lewandowski, Exploring the academic invisible web (11 de noviembre de 2013).
Library Hi Tech (en inglés). «the Academic Invisible Web (AIW). We define the
Academic Invisible Web as consisting of all databases and collections relevant to
academia but not searchable by the general-purpose internet search engines.»
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés).
Consultado el 28 de octubre de 2014. «Technically the Deep Web refers to the
collection of all the websites and databases that search engines like Google don't
or can't índex».
Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library
Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014.
«Surface Web is made up of static and fixed pages, whereas Deep Web is made up of
dynamic pages. Static pages do not depend on a database for their content. They
reside on a server waiting to be retrieved, and are basically html files whose
content never changes.»
Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library
Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014.
«Public information on the Deep Web is currently 400-550 times larger than the
commonly-defined World Wide Web. The Deep Web contains 7,500 terabytes of
information, compared to 19 on the Surface Web. Deep Web contains nearly 550
billion individual documents compared to one billion on the Surface Web. More than
200,000 Deep Web sites presently exist.»
DeepWeb.
He, Bin (1 de mayo de 2007). «Ebscohost.». Communications of the ACM (en inglés).
Consultado el 29 de octubre de 2014. «Google and Yahoo both indexed 32% of the deep
Web objects, and MSN had the smallest coverage of 11%. However, there was
significant overlap in what they covered: the combined coverage of the three
largest search engines increased only to 37%, indicating they were indexing almost
the same objects.»
Grossman, Lev; Newton-Small, Roy & Stampler (noviembre de 2013). «The Deep Web».
Time 182 (20).
Bergman, Michael K. «White Paper: The Deep Web: Surfacing Hidden Value» (en
inglés). Consultado el 30 de octubre de 2014.
Garcia, Frank (enero de 1996). «Business and Marketing on the Internet». Masthead
9 (1). Archivado desde el original el 5 de diciembre de 1996. Consultado el 24 de
febrero de 2009.
@1 comenzó con 5.7 terabytes de contenido, estimado en 30 veces el tamaño de la
naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @1 fue abandonado.«PLS
introduce AT1, el servicio de la primera "segunda generación" de búsqueda en
internet». Personal Library Software. diciembre de 1996. Archivado desde el
original el 21 de octubre de 1997. Consultado el 24 de febrero de 2009.
Llanes Vilaragut, Lourdes & Suárez Carro, Juan R. «Para acceder al web profundo:
conceptos y herramientas». Archivado desde el original el 30 de octubre de 2014.
Consultado el 30 de octubre de 2014.
Bergman, Michael K. (2001-8). «The Deep Web: Surfacing Hidden Value». Journal of
Electronic Publishing 7 (1). ISSN 1080-2711. Consultado el 11 de marzo de 2019.
Madhavan, Jayant; Ko, David; Kot, Lucja; Ganapathy, Vignesh; Rasmussen, Alex &
Havely, Alon. «Google’s DeepWeb Crawl» (en inglés). Consultado el 30 de octubre de
2014.
Salazar, Idoia «El inmenso océano del Internet profundo.» 20 de octubre de 2005.
El País (Madrid). Consultado el 29 de octubre de 2014.
Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library
Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014. «The
content of the Deep Web is rarely shown in a search engine result, since the search
engine spiders do not crawl into databases and extract the data. These spiders can
neither think nor type, but jump from link to link. As such, a spider cannot enter
pages that are password protected. Web page creators who do not want their page
shown in search results can insert special meta tags to keep the page from being
indexed. Spiders are also unable to pages created without the use of html, and also
links that include a question mark. But now parts of the Deep Web with non-html
pages and databases with a question mark in a stable URL are being indexed by
search engines, with non-html pages converted to html. Still, it is estimated that
even the best search engines can access only 16 percent of information available on
the Web. There are other Web search techniques and technologies that can be used to
access databases and extract the content.»
Becerra Gutiérrez Juan Armando. «Mitos y realidades de la internet profunda».
Consultado el 30 de octubre de 2014.
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés).
Consultado el 28 de octubre de 2014. «Unlike conventional Internet browsers, Tor's
allows users to surf the Web anonymously. Tor is downloaded 30 million-50 million
times a year. There are 800,000 daily Tor users―a jump of 20% in the past year. Tor
can access 6,500 hidden websites.»
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés).
Consultado el 28 de octubre de 2014. «Bitcoin».
«Hypertext Transfer Protocol (HTTP/1.1): Caching.» (en inglés). junio de 2014.
Consultado el 30 de octubre de 2014.
Enlaces externos
«Las profundidades del mar de internet», artículo en el sitio web CNN Expansion
(Atlanta).
Tor Project, sitio oficial del proyecto TOR.
Hidden Wiki, Deep Web Links.
Deep Web para Todos, grupo de discusiones sobre la Deep Web.
TOR, el oscuro mundo de la internet profunda @efe_tec
La verdad sobre la Deep Web Web de hackers e informáticos.