Correcciones Monografu00eda Deep Web Rec H0opa

EL MUNDO DE LA WEB PROFUNDA
LEONARD ESTEBAN CUERO PAREDES
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE INGENIERÍA EN SISTEMAS
TECNOLOGÍA EN SISTEMAS
SANTIAGO DE CALI
2015
EL MUNDO DE LA WEB PROFUNDA
LEONARD ESTEBAN CUERO PAREDES
YESID VALENCIA
Ingeniero de Sistemas (Tutor)
MONOGRAFIA
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE INGENIERÍA EN SISTEMAS
TECNOLOGÍA EN SISTEMAS
SANTIAGO DE CALI
2015
NOTA DE ACEPTACION
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
___________________________________
______________________________________
Firma del Presidente del jurado
______________________________________
Firma del jurado
______________________________________
Firma del jurado
Santiago de Cali, 15 de mayo del 2015
DEDICATORIA
A:
Dios, por darnos la oportunidad de vivir y por estar con nosotros en cada paso que
damos, por fortalecernuestros corazónes e iluminar nuestras mentes.
Damos gracias a nuestros padres y familiares por el apoyo incondicional; por confiar,
creer en nosotros y haber hecho de esta etapa de nuestras vidas un trayecto de
vivencias que nunca olvidaremos.
AGRADECIMIENTOS
A los Tutores , gracias; sin su ayuda y sus conocimientos hubiera sido imposible hacer
esto realidad; es un honor ser dirigido por personas tan profesionales y éticas como lo
son ustedes
Por todo lo que nos han brindado y por sus bendiciones; para todos muchas gracias y
que Dios los bendiga.
TABLA DE ILUSTRACIONES
Ilustración 1 – Esquema Web (Berners-Lee, 2010)...................................................16
Ilustración 2 - Representación del indexado de búsqueda (Bergman, 2001)............18
Ilustración 3 - Esquema del proceso de indexado (Ezatdoost, Tourani, & Seyed Danesh,
2013)...........................................................................................................................19
Ilustración 4 – Distribución de la World Wide Web....................................................32
Ilustración 5 - Esquema del funcionamiento de los Servicios Ocultos (Murdoch, 2006)
....................................................................................................................................38
Ilustración 6 - Proyecto Internet Invisible (I2P, s.f.)....................................................38
Ilustración 7 – Freenet (Free Net, s.f.).......................................................................40
Ilustración 8 - Duck Duck (Duck Duck Go, s.f.)..........................................................40
Ilustración 9 - Esquema de análisis de tiempo (Øverlier & Syverson, 2006).............50
INDICE DE TABLAS
Tabla 1 - Relación población/usuario según el Uso del Internet en el Mundo (Group,
2014)...........................................................................................................................21
Tabla 2 - Relación población/usuario según Los 10 Lenguajes más usados en la Web
(Group, Internet World Stats, 2013)...........................................................................22
Tabla 3 – Herramientas de Acceso a la Web Profunda..............................................30

• INTRODUCCIÓN
En esta monografía se trabajará un tema relevante, pero poco citado como lo es la

Deep Web o Internet escondido en donde se encierra el 95% de la información que hay
en Internet.
Vivimos en el siglo XXI la era de las tecnologías, los avances y progresos informáticos
en gran magnitud, y con tantos dispositivos puestos a nuestro alrededor como lo son la
tecnología móvil, los ordenadores, tablet, etc., que permiten al individuo relacionarse
más con ellas y con los que están alrededor del mundo, esto contribuye a la nueva
formación en el campo informático en la cual se deben afianzar sus conocimientos y
saber la importancia del manejo en estos tiempos, y todo esto se hace con base a la
Internet como un método rápido de investigación y de soluciones para cualquier
usuario.
El Internet representa uno de los ejemplos más exitosos de los beneficios de la

inversión sostenida y el compromiso con la investigación y desarrollo de la
infraestructura de la información. Es por eso que en este tema de la Deep Web el
Internet juega un gran papel siendo el centro de toda la investigación y el cual nos
facilita el acceso e intercambio de información y datos.
La Deep Web conocida también como la Internet invisible o la Web profunda nos
sumergirán a un mundo desconocido, lo cual es importante que nosotros como
usuarios entendamos de qué se trata, como fue su creación y su evolución dentro del
ámbito tecnológico.
En esa parte escondida que tiene la Internet es necesario tener en cuenta que su
acceso a la Deep Web no es tan fácil como parece ser, ya que requiere de un alto
conocimiento en el ámbito informático y comprender acerca del ingreso a ellas.
El acceso que podemos tener a una Deep Web o Internet escondido es a través de un
navegador llamado Tor que a su vez utiliza un proxy por el cual ingresaremos como
usuario anónimo a la red, sin afectar nuestra red, evitando que sea rastreada al realizar
una búsqueda por este navegador.
Es importante que el estudiante o profesional en informática tenga el conocimiento

acerca de lo que es y lo que abarca la web oculta en el mundo actual, se debe obtener
un gran concepto acerca de lo que se va a hablar, puesto que es un tema con gran
profundidad y complejidad en cuanto a su contenido de información. La web profunda
tiene mucho contenido extremadamente importante; saber cómo tener acceso a este
tipo de páginas web ocultas, como es su manejo y que no se debe hacer.
Manejar con claridad cada concepto que se va a redactar dentro de esta monografía, y
que el usuario entienda porque la importancia de su existencia, manejo y utilidad dentro
del ámbito social.
• OBJETIVOS
1. OBJETIVO GENERAL
Describir el estado actual de la Web Profunda o Deep Web, en Internet.
1. OBJETIVOS ESPECÍFICOS
• Exponer el origen y conceptos generales relacionados con la Web
Profunda.
• Describir los sitios y herramientas relevantes utilizadas para acceder a la
Web Profunda.
• Describir los aspectos legales alrededor de Internet y la web profunda.
• Exponer las consecuencias tecnológicas y legales que la web profunda ha
tenido en la sociedad.
•
• LA WEB PROFUNDA
• CONCEPTO GENERAL
La web profunda (Deep web) es aquel sistema de servidores, conexiones,

programadores y usuarios que no son accesibles a los ojos del usuario común de
internet, ya que estos existen bajo un esquema diferente de comunicación al que
comúnmente se usa conocido como WWW (World Wide Web, telaraña mundial por
sus siglas en inglés); todo el esquema alojado bajo sus servidores contemplan la
gran mayoría de datos que circulan en internet.
Hoy en día gran parte de ese contenido es accesible mediante una serie de
dispositivos y hardware de fácil acceso, en donde se puede encontrar datos tan
comunes como los que se encuentran en los sitios de búsqueda conocidos (yahoo,
google, bing, etcétera), pero también se puede encontrar material muy sensible,
como venta de drogas, armas, secretos empresariales e institucionales que podrían
afectar el comportamiento político de un gobierno, incluso se puede encontrar venta
de personal humano, y pedofilia.
Por esto se busca regular, limitar, y en algunas ocasiones negar el acceso a estos
servicios, instituciones gubernamentales hacen una fuerte vigilancia a estos sitios
en busca de focos de actos ilegales, para que escándalos como el de The Silk Road
no vuelvan a generarse.
“La Deep web es el contenido secreto de Internet que no está visible para los
usuarios y que requiere vías distintas a los servidores tradicionales para llegar a sus
contenidos que no siempre son adecuados para las personas. Como se trata de una
red, lo primero que hemos de considerar es su carácter expansivo y el riesgo de
que tal expansión provoque consecuencias negativas, como ejemplo el espionaje.
Cuando aparecieron las bases de datos expuestas a la manipulación informática,
comenzaron los países a advertir un potencial peligro de ser puestos públicamente
aquellos secretos de Estado que forman parte de las políticas internas o que sus
figuras pasaran a ser parte de las críticas mundiales.
La privacidad ha hecho que la Deep web se convierta en una especie de clubs en
donde los usuarios deben ser invitados o estar codificados en un sistema de
adhesión específico. Los lenguajes con los cuales viaja la información son de
formatos que no pueden indexar y los documentos que se encuentran son en
general de carácter exclusivo.”
• ORIGEN Y CRECIMIENTO
“La Internet ha revolucionado la computación y las comunicaciones como nada

antes en el mundo. La Internet tiene a su vez la capacidad de difusión, un
mecanismo para la diseminación de la información, y un medio para la
colaboración y la interacción entre los individuos y sus computadores sin tener en
cuenta su ubicación geográfica.”
La primera entrada en esta historia tiene que empezar con el Internet mismo y esa
historia inicia con J.C.R. Licklider, que en agosto de 1962 concibió en MIT "la Red
Galáctica", un conjunto de computadoras dispersas alrededor del mundo pero
interconectadas de modo que cualquiera pudiera acceder a datos y programas desde
cualquier sitio. Fue esa idea la que lo convirtió en el primer director del programa de
investigación DARPA en octubre de 1962 y fue la misma idea la que heredo a sus
sucesores Bob Taylor y Lawrence G. Roberts. Cuando Leonard Kleinrock publicò el
primer artículo sobre teoría de conmutación de paquetes en julio del 1961, el primer
paso hacia la soñada red fue inevitable. La siguiente aportación la dio el mismo
Lawrence Roberts al conectar dos computadores, TX-2 en Massachusetts y Q-32 en
California, mediante un teléfono de dial-up lento, creando la primera conexión de
amplio rango. Así, se descubrió que las computadoras conectadas podían trabajar
juntas, corriendo programas e intercambiando datos; pero que el circuito controlado por
el teléfono era más bien inadecuado, la conmutación de paquetes de Kleinrock era
necesaria.
Para 1968 el proyecto ARPANET se había refinado, Frank Heart preparaba el

conmutador de paquetes Interface Message Processors en BBN, mientras Kleinrock
alistaba el red en UCLA. El Instituto de Investigación de Stanford SRI, UC Santa
Bárbara y la Universidad de Utah se sumaron como nodos, aportando también
investigación sobre la representación de funciones matemáticas. Para 1969 cuatro
computadoras conformaban la ARPANET inicial.
En diciembre de 1970 S. Crocker terminó el protocolo de comunicación entre equipos

NCP (Network Control Protocol) y para 1972, los usuarios ya podían desarrollar
aplicaciones. En el mismo año el correo electrónico fue introducido, presagiando el
enorme tráfico persona-persona que llegaría a haber.
AÑO HITO EN LA DEEP WEB

Se publica el primer artículo sobre la teoría de conmutación
1961 de paquetes
1962 J.C.R Licklider concibió la “red galáctica”
1967 Se crea la primera conexión de amplio rango
1968 Se establece el proyecto ARPANET
1970 Se termina el protocolo de comunicación entre equipos NCP
1972 Introducción del correo electrónico
1972 – 1976 Se crean los protocolos TCP/IP
El Departamento de Defensa de los Estados Unidos declaró
1982 al protocolo TCP/IP el estándar para las comunicaciones
entre redes militares.
1983 El protocolo TCP/IP termina de implementarse
La comunidad universitaria y el gobierno alientan a la
1984 – 1985 implementación de redes privadas
1987 Se estandariza el sistema DNS (Domain Name System)
1989 Se propone la arquitectura WWW (World Wide Web)
1993 Se crea el primer motor de búsqueda
1994 Se acuña el término de la Deep web
1995 Se llega a la definición de internet
Se hacen los primeros usos de la Deep Web por la
1996 imposibilidad de indexar los resultados de búsqueda de los
motores de los principales buscadores
1997 Se crea el primer motor de búsqueda de la Deep Web, el AT1
2001 Se hace el primer uso específico de la Deep Web registrado
Se crea el navegador para Deep Web más usado en el
2002 mundo TOR (The Onion Route)
2009 Se crea la Bitcoin, moneda “oficial” de la Deep Web
2010 Se estima en más de 200000 sitios en la Deep Web
Se hace público el escándalo de la página the silk road
2011 dedicada al tráfico ilegal de drogas y armas por medio de la
Deep Web
Tabla 1 – Hitos logrados en el desarrollo de la Deep Web
• EVOLUCIÓN DE LA WEB PROFUNDA
La red como la conocemos sigue un concepto clave, la arquitectura libre, es decir, la

tecnología de redes no se basa en una arquitectura particular sino que es elegida
libremente por el proveedor y conectada como un meta-nivel. En la arquitectura libre,
las redes individuales son diseñadas y desarrolladas de manera independiente y cada
una puede tener una interfaz propia para interactuar con terceros, trátese de usuarios u
otros proveedores. De igual modo, cada red individual se construye según las
necesidades específicas de los ambientes y usuarios, sin restricciones del tipo de red a
incluir o del alcance geográfico.
Por este motivo, Kahn y Vint Cerf comenzaron a trabajar en los principios de
comunicación entre los distintos sistemas operativos que habrían de convertirse en el
protocolo TCP/IP. Una vez delineado, DARPA contrato a tres equipos para su desarrollo
que fueron Stanford (Cerf), BBN (Ray Tomlinson) y UCL (Peter Kirstein), alrededor de
un año después había tres implementaciones independientes que podían interpelar:
ARPANET, Packet Radio, y Packet Satellite que eventualmente evolucionaron hasta
incorporar todas y cada una de las formas de red y una amplia gama de comunidades
de investigación.
Este cambio de unas cuantas redes con una cantidad modesta de tiempo compartido,
el modelo ARPANET original a muchas redes, trajo consigo nuevos conceptos y
modificaciones en la tecnología subyacente.
Primero que nada, las redes se clasificaron en tres tipos: A, B y C. La clase A

representa las redes a escala nacional que son pocas pero contienen una gran
cantidad de servidores. La clase B representa las redes regionales y la clase C las
locales, que son muchas pero están compuestas de unos pocos servidores. También,
para facilitar su utilización, los servidores fueron bautizados con el fin de evitar las
complicadas direcciones numéricas. Tener una sola tabla de direcciones ya no era
factible, así que el sistema DNS (Domain Name System), inventado por Paul
Mockapetris en USC/ISI fue implementado, permitiendo una distribución escalable de
mecanismos para resolver los nombres jerárquicos en direcciones de Internet. Sin
embargo, la explosión continuo, el diseño original fue insuficiente y fue necesario
migrar un modelo jerárquico de ruteo con los protocolo IGP (Interior Gateway Protocol)
y EGP (Exterior Gateway Protocol).
Uno de los retos más interesantes fue la transición del protocolo NCP al TCP/IP, pues
se trataba de una conversión necesariamente simultánea. El primero de enero de 1983
la transición se dio de manera sorprendentemente simple después de años de
planeación. La adopción del protocolo TCP/IP como estándar de defensa llevo
directamente a la partición en comunidades militar MILNET y no-militar ARPANET.
Con la demostración y exploración de la utilidad del ARPANET, otras disciplinas

comenzaron a unirse. El departamento de energía de los Estados Unidos estableció la
MFENet para sus investigaciones, los físicos de alta energía construyeron HEPNet y la
NASA los siguió con SPAN. Rick Adrion, David Farber y Larry LandWeber establecieron
CSNET para la computación científica e industrial. De la distribución del sistema UNIX
por AT&T surgió USENET y más tarde BITNET. Con la excepción de BITNET y
USENET, estas redes tempranas fueron construidas persiguiendo un propósito y
restringidas a él, con comunidades de usuarios cerradas y poca presión en cuanto a
compatibilidad.
En 1984 la británica JANET y en 1985 la NSFNET de Estados Unidos se anunciaron

abiertas para servir a toda la comunidad de universidades y educación superior, sin
importar su disciplina. Las agencias federales encargadas de proveer las redes,
alentaron además la expansión hacia clientes comerciales locales, no-académicos que
habrían de financiar parte de las facilidades y bajar los costos de suscripción
académicos. A nivel internacional se impuso una “Política de Uso Aceptable” AUP que
prohibía el uso para fines distintos a la investigación o la educación, estimulando la
emergencia de redes privadas como PSI, UUNET y ANS CO+RE entre otras.
Aún con todo ese dinamismo y evolución, el entorno dentro de las redes académicas,
específicamente del HEPNet, era uno de aislamiento e incompatibilidad entre formatos
de disco, datos y codificación, volviendo a los intentos de transferencia de información,
una tarea amedrentante. Situación particularmente frustrante dado que el uso cada vez
mayor de las computadoras, hacia casi un hecho que la información de cualquier
proyecto que se quisiera emprender estuviera registrada magnéticamente. De nuevo se
hacían evidentes las necesidades de universalidad, portabilidad y adaptabilidad.
La arquitectura de la World Wide Web se propuso en 1989, con el hipertexto como

concepto base ya que permitía mantener consistencia entre enlaces sin importar la
vaguedad del posible destino y eventualmente aportaba escalabilidad.
El poder de un enlace reside en su capacidad de apuntar a cualquier recurso, de

cualquier tipo, en el mundo de la información. Entonces, el elemento primario de la
arquitectura Web (Ilustración 1), es el Universo de Identificadores de Recursos (URI).
“Universo”, porque cualquier nuevo espacio, de cualquier tipo, mientras posea un
identificador, nombre o dirección puede mapearse, recibir un prefijo “http:” y convertirse
en parte del espacio URL. De momento, ya existía un estándar para acceder a datos
remotos, el File Transfer Protocol (FTP), pero debido a su lentitud y falta de funciones,
se decidió diseñar un nuevo protocolo, el Hyper Text Transfer Protocol (HTTP), cuyos
identificadores HTTP se resuelven en dos mitades: Domain Name Service (DNS) y una
cadena opaca que se entrega al servidor. Para el intercambio de hipertexto se definió el
formato de datos Hyper Text Markup Language (HTML) basado en el sistema SGML
que imperaba en la comunidad encargada de la documentación.
Ilustración 1 – Esquema Web
“El prototipo inicial fue escrito en NeXTSTEP entre octubre y diciembre de 1990 con
enlaces a sonidos y archivos gráficos, publicadas por un servidor HTTP. Un navegador
portable fue desarrollado por Nicola Pellow. Para sembrar la Web con datos, se utilizó
un segundo servidor que funcionaba como directorio telefónico del CERN, la primera
aplicación Web. Sin más recursos, se promovió la migración de la Web a otras
plataformas entre la comunidad de Internet y así, nacieron navegadores para cada
sistema operativo”..
“Ya en 1990 andaban por el mundo Archí y Verónica, los buscadores de FTP y Gopher
respectivamente. El crecimiento de la WWW demando su propio motor de búsqueda
ALIWeb, cuyo indexado dependía de la comunicación directa de los creadores de
páginas con el Webmaster y fue fácilmente superada por los buscadores basados en
crawling que aparecieron para 1993”..
En 1994, con la influencia de Kleinrock, Kahn y Clark la NSF articulo la evolución de la

superautopista de la información, anticipando los asuntos críticos de derechos
intelectuales, ética, precio, educación, arquitectura y regulación del Internet. En octubre
el 1995 se definió formalmente el termino Internet como el sistema global de
información ligado al espacio de direcciones únicas IP y sus extensiones, que es capaz
de soportar, proveer, usar y hacer accesibles, de manera pública o privada, servicios de
alto nivel relacionados la comunicación.. El proyecto largamente gestado había nacido
y hasta tenía descendencia exitosa, Internet y la Word Wide Web estaban listos.
La expansión de LANS, PCs y estaciones de trabajo en la década de 1980 permitió el

florecimiento del Internet, con el Ethernet, desarrollado por Bob Metcalfe en Xerox
PARC en 1973, como la tecnología de red dominante y las PCs las computadoras por
excelencia.
A partir de 1996 con la introducción de las bases de datos por Bluestone's

Sapphire/Web y Oracle y la evolución del comercio electrónico, Internet paso de un
esquema de directorios al de servidores capaces de entregas dinámicas. Además, la
falta de límite superior al tamaño que un sitio Web puede alcanzar, lo volvió el medio
preferido de difusión, con todas las agencias gubernamentales y grandes proyectos de
investigación poniendo su información en línea.
De este modo, las páginas sin codificación HTML y las páginas generadas
directamente de búsquedas específicas, que ya quedaban en una posición dudosa en
Web, se fueron relegando y la Web profunda tomo forma. Pero una forma funcional,
pues las páginas amarillas y directorios similares presentaban (y presentan) sus
catálogos en la Web superficial para ser indexados; pero restringe la visualización de
sus artículos al llenado de formatos que envían búsquedas definidas a las bases de
datos. A pesar de eso, el contenido total de la Web no puede alcanzarse a través de
simples hiperenlaces, en muchos casos se requiere un rastreo más profundo.
Los motores de búsqueda obtienen sus directorios por entrega directa de los autores
de las nuevas páginas o por el método conocido como crawling o arrastre. La
indexación por crawling ha sido comparada con la pesca de arrastre porque lanza una
consulta y se queda con todos los enlaces asociadas, como si de una red en altamar se
tratara. Inicia con un URL semilla, recolecta los enlaces en ella e itera el proceso para
cada enlace obtenido. Los buscadores actuales se basan en búsquedas locales y
asignación de puntajes a las nuevas páginas recolectadas de acuerdo a su nivel de
relevancia.
Ilustración 2 - Representación del indexado de búsqueda
Lamentablemente el algoritmo tiene problemas, desde la correcta identificación y

clasificación de temáticas y la recuperación de los documentos resultantes hasta el
aislamiento de sitios relevantes. Habrá sitios que a pesar de tratar el mismo tema no
están enlazados entre ellos, caso especialmente abundante en las páginas comerciales
y de negocios. También habrá sitios que no estén enlazados de manera recíproca y el
éxito dependerá de donde se inicie la búsqueda; si A y B hablan de horticultura, pero
solamente B tiene links hacia A, empezar la exploración en A, no encontrará B; lo
mismo pasa si las dos páginas de horticultura están separadas por sitios de otras
temáticas, evento en que la araña de arrastre (crawler) se detendrá al topar con las
páginas irrelevantes. Al incluir sitios sólo si estos están enlazados a otras páginas, se
favorece la indexación -hasta ocho veces- de sitios populares y se relega a las
novedades, en el fenómeno conocido como rich gets richer.
Ilustración 3 - Esquema del proceso de indexado
La Web profunda se caracteriza por su dinamismo. Ya sea por tratarse de datos

transigentes que cambian con el tiempo o que son modificados por comunidades
enteras; la información en ella se crea, actualiza y remueve cada día, haciendo
virtualmente imposible la creación de referencias cruzadas y por lo tanto de su
indexación en los motores de búsqueda. Simultáneamente, la información estructurada
en bases de datos que se presenta como páginas al vuelo, disponibles sólo para
usuarios y con identificación y contraseña, queda naturalmente fuera de alcance.
Las observaciones sugieren un división en el mercado de búsqueda: directorios que

ofrecen información elegida para satisfacer las necesidades populares, los que ofrecen
búsquedas más robustas al nivel e “infohubs”, servidores especializados que integran
verticalmente contenidos para proveer completas y de calidad. Sin embargo, tan sólo la
Web superficial, creciendo a una tasa estimada de 7.5 millones de documentos por día,
ha superado los loables intentos de los motores de búsqueda de incluir la mayor
cantidad posible de sitios. Respecto al alcance de los motores de búsqueda en la Web
profunda*, se cree que los populares Google, Yahoo! y MSN cubren alrededor del 30%
de los contenidos; pero a diferencia de su funcionamiento complementario en cuanto a
la indexación de la Web superficial (meta-búsqueda), tienen un sobrelape de ~27%
entre Yahoo! y Google y de casi 100% entre MSN y Yahoo! .
Según el análisis del 2001 de BrightPlanet de 38.000 sitios de la Web profunda, se

pueden sacar 430.000 términos únicos y un total de 21.000.000 términos. Si estas
cifras representaran el contenido de la base de datos, habría que emitir 430.000
consultas individuales para rescatar con certeza todos los archivos; pero, como lo
prueba la colección del British National Corpus que contiene más 100 millón de
términos únicos, la Web profunda es mucho más rica. Es difícil emitir tantas consultas a
bases de datos individuales, es todavía más difícil repetir el proceso para cientos de
miles de sitios y, hacerlo periódicamente en una agenda razonable que capture los
contenidos dinámicos, es simplemente imposible. El arrastre no basta, no cubre la Web
superficial en su totalidad y mucho menos la Web profunda, que queda entonces,
condenada a la invisibilidad y creciendo.
• ACTUALIDAD DE LA WEB PROFUNDA
Actualmente a la fecha, la Deep Web se ha expandido notablemente no solo en tamaño

sino también en peligrosidad e ilegalidad. La en apariencia escasa moral que desde los
diversos grupos gubernamentales se denuncia, solo se ve, de a momentos
compensada con la increíble cantidad de datos bibliográficos útiles y la libertad de
pensamiento y expresión de la que sus usuarios hacen alabanzas.
Es complicado indagar sobre el volumen y el caudal de datos que se almacena en la
Deep Web, Como no se pudo comprobar la fuente, se borra la referencia los idiomas
del contenido varían notablemente, pero de forma muy similar a la Surface Web, los
Idiomas predominantes son el inglés, el chino y el español. Según el sitio
Internetworldstats.com en el 2012 se registraron en Internet 1.076.681.059 de usuarios
Asiáticos, a la par de 518.512.109 Europeos y 273.785.413 Norteamericanos. Apenas
por detrás quedaron los usuarios Latinoamericanos con 254.915.745 de censados. La
estadística se puede analizar, con la siguiente tabla :
USO DE INTERNET MUNDO Y estadísticas de población
30 de junio 2015 - Actualización de Mitad de Año
Usuarios de
Usuarios de
Regiones Población Internet Penetración Usuarios% Crecimiento
Internet
del mundo (2015 est.) 31 de de (% Población) de la Tabla 2000-2015
Últimos datos
diciembre, 2000
África 1158355663 4,514,400 313 257 074 27,0% 9,6% 6,839.1%
Asia 4032466882 114 304 000 1563208143 38,8% 47,8% 1,267.6%
Europa 821 555 904 105 096 093 604 122 380 73,5% 18,5% 474,8%
medio este 236 137 235 3,284,800 115 823 882 49,0% 3,5% 3,426.1%
América
357 172 209 108 096 800 313 862 863 87,9% 9,6% 190,4%
del norte
América
Latina / 617 776 105 18068919 333 115 908 53,9% 10,2% 1,743.6%
Caribe
Oceanía /
37157120 7620480 27100334 72,9% 0,8% 255,6%
Australia
TOTAL
7260621118 360 985 492 3270490584 45,0% 100,0% 806,0%
MUNDIAL
NOTAS: (1) el uso de Internet y la World Population Statistics son preliminares para el 30 de junio de 2015. (2) Haga clic en
el nombre de cada región del mundo para la detallada información de uso regional. (3) Demografía (Población) cifras se
basan en datos de la Oficina del Censo de Estados Unidos, de Eurostat y las agencias locales del censo. (4) información
sobre el uso de Internet proviene de los datos publicados por Nielsen Online, por la Unión Internacional
de Telecomunicaciones, por GfK,reguladores de TIC locales y otras fuentes confiables. (5) Para las definiciones, limitaciones
de responsabilidad, la navegación ayuda y la metodología, por favor consulte el sitio Guía de Surf. (6) La información
contenida en este sitio puede ser citado, dando el debido crédito y la colocación de un enlace
a www.internetworldstats.com. Copyright © 2001 - 2015, Miniwatts Marketing Group. Todos los derechos reservados en todo
el mundo.
Tabla 1 - Relación población/usuario según el Uso del Internet en el Mundo
Si ahora consideramos el caudal de usuarios por idioma, podemos ver que a Mayo de
2011 565.004.126 usuarios usan el Inglés, 509.965.013 el Chino y 164.968.742 el
Español. En más detalle a nivel general:
Top diez de los idiomas utilizados en la Web - 30 de junio 2015
(Número de usuarios de Internet por idioma)
Crecimiento Usuarios de
Usuarios de Internet Población mundial
DIEZ IDIOMAS Usuarios Internet
Internet Penetración para este idioma
EN INTERNET en Internet % Del total mundial
por idioma (% Población) (2015 estimado)
(2000 - 2015) (Participación)
Inglés 851 623 892 60,9% 505,0% 26,0% 1398277986
Chino 704 484 396 50,4% 2,080.9% 21,5% 1398335970
Español 245 150 733 55,5% 1,248.4% 7,5% 441 778 696
Árabe 155 595 439 41,5% 6,091.9% 4,8% 375 241 253
Portugués 131 615 190 50,0% 1,637.3% 4,0% 263 260 385
Japonés 114 963 827 90,6% 144,2% 3,5% 126 919 659
Ruso 103 147 691 70,5% 3,227.3% 3,2% 146 267 288
Malayo 93915747 32,7% 1,539.0% 2,9% 286 937 168
Francés 92265199 23,9% 669,0% 2,8% 385 389 434
Alemán 83738911 87,8% 204,3% 2,6% 95324471
TOP 10
2576501025 52,4% 768,2% 78,8% 4917732310
IDIOMAS
Resto de las
693 989 559 29,6% 980,6% 21,2% 2342888808
Lenguas
TOTAL
3270490584 45,0% 806,0% 100,0% 7260621118
MUNDIAL
NOTAS: (1) Top Ten Idiomas Internet Stats se actualizaron para el 30 de junio de 2015. (2) penetración de Internet es el
cociente entre la suma de los usuarios de Internet que hablan una lengua y la estimación total de la población que
habla ese idioma específico. (3) La información más reciente de uso de Internet proviene de los datos publicados
por Nielsen Online, Unión Internacional de Telecomunicaciones, GfK, y otras fuentes confiables. (4) información sobre
la población mundial proviene principalmente de la Oficina del Censo de los Estados Unidos y los de Eurostat. (5) Para
las definiciones, la metodología y la navegación ayuda, por favor consulte el sitio Guía de Surf. (6) Estas estadísticas
pueden ser citados, indicando la fuente y el establecimiento de un enlace activo de nuevo a Internet World
Stats. Copyright © 2015, Miniwatts Marketing Group. Todos los derechos reservados en todo el mundo.
Tabla 2 - Relación población/usuario según Los 10 Lenguajes más usados en la Web
Aun concentrándose gran parte de los usuarios en regiones como Asia, se puede
apreciar que el Ingles sigue manteniéndose como lengua estándar de la web. Estas
cifras en años venideros podría llegar a cambiar, considerando que solo una tercera
parte de la población asiática accede a Internet y que muy lejos están de alcanzar esos
números las demás regiones.
Ahora que se arrojó luz por sobre la cantidad de volumen que posee la web y su
idioma, podemos comenzar a desgranar cual es el punto de acceso principal hacia la
Deep Web.
Mientras la mayor parte de la información en la Web superficial los constituyen textos
HTML desestructurados e imágenes; las bases de datos de la Web profunda se pueden
dividir en relacionales, con atributos y valores, como es el caso de amazon.com y en
desestructuradas, que presentan objetos como medios desestructurados de texto,
imágenes, audio y video; que es el caso de cnn.com.
• ¿CÓMO SE ACCEDE A LA WEB PROFUNDA?
Podemos recurrir a directorios temáticos, que nos den enlaces a los sitios donde se
encuentran las bases de datos, que a veces tienen partes gratis o accesibles si se
insertan algunos datos. Por ejemplo para trabajar con noticias
existe: http://www.newsnow.co.uk/
También a veces los sitios que se exploran con bases de datos pueden ser
recuperables por medio de los buscadores: por ejemplo realizando una búsqueda en
Google con las palabras claves "american newspapers" Newslink, (http://newslink.org/)
que es una base de datos de enlaces a sitios de en todo el mundo.
Asimismo, existen otros servicios de recolección de enlaces a bases de datos que

pueden servirnos:
CompletePlanet: http://aip.completeplanet.com/ ofrece acceso a muchísimas bases de

datos e incluye sumarios de lo que se puede encontrar.
Direct Search: http://www.freepint.com/gary/direct.htm es una gran compilación de

enlaces a interfaces de una gran variedad de recursos web.
Invisible-web.net: http://www.invisible-web.net/ es un directorio muy bueno sobre bases

de datos.
ProFusion: http://www.profusion.com/ es un meta buscador que ofrece búsquedas ten

categorías temáticas.
CompletPlanet: http://www.completeplanet.com/ trae la referencia a miles de sitios la

mayor parte invisible a los motores de búsqueda.
• VENTAJAS Y DESVENTAJAS DE LA DEEP WEB
• VENTAJAS
El inmenso potencial de las redes y el interés por saber quiénes están detrás del
teclado realizando todo tipo de actividades, ha dado pie a que las personas
protejan su identidad y así, que lleven a cabo al máximo su libertad de expresión
de manera anónima. El anonimato va más allá de "hackear" a usuarios; el
anonimato real permite que las personas se expresen sin riesgos. La web
profunda, es una herramienta muy útil para el gobierno ya que sirve para
monitorear crímenes, terrorismo y actividades ilícitas. También, podemos
navegar libremente por ella sin que se guarden los datos de lo que vemos y
visitamos.
Existe una gran cantidad de información que sólo lo podemos encontrar en lo

profundo como:
• Investigaciones científicas.
• Libros censurados por el gobierno y libros normales.
• Directorios.
• Venta de productos.
• DESVENTAJAS
En la web profunda hay demasiadas cosas como para contarlas, el contenido de

esta supera por mucho al que normalmente conocemos y en ella vas a encontrar
desde lo bueno y útil hasta l
Lamentablemente, al ser una red muy grande, sin restricciones y anónima, hay
una gran posibilidad de encontrar contenido como:
• Pornografía de todo tipo.
• Imágenes grotescas.
• Videos de crímenes.
• Piratería.
• Contratación de personas para asesinatos.
• Venta de armas y drogas.
• Tráfico de órganos.
Teniendo en cuenta los aspectos anteriores, podremos hacer un juicio de los

peligros y beneficios que supone la web profunda. La decisión es personal y no
debemos dejar que las opiniones de los demás influyan en nuestra decisión. Es
cierto que es peligroso pero si se toman las precauciones necesarias y no se
ingresa a archivos desconocidos o de aspecto peligroso, no se encontrarán
contenidos indeseables.
• ¿QUÉ CONTIENE LA DEEP WEB?
La web profunda contiene casi todo, si tienes el tiempo para buscarlo. Bibliotecas con
gran material, revistas, diccionarios, expedientes y archivos clasificados, y también
mucha, pero mucha Pedofilia. Hay que tener mucho cuidado con lo sitios que visita y al
hacer clic en los enlaces, ya que se puede encontrar con un sitio web de pornografía
infantil, hay que mantenerse alejado de cualquier cosa etiquetada como "chan", 'CP' o
'Candy', probablemente y en gran medida, es tráfico de pornografía infantil.
La etiqueta CP ha de ser evitada a toda costa. Te llevará a la pornografía infantil

(penalizado en todos los países).
Por el lado bueno, tenemos guías y listas de teléfonos, e-mail, y todo tipo de
directorios, "People finders" es decir listas de profesionales de todas la disciplinas,
productos de venta a través de e-commerce, leyes, decretos, en general información
legal, aunque alguna se puede encontrar en web estático, archivos multimedia y gráfico
que no tengan la metadata de palabras claves que la identifique en forma clara,
publicaciones digitales de libros y diarios. Pero claro, eso no es todo lo que podemos
encontrar, también se encuentra fácilmente: Hackers (según leí, fácilmente toman tu IP
aunque esta esté bajo proxy, como también se pueden tomar la mayoría de los datos
personales de un usuario) y casi todo lo ilegal que pase por tu mente. Si, Deep Web, si
bien contiene páginas olvidadas e inocentes, es sinónimo de ilegalidad y el solo
adentrarte en ese mundo ya te hace ser ilegal, y no cualquier tipo de ilegalidad.
También podrás encontrar manuales para fabricar C4 y similares, venta de órganos,

contratación de sicarios, procedimientos para envenenar, manuales de guerrilla ,
mutilaciones, lavado de dinero y cosas por demás atroces, sitios donde se comercian
drogas, armas, secretos de estado, suministros de laboratorio como el ácido sulfúrico y
el mercurio líquido, y servicios delictivos de hackers (Hacking en general como se
podrá apreciar en sitios donde se ofrecen servicios para destruir servidores, hackear
cuentas, crear virus en comunidad, etc.), pero también se comparten conocimientos
sobre sistemas, seguridad y mucho más que sin dudas es muy interesante y no genera
consecuencias para el usuario promedio y muchos manuales para esto. Asimismo hay
lugar para el intercambio de pedofilia y cualquier otro tipo de actividad ilegal como las
mencionadas anteriormente, de las que tendrás que mantenerte muy atento para no
hacer parte de ellas. Además saltan a la vista temas de conspiración extraterrestre y
otras muchas inusuales.
• ¿CÓMO ACCEDER A LA DEEP WEB?
Aquí es donde normalmente surge una confusión, pues la Deep Web no refiere
directamente a lo que se conoce como la Darknet o Dark Web, pues como hemos visto,
sólo una parte de su populoso contenido refiere a sitios donde es necesario ingresar de
manera anónima. O mejor dicho, conviene ingresar de manera anónima. Por ello, para
tener acceso a la parte más inocente, más informativa y más poblada de la Deep Web,
debes utilizar motores de búsqueda especializados o temáticos, además de recorrer las
ofertas de buscadores de base de datos como Complete Planet, por ejemplo. Además
de esto, y como muchos buscadores estándares han comenzado a indizar este tipo de
sitios, una búsqueda del tipo “astronomical discoveries database” (recuerda que el 90%
de los datos fuertes en internet están en inglés) podría enviarte directo a millones de
oportunidades.
Si tu intención mientras navegas la web profunda es evitar los sistemas de análisis de

tráfico y navegar con total anonimato en las profundidades de lo claro y lo oscuro
(obligatorio encender un proxy), entonces te podemos recomendar (como primer
acercamiento para el usuario sin experiencia) Tor.
Tor es una aplicación y también una red abierta que sirve como una herramienta (no
infalible) para proteger la privacidad en internet a través del anonimato. Sirve para
navegar como para usar mensajeros instantáneos y está abierto a todos los sistemas
operativos. El proceso de conexión entre clientes o entre cliente y servidor a través
de Tor, se hace con encriptación y por diferentes y aleatorios canales (Onion Routing)
para evitar el seguimiento de las identidades por parte del análisis de tráfico en redes
públicas.
Otro sistema para proteger la libertad de expresión y acción es Freenet.
• HERRAMIENTAS DE ACCESO
La dificultad de indexar contenido dinámico, sin enlaces, privado o escrito en código no-
HTML, repercute negativamente en el acceso a la información y el aprovechamiento
real del Internet: "Las fuentes de la Web Invisible son críticas debido a que provee a
los usuarios información específica dirigida, no solo de texto estático o páginas HTML”,
dice Sundar Kadayam, cofundador de Intelliseek, la compañía creadora de la
apropiadamente llamada Invisibleweb.com, un directorio de alta calidad, editado e
indexado a mano.
Como Intelliseek, varios portales han emergido, en un intento de clasificar las bases de
datos de la web profunda en taxonomías y facilitar las búsquedas específicas desde el
entorno amigable de la Web superficial. Algunos ejemplos son,:
HERRAMIENTA DESCRIPCIÓN
Creado y mantenido por la biblioteca

Hekman en la universidad
AlphaSearch estadounidense de Calvin se enfoca en
temas particulares accesibles por
disciplinas y tags descriptores
Con alrededor de 1,500 bases
organizadas en 300 categorías, provee
The Big Hub los formatos de búsqueda default de
cada base de datos, facilitando el
acceso directo.
Se enfoca en recursos académicos:
Infomine Multiple Database Search colecciones, revistas electrónicas, libros,
directorios de investigadores y catálogos
de bibliotecas; permite metabúsquedas
Provee links anotados y calificados en
WebData cuanto a su calidad
http://www.webdata.com/. Entrada
bibliográfica.
Está especializado en recursos
DirectSearch ausentes de los otros directorios.
Entrada
bibliográfica<http://directsearch.net/>.
Presenta formatos de búsqueda y
Internet Oracle enlaces directas a cientos de directorios
generales y de temáticas específicas
Es el catálogo más antiguo de la Web.
Creado en 1991 por Tim Berners-Lee es
The WWW Virtual Library sostenido por voluntarios que capturan
enlaces sobre las áreas de su de su
conocimiento. No es peculiarmente
grande pero su calidad es reconocida
Se enfoca en ingeniería, matemáticas y
recurso de computo, proveyendo
Tech Xtra noticias, ofertas de trabajo, reportes
técnicos, e-prints, recursos de
enseñanza e información sobre sitios
Web
Utiliza autollenado y metodologías de
SurfWax sugerencia para encontrar contenidos
de sitos dinámicos. Es especialmente
bueno para encontrar novedades
Biznar Devuelve información general sobre
negoción desde variedad de fuentes
Mednar Es la versión de Biznar especializada en

medicina y salud
Es un motor especializado en recursos
académicos de más de 2,900 fuentes,
BASE con documentos completos en el 75%
de los casos. Mejora continuamente
mediante la integración de recursos
locales y OAI
Comprende portales y bases de datos a
Global Science Gateway proyectos de investigación
internacionales, por lo que permite
búsquedas en múltiples lenguajes
Es una biblioteca digital volcada hacia
CiteSeerX las ciencias de la computación y de la
información
BrigthPlanet Con más de 70,000 bases cubre sólo el
15.6% del total estimado
Tabla 3 – Herramientas de Acceso a la Web Profunda
Excepto CompletePlanet, cada directorio abarca entre 0.2% y 3.1% de la web profunda;
evidentemente la indexación manual no persigue una escala representativa de la web
profunda sino constituirse en un puerta de acceso a información especializada. Para
poder entrar a mar abierto, hacen falta herramientas diferentes.
• NIVELES DE LA DEEP WEB
Se ha intentado clasificar la World Wide Web en niveles, esto con cierta discusión dada
la dificultad subjetiva de acceso a algunos contenidos, hay categorías determinadas
que parecen más bien ser leyendas urbanas, tal es el caso de los putativos niveles
cinco a ocho. Pero al menos se tiene concierto en la existencia de los cuatro niveles
mostrados en el esquema superior, que atribuye dos niveles a la Web superficial y dos
a la Web profunda. De ninguna manera esto quiere decir que sean equivalentes en
tamaño, pues como se intenta representar con el rectángulo gris, los dos niveles de la
Web profunda comprenden una parte considerablemente mayor del universo de
información.
En el primer nivel quedan los sitios Web genéricos y estáticos que no presentan ningún
problema de indexación. Ya en el segundo hay cierta información oculta pero aún no
por dificultades técnicas sino por sus temáticas de interés particular, esto es lo que se
denomina Bergie Web y se trata de bases de datos bien indexadas y accesibles pero
con ciertos bloqueos como IMDb por un lado y los distintos sitios carnada conocidos
como honeypots por el otro lado. En el nivel tres comienzan la Web profunda, con las
páginas que no se indexan debido a su contenido dinámico pero que son de dominio
público y puede navegarse con buscadores especializadas, aquí queda la mayor parte
de la información en la WWW organizada en bases de datos científicas como la
EOSDIS de la NASA y los catálogos de ebay. El nivel cuatro se le conocen como
Charter Web y no sólo no está indexado por su contenido dinámico, también es
privado y demandan sistemas de anonimato como Tor por el material sensible que se
mueve en ella.
El nivel cuya existencia se discute más es el cinco, bautizado como Marianas Web,
parece tratarse de un nivel restringido para uso gubernamental mediante computación
cuántica que si bien suena atractivo a más no poder por las aplicaciones que tendrían
que estarse desarrollando en cuanto a complejidad computacional, podría simplemente
tratarse de un remanente del MILNET del proyecto ARPANET original, más inseguro
para los intrusos que interesante..
Billones de páginas que son demasiado dinámicas o demasiado privadas para ser
halladas por los buscadores tradicionales.
Al respecto del material sensible, ya en el nivel tres abunda, desde honeypots más
extravagantes, gore, hackers y virus hasta datos sobre Eliza, teoría de AI, seguridad
computacional y realidad virtual. El nivel cuatro tiene todo lo necesario para convertirse
en el paraíso de la ilegalidad y así mantiene mercados de armas, drogas, pornografía
infantil, snuff, animales exóticos, de humanos, de asesinos y supuestamente
información clasificada del tipo experimentos con humanos y teorías conspiratorias,
pero estas últimas son más mitos que certezas.
Se puede indagar gráficamente en los niveles de la Web profunda, haciendo una vista
general de la siguiente imagen (Ilustración 4), que muestra a grandes rasgos la
distribución de la World Wide Web como conjunto global. Esta imagen fue extraída de
la charla del 9 de Mayo de 2013 llevada a cabo en la Universidad de Almería, que fue
citada anteriormente. Se la tradujo por el autor
para una
mejor comprensión.
Ilustración 4 – Distribución de la World Wide Web
Utilizando Tor, un navegador con sistema de proxis que sirven para mantener el
anonimato del usuario el primer punto de acceso a la Deep Web sea probablemente la
Hidden Wiki. Este sitio, de aspecto similar a su hermano de la superficie Wikipedia,
sirve como portal de entrada a una cantidad limitada de páginas, que van desde venta
de drogas y armas hasta bibliotecas virtuales con todo tipo de bibliografía desde
académica hasta la que huye del alcance del copyright.
Esta es la dualidad que todo el tiempo parece que presenta esta zona de la web, desde
los fines más oscuros del mercado hasta aquellos más loables como es el compartir
conocimientos académicos.
Se cree que actualmente la Deep Web continuara creciendo, que más usuarios
integraran esta desconocida red a sus sesiones de navegación y de búsqueda
cotidiana y que quizá, si tener una noción de progreso colectivo no necesitáramos
llamarlo abismo, para referirnos a él.
• SITIOS DE ACCESO A INFORMACIÓN

• PROYECTO TOR Y ONION ROUTING
Pacifistas, grupos de derechos humanos, periodistas, ciudadanos comunes y militares

usan Tor, en una heterogeneidad tal de usuarios, ubicaciones e ideologías que el
anonimato se ve siempre garantizado en opinión Jacob Appelbaum, miembro,
desarrollador y promotor del proyecto Tor, además de representante del popular sitio
WikiLeaks.
Pero, ¿qué es el proyecto Tor?
El proyecto Tor, fue presentado en una conferencia sobre seguridad en el 2001; pero
liberado hasta el 2003. Con el objetivo de esconder en el anonimato el tráfico
interactivo, creció gracias al financiamiento gubernamental y de diversas ONGs hasta
convertirse en sinónimo de Web profunda. Se trata de un sistema de anonimato que
nos permite a entrar en contacto con todo lo que no está indexado, ya no sólo con esas
páginas a las que las arañas no llegan -que más bien deberían quedar dentro de la
Web superficial- sino también con todos los sitios construidos específicamente para no
ser encontrados.
Las razones por las que un sitio se diseña para quedar relativamente oculto, pueden
variar; pero el resultado es el mismo, para tan sólo tener la capacidad de
buscarlos, hay que navegar en anonimato y es ahí donde entra Tor.
Por The Onion Routing, el proyecto Tor comprende un conjunto de herramientas - Tor
Browser Bundle, Arm, Tor Cloud, Metrics Portal, Obfsproxy, Oniono, Orbot, Shadow,
Stem,Tails, TorBirdy, Tor2Web, txtorcon y Vidalia-, que nos permiten navegar seguros
haciendo uso del “ruteo cebolla”, una técnica de comunicación creada en el Laboratorio
Naval de Investigación de Estados Unidos en que el mensaje es repetitivamente
encriptado, como si se tratara de las capas de una cebolla.
Como lo dice su sitio, Tor es útil para todo tipo de personas por diversos motivos. El
usuario común protege su privacidad de comerciantes inescrupulosos y ladrones de
identidad, su libertad de informarse de temas sensibles, se protege del mapeo a través
de IP, de la censura y, en algunos países Tor le permite disfrutar las funcionalidades
básicas de Internet. Las autoridades y periodistas, además de esos beneficios, lo
utilizan para obtener y proteger información geográfica sobre usuarios de interés y
comunicarse con confidencialidad. Las empresas consiguen mantener a salvo sus
estrategias y movimientos financieros. Por último, los activistas pueden mantener a
través de Tor una vigilancia global de los derechos humanos y el buen desempeño de
las instituciones, al permitirles reportar atropellos anónimamente, sin temor a
represalias. Es esta heterogeneidad de usuarios, ubicaciones e ideologías la que
garantizado el anonimato, en opinión Jacob Appelbaum, uno de los desarrolladores y
promotores de Tor; pues entre todos esos usuarios se forma un todo diverso en que el
ataque aleatorio puede resultar dañino para el propio organizador del ataque, al volver
a todos los usuarios nodos, se dificulta la discriminación entre amigo y enemigo.
• SERVICIOS OCULTOS
En abril del 2012, en el sitio social de noticias Reddit, apareció un mensaje anónimo
publicando un botnet que funcionaría como servicio oculto de Tor, el malware, que fue
descrito como una versión de ZeuS, usaba un servidor UnrealIRC 3.2.8.1 para el
comando y control de las maquinas infectadas que usaba como SOCK proxy e incluía
un minero Bitcoin. Hasta esa fecha solo dos servicios eran operados para control y
comando, el HTTP estándar basado en ZeuS y un IRC.
En la actualidad se conoce un número de mercados negros sostenidos como servicios

escondidos de Tor, de los cuales Silk Road es el más conocido .
Los “hidden services” fueron introducidos en el 2004 para añadir anonimato de

respuesta, específicamente, permiten correr servicios (sitios Web, servidores SSH, etc.)
de modo que los clientes no conozcan su IP. Esto se logra con el ruteo de todas las
comunicaciones entre el cliente y el servicio a través de puntos rendezvous que
conectan los circuitos anónimos. La arquitectura de los servicios ocultos está
compuesta de:
• Un servicio de Internet disponible como servicio oculto;
• Un cliente que quiere acceder a ese servicio;
• Puntos de introducción, nodos Tor elegidos por el servicio oculto para enviar la
células necesarias para conectar al cliente con el punto Rendezvous;
• Los directorios del servicio oculto HSDir(Hidden service directories), nodos en
los que el servicio publica sus descriptores para comunicar a los clientes las
direcciones de los puntos de introducción del servicio;
• Punto Rendezvous, nodo elegido por el cliente para dirigir la información a
compartir con el servicio ocultoimagen
Para hacer un servicio oculto de Tor, el operador configura su proxy cebolla para que
los primeros 10 bytes de la codificación ASN.1 de su clave pública automática RSA
sean el identificador del servicio; elige un número pequeño de puntos de introducción y
establece un nuevo circuito de introducción para cada uno de ellos; luego, genera dos
descriptores con IDs diferentes, determina los HSDir responsables y sube a ellos los
descriptores. Un directorio de servicio oculto es un nodo Tor con la bandera HSDir, que
requiere nodos operacionales por al menos 25 horas. Los descriptores del servicio
oculto contienen la lista de puntos de introducción y la clave pública del servicio oculto.
Cuando un cliente quiere comunicarse con el servicio, primero necesita un puntero al

servicio, que tiene que transmitirse fuera de banda. El puntero es el nombre del
huésped de la forma z.onion, donde z es el identificador del servicio oculto codificado
en base 32. Una vez que tiene el puntero, calcula las IDs de lo descriptores y obtiene la
lista de HSDir responsables de los que recupera los descriptores en sí. Para establecer
la conexión, el punto del usuario construye un circuito rendezvous al conectarse de
modo aleatorio a nodos cebolla y enviarles células con los comandos rendezvous
establecidos. El cuerpo de esas células contienes cookies rendezvous, valores
arbitrarios de 20 bytes distintos para cada intento de conexión. Después de recibir el
comando de establecimiento de rendezvous, el enrutador cebolla asocia el comando
con el circuito. El cliente construye un circuito aparte con uno de los puntos de
introducción y le envía la dirección IP del punto rendezvous, la clave pública del
servicio y la cookie rendezvous. Si el punto de introducción reconoce la clave pública,
desencripta la dirección del punto rendezvous, responde con una célula y se cambia de
circuito; el resto de la comunicación se hace con el punto rendezvous pasando células
de un circuito a otro, de este modo ni el servicio oculto conoce la dirección IP del cliente
ni el cliente la del servicio.
La elección de HSDirs responsables de guardar los descriptores se basa en los

identificadores y huellas del directorio. Los identificadores cambian cada 24 horas de
acuerdo a la expresión:
Id= Hclave pública || clave secreta)
Clave secreta=H (cookie del descriptor || tiempo || índice de réplicas
Las cookies del descriptor son un campo opcional que previene la entrada de clientes
no autorizados.
Una vez calculados los identificadores, el servicio oculto ordena los directorios en un
círculo cerrado y elige los tres más cercanos en dirección positiva, es decir los que
tiene IDs grandes. De acuerdo a la implementación actual de Tor, los servicios ocultos
generan y publican dos réplicas de sus descriptores, lo que resulta en dos conjuntos de
tres directorios con huellas consecutivas. La lista de puntos Tor es distribuida por el
mismo Tor en un documento consenso, actualizado cada hora que se mantiene valido
por tres horas y se considera fresco solo en la siguiente hora a su publicación.
Los ataques de confirmación de tráfico, que permitirían identificar quien se comunica,

son especialmente peligrosos para los servicios ocultos, ya que, por definición, el
atacante siempre controla uno de los extremos de la conexión. Si los nodos de
introducción fueran elegidos uniformemente, la probabilidad de ataque incrementaría
con el número de circuitos establecidos por el atacante. Para reducir significativamente
estas probabilidades, los desarrolladores Tor introdujeron los nodos guarda. Tor
inicialmente selecciona un conjunto de tres nodos guardas, los nodos que no son
accesibles, son remplazados por nuevos nodos, que duran como tales de 30 a 60 días
antes de ser removidos del set.
Cada que se establece un circuito, se posiciona a un nodo guarda como primer salto.
Ilustración 5 - Esquema del funcionamiento de los Servicios Ocultos
• PROYECTO INTERNET INVISIBLE (I2P)
I2P es un proyecto nacido en el 2003 de la red Freenet, que persigue la comunicación

anónima entre personas.
Funciona como una capa sobre la Internet tradicional diseñada para correr otros
servicios a parte del HTTP. Al contrario de TOR que inicialmente se construyó
pensando en el anonimato en la Web y hasta después se extendió a los servicios
ocultos; el objetivo exclusivo de I2P es constituirse como el medio por excelencia de
hospedaje de servicios IRC, Web, correo electrónico y bittorrent, entre otros.
Ilustración 6 - Proyecto Internet Invisible
I2P funciona con túneles virtuales. Cada nodo en la red I2P es un enrutador que crea y
mantiene cantidad de rutas virtuales entrantes y salientes. Si un nodo A quiere enviar
un mensaje a un nodo B, dirige el mensaje a unos de los túneles de salida junto con la
información necesaria para llegar a uno de los túneles de entrada al nodo B. La
información acerca de los túneles de entrada se almacena, como en Tor, en una DHT
que sirve como red descentralizadora, de este modo se evitan los ataques directos
sobre puntos centrales.
Toda la comunicación es encriptada con múltiples capas: encriptación nodo a nodo
entre el emisor y el receptor, encriptación de transporte entre enrutadores y
encriptación extremo a extremo en los túneles. En este caso la técnica de encriptación
de conocer como ruteo ajo.
Los sitios ocultos en la red I1P, se llaman “eepsites”, tal como los rastreadores de
torrents o los servidores de correo electrónico anónimo pueden ser identificados por
valores o nombres de dominios con el TLD “.i2p”.
• FREENET
Freenet ha estado por aquí desde el 2000, se considera el predecesor de I2P, aunque
al contrario de esta, implemente DHT sólo en la forma de una red sobrepuesta y
desestructurada, es decir, haciendo a todos y cada uno de los nodos responsables de
una parte de los recursos disponibles y por lo tanto participes de todos las peticiones
recibidas.
Ilustración 7 – Freenet
Los nodos mantienen una lista de los nodos vecinos que son confiables para
incrementar la seguridad; lo que se conoce como principio del “mundo pequeño”. Los
nodos y datos se identifican por claves usualmente representadas por un arreglo de
valores. Cuando se están buscando recursos, una petición viaja por todos los nodos
vecinos en orden de preferencia, primero los nodos más cercanos a la clave.
Debido al acercamiento adoptado, Freenet es más útil para servir contenido estático y
no aborda bien a las páginas generadas dinámicamente u otra forma de servicios Web
como IRC y correo electrónico. Comparado con I2P y Tor, Freenet es el menos flexible,
en términos de servicios hospedados, por estar limitado a puro contenido estático.
• DUCK DUCK 6.0
DuckDuckGo es un sencillo buscador de Internet identificado con el logotipo de un

pato, que ha alcanzado gran popularidad en la red.
Sobresale por su sencillez y minimalismo, solo es necesario introducir un término o
palabra y mostrará de forma casi instantánea el resultado existente en su base de
datos o en la de otros buscadores o incluso sitios de Internet.
Ilustración 8 - Duck Duck
Es ligero, sencillo y no es necesario de configurar ni de establecer nuestras

preferencias.
Funciona perfectamente para las búsquedas en el idioma español, desde la PC o
usando dispositivos portables.
• CONSECUENCIAS LEGALES
La naturaleza de los bienes mercados a través de los servicios ocultos de Tor, hace que
distintas agencias alrededor del mundo hablen de legislar la red pero sin ningún éxito,
pues los diversos mercados negros que sostiene siguen su funcionamiento normal. Se
considera que hay tres posibles intervenciones: la disrupción de la red Tor, la disrupción
de su infraestructura financiera o la del modelo de entregas.
El rastreo directo sobre la red también ofrece dificultades, Tor es vulnerable a los
ataques de tráfico pero tiene nodos guarda, y aun superándolos, es posible revelar la
ubicación aproximada de un servicio oculto, pero probar que una máquina en particular
esta hospedad el contenido oculto es considerablemente más complicado, podría
tratarse de un simple proxy al servicio mantenido en otra computadora.
El Bitcoin se ha evidenciado como una moneda volátil. En junio del 2011 el robo de una
gran cantidad de Bitcoins de Mt. Gox causó el colapso abrupto. Entonces, un
adversario podría intentar usar esto a su favor, creando fluctuaciones que impidieran
las transacciones. A parte de los costos colaterales evidentes de esta estrategia, Silk
Road provee mecanismos amortiguadores para las fluctuaciones a corto plazo del
Bitcoin, que se han probado útiles para enfrentar su volatilidad, no se puede saber con
claridad si tales mecanismos bastarían ante un atacante con grandes recursos
económicos. Investigaciones recientes han evidenciado la vulnerabilidad del Bitcoin a
los ataques de análisis de tráfico; dado que la historia de las transacciones es pública,
el análisis de la red ayudaría a mapear las claves públicas a usuarios individuales.
Como las agencias de cambio, del tipo de Mt. Gox, enlacen claves públicas a
identidades, el anonimato del Bitcoin es mucho más débil de lo que aparenta. De
hecho, los grandes vendedores, retirando cantidades masivas de Bitcoins de una sola
vez, resultan relativamente fáciles de identificar, al menos que tomen precauciones
adicionales para ocultar sus pistas.
El refuerzo a los controles postales para impedir la entrega de artículos ilícitos parece
ofrecer menos daños colaterales. Muchas de las compras en Silk Road son envíos
internacionales, por lo que el riesgo de pérdida o destrucción es considerado mínimo,
aun cuando, por ejemplo, la coordinación de las agencias postal, antidrogas y de
alimentos en Estados Unidos destruye o devuelve muchos de los paquetes
sospechosos.
Aunque resulte políticamente cuestionable, hay estudios sobre la prevención del abuso
de drogas que demuestran más costosa su prohibición que su regulación. El éxito de
mercados como el Silk Road descansa en la dificultad de compra que presentan otros
canales; entonces, tal vez lo más económicamente viable sea la regulación de los
artículos ofertados que no comprometen los ideales de las naciones. Aunque no hay
declaraciones públicas al respecto, parece que este es el procedimiento adoptado con
los mercados de drogas en línea, puesto que no ha habido interrupciones significativas
a su operación, sino, al contrario un aumento considerable en el volumen de sus
ventas.
Como veremos, la regulación de los contenidos no exclusivos de la Web profunda
puede tener mayores efectos.
• CONSECUENCIAS TECNOLÓGICAS DE LOS SERVICIOS OCULTOS

Las reacciones tecnológicas a la Web profunda que no se enfocan en la extracción de
bases de datos, están dirigidas al combate o facilitación del cibercrimen establecido
sobre los servicios ocultos de Tor; que debido a su diseño son difíciles enfrentar.
De origen, hay dos formas diferentes de implementar servicios ocultos en Tor y de ellas
dependen sus vulnerabilidades. En la primera, el proveedor crea un servicio único para
todos los usuarios y les da autorización una vez que estos hacen contacto de manera
exitosa. A pesar del atractivo de su simplicidad, de ningún modo es posible ocultar la
existencia del servicio una vez que es usado por un cliente, poniendo al servicio oculto
en riesgo de ataque o caracterización. La segunda forma es configurar un servicio
separado para cada cliente, que a pesar de brindar mucho más control al proveedor
sobre la visibilidad de su servicio, gasta demasiados recursos en la red Tor.
Los servicios montados de manera única para todos los usuarios, les permiten el
acceso a los nuevos usuarios creando nuevas credenciales para darles la subsecuente
autorización y remueven usuarios eliminando sus credenciales.
Los problemas de estos servicios se basan en la propagación desenfrenada de su
clave permanente. Los intentos no autorizados de acceso -la apertura de muchas
conexiones por un mismo usuario que luego falla en obtener la autorización- son un
buen ejemplo, porque pueden ser ejecutados por cualquier usuario que conozca la
dirección del servicio aunque haya sido eliminado por el proveedor y porque cada
conexión no autorizada gasta recursos del servicio oculto que tiene que extender un
circuito al punto rendezvous del cliente. Aunque los puntos de introducción y los
servidores directorio lleguen a conocer la dirección y podrían perpetrar este ataque, no
pueden relacionar los datos a las cualidades del servicio y tienen un motivo para
hacerlo.
De igual manera, los clientes previos pueden rastrear la actividad de este tipo de
servicios aunque ya no tengan autorización de acceso, solicitando periódicamente el
descriptor del servicio, ofreciéndose como nodos hasta ser elegido como punto de
introducción o monitoreando pasivamente las peticiones del descriptor e infiriendo el
uso -éxito- que el servicio está teniendo
En la configuración alternativa, la de un servicio separado para cada cliente, el

proveedor entrega una dirección distinta junto con las credenciales de autorización a
cada nuevo usuario y para removerlos del servicio, simplemente desaparece en esa
dirección. Entonces, los ataques previos no funcionan en este caso.
Lo único que relaciona un servicio con un proveedor es el servicio en sí, tan pronto
como uno se detiene una instancia del servicio oculto, el cliente removido deja de saber
sobre el servicio, pues no conoce las otras direcciones que proveedor usa. Sin
embargo, esto sobrecarga la red, pues es necesario crear puntos de introducción
individuales y publicar los descriptores en concordancia, limitando el número de
clientes que pueden recibir autorización de acceso. Adicionalmente, esta forma de
servicios ocultos probablemente conlleve la publicación simultánea de varios
descriptores, indicándole a los distintos puntos de introducción y directorios qué
servicios ocultos son sostenidos por el mismo proveedor. Un cliente previo que sabe
esto puede atacar o caracterizar el servicio.
Para obtener todas las ventajas de los servicios separados por usuario con la menor
carga posible se puede hacer como los servicios ocultos maduros, los descritos en la
sección 2.3.1.1, e inventar nuevas claves para los puntos de introducción, remplazar la
clave permanente por la clave del cliente, crear descriptores específicos, encriptar los
puntos de introducción, publicar los descriptores con retraso e identificar al cliente.
Con la invención de claves asimétricas para cada punto de introducción lo que se envía
en el primer paso del protocolo de establecimiento de servicios ocultos es la clave
pública y no la permanente y, lo que los descriptores publican en los directorios para
ser usados por los clientes al contactar los puntos de introducción, son las nuevas
claves; proporcionado toda una nueva capa de encriptamiento.
El remplazo de las claves permanentes se logra creando claves para los clientes
autorizado y subiendo descriptores con tales claves; de este modo, es seguro publicar
descriptores diferentes con los mismos puntos de introducción, propiciando la
escalabilidad del servicio.
El empleo de descriptores específicos necesita que las relaciones entre

descriptores, clientes y servicio queden escondidas, de otro modo los clientes
removidos podrían identificar a clientes autorizados y atacar al servicio. Para esto, se
propone el almacenado de descriptores en un conjunto -potencialmente grande- de
nodos directorio periódicamente alternados, con una cantidad de descriptores
proporcional de la de clientes autorizados. Tal acción, hace vital la actualización
periódica pero diferencial de los descriptores para evitar ráfagas de re-publicación, que
pueden dirigir atacantes al servicio. También, dado que los descriptores son
continuamente modificados, surge el riesgo del “robo de identidad” de un identificador
genuino por uno atacante, entonces hay que dar certeza a los nodos directorio del
origen del descriptor, así nacen los identificadores (de descriptores) compuestos: clave
del cliente+cookie+tiempo+índice.
Las cookies secretas del descriptor son generados por el servicio y atribuidas a cierta
clave de usuario. Para asegurarse que el descriptores sean actualizado y mudados de
directorio periódicamente, los identificadores incluyen una cifra que indica el periodo de
tiempo que depende de la clave permanente, si por ejemplo el periodo es un día,
tiempo de un descriptor se incrementa a una hora específica del día. El índice enlista
las distintas propiedades de un descriptor para los distintos directorios que no pueden
ser determinados por los directorios.
Dado que habrá terceros verificando la correspondencia entre los descriptores y los
usuarios, pero las cookies deben permanecer secretas, en vez de concatenar los
elementos, se recurre a la transformación de cookie, tiempo e índice al identificador
secreto y del identificador secreto al identificador de usuario, haciendo de la verificación
un proceso de dos partes. Primero el nodo directorio verifica el descriptor por su clave
pública, luego genera el identificador con la clave del usuario y si la parte expuesta del
descriptor, si coinciden, continua con el protocolo.
La encriptación de los puntos de introducción con la cookie del descriptor, evitan que
los nodos directorio intenten entrar ellos mismos. Luego de descargar un descriptor el
cliente los desencripta y descubre los puntos de introducción. T
Los cambios reseñados hasta este punto impiden enlazar las instancias de un servicio;
pero mantienen el problema de la publicación simultanea de descriptores en los nodos
directorio, aunque reducida, pues siguen contemplado el envió de ciertos descriptores a
ciertos nodos. La contramedida es la misma a la planteada para los descriptores
específicos pero más refinados. Los descriptores que se van a almacenar en un mismo
nodo directorio tienen que retrasarse para que lleguen de uno en uno. Los descriptores
de otro directorio también tienen que retrasarse una cantidad aleatoria de tiempo para
ocultar su relación. Emerge un conflicto entre la disponibilidad uniforme del servicio y la
necesidad de camuflado entre usuarios.
La última mejora propuesta es la identificación del cliente, al tratarse de servicios
anónimos, el registro de ID’s y contraseñas quedas más que descartadas; pero la
exigencia de reconocer a los usuarios que hacen un mal uso del servicio y deben ser
removidos se conserva. Por ello se pide a los clientes su cookie del descriptor en el
mensaje encriptado que envía al punto de introducción; una vez que el servicio valido la
cookie, el circuito al punto rendezvous puede ser extendido.
Aun así, los puntos de introducción pueden llegar a saber demasiado del servicio por lo
que este debe: memorizar las cookies válidas para prevenir que algún punto de
introducción retrase peticiones de acceso legítimas, forzando al servicio a extender
nuevos circuitos repetidamente y; aceptar sólo cierto número de solicitudes del mismo
descriptor.
A pesar de todo perfeccionamiento al protocolo de uso y montado de los servicios
ocultos, los ataques permanecen y se centran en: el mapeo de directorios de servicios
ocultos, el monitoreo de datos de usuarios, el monitoreo de sitios sociales, el monitoreo
de servicios ocultos y la caracterización de mercados .
Tanto Tor como I2P usan una base de datos de dominio para construir su sistema de
distribución conocido como DHT. DHT funciona por la colaboración entre los nodos
para el almacenaje y el mantenimiento aparte de una base de claves. Gracias a su
naturaleza distribuida, es posible desplegar nodos DHT para monitorear peticiones de
dominios dados, obteniendo así vistas parciales de la base de datos de las peticiones
en proceso; que no permiten rastrear quien intenta acceder a un servicio dado pero
ofrecen estimados estadísticos de los nuevos dominios que van ganando popularidad.
Adicionalmente, tales nodos, dan una buena estadística del tráfico global en la red.
Una compañía de seguridad podría beneficiarse del análisis de datos de usuarios Web
en búsqueda de conexiones a dominios no estándar. Dado que esto depende del nivel
de registros del usuario, podría no tratarse de una estrategia muy fructífera en el
rastreo de servicios Web pero sin duda brindaría revelaciones interesantes sobre las
actividades en dominios TLD pícaros.
Los sitios como Pastebin suele ser usados para intercambiar información de contacto y
direcciones de servicios ocultos nuevos, entonces, deben mantenerse bajo vigilancia
constante. La mayoría de los servicios ocultos tienden a la fecha a ser altamente
volátiles y salir de circulación tan seguido como vuelven bajo un nuevo nombre de
dominio; por lo que es esencial, tener una vista rápida de cada nuevo sitio tan pronto
como aparece para así tener la posibilidad de un análisis posterior; pero esto debe
hacerse teniendo en cuenta que, cuando se va de un link a otro en la Web profunda, se
puede desencadenar la descarga automática de contenido sensible, cuya simple
posesión es considerada ilegal en la mayor parte del mundo.
Caracterizando las transacciones hechas en la Web profunda se recolecta información

acerca de los vendedores, los clientes y los bienes intercambiados, que con el tiempo
construyen.
Tecnológicamente, la estrategia más interesante es el monitoreo de servicios ocultos,

para lo cual se han desarrollado distintos ataques que parten de una muestra de datos:
• Análisis de tiempos. Con el registro de los tiempos de los datos generados en

todos los circuitos por un periodo determinado, el atacante puede comprobar
que un nodo es parte del circuito y determinar en qué posición del circuito
está ese nodo. Los datos deben incluir los tiempos de entrada y salida de
todas las células, junto con su dirección para ser capaces de emparejar un
circuito con su registro de tiempos. Existe, sin embargo el error potencial de
múltiples apareamientos, si por ejemplo un circuito mantiene un tráfico alto en
ambas direcciones o si el circuito lleva datos de clientes diferentes. En caso
de apareados múltiples se deben enlistar todos los pares posibles y usar
técnicas de correlación para asignar los mejores pares por probabilidad.
Ilustración 9 - Esquema de análisis de tiempo
Ataque de localización del servicio. Existe en dos escenarios: la del servidor,

que se basa en la ubicación del servicio oculto dentro de la red anónima y el
del cliente, que funciona con la ubicación de un cliente que usa la red pero
no está participando como nodo de ella. El primer escenario se usa para
esconder el tráfico del servicio detrás de todo el resto de tráfico en el servidor
y permite correlacionar información acerca de la disponibilidad del servicio y
de la disponibilidad de los nodos enlistados en el directorio de servicios; por
ejemplo, sondeando todas las listas del servidor cada cinco minutos y
correlacionando las listas servidores activos cuando el servicio oculto se
puede o no contactar. El segundo escenario es el más concurrido cuando se
desea que el servicio no quede enlistado en el directorio de servicios como
un nodo involucrado en la red o cuando el usuario no es capaz de establecer
un nodo detrás de un firewall. Con la disponibilidad reflejada en el directorio
de servicios que contiene la lista de claves públicas, se puede notar la
diferencia entre conexiones de clientes y conexiones de nodos de la red.
• Ataque de predecesor. La implementación actual de la red es vulnerable a

esta forma de ataques de intersección. Los ataques de predecesor se han
comprobado devastadores en teoría y simulaciones contra varias redes de
anonimato. A grandes rasgos este ataque vigila las conexiones sospechosas
y a las intersecciones de sus nodos predecesores para encontrar a los más
frecuentes. Se pueden hacer estadísticas de las direcciones IP que se
concentran al servidor en los casos en que patrones positivos de tráfico han
sido vistos; seleccionando solo los circuitos para los que hay análisis de
tiempos y usando un nodo para llegar al nodo de partida se puede identificar
la IP del servicio oculto.
• Ataque de distancia. Si no hay información estadística sobre las direcciones

IP, debida por ejemplo a tráficos mixtos, el atacante debe usar técnicas
alternativas como esta. Es posible cronometrar los periodos de tiempo en que
el trafico cambia de entrante a saliente y de viajes de ida y vuelta y así,
calcular un estimado crudo de las distancia al servicio oculto. Al agrupar los
nodos por los tiempos de viajes redondos de los datos, el atacante puede
encontrar los grupos de nodos más cercanos al servidor oculto.
• Posesión del punto rendezvous. Mediante la extensión de los recursos del

adversario es posible correr este tipo de ataques. La elección del punto
rendezvous, el único nodo conocido tanto por el servicio como por el cliente,
permite al atacante es el penúltimo nodo en la red, pues tanto el cliente como
el punto rendezvous están conectados al mismo nodo; entonces la velocidad
y exactitud del ataque crece enormemente.
• Punto medio. Todos los clientes Tor, incluidos los servicios ocultos,
establecen circuitos fuera de red mientras espera peticiones de servicios;
cuando reciben la peticiones, extienden los circuitos, en el caso de los
usuario comunes a nodos que permitan las salidas http, ssh y https, en el
caso de los servicios ocultos, a nodos que permitan conexiones rendezvous.
Si un atacante se presta como nodo conector al punto rendezvous, es decir,
corre como punto medio, se constituye casi siempre como el primer o el
segundo nodo del circuito, facilitando el ataque.
• Desplazamiento del reloj y temperatura. Cuando los circuitos quedan ociosos,

el CPU de sus nodos se enfría. La temperatura tiene un efecto mesurable en
el desplazamiento del reloj que puede observarse de manera remota, en
descubrieron que el reloj de una computadora particular se desplaza 1-2
partes por millón dependiendo del sistema operativo, pero con variaciones
significantes entre máquinas diferentes de modelos idénticos; permitiendo
que el desplazamiento por calor funcione como huella dactilar. Asumiendo
una estabilidad de 1ppm, se pueden extraer 4–6bits de información sobre la
identidad del servidor. Un atacante puede observar los cambios de
temperatura de servidores ocultos para inferir su geolocalización. La técnica
no usa medidas de temperatura absoluta, solo cambios, que bastan para
determinar longitud de acuerdo al pico de temperatura del día. Para encontrar
latitud se podría aprovechar el cambio de duración del día perceptible luego
de una vigilancia razonablemente larga. La distorsión ocasionada por el aire
acondicionado puede removerse infiriendo los ciclos del aparato descubrieron
que el reloj de una computadora particular se desplaza 1-2 partes por millón
dependiendo del sistema operativo, pero con variaciones significantes entre
máquinas diferentes de modelos idénticos; permitiendo que el
desplazamiento por calor funcione como huella dactilar. Asumiendo una
estabilidad de 1ppm, se pueden extraer 4–6bits de información sobre la
identidad del servidor. Un atacante puede observar los cambios de
temperatura de servidores ocultos para inferir su geolocalización. La técnica
no usa medidas de temperatura absoluta, solo cambios, que bastan para
determinar longitud de acuerdo al pico de temperatura del día. Para encontrar
latitud se podría aprovechar el cambio de duración del día perceptible luego
de una vigilancia razonablemente larga. La distorsión ocasionada por el aire
acondicionado puede removerse infiriendo los ciclos del aparato.
Entonces, es posible localizar un servicio oculto si se controla uno o dos -de

preferencia dos- nodos de la red, gracias a la elección aleatoria que Tor hace de los
nodos para la red.
A pesar de no ser un ataque directo contra la red Tor ni mucho menos, hay un bug que
merece mencionarse en este punto. Heartbleed (CVE-2014-0160). Es un error de
programación en la extensión hearbeat de las versiones 1.0.1 a 1.0.1f de OpenSSL
detectado por Neel Mehta de Google Security que permite a los hackers leer memoria
de la computadora con el software, pero no más de 64 bytes por vez, aun así; la
vulnerabilidad que anduvo por ahí dos años antes de ser detectada oficialmente,
expone las claves privadas, comprometiendo la privacidad de todo el tráfico futuro por
lo que ha forzado la colocación de parches y reinicio de claves. En el caso de Tor,
expone a los usuarios del Tor Browser Bundle a los servicios ocultos y permite la
intercepción del tráfico en los nodos vulnerables y todo sin dejar evidencia del ataque;
aunque se hizo un llamado a mantenerse desconectado mientras las medidas de
recuperación eran implementadas, la anatomía de Tor no permite garantizar que todos
los nodos sean seguros y aunque no compromete seriamente el anonimato de los
servidores atendidos, si expone los mensajes tocando nodos voluntarios.
http://heartbleed.com/. 2014-04-29. https://blog.torproject.org/blog/openssl-bug-cve-
2014-0160. 7/04/2014
Otro ataque, no directamente dirigido contra los servicios ocultos sino contra Tor, es la
inducción de patrones de tráfico en el circuito que protege al cliente, para probar la
latencia de los nodos. Simultáneamente, el atacante busca correlaciones entre los
patrones inducidos y las latencias observadas, cuando encuentra una, el atacante sabe
que el nodo está en circuito elegido y entonces puede reconstruirlo, aunque no
descubra el nodo final. En el caso de que el atacante tenga un número limitado de
candidatos para el servicio oculto, este ataque podría revelar su identidad; lo que es
plausible dado que muchos servidores ocultos son nodos publicitados en la comunidad
Tor.
En respuesta a estos ataques Tor ha implementado contramedidas que limitan los
ataques, no así los servicios ocultos, como los nodos guarda que interfieren
directamente con el ataque de punto medio, el tráfico “bobo” que entorpece el análisis
de tráfico. El tráfico bobo, sin embargo, es costoso y no ha sido comprobado eficiente
contra ataques activos a sistemas de baja latencia fuera de Pipenet.
• CONCLUSIONES
Tras acercarnos de una forma más concisa al mundo de la web profunda y conocer las
acciones que se están llevando a cabo tanto para su regulación como para su defensa
en favor de una serie de derechos y libertades en la información, cabe establecer un
punto de convergencia entre cada una de ellas para alcanzar así una deducción, fruto
de nuestro trabajo de investigación. Partiendo de la introducción del proyecto, hemos
podido advertir que las nuevas tecnologías se han implantado en nuestra sociedad
hasta el punto de que se ha hecho indispensable para determinadas tareas de vital
importancia el uso de la informática y las telecomunicaciones. Si algo queda claro, ante
todo, es que Internet está obteniendo un papel cada vez más central en este nuevo
siglo de las tecnologías. El acceso a la red se impone en la Sociedad de la Información
como requisito de inclusión, de forma que quien no accede se encuentra literalmente
“desconectado”.
Pero no todo aquel que tiene las herramientas necesarias para navegar por la red
posee los conocimientos que han de garantizar su seguridad y permitir su libre
circulación por los contenidos. Este desconocimiento crea una sensación de
inseguridad en el usuario que le impide explotar al cien por cien las oportunidades
que Internet pueda ofrecerle en materia de información. El miedo a lo desconocido
hace alejarnos de las oportunidades que ofrece la Web Profunda hasta el punto que la
mayoría nunca ha mostrado interés en cómo acceder o incluso nunca ha oído hablar de
ella. No obstante, se ve como algo habitual. El usuario común prefiere limitarse a la
parte más superficial de internet antes que arriesgarse a entrar en un mundo donde las
infracciones y la delincuencia están a la orden del día. De ahí, la necesidad de que los
diferentes organismos internacionales y la jurisdicción elaboren una serie de
mecanismos que garanticen las condiciones óptimas para que todos los grupos e
individuos de la sociedad puedan tener acceso a ese medio de intercambio e
interacción, garantizando siempre su protección. Todo ello sin poner en peligro la
libertad de expresión, creación y difusión de contenidos, pues sin estos la propia
finalidad de estas acciones, que recae en el máximo aprovechamiento por parte del
usuario de las oportunidades que ofrece la red, quedaría obsoleta. Y aunque la
legislación ya ha dado sus primeros pasos en cuanto a delitos en Internet se refiere,
bien es cierto que no es una tarea fácil. Las redes creadas por los usuarios de la Deep
Web han generado un submundo en el que los delitos son difíciles de perseguir debido
a la propia naturaleza del entorno. La falta de intangibilidad del espacio donde se
desarrollan este tipo de actividades junto con el anonimato obstaculiza las normativas
legales, así como la propia apreciación por parte de los individuos. Por otra parte, el
intento de acabar con el anonimato y socavar la identidad del criminal impone el
desafío de replantear los límites entre lo público y lo privado para cualquier usuario. Es
aquí donde, en la mayoría de ocasiones, el derecho se ve obligado a inclinar la balanza
entre la vulneración de los derechos fundamentales de libertad de expresión y derecho
de la información, de rango fundamental, o la intromisión a los datos sensibles de una
persona, que del mismo modo supondrían una violación del derecho a la intimidad y
a la imagen. Otra característica propia de la red, y en la que muchos estudiosos hacen
hincapié, es su ausencia de límites geográficos. Dada la imposibilidad absoluta de fijar
unas fronteras mínimas en la red se hace necesario desarrollar, además de la
normativa propia del derecho interno de cada país, una legislación internacional
competente, así como reforzar la ya existente. Pese a que algunos derechos ya se
incluyen en los preceptos reguladores de algunos organismos internacionales, no
existe una normativa concisa. Además su carácter programático hace que carezca de
las penalizaciones necesarias para castigar los malos usos de la red. Por último, cabe
destacar que Internet sufre un desarrollo constante que dificulta a las autoridades el
poder estar al día de las nuevas formas de criminalidad y así tener instrumentos que
actúen en respuesta a estos delitos de forma inmediata. Por todas estas dificultades
que entrama, también sería conveniente no dejar la seguridad de internet
exclusivamente en manos de las autoridades y la jurisdicción. Los propios usuarios
podemos fomentar, a través de las redes de telecomunicaciones, una nueva ética
“ciberespacial” que genere y estimule actitudes de conciencia colectiva sobre el respeto
de las libertades y de los bienes amenazados por la utilización indebida de la red, y
contribuir a la formación de vínculo solidarios para la prevención de los crímenes
informáticos y la ayuda a su descubrimiento. Estas redes de comunicación solidaria
podrían, incluso, conducir a la producción de reglas jurídicas consuetudinarias sobre su
uso, en las que la dimensión coactiva de las normas basada en la autoridad de
un poder centralizado de paso a códigos de conducta cuya eficacia se base en
la convicción de los usuarios y su propia responsabilidad. En conclusión, se podría
afirmar que la fragilidad de la red es tal que se hace absolutamente necesario tanto
elaborar una normativa que obligue a endurecer las medidas de seguridad y sanción de
delitos cometidos en la Deep Web como evaluar qué medidas son realmente las
adecuadas para el total respeto de los derechos fundamentales del ciudadano. Todo
ello, estableciendo vínculos con los internautas, y entre estos, que permitan un mayor
grado de colaboración y concienciación de la población que, al fin y al cabo, es la
verdadera usuaria. Finalmente, se habrían de elaborar procedimientos especiales que
tengan estas cuestiones en cuenta y seguir examinando la promoción, la protección y
el disfrute de los derechos humanos, incluido el derecho a la libertad de expresión, en
Internet y en otras tecnologías, así como la forma en que Internet puede ser un
importante instrumento para el desarrollo y para el ejercicio de los derechos humanos,
de conformidad con el programa de trabajo que ya viene manteniendo las Naciones
Unidas. Pues no debe considerarse Internet únicamente como un medio de
propagación del crimen, si no como una increíble vía de comunicación a través de la
que se agilizan hasta límites insospechados los trámites administrativos, las relaciones
intergubernamentales, el intercambio de conocimientos y consecuentemente la
formación de la opinión pública.
• GLOSARIO
ActiveX: Marco de controles Web de Microsoft

Ágora: Mercado negro de la Web profunda montado como servicio oculto de la red Tor.
A.I. (Artificial Intelligence): La comunidad de Inteligencia Artificial es una de las
involucradas en la construcción de más y mejores algoritmos para la extracción de
información de la Web profunda.
AJAX (Asynchronous JavaScript and XML): Conjunto de técnicas interrelacionas de
desarrollo Web para crear aplicaciones.
ALIWEB: Descendiente de Archi, resultado de la creación y crecimiento de la World
Wide Web y la necesidad de indexar contenido con el protocolo HTTP. Funcionaba por
registro directo de las nuevas páginas por lo que fue rápidamente superado por
algoritmos más eficientes.
AlphaSearch: Directorio de la Web profunda creado y sustentado por la biblioteca
Hekman en la Universidad estadounidense de Calvin, accesible por disciplinas y tags
descriptores.
Anonymizer: Shareware especializado en garantizar a sus clientes anonimidad en
línea, tanto en redes hogareñas como en redes públicas.
Anonymous: Movimiento descentralizado y desestructurado surgido en el 2004, con el
fin de defender los derechos de libertad de expresión en Internet.
ANS CORE: Protocolo basado en paquete disponible en todos los dispositivos de
navegación aérea.
API (Aplication Programming Interfaz): Funciones y procedimientos de una biblioteca
para ser utilizados por otro software
Archi: Primer motor de búsqueda público de la historia, que funcionaba para el
protocolo FTP.
Arm (Anonymizing Relay Monitor): “Top” de Tor con estadísticas sobre el uso de
recursos, información general, configuración, conexiones y eventos.
Armory: Mercado de armas de la Web profunda montado como servicio oculto de la
red Tor.
ARPANET: Proyecto del programa de investigación DARPA que decantaría en la
implementación inicial de la Internet.
Ataque por análisis de tiempos: Análisis del registro de tiempos entrada, salida y
dirección de todas las células de todos los circuitos por un periodo determinado, que
permite el atacante comprobar que un nodo es parte del circuito y determinar en qué
posición del circuito está ese nodo.
Ataque de distancia: Es posible cronometrar los periodos de tiempo en que el trafico
cambia de entrante a saliente y de viajes de ida y vuelta y así, calcular un estimado
crudo de las distancia al servicio oculto.
Ataque de localización del servicio: Utiliza las correlaciones entre la disponibilidad
del servicio y de la disponibilidad de los nodos enlistados en el directorio de servicios
para localizar un servidor oculto.
Ataque de predecesor: Vigila las conexiones sospechosas y a las intersecciones de
sus nodos predecesores para encontrar las frecuencias de conexión, hacer estadísticas
de las direcciones IP que se conectan al servidor y, seleccionando sólo los circuitos
para los que hay análisis de tiempos, identificar la IP del servicio oculto.
Ataque por desplazamiento del reloj y temperatura: Aprovecha la huella dactilar del
desplazamiento del reloj para geolocalizar a los servidores ocultos
Ataque por posesión del punto rendezvous: La elección del punto rendezvous, el
único nodo conocido tanto por el servicio como por el cliente, permite al atacante ser el
penúltimo nodo en la red, pues tanto el cliente como el punto rendezvous están
conectados al mismo nodo.
Ataque por punto medio: Si un atacante se presta como nodo conector al punto
rendezvous, es decir, corre como punto medio, se constituye casi siempre como el
primer o el segundo nodo del circuito, facilitando el ataque.
AT&T (American Telephone & Telegraph): Compañía de telecomunicaciones
estadounidense fundada en 1885.
BASE: Directorio de la Web profunda especializado en recursos académicos de más
de 2,900 fuentes, con documentos completos en el 75% de los casos.
Babel: Sistema de enmascaramiento de IP. Efectivo como sistema de seguridad
operacional, deficiente como Web browsing.
BigHub: Claro ejemplo de la estrategia por intensión de la minería de datos de la Web
profunda. Se trata de un directorio con cerca de 1,500 bases organizadas en 300
categorías, que provee los formatos de búsqueda default de cada base, facilitando el
acceso directo a las mismas.
BITNET: Red temprana basada en UNIX que nació en la ciudad universitaria de Nueva
York.
Biznar: Directorio de negocios de la Web profunda.
Black Market Reloaded: Mercado negro de la Web profunda montado como servicio
oculto de la red Tor.
Blank Bank: Mercado negro de la Web profunda montado como servicio oculto de la
red Tor.
Bluestone's Sapphire/Web: Un servidor de aplicaciones de nivel empresarial, que
ofrece un alto nivel de fiabilidad en un entorno distribuido.
Botnet: Robot informático que se ejecuta de forma autónoma, controlando de forma
remota los servidores infectados.
BrightPlanet: Compañía de minería de datos de la Web profunda que se posicionó
como la referencia principal en cuanto al tamaño y contenido de nuestro objeto de
estudio.
CASAGRAS: Consorcio que propone al IoT como una infraestructura global que
conecte objetos virtuales y físicos.
CERN (European Organization for Nuclear Research): Organización que opera el
mayor laboratorio del mundo de física de partículas, donde nació la WWW.
Cesidian: DNS alternativo que provee los TLDs “.cw”, “.ispsp”, “.5w” y “.6w”.
CiteSeerX: Biblioteca digital volcada hacia las ciencias de la computación y de la
información.
Compilaciones (mashups): Sitios que mediante la combinación de datos de otras
páginas crean un servicio nuevo.
Completeplanet: Sitio de la compañía BrightPlanet con estadísticas documentadas de
la Web profunda.
Crawling: Algoritmo de indexado de los motores de búsqueda tradicionales como
Google, Yahoo!(AltaVista) y Bing; que consiste en la recuperación de enlaces de una
página semilla para su posterior ordenación de acuerdo a su popularidad, induciendo el
fenómeno rich gets richer en la Web.
CSNET: Red temprana para la comunicación científica e industrial fundada por Rick
Adrion, David Farber y Larry Landweber.
DARPA: Programa del gobierno de los Estados Unidos fundado en la década de los 60
del siglo pasado con el objetivo de desarrollar nuevas tecnologías para uso militar.
Darknet: Red de intercambio de contenido protegido con componente tanto en la Web
profunda como en la superficial.
DDoS (Distributed Denial of Service): Ataque organizado hacia un servidor, red u
ordenador con el objetivo de colapsar su sistema e interrumpir su servicio. Herramienta
de ataque principal del grupo Anonymous.
DeLa: Técnica automática de minería de datos de la Web profunda que extrae la
información de las bases de datos con expresiones regulares
DEPTA: Técnica automática de minería de datos de la Web profunda que extrae la
información de las bases de datos construyendo árboles a partir de pares de datos
inequívocamente relacionados
DHT (Distributed Hash Tables): Sistema distribuido descentralizado que provee
servicios de búsqueda por vectores muy similares a los implementados por las tablas
Hash.
DirectSearch: Directorio especializado de la Web profunda.
DNS (Domain Name System): Sistema distribuido jerárquico de nombres para
computadoras, servicios o cualquier recurso conectado a Internet o a una red privada.
Fue creado por Paul Mockapetris para facilitar el manejo de dominios, sustituyendo las
claves numéricas por palabras memorizables que apoyarían la escalabilidad del
Internet.
EGP (Exterior Gateway Protocol): Protocolo estándar usado para intercambiar
información de enrutamiento entre sistemas autónomos.
Enrutamiento cebolla: técnica criptográfica que envuelve en capas de códigos
distintos al mensaje, como si se tratara de una cebolla.
EPCglobal: Creada por la compañía que lleva su nombre, se trata de una red ideada
con el fin de compartir archivos entre sus usuarios de manera segura y estandarizada.
Ethernet: estándar de redes para área local presente en todas las computadoras de
acceso de nivel medio, a menudo sirve para indicar que se trata del cableado y el nivel
físico.
Freedom Hosting: Servidor colapsado por Anonymous durante la operación Darknet.
Freedom Network: Versión de PipeNet con un regulador de tráfico que lidia con todas
las exigencias del ancho de banda.
Freenet: Red anónima sobre la Internet para hospedar contenido estático mediante la
colaboración equitativa de sus nodos. Se considera el antecesor de I2P.
FTP (File Transfer Protocol): Protocolo estándar para acceder a datos remotos en
1989, que por su lentitud y falta de funciones fue remplazado por el HTTP en la
creación de la World Wide Web.
Global Science Gateway: Directorio de la Web profunda con portales y bases de
datos de proyectos de investigación internacionales.
Google: Popular buscador web creado por la empresa que lleva su nombre. Su uso
esta tan extendido que abarca prácticamente todo lo conocido como Surface Web.
Gopher: Protocolo diseñado para la distribución, búsqueda y recuperación de
documentos a través de Internet.
Grams: Buscador de la Web profunda que indexa los contenidos de Ágora, Pandora,
Silk Road 2.0, Mr. Nice Guy, The Pirate Market, Blank Bank.
Hard Candy: Sitio con contenido pedófilo alojado en el servidor Freedom Hosting tirado
por Anonymous con el habitual ataque DdoS en octubre del 2011 durante la operación
Darknet.
HSDir (Hidden service directories): Sitio dedicado a la recolección y publicación de
enlaces pertenecientes a la red Tor. Esto intenta solventar las dificultades del usuario
promedio al no existir en ningún buscador en la web profunda.
HEPNet: Red de telecomunicaciones para los investigadores en física de altas
energías, sustentada por el gobierno de Estados Unidos.
Hiwe: Sistema general de representación de formatos y mapeo de conceptos, que por
anotación a mano, obtiene e indexa localmente páginas de la Web profunda.
HCRF: Técnica automática de minería de datos de la Web profunda que utiliza el
contenido visual de las páginas con un modelo probabilístico y el algoritmo llamado
VIPS para representar páginas Web.
HTTP (HyperText Transfer Protocol): Protocolo para acceder a datos remotos
desarrollado con la creación de la World Wide Web.
HTML (Hypertext Markup Language): Lenguaje estándar para la elaboración de
página web.
ICANN (Internet Corporation for Assigned Names and Numbers): Entidad
responsable de los estándares TLD que asignan las terminaciones “.com”, “.edu”, “.gov”
y “.co” -por remembrar algunos.
IGP (Interior Gateway Protocol): Protocolo utilizado dentro de redes autónomas para
resolver el encaminamiento dentro del propio sistema.
Infomine: Es un directorio de recursos académicos de la Web profunda que permite
meta-búsquedas de colecciones, revistas electrónicas, libros, directorios de
investigadores y catálogos de bibliotecas.
Internet: Conjunto descentralizado de redes de comunicación creadas en 1969,
extendida actualmente a más de 1/3 de la población mundial.
Intelliseek: Compañía creadora de Invisibleweb.com.
Invisibleweb: Sitio de la compañía Intelliseek que presenta un directorio de alta
calidad, editado e indexado a mano de la Web profunda.
IoT (Internet of Things): La Internet de las cosas es un nuevo paradigma del
escenario Wireless de la telecomunicación moderna, basado en la presencia constante
a nuestro alrededor de objetos que, a través de esquemas de direccionamiento único,
son capaces de interactuar y cooperar para lograr objetivo comunes.
IR (Information retrieval): La comunidad de Recolección de Información es una de las
involucradas en la construcción de más y mejores algoritmos para la extracción de
información de la Web profunda.
IRC: Protocolo de comunicación en tiempo real basado en texto, donde todos los
usuarios dentro de un mismo canal pueden comunicarse entre sí, manteniendo la
anonimidad absoluta si así lo desean. Comúnmente utilizado por Anonymous para
organizar sus operaciones.
JANET: Red británica que en 1984 brindaba el servicio de Internet a toda la comunidad
involucrada en la educación superior.
Kazaa: Fue una aplicación ideada con el fin de intercambiar archivos entre usuarios. Es
conocida por extender el formato de música, mp3.
LAN (Local Area Network): Es una red informática que interconecta computadoras
dentro de un área limitada, como una casa, una escuela o laboratorio informático.
LOESING, Karsten y WIRTZ, Guido. Virtual Private Services. HotPETs Session on the
Eighth Symposium on Privacy Bibliography Enhancing Technologies (HOT-PETs 2008).
Belgica 2008.
Mednar: Directorio de la Web profunda especializado en medicina y ciencias de la
salud.
MetricsPortal: Portal que ofrece fácil acceso a los datos y la documentación para la
realización de análisis propios acerca de la red Tor. Sus datos son presentados en
forma de gráficos e informes.
MFENet: Es una red de comunicación militar de las Fuerzas Armadas de los Estados
Unidos en creado en 1983.
MILNET: Componente militar de la red ARPANET de 1983, que se separó de ella poco
después de la adopción del TCP/IP como estándar de defensa.
Minería de datos: Búsqueda de patrones en grandes volúmenes de conjuntos de
datos con el fin de extraer información y transformarla en una estructura comprensible.
Mixmaster: Sistema de anonimato de latencia alta.
Mixminion: Sistema de anonimato de latencia alta.
Mix-Net: Antecedente a las redes modernas de anonimato diseñada por Chaum.
Planteaba esconder la correspondencia entre emisores y receptores mediante capas
de criptografía de clave pública a través de rutas compuestas en que cada componente
de la ruta desencripta, retarda y reordena el mensaje antes de entregarlo al siguiente.
Mr. Nice Guy: Mercado negro de la Web profunda montado como servicio oculto de la
red Tor.
Mt. Gox: Casa de cambio de Bitcoins de la Web profunda.
MSN: Portal de Microsoft que ofrece noticias y entretenimiento.
Namecoin: DNS alternativo responsable por el sufijo “.bit”, que se basa en la
infraestructura P2P con el mismo principio que los Bitcoins.
Namespace.us: Organización nacida en 1996, que ofrece 482 TLDs alternativos del
tipo “.academy”, “.big” y “.manifesto”.
NewNations: Organización que provee dominios para ciertas entidades políticas como
Tíbet y la población Kurda.
NCP (Protocolo Principal Netware): Son un conjunto de llamadas primitivas a
servicios que se encargan de convertir las operaciones de alto nivel que realiza el
usuario en peticiones que se envían por la red a través de los protocolos de capas
inferiores.
NeXTStep: Sistema operativo orientado a objetos, multitarea que NeXT
Computer, Inc.: Diseñó para ser ejecutados en sus computadores NeXT.
NLP (Natural Language Processing): La comunidad de Programación
Neurolingüística es una de las involucradas en la construcción de más y mejores
algoritmos para la extracción de información de la Web profunda.
NSA (National Security Agency): Agencia de Inteligencia de los Estados Unidos

encargada del manejo de las comunicaciones encriptadas relacionadas con su país.
NSF (National Science Foundation): Agencia estadounidense que soporta la

educación y la investigación en los campos no-médicos de la ciencia y la ingeniería
NSFNET: Red estadounidense abierta en 1985 al servicio de la comunidad universitaria
Obfsproxy: Aplicación independiente de Tor que intenta esquivar la censura mediante

la transformación del tráfico.
Omni: Técnica automática de minería de datos de la Web profunda que solamente
extrae los registros de las bases de datos
Onionoo: Protocolo basado en la Web que le proporciona los datos de Tor a otras
aplicaciones que entonces, presentan la información de red a los usuarios.
OpenNIC: Red de servidores DNS corridos por voluntarios para ofrecer una
infraestructura neutral e independiente del control gubernamental o institucional,
democrático y libre. A parte de ofrecer un red de servidores DNS para la raíz estándar
ICANN, ofrece 14 TLDs alternativos y soporta los cuatros dominios de NewNations
Pandora: Mercado negro de la Web profunda montado como servicio oculto de la red
Tor.
PipeNet: Sistema de anonimato que introduce tráfico bobo para mantener un flujo
constante, dificultando el análisis de tráfico, en una red más robusta que Tor por
mantener una mejor coordinación entre todas las conexiones.
Proxy: Servidor que actúa como intermediario entre el cliente y otros servidores para
dar estructura y encapsulamiento a los sistemas distribuidos.
PSI: Red privada temprana.
Punto de introducción: Nodo que funge como entrada a un servicio oculto a contactar
al punto rendezvous con el servicio.
Punto rendezvous: Nodo que conecta al usuario con un servicio oculto.

P2I (Invisible Internet Project): El Proyecto Internet Invisible es una evolución de
Freenet, con el objetivo de la comunicación anónima entre personas, especializada en
el hospedaje de servicios.
P2P (peer-to-peer): Arquitectura de redes que particional las tareas entre los nodos.
RFID (Radio-Frequency Identification): Componente clave del IoT de lectores e
identificadores que permitirán la comunicación entre aparatos
Rich Gets Richer: Fenómeno de las redes libres de escala que consiste en la
tendencia de nodos con muchas aristas a ganas más aristas.
Screen scraping: Práctica de leer texto de una pantalla para extraer de manera
automática la información importante de su código fuente.
Servicios ocultos: Oferta anónima de servidores a través de Tor.
Servicios Web: Tecnología para intercambiar datos entre aplicaciones.
Shadow: Simulador de red que corre Tor como un plug-in
Sheep Marketplace: Mercado negro de la Web profunda montado como servicio oculto
de la red Tor.
Silk Road: Mercado negro de la Web profunda montado como servicio oculto de la red
Tor. Es el sitio más famoso de la Web profunda por su alcance mundial en la venta de
drogas. Fuertemente ligado al Bitcoin, fue fundado en el 2011 y ha crecido rápidamente
a pesar de los ataques del FBI
Sistema de anonimato de latencia alta: Mecanismo basado en Mix-Net que maximiza

el anonimato a expensas de la velocidad con retrasos largos y varibales cuyos
ejemplos son Babel, Mixmaster y Mixminion.
Sistema de anonimato de latencia baja: Mecanismo basado en Mix-Net que

maximiza la velocidad a expensas del anonimato, permitiendo el tráfico interactivo; pero
volviendose vulnerable a los ataques de tráfico. Ejemplos son Tor, PipeNet y Freedom
Network
SMTP (Simple Mail Transfer Protocol): Protocolo estándar para transmisión del
correo electrónico.
SOCKS (Socket Secure): Protocolo de Internet que rutea los paquetes entre el cliente
y el servidor a través de un proxy.
Soft-Mealy: Técnica semi-automática de minería de datos de la Web profunda basada

en secuencias
SPAN: Red temprana de la NASA
SSH (Secure Shell): Protocolo de red criptográfico para la comunicación remota.
Stalker: Técnica semi-automática de minería de datos de la Web profunda basada en

secuencias.
Stem: Librería de scrips de python para interactuar con Tor.
SurfWax: Directorio de la Web profunda que utiliza autollenado de y metodologías de
sugerencia para encontrar contenidos de sitos dinámicos.
Tails(The Amnesic Incognito Live System): Distribución de Tor preconfigurada para

correr desde un CD o USB, proporcionando la seguridad de la red sin dejar rastro en el
equipo local.
TCP/IP (Transmission Control Protocol/Internet Protocol): Juego de protocolos de
la Internet actual creados por Kahn y Vint Cerf.
TCP (Transmission Control Protocol): Protocolo de comunicación entre una

aplicación y el protocolo de Internet
TechXtra: Directorio de noticias, ofertas de trabajo, reportes técnicos, e-prints, recursos

de enseñanza de la Web profunda, enfocado en ingeniería, matemáticas y recurso de
cómputo.
The Pirate Market: Mercado negro de la Web profunda montado como servicio oculto
de la red Tor.
TLD (top-level domain): Es uno de los dominios del nivel más alto del DNS
TLDs pícaros: Sitios registrados bajo DNSs alternativos que requieren la configuración
apropiada del servidor para poder ser visualizados. Son, junto con las infraestructuras
alternativas, mecanismos de evitar activamente el indexado.
TLS (Transport Layer Security): Protocolo predecesor del SSL para la comunicación
en el Internet
Tor(The onion routing): Sistema de anonimato de latencia baja que se ha

popularizado desde su apertura pública en el 2003 por capacidad de hospedar el tráfico
interactivo, sosteniendo comunicaciones anónimas y servicios ocultos.
TorBirdy: Aplicación beta de Tor para Thunderbird, Icedove y otros clientes de correo
electrónico de Mozilla.
Tor Browser Bundle: Distribución de Tor para Windows, Mac OS X y Linux que no
necesita instalarse, únicamente se extra y está lista para usarse.
Tor Cloud: Herramienta semi-libre de Tor Cloud, que ayuda a los usuarios un acceso
sin censura a la Internet via la nube EC2 de Amazon.
Tor2web: Herramienta de Tor que permite a usuarios no anónimos acceder a los
servicios ocultos
Txtorcon: Implementación en python del protocolo del control de Tor
UUNET: Red privada temprana.
URI (Uniform Resource Identifiers): Cadena de caractes que nombra un recurso

Web, clave en el desarrollo de la Web semántica.
URL (Uniform Resource Locator): Cadena de caractes que constituye la referencia

Web a un recurso.
USENET: Red temprana basada en UNIX
VENTex: Técnica automática de minería de datos de la Web profunda que utiliza las
variaciones de CSS2 para extraer la información.
ViDE: Técnica automática de minería de datos de la Web profunda que utiliza el

contenido visual de las páginas construyendo árboles que agrupan los datos
semánticamente relacionados y reglas de extracción visual.
ViNTs: Técnica automática de minería de datos de la Web profunda que utiliza el
contenido visual de las páginas de resultados para capturar patrones llamados líneas
de contenido y etiquetar las páginas.
ViPER: Técnica automática de minería de datos de la Web profunda que utiliza el
contenido visual de las páginas con técnicas de alineamiento global múltiple de
secuencias para etiquetar las páginas.
VPN (Virtual Private Network): Extensión de una red privada a través de una red
pública como el Internet para enviar y recibir datos de manera segura.
Web profunda: Contenido Web no indexado que necesita de herramientas especiales
para su acceso como con directorios semánticos y redes anónimas, últimas de las
cuales Tor es el ejemplo por excelencia.
WF4: Técnica semi-automática de minería de datos de la Web profunda basada en

árboles.
WIEN: Técnica semi-automática de minería de datos de la Web profunda basada en
secuencias
Wiki oculto (hidden wiki): Directorio de Onion que sirve como portal de entrada a la
Web profunda en formato wiki.
WikiLeaks: Página dedicada a la divulgación información filtrada en formato wiki con el

objetivo de proteger la estabilidad y transparencia democrática de las naciones. Véase
capítulo WSDL: Lenguaje de la interfaz pública de los servicios Web, basado en XML.
WWW (World Wide Web): Red creada para simplificar la difusión de información,
principalmente científica, por el investigador de ciencias de la computación Tim
Berners-Lee en 1990 en el CERN.
Xwrap: Técnica semi-automática de minería de datos de la Web profunda basada en

árboles.
Yahoo!: Empresa de medios que absorbió al motor de búsqueda AltaVista.
ZeuS: Familia de botnets que funcionan como caballos de Troya sobre el sistema
operativo Microsoft Windows.
• BIBLIOGRAFIA

Correcciones Monografu00eda Deep Web Rec H0opa

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correcciones Monografu00eda Deep Web Rec H0opa

Cargado por

Copyright:

Formatos disponibles

EL MUNDO DE LA WEB PROFUNDA

LEONARD ESTEBAN CUERO PAREDES

UNIVERSIDAD SANTIAGO DE CALI

FACULTAD DE INGENIERÍA EN SISTEMAS

LEONARD ESTEBAN CUERO PAREDES

Ingeniero de Sistemas (Tutor)

UNIVERSIDAD SANTIAGO DE CALI

FACULTAD DE INGENIERÍA EN SISTEMAS

Santiago de Cali, 15 de mayo del 2015

Ilustración 1 – Esquema Web (Berners-Lee, 2010)...................................................16

Ilustración 2 - Representación del indexado de búsqueda (Bergman, 2001)............18

Ilustración 4 – Distribución de la World Wide Web....................................................32

Ilustración 5 - Esquema del funcionamiento de los Servicios Ocultos (Murdoch, 2006)

Ilustración 6 - Proyecto Internet Invisible (I2P, s.f.)....................................................38

Ilustración 7 – Freenet (Free Net, s.f.).......................................................................40

Ilustración 8 - Duck Duck (Duck Duck Go, s.f.)..........................................................40

Ilustración 9 - Esquema de análisis de tiempo (Øverlier & Syverson, 2006).............50

Tabla 1 - Relación población/usuario según el Uso del Internet en el Mundo (Group,

Tabla 2 - Relación población/usuario según Los 10 Lenguajes más usados en la Web

(Group, Internet World Stats, 2013)...........................................................................22

Tabla 3 – Herramientas de Acceso a la Web Profunda..............................................30

En esta monografía se trabajará un tema relevante, pero poco citado como lo es la

El Internet representa uno de los ejemplos más exitosos de los beneficios de la

Es importante que el estudiante o profesional en informática tenga el conocimiento

Describir el estado actual de la Web Profunda o Deep Web, en Internet.

• Exponer el origen y conceptos generales relacionados con la Web

• Describir los sitios y herramientas relevantes utilizadas para acceder a la

• Describir los aspectos legales alrededor de Internet y la web profunda.

• Exponer las consecuencias tecnológicas y legales que la web profunda ha

La web profunda (Deep web) es aquel sistema de servidores, conexiones,

“La Internet ha revolucionado la computación y las comunicaciones como nada

Para 1968 el proyecto ARPANET se había refinado, Frank Heart preparaba el

En diciembre de 1970 S. Crocker terminó el protocolo de comunicación entre equipos

AÑO HITO EN LA DEEP WEB

La red como la conocemos sigue un concepto clave, la arquitectura libre, es decir, la

Primero que nada, las redes se clasificaron en tres tipos: A, B y C. La clase A

Con la demostración y exploración de la utilidad del ARPANET, otras disciplinas

En 1984 la británica JANET y en 1985 la NSFNET de Estados Unidos se anunciaron

La arquitectura de la World Wide Web se propuso en 1989, con el hipertexto como

El poder de un enlace reside en su capacidad de apuntar a cualquier recurso, de

Ilustración 1 – Esquema Web

En 1994, con la influencia de Kleinrock, Kahn y Clark la NSF articulo la evolución de la

La expansión de LANS, PCs y estaciones de trabajo en la década de 1980 permitió el

A partir de 1996 con la introducción de las bases de datos por Bluestone's

Lamentablemente el algoritmo tiene problemas, desde la correcta identificación y

Ilustración 3 - Esquema del proceso de indexado

La Web profunda se caracteriza por su dinamismo. Ya sea por tratarse de datos

Las observaciones sugieren un división en el mercado de búsqueda: directorios que

Según el análisis del 2001 de BrightPlanet de 38.000 sitios de la Web profunda, se

• ACTUALIDAD DE LA WEB PROFUNDA

Actualmente a la fecha, la Deep Web se ha expandido notablemente no solo en tamaño

África 1158355663 4,514,400 313 257 074 27,0% 9,6% 6,839.1%

Asia 4032466882 114 304 000 1563208143 38,8% 47,8% 1,267.6%

Tabla 1 - Relación población/usuario según el Uso del Internet en el Mundo

Inglés 851 623 892 60,9% 505,0% 26,0% 1398277986

Chino 704 484 396 50,4% 2,080.9% 21,5% 1398335970

Malayo 93915747 32,7% 1,539.0% 2,9% 286 937 168

Francés 92265199 23,9% 669,0% 2,8% 385 389 434

Alemán 83738911 87,8% 204,3% 2,6% 95324471

Tabla 2 - Relación población/usuario según Los 10 Lenguajes más usados en la Web

• ¿CÓMO SE ACCEDE A LA WEB PROFUNDA?

Asimismo, existen otros servicios de recolección de enlaces a bases de datos que

CompletePlanet: http://aip.completeplanet.com/ ofrece acceso a muchísimas bases de