Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Breve Historia de La Red
Breve Historia de La Red
1. Qu es Internet?
La rpida popularizacin de Internet, la forma tan radical en que ha venido a cambiar
nuestros hbitos y comportamientos, hace que el propio trmino haya llegado a tener un
nmero distinto de significados que quiz sea bueno aclarar. Con ello no pretendo
establecer un manual de usos correctos de la lengua, ni un canon al que debamos
ajustarnos. Internet significa exactamente aquello que sus usuarios quieren que
signifique, es decir, la vasta gama de procesos, actividades y contenidos por los que
recibimos y enviamos informacin de forma electrnica a travs de nuestros
ordenadores.
Dentro de ese amplio dominio an se pueden distinguir partes que desempean
funciones distintas. Por un lado encontramos lo que propiamente constituye el soporte
fsico, material de esa actividad de intercambio de informacin y por otra los distintos
entornos en que esa informacin es transmitida. Fijmonos en el aspecto fsico. Desde
este punto de vista, Internet no es sino un cableado que conecta distintos tipos de
unidades capaces de enviar, recibir o almacenar informacin. Nuestros ordenadores de
sobremesa forman parte de esa red en la medida en que estn fsicamente conectados a
esa red. Los servidores institucionales o privados tambin son elementos de esa red. No
obstante hay una acepcin ms estricta de este sentido fsico o material de entender
Internet en la que se hara tambin mencin al modo de transmitir informacin a travs
de esa red. La informacin que circula por Internet lo hace ajustndose a un protocolo
que recibe el nombre de Internet Protocol IP, a no confundir con lo que hoy en da
denominamos direccin IP-. Para que cualquier mquina conectada a esta red entienda
y se haga entender debe ajustarse a unas normas acerca de cmo transmitir y codificar
informacin. Esas normas se encuentran reunidas en el protocolo IP del cual a su vez
emanan otros que pueden ser empleados para distintas funciones. Por tanto, Internet es,
si se quiere ver as, el conjunto de todas las mquinas conectadas fsicamente a una red
en la que el intercambio de informacin se ajusta al protocolo IP. Es decir, es una red en
la que todas las unidades conectadas hablan un mismo idioma.
Esta acepcin del trmino es la ms estricta, la que con ms rigor describe aquello que
realmente es Internet y tiene la ventaja de ponernos en la pista de una aventura
tecnolgica que merece la pena conocer. Lo haremos en breve.
Pero tambin hay otra forma de referirse a Internet que apunta no a la red fsica y sus
estructura digamos formal, sino a algunas de las capacidades y servicios que presta.
Cuando consultamos una pgina web solemos decir que estamos consultando Internet
aunque en realidad slo estamos accediendo a uno de los muchos servicios disponibles a
travs de Internet. Aprenderemos a distinguir entre ellos y a reconocerlos por su nombre
y funcin, aunque de hecho ya los conocemos a travs de nuestra experiencia como
usuarios. En la actualidad circulan por Internet al menos los siguientes servicios: la
World Wide Web o simplemente Red, los servicios ms habituales de mensajera
electrnica, los distintos sistemas de chat, o conversacin en lnea, el sistema de
intercambio de ficheros ftp, los mecanismos de intercambio de voz a travs de IP, los
servicios de radio o televisin en lnea, etc. Todos ellos emplean, bajo distintas
variantes, el protocolo IP que define Internet.
En lo que sigue y cuando toque hablar con total rigor entenderemos que Internet es la
red fsica que habla en IP reservando para los servicios de Internet sus nombres
respectivos.
2. Interconectando redes.
La historia del nacimiento de Internet como una red de redes que comparten un mismo
idioma para intercambiar informacin es extremadamente sorprendente al menos por
dos motivos: la inusual rapidez con que se ha producido y la forma aparentemente
catica en que este proceso se ha llevado a trmino.
Las distintas obras y fuentes que podemos consultar no siempre arrojan la misma
informacin, pero al menos hay una serie de hitos presentes en todas ellas que permiten
hacerse una idea ms o menos correcta de cmo empez todo.
Tras la guerra de Corea los Estados Unidos empiezan a sufrir el desgaste producido por
su nueva condicin de superpotencia global. Sus inversiones en defensa alcanzan cifras
cuadro de situacin haba quedado probado como tambin lo haba hecho el nmero de
tcnicas empleadas para hacer que sistemas automticos y humanos cooperasen de
forma eficiente. El texto que mejor recoge estas ideas es un artculo breve publicado en
1960 en las actas de una reunin cientfica y el cual se titula, de forma nada modesta,
Man-Computer Symbiosis.
Esta trayectoria hace que en 1962 parezca el candidato idneo para ocupar el puesto de
mximo responsable de la IPTO, la Information Processing Techniques Office,
organismo integrado en DARPA. Desde esta oficina crea un grupo de trabajo dedicado a
la investigacin en el mbito de la computacin que tiene terminales en tres sedes
distintas, una en Santa Mnica, otra en Berkeley y otra ms en el MIT. Las dificultades
de comunicacin entre los sistemas y las redes desarrolladas en cada uno de estos
centros le lleva a proponer un ensayo de interconexin que en 1969 arroja los primeros
resultados. A finales de este ao se logra establecer una red formada por cuatro nodos,
la UCLA, el Stanford Research Institute, la Universidad de Utah y la Universidad de
California, Santa Brbara. La idea que mueve esta red es la transmisin de informacin
por medio de paquetes de datos. Esta idea haba sido desarrollada por Donald Davies
(NPL), Paul Baran (RAND Corporation) y Leonard Kleinrock (MIT) como una
solucin para interconectar equipos con relativa independencia de las tecnologas de red
empleadas. Es de los trabajos de Baran, originalmente orientados a lograr redes
suficientemente robustas como para sobrevivir a grandes crisis, como la que puede
provocar un ataque nuclear, de donde surge la idea de que Internet nace, precisamente,
como la respuesta a ese problema. Pero esto, como se puede ver claramente, es solo una
parte muy pequea de la historia. Creo que el pretendido origen militar de Internet debe
situarse en un contexto ms amplio y no solo en el mbito de un rasgo concreto, como
puede ser la vulnerabilidad de las redes a un ataque masivo.
La red ensayada en 1969 se constituye de forma oficial en 1972 bajo el nombre de
ARPANet y pone en conexin los sistemas de diversas oficinas gubernamentales as
como las de las ciertas universidades y centros de investigacin. La presin ejercida
ulteriormente por otras redes para integrarse en ARPANet crea un problema obvio al
tener que combinar tecnologas que en principio no han sido pensadas para convivir en
armona. Robert Kahn, consciente de la conveniencia de apostar por una rpida
expansin de ARPANet, encarga a Vint Ceref, procedente de Stanford, una respuesta a
ese problema. La solucin pasa por apostar por redes en las que el control central es
relegado a favor del papel ejercido por los nodos, algo que como veremos ms adelante,
define la geometra de Internet. Para que los nodos sean responsables de la transmisin
de los paquetes de informacin que reciben es preciso que todos ellos compartan unos
protocolos mnimos acerca de cmo gestionar esos paquetes de datos. Esta necesidad da
lugar a la formulacin en 1974 del protocolo TCP Transmision Control Protocol- que
permite interconectar tres grandes redes al menos a modo de prueba: ARPANet, Packet
Radio Network y la Atlantic Packet Satellite network. En 1978 el protocolo TCP es
revisado al combinarse en el nivel apropiado con el protocolo IP dando lugar a TCP/IP
en lo que es su forma casi definitiva. La adopcin de este sistema de transmisin e
intercambio de datos permite que en 1981 ARPANet cuente con 213 nodos
producindose un ritmo de incorporacin de un nuevo nodo cada 20 das.
El desarrollo de las redes en Europa no se produce mucho despus, aunque es algo
menos conocido y desde luego est mucho menos documentado. El estndar X25 es la
respuesta desarrollada por la International Telecomunication Union (ITU) a la
transmisin de datos a travs de redes diversas y sigue la estrategia de transmisin por
paquetes empleada en ARPANet. Este estndar, aprobado en 1976, fue empleado para
desarrollar una red universitaria en Gran Bretaa y a partir de ah fue adoptado tambin
por distintas redes tanto institucionales como privadas. Compuserve, Tymnet, Fidonet
son redes que se desarrollan ms tarde bajo este esquema. Pero el salto internacional se
produce cuando la British Post Ofice, la Western Union International y Tymnet se
fusionan para crear el IPSS International Packet Switched Service- en 1978. Otro
proceso relevante de fusin es el que tiene lugar cuando la red de la NSF, NSFNet se
conecta con una ARPANet que previamente ha segregado su red militar. Pero quiz es
ms importante el proceso de difusin del protocolo TCP/IP que es el que realmente
acta como pegamento para todo tipo de redes. ARPANet adopta este protocolo de
forma definitiva en 1983 y un ao tarde lo hace la red del CERN, CERNet, que
desarrollar luego un importante papel en el nacimiento de la web.
La capacidad de este protocolo para correr sobre redes de todo tipo, incluidas las
basadas en X25, hace que su adopcin resulte imparable durante los primeros aos de la
dcada de 1980. Es en este punto cuando se puede empezar ya a hablar de una autntica
red de redes de dimensiones realmente globales. A finales de esa dcada el dominio de
TCP/IP es prcticamente absoluto.
importante puede ser conveniente optar por protocolos menos exigentes. UDP User
Datagram Protocol, denominado IP 17-, por ejemplo, aade muy poco control a aquel
que ya ejerce IP sobre sus datagramas. En particular, no se ocupa de ofrecer cargas
inferiores a MTU ni garantiza el orden de llegada. Sin embargo es muy rpido
respondiendo a las demandas del cliente por lo que ofrece respuestas aceptables en
transmisiones en tiempo real. La emisin en tiempo real de audio o vdeo o los servicios
de chat suelen estar basados en UDP. El servicio DNS, del que hablaremos ms
adelante, tambin trabaja con UDP.
El nivel de aplicacin contiene los protocolos que enlazan directamente con los
programas que se ejecutan en nuestros ordenadores y con los cuales nos relacionamos
con usuarios. Sus siglas no son del todo desconocidas ya que podemos verlas
directamente en algunas de las ventanas de nuestras aplicaciones. HTTP, FTP, SMTP,
POP3, DNS o SSH son ejemplos de protocolos de este nivel. Cada uno de ellos tiene
una funcin especfica y est orientado a un tipo particular de aplicaciones. El protocolo
HTTP es el que se emplea para la transmisin de datos basados en html, es decir, el
lenguaje en que se basan la mayora de las pginas web existentes. Los servidores tienen
asignado por defecto el puerto 80 para este tipo de conexiones. FTP se emplea la
transmisin de archivos y su puerto preasignado es el 21. DNS se ocupa, por ejemplo,
de reconocer cada recurso que acta en Internet por su nombre de dominio y trabaja por
las direcciones IP de los servidores y mquinas y sobre los servidores de correo
electrnico. SMTP y POP3 son protocolos orientados a los servicios de mensajera,
mientras que SSH se ocupa de las transmisiones seguras que actan cifradas.
Es posible que ms adelante volvamos sobre algunos de estos protocolos ya que son los
que ms directamente determinan el comportamiento de las aplicaciones que con las que
tratamos como simples usuarios. HTTP, volver a salir, por ejemplo, cuando analicemos
en detalle el comportamiento de la web.
4. Las tres w
Ya hemos visto que Internet es bsicamente la red formada por todos los sistemas
basados en el protocolo TCP/IP. Dicho de otra forma, es una red en la que la
enlaces son todos del mismo rango y es slo la voluntad y el acierto de los diseadores
lo que consigue transmitir otra impresin a los usuarios. Este hecho podra ser
entendido como un defecto virtual de la Red, pero es en realidad la base de su xito y
fortaleza.
Como ya he dicho los documentos que forman la Red estn basados es lo que se
denomina hipertexto. El hipertexto constituye una tecnologa cuya importancia e
impacto sobre las nuevas formas de difusin de la informacin an no ha sido entendida
en toda su amplitud, lo cual no es en modo alguno extrao ya que se trata de algo que
nos est sucediendo ahora. Ha habido muchas otras revoluciones tecnolgicas relativas
al modo de concebir y componer textos, y todas ellas han sido determinantes por sus
efectos sobre la civilizacin que las ha producido. Un documento de hipertexto es un
documento que incluye gran cantidad de informacin relativa al modo en que otra parte
de esa informacin debe ser presentada o entendida o acerca tambin de las acciones a
desarrollar si se selecciona una determinada opcin. Todos esos datos suelen adjuntarse
en forma de etiquetas que enmarcan el texto al cual se aplica la accin que estas
simbolizan. A estas etiquetas tags- se les denomina en ocasiones metadatos, pero esta
es una terminologa que no est fijada del todo. Los navegadores que empleamos para
visualizar los documentos que viven en la Red son programas capaces de aplicar al texto
las acciones indicadas por las etiquetas que se incluyen. Eso es todo.
La idea del uso de hipertexto como un recurso til para facilitar la interaccin entre
seres humanos y entornos computacionales se origina en torno a la dcada de 1960 con
los trabajos de Ted Nelson y Douglas Engelbart el inventor del ratn-. Nelson acu el
trmino hypertext como parte de las investigaciones auspiciadas por el proyecto Xanadu
del cual era su mximo responsable. Pese a la evidente deuda existente con el estado
actual de los lenguajes de red, html en primer lugar, Nelson nunca se mostr de acuerdo
con el desarrollo de lo que a su juicio representaba un notable empobrecimiento de sus
ideas originales. Tanto Nelson como Engelbart afirman reconocen su deuda intelectual
con un artculo de Vannevar Bush publicado en 1945 nada menos. Este texto, titulado
As we may think, cuya lectura recomiendo, es extraordinariamente lcido porque apunta
a la estructura de la Red actual de manera sorprendentemente certera con unas
tecnologas completamente distintas a aquellas que finalmente la han hecho posible.
Todo un sntoma de lo difcil que es evitar el xito de una idea cuando las circunstancias
juegan a su favor.
Gran parte de las etiquetas que se emplean en un documento web se refieren al modo de
presentar la informacin. De hecho la mayora. Tamao de letra, ubicacin de los
contenidos, tablas, efectos, etc. Otra categora ejecuta acciones y es la ms importante
dentro de la arquitectura de un documento web. Estas acciones pueden ser abrir un
archivo de voz, un vdeo, o una animacin. Las ms caractersticas y frecuentes no son
stas, sin embargo. Lo que realmente define la Red es la existencia de etiquetas que
permiten que una pulsacin sobre el texto que enmarcan redirija al usuario a otro lugar
de esa pgina o a otra pgina web distinta. Dirigir a un lugar distinto dentro del mismo
documento y a otra pgina web distinta puede parecer en principio acciones del mismo
tipo, pero en realidad son muy diferentes, incluso desde un punto de vista formal. Para
enlazar lugares distintos dentro del mismo documento, el diseador tiene que insertar
una etiqueta que establece el enlace y otra, un ancla, que fija el punto de llegada. Para
enlazar con otra pgina sta ha de tener un identificador fijo que pueda ser asociado al
enlace. Estos identificadores se conocen como URI, tambin URL Uniform Resource
Identifier y Uniform Resource Locator- y son la autntica espina dorsal de la Red. Una
URL es lo que literalmente aparece a la derecha de http:// en la correspondiente barra de
nuestros navegadores. Para que estos nombres sean realmente universales y uniformes
es preciso que alguien los asigne a los distintos recursos disponibles. Esta funcin la
desempea en la actualidad la IANA -Internet Assigned Numbers Authority- organismo
dependiente de la ICANN -Internet Corporation for Assigned Names and Numbers-. La
IANA, a travs de sus delegaciones locales, asigna a cada mquina conectada a la
Internet un nmero que conocemos como direccin IP. Esa direccin IP puede ser
bastante compleja de recordar ya que consta de bastantes dgitos. La IP de la pgina de
entrada a la Red de la UAM es 150.244.9.237 y la del portal ADA Madrid es
138.100.6.167. Recordar estos nmeros es prcticamente imposible, razn por la cual
las direcciones IP se reemplazan por nombres de dominio, DNS, que en este caso seran
uam.es y romulo.gate.upm.es. La asociacin de una direccin IP a su nombre de
dominio o DNS es responsabilidad tambin de la IANA quien delega en los organismos
locales a la hora de administrar el proceso. La adquisicin y administracin de dominios
depende en Espaa de dominios.es lugar en el que tanto particulares como instituciones
pgina desde otra dada no depende del propietario de la primera. De hecho, hay muy
poco que este pueda hacer para impedir que alguien decida incluir su pgina entre los
enlaces de la que acaba de editar. La desventaja evidente de la alta conectividad
mostrada por la Red, conectividad que adems es no propietaria, es decir, no requiere la
colaboracin del responsable de la pgina de destino, es la existencia de numerosos
enlaces rotos. Cuando un usuario da de baja una pgina los enlaces que apuntan a ella
permanecen en las pginas origen, aunque ya no llevan a ningn sitio.
En segundo lugar, no hay un mecanismo central que fiscalice o controle el derecho de
los usuarios a colgar sus propios contenidos en la Red. Esto significa, al menos en la
teora, que cualquiera puede dotar a sus pginas de un alcance global. Para ello hay que
tener acceso a un servidor y los conocimientos mnimos necesarios para construir
pginas web. Hasta hace unos aos estos requisitos podan juzgarse muy restrictivos, en
la medida en que solo unos pocos ciudadanos podan tener acceso a los recursos y
conocimientos necesarios, pero en la actualidad hay una cantidad creciente de
particulares que pueden disponer de ellos. Las instituciones y empresas tienen en
cualquier caso un acceso casi garantizado a la Red. Las posibilidades de someter a
censura la Red existen, no obstante, y de hecho se aplican en pases en los que no hay
libertad de expresin o est muy limitada China, muchos pases del mundo rabe, etc-.
Pero tambin es posible luchar contra ellos. Lo que s parece cierto es que es un medio
que ha dotado a los ciudadanos, al menos en los pases desarrollados con regmenes
democrticos, de un acceso a la informacin y a su libre creacin que no tiene parangn
quiz desde la invencin de la imprenta. Poner lmites a una libertad ganada es siempre
muy difcil y aunque hay gobiernos que pueden estar tentados a actuar de forma
restrictiva, la dinmica creada por la propia Red hace muy difcil que logren imponer
sus criterios. Aunque todos estos aspectos sern tratados con detenimiento ms adelante
no quera dejar de situarlos ahora en nuestra agenda.
5. Cundo empez todo esto?
La Red nace de la combinacin de dos ideas extraordinariamente frtiles, el transporte
de datos a travs de un sistema descentralizado de nodos y la implantacin del
hipertexto con incorporacin de enlaces fijos -URLs- como sistema universal de
publicacin de contenidos. Esta segunda parte, la que conduce directamente a la
construccin de la Red, tiene su origen en los trabajos de Tim Berners Lee y Robert
Cailliau durante la dcada de 1980 en las instalaciones del CERN con sede en Ginebra.
En esa poca el CERN posee una de las redes ms potentes que operan en Europa
dedicada en su prctica totalidad a la investigacin. No obstante, o quiz por ello
mismo, el nivel de conexin de los equipos que integran CERNet es ms bien bajo. Los
problemas para establecer comunicaciones entre terminales de la red son, como describe
Berners-Lee en Weaving the Web: Origins and Future of the World Wide Web,
increiblemente complejos. La necesidad creciente de intercambiar datos procedentes de
los numerosos proyectos que el CERN desarrolla en esos momentos hace que la
situacin resulte alarmante, aunque como suele suceder tantas veces, es alguien venido
de fuera y ms bien marginal en la estructura del centro quien va a proponer la solucin
del problema. Es en este contexto en el que Berners-Lee se plantea la posibilidad de
establecer un mecanismo que permita que equipos de distinta factura compartan sus
datos. En 1980, durante su primera estancia en el CERN, Berners-Lee tiene tiempo de
lanzar un prototipo, ENQUIRE, basado en el uso de hipertexto. A su vuelta al CERN en
1984 sigue trabajando en el proyecto y elabora un informe titulado Information
Management: A Proposal en el que se documenta el proyecto Enquire en todos sus
detalles. En 1990, y contando ya con la ayuda de Robert Cailliau, elabora un segundo
informe que es aceptado por la direccin del CERN y que constituye el inicio del primer
sistema que usa la tecnologa web que hoy conocemos. Poco tiempo despus ambos
consiguen poner en marcha un sitio en el que se explota ya el diseo bsico del lenguaje
html aunque an no tiene la entidad de un genuino lenguaje de Red. En la European
Conference On Hypertext Technology de 1990 intentan exponer el diseo de su idea
pero no consiguen el eco deseado. La difusin de la idea habra de esperar un tiempo
ms.
El primer navegador empleado para leer ese tipo de documentos es bautizado como
World Wide Web dando origen al acrnimo que hoy es de uso universal.
En 1991 Berners-Lee y Cailliau publican un sumario del proyecto en la pgina
alt.hypertext ofreciendo acceso pblico a la misma. Esta es, posiblemente, la primera
pgina web de libre acceso que se ve en Internet. Por entonces ya funciona de forma
regular el primer servidor web al que se adjudica el nombre de inf.cern.ch.
Pese a usar una parte sustancial de los recursos del lenguaje html, las primeras pginas
web an no tienen el enfoque que luego irn adquiriendo. Segn parece, aquellos
modelos primitivos se asemejan ms a lo que ahora denominamos wiki que a una
genuina pgina web de contenidos fijos estticos-.
En 1991 P. Kunz, de visita en el CERN, queda cautivado por la idea y se lleva la
tecnologa de vuelta a USA. En el SLAC Stanford Linear Accelerator Center la
bibliotecaria Louise Addis adapta el sistema a un IBM para mostrar los documentos del
SLAC en lnea. El valor de la idea empieza a verse en la prctica.
Durante los primeros aos de difusin de la Red, no existe an una pauta fija como la
que ahora podemos reconocer. En Internet conviven recursos basados todos ellos en el
protocolo TCP/IP pero de distinta factura. Por un lado prospera el correo electrnico
basado en SMTP, por otro el intercambio de ficheros apoyado en FTP y finalmente los
documentos de hipertexto. Dentro de estos hay dos iniciativas que durante un tiempo
van a correr en paralelo. Una es la que da lugar a la Red que ahora conocemos basada
en el par HTTP, HTML y otra la Red construida a partir del protocolo GOPHER. Los
documentos basados en gopher hacen un uso del hipertexto considerablemente ms
jerarquizado que el tpico de los documentos web actuales. Un documento gopher
presenta el aspecto de una estructura de carpetas a travs de la cual se establecen
enlaces con otros documentos. La conexin se produce en todo momento a travs de esa
estructura de directorios y no en cualquier sitio como es tpico de la Red actual. La red
gopher tuvo cierta difusin, sobre todo en medios acadmicos, hasta que en 1993 la
Universidad de Minnesota, propietaria del copyright, decide cobrar por el acceso a ese
servicio. Por su parte el CERN decide optar por la estrategia contraria ofreciendo gratis
el acceso a su red HTTP/HTML. La poltica restrictiva adoptada por Minnesota se
mostr catastrfica al punto de que en la actualidad slo los navegadores de la familia
Mozilla soportan pginas gopher. Internet Explorer elimin esta opcin en 2002.
Durante sus primeros aos de expansin, la Red se centra sobre todo en pginas
dedicadas a investigacin y, como hemos visto, en servicios asociados a las grandes
bibliotecas especializadas. Creo que es justo destacar el gran papel que este medio, el de
las Bibliotecas universitarias y de investigacin, ha jugado en la implantacin
institucional de la Red. Es curioso que unos profesionales tradicionalmente
caracterizados como personajes low-tech hayan estado, en realidad, entre los primeros
capaces de entender la potencialidad del documento de hipertexto para sus clientes.
La dcada de 1990 est marcada por un crecimiento exponencial del nmero de pginas
y por una constante evolucin de los navegadores que llega a la guerra comercial en el
caso de Microsoft. El primer navegador es el WWW del CERN, pero sus habilidades
son extraordinariamente limitadas. En 1991 ven la luz Erwise y WWWViola
incorporando ambos capacidades grficas. Operan sobre Unix. Lynx es desarrollado en
la Universidad de Kansas y corre en Unix y DOS. En 1992 se desarrolla Mosaic en el
NCSA -National Center for SuperComputing- en la Universidad de Illinois dando lugar
aos ms tarde, 1994, a Netscape desarrollado esta vez como una iniciativa comercial
pero de libre distribucin. En 1993 Microsoft lanza Cello para trabajar en Windows y en
1995 ve la luz Internet Explorer iniciando una polmica que an persiste.
Durante esos primeros aos la navegacin trmino oficialmente acuado por en 1992
J.A. Polly, un bibliotecario, en el Wilson Library Bulletin- se realiza marcando una
pgina de entrada como favorita o accediendo a algn tipo de catlogo de pginas como
el Whats new de la NCSA. No existen los buscadores tal y como los conocemos en
la actualidad.
El ritmo de crecimiento de la web permite que en mayo de 1994 Cailliau organice en el
CERN la primera International WWW Conference que desde entonces se celebra
anualmente. De esa reunin surge la decisin de fundar el WWW Consortium que
finalmente acogido en el MIT como organizacin industrial y bajo la direccin de
Berners-Lee. Este organismo controla desde entonces las distintas versiones del
lenguaje html as como otra serie de estndares asociados al buen funcionamiento de la
Red. Tambin tiene un papel determinante en la investigacin de nuevas
funcionalidades y en el diseo de los lenguajes y protocolos capaces de implementarlas.
Junto a la ICANN es otra de las instituciones de las que depende realmente el
funcionamiento de la Red.
6. La Red en cifras
El primer dato que hay que tener en cuenta es que medir la Red no es fcil. No existe
ningn registro central de pginas publicadas como, por ejemplo, s existe para el texto
escrito el registro ISBN-, por lo que las tcnicas empleadas para medir su tamao son
indirectas y basadas a menudo en clculos bastante complejos. Reconocer que la medida
de la Red es asunto nada trivial choca abiertamente con la confianza depositada
depositar en los buscadores que solemos emplear para localizar informacin relevante.
Por qu no tomar los datos que estos puedan ofrecer para medir el tamao de la Red?
Hay varias razones por las que esta estrategia no puede ser considerada plenamente
satisfactoria aunque en el fondo sea la nica posible.
Para empezar, los datos suministrados no coinciden en todos los casos. En un artculo
publicado por A. Gulli y A. Signorini -http://www.cs.uiowa.edu/~asignori/web-size/- se
ofrecen los siguientes datos acerca del tamao de la web digamos pblica o visible:
At the time of this writing [2005], Google claims to index more than 8 billion
pages, MSN Beta claims about 5 billion pages, Yahoo! at least 4 billion and
Ask/Teoma more than 2 billion
La razn de que existan datos tan dispares es que ninguno de estos recursos est
trabajando sobre registros reales, sino sobre los resultados que aportan sus propios
algoritmos de bsqueda. Como es obvio, nada de esto sucedera si existiera un ISBN
electrnico, pero entonces la Red sera simplemente otra cosa.
Lo que s es posible es comparar esos resultados con otros obtenidos aos antes por
procedimientos similares. As, en 1997 el promedio arrojado por los buscadores ms
populares en ese momento, Hotbot, Altavista, Excite e Infoseek, es de 200 millones de
pginas. En 1998 la cifra ha ascendido a 800 millones mientras que en 2005 podra
hacerse una estimacin de 11500 millones.
Otro dato significativo es la disparidad en los resultados que arrojan los distintos
buscadores cuando se le ofrece un determinado tem. Lo normal sera encontrar una
cierta coherencia en el resultado de esas bsquedas pero lo cierto es que en muchos
casos sta es alarmantemente baja. Sobre todo cuando se trata de tems no muy
populares o definidos. Hay cifras que estiman que el grado de interseccin que se
observa entre los distintos buscadores puede llegar en la actualidad casi al 29% lo que
no est mal si tenemos en cuenta que esos mismos estudios arrojan un coeficiente del
1,4% para las primeras mediciones realizadas en 1997.
Es obvio que la informacin contenida en la Red y en general en soportes digitales es en
la actualidad la principal fuente de datos, muy por encima de los soportes tradicionales
que hasta hace solo unos aos eran los ms habituales. Se estima que en la actualidad
hay soportada informacin digital equivalente a 161.000 millones de gigabytes lo que
supone 3 millones de veces la informacin contenida en todos los libros escritos por el
hombre hasta la fecha. Pese a lo espectacular del dato, hay que tener en cuenta que los
medios digitales de almacenado de imagen consumen, por ejemplo, una cantidad de
informacin superior en varios rdenes de magnitud a la que precisa un libro y que esta
diferencia tiene adems a aumentar. La rpida progresin de la fotografa o el vdeo
digital en los ltimos aos, sobre todo a nivel particular, puede explicar esos datos sin
elaborar hiptesis ms arriesgadas. En general es cierto que hay un proceso de
reemplazo de soportes que juega claramente a favor del medio digital, pero debe ser
tomado con cuidado y evitando caer en falsos efectos estadsticos. El byte quiz no sea
la mejor unidad de cuenta en aspectos tan complejos como este. El dato anterior se
refiere, adems, al nmero de bytes de almacenado existentes en los equipos
actualmente operativos en el mundo, sin contar, claro est, el nmero de veces que un
mismo documento se repite. Esta tasa, la de repeticin, se considera sin embargo no
menor al 25% con lo que los datos ofrecidos pierden buena parte de su efecto.
Medir los bytes disponibles para almacenar informacin es difcil pero podemos
imaginar el procedimiento seguido para ello. Basta con hacer una estimacin de las
unidades de memoria vendidas en los ltimos aos y el periodo de vigencia de los
equipos para hacerse una idea de la magnitud de ese dato. El nmero de pginas web
depende, sin embargo, de las tcnicas de indexacin empleadas por los distintos
buscadores que, como acabamos de ver, parecen muy dispares. A esto hay que aadir la
existencia de un gran nmero de pginas que por una razn u otra resultan invisibles
para los buscadores. Estos documentos forman lo que se denomina Dark Web por los
investigadores y recoge tems de muy distinta ndole. La mayora de ellos, esa es mi
TOP TEN
LANGUAGES
IN THE
INTERNET
% of all
Internet Users
Internet Users
by Language
Internet
Penetration
by Language
Internet Growth
for Language
( 2000 - 2007 )
2007 Estimate
World Population
for the Language
English
29.9 %
327,084,785
28.6 %
138.5 %
1,143,218,916
Chinese
14.0 %
153,301,513
11.3 %
374.6 %
1,351,737,925
Spanish
8.0 %
87,253,448
17.0 %
253.4 %
512,036,778
Japanese
7.9 %
86,300,000
67.1 %
83.3 %
128,646,345
German
5.4 %
58,854,682
61.3 %
113.2 %
96,025,053
French
5.0 %
54,774,714
14.1 %
349.0 %
387,820,873
Portuguese
3.1 %
34,064,760
14.6 %
349.6 %
234,099,347
Korean
3.1 %
33,900,000
45.3 %
78.0 %
74,811,368
Italian
2.8 %
30,763,848
51.7 %
133.1 %
59,546,696
Arabic
2.6 %
28,497,400
8.4 %
930.2 %
340,548,157
TOP TEN
LANGUAGES
81.8 %
894,795,150
20.7 %
176.5 %
4,328,491,457
Rest of World
Languages
18.2 %
198,734,542
8.8 %
431.9 %
2,246,174,960
100.0 %
1,093,529,692
16.6 %
202.9 %
6,574,666,417
WORLD
TOTAL
(*) NOTES: (1) Internet Top Ten Languages Usage Stats were updated on Jan. 11, 2007. (2) Internet Penetration is the ratio
between the sum of Internet users speaking a language and the total population estimate that speaks that specific language.
(3) The most recent Internet usage information comes from data published by Nielsen//NetRatings, International
Telecommunications Union, Computer Industry Almanac, and other reliable sources. (4) World population information comes
from the world gazetteer web site. (5) For definitions and navigation help, see the Site Surfing Guide. (6) Stats may be cited,
stating the source and establishing an active link back to Internet World Stats. Copyright 2006, Miniwatts Marketing Group.
All rights reserved.
como el noruego. Indica esto que la comunidad hispana es una consumidora neta de
Internet, pero que an se encuentra lejos de contribuir en igual medida a la produccin
en la Red? O significa quiz que hemos renunciado al uso de la lengua propia como
vehculo de expresin en Internet optando mayoritariamente por el ingls?
El problema real que subyace a estas preguntas en la falta de datos fidedignos acerca del
tamao, la forma o la medida real de la Red. Existe un campo de creciente inters,
calificado en ocasiones como cibergeografa, dedicado precisamente a ofrecer
representaciones de la Red. La siguiente ilustracin es un ejemplo de ello:
En esta imagen se muestra la red formada en torno al nodo central representado por la
pgina principal de Wikipedia. Podemos representar el entrelazamiento de la Red de
forma ms o menos aproximada siguiendo los links que las propias pginas contienen.
No obstante, esa medida est muy lejos de ofrecer una representacin adecuada de la
forma, la geografa, de la Red. Dnde est la pagina consultada? Es relevante para lo
que busco? Hay otras cerca o lejos que me lleven a lo mismo? Se trata, como se puede
ver, de un campo donde las preguntas pendientes son muchas ms que las repuestas que
podemos encontrar, y donde de hecho ni siquiera est claro que los smiles espaciales
como cerca, lejos, dnde, etc tengan mucho sentido.