Está en la página 1de 3

La madeja de la web (resumen)

Estructura y visibilidad

Cuntas referencias tiene una pgina HTML?

Ms del 75% de las pginas tiene al menos una referencia, y en promedio cada
una tiene entre 5 y 15 referencias. La mayora de estas referencias son a
pginas en el mismo servidor. De hecho, la conectividad entre sitios distintos
no es muy buena. En particular, la mayora de las pginas no son referenciadas
por nadie y las que s son referenciadas, lo son por pginas en el mismo
servidor. Considerando slo referencias externas, ms del 80% de las pginas
tienen menos de 10 referencias a ella. Otros sitios son muy populares, teniendo
decenas de miles de referencias a ellos. Si contamos sitios que referencian a
sitios, aparece Yahoo! en el primer lugar. Por otro lado, hay algunos sitios que
no son referenciados por nadie En este mismo sentido, las pginas personales
tambin se pueden considerar como entes aislados en la mayora de los casos.
As mismo, la mayora de los sitios (80%) no tiene ninguna referencia hacia
pginas en otros servidores. Esto significa que una minora de los servidores
mantiene toda la carga navegacional de la red. En particular hay sitios que
tienen miles de punteros externos que son los que al final engloban la Web,
siendo obviamente el mayor de todos ellos Yahoo!. Estadsticas recientes
indican que el 1% de los servidores contienen aproximadamente el 50% del
volumen de datos de la Web, que se estima es de alrededor de 800 millones de
pginas a comienzos de 1999.

Tamaos y caractersticas

Cmo es una pgina Web promedio?

una pgina web promedio pondera entre los 5 a 7 kilobytes, eso si no


agregamos audio video imgenes esta pgina aumenta de tamao se dice que
la distribucin de tamaos es de cola pesada aunque la mayora de los
archivos son pequeos, existe un nmero no despreciable de archivos grandes;
y hasta 50 kilobytes predomina el volumen de las imgenes. Desde all hasta
300 kilobytes son importantes los archivos de audio. Ms all de este lmite,
llegando a varias decenas de megabytes, tenemos archivos de video

Cmo es una pgina HTML?

Alrededor de la mitad de ellas no tiene ninguna imagen. Un 30% no tiene ms


de dos imgenes y su tamao promedio es de 14Kb. Por otra parte hay un
porcentaje no despreciable (mayor al 10%) de pginas con ms de 10
imgenes. La razn es que son imgenes tipogrficas, como por ejemplo
puntos rojos, lneas de separacin de color, etc.
Los Idiomas en la Web

Existen slo tres estudios de los distintos idiomas usados en pginas Web. Uno
es de Funredes, una organizacin no gubernamental establecida en Repblica
Dominicana y dirigida por Daniel Pimienta, un francs. Este estudio est hecho
en base a frecuencia de palabras en AltaVista y sus ltimos datos son de
Septiembre de 1998. El segundo estudio pertenece a Alis Technologies, una
compaa francesa, que hizo un muestreo de 8000 servidores, usando un
producto propio que reconoce distintos idiomas.

Idioma Funredes Alis Tech. OCLC Parlantes


(%) (%) (%) (millones)

Ingls 76.4 82.3 71 450


Japons 4.8 1.6 4 126
Alemn 4.4 4.0 7 118
Francs 2.9 1.5 3 122
Castellano 2.6 1.1 3 266
Italiano 1.5 0.8 1 63
Portugus 0.8 0.7 2 175

Cmo Buscar en la Web?

Son dos las maneras ms usadas para buscar. Podemos usar catlogos
similares a las pginas amarillas telefnicas como Yahoo!. Estos catlogos son
taxonomas jerrquicas que intentan clasificar los distintos temas o reas del
conocimiento. Los directorios ms grandes tienen ms de 100 mil categoras
jerarquizadas y ms de un milln de sitios Web clasificados. La ventaja
principal de este mtodo es que si encontramos algo, seguramente ser til.
Las desventajas son que la clasificacin muchas veces no es suficientemente
especializada y no todo lo que existe en la Web est clasificado

La segunda tcnica es usar una mquina de bsqueda


como AltaVista, Fast, Inktomi, Northern Light, Lycos o Google, que usan el
paradigma de recuperacin en texto completo. Es decir, todas las palabras de
un documento se almacenan en un ndice para su posterior recuperacin.
Indexando la Web

Queda claro que para extender un directorio como Yahoo! se necesitan


expertos que clasifiquen nuevas pginas que en general son informadas por los
propios interesados. Por otra parte, indexar toda la Web implica el uso de
programas llamados crawler, robot, wanderer, etc. que recorren la Web y
recopilan pginas nuevas o actualizadas. La arquitectura tpica de un buscador
incluye el indexador y el robot.

Eplogo

La Web es un gran repositorio de datos y un nuevo medio de publicacin al


alcance de ms de 100 millones de personas. El hacer uso eficiente y
adecuado de estos datos depende de nosotros y de las herramientas que
existen y que han sido descritas en este artculo. El futuro dir si es posible
adaptar estas herramientas al crecimiento explosivo de la Web y que adems
la Web misma no colapse debido a la congestin en las redes y servidores
Web.

También podría gustarte