Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estructura y visibilidad
Ms del 75% de las pginas tiene al menos una referencia, y en promedio cada
una tiene entre 5 y 15 referencias. La mayora de estas referencias son a
pginas en el mismo servidor. De hecho, la conectividad entre sitios distintos
no es muy buena. En particular, la mayora de las pginas no son referenciadas
por nadie y las que s son referenciadas, lo son por pginas en el mismo
servidor. Considerando slo referencias externas, ms del 80% de las pginas
tienen menos de 10 referencias a ella. Otros sitios son muy populares, teniendo
decenas de miles de referencias a ellos. Si contamos sitios que referencian a
sitios, aparece Yahoo! en el primer lugar. Por otro lado, hay algunos sitios que
no son referenciados por nadie En este mismo sentido, las pginas personales
tambin se pueden considerar como entes aislados en la mayora de los casos.
As mismo, la mayora de los sitios (80%) no tiene ninguna referencia hacia
pginas en otros servidores. Esto significa que una minora de los servidores
mantiene toda la carga navegacional de la red. En particular hay sitios que
tienen miles de punteros externos que son los que al final engloban la Web,
siendo obviamente el mayor de todos ellos Yahoo!. Estadsticas recientes
indican que el 1% de los servidores contienen aproximadamente el 50% del
volumen de datos de la Web, que se estima es de alrededor de 800 millones de
pginas a comienzos de 1999.
Tamaos y caractersticas
Existen slo tres estudios de los distintos idiomas usados en pginas Web. Uno
es de Funredes, una organizacin no gubernamental establecida en Repblica
Dominicana y dirigida por Daniel Pimienta, un francs. Este estudio est hecho
en base a frecuencia de palabras en AltaVista y sus ltimos datos son de
Septiembre de 1998. El segundo estudio pertenece a Alis Technologies, una
compaa francesa, que hizo un muestreo de 8000 servidores, usando un
producto propio que reconoce distintos idiomas.
Son dos las maneras ms usadas para buscar. Podemos usar catlogos
similares a las pginas amarillas telefnicas como Yahoo!. Estos catlogos son
taxonomas jerrquicas que intentan clasificar los distintos temas o reas del
conocimiento. Los directorios ms grandes tienen ms de 100 mil categoras
jerarquizadas y ms de un milln de sitios Web clasificados. La ventaja
principal de este mtodo es que si encontramos algo, seguramente ser til.
Las desventajas son que la clasificacin muchas veces no es suficientemente
especializada y no todo lo que existe en la Web est clasificado
Eplogo