Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La Anatomía de Un Hipertextual A Gran Escala
La Anatomía de Un Hipertextual A Gran Escala
Buscador web
Sergey Brin y Lawrence Page
Departamento de Informática,
Universidad de Stanford, Stanford, CA 94305, EE.UU.
sergey@cs.stanford.edu y page@cs.stanford.edu
Resumen
En este artículo, presentamos Google, un prototipo de un motor de búsqueda a gran
escala que hace pesado Uso de la estructura presente en el hipertexto. Google está
diseñado para rastrear e indexar la web de manera eficiente y producir resultados
de búsqueda mucho más satisfactorios que los sistemas existentes. El prototipo con
un completo. La base de datos de texto e hipervínculos de al menos 24 millones de
páginas está disponible en http://google.stanford.edu/ Diseñar un motor de
búsqueda es una tarea desafiante. Los buscadores indexan decenas a cientos de
Millones de páginas web que involucran un número comparable de términos
distintos. Responden decenas de Millones de consultas todos los días. A pesar de
la importancia de los motores de búsqueda a gran escala en la web, Se ha hecho
muy poca investigación académica sobre ellos. Además, debido al rápido avance
en
La tecnología y la proliferación web, crear un motor de búsqueda web hoy en día es
muy diferente de tres hace años que. Este documento proporciona una descripción
detallada de nuestro motor de búsqueda web a gran escala:
La primera descripción pública detallada que conocemos hasta la fecha. Aparte de
los problemas de escalado. Técnicas de búsqueda tradicionales a datos de esta
magnitud, hay nuevos desafíos técnicos involucrados con el uso de la información
adicional presente en el hipertexto para producir mejores resultados de
búsqueda. Esta El documento aborda esta cuestión de cómo construir un sistema
práctico a gran escala que pueda explotar el Información adicional presente en
hipertexto. También nos fijamos en el problema de cómo tratar con eficacia con
colecciones de hipertexto no controladas donde cualquier persona puede publicar
lo que quiera.
Palabras clave
1. Introducción
(Nota: hay dos versiones de este documento: una versión completa más larga y una
versión impresa más corta. La versión completa está disponible en la web y en el
CD-ROM de la conferencia.) La web crea nuevos retos para la recuperación de
información. La cantidad de información en la web es creciendo rápidamente, así
como la cantidad de usuarios nuevos sin experiencia en el arte de la investigación
web. La gente es probable que navegue por la web usando su gráfico de enlace, a
menudo comenzando con índices humanos de alta calidad mantenidos como
Yahoo! o con motores de búsqueda. Las listas mantenidas por humanos cubren
temas populares de manera efectiva pero subjetivo, costoso de construir y
mantener, lento para mejorar y no puede cubrir todos los temas esotéricos. Los
motores de búsqueda automatizados que dependen de la concordancia de palabras
clave generalmente devuelven demasiadas coincidencias de baja calidad. Para
empeorar las cosas, algunos anunciantes intentan llamar la atención de las
personas tomando medidas destinadas a engañar a los motores de búsqueda
automatizados. Hemos construido un motor de búsqueda a gran escala que aborda
muchos de los problemas de los sistemas existentes. Hace un uso especialmente
pesado de la estructura adicional presente en hipertexto para proporcionar
resultados de búsqueda de calidad mucho más alta. Elegimos el nombre de nuestro
sistema, Google, porque Es una ortografía común de googol, o 10100 y encaja bien
con nuestro objetivo de construir búsquedas a gran escala los motores.
3 trabajos relacionados
Búsqueda de investigación en la web tiene una historia corta y concisa. El gusano
de la red mundial (WWWW) [McBryan 94] fue uno de los primeros motores de
búsqueda web. Posteriormente fue seguido por varios otros buscadores
académicos, muchos de los cuales son ahora empresas públicas, comparado con
el crecimiento de la web y la importancia de los motores de búsqueda son muy
pocos documentos sobre los motores de búsqueda recientes [Pinkerton 94]. Según
Michael Mauldin (científico jefe, Lycos Inc.) [Mauldin], "los diversos servicios
(incluyendo Lycos) guardan de cerca los detalles de estas bases de datos”. Sin
embargo, ha habido una feria cantidad de trabajo en características específicas de
los motores de búsqueda. Especialmente bien representado es el trabajo que puede
obtenga resultados post-procesando los resultados de los motores de búsqueda
comerciales existentes, o produzca a pequeña escala buscadores
"individualizados". Finalmente, ha habido mucha investigación sobre recuperación
de información. Sistemas, especialmente en colecciones bien controladas en las
siguientes dos secciones, discutimos algunas áreas donde esta investigación debe
ampliarse para funcionar mejor en la web.
4.2.1 BigFiles
BigFiles son archivos virtuales que abarcan múltiples sistemas de archivos y son
direccionables por enteros de 64 bits la asignación entre múltiples sistemas de
archivos se maneja automáticamente. El paquete BigFiles también maneja
asignación y des asignación de descriptores de archivos, ya que los sistemas
operativos no proporcionan suficiente para nuestros necesariamente. BigFiles
también soporta opciones de compresión rudimentarias.
4.2.2 Repositorio
El repositorio contiene el HTML completo de cada página web, cada página se
comprime utilizando zlib (ver RFC1950). La elección de la técnica de compresión es
una compensación entre la velocidad y la relación de compresión, elegimos la
velocidad de zlib sobre una mejora significativa en la compresión ofrecida por
bzip. La tasa de compresión de bzip fue de aproximadamente 4 a 1 en el repositorio
en comparación con la compresión 3 a 1 de zlib. En el repositorio, los documentos
se almacenan uno tras otro y tienen el prefijo docID, la longitud y la URL como se
puede ver en Figura 2. El repositorio no requiere que se utilicen otras estructuras de
datos para acceder a él. Esto ayuda con la consistencia de los datos y facilita mucho
el desarrollo; Podemos reconstruir todas las otras estructuras de datos de solo el
repositorio y un archivo que enumera los errores del rastreador.
4.2.4 Léxico
El léxico tiene varias formas diferentes, un cambio importante de los sistemas
anteriores es que el léxico puede caber en la memoria por un precio razonable, en
la implementación actual podemos mantener el léxico en memoria en una máquina
con 256 MB de memoria principal. El léxico actual contiene 14 millones de palabras.
(Aunque algunas palabras raras no fueron añadidas al léxico). Se implementa en
dos partes: una lista de las palabras (concatenadas juntas pero separadas por
nulos) y una tabla hash de punteros. Para diversas funciones, Figura 2. Estructura
de datos del repositorio la lista de palabras tiene información auxiliar que está más
allá del alcance de este documento para explicarlo en su totalidad.
4.5 buscando
El objetivo de la búsqueda es proporcionar resultados de búsqueda de calidad de
manera eficiente muchos de los grandes comerciales. Los motores de búsqueda
parecían haber hecho grandes progresos en términos de eficiencia, por lo tanto, nos
hemos centrado más sobre la calidad de la búsqueda en nuestra investigación,
aunque creemos que nuestras soluciones son escalables a volúmenes comerciales
con un poco más de esfuerzo. El proceso de evaluación de la consulta de Google
se muestra en la Figura 4. Para poner un límite en el tiempo de respuesta, una vez
que un cierto número (actualmente 40,000) de documentos coincidentes se
encuentran, el buscador pasa automáticamente al paso 8 en la Figura 4. Este
significa que es posible que los resultados subóptimos sean devuelto Actualmente
estamos investigando otras formas de resolver este problema en el pasado,
ordenamos los éxitos de acuerdo a PageRank, que parecía mejorar la situación.
4.5.2 Feedback
La función de clasificación tiene muchos parámetros como los pesos de tipo y los
pesos de tipo prox. Averiguar los valores correctos para estos parámetros son una
especie de arte negro. Para ello, tenemos un usuario mecanismo de
retroalimentación en el buscador. Un usuario confiable puede evaluar
opcionalmente todos los resultados que son devueltos. Esta retroalimentación se
guarda; luego cuando modifiquemos la función de clasificación, podemos ver el
impacto de este cambio en todas las búsquedas anteriores que fueron
clasificadas. Aunque lejos de ser perfecto, esto nos da cierta idea de cómo un
cambio en la función de clasificación afecta a los resultados de búsqueda.
1. Analizar la consulta.
2. Convertir palabras en wordIDs.
3. Buscar el inicio de la lista de documentos en el barril corto para cada palabra.
4. Escanear a través de las listas de documentos hasta hay un documento que
coincide todos los términos de búsqueda.
5. Calcula el rango de eso documento para la consulta.
6. Si estamos en los barriles cortos y en al final de cualquier lista documental, busca
al inicio de la lista de documentos en el barril lleno para cada palabra e ir al paso 4.
7. Si no estamos al final de alguna doclist ir al paso 4. ordenar los documentos que
tienen emparejado por rango y devolver la parte superior k.
5 Resultados y Rendimiento
La medida más importante de una búsqueda el motor es la calidad de sus resultados
de búsqueda. Mientras que una evaluación completa del usuario es más allá del
alcance de este documento, nuestra propia experiencia con Google lo ha
demostrado para producir mejores resultados que los principales, buscadores
comerciales para la mayoría búsquedas Como un ejemplo que ilustra el uso de
PageRank, texto de anclaje, y proximidad, la figura 4 muestra la de Google
resultados para una búsqueda en "Bill Clinton". Estos resultados demuestran
algunos de las características de Google. Los resultados son agrupados por
servidor esto ayuda considerablemente al tamizar el resultado conjunto, una serie
de resultados son del dominio whitehouse.gov que es lo que uno puede
razonablemente esperar de tal buscar. Actualmente, la mayoría de los grandes
comerciales los buscadores no devuelven ningún resultado de whitehouse.gov,
mucho menos el derecho unos observe que no hay título para el primer
resultado esto es porque no era arrastrado En cambio, Google confió en el ancla
texto para determinar esta fue una buena respuesta a la consulta. Del mismo modo,
el quinto resultado es una dirección de correo electrónico que, por supuesto, no es
rastreable. También es un resultado de texto de anclaje. Todos los resultados son
razonablemente altos, páginas de calidad y, en última instancia, ninguna eran
enlaces rotos, esto es en gran parte porque todos ellos tienen alto PageRank. Los
PageRanks son los porcentajes en rojo junto con gráficos de barras. Finalmente, no
hay resultados sobre un proyecto de ley que no sea Clinton o sobre un Clinton aparte
de Bill. Esto se debe a que damos mucha importancia a la proximidad de las
ocurrencias de palabras. De por supuesto, una verdadera prueba de la calidad de
un motor de búsqueda involucraría un extenso estudio o resultados del usuario.
Análisis para el que no tenemos espacio aquí. En su lugar, invitamos al lector a
probar Google por sí mismos en http://google.stanford.edu.
Estadísticas de almacenamiento
6. Conclusiones
Google está diseñado para ser un motor de búsqueda escalable el objetivo principal
es proporcionar una búsqueda de alta calidad. Resultados sobre un rápido
crecimiento de la World Wide Web. Google emplea una serie de técnicas para
mejorar la calidad de búsqueda que incluye rango de página, texto de anclaje y
Información de proximidad. Además, Google es una arquitectura completa para la
recopilación de páginas web, indexándolos, y realizando consultas de búsqueda
sobre ellos.
Referencias
Vitae
9 Apéndice B: Escalabilidad
9. 1 Escalabilidad de Google
Hemos diseñado Google para que sea escalable en el corto plazo a un objetivo de
100 millones de páginas web. Tenemos acabo de recibir el disco y las máquinas
para manejar aproximadamente esa cantidad. Todo el tiempo consume partes de la
Los sistemas son paralelos y de tiempo aproximadamente lineal. Estos incluyen
cosas como los rastreadores, indexadores y clasificadores también creemos que la
mayoría de las estructuras de datos tratarán con gracia la expansión. Sin embargo,
en 100 millones de páginas web estaremos muy cerca de todo tipo de límites de
sistemas operativos en el sistemas operativos comunes (actualmente ejecutamos
tanto en Solaris como en Linux). Estos incluyen cosas como memoria direccionable,
número de descriptores de archivos abiertos, sockets de red y ancho de banda, y
muchos otros. Creemos que expandir a más de 100 millones de páginas aumentaría
enormemente la complejidad de nuestros sistemas.