Documentos de Académico
Documentos de Profesional
Documentos de Cultura
número 10100, es decir, el dígito 1 seguido de cien ceros. El googol tiene poca utilidad, sólo
para explicar la diferencia entre un gran número y el infinito, y debido a su magnitud, los
fundadores de Google decidieron adaptar el término para dar nombre a su empresa.
(un uno seguido de cien ceros).
El término googol o gúgol existe desde 1938, cuando el matemático Edward Kasner le
pidió a su sobrino de 9 años que creara un nombre para un número inmensamente
grande.
Desde que se introduce el término en la caja de búsqueda hasta que se consiguen los
resultados, un proceso que normalmente no toma más que un par de segundos, tienen
lugar los siguientes procesos en el buscador de Google:
o El primer paso del proceso que permite al buscador de Google ofrecer los mejores
resultados a los usuarios es el rastreo de los cientos de miles de millones de
páginas web disponibles en Internet, lo que le permite organizar la información y
los contenidos públicos en el índice de la búsqueda.
o , Google utiliza unos programas informáticos llamados rastreadores web
para encontrar portales de acceso público. Los rastreadores analizan el
contenido de las páginas para ver qué ha cambiado respecto a versiones
anteriores, y también siguen los enlaces que contienen para descubrir nuevas
páginas y detectar los links rotos u obsoletos.
o Para obtener los resultados de una búsqueda concreta, Google cuenta con
sistemas de clasificación formados por un conjunto de algoritmos que analizan qué
es lo que quieres encontrar para determinar la información que el buscador debe
mostrarte en los resultados.
o A la hora de seleccionar los resultados, en primer lugar los algoritmos de Google
analizan las palabras clave que ha introducido
o los algoritmos evalúan la cantidad de veces que aparecen las palabras clave en la
página, el lugar en el que se encuentran (encabezado, título, cuerpo del texto, etc.)
y otras pistas que indiquen si el contenido de la página es relevante para el
usuario.
o
o
Rastreo
El proceso de rastreo de Google empieza con una lista de URLs de páginas web
generada a partir de rastreos anteriores que se amplía con los datos de sitemaps que nos
envían los webmasters. Cuando el robot de Google visita páginas, encuentra los enlaces
que contienen y los añade a la lista de páginas para rastrear. Los sitios web nuevos, los
cambios en los que ya conocemos y los enlaces obsoletos se detectan y se utilizan para
actualizar el índice de Google.
Indexación
El robot de Google procesa todas las páginas que rastrea para entender su contenido.
Además del contenido textual, procesa la información incluida en etiquetas y atributos de
contenido importantes, como las etiquetas <title>, los atributos "alt", las imágenes, los
vídeos, etc. Aunque el robot de Google puede analizar muchos tipos de contenido, no
puede analizarlos todos, incluido el de algunos archivos de rich media.
Una vez rastreada una página, pero antes de indexarla, determinamos si es una versión
duplicada o canónica de otra. Si consideramos que la página es un duplicado, se
rastreará con mucha menos frecuencia. Las páginas similares se agrupan en un
documento, que es un grupo de al menos una página en el que se incluye la página
canónica (la más representativa del grupo) y los duplicados que se hayan encontrado. Los
duplicados pueden ser simplemente URL alternativas para llegar a una misma página o
versiones alternativas para móviles u ordenadores.