Está en la página 1de 2

La búsqueda en Google

realizar una búsqueda en la Web es como consultar un libro muy extenso en el que un índice exhaustivo nos indica
exactamente la ubicación de cada elemento. Cuando efectúas una búsqueda en Google, nuestros programas
consultan nuestro índice para decidir qué resultados de búsqueda son los más relevantes y mostrártelos.

Estos son los tres procesos principales mediante los que se proporcionan los resultados de búsqueda: rastreo,
indexación, publicación.

Rastreo e indexación

Primero se deben rastrear e indexar billones de documentos de la Web. De manera general funciona
gracias a procesos que sientan las bases sobre cómo se recopila y organiza la información de la Web
así dando los resultados más útiles. Sus índices contiene más de 100.000.000 gigabytes, y
necesitaron más de un millón de horas de computación para crearlo.

rastreo es el proceso mediante el que el robot de Google descubre páginas nuevas y actualizadas y
las añade al índice de Google.

Utilizan una gran cantidad de equipos informáticos para obtener o rastrear miles de millones de
páginas de la Web. El programa encargado de recuperar este contenido es el robot de Google,
también conocido simplemente como robot o araña. El robot de Google utiliza un proceso de rastreo
algorítmico: a través de programas informáticos se determinan los sitios que hay que rastrear, la
frecuencia y el número de páginas que hay que explorar en cada uno de ellos.

El proceso de rastreo de Google empieza con una lista de direcciones URL de páginas web generada
a partir de procesos de rastreo anteriores y se amplía con los datos de los sitemaps que ofrecen los
webmasters. A medida que el robot de Google visita cada uno de estos sitios web, detecta enlaces
en sus páginas y los añade a la lista de páginas para rastrear. Los sitios nuevos, los cambios en los
existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Indexacion, el robot de Google procesa todas las páginas que rastrea para compilar un índice masivo
de todas las palabras que ve junto con su ubicación en cada página. Además, también procesa la
información incluida en las etiquetas y los atributos de contenido clave, como las etiquetas "title" y
los atributos "alt". El robot de Google puede procesar muchos tipos de contenido, pero hay ciertos
tipos que no puede procesar, como el contenido de algunos archivos de soportes interactivos y
páginas dinámicas.

Se considera que Google ha indexado una página si el rastreador de Google (también denominado
"robot de Google") ha accedido a ella, se ha analizado en busca de contenido y significado y se ha
almacenado en el índice de Google. Las páginas que se hayan indexado pueden aparecer en los
resultados de la Búsqueda de Google (si siguen las directrices para webmasters de Google). Si bien la
mayoría de las páginas se rastrean antes de incluirse en el índice, es posible que Google también
indexe páginas sin acceder a su contenido (por ejemplo, si una página está bloqueada por una
directiva robots.txt).
Algoritmos

Spam

También podría gustarte