Está en la página 1de 5

15/11/22, 8:42 Guía detallada sobre cómo funciona la Búsqueda de Google | Centro de la Búsqueda de Google  

|  Documentación  |  Google D…

Guía detallada sobre cómo funciona la


Búsqueda de Google
La Búsqueda de Google es un buscador completamente automatizado que utiliza
programas de software denominados "rastreadores web" para explorar la Web
periódicamente en busca de páginas que pueda añadir a su índice. De hecho, la mayoría de
las páginas que se muestran en los resultados de la Búsqueda no se envían manualmente,
sino que se encuentran y se añaden automáticamente cuando nuestros rastreadores web
exploran la Web. En este documento, se explican las fases del funcionamiento de la
Búsqueda en el contexto de tu sitio web. Con estos conocimientos básicos, podrás corregir
los problemas de rastreo, indexar tus páginas y obtener más información para optimizar la
forma en que aparece tu sitio en la Búsqueda de Google.

¿Buscas información menos técnica? Consulta el sitio Cómo funciona la Búsqueda


 (https://www.google.com/search/howsearchworks/), en el que se explica cómo funciona la Búsqueda
desde el punto de vista del usuario.

Algunas notas antes de empezar


Antes de entrar en detalles sobre cómo funciona la Búsqueda, es importante tener en
cuenta que Google no acepta pagos para rastrear sitios con mayor frecuencia ni para
mejorar su posicionamiento. Si alguien te dice lo contrario, se equivoca.

Google no garantiza que rastree, indexe o sirva tu página, aunque cumpla las Directrices
básicas de la Búsqueda de Google (/search/docs/essentials).

Presentamos las tres fases de la Búsqueda de Google


La Búsqueda de Google funciona en tres fases, pero no todas las páginas pasan por cada
una de ellas:

1. Rastreo: (#crawling) Google descarga texto, imágenes y vídeos de páginas que


encuentra en Internet mediante programas automatizados, llamados "rastreadores".

2. Indexación: (#indexing) Google analiza el texto, las imágenes y los archivos de vídeo


de las páginas y almacena la información en el índice de Google, una gran base de

https://developers.google.com/search/docs/fundamentals/how-search-works 1/5
15/11/22, 8:42 Guía detallada sobre cómo funciona la Búsqueda de Google | Centro de la Búsqueda de Google  |  Documentación  |  Google D…

datos.

3. Publicación de resultados de búsqueda: (#serving) cuando un usuario hace una


búsqueda en Google, Google devuelve información relevante sobre su consulta.

Rastreo
La primera fase trata de averiguar qué páginas hay en la Web. Como no hay ningún registro
central con todas las páginas web, Google tiene que buscar constantemente páginas
nuevas y actualizadas, y añadirlas a nuestra lista de páginas conocidas. Este proceso se
denomina "descubrimiento de URL". Algunas páginas las conocemos porque Google ya las
ha visitado. Otras, en cambio, las encontramos siguiendo enlaces de páginas conocidas
que nos llevan a ellas; por ejemplo, una página principal, como la página de una categoría o
un enlace a una nueva entrada de blog. También se descubren otras páginas cuando envías
una lista de páginas (un sitemap (/search/docs/crawling-indexing/sitemaps/overview)) para que
Google las rastree.

Una vez que Google descubre la URL de una página, puede visitarla (o "rastrearla") para
averiguar qué contiene. Utilizamos una enorme cantidad de ordenadores para rastrear
miles de millones de páginas de la Web. El programa encargado de obtener este contenido
es el robot de Google (/search/docs/crawling-indexing/googlebot), también denominado robot,
bot o araña. El robot de Google determina mediante algoritmos qué sitios deben rastrearse,
con qué frecuencia tiene que hacerse y cuántas páginas hay que obtener de cada uno de
ellos.
Los rastreadores de Google (/search/docs/crawling-indexing/overview-google-crawlers)
también están programados para no rastrear sitios demasiado rápido y así evitar
sobrecargarlos.
Este mecanismo se basa en las respuestas del sitio (por ejemplo, los
errores HTTP 500 significan "lentitud"
 (/search/docs/crawling-indexing/http-network-errors#http-status-codes)) y en los ajustes de Search
Console (https://support.google.com/webmasters/answer/48620).

Sin embargo, el robot de Google no rastrea todas las páginas que ha descubierto. Puede
que el propietario del sitio web inhabilite el rastreo
 (/search/docs/crawling-indexing/robots/robots_txt#disallow) de algunas páginas, o puede
también que no se pueda acceder a otras páginas sin antes tener que iniciar sesión en el
sitio. Además, algunas páginas pueden ser una versión duplicada de otras páginas
rastreadas anteriormente (/search/docs/crawling-indexing/consolidate-duplicate-urls).
Por
ejemplo, se puede acceder a muchos sitios mediante la versión con www
(www.example.com) y sin www (example.com) del nombre de dominio, aunque el contenido
sea idéntico en ambas versiones.

https://developers.google.com/search/docs/fundamentals/how-search-works 2/5
15/11/22, 8:42 Guía detallada sobre cómo funciona la Búsqueda de Google | Centro de la Búsqueda de Google  |  Documentación  |  Google D…

Durante el rastreo, Google renderiza la página y ejecuta el código JavaScript que encuentre
 (/search/docs/crawling-indexing/javascript/javascript-seo-basics#how-googlebot-processes-javascript)
mediante una versión reciente de Chrome, similar a la forma en que tu navegador renderiza
las páginas que visitas.
El renderizado es importante porque los sitios web suelen usar
JavaScript para añadir contenido a la página, por lo que es posible que Google no lo
detecte si no se renderiza.

El rastreo depende de si los rastreadores de Google pueden acceder al sitio o no. Algunos
problemas habituales que puede tener el robot de Google a la hora de acceder a sitios son
los siguientes:

Problemas con el servidor que gestiona el sitio


 (/search/docs/crawling-indexing/http-network-errors#http-status-codes)

Problemas de red
 (/search/docs/crawling-indexing/http-network-errors#network-and-dns-errors)

Directivas de robots.txt que impiden que el robot de Google acceda a la página


 (/search/docs/crawling-indexing/robots/intro)

Indexación
Después de descubrir una página, Google intenta interpretar su contenido. Esta fase se
denomina "indexación" e incluye el procesamiento y el análisis del contenido textual, así
como de las etiquetas y los atributos de contenido importantes, como elementos <title>
 (/search/docs/appearance/title-link), atributos "alt", imágenes
 (/search/docs/appearance/google-images), vídeos (/search/docs/appearance/video) y más.

Durante el proceso de indexación, Google determina si una página es un duplicado de otra


página de Internet o la canónica (/search/docs/crawling-indexing/consolidate-duplicate-urls).
La
canónica es la página que puede aparecer en los resultados de búsqueda. Para seleccionar
la canónica, primero agrupamos las páginas que hemos encontrado en Internet con
contenido parecido, y después seleccionamos la más representativa del grupo. El resto de
páginas del grupo son versiones alternativas que se pueden servir en diferentes contextos;
por ejemplo, cuando un usuario busca desde un dispositivo móvil o si busca una página
muy específica de ese clúster.

Google también recoge señales sobre la página canónica y su contenido, que se puede
usar en la siguiente fase, en la que servimos la página en los resultados de búsqueda. Entre
estas señales, se incluyen el idioma de la página, el país en el que se encuentra el
contenido, la usabilidad de la página, etc.

https://developers.google.com/search/docs/fundamentals/how-search-works 3/5
15/11/22, 8:42 Guía detallada sobre cómo funciona la Búsqueda de Google | Centro de la Búsqueda de Google  |  Documentación  |  Google D…

La información recogida sobre la página canónica y su clúster puede almacenarse en el


índice de Google, una gran base de datos alojada en miles de ordenadores. No se garantiza
la indexación, ya que no se indexarán todas las páginas que Google procesa.

La indexación también depende del contenido de la página y de sus metadatos. Estos son
algunos de los problemas de indexación más habituales:

La calidad del contenido de la página es baja


 (/search/docs/advanced/guidelines/overview)

Hay directivas meta robots que no permiten la indexación


 (/search/docs/crawling-indexing/block-indexing)

El diseño del sitio web puede dificultar la indexación


 (/search/docs/crawling-indexing/javascript/javascript-seo-basics)

Publicación de resultados de búsqueda

No aceptamos pagos para mejorar el posicionamiento de páginas web; esta clasificación se hace
automáticamente.

Cuando los usuarios introducen sus consultas, nuestro sistema busca en el índice páginas
que coincidan con ellas y devuelve los resultados que consideramos más relevantes y de
mayor calidad. Para determinar esta relevancia, el sistema tiene en cuenta cientos de
factores, como la ubicación, el idioma y el dispositivo del usuario (ordenador o teléfono).
Por ejemplo, si un usuario de Barcelona busca "talleres de reparación de bicicletas",
obtendrá resultados diferentes a los de los usuarios de Hong Kong que hagan la misma
consulta.

Puede que en Search Console se indique que una página está indexada, pero no se muestra
en los resultados de búsqueda.
Esto puede deberse a los siguientes motivos:

El contenido de la página es irrelevante para los usuarios


 (/search/docs/fundamentals/seo-starter-guide)

La calidad del contenido es baja (/search/docs/advanced/guidelines/overview)

Hay directivas meta robots que impiden que se sirvan


 (/search/docs/crawling-indexing/block-indexing)

Aunque en esta guía se explica cómo funciona la Búsqueda, trabajamos continuamente


para mejorar nuestros algoritmos.
Para estar al día de todos estos cambios, sigue el blog

https://developers.google.com/search/docs/fundamentals/how-search-works 4/5
15/11/22, 8:42 Guía detallada sobre cómo funciona la Búsqueda de Google | Centro de la Búsqueda de Google  |  Documentación  |  Google D…

del Centro de la Búsqueda de Google (/search/blog).

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0
License (https://creativecommons.org/licenses/by/4.0/), and code samples are licensed under the Apache
2.0 License (https://www.apache.org/licenses/LICENSE-2.0). For details, see the Google Developers Site
Policies (https://developers.google.com/site-policies). Java is a registered trademark of Oracle and/or its
affiliates.

Last updated 2022-10-27 UTC.

https://developers.google.com/search/docs/fundamentals/how-search-works 5/5

También podría gustarte