Está en la página 1de 5

ALGORITMO DE BÚSQUEDA DE GOOGLE

Hoy en día, los algoritmos de Google se basan en más de 200 señales únicas o "pistas"
que hacen que sea posible adivinar lo que realmente podrías estar buscando. Estas
señales incluyen elementos como los términos de los sitios web, la actualidad del
contenido y PageRank.

Google ordena los resultados de la búsqueda utilizando su propio algoritmo PageRank.


A cada página web se le asigna un número en función del número de enlaces de otras
páginas que la apuntan, el valor de esas páginas y otros criterios no públicos.

Proceso de búsqueda

El proceso de búsqueda se divide en fases: el 'crawling' ("gateo") y la indexación, los


algoritmos y la lucha contra el spam.

Durante la primera fase, el proceso de búsqueda de Google comienza a realizar un


rastreo de los más de 30 billones de páginas existentes en Internet, cifra que se
encuentra en continuo crecimiento. En este proceso, Google busca, en ínfimas
fracciones de segundo, los enlaces página a página. Mientras, los propietarios de éstas
son los que deciden si el buscador puede 'gatear' en su web estableciéndolo así en su
código. Tras el "gateo", Google clasifica las páginas según su contenido y otros factores
manteniendo una monitorización de todas las páginas que se encuentran 'indexadas',
las cuales constituyen cerca de más de 100 millones de GB de contenido. Además de la
información obtenida mediante el "gateo" a través de las páginas webs, Google
también recoge información acerca del mundo 'real' como la recogida por el sistema
de StreetView o el contenido de millones de textos procedentes de gran cantidad de
libros almacenados en librerías de todo el mundo.

Basándose en estas pistas dadas por los algoritmos, el buscador extrae los documentos
relevantes de aquellos indexados ordenando los resultados usando hasta 200 factores.
Estos algoritmos se encuentran en continuo cambio a través del equipo del
Laboratorio de Búsqueda que pretende mejorar los sistemas de búsqueda mediante la
aplicación de nuevos algoritmos evaluados por los ingenieros de la compañía. Tras la
búsqueda realizada por el algoritmo, se pueden encontrar diversos resultados: gráficos
de conocimiento, vistas previas, noticias, respuestas a consultas online, vídeos,
imágenes.
En las páginas de resultados también se encuentran herramientas como las búsquedas
por voz, las búsquedas avanzadas o las mejoras diseñadas para los dispositivos
móviles.

Algoritmo

A través de algoritmos se intenta "entender mejor" lo que el usuario pretende buscar.


Estos algoritmos realizan distintas tareas entre las que se encuentran: deletrear la
búsqueda, autocompletarla, buscar sinónimos, buscar y entender las preguntas
realizadas.
PageRank es una marca registrada y patentada por Google el 9 de enero de 1999 que
ampara una familia de algoritmos utilizados para asignar de forma numérica la
relevancia de los documentos (o páginas web) indexados por un motor de búsqueda.
Sus propiedades son muy discutidas por los expertos en optimización de motores de
búsqueda. El sistema PageRank es utilizado por el popular motor de búsqueda Google
para ayudarle a determinar la importancia o relevancia de una página. Fue
desarrollado por los fundadores de Google, Larry Page y Sergey Brin, en la Universidad
de Stanford mientras estudiaban el posgrado en ciencias de la computación. PageRank
confía en la naturaleza democrática de la web utilizando su vasta estructura de enlaces
como un indicador del valor de una página en concreto.

Google interpreta un enlace de una página A a una página B como un voto, de la


página A, para la página B. Pero Google mira más allá del volumen de votos, o enlaces
que una página recibe; también analiza la página que emite el voto. Los votos emitidos
por las páginas consideradas "importantes", es decir con un PageRank elevado, valen
más, y ayudan a hacer a otras páginas "importantes". Por lo tanto, el PageRank de una
página refleja la importancia de la misma en Internet.

Algunos expertos aseguran que el valor de la variable d suele ser 0,85. Representa la
probabilidad de que un navegante continúe pulsando links al navegar por Internet en
vez de escribir una url directamente en la barra de direcciones o pulsar uno de sus
marcadores y es un valor establecido por Google. Por lo tanto, la probabilidad de que
el usuario deje de pulsar links y navegue directamente a otra web aleatoria es 1-d. La
introducción del factor de amortiguación en la fórmula resta algo de peso a todas las
páginas de Internet y consigue que las páginas que no tienen enlaces a ninguna otra
página no salgan especialmente beneficiadas. Si un usuario aterriza en una página sin
enlaces, lo que hará será navegar a cualquier otra página aleatoriamente, lo que
equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las
páginas de Internet.
La calidad de la página y el número de posiciones que ascienda se determina por una
"votación" entre todas las demás páginas de la World Wide Web acerca del nivel de
importancia que tiene esa página. Un hiperenlace a una página cuenta como un voto
de apoyo. El PageRank de una página se define recursivamente y depende del número
y PageRank de todas las páginas que la enlazan. Una página que está enlazada por
muchas páginas con un PageRank alto consigue también un PageRank alto. Si no hay
enlaces a una página web, no hay apoyo a esa página específica. El PageRank de la
barra de Google va de 0 a 10. Diez es el máximo PageRank posible y son muy pocos los
sitios que gozan de esta calificación, 1 es la calificación mínima que recibe un sitio
normal, y cero significa que el sitio ha sido penalizado o aún no ha recibido una
calificación de PageRank. Parece ser una escala logarítmica. Los detalles exactos de
esta escala son desconocidos. En los últimos tiempos Google está tratando de
mantener un poco "privado" su PageRank para evitar manipulaciones, pero existen
sitios donde se puede comprobar el PageRank.

Una alternativa al algoritmo PageRank propuesto por Jon Kleinberg, es el algoritmo


HITS.

Manipulación (lucha contra el spam)

Debido a la importancia comercial que tiene aparecer entre los primeros resultados del
buscador, se han diseñado métodos para manipular artificialmente el PageRank de una
página. Entre estos métodos hay que destacar el spam, consistente en añadir enlaces a
una cierta página web en lugares como blogs, libros de visitas, foros de Internet, etc.
con la intención de incrementar el número de enlaces que apuntan a la página.

A principios del 2005 Google implementó un nuevo atributo para hiperenlaces


rel="nofollow" como un intento de luchar contra el spam. De esta forma cuando se
calcula el peso de una página, no se tienen en cuenta los links que tengan este
atributo.

Un google bomb (en español bomba google) es un anglicismo que define un método
mediante el cual es posible colocar ciertos sitios web en los primeros lugares de los
resultados de una búsqueda en Google utilizando un texto determinado.

Este método explota el modo en que trabaja el algoritmo de búsqueda de Google,


PageRank, ya que una página obtendrá un lugar superior si es enlazada por otras
páginas ya conocidas. Se consigue incluyendo enlaces a la página objeto del «google
bomb» en el mayor número de páginas distintas posibles, de manera que el texto del
enlace sea el criterio de búsqueda deseado.
INICIO

Abrir el navegador

Seleccionar un motor de búsqueda

Escribir google.com

Cerrar navegador y
abrir otro
¿Ha cargado la NO
página?

SI
Escribir palabras clave en el
buscador de google y pulsar buscar

Seleccionar entre las opciones: web,


imágenes, videos, noticias, más.

Herramientas de búsqueda: país, idioma,


fecha, todos los resultados.

¿Arroja algún o NO
varios resultados?

SI

Seleccionar una opción

Revisar la información

FIN

También podría gustarte