Está en la página 1de 2

22

Actua||dad Reportaje
P
ecuerda por un
momento qu
es lo que sueles
hacer cuando te
sitas frente a
la pantalla de tu ordenador y
te conectas a Internet. Segura-
mente lo primero sea consultar el
correo electrnico y tu perfil en
alguna de las redes sociales a las
que perteneces, pero el privilegio
de ser el servicio ms utilizado se
lo llevan los buscadores. De hecho,
en Espaa la pgina web ms
mencionada por los internautas
es Google, que tambin se sita
a la cabeza en el uso de sitios de
bsquedas. Estos especialistas en
encontrar en la Red lo que los usua-
rios buscan, guardan el secreto de su
xito con tanto recelo como los que
poseen la frmula de la Coca Cola,
patentada a finales del siglo XIX.
En el caso del gigante de Internet,
su receta es un algoritmo que tiene
nombre propio: PageRank.
La frmu|a secrela
Pero antes de aplicar esta frmula,
Google rastrea la Red para crear un
ndice sobre el que trabajar hay que
aclarar que en este ndice no estn
todas las direcciones que existen,
sino slo aquellas que se ajustan a
unos parmetros relacionados con la
calidad de sus contenidos.
Googlebots son los programas infor-
mticos que ejercen de exploradores y
elaboran una especie de mapa carto-
grfico de todo lo que ven en la Red.
Es decir, recopilan la informacin
para despus ordenarla y dividirla en
bloques distribuidos en equipos por
todo el mundo, de forma que cuando
alguien introduce un trmino en la
caja de bsqueda estos equipos escu-
drian en sus ndices hasta encontrar
lo que el usuario est buscando. La
eficacia es bastante alta, tanto que
entre los cinco primeros resultados
siempre hay alguna referencia que
se ajusta a la bsqueda, describe el
director de productos de bsqueda de
Google Europa, Juergen Galler.
Estos aciertos tienen que ver con
la relevancia que tiene la pgina web
en el mencionado ndice creado por
Google. La manera de establecerla
depende de muchos factores, como
el ttulo de la web, el texto que con-
tiene, o si se actualiza regularmente
o no, pero sobre todo de la frmula
secreta: PageRank, una ecuacin con
ms de 500 millones de variables y
dos mil millones de trminos que en
Google resumen, de forma bastante
abreviada, de la siguiente manera:
El resultado que ofrece este com-
pendio de smbolos se basa, en parte,
en la actividad de los usuarios. As,
a mayor nmero de visitas, ms rele-
vancia. Tambin entran en juego los
enlaces que hay de una web a otra,
de forma que cuando una pgina A
vincula con una B, se interpreta como
un voto de la primera a la segunda.
PageRank, adems, evala la reputa-
cin de las webs que otorgan dicho
voto: a mayor reputacin ms valor
tiene ese voto.
Actualmente hay miles de millones
de pginas, y siguen creciendo, por lo
que es esencial afinar cada da ms en
los resultados. Adems, los usuarios
nos hemos vuelto ms exigentes e
Un a|gor|lmo con m|||ones de var|ab|es l|ene |as respueslas
6untas veces has recurr|do a 6oog|e
para reso|ver tus dudas? E| buscador
ms usado por |nternautas de todo e|
mundo t|ene respuestas para cas| todo.
o a| menos |o |ntenta. 5u a|to n|ve| de
ac|ertos |e ha consagrado como |a empresa
ms fruct|fera de Internet.
0mo encuenlra oog|e
|o que l0
PageRank (p)=d/n + (1-d)


PageRank (q)/outdegree (q)
(q,p) E
motivos son los mismos que los de la
admisin: la calidad de los conteni-
dos. La falta de ella suele tener que
ver con el uso de mtodos inapro-
piados por parte del webmaster para
subir posiciones en la clasificacin de
las bsquedas o con la aparicin de
malware. "Cuando esto ltimo ocurre,
un aviso indica que la web puede ser
daina explica una de las encargadas
de comunicacin con los webmasters
en Europa, Rebeca Steelman. Esto
no siempre lo saben los webmasters,
ya que suelen ser terceros los que
insertan el cdigo malware. Su pre-
sencia se detecta automticamente,
e intentamos que estos enlaces no
salgan en los resultados". Una vez
resueltos los problemas, la pgina
vuelve a estar en Google.
La legislacin de cada pas tambin
marca lo que el gigante de Internet
ofrece o no a sus usuarios China
es el caso ms evidente. Pero
cmo conoce Google el lugar desde
dnde se realiza una bsqueda? Los
servidores no pueden saber quin
hace una consulta, pero s desde qu
equipo gracias a la direccin IP que le
identifica, as como la fecha y hora, el
tipo de navegador y el idioma. Estos
datos se guardan 18 meses por dos
razones: para evitar ataques de segu-
ridad y para mejorar la calidad de los
resultados. Analizando, siempre a tra-
vs de algoritmos, las bsquedas que
hacen los internautas el sistema es
capaz de interpretar lo que necesitan.
As, cuando en la Redaccin de PC&I
escribimos cine en el cuadro de bs-
queda, el primer resultado muestra las
pelculas que se proyectan en Madrid.
Es lo que se conoce como bsqueda
semntica. Hay equipos de calidad
que trabajan con sinnimos, estudian
las abreviaturas que se emplean en
un idioma, siglas, tildes Las suge-
rencias que realiza el sistema cuando
se escribe mal un trmino para la
bsqueda se basan en los fallos de los
usuarios, apunta Galler.
Quiz sea esta la razn por la que
en el futuro la bsqueda ser, en
sus propias palabras, universal. El
usuario ya no se conforma con una
lista de referencias donde puede estar
la respuesta que busca, sino que la
exige. Y en eso estn trabajando. La
bsqueda universal ofrecer todo lo
que guarda Google sobre un tema,
y no slo enlaces, tambin vdeos,
imgenes, noticias, libros "Se trata
de una nica lista de resultados
que provienen de diferentes ndi-
ces", resume Steelman. Y han de ser
capaces de drselo al internauta en,
al menos, los 0,3 segundos de media
que tardan ahora.
impacientes y no nos gusta esperar
cuando pedimos respuestas. Sin olvi-
dar que la competencia viene achu-
chando: Microsoft acaba de lanzar
su buscador Bing, que ha suscitado
muchos parabienes.
Webs que aparecen
y desaparecen
Cuando Sergey Brin y Larry Page
comenzaron su proyecto en 1998 el
ndice de Google tena 25 millones de
webs, una cantidad que ya entonces
supona slo una pequea parte de
la Red. En el ao 2000 alcanzaron la
cifra de 1.000 millones, y a estas altu-
ras parecen haber perdido la cuenta.
En el aumento del ndice tiene mucho
que ver el trabajo de Googlebot, que
realiza rastreos constantemente en
1998 los haca cada tres o cuatro
meses, una tarea inevitable teniendo
en cuenta que cada vez que lo hace
detecta que entre un 10% y un 20%
del contenido es nuevo.
Adems de aadir nueva informa-
cin, el rastreador actualiza la que ya
tiene guardada, pero con prioridades:
es evidente que cualquier peridi-
co online modifica sus contenidos
sin cesar, mientras que un candela-
rio sufre pocos cambios. Sera algo
extraordinario que el 1 de febrero
de 2033, cuando llegue, no caiga en
martes. Por esto se establecen visitas
programadas a determinados sitios.
De igual manera que aparece infor-
macin nueva, tambin desaparece, o
bien de Internet o bien del ndice de
Google. En el primer caso se detecta
en los rastreos; en el segundo los
Actua||dad Reportaje
La carrera por |os serv|c|os de b0squeda en |nlernel
76.19X
16.13X
3.37X
3.23X
search.msn.com
www.b|ng.com
www.ask.com
www.goog|e.com
search.yahoo.com
23
O
El ganador indiscutible en esta competicin es Google, y con una gran ventaja sobre el buscador que le va a la zaga: Yahoo! La irrupcin de Bing, de Microsoft, puede cambiar las posiciones
en esta carrera por hacerse con los primeros puestos del servicio ms usado por internautas de todo el mundo. Aunque mucho tendr que correr para quitarle el n1 al gigante de Internet.
1.05X
F
u
e
n
t
e
:

5
e
a
r
c
h

E
n
g
|
n
e

6
e
n
|
e
.


H
a
y
o

2
0
0
7

F
u
e
n
t
e
:

H
|
t
w
|
s
e

J
u
n
|
o

2
0
0
7

(
0
a
t
o
s

d
e

E
E
.
U
U

oog|e raslrea |a Ped conslanlemenle con programas |nforml|cos


para aclua||zar su nd|ce de pg|nas web. y cada vez que |o hace
encuenlra que enlre un 10X y un 20X de| conlen|do es nuevo
Las pg|nas web con un 10
t Google Search: www.goog|e.com
t Adobe: www.adobe.com
t World Wide Web Consortium: www.w3.org
t The W3C CSS Validation Service: j|gsaw.w3.org/css-va||dalor
t CNN news: www.cnn.com
t US Goverment: www.usa.gov
t Adobe Flash Player: gel.adobe.com/f|ashp|ayer
t Adobe Reader Download: gel.adobe.com/reader
t National Portal of India: |nd|a.gov.|n
La valoracin de PageRank oscila entre los 0 y los 10 puntos. Para saber cul es el de
una pgina concreta, basta con instalar la barra de bsqueda de Google en el nave-
gador y aqu un pequeo rectngulo verde muestra el valor. En realidad, este dato
est simplificado ya que el PR real est formado por un nmero de cifras bastante
ms numeroso. El pasado 27 de mayo Google dio a conocer los sitios web que
alcanzan un PR10, es decir, aquellos con ms importancia dentro de su sistema
de bsqueda. Una lista suele actualizarse cada tres meses.