Documentos de Académico
Documentos de Profesional
Documentos de Cultura
¿Cómo Funciona La Indexación de Los Buscadores PDF
¿Cómo Funciona La Indexación de Los Buscadores PDF
¿Cómo funciona esto de leer la página Web o qué quiere decir esto
de indexar una página Web?
Hace unos 20 años los buscadores eran bases de datos creadas por humanos, de
hecho eran directorios en los que tú tenías que entrar y darte de alta, dabas de alta tu
url (la dirección de tu sitio Web).
Dabas de alta los Keywords por los que querías que te encontrasen: las palabras
clave, el título de tu sitio Web y una breve descripción.
Cuando alguien entraba en uno de estos directorios, hacia una búsqueda y en función
de la palabra clave que buscase se mostraban unos resultados u otros, según si
encontraba esa palabra clave en uno de los campos, la url, Keyword, title o
description.
Pero todo esto cambió en el año 98 cuando nació Alta Vista. Alta Vista fue el primer
buscador que utilizó una tecnología completamente diferente. Empezó a utilizar la
tecnología de indexación automática de páginas.
Lo primero que hicieron los técnicos de Alta Vista fue crear un agente robot o una
araña, la llamamos araña porque en inglés lo llaman spider, porque Web quiere decir
tela de araña, entonces los programas que corren solos por la Web los llaman spiders
y cuando lo traducimos al castellano lo llamamos araña. En realidad el nombre técnico
es agente robot o robot agent.
http://www.uvic.cat
1
Un pequeño programa que corre sólo por Internet y va leyendo todo lo que encuentra.
Cuando entra en un sitio Web lee el contenido y lo envía a la base de datos, vuelve
aquí sigue leyendo y encuentra un enlace, pasa a través del enlace y sigue leyendo,
vuelve a leer el contenido, base de datos, enlace, pasa, entra, sigue leyendo y lo lleva
a la base de datos; de manera que desde el año 98 no hace falta ir a los buscadores y
darse de alta, sino que ellos te encuentran, en principio.
El problema es que pueden tardar un tiempo en encontrarte por eso existe la
indexación express, cómo puedes estar indexado en 48 horas.
Pero sin hacer nada los buscadores deberían, gracias a sus agentes robos, encontrar
nuestro contenido y llevarlo a su base de datos.
Lo que vamos a ver ahora es si estamos en esa base de datos y cuántas páginas de
nuestro Web, de nuestra Web, han sido ya indexadas.
1. Pues porque por desgracia las arañas no pueden ver según qué tipo de
programación; no pueden ver por ejemplo el JavaScript, si nuestro sitio Web lo
ha programado una empresa o un programador acostumbrado a programar
programas de escritorio es posible que haya utilizado JavaScript para hacer
los enlaces. Si este es el caso, las arañas no los verán, entonces entrarán en
nuestro sitio Web, leerán la página de inicio pero no van a ver ninguno de los
enlaces que llevan hacia el interior. Así que hay que evitar JavaScript al menos
de la parte de enlaces.
2. Tampoco ven las pop up porque para hacer una pop up, una ventanita que se
abre sin el navegador de arriba, hay que hacerlo en JavaScript, entonces
muchas veces programamos sitios Web en los que vemos todas un listado de
productos, por ejemplo, y que cuando clicas un producto, se abre una ventanita
con la foto del producto y la descripción del producto pues eso, no va a ser
visto por Google y por lo tanto la descripción de nuestros productos no se va a
encontrar en este sitio Web.
3. El Flash, por suerte ya casi nadie programa sitios Web en Flash, no se indexa
bien en los buscadores. Google es capaz de leer la página de inicio y algo de
contenido, pero no va a ver todo el árbol de contenidos con lo cual todo el
directorio o sea un catálogo de productos o información sobre quiénes somos,
qué hacemos etcétera, eso no lo va a ver; hay que evitar los sitios Web en
flash. En la actualidad se utiliza html5 y no hay ningún problema de indexación.
4. Algunos botones no funcionan, sobre todo cuando tenemos páginas Web con
mucho contenido y tenemos botón en un listado, botón de página 1, página 2
página 3, “ver más”; ese “ver más” algunas veces no se indexa ¿por qué?
Porque está escrito en JavaScript de nuevo o sea que vigilad con JavaScript.
5. Detrás de un login y password tampoco podemos hacer pasar a una araña,
porque el sitio Web le pregunta el login y ella no sabe qué poner y se va. O sea
http://www.uvic.cat
2
que muchas veces la gente programa extranets, o sea como una intranet
externa, pero sin que sea vea el resto, sin que se vean los productos. Entonces
las arañas tampoco van a ver esos productos y por lo tanto esos productos no
van a estar indexados en Google, por eso es importante que vigilemos si algo
se indexa o no.
site:uvic.cat
Nota: Es muy importante que no incluyamos espacios entre los dos puntos y el
nombre de la universidad y tampoco las www.
Clicamos y nos dice que tenemos 255.000 resultados aproximadamente y nos sale un
anuncio de Google webmasters, si sale este anuncio es que lo hemos hecho bien pues
Google cree que eres un webmaster y piensa: “vamos a ver si se registra en lo que se
llama Google search console”, que es como se llamaba antes Google webmasters.
Estas son las páginas de la Universidad de Vic que Google tiene indexadas, y si quiero
ver la fecha de la última vez que una araña la vio:
1. Despliego el “triangulito”.
2. Clico en caché y aquí me muestra la fecha del último día en el que entró la
araña.
Mi sitio Web.
http://www.uvic.cat
3
Escribo site:montsepenarroya.com (sin las www, sin espacio) y me sale aquí los
resultados, dice: 2.180 páginas. Son muchas menos que la universidad pero claro,
estás se han creado a mano o sea que cuesta crear tantas páginas pues son muchos
años de ir creando contenidos.
SoloStocks
SoloStocks es una de las páginas Web que yo creé en el año 98, un marketplace entre
empresas, el mayor de España, y es un sitio Web muy grande. Fíjate que tiene
674.000 resultados en Google. Quiere decir que 'la araña' de Google ha navegado por
674.000 páginas de este sitio Web. Eso quiere decir, también, que cuando yo busque
“oferta de mesas de oficina” seguramente encontraría aquí esa oferta.
Para estar segura de si algo está indexado o no, lo que debería hacer es entrar, por
ejemplo, en una de las fichas entro en SoloStocks, clicaria por ejemplo en estas sillas,
copiaría la url Control+C, vuelvo a Google y miro si existe en Google está url.
Sí existe, la encontraría aquí y quiere decir que está indexada, sí quiero hacerlo más
sencillo puedo decirle a Google que lo busque dentro del s ite.
La primera para que tengas claro que todo lo que pasa en Facebook acaba indexado
en Google, excepto si el usuario tiene un nivel de seguridad muy elevado, pero sino
acabará indexado.
Esto puede sernos muy útil para gestionar lo que es la reputación de alguien en
Internet, pero también a nivel de SEO es importante porque vamos a ver cuando
tratemos el algoritmo que una de las cosas que Google tiene en cuenta una de las
variables es en cuantas páginas de nuestro sitio Web sale una frase clave así que
deberemos comprobar que las frases por las que deseamos salir en primeras
http://www.uvic.cat
4
posiciones las tengamos en el máximo número de páginas de nuestro sitio Web, pero
ya lo veremos un poco más adelante en los vídeos dedicados al algoritmo.
Pruébalo con sitios pequeños y con sitios grandes, sobre todo no incluyas las www, ni
pongas un espacio. Si incluyeses las www entonces estarías discriminando los
subdominios y te dejarías páginas y si incluyes un espacio directamente Google no
entiende lo que le estás preguntando y te va a dar resultados de páginas en las que
sale la palabra site y en las que sale el nombre de tu sitio Web, así que no serviría.
http://www.uvic.cat
5