Está en la página 1de 3

SEO: 07. ROBOTS.

TXT: EL PROTOCOLO DE EXCLUSIÓN DE ROBOTS


POSICIONAMIENTO
NATURAL
EN BUSCADORES
MÓDULO 1. ¿Qué es el protocolo de exclusión de robots y para qué sirve?
POSICIONAMIENTO
Y BUSCADORES El protocolo lo que intenta regular es el uso de las arañas. Recordaros que las
arañas son programas que van por Internet buscando información y llevándolo
Autoras: a una base datos.
Montserrat Peñarroya
Helena Casas Pues bien, a principios de los años noventa empezó a haber un problema en
Internet con esas arañas pues había un montón de arañas navegando por In-
ternet. Entonces se decidió que las arañas que eran legales, las que provenían
desde buscadores o que estaban buscando información, pero no para hacer
ningún mal a nadie, y que estaban pues simplemente navegando por Internet
recabando información, se decidió que deberían seguir el protocolo de exclu-
sión de robots.

Este protocolo implica que cuando una de estas arañas llega a nuestra página
Web se compromete a buscar instrucciones especialmente creadas para ellas
en una página que se llama robots.txt en nuestro sitio Web.

¿Qué hace una araña cuando llega a nuestro sitio Web?

Cualquier araña que llegue a nuestro sitio Web, lo primero que hace es buscar
si tenemos creada esta página: robots.txt

Si la encuentra, la lee, y si no la encuentra genera un error 404 en el servidor. En


ese caso no pasaría nada y seguiría indexando pues entiende que no hay nin-
guna prohibición y que deseamos que indexe.

¿Cómo funciona exactamente este protocolo?

Entraremos en la página: robotstxt.org

En esta página podemos ver todas las instrucciones si clicamos donde pone:
the robots

Ahí podemos ver todas las instrucciones que pueden darse a robots. Aquí en-
contrarás más información, también si entras en la Wikipedia y buscas protoco-
lo de exclusión de robots encontrarás esta página que está muy bien creada,
con muchos ejemplos de información que podemos dar a los robots. Veamos
algunos.

http://www.uvic.cat 1
SEO: 1. Primer ejemplo:
POSICIONAMIENTO
NATURAL User agent*disallow quiere decir que no hay nada que esté prohibido, que per-
EN BUSCADORES mite que se visite todo.
MÓDULO 1.
2. Segundo ejemplo:
POSICIONAMIENTO
Y BUSCADORES User agent*disallow/ quiere decir que prohíbe a todos los agentes robots leer el
contenido de nuestro sitio Web. En ese caso tendríamos contenido en el sitio
Web que no aparecería en ningún buscador porque hemos prohibido el paso a
las arañas.

Algunos ejemplos

1. Entramos en el sitio Web de nuestra Universidad, en la UVIC, y aquí escribi-


mos /robots.txt y esto nos muestra un fichero aquí con la información. Cuan-
do veas hashtags delante quiere decir que son comentarios, éstos sólo son
comentarios, luego pone useragent* que vuelve a decir all a todos los agen-
tes, crowl delay 10 que es la velocidad, aquello ves de 10 en diez, no vayas
rápido y luego le dice en directorios disallow todo el directorio de includes,
el de miscelánea, el de módulos, el de scripts, el de temas, etcétera y le va
diciendo todo lo que no pueden indexar.

2. Entramos en mi sitio Web montsepenarroya.com y tecleamos detrás del


puntocom, /robots.txt y aquí encontramos esta página, dónde pone user
agent*, de nuevo quiere decir a todos los user agent crowl delay 60, es a
esta velocidad indexad de 60 en 60, esto me lo crea automáticamente mi
WordPress. Las páginas Web que utilizan un gestor de contenidos estándar
tipo WordPress, Drupal, Joomla… normalmente estos gestores de conteni-
dos crean automáticamente esta página no hace falta, por tanto, preocu-
parse por cómo se crea, de todas maneras comprueba que en tu sitio Web
esté creada.

3. Entramos en Booking, por ejemplo, y tecleamos robots.txt veremos una gran


lista de sitemaps y luego más información. Fíjate que aquí se le incluye a los
robots, a las arañas, donde encontrarán nuestros sitemap. Esta, es otra for-
ma de tener una indexación rápida; ya vimos en el vídeo dedicado a cómo
indexarse rápidamente que debemos darnos de alta en Google webmasters
e indicarle a Google webmasters dónde están nuestros sitemap. Ésta es
otra forma de poder indicar a las arañas donde encontrarán nuestro sitemap
para que puedan indexar rápidamente todo el contenido de nuestro sitio
Web. Pero sigamos bajando, aquí tienen useragent psbot disallow todo o
sea no quieren que este agente robot vea nada, este de aquí de Turnitinbot,
tampoco quieren que vea nada el Npbot, tampoco quieren que vea nada. En
cambio tenemos aquí hay Yandex direct que si quieren que vean. Observa
cómo podemos poner el nombre de la araña o poner como veíamos antes el
asterisco. Asterisco quiere decir que la información es para todas las arañas
y cuando se pone un nombre de ‘la araña’ es para esa en concreto: tiene pro-
hibido entrar en las diferentes zonas del sitio Web que se muestran.

http://www.uvic.cat 2
SEO: 4. Tripadvisor. Fíjate en el comentario que sale al principio decía: Hi there, if you
POSICIONAMIENTO are sniffing around this file, and you are not a robot, we’re looking to meet
NATURAL curious folks as yourself. Nos dice: si estás por aquí y éstas curioseando
EN BUSCADORES alrededor de este documento, y no eres un robot, nos interesas, envía tu
MÓDULO 1. currículum al email tal…fíjate que es una oferta de trabajo o sea que cuando
POSICIONAMIENTO termines este curso aquí tienes la primera oferta de trabajo. Ellos lo que en-
Y BUSCADORES tienden es que ninguna, ninguna persona que no sea un experto en SEO va
a mirarse este fichero y por lo tanto si tú estás mirando este fichero es que
sabes de qué va el SEO, y por lo tanto les interesas y te piden que les
envíes tu currículo, tu currículo pues ya puedes hacerlo.

Nota: Lo que me gustaría ahora es que parases este vídeo un momento y te


dedicases a entrar a unos cuantos sitios Web tecleando tras su dirección, tras
su url/robots.txt y vayas viendo diferentes maneras de dar instrucciones a los
robots.

¿Cómo crear este documento?

Hay dos formas de crear este documento:

1. Sin tener que hacer nada nuestro gestor de contenidos nos lo va a crear. Si
tu Web está hecha con WordPress, Joomla, Drupal no te preocupes segura-
mente automáticamente lo ha creado y ya lo tienes colgado solo tienes que
entrar en tu Web.

Teclear la url/barra robots.txt y ver que te sale. Si no sale nada, si sale un


error 404 es que el documento no está creado. Si sale una página en blan-
co puede ser que eso sea robots.txt pero que esté en blanco, no pasaría
nada, quiere decir que no hay información para las arañas, pero no pasaría
nada.

2. Sí, no, nos lo hace automático nuestro gestor de contenidos, lo podemos


hacer nosotros mismos con cualquier editor de contenidos, serviría un blog
de notas, serviría un Word, cualquier editor serviría. Entonces, crearíamos
este documento, escribiríamos (es mejor copiarlo de alguna parte), el nom-
bre del robot que no queremos que nos vea o pondremos user agent all* y
qué parte no queremos que se vea.

Si queremos que se vea toda la Web, yo creo que es mejor dejarlo en blan-
co en todo caso, sí, escribir que al sitemap lo va a encontrar en tal sitio, para
que si alguna araña que no es Google, entra y no estamos indexados en su
buscador pues lo encuentra rápido y lo indexe, pero yo creo que es lo úni-
co que haría.

Más información:

La encontrarás en robotstxt.org y la encontrarás también en Wikipedia.

http://www.uvic.cat 3

También podría gustarte