Está en la página 1de 4

El estndar de exclusin de robots, tambin conocido como el protocolo

de la exclusin de robots o protocolo de robots.txt es un mtodo para


evitar que ciertos bots que analizan los sitios Web u otros robots que
investigan todo o una parte del acceso de un sitio Web, pblico o privado,
agreguen informacin innecesaria a los resultados de bsqueda. Los robots
son de uso frecuente por los motores de bsqueda para categorizar archivos
de los sitios Webs, o por los webmasters para corregir o filtrar el cdigo
fuente.

El archivo robots.txt
Un archivo robots.txt en un sitio web funcionar como una peticin que
especifica que determinados robots no hagan caso
a archivos o directorios especficos en su bsqueda. Esto puede realizarse,
por ejemplo, para dejar fuera de una preferencia los resultados de una
bsqueda avanzada, o de la creencia que el contenido de los directorios
seleccionados puede ser engaoso o inaplicable a la clasificacin del sitio en
su totalidad.

Desventajas
Este protocolo es consultivo. Confa en la cooperacin de los robots del sitio
Web, de modo que marca una o ms reas de un sitio fuera de los lmites de
bsqueda con el uso de un archivo robots.txt, aunque ste no
necesariamente garantice aislamiento completo. Algunos administradores de
sitios Web utilizan el archivo robots.txt para hacer algunas secciones
privadas, invisibles al resto del mundo, pero dado que los archivos estn
disponibles en forma pblica, su contenido podra ser visto de todas maneras
por cualquier persona con un navegador Web y conocimientos
medianamente avanzados. En algunos casos el incluir un directorio en este
archivo le anuncia su presencia a posibles hackers, as ellos pueden
determinar fcilmente algunos softwares usados en el sitio mediante buscar
"huellas tpicas" en el robots.txt.

Cuerpo o estndar RFC oficial para el


protocolo de robots.txt
Fue creado por consenso en junio de 1994 por los miembros de robots que

enviaban la lista (robots-request@nexor.co.uk). La informacin que especifca


las piezas que no deben ser alcanzadas se especifica en un archivo
llamado robots.txt en el directorio de nivel superior del sitio Web. Los
patrones de robots.txt son emparejados por comparaciones simples de
subsecuencia, as que se debe tomar cuidado para cerciorarse de que los
directorios tengan concordancia con el modelo, y que tengan aadido el
carcter / al final, si no todos los archivos con nombres comenzando con
esa subsecuencia emparejarn, ms bien que apenas sos en el directorio
previsto.

Ejemplos
Este ejemplo permite que todos los robots visiten todos los archivos que se
encuentran almacenados en el cdigo raz de la pgina web porque el
comodn * especifica todos los robots:
Useragent:*
Disallow:
Cabe destacar que el comodn (*) significa "ALL" (en espaol todos)
Este ejemplo les niega el acceso a todos los bots (implementando el
comodn [/]), en todos los archivos almacenados en el directorio raz:
Useragent:*
Disallow:/
Cabe destacar que el comodn (/), le niega el acceso la entrada al bot.
Este ejemplo permite el acceso a un solo bot:
Useragent:Unsolobot#DondeUnsoloboteselnombredelbotal
quelequeremospermitirelacceso
Disallow:
Useragent:*
Disallow:/
El siguiente es un ejemplo que dice que todos los subdirectorios que
incluyan el comodn (/) deben ser bloqueados, nicamente stos,
exceptuando a todos los dems archivos y directorios que no contienen
un comodn, para su revisin:
Useragent:*
Disallow:/cgibin/
Disallow:/images/
Disallow:/tmp/
Disallow:/private/
Ejemplo que dice a un robot especfico no entrar en un directorio

Useragent:BadBot#sustituir'BadBot'conelnombredelbot
Disallow:/private/
Ejemplo que dice a todos los bots no entrar en un archivo en concreto
Useragent:*
Disallow:/directory/file.html
El resto de archivos del directorio seguirn estando disponibles
Ejemplo usando comentarios
#Loscomentariosaparecentraselsmbolo"#"alcomienzodeuna
lneaoalfinaldeundirectorio
Useragent:*#todoslosbots
Disallow:/#impedirsuentrada

robots.txt de una pgina ficticia


Useragent:*
Disallow:/portal/
Disallow:/portal/
Disallow:/wp*
Disallow:/?FICTICIA=LADRONES=MONOPOLIO
Disallow:/?Monopolio
Disallow:/?Ficticia
Disallow:/?
Disallow:/?*
Disallow:/author/
Disallow:/category/
Disallow:/portal/
Disallow:/search/
Disallow:/home2/
Disallow:/sg0notocar/
Disallow:/sg1notocar/
Disallow:/sg2notocar/
Disallow:/sg3notocar/
Disallow:/sg4notocar/
Disallow:/sg5notocar/
Disallow:/sg5notocar/
Disallow:/sg4notocar/
Disallow:/sg3notocar/
Disallow:/sg2notocar/
Disallow:/sg1notocar/
Disallow:/sg*

Disallow:/search/searches.jsp?texto=<ahref="">ladrones</a>
Disallow:/search/searches.jsp?texto=%3Cscript
%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);
%3C/script%3E
Disallow:/search/searches.jsp?texto=%3Ch1%3ESomos%20unos
%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Disallow:/search/searches.jsp?texto=%3Ca%20href=
%22%22%3Eladrones%3C/a%3E
Disallow:/?utm_source=example.com/blog

Observaciones
Los robots de los buscadores son sensibles a las maysculas y minsculas,
es importante agregarlos tal y como aparecen listados en el servidor, para
una buena programacin y entendimiento (robot-servidor).

También podría gustarte