Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El archivo robots.txt
Un archivo robots.txt en un sitio web funcionar como una peticin que
especifica que determinados robots no hagan caso
a archivos o directorios especficos en su bsqueda. Esto puede realizarse,
por ejemplo, para dejar fuera de una preferencia los resultados de una
bsqueda avanzada, o de la creencia que el contenido de los directorios
seleccionados puede ser engaoso o inaplicable a la clasificacin del sitio en
su totalidad.
Desventajas
Este protocolo es consultivo. Confa en la cooperacin de los robots del sitio
Web, de modo que marca una o ms reas de un sitio fuera de los lmites de
bsqueda con el uso de un archivo robots.txt, aunque ste no
necesariamente garantice aislamiento completo. Algunos administradores de
sitios Web utilizan el archivo robots.txt para hacer algunas secciones
privadas, invisibles al resto del mundo, pero dado que los archivos estn
disponibles en forma pblica, su contenido podra ser visto de todas maneras
por cualquier persona con un navegador Web y conocimientos
medianamente avanzados. En algunos casos el incluir un directorio en este
archivo le anuncia su presencia a posibles hackers, as ellos pueden
determinar fcilmente algunos softwares usados en el sitio mediante buscar
"huellas tpicas" en el robots.txt.
Ejemplos
Este ejemplo permite que todos los robots visiten todos los archivos que se
encuentran almacenados en el cdigo raz de la pgina web porque el
comodn * especifica todos los robots:
Useragent:*
Disallow:
Cabe destacar que el comodn (*) significa "ALL" (en espaol todos)
Este ejemplo les niega el acceso a todos los bots (implementando el
comodn [/]), en todos los archivos almacenados en el directorio raz:
Useragent:*
Disallow:/
Cabe destacar que el comodn (/), le niega el acceso la entrada al bot.
Este ejemplo permite el acceso a un solo bot:
Useragent:Unsolobot#DondeUnsoloboteselnombredelbotal
quelequeremospermitirelacceso
Disallow:
Useragent:*
Disallow:/
El siguiente es un ejemplo que dice que todos los subdirectorios que
incluyan el comodn (/) deben ser bloqueados, nicamente stos,
exceptuando a todos los dems archivos y directorios que no contienen
un comodn, para su revisin:
Useragent:*
Disallow:/cgibin/
Disallow:/images/
Disallow:/tmp/
Disallow:/private/
Ejemplo que dice a un robot especfico no entrar en un directorio
Useragent:BadBot#sustituir'BadBot'conelnombredelbot
Disallow:/private/
Ejemplo que dice a todos los bots no entrar en un archivo en concreto
Useragent:*
Disallow:/directory/file.html
El resto de archivos del directorio seguirn estando disponibles
Ejemplo usando comentarios
#Loscomentariosaparecentraselsmbolo"#"alcomienzodeuna
lneaoalfinaldeundirectorio
Useragent:*#todoslosbots
Disallow:/#impedirsuentrada
Disallow:/search/searches.jsp?texto=<ahref="">ladrones</a>
Disallow:/search/searches.jsp?texto=%3Cscript
%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);
%3C/script%3E
Disallow:/search/searches.jsp?texto=%3Ch1%3ESomos%20unos
%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Disallow:/search/searches.jsp?texto=%3Ca%20href=
%22%22%3Eladrones%3C/a%3E
Disallow:/?utm_source=example.com/blog
Observaciones
Los robots de los buscadores son sensibles a las maysculas y minsculas,
es importante agregarlos tal y como aparecen listados en el servidor, para
una buena programacin y entendimiento (robot-servidor).