Está en la página 1de 1

Análisis de códigos de error (OWASP-IG-006)

Durante una prueba de intrusion, las aplicaciones web pueden revelar informacion no dirigida a ser vista por
el usuario final.
Datos como pueden ser los codigos de error, pueden revelar informacion sobre las tecnologias y productos en
uso por la
aplicacion. En muchos casos, los codigos pueden ser mostrados sin necesidad de conocimientos
especializados o
herramientas, debido a un mal diseno y programacion de la gestion de excepciones.
Claramente, concentrarse tan solo en la aplicacion web no sera un test exhaustivo. No puede ser tan
completo como la
informacion recopilada mediante un analisis mas amplio de la infraestructura.
4.2.1 SPIDERS, ROBOTS, Y CRAWLERS (OWASP-IG-001)
BREVE RESUMEN
Esta seccion describe como realizar pruebas sobre el fichero robots.txt
DESCRIPCION
Los crawlers/robots/spiders web inspeccionan un sitio web y seguidamente siguen los enlaces
recursivamente para obtener
su contenido web. Su comportamiento aceptado se encuentra especificado por el Protocolo de Exclusion de
Robots del
fichero robots.txt alojado en el directorio raiz del sitio web [1].
Como ejemplo, a continuacion se muestra el fichero robots.txt que fue obtenido el dia 24 de Agosto de 2008
de
http://www.google.com/robots.txt :
User-agent: *
Allow: /searchhistory/
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /search
Disallow: /groups
Disallow: /images
...
La directiva User-Agent hace referencia al crawler/robot/spider web. Por ejemplo, con User-Agent: Googlebot
se hara
referencia al crawler GoogleBot, mientras que utilizando User-Agent: * como en el ejemplo anterior, se
aplicaran las reglas
a todos los spiders/robots/crawlers web [2]:
User-agent: *
La directiva Disallow (N. del T: No permitida) especifica que recursos no deberan ser inspeccionados por los
spiders/robots/crawlers. En el ejemplo anterior, se prohiben los siguientes directorios:
...
Disallow: /search
Disallow: /groups
Disallow: /images
...
Los spiders/robots/crawlers web pueden ignorar intencionadamente las directivas Disallow que se
especifiquen en un
fichero robots.txt [3]. De todas formas, el fichero robots.txt no debe tomarse como un mecanismo que
impone
restricciones en como el contenido web deba ser accedido, almacenado o re-publicado por terceras partes.

También podría gustarte