Está en la página 1de 20

Google Hacking

Mara Isabel Rojo Rivas


Madrid, Enero de 2014
1

CONTENIDOS

Un poco de historia
Cmo indexan los buscadores
User-Agent de buscadores
Los archivos robots.txt
Qu es Google Hacking?
La cach
Google Hacking + Robots.txt
Grode
Ms sobre Google Hacking
Otros sitios de inters

UN POCO DE HISTORIA

1995 Altavista: Crearon un software llamado


spider o crawler. Primeros en implementar multi
idioma gracias al traductor Babel Fish.
1995 Yahoo!: Es un directorio Web no motor de
bsquedas.
1997 Google: Introduce el concepto PageRank
convirtiendole en lder del sector.
2000 Yahoo y Google llegan aun acuerdo por el que
el primero adopta el motor del bsquedas de Google.
2009 Bing: Microsoft entra en el mercado de
buscadores con el buscador cuya finalidad es ser
fcil e intuitivo.

CMO INDEXAN LOS BUSCADORES


Inspeccionan la red a travs de sus
araas, web crawlers, robots o
rastreadores.

USER AGENT DE BUSCADORES


Buscador Robot

User-Agent

Google

GoogleBot

Mozilla/5.0 (compatible; Googlebot/2.1;


+http://www.google.com/bot.html)

Bing

BingBot

Mozilla/5.0 (compatible; bingbot/2.0;


+http://www.bing.com/bot.html)

Yahoo

Slurp

Mozilla/5.0 (compatible; Yahoo! Slurp;


+http://help.yahoo.com/help/us/ysearch/sl
urp)

http://www.user-agents.org/
http://whatsmyuseragent.com/
5

PROBLEMTICA
Cmo parar a las araas?
Cmo indicamos que
archivos indexar y cuales no?
Seguro que no supone
un problema que visite y
descargue toda tu web?

LOS ARCHIVOS ROBOTS.TXT

Siguen un estndar.
Indican que directorios o
archivos no pueden las araas
visitar.
Listan donde esta el Sitemap
Archivos muy sencillos

User-agent: *

LOS ARCHIVOS ROBOTS.TXT

Disallow:

Sitemap: http://www.pepeweb.es/sitemap.xml
Todo accesible para los crawlers
User-agent: *
Disallow: /

Sitemap: http://www.pepeweb.es/sitemap.xml
Todo prohibido para los crawlers

LOS ARCHIVOS ROBOTS.TXT

User-agent: *
Disallow:

Disallow: /_*/

Disallow: /ES/FamiliaReal/Urdangarin/
Disallow: /CA/FamiliaReal/Urdangarin/

Disallow: /EU/FamiliaReal/Urdangarin/
Disallow: /GL/FamiliaReal/Urdangarin/
Disallow: /VA/FamiliaReal/Urdangarin/

Disallow: /EN/FamiliaReal/Urdangarin/

Sitemap: http://www.casareal.es/sitemap.xml

http://www.casareal.es/robots.txt
9

User-agent: *

LOS ARCHIVOS ROBOTS.TXT

Disallow:/?SGAE=LADRONES=MONOPOLIO
Disallow:/?ladrones
Disallow:/?mafiosos

Disallow:/sg0-no-tocar/
Disallow:/sg1-no-tocar/
Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a>
Disallow:/search/search-es.jsp?texto=%3Cscript

%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);
%3C/script%3E

Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos
%20ladrones%20salgamos%20primeros%20en%20google%20o%20no
%3C/h1%3E

Disallow:/search/search-es.jsp?texto=%3Ca%20href=
%22%22%3Eladrones%3C/a%3E
http://www.sgae.es/robots.txt

10

LOS ARCHIVOS ROBOTS.TXT


Otros ejemplos:
http://www.fuerteventura2000.com/robots.txt
http://www.senado.es/robots.txt
http://google.es/robots.txt

inurl:robots.txt ext:txt

11

QU ES GOOGLE HACKING?

Realizar bsquedas que permiten detectar fugas de


informacin y vulnerabilidades en los sistemas informticos.

PCs y porttiles

Fuente: http://www.netmarketshare.com/

Smartphones y tablets
12

GOOGLE HACKING

Operadores bsicos
"Prueba" bsqueda textual.
"-Prueba" exclusin.
"+Prueba " inclusin.
OR operador booleano or.
"Prueba *" comodn

13

GOOGLE HACKING

Comandos
Site: buscamos todo referente a un dominio.
Intitle: Buscamos un trmino en los ttulos de las webs
Intext: Buscamos un trmino en el cuerpo del
documento.
Inurl: Busca un trmino en la cadena URL
ext: Bsqueda segn el tipo de documento

https://support.google.com/websearch/answer/136861?p=adv_operators&hl=e
14

GOOGLE HACKING
Ejemplos de uso
inurl:robots.txt ext:txt
intitle:"Index of" config.php
filetype:xls username password email
intitle:"Index of" pwd.db
intitle:"Index of..etc" passwd
intitle:"Welcome to Windows 2000 Internet Services

http://www.exploit-db.com/google-dorks/

15

LA CACH
Copia de las webs que GoogleBot va visitando y que se
almacena en los servidores de Google, mantiene la copia
guardada hasta que GoogleBot vuelve a visitar dicha
web.
No almacena imgenes, solo el texto.

cache:miwebvictima.es

16

GOOGLE HACKING + ROBOTS.TXT

Ejemplos de uso:

http://www.elladodelmal.com/2013/12/lo-que-se-comparte-por-dropbox-al.html

http://www.elladodelmal.com/2013/10/79400-urls-de-gmail-indexadas-en-google.html

http://www.elladodelmal.com/2013/09/facebook-tiene-problemas-con-la.html

http://
www.elladodelmal.com/2013/09/problemas-de-privacidad-de-whatsapp-con.html
http://www.elladodelmal.com/2013/11/busqueda-de-duenos-de-numeros-de.html
http://www.elladodelmal.com/2013/11/hacking-con-buscadores-en-los.html Charla del
autor de Hacking con buscadores.

17

GRODE.ES

18

MS SOBRE GOOGLE HACKING


http://
0xword.com/es/libros/20-libro-hacking-buscadores-google
-bing-sodan-robtex.html
Google Hacking for Penetration Testers vol.2

19

OTROS SITIOS DE INTERS

http://www.elladodelmal.com/

http://Grode.es

http://ensaladadebits.blogspot.com.es/

http://www.robotstxt.org/

20