Documentos de Académico
Documentos de Profesional
Documentos de Cultura
y otros metodos de b
usqueda web
Marzo, 2013
Las Matem
aticas de PageRank
1 / 31
Plan
Plan
B
usqueda de informaci
on
Las Matem
aticas de PageRank
2 / 31
Plan
Plan
B
usqueda de informaci
on
Motores de b
usqueda
Las Matem
aticas de PageRank
2 / 31
Plan
Plan
B
usqueda de informaci
on
Motores de b
usqueda
Analisis de enlaces
Las Matem
aticas de PageRank
2 / 31
Plan
Plan
B
usqueda de informaci
on
Motores de b
usqueda
Analisis de enlaces
Conclusiones
Las Matem
aticas de PageRank
2 / 31
Plan
Plan
B
usqueda de informaci
on
Motores de b
usqueda
Analisis de enlaces
Conclusiones
Referencias
Las Matem
aticas de PageRank
2 / 31
B
usqueda de informaci
on
B
usqueda de informacion: (pre)historia
B
usqueda de informacion (IR) = b
usqueda en colecci
on de documentos
de informacion particular (consulta)
A.C.:
colecciones peque
nas; etiquetas en rollos de papiro
A.C.:
Gutemberg, imprenta
Siglo XVIII:
1872:
1900:
1940-1950:
1989:
primeras bibliotecas p
ublicas; b
usqueda orientada
Ordenador
Las Matem
aticas de PageRank
3 / 31
Motores de b
usqueda
El metodo SMART
1960s; implementado en IBM 7094 & IBM 360
Basado en metodos matriciales (matrices termino-documento)
Comienza con diccionario de terminos (palabras o expresiones)
Se indexa cada documento
frecuencia fi,j = #veces termino i aparece en documento j
Matriz termino-documento
Las Matem
aticas de PageRank
4 / 31
Motores de b
usqueda
Vector de consulta:
q = [q1 , . . . , qm ]
1 si termino i presente en consulta
qi =
0
si no
q T Ai
kqkkAi k
Las Matem
aticas de PageRank
5 / 31
Motores de b
usqueda
B
usqueda de informacion: metodos antiguos
Ventajas
Encuentran conexiones ocultas
Pueden usarse para identificar clusters de documentos (text
mining)
Funcionan bien en colecciones peque
nas + homogeneas +
estaticas
Inconvenientes
Ranking dependiente de consulta (recalculado para cada consulta)
Solo usa contenido semantico (vctima facil de spam, estructura
de enlaces ignorada)
Dficil a
nadir/borrar documentos
Compresion optima no sencilla
Las Matem
aticas de PageRank
6 / 31
Motores de b
usqueda
B
usqueda indexada en web
Las Matem
aticas de PageRank
7 / 31
Motores de b
usqueda
B
usqueda indexada en web (pre 1998)
patrulla fronteriza:
Hezbollah:
calentamiento global:
Las Matem
aticas de PageRank
8 / 31
Motores de b
usqueda
Las Matem
aticas de PageRank
9 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
10 / 31
An
alisis de enlaces
Elementos de un motor de b
usqueda web
Las Matem
aticas de PageRank
11 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
12 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
13 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
14 / 31
An
alisis de enlaces
El algoritmo PageRank
r(P ) =
X r(Q)
|Q|
QBP
Las Matem
aticas de PageRank
15 / 31
An
alisis de enlaces
El algoritmo PageRank
r(P ) =
X r(Q)
|Q|
QBP
r2 (P ) =
X r1 (Q)
|Q|
QBP
..
.
Las Matem
aticas de PageRank
15 / 31
An
alisis de enlaces
Tras iteracion k,
kT
T
k+1
Las Matem
aticas de PageRank
16 / 31
An
alisis de enlaces
Tras iteracion k,
kT
T
k+1
Las Matem
aticas de PageRank
16 / 31
An
alisis de enlaces
Tras iteracion k,
kT
T
k+1
Las Matem
aticas de PageRank
16 / 31
An
alisis de enlaces
Tras iteracion k,
kT
T
k+1
Las Matem
aticas de PageRank
16 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
17 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
17 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
17 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
17 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
17 / 31
An
alisis de enlaces
eT
n
= [ n1 , . . . , n1 ]
Las Matem
aticas de PageRank
18 / 31
An
alisis de enlaces
T distribuci
on estacionaria
Las Matem
aticas de PageRank
19 / 31
An
alisis de enlaces
La matriz Google
Solucion a problemas: permitir salto aleatorio desde cualquier pagina
eeT
n
G es irreducible y aperiodica tiene distribuci
on estacionaria u
nica
G = S + (1 )
Las Matem
aticas de PageRank
20 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
21 / 31
An
alisis de enlaces
(k)
|j
j | 2k
Las Matem
aticas de PageRank
21 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
22 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
23 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
23 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
23 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
23 / 31
An
alisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
Las Matem
aticas de PageRank
24 / 31
An
alisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
1
..
Inicialmente hi = 1; h0 = .
1
Las Matem
aticas de PageRank
24 / 31
An
alisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
1
..
Inicialmente hi = 1; h0 = .
1
a1
P
Puntuacion inicial de autoridad ai = j:Pj Pi hi ; a1 = ... = LT h0
an
Las Matem
aticas de PageRank
24 / 31
An
alisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
1
..
Inicialmente hi = 1; h0 = .
1
a1
P
Puntuacion inicial de autoridad ai = j:Pj Pi hi ; a1 = ... = LT h0
an
1,
P i Pj
Li,j =
0,
P i 9 Pj
Las Matem
aticas de PageRank
24 / 31
An
alisis de enlaces
HITS
Se refina puntuacion hub: hi =
j:Pi Pj
aj ; h1 = La1
Las Matem
aticas de PageRank
25 / 31
An
alisis de enlaces
HITS
Se refina puntuacion hub: hi =
j:Pi Pj
aj ; h1 = La1
Las Matem
aticas de PageRank
25 / 31
An
alisis de enlaces
HITS
Se refina puntuacion hub: hi =
j:Pi Pj
aj ; h1 = La1
ak+1 = Aak
hk+1 = Hhk
Las Matem
aticas de PageRank
25 / 31
An
alisis de enlaces
HITS
Se refina puntuacion hub: hi =
j:Pi Pj
aj ; h1 = La1
ak+1 = Aak
hk+1 = Hhk
ak a; hk h; autovectores
Las Matem
aticas de PageRank
25 / 31
An
alisis de enlaces
HITS
Se refina puntuacion hub: hi =
j:Pi Pj
aj ; h1 = La1
ak+1 = Aak
hk+1 = Hhk
ak a; hk h; autovectores
a, h no bien definidos si A, H reducibles
Las Matem
aticas de PageRank
25 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
26 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
26 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
26 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
26 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
26 / 31
An
alisis de enlaces
Enga
nando a PageRank
PageRank asume buena fe en enlaces y paginas (dont be evil)
Las Matem
aticas de PageRank
27 / 31
An
alisis de enlaces
Enga
nando a PageRank
PageRank asume buena fe en enlaces y paginas (dont be evil)
Manipular PageRank puede producir beneficios (rendimiento
publicitario, divertirse un poco,. . . )
Las Matem
aticas de PageRank
27 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
28 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
28 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
29 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
29 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
29 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
29 / 31
An
alisis de enlaces
Las Matem
aticas de PageRank
29 / 31
Conclusiones
Las Matem
aticas de PageRank
30 / 31
Referencias
Libros:
Langville, A. N. y Meyer, C. D. (2006). Googles PageRank and
Beyond: The Science of Search Engine Rankings. Princeton Univ. Press.
Manning, C.D., Raghavan, P. y Sch
utze, H. (2008). Introduction to
Information Retrieval, Cambridge University Press.
Bonato, A. (2008). A Course on the Web Graph. A.M.S. - Graduate
Studies in Mathematics.
Algorithms and Models for the Web-Graph. Lecture Notes in Computer
Science. Springer. (9o workshop en 2012)
Artculo:
Langville, A. N. y Meyer, C. D. (2003). Deeper inside pagerank.
Internet Mathematics, 1, 335380.
Eustasio del Barrio
Las Matem
aticas de PageRank
31 / 31