Está en la página 1de 36

Clasificacin de pginas web: Google

.
Rafael Bru
Institut de Matemtica Multidisciplinar
Univ. Politcnica de Valncia
http://personales.upv.es/rbru/

11 i 18 de mar 2006

Aplicant matemtiques i gaudint-ne - p. 1/36

Ttulo

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Surfista aleatorio
Pagerank
The worlds largest matrix computation

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 2/36

Buscadores web

Ttulo
Buscadores web

Dos fases:

El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

1. Obtener la informacin pedida


2. Clasificarla

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio

Ao 1998

800.106 pginas web

Ao 2004

3000.106 pginas web

IMPORTANCIA DE PRESENTAR LA INFORMACIN

Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 3/36

El inicio de Google

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Sergey Brin y Larry Page (1995)


Estudiantes informticos en Stanford Univ.
Congreso de 1998 The PageRank citation ranking: Bringing
order to the web
IDEA: asignar a cada pgina web la probabilidad de ser
buscada por una persona.
Paseo aleatorio de un surfista de una pgina a otra.

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 4/36

Surfista aleatorio

Ttulo

Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank

Cmo se organiza ese paseo?


Se pasa de una pgina a otra que tenga conexin de forma
aleatoria.
Esto es parte de un proceso de Markov.
Ejemplo: tres pginas web: v1 , v2 , v3
v1 tiene conexin con v2 y v3
v2 tiene conexin con v2
v3 no tiene conexin
Matricialmente

0 1 1

0
1
0

0 0 0

PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 5/36

Surfista aleatorio: Modelo Brin y Page

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario

v1 tiene conexin con v2 y v3


v2 tiene conexin con v1 v3 y v4
v3 tiene conexin con v2 y v5
v4 tiene conexin con v3
v5 tiene conexin con v1 y v4
Misma probabilidad para todas las posibles conexiones.

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad

1/3

P= 0

0
1/2

1/2

1/2

1/3

1/3

1/2

1/2

1/2

0
0

Surfista aleatorio: modelo de


Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 6/36

Modelo de Markov

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Definicin 1 Un modelo de Markov es un sistema que


evoluciona aleatoriamente con el tiempo pasando por
diferentes estados.
Grafo formado por las pginas web y sus conexiones
G(WWW)={V,C} siendo
Conjunto de vrtices: V={vi : i es la i sima pgina web}
Conjunto de arcos: C={(i,j): vi unida con v j }

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 7/36

Modelo de Markov

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

(1)

Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

(0)

(0)

(0)

Inicialmente partimos de (0) = [1 , 2 , . . . , n ].


La probabilidad de que el proceso este en el estado j en la
siguiente etapa ser
(0)

(0)

(0)

j = 1 p1 j + 2 p2 j + + n pn j ,

Surfista aleatorio
Surfista aleatorio

El elemento pi j representa la probabilidad de pasar del


estado i al estado j.

j = 1, 2 . . . , n

Matricialmente

(1) = (0) P

P se conoce como matriz de transicin de estados.

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 8/36

Modelo de Markov

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio

Surfista aleatorio: Modelo


Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario

Vector estacionario

(k) = (k1) P

Existencia vector estacionario


Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

La componente j esima del vector fila (k) denota la


probabilidad de que el proceso est en el estado j, despus
de k etapas.
En general,

El vector (k) se conoce como el vector de distribucin o de


probabilidad en la etapa k.
Solucin del proceso Markov en funcin vector inicial

(k) = (0) Pk

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 9/36

Vector estacionario

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Definicin 2 Un vector de distribucin se dice que es


estacionario si satisface

= P

Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario

Existencia vector estacionario


Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

El vector tiene sus componentes no negativas.


stas indican la probabilidad de que el sistema se
encuentre en un estado i despus de trascurrir un largo
periodo de pasos o etapas.
Notar que encontrar el vector estacionario es equivalente a
encontrar el vector propio a la izquierda asociado al valor
propio 1.

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 10/36

Vector estacionario

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Existencia
Unicidad

Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 11/36

Existencia vector estacionario

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario

Teorema 1 Sea P una matriz estocstica. Entonces:


tiene como valor propio el uno (1).
la matriz P
Al valor propio 1 le corresponde un vector propio a la
izquierda no negativo.

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 12/36

Existencia del vector estacionario

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Teorema 2 Sea A una matriz cuadrada no negativa.


Entonces:
(A), el radio espectral de A, es un valor propio.
A tiene un vector propio no negativo correspondiente a (A).

AT tiene un vector propio no negativo correspondiente a


(A).

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 13/36

Unicidad del vector estacionario

Ttulo
Buscadores web
El inicio de Google

El teorem anterior no asegura la unicidad ya que la matriz


"
#
1 0
0 1

tiene dos vectores propios no negativos


"
#
"
#
1
0
y
0
1

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 14/36

Surfista aleatorio

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Volvamos a estudiar la matriz del modelo de Brin y Page

Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad

La matriz del primer ejemplo

0 1/2

P= 0 1
0 0

1/2

0
0

no es estocstica.
Ocurre cuando una pgina web no tiene conexiones a otras.
Se llaman DANGLING nodes (colgar, suspender)

Surfista aleatorio: modelo de


Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 15/36

Surfista aleatorio

Ttulo

Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio

Posible solucin: Suponer que desde esa pgina se puede


pasar a cualquier otra con misma probabilidad,
Es decir, reemplazar los ceros por 1/3,
Quedara

0 1/2 1/2

P = 0
1
0
1/3 1/3 1/3

que es una matriz estocstica.

Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 16/36

Surfista aleatorio

Ttulo

Buscadores web
El inicio de Google
Surfista aleatorio

Surfista aleatorio: Modelo


Brin y Page
Modelo de Markov

Modelo de Markov

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

Tiene un nico vector estacionario?


Veamos los valores propios de una matriz estocstica
Cmo (A) = (AT ), trabajamos con la traspuesta,
eT P = 1 eT ,

donde eT = (1, 1, . . . , 1)

En nuestro ejemplo
T ) = {1, 0.6076, .2743}
Valores propios (P
Vectores propios
u1 = (0.5774, 0.5774, 0.5774)
u2 = (0.6354, 0, 0.7722)
u3 (0.8767, 0, 0.4810)

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 17/36

Surfista aleatorio: reducibilidad

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad

La matriz estocstica P es semejante a la matriz

0
=
QT PQ
1/3
0

donde Q = [e1 , e3 , e2 ]

"
#
1/2 1/2
A B

1/3 1/3 =
O C
0
1

Definicin 3 Se dice que una matriz P es reducible si existe


una matriz de permutacin Q tal que QT PQ se escribe por
bloques como anteriormente.

Surfista aleatorio: modelo de


Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 18/36

Surfista aleatorio: irreducibilidad

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Definicin 4 Una matriz que no es reducible se dice


irreducible
Ejemplo: La matriz

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:

es irreducible.

0
1

1 0

0 1
0 0

Valores propios {1, 1/2 + i 3/2, 1/2 i 3/2}

irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 19/36

Surfista aleatorio: unicidad

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

Teorema 3 (Frobenius, 1912) Sea P 0 una matriz


irreducible. Entonces
tiene un valor propio positivo real, llamado raz Perron,
P
igual a su radio espectral.
A la raz Perron le corresponde un vector propio positivo
x > 0, vector Perron.
El radio espectral aumenta cuando cualquier elemento de la
matriz aumenta.
La raz Perron es simple.
Cualquier valor propio de mdulo igual a su radio espectral
es simple.
Cualquier vector propio positivo es un mltiplo de x.

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 20/36

Surfista aleatorio: modelo de Brin y Page

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad

Observacin: La matriz
P = P + (1 )eeT /n,
donde eT = (1, 1, . . . , 1), es:
(i) estocstica
(ii) irreducible
entonces el
(iii) Si {1, 1 , 2 , . . . , n } es el espectro de P,
espectro de P es {1, 1 , 2 , . . . , n }
Esta matriz P es la matriz de transicin de Brin y Page

Surfista aleatorio: modelo de


Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 21/36

Bibliografa

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

A. Berman, y R. J. Plemmons. Nonnegative matrices in the mathematical sciences, SIAM, Filadelfia, Pensilvania, Estados
Unidos. Reimpresin, 1994.
S. Brin y L. Page.The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems, 33:
107-117, 1998.
S. Brin y L. Page. The PageRank citation ranking: bringing order to the web, Technical report 1999-0120, Computer Science
deptartment, Stanford Ubiversity, 1999.
A. N. Langville y C. D. Meyer. Deeper inside PageRank. Internet Mathematics, Vol. 1(3):335-380. 2005.
C. B. Moler. The Worlds Largest Matrix Computation Googles PageRank is an eigenvector of a matrix of order 2.7 billion.
MATLAB News & Notes . 2002.
W. J. Stewart. Introduction to the Numerical Solution of Markov Chains. Princeton University Press, Princeton, Nueva Jersey,
Estados Unidos. 1994.
R. S. Varga. Matrix Iterative Analysis. Springer. Berln, Alemania. 2a edicin, 2000.

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 22/36

Clculo del vector PageRank

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Pagerank
The worlds largest matrix computation

Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 23/36

PageRank: tcnicas de clculo

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Valor de cada pgina web = componentes del vector


estacionario: PageRank.

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:

Problema de valor y vector propio: T = T P.


= 0T .
Problema de sistema lineal: T (I P)

NOTAS:
1. Recordar que la suma de las componentes de (0)T es 1 (probabilidades).
2. Entonces, la suma de las componentes de (k)T = (k1)T )P es 1.
3. Por tanto, en el clculo de hay que exigir que T e = 1.

irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 24/36

Mtodo de la potencia

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov

Como problema de valor y vector propio se reduce al vector


propio asociado al valor propio ms grande
Para ello, se usa el mtodo de la potencia.

Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Algoritmo. Mtodo iterativo de la potencia para la matriz


M. Entrada: vector inicial v(0) y matriz M. Salida: vector
propio vk .

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank

v(0)T := vector inicial ||v(0)T || = 1

For k = 1, 2 . . . hasta convergencia


w = Mv(k1)
v(k) = w/||w||

PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 25/36

Mtodo de la potencia

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Teorema 4 Sea M una matriz diagonalizable de tamao n n. Supongamos que sus


valores propios satisfacen
|1 | > |2 | |3 | |n |,
y estn asociados a los vectores propios {v1 , v2 , . . . , vn }. Entonces, la iteracin
w(k) = Mw(k1)

Modelo de Markov

k = 1, 2, . . .

Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:

satisface
k !
2

||w(k) ()v1 || = O
1

cuando k , donde w0 es un vector arbitrario tal que la componente respecto del vector
propio v1 , de la base, es diferente de cero.

irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 26/36

Mtodo de la potencia

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank

Observacin: EL mtodo anterior converge si el valor propio


es estrictamente dominante.
Nuestra matriz P es irreducible pero podra tener valores

propios 6= 1 pero | | = 1.
Recordemos la matriz del ejemplo de la definicin 4.

0 1 0

0 0 1
1 0 0
es irreducible. Los valores
propios son

{1 = 1, 2 = 1/2 + i 3/2, 3 = 1/2 i 3/2}.


Pero |2 | = |3 | = 1.

PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 27/36

Primitividad

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario

Definicin 5 Sea M O una matriz cuadrada irreducible. y sea k el


nmero de valores propios de mdulo (M). Si k = 1, entonces se
dice que M es primitiva. Si k > 1 se dice que M es cclica de ndice k.

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank

La matriz anterior es cclica de ndice 3.


M O es primitiva M m > O, m entero positivo.
Si M > O (positiva), entonces es primitiva.

Teorema 5 (Perron, 1907) Sea M > O una matriz positiva. Entonces:


EL radio espectral, raz Perron, domina estrictamente a todos los
dems valores propios en valor absoluto, es decir, (M) > | |,
siendo | | cualquier otro valor propio.

A la raz Perron le corresponde un vector propio positivo x > 0, el


vector Perron.

PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 28/36

Mtodo de la potencia: convergencia

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Recapitulamos
La matriz Google

Modelo de Markov

P = P + (1 )eeT /n

Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Por construccin es positiva ya que eeT es la matriz cuyos


elementos son todos iguales a uno. Luego es primitiva y por
tanto irreducible.

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

En consecuencia:

adems de tener nico vector estacionario,


el mtodo de potencia es convergente.

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 29/36

Mtodo de la potencia para la matriz Google

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Algoritmo. Mtodo iterativo de la potencia para la matriz P.

(0)T = eT /n

Notar que || (0) k1 = 1

For k = 1, 2 . . . hasta convergencia


T = (k1)T P

(k)T = T /|| T ||1


En realidad el paso principal del algoritmo se escribe,

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia

= (k1)T P = (k1)T P + (1 ) (k1) eeT /n


= (k1)T P + (1 )eT /n
= (k1)T P + ( (k1)T a + (1 ))eT /n.

Vector a: ai = 1 si la fila i de P es nula, a = 0 en otro caso.

Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 30/36

Mtodo de la potencia

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Modelo de Markov
Vector estacionario

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio

La matriz P tiene mas de 4000 millones de filas (pginas).


Implementacin basada con matrix-vector.
Las matrices llenas P y P no se forman nunca.
La matriz P es vaca, nnz(P) est entre 3 y 10.
en cada iteracin slo hay que almacenar un vector.
La convergencia se obtiene entre 50 y 100 iteraciones.

Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 31/36

Factor de Convergencia

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Tengamos en cuenta las trasparencias 21 y 26.

Modelo de Markov
Modelo de Markov
Vector estacionario

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa

Llamemos 2 al segundo valor propio de P.


El factor asinttico de convergencia depende del valor
propio 2 .
|2 | .
El radio o factor de convergencia del mtodo de la potencia
aplicado a la matriz Google es

k 0.

Clculo del vector PageRank


PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 32/36

Factor de Convergencia

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov

Sea (potencia de 10) el nivel de tolerancia. Es decir,


queremos que k .
Tomando logartmos

Modelo de Markov

log10
k<
log10

Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Por ejemplo: = 106 y = 0, 85,

Surfista aleatorio
Surfista aleatorio

k<

Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank

6
85
log10 0, 85

Es decir, hace falta 85 iteraciones para converger con


tolerancia = 106 .

PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 33/36

Factor de Convergencia

Ttulo
Buscadores web
El inicio de Google

Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Modelo de Markov
Modelo de Markov
Vector estacionario

Google puede marcar el radio de convergencia.


pequeo, entonces mayor factor de convergencia, pero
menos verdadera es la estructura de Internet.
Brin y Page usan = 0, 85.

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 34/36

Criterios de convergencia

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov

Modelo de Markov
Modelo de Markov
Vector estacionario

Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Residuo: k (k) (k1) k


A veces algunas componentes convergen mucho mas
pronto que otras. Se fijan ya esas.
En realidad lo que importa es el orden de las pginas no el
valor que se le asigna.
Cmo evaluar la diferencia entre dos rdenes?

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad
Surfista aleatorio: modelo de
Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 35/36

Algoritmo Google

Ttulo
Buscadores web
El inicio de Google
Surfista aleatorio
Surfista aleatorio: Modelo
Brin y Page
Modelo de Markov
Modelo de Markov
Modelo de Markov
Vector estacionario
Vector estacionario
Existencia vector estacionario
Existencia del vector
estacionario
Unicidad del vector
estacionario
Surfista aleatorio

Algoritmo. Mtodo iterativo de la potencia para la matriz P.


Entrada: vector inicial (0) , matriz P y tolerancia .
Salida: vector estacionario PageRank .

Surfista aleatorio
Surfista aleatorio
Surfista aleatorio:
reducibilidad
Surfista aleatorio:
irreducibilidad
Surfista aleatorio: unicidad

(0) = (1/n, 1/n, . . . , 1/n), || (0) || = 1


WHILE r
1. T = (k1) P
2. r = || T (k1) ||
3. (k) = /|| ||
END WHILE

Surfista aleatorio: modelo de


Brin y Page
Bibliografa
Clculo del vector PageRank
PageRank: tcnicas de
clculo
Mtodo de la potencia
Mtodo de la potencia
Mtodo de la potencia
Primitividad
Mtodo de la potencia:
11convergencia
i 18 de mar 2006
Mtodo de la potencia para la

Aplicant matemtiques i gaudint-ne - p. 36/36

También podría gustarte