Está en la página 1de 6

Walter Cun Bustamante

~1~

Secreto de Google y el Algebra lineal


Creado en 1998 por Sergei Brin y Lawrence Page en la Universidad de Stanford. El nombre es
una variacin sobre el termino googol, 10100. Cuestiones importantes a la hora de disear un
buscador en la red:
1. Computacionales: como almacenar la informacin; cmo actualizarla; cmo
manejar/responder a peticiones; cmo buscar en las bases de datos. Los nmeros de 1997:
100 millones de pginas web. AltaVista, 20 millones de consultas diarias, segn la pgina de
Google, hoy atiende a 200 millones de consultas diarias e indexa varios miles de millones de
pginas web.
2. Tenemos los resultados de una bsqueda: cmo los mostramos, en qu orden?
Necesitamos un criterio de ordenacin, una asignacin de importancias a cada sitio de la red:
sitios P1,..., Pn importancias x1,..., xn Google utiliza el llamado sistema PageRank. Un
objetivo: basta leer los 10 primeros resultados para tener la respuesta.

EL MODELO DE GOOGLE
Primer paso: descripcin de la informacin, con un grafo dirigido G. Cada sitio de la red es
un vrtice, y hay una arista (dirigida) entre Pi y Pj si desde la pgina Pi hay un enlace a la
pgina Pj.

Primer intento: xj es proporcional al nmero de pginas que enlazan con Pj. Problema: si
una pgina se cita, digamos, una sola vez, pero desde www.microsoft.com o desde
www.amazon.com... Queremos combinar: pginas muy citadas; poco citadas, pero desde
sitios importantes.
Segundo intento: xj es proporcional a la suma de las importancias de las pginas que
enlazan con Pj. Por ejemplo, la pgina P1 es citada desde las pginas P2, P25 y P256,
mientras que P2 solo se cita desde P1 y P256, etc. Nuestra asignacin x1,..., xn debe cumplir
que x1 = K (x2 + x25 + x256), x2 = K (x1 + x256).

Walter Cun Bustamante

~2~

Como mgicamente, hemos transformado el problema en uno de auto valores y auto


vectores: Mx = x. Buscamos x que sea auto vector de M. Pero necesitamos que sus
entradas sean no negativas!, lo que escribiremos como x 0. Adems, sera conveniente que
este auto vector de entradas no negativas fuera nico.

EL SURFISTA ALEATORIO
Los estados son los vrtices del grafo G. La matriz M es la matriz de transicin del sistema:
cada entrada mij es la probabilidad de pasar del estado (vrtice) Pj al estado (vrtice) Pi. Un
surfista en la red esta, en cierto instante de tiempo, en la pgina Pk. En el siguiente instante
de tiempo, estar a en una pgina de entre las posibles (aquellas a las que enva Pk). La
eleccin de una u otra sigue una distribucin de probabilidad uniforme (esto es, probabilidad
1/Nk para cada una de las admisibles).

Recurdese que los mi, k son, o bien 0, o bien 1/Nk

Podemos reescribir la matriz M de inters. Llamamos Nj al nmero de enlaces desde la pgina


Pj (la suma de las entradas de cada columna de M).

Obtenemos as una matriz estocstica (o de Markov). Esto da lugar a una formulacin (y una
interpretacin) alternativa muy rica: una cadena de Markov.

Walter Cun Bustamante

~3~

La clasificacin para las eliminatorias por el ttulo


Ha acabado la temporada regular en la NBA. Que 16 equipos pasan a disputar las
eliminatorias? Los equipos estn divididos en dos conferencias, cada una de las cuales est
formada por dos divisiones: Este: Atlntico; Central. Oeste: Medio Oeste; Pacifico.
Todos los equipos juegan el mismo nmero de partidos, pero no disputan el mismo nmero
contra cada equipo. Por ejemplo, ms con los de su propia conferencia. Si un equipo est en
una conferencia muy dbil, y acumula muchas victorias. . .
Hay n equipos, E1,..., En. Formamos una matriz A en el que registramos las victorias
obtenidas por cada equipo. Sus entradas son

Asignamos a Ei una importancia xi proporcional a

Lo que nos conduce, de nuevo, a

Ejemplo: seis equipos, E1,..., E6, divididos en dos conferencias, que juegan 21 partidos en
total (6 contra los de su propia conferencia, 3 contra los de la otra).
La informacin sobre las victorias conseguidas est en la siguiente tabla:

Parece que la ordenacin adecuada es E3 E6 E5 E2 E4 E1. Pero observemos que,


por ejemplo, E3 ha acumulado muchas victorias contra E1, que es el peor equipo. Recurrimos
a MAPLE: la matriz tiene seis autos valores distintos, dos complejos (conjugados) y cuatro
reales. Uno de estos, = 0.475, es el mayor (en modulo). Y el auto vector asociado, x =
(0.509, 0.746, 0.928, 0.690, 0.840, 1), es el nico cuyas entradas son todas nmeros reales
y no negativos. Ya tenemos la respuesta que buscbamos: el orden que sugiere este clculo
es E6 E3 E5 E2 E4 E1, que difiere del anterior en los dos primeros (ahora E6 es el
mejor equipo).
LAS MATEMTICAS ENTRAN EN ESCENA
La propiedad fundamental de las matrices que nos conciernen (sean markovianas o no) es
que sus entradas son no negativas.

Walter Cun Bustamante

~4~

Teorema (Perrn, 1907).Sea A una matriz (cuadrada) con entradas positivas, A > 0.
Entonces, existe un auto valor (simple) > 0 tal que Av = v, donde el auto vector es v > 0.
Este auto valor es mayor, en modulo, que todos los dems auto valores. Cualquier otro
auto vector positivo de A es un mltiplo de v. Si la matriz es nicamente A 0, entonces hay
un auto valor > 0 dominante (de valor absoluto mximo) asociado a un auto vector v 0.
Pero podra haber otro auto valores del mismo tamao
Teorema (Frobenius, 1908-1912) Sea A una matriz (cuadrada) con entradas no negativas,
A 0. Si la matriz A es irreducible, entonces existe un auto valor (simple) > 0 tal que Av
= v, donde el auto vector es v > 0. Adems, ||, para cualquier otro auto valor de A.
Cualquier auto vector 0 es un mltiplo de v. Si hay k auto valores de mdulo mximo,
entonces son las soluciones de xkk = 0.

ESTAMOS REALMENTE EN UNA SITUACIN IDEAL


Para que todo funcione, necesitamos que la matriz M (o quizs M) asociada al grafo G de la
red sea irreducible. En otra palabras, que G sea (fuertemente) conexo. Pero no es el caso. Un
estudio de 1999 (vase [4]). De las 203 millones de pginas censadas, el 90 % est en una
gigantesca componente (dbilmente) conexa:

Una posible solucin es aadir toda una serie de probabilidades de transicin (de salida) a
todos los vrtices. Esto es, considerar la matriz

Donde p1,..., pn es una distribucin de probabilidad (Pj 0, * j Pj = 1) y c es un cierto


parmetro. Por ejemplo, podramos tomar Pj = 1/n para cada j = 1,..., n. Pero este grado de
libertad permite hacer bsquedas personalizadas. En trminos del surfista aleatorio,
estamos aadiendo la posibilidad de que (con probabilidad 1 c) se aburra de seguir los
enlaces y opte por saltar a otras pginas (con arreglo a cierta distribucin de probabilidad).

MATRICES NO NEGATIVAS EN OTROS CONTEXTOS


La importancia del teorema de Perrn-Frobenius radica en dos observaciones: en las
situaciones reales, las interacciones que se miden son, muy frecuentemente, positivas, o al
menos no negativas. Por otro lado, muchos modelos son procesos iterativos simples: de un
estado inicial x0 pasamos a uno general xk = Akx0. La convergencia del mtodo depende del
tamao del auto valores de A

Walter Cun Bustamante

~5~

Modelos de evolucin probabilstica


Una matriz A es de Markov si A 0 y, para cada columna, la suma de las entradas es 1.
El problema y el modelo: hay n estados de solvencia de las empresas S1,..., Sn (en la jerga,
AAA, BBB+, CC, etc.). En cada unidad de tiempo, la probabilidad de pasar del estado Si al
estado Sj es el nmero aij. De nuevo, una matriz A no negativa. Es habitual que un estado (D,
de default) sea absorbente (todos ceros, menos el elemento de la diagonal).

Las proporciones iniciales son z (0) = (z (0) 1,..., z (0) n). En las siguientes unidades de
tiempo, z (k) = Akz (0). Interesa el comportamiento asinttico, cuando k , que
llamaramos z (). Si = 1 es el nico auto valor dominante, entonces el estado estacionario
z () es el auto vector correspondiente a = 1 (sean cuales sean las proporciones iniciales!)
Modelos dinmicos discretos En una cierta especie, los individuos se agrupan por grupos de
edad C1,..., Cn. La poblacin inicial es z (0) = (z (0) 1,..., z (0) n). Planteamos las siguientes
hiptesis: cada individuo pasa al siguiente grupo en cada unidad de tiempo. En la etapa i,
cada individuo da lugar a mi descendiente. Si es la fraccin que sobrevive de la edad i 1 a
la edad i. La dinmica de la poblacin viene determinada por el sistema matricial (matriz de
Leslie) siguiente:

Donde 1 es el auto valor dominante y v1 es su auto vector asociado. El comportamiento


(crecimiento, extincin, oscilacin) de la poblacin depende de si 1 es > 1, < 1 o = 1.
Modelos econmicos
Una economa (simplificada) con tres sectores: agricultura, industria y servicios, que producen
x1, x2 y x3 unidades, respectivamente. La hiptesis fundamental es que el consumo que de la
produccin xi hace el sector j es proporcional a xj (la produccin de j).

Walter Cun Bustamante

~6~

De las x1 unidades producidas por el sector agrario, el 30 % son auto consumidas, 0, 2x2
utilizadas por la industria, 0, 3x3 por el sector de servicios, mientras que 4 unidades lo son
por los consumidores finales. En trminos matriciales, tenemos Ax + b = x. Si b 0, tiene el
sistema anterior una solucin x 0? Ser el caso si I A es invertible. Una condicin
suficiente: el auto valor dominante es < 1.

También podría gustarte