Está en la página 1de 85

Tema 6

Recuperación de Información web


Recuperación de Información
Grado en Ingeniería Informática

Gabriel Navarro (gnavarro@ugr.es)


Juan Huete (jhg@decsai.ugr.es)
Carlos Cano (carloscano@ugr.es)

Objetivos
● Conocer los componentes de un sistema de RI web y cómo
interaccionan entre sí, en contraposición a un sistema de RI
tradicional
● Entender qué es la web y qué características especiales tiene y
los retos que presenta, desde la perspectiva de un sistema de
RI
● Comprender en qué consiste el proceso de recopilación de
páginas web y el modo de funcionamiento de un crawler
● Comprender el tratamiento de los textos de las páginas web
● Entender el funcionamiento de los algoritmos HITS y
PageRank

2 Tema 6 Recuperación de información web

Índice

● Motivación
● Internet y la web
● Arañas
● Procesamiento de páginas web
● Ordenación de resultados
● Algoritmo HITS
● Algoritmo PageRank
● Medidas de evaluación

3 Tema 6 Recuperación de información web


Motivación
Recuperación Web
Se trata de estudiar cómo solventar los problemas que se
presentan al aplicar la RI clásica a la Web
● Cómo crear el índice
● Cómo obtener los pesos de las palabras
● Cómo recuperar los documentos ordenados
● Cómo medir la evaluación de la recuperación

4 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?

Con respecto a otras colecciones:


● Contenido heterogéneo, muy diverso
● Texto sin formato, con formato, imágenes, videos, blogs,…
● Tamaño enorme
● Dinamismo
● Variación constante de los contenidos
● Web oculta

5 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?
Tamaño

http://news.netcraft.com/archives/category/web-server-survey/

6 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?
Veamos ejemplo de éxito en RI: Google
• 30·1012 URLs recorridas
• Índices del orden de 100PB
• Más la “Web profunda” no indexada
• Información dispersa en cientos de millones de sitios Web
• Decenas de miles de consultas por segundo
• Millones de resultados para consultas habituales
• Num. usuarios: ~ 30% de la población del planeta
• Multimedia, multiformato, multilingüe, multidominio
• Infraestructuras masivas distribuidas

https://www.google.com/search/howsearchworks/

7 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?
Topología macroscópica

23%

30%

23% 23%

8 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?
Topología macroscópica
Grafo libre de escala
El num. de enlaces entrantes sigue una distribución power law
(unas pocas páginas concentran muchos enlaces. Muchas páginas tienen sólo unos pocos)

A. Z. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, J. L. Wiener. Graph structure in the
Web. Computer Networks 33(1-6), 2000
9 Tema 6 Recuperación de información web

Motivación
¿Qué tiene de especial la recuperación Web?
Volatilidad de la web
● Un alto porcentaje de la web cambia cada mes (o día, o segundo)
● ~ 50% de los sitios web desaparecen enteros en un año
● En los sitios Web aparecen y desaparecen paginas periódicamente
● El contenido de la mayoría de las paginas se modifica con
frecuencia
● Contenido generado dinámicamente
● Nuevos medios: blogs, microblogs (Twitter), foros, portales de
noticias, etc., son streams dinámicos de información mas que
“páginas” estables

10 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?
Calidad de la Web
● Muy variable: Calidad enciclopédica, calidad media, información anecdótica,
texto improvisado, spam, etc.
● Descentralización
● Ausencia de organización global ni supervisión editorial
● Casi cualquiera puede crear un sitio Web
● Cualquiera puede aportar contenido
● ~ 70% del contenido de la Web generado por usuarios finales
● Duplicación de contenido (mirrors, etc.)
● Spam
● Autores y buscadores en posición de adversarios
● Contenido engañoso, enlaces engañosos, promoción fraudulenta
● Múltiples mecanismos de detección y penalización de spam

11 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?

Usuarios
● Perfil universal
● No se presuponen capacidad
o conocimientos
● Todo tipo de dominios
● Internacionalización
● Tendencia de uso superficial
● Consultas cortas
● Sesiones cortas
● Browsing poco profundo
● Pocas reformulaciones

12 Tema 6 Recuperación de información web


Motivación
¿Qué tiene de especial la recuperación Web?

http://w3techs.com/technologies/overview/content_language/all
http://www.internetworldstats.com/stats7.htm
13 Tema 6 Recuperación de información web
Motivación
● Need [Brod02, RL04]
● Informational – want to learn about something (~40% / 65%)
Low hemoglobin
● Navigational – want to go to that page (~25% / 15%)
United Airlines
● Transactional – want to do something (web-mediated) (~35% / 20%)
● Access a service Seattle weather
● Downloads Mars surface images
● Shop Canon S410
● Gray areas
● Find a good hub
● Exploratory search “see what’s there” Car rental Brasil

14
14 Tema 6 Recuperación de información web

Motivación

15 Tema 6 Recuperación de información web


Sistema de RI Web
Sponsored Links

CG Appliance Express
Discount Appliances (650) 756-3931

Usuario
Same Day Certified Installation
www.cgappliance.com
San Francisco-Oakland-San Jose,
CA

Miele Vacuum Cleaners


Miele Vacuums- Complete Selection
Free Shipping!
www.vacuums.com

Miele Vacuum Cleaners


Miele-Free Air shipping!
All models. Helpful advice.
www.best-vacuum.com

Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

Miele, Inc -- Anything else is a compromise


At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...

Araña/Robot
www.miele.com/ - 20k - Cached - Similar pages

Miele
Welcome to Miele, the home of the very best appliances and kitchens in the world.
www.miele.co.uk/ - 3k - Cached - Similar pages

Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this


page ]
Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
www.miele.de/ - 10k - Cached - Similar pages

Herzlich willkommen bei Miele Österreich - [ Translate this page ]


Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
www.miele.at/ - 3k - Cached - Similar pages

Search

Indexador

La Web

Índices Ad indexes
16 Tema 6 Recuperación de información web
Crawlers/Arañas/Robots
Un crawler (o araña o robot) es una aplicación que a
partir de un conjunto de URL’s iniciales obtiene
nuevas URL’s para su posterior indexado

● Realiza un análisis sintáctico de una página


● Extrae los hiperenlaces
● Añade las páginas asociadas a esos hiperenlaces para su
posterior estudio

17 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Funcionamiento básico:
1. Empezar con un conjunto conocido de URLs (semillas)
2. Insertar en una cola las semillas
3. Mientras la cola no esté vacía o no expire el tiempo límite:
a) Extraer una URL
b) Si es una página HTML, no ha sido visitada y se puede
descargar
● Marcar como visitada
● Realizar un análisis sintáctico para extraer términos de indexado
● Extraer URL’s a las que apunta
● Añadir las URL’s extraídas a la cola. También la propia URL visitada.
● Estructura de datos empleada: cola con prioridad

18 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots

URLs
encontradas
y analizadas
Web desconocida

URLs frontera
semillas

Web

19 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Problemas a los que debe enfrentarse un crawler:
● No puede realizarse con una sóla máquina
● Todos los pasos deben ser distribuidos
● Existencia de páginas maliciosas
● Spam pages, Spider traps
● A pesar de no ser maliciosas…
● Anchos de banda varían
● Criterios del webmaster, ¿con cuanta profundidad el análisis?
● Site mirrors, páginas duplicadas
● Politica de buenas maneras
● No visitar un servidor muy frecuentemente

20 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Qué es imprescindible en un crawler
● Ser educado. Debe respetar ciertas buenas maneras
implícitas y explícitas con los servidores que visita
● Sólo visitar páginas autorizadas (y moderar num.peticiones/min)
● Respetar los estándares de exclusión de robots (robots.txt)
User-agent: wget
User-agent: * Disallow: /
Disallow: /examenes User-agent: wget
Disallow: /notas Disallow:
<META name=“robots” content=“index/noindex, follow/nofollow”>
● Ser robusto. Ser inmune a spam web, cloacking u otros usos
fraudulentos

21 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Además, qué debería poder hacer un crawler

● Ser capaz de realizar la tarea de forma distribuida


● Ser escalable. Aumentar las páginas analizadas
añadiendo más máquinas a la tarea
● Analizar primero las páginas de “mayor calidad”
● Analizar versiones nuevas de páginas ya analizadas
● Adaptarse a nuevo formatos y protocolos

22 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Operaciones específicas

Índice
23 Tema 6 Recuperación de información web
Crawlers/Arañas/Robots
Operaciones específicas
● Traducción de dominios
● La velocidad de un DNS estándar no es suficiente: guardar cache
propia
● Normalización de URLs
● Mayúsculas en dominio y secuencias de escape, suprimir puerto
por defecto, suprimir “.” y “..”, unificar “/” al final de la URL,
etc.
● Si una URL no responde repetidas veces, eliminarla
● Del índice y de la cola de prioridad
● Devolver páginas que no responden deteriora la calidad
percibida por los usuarios

24 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Necesidad de paralelización
● Imposible realizar un recorrido en proceso secuencial
● Latencia y capacidad de respuesta de los servidores Web
recorridos
● Para indexar la Web en un mes se necesitan procesar muchos
GB/s
● Cómo organizar la paralelización es uno de los problemas
fundamentales a resolver en el desarrollo de un crawler
● P.e. un hilo por URL, o batches de URLs
● Amplio número de servidores, cada uno se ocupa de una porción
de la Web (reparto por direcciones IP, dominios, etc.)
● La cola de prioridad puede ser centralizada o distribuida

25 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Gestión de la prioridad -- Cola de prioridad
● Semillas
● Sitios de referencia, portales de noticias, etc.
● Estrategia de actualización (avance frontera de crawl)
● Tiempo de permanencia en la cola
● Frecuencia y tipo de cambios de las página
● Impacto de los cambios en los rankings de búsqueda
● Impacto en los rankings
● Num. de veces que la página aparece en resultados de búsqueda
● Ej. PageRank, o mejor, frecuencia de clicks de las URLs en un log
● Tasas de actualización de contenido
● Ej. portales de noticias se pueden reindexar cada hora o más veces
● Otras páginas más estables cada varias semanas
● Distinguir cambios sin importancia (ej. ads, “quote of the day”, etc.)

26 Tema 6 Recuperación de información web


Crawlers/Arañas/Robots
Detección de duplicados
● 30-40% de las páginas de la Web son duplicados exactos de otras
● Mirrors, etc.
● Problemas de coste innecesario en el índice
● Redundancia en los resultados
● Detección en tiempo de crawling
● Evitar indexar la página y atravesar los enlaces
● No siempre se ignoran duplicados pero en general interesa detectarlos
● La detección de duplicados exactos es trivial
● Función hash aplicada al contenido (siempre que coincida byte a byte)
● Los “casi” duplicados son más difíciles
● Ej. noticias de agencia en varios portales

27 Tema 6 Recuperación de información web


Procesamiento de páginas web

Diferencias respecto al proceso de indexación común


Documentos HTML tienen formato
● Cabecera y cuerpo <HEAD> <BODY>
● Se pueden ponderar los términos según la posición
● Y dentro de la cabecera, el título <TITLE>…
● Etiquetas de negrita, tamaño de letra, color,…
<H1>, <H2>, <B>, <FONT COLOR>

28 Tema 6 Recuperación de información web


Procesamiento de páginas web

Diferencias respecto al proceso de indexación común


No todo lo que tiene el documento es lo que se ve
● Texto asociado a imágenes
<IMG src=“….” alt=“texto alternativo” />
● Metatags
<META name=“…” content=“…” />

Esto propicia el uso indebido (spam) para mejorar el ranking

29 Tema 6 Recuperación de información web


Procesamiento de páginas web


Diferencias respecto al proceso de indexación común
Existen enlaces a otros documentos
<a href=“htp://www….”> Texto ancla </a>
● El texto ancla es muy importante en recuperación
● Incluye palabras clave de la página enlazada
● Incluye valoraciones subjetivas del contenido: cómo describen
autores externos el contenido (Ejemplo-- https://
en.wikipedia.org/wiki/Legal_affairs_of_Donald_Trump es el
primer resultado de la búsqueda “Trump criminal” y no contiene la
palabra “criminal”, ¿por qué?)
● Vulnerabilidad a ataques de link bombing

30 Tema 6 Recuperación de información web


Procesamiento de páginas web

Diferencias respecto al proceso de indexación común


Existen enlaces a otros documentos
<a href=“htp://www….”> Texto ancla </a>
● Produce que la web se pueda representar como un grafo

hiperenlace
Página A ancla Página B

31 Tema 6 Recuperación de información web


Procesamiento de páginas web

hiperenlace
Página A ancla Página B

● Hipótesis 1: Un hiperenlace entre páginas implica un grado de


relevancia (señal de calidad)
● Hipótesis 2: El texto en el hiperenlace describe la página destino
(contexto textual).
● Esta descripción pudiera ser incluso mejor que las conclusiones que
extraigamos del análisis del contenido de la propia página

32 Tema 6 Recuperación de información web


Procesamiento de páginas web


Importancia del Texto Ancla
● El código HTML en una página web muestra un hiperenlace a
“Journal of the ACM”:
<a href="http://www.acm.org/jacm/">Journal of the ACM.</a>
● Sin embargo, existen situaciones donde la página web no
proporciona una descripción fidedigna (normalmente por
cuestiones de publicidad):
● La página web de IBM corporation (http://www.ibm.com) no
contiene el término ordenador en su c digo HTML
● El código HTML de Yahoo! (http://www.yahoo.com) no
contiene el término buscador
● Además, muchas páginas tienen todo tipo de imágenes que
incluyen información (no recogida por la araña)

33 Tema 6 Recuperación de información web




Procesamiento de páginas web


Importancia del Texto Ancla

34 Tema 6 Recuperación de información web


Procesamiento de páginas web
Importancia del Texto Ancla
● Cuando se indexa un documento D, se puede incluir el texto ancla
(y su contexto) de aquellas páginas que apuntan a D.
● Habitualmente, con peso menor que el del propio contenido
● Texto ancla se pondera utilizando la frecuencia, pero con una
penalizaci n para aquellos que ocurren muy frecuentemente (p.e.,
“Click” y “here”, utilizando algo parecido al idf).
● Actualmente, se utilizan técnicas de machine learning

35 Tema 6 Recuperación de información web



Procesamiento de páginas web


Link bombing / Bomba Google
● Método mediante el cual es posible colocar ciertos sitios web
en los primeros lugares de los resultados de una búsqueda en
Google
● Se consigue incluyendo enlaces a la página objeto del «google
bomb» en el mayor número de páginas distintas posibles, de
manera que el texto del enlace sea el criterio de búsqueda
deseado
● <a href="direcci n-del-sitio">Palabra o frase</a>
● Ej: Estafador/mentiroso/traidor aplicado a políticos

36 Tema 6 Recuperación de información web



Análisis de enlaces
Si la web es un grafo, ¿cómo obtener información de esto?

37 Tema 6 Recuperación de información web


Análisis de enlaces
Si la web es un grafo, ¿cómo obtener información de esto?

Por ejemplo, clasificar páginas web como buenas o maliciosas

Buena ? ? Maliciosa

?
38 Tema 6 Recuperación de información web

Análisis de enlaces
Si la web es un grafo, ¿cómo obtener información de esto?
Algoritmo básico:
1. Si apuntas a una página maliciosa, eres maliciosa
2. Si un nodo bueno te apunta, tú eres bueno

Buena ? Maliciosa

?
39 Tema 6 Recuperación de información web

Análisis de enlaces
Si la web es un grafo, ¿cómo obtener información de esto?
Algoritmo básico:
1. Si apuntas a una página maliciosa, eres maliciosa
2. Si un nodo bueno te apunta, tú eres bueno

Buena Maliciosa

40 Tema 6 Recuperación de información web


Análisis de enlaces

Nosotros estamos interesados en ordenar la salida de una


consulta en un Sistema de Recuperación de Información

Dos algoritmos:
● HITS
● PageRank

41 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)

● Diseñado por Jon Kleinberg para valorar la importancia de


una página web
J. Kleinberg, Authoritative sources in a hyperlinked environment. In Proc.
Ninth Ann. ACM-SIAM Symp. Discrete Algorithms, pages 668-677, ACM
Press, NewYork, 1998.

● Se basa en los conceptos de autoridades (authorities) y


concentradores (hubs)

42 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


● Autoridades (Authorities)
● Son páginas de reconocido prestigio con información fiable,
significativa y útil en un tema
● Se caracterizan por tener muchos enlaces entrantes
● Wikipedia, páginas docentes, información instituciones,…
● Concentradores (Hubs)
● Páginas que no contienen contenido propio útil, pero enlazan a
páginas que sí lo tienen (autoridades)
● Se caracteriza por tener muchos enlaces salientes
● Páginas de enlaces,…

43 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


El algoritmo trabaja con un subgrafo de documentos relevantes a la
consulta
1. Cálculo de un conjunto inicial R de documentos relevantes

Por ejemplo, con


un buscador

44 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


El algoritmo trabaja con un subgrafo de documentos relevantes a la
consulta
2. Cálculo de páginas a las que apuntan las páginas de R

45 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


El algoritmo trabaja con un subgrafo de documentos relevantes a la
consulta
3. Cálculo de páginas que apuntan a las páginas de R

46 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


El algoritmo trabaja con un subgrafo de documentos relevantes a la
consulta
4. Cálculo del peso de autoridad y peso de concentrador de todas
las páginas del grafo ampliado

47 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


Para cada nodo del grafo,

Normalmente, normalizamos con las constantes

48 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)


El algoritmo trabaja con un subgrafo de documentos relevantes a la
consulta
5. Devolver:
● Las páginas con mayor valor de autoridad
● Las páginas con mayor valor de concentrador

49 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)

50 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)

R S

51 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

52 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

53 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

54 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

55 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 1
5
1 0
0 1
2 2
2
4 6
2 0
0 2
1 2 1 7
0

56 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 0.3
5
1 0
0 0.3
0.56 0.56
0.6
4 6
2 0
0 0.6
0.28 0.56 0.3 7
0

57 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 0.4
5
1 0
0 0.09
0.1 0.42
0.81
4 6
2 0
0 0.14
0.06 0.42 0.4 7
0

20 iteraciones

58 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)
3 0.4
5
1 0
0 0.09
0.1 0.42
0.81 buena
4 6 autoridad
2 0
0 0.14
0.06 0.42 0.4 7
buen 0
concentrador
20 iteraciones

59 Tema 6 Recuperación de información web


Hyperlink-Induced Topic Search (HITS)

● Kleinberg utiliza los primeros 200 resultados recuperados


por el buscador como conjunto inicial
● Trabaja con un subgrafo del grafo total
● Pero el algoritmo no es eficiente…
● Debe calcular los pesos en cada consulta
● No se puede utilizar para un buscador web real

60 Tema 6 Recuperación de información web


PageRank

● Desarrollado por Larry Page y Sergey Brin, y utilizado por


Google para el análisis de hiperenlaces
L. Page and S. Brin,The anatomy of a large-scale hypertextual Web search
engine, Computer Networks and ISDN Systems 30 (1998), 107-117.

● Se basa en un sistema de votos para medir la importancia de


las páginas web.
● Sólo se mide el carácter de autoridad:
cada enlace a una página à un voto para ella

61 Tema 6 Recuperación de información web



PageRank
El PageRank de una página A se mide como la suma de los
PageRank de las páginas que tienen un enlace a A

Normalizamos con el
número de enlaces de
la página

62 Tema 6 Recuperación de información web


PageRank
El PageRank de una página v se mide como la suma de los
PageRank de las páginas que tienen un enlace a v

Normalizamos con el
número de enlaces de
la página

Problemas cuando no hay enlaces de


salida y cuando hay bucles

63 Tema 6 Recuperación de información web


PageRank
El PageRank de una página A se mide como la suma de los
PageRank de las páginas que tienen un enlace a A

Factor de
amortiguación

Se suele considerar adecuado

64 Tema 6 Recuperación de información web


PageRank

65 Tema 6 Recuperación de información web


PageRank

66 Tema 6 Recuperación de información web


PageRank
PR(A) PR(B) PR(C)
1 1 1
0,5 0,5 1
0,25 0,25 0,5
A 0,125 0,125 0,25
0,0625 0,0625 0,125
0,03125 0,03125 0,0625
C 0,015625 0,015625 0,03125
0,0078125 0,0078125 0,015625
0,00390625 0,00390625 0,0078125
B 0,00195313 0,00195313 0,00390625
0,00097656 0,00097656 0,00195313
0,00048828 0,00048828 0,00097656
Sumidero de 0,00024414 0,00024414 0,00048828
PageRank 0,00012207 0,00012207 0,00024414
3,0518E-05 3,0518E-05 6,1035E-05

67 Tema 6 Recuperación de información web


PageRank
PR(A) PR(B) PR(C)
1 1 1
0,575 0,575 1
0,394375 0,394375 0,63875
A 0,31760938 0,31760938 0,48521875
0,28498398 0,28498398 0,41996797
0,27111819 0,27111819 0,39223639
C 0,26522523 0,26522523 0,38045046
0,26272072 0,26272072 0,37544145
0,26165631 0,26165631 0,37331262
B
0,26120393 0,26120393 0,37240786
0,26101167 0,26101167 0,37202334
0,26092996 0,26092996 0,37185992
0,26089523 0,26089523 0,37179047
0,26088047 0,26088047 0,37176095
0,2608742 0,2608742 0,3717484
68 Tema 6 Recuperación de información web
PageRank

1 1

1 1

69 Tema 6 Recuperación de información web


PageRank

1 1

1 1

70 Tema 6 Recuperación de información web


PageRank

1 1

1 1

71 Tema 6 Recuperación de información web


PageRank

1 1

1 1

72 Tema 6 Recuperación de información web


PageRank

1 1

1 1

73 Tema 6 Recuperación de información web


PageRank

1 0.575

2.275 0.15

74 Tema 6 Recuperación de información web


PageRank

1 0.575

2.275 0.15

75 Tema 6 Recuperación de información web


PageRank

1 0.575

2.275 0.15

76 Tema 6 Recuperación de información web


PageRank

1 0.575

2.275 0.15

77 Tema 6 Recuperación de información web


PageRank

1 0.575

2.275 0.15

78 Tema 6 Recuperación de información web


PageRank

2.084 0.575

1.191 0.15

79 Tema 6 Recuperación de información web


PageRank

20 iteraciones

1.49 0.783

1.577 0.15

80 Tema 6 Recuperación de información web


PageRank

Google's PR Evaluation
Page A
2,000 Page B
Page C
Page D

1,500

1,000

0,500

'-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

81 Tema 6 Recuperación de información web


PageRank
http://computerscience.chemeketa.edu/ascholer/cs160/WebApps/PageRank/

82 Tema 6 Recuperación de información web


Medidas de evaluación

Problemas específicos de la evaluación web:


● El usuario no busca todos los documentos relevantes
● Busca algo relevante en los primeros documentos recuperados
● Precisión antes que exhaustividad
● La exhaustividad no se puede calcular, ¿cuántos relevantes?
● No todas la medidas de evaluación son apropiadas

83 Tema 6 Recuperación de información web


Medidas de evaluación
Algunas medidas:
● P@10
● Reciprocal Rank (RR)

● Mean Reciprocal Rank (MRR)


● DCG
● nDCG

84 Tema 6 Recuperación de información web


Bibliografía

● Manning, P. Raghavan and H. Schütze. Introduction to


Information Retrieval. Cambridge University Press, 2008.
Capítulos 19,20 y 21.
● F. Cacheda, J. M. Fernandez Luna and J. F. Huete Guadix,
Recuperación de Información. Un enfoque práctico y
multidisciplinar. Ra-ma Editorial. 2011. Capítulo 5.

85 Tema 6 Recuperación de información web

También podría gustarte