T6 RecuperacionWeb

Tema 6
Recuperación de Información web

Recuperación de Información
Grado en Ingeniería Informática
Gabriel Navarro (gnavarro@ugr.es)

Juan Huete (jhg@decsai.ugr.es)
Carlos Cano (carloscano@ugr.es)
 

Objetivos
● Conocer los componentes de un sistema de RI web y cómo
interaccionan entre sí, en contraposición a un sistema de RI
tradicional
● Entender qué es la web y qué características especiales tiene y
los retos que presenta, desde la perspectiva de un sistema de
RI
● Comprender en qué consiste el proceso de recopilación de
páginas web y el modo de funcionamiento de un crawler
● Comprender el tratamiento de los textos de las páginas web
● Entender el funcionamiento de los algoritmos HITS y
PageRank
2 Tema 6 Recuperación de información web
Índice
● Motivación
● Internet y la web
● Arañas
● Procesamiento de páginas web
● Ordenación de resultados
● Algoritmo HITS
● Algoritmo PageRank
● Medidas de evaluación

Motivación
Recuperación Web
Se trata de estudiar cómo solventar los problemas que se
presentan al aplicar la RI clásica a la Web
● Cómo crear el índice
● Cómo obtener los pesos de las palabras
● Cómo recuperar los documentos ordenados
● Cómo medir la evaluación de la recuperación

Motivación
¿Qué tiene de especial la recuperación Web?
Con respecto a otras colecciones:

● Contenido heterogéneo, muy diverso
● Texto sin formato, con formato, imágenes, videos, blogs,…
● Tamaño enorme
● Dinamismo
● Variación constante de los contenidos
● Web oculta

Motivación
Tamaño
http://news.netcraft.com/archives/category/web-server-survey/

Motivación
Veamos ejemplo de éxito en RI: Google
• 30·1012 URLs recorridas
• Índices del orden de 100PB
• Más la “Web profunda” no indexada
• Información dispersa en cientos de millones de sitios Web
• Decenas de miles de consultas por segundo
• Millones de resultados para consultas habituales
• Num. usuarios: ~ 30% de la población del planeta
• Multimedia, multiformato, multilingüe, multidominio
• Infraestructuras masivas distribuidas
https://www.google.com/search/howsearchworks/

Motivación
Topología macroscópica
23%
30%
23% 23%

Motivación
Topología macroscópica
Grafo libre de escala
El num. de enlaces entrantes sigue una distribución power law
(unas pocas páginas concentran muchos enlaces. Muchas páginas tienen sólo unos pocos)
A. Z. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, J. L. Wiener. Graph structure in the
Web. Computer Networks 33(1-6), 2000

Motivación
Volatilidad de la web
● Un alto porcentaje de la web cambia cada mes (o día, o segundo)
● ~ 50% de los sitios web desaparecen enteros en un año
● En los sitios Web aparecen y desaparecen paginas periódicamente
● El contenido de la mayoría de las paginas se modifica con
frecuencia
● Contenido generado dinámicamente
● Nuevos medios: blogs, microblogs (Twitter), foros, portales de
noticias, etc., son streams dinámicos de información mas que
“páginas” estables

Motivación
Calidad de la Web
● Muy variable: Calidad enciclopédica, calidad media, información anecdótica,
texto improvisado, spam, etc.
● Descentralización
● Ausencia de organización global ni supervisión editorial
● Casi cualquiera puede crear un sitio Web
● Cualquiera puede aportar contenido
● ~ 70% del contenido de la Web generado por usuarios finales
● Duplicación de contenido (mirrors, etc.)
● Spam
● Autores y buscadores en posición de adversarios
● Contenido engañoso, enlaces engañosos, promoción fraudulenta
● Múltiples mecanismos de detección y penalización de spam

Motivación
Usuarios
● Perfil universal
● No se presuponen capacidad
o conocimientos
● Todo tipo de dominios
● Internacionalización
● Tendencia de uso superficial
● Consultas cortas
● Sesiones cortas
● Browsing poco profundo
● Pocas reformulaciones

Motivación
http://w3techs.com/technologies/overview/content_language/all
http://www.internetworldstats.com/stats7.htm
Motivación
● Need [Brod02, RL04]
● Informational – want to learn about something (~40% / 65%)
Low hemoglobin
● Navigational – want to go to that page (~25% / 15%)
United Airlines
● Transactional – want to do something (web-mediated) (~35% / 20%)
● Access a service Seattle weather
● Downloads Mars surface images
● Shop Canon S410
● Gray areas
● Find a good hub
● Exploratory search “see what’s there” Car rental Brasil
14
Motivación

Sistema de RI Web
Sponsored Links
CG Appliance Express
Discount Appliances (650) 756-3931
Usuario
Same Day Certified Installation
www.cgappliance.com
San Francisco-Oakland-San Jose,
CA
Miele Vacuum Cleaners

Miele Vacuums- Complete Selection
Free Shipping!
www.vacuums.com
Miele Vacuum Cleaners

Miele-Free Air shipping!
All models. Helpful advice.
www.best-vacuum.com
Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)
Miele, Inc -- Anything else is a compromise

At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
Araña/Robot
www.miele.com/ - 20k - Cached - Similar pages
Miele
Welcome to Miele, the home of the very best appliances and kitchens in the world.
www.miele.co.uk/ - 3k - Cached - Similar pages
Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this

page ]
Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
www.miele.de/ - 10k - Cached - Similar pages
Herzlich willkommen bei Miele Österreich - [ Translate this page ]

Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
www.miele.at/ - 3k - Cached - Similar pages
Search
Indexador
La Web
Índices Ad indexes
Crawlers/Arañas/Robots
Un crawler (o araña o robot) es una aplicación que a
partir de un conjunto de URL’s iniciales obtiene
nuevas URL’s para su posterior indexado
● Realiza un análisis sintáctico de una página

● Extrae los hiperenlaces
● Añade las páginas asociadas a esos hiperenlaces para su
posterior estudio

Funcionamiento básico:
1. Empezar con un conjunto conocido de URLs (semillas)
2. Insertar en una cola las semillas
3. Mientras la cola no esté vacía o no expire el tiempo límite:
a) Extraer una URL
b) Si es una página HTML, no ha sido visitada y se puede
descargar
● Marcar como visitada
● Realizar un análisis sintáctico para extraer términos de indexado
● Extraer URL’s a las que apunta
● Añadir las URL’s extraídas a la cola. También la propia URL visitada.
● Estructura de datos empleada: cola con prioridad

URLs
encontradas
y analizadas
Web desconocida
URLs frontera
semillas
Web

Problemas a los que debe enfrentarse un crawler:
● No puede realizarse con una sóla máquina
● Todos los pasos deben ser distribuidos
● Existencia de páginas maliciosas
● Spam pages, Spider traps
● A pesar de no ser maliciosas…
● Anchos de banda varían
● Criterios del webmaster, ¿con cuanta profundidad el análisis?
● Site mirrors, páginas duplicadas
● Politica de buenas maneras
● No visitar un servidor muy frecuentemente

Qué es imprescindible en un crawler
● Ser educado. Debe respetar ciertas buenas maneras
implícitas y explícitas con los servidores que visita
● Sólo visitar páginas autorizadas (y moderar num.peticiones/min)
● Respetar los estándares de exclusión de robots (robots.txt)
User-agent: wget
User-agent: * Disallow: /
Disallow: /examenes User-agent: wget
Disallow: /notas Disallow:
<META name=“robots” content=“index/noindex, follow/nofollow”>
● Ser robusto. Ser inmune a spam web, cloacking u otros usos
fraudulentos

Además, qué debería poder hacer un crawler
● Ser capaz de realizar la tarea de forma distribuida

● Ser escalable. Aumentar las páginas analizadas
añadiendo más máquinas a la tarea
● Analizar primero las páginas de “mayor calidad”
● Analizar versiones nuevas de páginas ya analizadas
● Adaptarse a nuevo formatos y protocolos

Operaciones específicas
Índice
Operaciones específicas
● Traducción de dominios
● La velocidad de un DNS estándar no es suficiente: guardar cache
propia
● Normalización de URLs
● Mayúsculas en dominio y secuencias de escape, suprimir puerto
por defecto, suprimir “.” y “..”, unificar “/” al final de la URL,
etc.
● Si una URL no responde repetidas veces, eliminarla
● Del índice y de la cola de prioridad
● Devolver páginas que no responden deteriora la calidad
percibida por los usuarios

Necesidad de paralelización
● Imposible realizar un recorrido en proceso secuencial
● Latencia y capacidad de respuesta de los servidores Web
recorridos
● Para indexar la Web en un mes se necesitan procesar muchos
GB/s
● Cómo organizar la paralelización es uno de los problemas
fundamentales a resolver en el desarrollo de un crawler
● P.e. un hilo por URL, o batches de URLs
● Amplio número de servidores, cada uno se ocupa de una porción
de la Web (reparto por direcciones IP, dominios, etc.)
● La cola de prioridad puede ser centralizada o distribuida

Gestión de la prioridad -- Cola de prioridad
● Semillas
● Sitios de referencia, portales de noticias, etc.
● Estrategia de actualización (avance frontera de crawl)
● Tiempo de permanencia en la cola
● Frecuencia y tipo de cambios de las página
● Impacto de los cambios en los rankings de búsqueda
● Impacto en los rankings
● Num. de veces que la página aparece en resultados de búsqueda
● Ej. PageRank, o mejor, frecuencia de clicks de las URLs en un log
● Tasas de actualización de contenido
● Ej. portales de noticias se pueden reindexar cada hora o más veces
● Otras páginas más estables cada varias semanas
● Distinguir cambios sin importancia (ej. ads, “quote of the day”, etc.)

Detección de duplicados
● 30-40% de las páginas de la Web son duplicados exactos de otras
● Mirrors, etc.
● Problemas de coste innecesario en el índice
● Redundancia en los resultados
● Detección en tiempo de crawling
● Evitar indexar la página y atravesar los enlaces
● No siempre se ignoran duplicados pero en general interesa detectarlos
● La detección de duplicados exactos es trivial
● Función hash aplicada al contenido (siempre que coincida byte a byte)
● Los “casi” duplicados son más difíciles
● Ej. noticias de agencia en varios portales

Procesamiento de páginas web
Diferencias respecto al proceso de indexación común

Documentos HTML tienen formato
● Cabecera y cuerpo <HEAD> <BODY>
● Se pueden ponderar los términos según la posición
● Y dentro de la cabecera, el título <TITLE>…
● Etiquetas de negrita, tamaño de letra, color,…
<H1>, <H2>, <B>, <FONT COLOR>


No todo lo que tiene el documento es lo que se ve
● Texto asociado a imágenes
<IMG src=“….” alt=“texto alternativo” />
● Metatags
<META name=“…” content=“…” />
Esto propicia el uso indebido (spam) para mejorar el ranking


Existen enlaces a otros documentos
<a href=“htp://www….”> Texto ancla </a>
● El texto ancla es muy importante en recuperación
● Incluye palabras clave de la página enlazada
● Incluye valoraciones subjetivas del contenido: cómo describen
autores externos el contenido (Ejemplo-- https://
en.wikipedia.org/wiki/Legal_affairs_of_Donald_Trump es el
primer resultado de la búsqueda “Trump criminal” y no contiene la
palabra “criminal”, ¿por qué?)
● Vulnerabilidad a ataques de link bombing


Existen enlaces a otros documentos
<a href=“htp://www….”> Texto ancla </a>
● Produce que la web se pueda representar como un grafo
hiperenlace
Página A ancla Página B

hiperenlace
Página A ancla Página B
● Hipótesis 1: Un hiperenlace entre páginas implica un grado de

relevancia (señal de calidad)
● Hipótesis 2: El texto en el hiperenlace describe la página destino
(contexto textual).
● Esta descripción pudiera ser incluso mejor que las conclusiones que
extraigamos del análisis del contenido de la propia página


Importancia del Texto Ancla
● El código HTML en una página web muestra un hiperenlace a
“Journal of the ACM”:
<a href="http://www.acm.org/jacm/">Journal of the ACM.</a>
● Sin embargo, existen situaciones donde la página web no
proporciona una descripción fidedigna (normalmente por
cuestiones de publicidad):
● La página web de IBM corporation (http://www.ibm.com) no
contiene el término ordenador en su c digo HTML
● El código HTML de Yahoo! (http://www.yahoo.com) no
contiene el término buscador
● Además, muchas páginas tienen todo tipo de imágenes que
incluyen información (no recogida por la araña)

 

ó



● Cuando se indexa un documento D, se puede incluir el texto ancla
(y su contexto) de aquellas páginas que apuntan a D.
● Habitualmente, con peso menor que el del propio contenido
● Texto ancla se pondera utilizando la frecuencia, pero con una
penalizaci n para aquellos que ocurren muy frecuentemente (p.e.,
“Click” y “here”, utilizando algo parecido al idf).
● Actualmente, se utilizan técnicas de machine learning

ó


Link bombing / Bomba Google
● Método mediante el cual es posible colocar ciertos sitios web
en los primeros lugares de los resultados de una búsqueda en
Google
● Se consigue incluyendo enlaces a la página objeto del «google
bomb» en el mayor número de páginas distintas posibles, de
manera que el texto del enlace sea el criterio de búsqueda
deseado
● <a href="direcci n-del-sitio">Palabra o frase</a>
● Ej: Estafador/mentiroso/traidor aplicado a políticos

ó

Análisis de enlaces
Si la web es un grafo, ¿cómo obtener información de esto?

Por ejemplo, clasificar páginas web como buenas o maliciosas
Buena ? ? Maliciosa
?
Algoritmo básico:
1. Si apuntas a una página maliciosa, eres maliciosa
2. Si un nodo bueno te apunta, tú eres bueno
Buena ? Maliciosa
?

Algoritmo básico:
1. Si apuntas a una página maliciosa, eres maliciosa
2. Si un nodo bueno te apunta, tú eres bueno
Buena Maliciosa

Nosotros estamos interesados en ordenar la salida de una

consulta en un Sistema de Recuperación de Información
Dos algoritmos:
● HITS
● PageRank

Hyperlink-Induced Topic Search (HITS)
● Diseñado por Jon Kleinberg para valorar la importancia de

una página web
J. Kleinberg, Authoritative sources in a hyperlinked environment. In Proc.
Ninth Ann. ACM-SIAM Symp. Discrete Algorithms, pages 668-677, ACM
Press, NewYork, 1998.
● Se basa en los conceptos de autoridades (authorities) y

concentradores (hubs)


● Autoridades (Authorities)
● Son páginas de reconocido prestigio con información fiable,
significativa y útil en un tema
● Se caracterizan por tener muchos enlaces entrantes
● Wikipedia, páginas docentes, información instituciones,…
● Concentradores (Hubs)
● Páginas que no contienen contenido propio útil, pero enlazan a
páginas que sí lo tienen (autoridades)
● Se caracteriza por tener muchos enlaces salientes
● Páginas de enlaces,…


El algoritmo trabaja con un subgrafo de documentos relevantes a la
consulta
1. Cálculo de un conjunto inicial R de documentos relevantes
Por ejemplo, con

un buscador


consulta
2. Cálculo de páginas a las que apuntan las páginas de R


consulta
3. Cálculo de páginas que apuntan a las páginas de R


consulta
4. Cálculo del peso de autoridad y peso de concentrador de todas
las páginas del grafo ampliado


Para cada nodo del grafo,
Normalmente, normalizamos con las constantes


consulta
5. Devolver:
● Las páginas con mayor valor de autoridad
● Las páginas con mayor valor de concentrador


R S

3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

3 1
5
1 1
1 1
1 1
1
4 6
2 1
1 1
1 1 1 7
1

3 1
5
1 0
0 1
2 2
2
4 6
2 0
0 2
1 2 1 7
0

3 0.3
5
1 0
0 0.3
0.56 0.56
0.6
4 6
2 0
0 0.6
0.28 0.56 0.3 7
0

3 0.4
5
1 0
0 0.09
0.1 0.42
0.81
4 6
2 0
0 0.14
0.06 0.42 0.4 7
0
20 iteraciones

3 0.4
5
1 0
0 0.09
0.1 0.42
0.81 buena
4 6 autoridad
2 0
0 0.14
0.06 0.42 0.4 7
buen 0
concentrador
20 iteraciones

● Kleinberg utiliza los primeros 200 resultados recuperados

por el buscador como conjunto inicial
● Trabaja con un subgrafo del grafo total
● Pero el algoritmo no es eficiente…
● Debe calcular los pesos en cada consulta
● No se puede utilizar para un buscador web real

PageRank
● Desarrollado por Larry Page y Sergey Brin, y utilizado por

Google para el análisis de hiperenlaces
L. Page and S. Brin,The anatomy of a large-scale hypertextual Web search
engine, Computer Networks and ISDN Systems 30 (1998), 107-117.
● Se basa en un sistema de votos para medir la importancia de

las páginas web.
● Sólo se mide el carácter de autoridad:
cada enlace a una página à un voto para ella

PageRank
El PageRank de una página A se mide como la suma de los
PageRank de las páginas que tienen un enlace a A
Normalizamos con el
número de enlaces de
la página

PageRank
El PageRank de una página v se mide como la suma de los
PageRank de las páginas que tienen un enlace a v
Normalizamos con el
número de enlaces de
la página
Problemas cuando no hay enlaces de

salida y cuando hay bucles

PageRank
El PageRank de una página A se mide como la suma de los
PageRank de las páginas que tienen un enlace a A
Factor de
amortiguación
Se suele considerar adecuado

PageRank

PageRank

PageRank
PR(A) PR(B) PR(C)
1 1 1
0,5 0,5 1
0,25 0,25 0,5
A 0,125 0,125 0,25
0,0625 0,0625 0,125
0,03125 0,03125 0,0625
C 0,015625 0,015625 0,03125
0,0078125 0,0078125 0,015625
0,00390625 0,00390625 0,0078125
B 0,00195313 0,00195313 0,00390625
0,00097656 0,00097656 0,00195313
0,00048828 0,00048828 0,00097656
Sumidero de 0,00024414 0,00024414 0,00048828
PageRank 0,00012207 0,00012207 0,00024414
3,0518E-05 3,0518E-05 6,1035E-05

PageRank
PR(A) PR(B) PR(C)
1 1 1
0,575 0,575 1
0,394375 0,394375 0,63875
A 0,31760938 0,31760938 0,48521875
0,28498398 0,28498398 0,41996797
0,27111819 0,27111819 0,39223639
C 0,26522523 0,26522523 0,38045046
0,26272072 0,26272072 0,37544145
0,26165631 0,26165631 0,37331262
B
0,26120393 0,26120393 0,37240786
0,26101167 0,26101167 0,37202334
0,26092996 0,26092996 0,37185992
0,26089523 0,26089523 0,37179047
0,26088047 0,26088047 0,37176095
0,2608742 0,2608742 0,3717484
PageRank
1 1
1 1

PageRank
1 1
1 1

PageRank
1 1
1 1

PageRank
1 1
1 1

PageRank
1 1
1 1

PageRank
1 0.575
2.275 0.15

PageRank
1 0.575
2.275 0.15

PageRank
1 0.575
2.275 0.15

PageRank
1 0.575
2.275 0.15

PageRank
1 0.575
2.275 0.15

PageRank
2.084 0.575
1.191 0.15

PageRank
20 iteraciones
1.49 0.783
1.577 0.15

PageRank
Google's PR Evaluation
Page A
2,000 Page B
Page C
Page D
1,500
1,000
0,500
'-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

PageRank
http://computerscience.chemeketa.edu/ascholer/cs160/WebApps/PageRank/

Medidas de evaluación
Problemas específicos de la evaluación web:

● El usuario no busca todos los documentos relevantes
● Busca algo relevante en los primeros documentos recuperados
● Precisión antes que exhaustividad
● La exhaustividad no se puede calcular, ¿cuántos relevantes?
● No todas la medidas de evaluación son apropiadas

Medidas de evaluación
Algunas medidas:
● P@10
● Reciprocal Rank (RR)
● Mean Reciprocal Rank (MRR)

● DCG
● nDCG

Bibliografía
● Manning, P. Raghavan and H. Schütze. Introduction to

Information Retrieval. Cambridge University Press, 2008.
Capítulos 19,20 y 21.
● F. Cacheda, J. M. Fernandez Luna and J. F. Huete Guadix,
Recuperación de Información. Un enfoque práctico y
multidisciplinar. Ra-ma Editorial. 2011. Capítulo 5.

T6 RecuperacionWeb

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T6 RecuperacionWeb

Cargado por

Copyright:

Formatos disponibles

Tema 6

Recuperación de Información web

Gabriel Navarro (gnavarro@ugr.es)

2 Tema 6 Recuperación de información web

3 Tema 6 Recuperación de información web

4 Tema 6 Recuperación de información web

Con respecto a otras colecciones:

5 Tema 6 Recuperación de información web

6 Tema 6 Recuperación de información web

7 Tema 6 Recuperación de información web

8 Tema 6 Recuperación de información web

10 Tema 6 Recuperación de información web

11 Tema 6 Recuperación de información web

12 Tema 6 Recuperación de información web

15 Tema 6 Recuperación de información web

Miele Vacuum Cleaners

Miele Vacuum Cleaners

Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

Miele, Inc -- Anything else is a compromise

Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this

Herzlich willkommen bei Miele Österreich - [ Translate this page ]

● Realiza un análisis sintáctico de una página

17 Tema 6 Recuperación de información web

18 Tema 6 Recuperación de información web

19 Tema 6 Recuperación de información web

20 Tema 6 Recuperación de información web

21 Tema 6 Recuperación de información web

● Ser capaz de realizar la tarea de forma distribuida

22 Tema 6 Recuperación de información web

24 Tema 6 Recuperación de información web

25 Tema 6 Recuperación de información web

26 Tema 6 Recuperación de información web

27 Tema 6 Recuperación de información web

Procesamiento de páginas web

Diferencias respecto al proceso de indexación común

28 Tema 6 Recuperación de información web

Procesamiento de páginas web

Diferencias respecto al proceso de indexación común

Esto propicia el uso indebido (spam) para mejorar el ranking

29 Tema 6 Recuperación de información web

Procesamiento de páginas web

30 Tema 6 Recuperación de información web

Procesamiento de páginas web

Diferencias respecto al proceso de indexación común

31 Tema 6 Recuperación de información web

Procesamiento de páginas web

● Hipótesis 1: Un hiperenlace entre páginas implica un grado de

32 Tema 6 Recuperación de información web

Procesamiento de páginas web

33 Tema 6 Recuperación de información web

Procesamiento de páginas web

34 Tema 6 Recuperación de información web

35 Tema 6 Recuperación de información web

Procesamiento de páginas web

36 Tema 6 Recuperación de información web

37 Tema 6 Recuperación de información web

Por ejemplo, clasificar páginas web como buenas o maliciosas

40 Tema 6 Recuperación de información web

Nosotros estamos interesados en ordenar la salida de una

41 Tema 6 Recuperación de información web

Hyperlink-Induced Topic Search (HITS)

● Diseñado por Jon Kleinberg para valorar la importancia de

● Se basa en los conceptos de autoridades (authorities) y