Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LNR Ingles Teoria (1) - 1
LNR Ingles Teoria (1) - 1
LNR Ingles Teoria (1) - 1
1. Recuperación de
información: Introducción
W. Bruce Croft, Donald Metzler, Trevor Strohman. Los motores de búsqueda. Recuperación de información en la práctica, Pearson Education 2015
Machine Translated by Google
información (IR)
Machine Translated by Google
Recuperación de información
¿Qué es un documento?
• Ejemplos:
– páginas web, correo electrónico, libros, noticias, patentes,
artículos académicos, Word™, Powerpoint™, PDF,
publicaciones en foros, mensajes de texto, whatsapps, tweets,
etc.
• Propiedades comunes
– Contenido de texto significativo
Documentos vs Registros
Comparando texto
• Comparar el texto de la consulta con el texto del
documento y determinar cuál es una buena coincidencia
es el tema central de la recuperación de información.
Dimensiones de IR
Otros medios
Dimensiones de IR
Contenido Aplicaciones Tareas
Busqueda de literatura
Tareas de infrarrojos
• Búsqueda ad-hoc
– Encuentre documentos relevantes para una consulta de texto arbitraria:
búsqueda basada en una consulta de usuario
• Filtrado o seguimiento
– Identificar perfiles de usuario relevantes para un nuevo documento: detectar
historias de interés en función de los intereses de una persona y
proporcionar una alerta mediante correo electrónico o algún otro mecanismo .
• Clasificación
– Identificar etiquetas relevantes para documentos
• Respuesta a preguntas
– Dar una respuesta específica a una pregunta.
Machine Translated by Google
Grandes problemas en IR
• Relevancia
- ¿Qué es?
Grandes problemas en IR
• Relevancia
– Los modelos de recuperación definen una vista de relevancia
Grandes problemas en IR
• Evaluación
– Procedimientos y medidas experimentales para
comparar la salida del sistema con las expectativas del usuario
Grandes problemas en IR
mejorar la clasificación
Machine Translated by Google
IR y motores de búsqueda
IR y motores de búsqueda
Actuación
Relevancia
-Búsqueda e indexación eficientes
-Clasificación efectiva
Incorporando nuevos datos
Evaluación
-Cobertura y frescura
-Prueba y medición
• Rendimiento
– Medir y mejorar la eficiencia de la búsqueda
•
por ejemplo, reducir el tiempo de respuesta, aumentar el
rendimiento de las consultas , aumentar la velocidad de indexación
• Datos dinámicos
– La colección para la mayoría de las aplicaciones reales
cambia constantemente en términos de actualizaciones,
adiciones, eliminaciones
•
por ejemplo paginas web
– Adquirir o rastrear los documentos es una de las principales
tarea
• Escalabilidad
– Hacer que todo funcione con millones de usuarios
todos los días y muchos terabytes de documentos
– El procesamiento distribuido es esencial
• Adaptabilidad
– Cambio y puesta a punto de los componentes del motor de búsqueda
como algoritmo de clasificación, estrategia de
indexación, interfaz para diferentes aplicaciones
Machine Translated by Google
Correo no deseado
Metas
2. Motores de búsqueda
W. Bruce Croft, Donald Metzler, Trevor Strohman. Los motores de búsqueda. Recuperación de información en la práctica, Pearson Education 2015
Machine Translated by Google
Proceso de indexación
Machine Translated by Google
Proceso de indexación
Proceso de consulta
Datos de registro: por ejemplo , datos de clics que registran los documentos en los que se hizo clic durante una sesión de búsqueda
Machine Translated by Google
Proceso de consulta
• Clasificación
– utiliza consultas e índices para generar una lista clasificada
de documentos
• Evaluación
– supervisa y mide la eficacia y la eficiencia
Machine Translated by Google
Proceso de indexación
Machine Translated by Google
Adquisición de texto
• rastreador
– Identifica y adquiere documentos para la búsqueda
motor
– Muchos tipos: web, empresa, escritorio
– Los rastreadores web siguen enlaces para encontrar documentos
Adquisición de texto
• Fuentes
– Flujos de documentos en tiempo real
•
por ejemplo, fuentes web para noticias, blogs, videos, radio, televisión, …
– RSS es un estándar común para las fuentes web
• RSS "lector" puede proporcionar nuevos documentos XML para buscar
motor
• Conversión
– Convierta una variedad de documentos en un texto consistente
más formato de metadatos
• por ejemplo, HTML, XML, Word, PDF, etc. ÿ XML
– Convierta la codificación de texto para diferentes idiomas
• Usar un estándar Unicode como UTF-8
Machine Translated by Google
Adquisición de texto
• Almacén de datos de documentos
Proceso de indexación
Machine Translated by Google
Transformación de texto
• Analizador de documentos
– Procesamiento de la secuencia de tokens de texto en
el documento para reconocer elementos estructurales
•
por ejemplo, títulos, enlaces, encabezados, etc.
Transformación de texto
• Detención :
elimine palabras comunes (palabras de
parada) • p. ej., “y”, “o”, “el”, “en”
– Cierto impacto en la eficiencia y la eficacia – Puede ser
un problema para algunas consultas: p. ej., ser o no ser • Stemming –
Transformación de texto
• Análisis de enlaces
– Hace uso de enlaces y texto ancla en páginas web
– El análisis de enlaces identifica la popularidad y la información de
la comunidad.
•
por ejemplo, PageRank
Transformación de texto
• Extracción de información
– Identificar clases de términos de índice que son importantes
para algunas aplicaciones
• Clasificador
– Identifica metadatos relacionados con la clase para documentos
• es decir, asigna etiquetas a los documentos
•
por ejemplo , temas, sentimiento, género
Proceso de indexación
Machine Translated by Google
Creación de índices
• Estadísticas de documentos
– Reúne recuentos y posiciones de palabras y otros
caracteristicas
• Ponderación
– Calcula pesos para términos de índice
– Utilizado en el algoritmo de clasificación
Creación de índices
• Inversión
– Núcleo del proceso de indexación
Creación de índices
• Distribución de índices
– Distribuye índices a través de múltiples computadoras y/o
múltiples sitios
– Muchas variaciones
• Distribución de documentos, distribución de términos, replicación
– P2P e IR distribuido implican búsqueda a través de
múltiples sitios
Machine Translated by Google
Proceso de consulta
Datos de registro: por ejemplo , datos de clics que registran los documentos en los que se hizo clic durante una sesión de búsqueda
Machine Translated by Google
• Entrada de consulta :
• Transformación de consultas
– Mejora la consulta inicial, tanto antes como después de la inicial
búsqueda
• Salida de resultados
– Construye la visualización de documentos clasificados para un
consulta
Proceso de consulta
Datos de registro: por ejemplo , datos de clics que registran los documentos en los que se hizo clic durante una sesión de búsqueda
Machine Translated by Google
Clasificación
• Puntuación
– Calcula puntajes para documentos usando un algoritmo de
clasificación
Clasificación
Clasificación
• Distribución
– Procesamiento de consultas en un entorno distribuido
Proceso de consulta
Datos de registro: por ejemplo , datos de clics que registran los documentos en los que se hizo clic durante una sesión de búsqueda
Machine Translated by Google
Evaluación
• Registro
– El registro de las consultas y la interacción de los usuarios es crucial
para mejorar la eficacia y la eficiencia de la búsqueda .
• Análisis de clasificación
– Medir y ajustar la efectividad de la clasificación
• Análisis de rendimiento
– Eficiencia del sistema de medición y ajuste
Machine Translated by Google
3. Rastreos y alimentaciones
W. Bruce Croft, Donald Metzler, Trevor Strohman. Los motores de búsqueda. Recuperación de información en la práctica, Pearson Education 2015
Machine Translated by Google
rastreador web
Rastreo de la Web
Machine Translated by Google
rastreador web
• Comienza con un conjunto de semillas, que son un conjunto de URL
Rastreo web
• Los rastreadores web pasan mucho tiempo esperando
respuestas a las solicitudes
• Para reducir esta ineficiencia, los rastreadores web usan
subprocesos y obtienen cientos de páginas a la vez .
Controlando el rastreo
• Incluso rastrear un sitio lentamente enfadará a algunos
administradores de servidores web, que se oponen a
cualquier copia de sus datos
• El archivo Robots.txt se puede usar para controlar rastreadores
// cola
Frescura
• Constantemente se agregan páginas web ,
borrado y modificado
• El rastreador web debe volver a visitar
continuamente las páginas que ya ha rastreado
para ver si han cambiado a fin de mantener la
frescura de la colección de documentos.
– las copias obsoletas ya no reflejan el contenido real
de las páginas web
Machine Translated by Google
Frescura
• El protocolo HTTP tiene un tipo de solicitud especial
llamado HEAD que facilita la verificación de
cambios en la página
– devuelve información sobre la página, no la página en sí
// Etiqueta de entidad
Machine Translated by Google
Frescura
• No es posible revisar constantemente todas las páginas
– debe revisar las páginas importantes y las páginas
que cambian con frecuencia
Frescura vs Edad
Años
edad: tx
Machine Translated by Google
Años
rastrearlo
– p. ej., edad esperada con frecuencia de cambio
media ÿ = 1/7 (un cambio por semana)
Machine Translated by Google
Rastreo enfocado
• Intentos de descargar solo aquellas páginas que tratan sobre un tema en
particular
Red profunda
• sitios a los que se puede acceder solo después de ingresar algunos datos en
una forma
– páginas guionadas
• páginas que usan JavaScript u otro lenguaje del lado del cliente para generar enlaces
Machine Translated by Google
pagina de cambios
Machine Translated by Google
Rastreo distribuido
• Tres razones para usar varias computadoras
para rastrear
– Ayuda a acercar el rastreador a los sitios que rastrea
– Reduce la cantidad de sitios que el rastreador debe
recordar
– Reduce los recursos informáticos necesarios: por ejemplo , CPU
recursos para análisis y ancho de banda de red para rastrear
páginas
• El rastreador distribuido usa una función hash para
asignar direcciones URL a las computadoras que rastrean
– la función hash debe calcularse en la parte del host de cada
URL
Machine Translated by Google
Rastreos de escritorio
uso
– Muchos formatos de documentos diferentes
– Privacidad de datos muy importante
Machine Translated by Google
Fuentes de documentos
– por ejemplo, artículos de noticias, publicaciones de blog, comunicados de prensa, correo electrónico
Fuentes de documentos
• Dos tipos:
– Un push feed: alerta al suscriptor de nuevos
documentos
Ejemplo de RSS
minutos: // indicación de la frecuencia con la que se debe rastrear este archivo de fue
Machine Translated by Google
Ejemplo de RSS
RSS
Conversión
• El texto se almacena en cientos de archivos incompatibles
formatos
– por ejemplo, texto sin formato, RTF, HTML, XML, Microsoft Word, ODF,
PDF
Codificación de caracteres
Codificación de caracteres
Unicode
• La proliferación de codificaciones proviene de la
necesidad de compatibilidad y de ahorrar espacio
– UTF-8 usa un byte para inglés (ASCII), hasta 4
bytes para algunos caracteres chinos tradicionales
– UTF-32 usa 4 bytes para cada carácter
• Muchas aplicaciones utilizan UTF-32 para
codificación de texto (búsqueda aleatoria rápida) y UTF 8
para almacenamiento en disco (menos espacio)
Machine Translated by Google
Unicode
- acceso aleatorio
– compresión
– actualización
Machine Translated by Google
• Acceso aleatorio
– recuperar documentos rápidamente para calcular un fragmento para los
resultados de búsqueda – solicitar el contenido de un documento en función de
su URL – la función hash basada en la URL es típica
Archivos grandes
Compresión
– puede comprimir archivos grandes en bloques para que el acceso sea más rápido
Machine Translated by Google
Mesa grande
Mesa grande
Mesa grande
Mesa grande
claves , por ejemplo, todas las URL que comienzan con a están ubicadas en una
Detección de duplicados
Detección de duplicados
– Comparaciones O(N2 )
• Las técnicas de IR son efectivas para el escenario de búsqueda
huellas dactilares
Machine Translated by Google
Simhash
• Comparaciones de similitud usando palabras
representaciones más efectivas para encontrar casi
duplicados
– El problema es la eficiencia
Ejemplo de Simhash
Machine Translated by Google
Eliminación de ruido
ejemplo de ruido
Machine Translated by Google
• Etiquetas que se utilizan para dar formato al texto (p. ej., encabezados,
etiquetas de tabla, cambios de fuente) están representados por un bit 0
• es decir, maximizar
4. Procesamiento de textos
W. Bruce Croft, Donald Metzler, Trevor Strohman. Los motores de búsqueda. Recuperación de información en la práctica, Pearson Education 2015
Machine Translated by Google
• ¿Por qué?
– Coincidencia de la cadena exacta de caracteres escritos por
el usuario es demasiado restrictivo
Estadísticas de texto
Ley de Zipf
• La distribución de frecuencias de palabras es muy sesgada
– algunas palabras ocurren muy a menudo, muchas palabras casi nunca
ocurrir
• Ley de Zipf: –
Ley de Zipf
Machine Translated by Google
Frecuencia de r PR(%) r · pr
palabra asistente 5.095 1.021 0,013 0.13
alcantarillas 100 17.110 2,56 × 10ÿ4 0,04
cepillo de dientes 10 51.555 2,56 × 10ÿ5 0,01
materiales peligrosos 1 166.945 2,56 × 10ÿ6 0,04
Machine Translated by Google
Ley de Zipf
Ley de Zipf
• Clasificación de
Ejemplo
Crecimiento de vocabulario
Colección AP89
Machine Translated by Google
Ejemplo web
• La ley de Heaps funciona con corpus muy grandes
– ¡Nuevas palabras que aparecen incluso después de ver 30 millones!
Colección GOV2
Tokenización
Tokenización
• Ejemplo:
– “El informe semestral de 2007 de Bigcorp mostró que las ganancias
aumentaron un 10 %”. se convierte
– “El informe anual de bigcorp 2007 mostró que las ganancias aumentaron”
Problemas de tokenización
• Las palabras pequeñas pueden ser importantes en algunas
consultas, generalmente en combinaciones
•
xp, ma, pm, ben e king, el paso, maestro p, gm, j lo, segunda guerra
mundial
Problemas de tokenización
– arbusto, manzana
Problemas de tokenización