Está en la página 1de 47

Recuperción de Información IV

Evaluación de la Eficacia
de la Recuperación
Marco Molina 2021
Objetivos de la Unidad
En esta unidad se analizarán los conceptos y medidas esenciales empleadas en RI
para un sistema realiza bien su labor. Se persiguen cinco objetivos:
1. Comprender la razón de ser de la evaluación en RI y el modo en que se lleva a
cabo esta tarea.
2. Conocer los conceptos nucleares sobre los que se desarrolla la evaluación de la
eficacia de los sistemas de RI.
3. Comprender las medidas de eficacia, basadas en la curva Precisión /
Exhaustividad, en especial las que consideran interpolación y valores nulos.
4. Entender las medidas que consideran al usuario de los sistemas de RI.
5. Entender el por qué de la existencia de las colecciones de prueba y sus
características.
Introducción
• En el ámbito de la RI se trata de mejorar el funcionamiento de los sistemas, a fin
de que los usuarios se sientan más satisfechos con las respuestas.
• Par ello, es necesario cuantificar en qué medida los sistemas de RI realizan bien
su tarea, comparándolos con los demás.
• Para ello, se debe discernir qué técnicas son las mejores y cómo aplicarlas.
• En la satisfacción del usuario pueden influir multitud de factores:
• La usabilidad del sistema y la calidad de los resultados mostrados.
• Sencillez y claridad de la interfaz.
• Tiempo que le toma al sistema mostrar la respuesta a la consulta.
• Sin embargo, una medida que involucre todos estos aspectos sería compleja.
• Por lo tanto la evaluación se divide en dos aspectos: Eficacia y Eficiencia.
Introducción - Eficacia y Eficiencia
• La eficacia de un Sistema de RI corresponde a la capacidad para recuperar la
información pertinente para una consulta.
• La eficiencia alude a los aspectos relacionados con el uso de hardware, tiempo y
memoria empleados para proporcionar la respuesta adecuada a una consulta.
• Dado que la eficiencia tiene que ver con los aspectos más técnicos, en esta
unidad nos centraremos en los aspectos concernientes a la eficacia del sistema.
• Dentro de la eficacia, el concepto nuclear es el de Relevancia, que es una medida
de la pertinencia de un documento recuperado por el sistema.
• Las dos medidas que se emplean universalmente, para medir la eficacia de un
sistema de RI son: La precisión y la exhaustividad.
• Para abordar el tema de las medidas de eficacia, se las divide en dos tipos:
• Las que usan ciertos valores de precisión y exhaustividad calculados por el sistema.
• Las que realizan interpolaciones o cálculo de medias con los valores iniciales de P y E.
Introducción – Pruebas de
significación estadística
• Estas medidas asumen que el usuario no interfiere en la relevancia o irrelevancia
de los documentos en relación a la consulta.
• Se tratarán, más adelante, medidas de eficacia orientadas a un usuario real.
• Para evitar el sesgo introducido por el usuario a la hora de evaluar un sistema de
RI, se han creado colecciones de prueba que serán comunes para todos los
sistemas a ser evaluados, que incluyen juicios de relevancia sobre qué
documentos se adecúan más a las consultas previamente fijadas.
• A pesar de las colecciones de prueba, los jueces son humanos y pueden también
cometer errores, por lo tanto es necesario encontrar métodos “imparciales”
basados en matemática (Pruebas de significación estadística).
• Se han propuesto pruebas no paramétricas como: 1) Test t pareado de student.
2) Prueba de signos. 3) Test de Wilcoxon. 4) Bootstrap. 5) Aleatorización de
Fisher. -- La Prueba 3) es la más usada.
os
ás ic
s B
p t o
ce
on
C
Eficacia y Eficiencia
• La eficacia mide la capacidad de un SRI para responder con documentos
relevantes a una consulta, no considerando los documentos irrelevantes.
• Por lo tanto, la eficacia se mide sobre la base del significado de relevancia.
• Además, la eficacia tendría que medir el grado de satisfacción del usuario, lo cual
incluiría factores de difícil medición (Ej. Ayuda que ofrece el sistema).
• Para facilitar la experimentación estos factores se obvian en la evaluación.
• A pesar de la complejidad que reviste al término eficacia, es el aspecto que
predomina en la evaluación de los SRIs.
• La eficiencia mide los aspectos relativos al mejor aprovechamiento de los
recursos de hardware y software empleados en la recuperación.
• Ej. Tiempo de CPU; memoria temporal; RAM utilizada; tasa de consultas; la
latencia de consulta. Las dos últimas suelen ser las más empleadas.
Relevancia
• Hay dos aspectos que definen la utilidad real de un documento, esto es, nos
referimos a la coincidencia con los términos de la consulta y, por otro lado, con la
novedad que representa para el usuario.
• En el concepto de relevancia se ha omitido el aspecto relativo a la novedad.
• La relevancia percibida de esta manera, facilita la experimentación, pues se
obtiene una mayor grado de consenso a la hora de evaluarla con respecto a una
consulta, independientemente del usuario.
• Por todo esto, este es el concepto generalmente usado para evaluar un SRI.
• A pesar de la sencillez que reviste la relevancia, persiste el problema de la escala.
• Los usuarios reales prefieren calificar un documento como: 1. Claramente
relevante. 2. Claramente irrelevante y 3. Parcialmente relevante.
• Se usa con mucha frecuencia la escala binaria 1. Relevante y 2. Irrelevante.
Exhaustividad y Precisión
• Del concepto de relevancia se derivan dos medidas que cuantifican la eficacia de
un SRI, se trata de la exhaustividad y la precisión.
• La exhaustividad representa la medida en la que el sistema es capaz de detectar
todos los documentos relevantes de una colección, con respecto a una consulta,
permitiendo la presentación de éstos al usuario.
• La precisión representa la medida en la que el sistema es capaz de detectar
todos los documentos irrelevantes de una colección, con respecto a una
consulta, impidiendo la presentación de éstos al usuario.
Proporción de documentos relevantes
recuperados como respuesta a una consulta.

Razón de documentos relevantes


recuperados con respecto a los recuperados.
Exhaustividad y Precisión
• Sea R el conjunto de documentos relevantes, NoR el de los irrelevantes; Rec el
conjunto de documentos recuperados y noRec los no recuperados.
• El operador Ո permite elaborar la siguiente tabla.
Documentos Relevantes No Relevantes
Recuperados
No Recuperados

• La exhaustividad y la precisión se expresan con las siguientes fórmulas:



Ejemplo 1
Un SRI contiene una colección con 10 documentos relevantes, de los cuales han
sido recuperados 4, y además 12 documentos irrelevantes, ante una consulta.
Hallar la exhaustividad y la precisión del sistema en relación a esta consulta.
Rel Rec = 4 R = 10 Rec NoR = 12 N = 22
=4 = 12
Exhaustividad = 4 / 10 = 0,4
Precisión = 4 / 16 = 0,25
Ejemplo 2
Ante una consulta, un SRI contiene una colección con 5 documentos relevantes. El
sistema muestra 8 documentos en el siguiente orden:
Posición: 1 2 3 4 5 6 7 8
r nr r r nr r nr r
Hallar la exhaustividad y la precisión del sistema en relación a esta consulta.
Rec = 8 R=5 NoR = 3 NoRec = ?
=5 =0
Exhaustividad = 5 / 5 = 1 Precisión = 5 / 8 = 0,625
Se suele calcular la exhaustividad y precisión para cada posición de la salida:
Pos. 1 Pos. 2 Pos. 3 Pos. 4 Pos. 5 Pos. 6 Pos. 7 Pos. 8
Exhaustividad 1/5=0,2 1/5=0,2 2/5=0,4 3/5=0,6 3/5=0,6 4/5=0,8 4/5=0,8 5/5=1
Precisión 1/1=1 1/2=0,5 2/3=0,67 3/4=0,75 3/5=0,6 4/6=0,67 4/7=0,57 5/8=0,63
Curva Precisión-Exhaustividad
para una consulta
• Los valores de la tabla del ejemplo anterior, suelen representarse gráficamente,
colocando la exhaustividad en el eje de las abcisas y la precisión en el de las
ordenadas.
Precisión

0,8

0,6

0,4

0,2

Exhaustividad
0 0,2 0,4 0,6 0,8 1
Medida F de Eficacia
• Existen medidas de la eficacia que unifican la precisión y la exhaustividad en una
única fórmula. Entre otras existe la medida F (0 < F < 1), definida como la media
armónica ponderada (weightted harmonic mean) de exhaustividad y precisión.

• es una constante que puede tomar valores enteros: >= 0.


• Cuando ≠ 1 se enfatiza una de las medidas:
• Si > 1, se enfatiza la exhaustividad.
• Si < 1, se enfatiza la precisión.
• Si = 1, ambas medidas se ponderan por igual.
Ejemplo 3
• Usaremos el ejemplo 1 para hallar F1.
• Habíamos obtenido los valores:
• 0,4 para la exhaustividad y 0,25 para la precisión, por lo tanto:
va
c ur
ela
t i r d
p ar ió n
a a e c is
a c i P r
e c
fi dad -
s d e t iv i
id a h u s
ed Exa
M
Medidas basadas en puntos de la
curva
• La curva Exhaustividad – Precisión ofrece una buena información sobre el
comportamiento del sistema, cuyo análisis se puede realizar de dos maneras:
• Basándose directamente en los puntos de la curva.
• Interpolando valores y calculando valores medios.
• Las medidas basadas en puntos de la curva resumen el comportamiento del
sistema destacando uno o más puntos concretos de la curva Exhaustividad-
Precisión. En este tipo de medidas se encuentran las siguientes:
• P@n  Refleja el valor de la precisión de la posición n-ésima de la lista ordenada de
documentos presentada al usuario ante una consulta.
• Si bien es cierto que se puede mostar la Precisión a cualquier punto, la medida más
usada es para la posición 10 (P@10).
• A continuación un ejemplo.
Ejemplo 4
Sea un SRI al que se le consulta. En la colección hay 6 documentos relevantes para
esa consulta. El sistema muestra 15 documentos, en orden decreciente de
relevancia, como sigue:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
nr r nr r nr r nr r r nr r nr nr nr nr
Calcular P@1, P@10 y P@15.
P@1 = 0 / 1 = 0
P@10 = 5 / 10 = 0,5
P@15 = 6 / 15 = 0,4
Los resultados indican el porcentaje de documentos relevantes recuperados en cada
posición. Esto tiene el inconveniente de no incluir la Exhaustividad en la medida.
Para ello, se usa la R-Precision que calcula la Precisión en la posición R-ésima, conocido R.
Ejemplo 5
Calcular la R-Precision del sistema del ejemplo anterior.
En vista de que la colección posee 6 documentos relevantes en relación a la
consulta, R-Precision será la P@6:
R-Precision = 3 / 6 = 0,5
Esto indica que se han recuperado la mitad de los documentos relevantes, siendo
que la R-Precision óptima es siempre 1.
Una medida que usa varios puntos de la curva para su cálculo, es la de los 11
valores de Precisión, la misma que consiste en tomar 11 valores de precisión
correspondientes a los niveles de exhaustividad que van de 0 a 1, a intervalos de
0,1. A seguir un ejemplo de esta medida.
Ejemplo 6
Suponga que, para una consulta concreta, un SRI tiene 10 documentos relevantes
en su colección. La respuesta que muestra consta de 20 documentos ordenados
así:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
nr r nr r r r nr nr r nr nr nr r nr r r nr r r nr
Calcular la tabla de 11 valores de Precisión con Exhaustividad entre o y 1, a intervalos de 0,1. Si a un
valor de exhaustividad le corresponden varios valores de precisión, se toma el máximo de ellos.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Ex. 0 0,1 0,1 0,2 0,3 0,4 0,4 0,4 0,5 0,5 0,5 0,5 0,6 0,6 0,7 0,8 0,8 0,9 1 1
Pr. 0 0,5 0,3 0,5 0,6 0,7 0,6 0,5 0,6 0,5 0,5 0,4 0,5 0,4 0,5 0,5 0,5 0,5 0,5 0,5

1 2 3 4 5 6 7 8 9 10 11
Exhaustividad 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Precisión 0 0,5 0,5 0,6 0,7 0,6 0,5 0,5 0,5 0,5 0,5
Medidas que emplean
interpolación y valores medios
• Actualmente se emplean mucho, las medidas basadas en la inerpolación y
cálculo de valores medios, a partir de la gráfica Precisión – Exhaustividad.
• Esta fórmula define la Precisión interpolada, a cierto nivel de Exhaustividad.

• Donde: es la Precisión interpolada a un cierto nivel de Exhaustividad .


es Precisión; es Exhaustividad; y T es la tabla con los pares ().
• Por lo tanto, la Precisión interpolada es el valor máximo de precisión para un
nivel específico de Exhaustividad o superior, a partir de la tabla de resultados.
Ejemplo 7
Aplicaremos los resultados del ejemplo 2, para obtener, a partir de ellos, la
Precisión interpolada correspondiente a tal sistema y a tal consulta.
La tabla a seguir, muestra los resultados obtenidos en ese ejemplo:

1 2 3 4 5 6 7 8 1
Exhaustividad 0,2 0,2 0,4 0,6 0,6 0,8 0,8 1 0,8
Precisión 1 0,5 0,67 0,75 0,6 0,67 0,57 0,63
0,6

1 4 6 8 0,4
Exhaustividad 0,2 0,6 0,8 1
0,2
Precisión interpolada 1 0,75 0,67 0,63

La línea naranja corresponde a la Precisión interpolada. 0 0,2 0,4 0,6 0,8 1


Precisión interpolada de 11 puntos
• Hay una medida que, al tiempo que usa la interpolación, también usa un
subconjunto de puntos de la gráfica Exhaustividad – Precisión. Se trata de la
Precisión interpolada de 11 puntos.
• Esta medida resume el comportamiento del sistema a través de 11 valores de
Precisión interpolados y obtenidos a niveles de Exhaustividad que van de 0 a 1
tomados a intervalos de 0,1.
• En definitiva, esta medida describe la eficacia de un sistema en relación a una
cierta consulta q, a través de 11 pares de números.
Ejemplo 8
• Emplearemos el ejemplo 7 para obtener la tabla con los 11 puntos
correspondientes a ese sistema y su consulta.
1 4 6 8
Exhaustividad 0,2 0,6 0,8 1
Precisión interpolada 1 0,75 0,67 0,63

• Para Exhaustividad cero no hay valor de precisión, lo llenamos con el valor de


1, ... Y así sucesivametne con los valores superiores, como se muestra en la
siguiente tabla:
1 2 3 4 5 6 7 8 9 10 11
Exhaustividad 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Precisión 1 1 1 0,75 0,75 0,75 0,75 0,67 0,67 0,63 0,63
Ejemplo 9
• Al realizar varias consultas en un SRI, se suele calcular la Precisión Interpolada
Promedio. Para ello, se calculan los valores de las tablas de Precisión Interpolada
y se genera una tabla con la media aritmética para cada valor de exhaustividad.
• Supongamos que se formulan dos consultas a un SRI y se obtienen las siguientes
tablas de Precisión Interpolada:
1 3 4 5 2 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
Exhaust. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Exhaust. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Precisión 1 1 1 0,75 0,75 0,75 0,75 0,67 0,63 0,63 0,63 Precisión 0, 0,6 0,6 0,6 0,52 0,52 0,52 0,52 0,48 0,48 0,48
6

• Finalmente se obtiene la tabla de Precisión Interpolada Promedio para este


sistema y estas consultas, cuyo resultado es el siguiente:
1 2 3 4 5 6 7 8 9 10 11
Exhaustividad 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Precisión 0,8 0,8 0,8 0,68 0,64 0,64 0,64 0,60 0,56 0,56 0,56
Ejemplo 9 – Gráfica
Precisión Interpolada Promedio para
las dos consultas

0,8

0,6

0,4

0,2

0 0,2 0,4 0,6 0,8 1


Ejemplo 10
• Para comparar el comportamiento de varios SRIs, se utiliza la Gráfica de Curvas
de Precisión Interpolada Promedio. Tomemos los dos sistemas con las sus tablas
de Precisión Interpolada Promedio:
Gráfica de las Curvas de Precisión
Interpolada Promedio

1
1 2 3 4 5 6 7 8 9 10 11 Sistema B
Exhaust. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,8
Precisión 0,80 0,80 0,80 0,640,640,640,600,58 0,56 0,56 0,53 0,6
Sistema A
0,4
1 2 3 4 5 6 7 8 9 10 11
Exhaust. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,2
Precisión 0,95 0,95 0,95 0,8 0,8 0,8 0,7 0,7 0,58 0,56 0,56
0 0,2 0,4 0,6 0,8 1
Precisión Media (AP)
• Ciertas medidas emplean un único valor para representar la eficacia de un SRI en
relación a una consulta. Estas medidas parten de la Precisión Promedio:

• Donde |Rec| es el número total de documentos recuperados.


• P(i) es la precisión en la posición i de la respuesta ordenada.
• rel(i) es la relevancia del documento de la posición i. (1 se es relevante y 0 si no lo es)
• |R*| es el Número de documentos relevantes en el conjunto Rec.
• La precisión media se concibe como la media aritmética de los valores de
precisión de aquellas posiciones en las que se recupera un documento relevante
y se aumenta la exhaustividad.
Ejemplo 11
• Emplearemos los datos del ejemplo 2 para calcular la Precisión Media de ese SRI
en relación a esa consulta. Puesto que se recuperan documentos relevantes en
las posiciones 1, 3, 4, 6 y 8, la Precisión Media se calcula de la siguiente forma:
Precisión Media Promedio (MAP)
• A fin de representar la precisión de un SRI para varias consultas, con un solo
número, se utiliza la Precisión Media Promedio (MAP). Mide la eficacia de un SRI
en relación a un conjunto de consultas.

• Donde Q es el número total de consultas efectuadas al sistema.


• AP(q) es la Precisión Media obtenida para cada una de las consultas realizadas.
• En otras palabras, para calcular MAP, se calcula la Precisión Media para cada
consulta, se suman estas precisiones y se divide para el número de consultas.
Ejemplo 12
• Emplearemos las tablas Precisión – Exhaustividad para dos consultas realizadas
en un SRI, para calcular la MAP. Las tablas para q1 y q2 son:
Pos. 1 Pos. 2 Pos. 3 Pos. 4 Pos. 5 Pos. 6 Pos. 7 Pos. 8
Exhaustividad 0,2 0,3 0,4 0,6 0,6 0,8 0,8 1
Precisión 0,1 0,5 0,67 0,75 0,6 0,67 0,57 0,63

Pos. 1 Pos. 2 Pos. 3 Pos. 4 Pos. 5 Pos. 6


Exhaustividad 0 0,25 0,5 0,5 0,75 1
Precisión 0 0,5 0,67 0,5 0,6 0,67

0 , 56+ 0,61
𝑀𝐴𝑃= =0 , 59
2
ar i o
Us u
a s al
t a d
r ien
a s O
ed id
M
Medidas orientadas al usuario
• Las medidas de precisión y exhaustividad vistas, asumen que todos los usuarios
responden de igual forma a los resultados mostrados por los SRIs.
• Esto, por supuesto, está alejado de la realidad; por ello, se han propuesto
medidas que tomen en cuenta a los usuarios reales de los SRIs.
• 1. Tasa de Cobertura (Coverage Ratio): Es la proporción entre todos los documentos relevantes
conocidos previamente por el usuario y los relevantes conocidos por el usuario que fueron
recuperados por el SRI.
• 2. Tasa de Novedad (Novelty Ratio): Es la proporción entre los documentos relevantes que el
usuario desconocía previamente y los relevantes recuperados por el SRI.
• 3. Exhaustividad Relativa (Relative Recall): Es la relación entre los documentos relevantes
recuperados por el sistema y los relevantes conocidos por el usuario.
• 4. Esfuerzo de Exhaustividad (Recall effort): Relación entre los documentos relevantes deseados
por el usuario y los que examina para encontrarlos.
Ejemplo 13
• Supongamos que un usuario conoce, previamente la consulta, 16 documentos de
la colección, que son relevantes. Finalmente, el sistema muestra 12 documentos
relevantes, de los que el usuario conoce solamente 4.
• Para el cálculo de la Tasa de Cobertura, tomamos en cuenta los 4 documentos
relevantes recuperados y conocidos por el usuario; y los 16 documentos
relevantes, previamente conocidos por el usuario.
• Para calcular la Tasa de Novedad, se toma en cuenta los 8 documentos
relevantes recuperados y que no conocía el usuario y los documentos relevantes
recuperados por el SRI.
Ejemplo 14
• La Exhaustividad relativa cuantifica en qué medida el sistema es capaz de
recuperar los documentos relevantes que el usuario conoce. Supongamos que
un usuario desea encontrar 5 documentos relevantes y el sistema le muestra 15,
8 de ellos relevantes.
• En este caso, la Exhaustividad Relativa será la tasa entre los documentos
relevantes que el usuario deseaba y los documentos relevantes recuperados:

En el caso de que solamente hubiesen sido recuperados 3 documentos relvantes:

• Si el SRI recupera igual o mayor número de documentos relevantes que los deseados
por el usuario, la Exhaustividad Relativa será igual a 1. Si recupera menos, su valor
será menor que 1.
Ejemplo 15
• Tomemos el mismo ejemplo anterior. Si el usuario desea 5 documentos
relevantes y los encuentra en los cinco primeros documentos mostrados:

• En el caso de que tuviera que revisar los 12 documentos mostrados para cubrir
sus cinco documentos deseados, entonces tendremos:

• Cuanto mayor es esta medida, significa que el usuario tiene que efectuar un
esfuerzo menor para localizar los documentos relevantes deseados.
Colecciones de Prueba
• Para evaluar la eficacia de un SRI, de forma experimental, con miras a probar qué
algoritmos y en qué contextos son preferibles, se han creado colecciones de
prueba que ayudan en esta labor de investigación.
• Una colección de prueba, para ser útil frente a la comparación de sistemas,
deben constar de tres elementos fundamentales:
• Un conjunto de documentos;
• Un conjunto de preguntas; y,
• Un conjunto de juicios de relevancia.
• De entre las coleccione más destacadas están las siguientes:
• Colección Cranfield: Es la primera, desarrollada a finales de los 50’s, con cerca de
1400 resúmenes de artículos de revistas de aerodinámica; 225 preguntas y juicios de
relevancia para todas ellas, emitidos por los autores de los artículos.
Colecciones de Prueba
• Colección CACM: Creada a finales de los 70’s con 3200 títulos publicados en
Comunications of the ACM sobre informática, además de 52 preguntas y juicios de
relevancia, para todas ellas, emitidos por profesores y estudiantes del área.
• Colección TREC: Es un conjunto de colecciones que se han ido desarrollando al hilo
de las conferencias TREC desde 1992, organizadas por el Institute of Standards and
Technology (NIST). Los documentos provienen de fuentes variadas, como periódicos
(ej: Wall Street Journal o el Finantial Times); documentos de patentes de los EEUU,
hasta conjuntos de páginas web. El gobierno americano se ha encargado de elaborar
las preguntas y los juicios de relevancia. Actualmente, es la colección más grande.
• Los documentos de cada subcolección de TREC están etiquetados en SGML con
un Document Type Definition (DTD) para cada subcolección, a fin de facilitar el
análisis de su contenido. Las estructuras de los documentos son variadas, por lo
que se ha impuesto unos campos comunes como el número de documento
(<docno>) y el campo de texto (<text>). Vea un ejemplo en la siguiente figura.
DocumentoS de la Colección TREC
<doc>
<docno> WS1880406-0090</docno>
<hl> AT&T Unveils Services to Upgrade Phone NetWorks Under Global Plan </hl>
<author> Janet Guyon (WSJ Staff)<author/>
<dateline> New York</dateline>
<text>
American Telephone and Telegraph Co. Introduce the first of a new
generation of pone services with broad…
</text>
</doc>

• La colección TREC incluye preguntas (topics) cada una de las cuales consta de
una descripción en lenguaje natural de una necesidad de información. (No son
consultas). El algoritmo de cada sistema, formulará la consulta a partir del topic,
lo cual se considera parte del procedimiento de evaluación.
• La siguiente figura muestra el topic 168 de la colección TREC.
DocumentoS de la Colección TREC

<top>
<num> Number: 168
<title> Topic: FinancingAMTRAK
<desc> Description:
A document Will address the role of the Federal Government in financing the
operation of the National Railroad Transportation Corporation (AMTRAK).
<narr> Narrative: A relevant document must provide information on the
goverment’s responsability to make AMTRAK an economically viable
entity. It could also discuss the privatization of AMTRAK as an alternative
to continue government subsidies. Documents comparing government
Studies given to air and bus transportation with those provided to
AMTRAK would also be relevant.
</top>
DocumentoS de la Colección TREC
• Los juicios de relevancia se incluyen en ficheros denominados qrel, cuyo formato es:
TOPIC ITERATION DOCUMENT# RELEVANCY
• Donde:
• TOPIC: número del topic con el que se relaciona el juicio de relevancia.
• ITERATION: Número de iteración por retroalimentación. (Normalmente no usado)
• DOCUMENT#: Número de documento oficial con el que se relaciona el juicio de relevancia.
• RELEVANCY: Código binario para el juicio de relevancia. (0 = No Relevante y 1 = Relevante)
• Un fichero qrel tendría la siguiente apariencia:
1 0 AP880212-0161 0
1 0 AP880216-0139 1
1 0 AP880216-0169 0
1 0 AP880217-0026 0
a s a
la C
p a ra
r e a
Ta
Ejercicios de Teoría
1. Una colección contiene 20 documentos relevantes, ante una consulta. El SRI A muestra 10
relevantes y 5 irrelevantes, mientras que el SRI B muestra 5 relevantes y 10 irrelevantes. Calcule
le Exhaustividad y Precisión. ¿Cuál logra mejores resultados?
2. Un SRI tiene 5 documentos relevantes, ante una consulta q, y recupera 14:
r r r r r nr nr nr nr nr nr nr nr nr
Calcule la Exhaustividad, Precisión y F1, F5 y F0,1. ¿Cuál de las medidas F enfatiza la Exhaustividad y
cuál la Precisión?
3. Un SRI tiene 5 documentos relevantes, ante una consulta q, y recupera 14:
r r nr r nr r nr nr nr nr nr nr r nr
Calcule la Exhaustividad, Precisión y F para cada posición de la respuesta mostrada.
4. Ante una consulta, un SRI contiene 5 documentos relevantes. Calcule P@1, P@10 y la R-
Precision, si los resultados mostrados siguen el siguiente orden:
r r r r r r r r r r r r r r nr nr nr nr nr nr
5. Calcular P@1, P@10 y P@20; para un SRI que contiene 20 documentos relevantes ante una
consulta y recupera 20 documentos en el siguiente orden:
nr r nr nr r nr nr nr nr r nr nr nr nr r nr nr nr nr r
6. Hallar la tabla de los 11 puntos de Precisión Interpolada, a niveles de Exhaustividad desde 0 a 1
en intervalos de 0,1; para un SRI que contiene 10 documentos relevantes ante una consulta y
recupera 20 documentos en el siguiente orden:
nr r nr r r r nr nr r nr nr nr r nr r r nr r r nr
7. Se realizan dos consultas a un SRI. Si sus tablas de 11 puntos de Precisión Interpolada son las
siguientes; calcule la Tabla de Precisión Interpolada Promedio.
Exh. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Pr q1 0,67 0,67 0,67 0,67 0,67 0,56 0,53 0,53 0,53 0,53 0,53
Pr q2 1 1 0,67 0,67 0,67 0,67 0,56 0,56 0,43 0,43 0,43

8. Se realizan 2 consultas, A y B, a un SRI. En relación a A, el SRI contiene 5 documentos


relevantes, y 8 en relación a B. Hallar el MAP si los resultados obtenidos para A y B son:
Consulta A: nr r nr nr r nr r nr nr r r nr nr nr nr
Consulta B: r nr r r nr nr r nr r r nr r nr r nr
9. A) Un usuario formula una consulta en un SRI y desea recuperar 22
documentos relevantes. El sistema recupera 30 documentos, de los que 11 son
relevantes. Calacule la Exhaustividad Relativa. B) Si el sistema recupera 30
documentos de los cuales 12 son relevantes. Si el usuario tiene que examinar
los 30 documentos para localizar los 12 relevantes que desea. Calcule la
Exhaustividad Relativa y el Esfuerzo de Exhaustividad en estas nuevas
circunstancias.
10. A) Un usuario formula una consulta, conociendo que hay 15 documentos
relevantes en la colección. El SRI recupera 30 documentos, de los cuales 11 son
relevantes, incluyendo entre ellos, 4 conocidos previamente por el usuario.
Calcule la Cobertura y la Novedad. B) Suponga ahora que el sistema recupera
50 documentos relevantes, de los cuales 10 eran conocidos por el usuario.
Calcule la Cobertura y la Novedad en estas nuevas circunstancias. C) Razone en
cuál de estas circunstancias, (A) o (B), el usuario se sentiría más satisfecho con
el SRI y deduzca qué valores de Cobertura y Novedad implican mejor Eficacia del
sistema, desde el punto de vista del usuario..
Ejercicios de Programación
1. Prepare una hoja de cálculo para hallar la Precisión y la Exhaustividad dada la
respuesta ordenada de un SRI, ante una consulta. Verifique su hoja con los
datos del ejemplo 2.

2. Prepare una hoja de cálculo para hallar el MAP dada la respuesta ordenada de
un SRI, ante dos consultas. Verifique su hoja con los datos del ejemplo 12.
3. Desarrolle un programa para calcular la cobertura y la novedad, incluyendo la
solicitud de los datos al usuario.

También podría gustarte