Está en la página 1de 20

Seminario de Tesis I

Maestro
Dr. Juan Carlos Leyva

Alumno
L.I. Pavel A. Álvarez Carrillo

Asesor
Dr. Inés F. Vega López
Título
Análisis Multicriterio para Mejorar la Selección de
Páginas Relevantes en un Spider Enfocado
Enfoques de análisis de la
Web

Enfoques de análisis de la Web para la
búsqueda de información
 Análisis de la estructura
 Análisis de contenido

Medidas de semejanza por estructura
 Jaccard de ligas

Medidas de semejanza por contenido
 Jaccard de Palabras
 Coseno
 Distancia Euclidiana
Conceptos básicos

Bolsa de palabras.- Lista de palabras que
representan al conjunto de datos.

Stop Word.- Lista de palabras que serán
excluidas para conformar la bolsa de palabras.

Vector de pesos.- Contiene el valor de
importancia de cada palabra en la bolsa de
palabras que representa a un documento.
Comparar los documentos A y B

Crear la lista Stop Words

Construir la Bolsa de Palabras

Calcular los pesos de las palabras para
cada documento (vector de pesos).

Aplicar una medida de semejanza entre
los dos vectores de pesos. S(A,B)
Conjuntos de datos de prueba
Conjunto de datos

Artículos Científicos

7 Sectors

Syskill and Webert Web Page Rating (SW)

WebKB Project

Experiment for COLT 98


202 MB en 11,817 documentos Web
Pruebas realizadas

Se seleccionaron 5 conjuntos de datos de
prueba

Se aplicó el algoritmo de clustering K-means a
cada conjunto de datos utilizando como
medidas de semejanza, jaccar de palabras,
coseno y distancia euclidiana.

Se evaluaron los clusters resultantes midiendo
la entropía de los clusters.
Resultados obtenidos
Artículos
Jaccard Coseno Euclideana Artículos Jaccard
10 0.54 0.35 0.90 Coseno
Euclideana
20 0.38 0.35 0.90
30 0.48 0.34 0.99
40 0.63 0.37 0.96 1.2
50 0.44 0.44 0.94
60 0.44 0.46 0.93
70 0.48 0.46 0.98 1
80 0.47 0.40 1.00
90 0.54 0.43 0.89
100 0.59 0.42 0.98 0.8
Promedio 0.50 0.40 0.95

0.6

0.4

0.2

0
10 20 30 40 50 60 70 80 90 100
SW
Jaccard Coseno Euclideana SW Jaccard
10 0.45 0.45 0.98 Coseno
Euclideana
20 0.35 0.32 0.95
30 0.50 0.48 0.97
40 0.52 0.52 1.14 1.4

50 0.54 0.54 1.14


60 0.54 0.58 1.13
1.2
70 0.55 0.59 1.16
80 0.53 0.35 1.12
90 0.50 0.35 1.09 1
100 0.49 0.35 1.05
110 0.48 0.35 1.01
0.8
120 0.47 0.52 0.94
130 0.47 0.34 0.99
140 0.49 0.36 0.94
0.6
150 0.49 0.46 0.98
160 0.49 0.33 0.94
170 0.48 0.38 0.98 0.4
180 0.50 0.33 1.05
190 0.49 0.45 1.00
0.2
200 0.50 0.34 1.05
Promedio 0.49 0.42 1.03

0
10
20
30
40
50

70
60

80
90
100

120
130

170
110

140
150
160

180
190
200
7Sectors
Jaccard Coseno Euclidiana
10 1.81 1.81 1.81
7 Sectors jaccard
coseno
20 1.80 1.81 1.81 euclidiana
30 1.80 1.81 1.81
40 1.81 1.81 1.81 1.82
50 1.79 1.81 1.81
60 1.81 1.81 1.81
1.81
70 1.80 1.81 1.81
80 1.80 1.80 1.81
90 1.81 1.79 1.81 1.8
100 1.80 1.80 1.81

Entropía
110 1.80 1.81 1.81
1.79
120 1.81 1.80 1.78
130 1.80 1.81 1.81
140 1.79 1.80 1.81 1.78
150 1.80 1.80 1.81
160 1.80 1.80 1.81
1.77
170 1.81 1.81 1.81
180 1.80 1.81 1.81
190 1.80 1.81 1.81 1.76
200 1.81 1.81 1.81
Promedio 1.8015 1.8060 1.8076
1.75
10 20 30 40 50 60 70 80 Palabras por
90 100 110 120grupo
130 140 150 160 170 180 190 200
webKB
Jaccard Coseno Euclidiana webKB Jaccard
10 1.24 1.23 1.44 Coseno
20 1.41 1.19 1.42 Euclidiana
30 1.42 1.19 1.44
40 1.45 1.25 1.48
1.7
50 1.45 1.21 1.46
60 1.46 1.29 1.45
70 1.44 1.48 1.46 1.6
80 1.34 1.49 1.46
90 1.35 1.50 1.48
1.5
100 1.36 1.49 1.48 Entropía
110 1.38 1.40 1.50
120 1.36 1.45 1.50 1.4
130 1.42 1.43 1.49
140 1.42 1.31 1.47
1.3
150 1.43 1.43 1.49
160 1.44 1.43 1.49
170 1.43 1.48 1.49 1.2
180 1.42 1.48 1.49
190 1.42 1.48 1.49
1.1
200 1.43 1.48 1.49
Promedio 1.40 1.39 1.47
1
10 20 30 40 50 60 70 80 Conjunto
90 100 110de
120palabras
130 140 150 160 170 180 190 200
Co-training
Co-Training Jaccard
Jaccard Coseno Euclidiana Coseno
Euclidiana
10 0.52 0.38 0.52
20 0.52 0.50 0.52
30 0.52 0.50 0.52
0.55
40 0.52 0.50 0.51
50 0.52 0.52 0.53 0.53
60 0.52 0.52 0.53
70 0.52 0.52 0.53 0.51
80 0.52 0.52 0.53
90 0.52 0.52 0.53 0.49

100 0.52 0.52 0.53


Entropía

0.47
110 0.52 0.52 0.52
120 0.52 0.52 0.52
0.45
130 0.52 0.52 0.52
140 0.52 0.52 0.52 0.43
150 0.52 0.52 0.52
160 0.52 0.52 0.52 0.41
170 0.52 0.52 0.52
180 0.52 0.52 0.52 0.39

190 0.52 0.52 0.52


0.37
200 0.52 0.52 0.52
Promedio0.52288 0.51286 0.52290
0.35
10 20 30 40 50 60 70 80 Conjunto de 120
90 100 110 palabras
130 140 150 160 170 180 190 200
Resultados promedio por
conjunto de datos
Jaccard Coseno Euclidiana
Artículos 0.497497 0.402200 0.947375
SW 0.490805 0.419818 1.030132
7 Sectors 1.801457 1.805953 1.807561
webKB 1.403985 1.386061 1.474647
Co - training 0.522883 0.512858 0.522899
Clonclusiones

Los resultados obtenidos afirman que
para la comparación de semejanza entre
documentos Web la medida coseno
obtiene mejores resultados de
semajanza con esta técnica de
clustering.

También podría gustarte