Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Avances 02
Avances 02
Maestro
Dr. Juan Carlos Leyva
Alumno
L.I. Pavel A. Álvarez Carrillo
Asesor
Dr. Inés F. Vega López
Título
Análisis Multicriterio para Mejorar la Selección de
Páginas Relevantes en un Spider Enfocado
Enfoques de análisis de la
Web
Enfoques de análisis de la Web para la
búsqueda de información
Análisis de la estructura
Análisis de contenido
Medidas de semejanza por estructura
Jaccard de ligas
Medidas de semejanza por contenido
Jaccard de Palabras
Coseno
Distancia Euclidiana
Conceptos básicos
Bolsa de palabras.- Lista de palabras que
representan al conjunto de datos.
Stop Word.- Lista de palabras que serán
excluidas para conformar la bolsa de palabras.
Vector de pesos.- Contiene el valor de
importancia de cada palabra en la bolsa de
palabras que representa a un documento.
Comparar los documentos A y B
Crear la lista Stop Words
Construir la Bolsa de Palabras
Calcular los pesos de las palabras para
cada documento (vector de pesos).
Aplicar una medida de semejanza entre
los dos vectores de pesos. S(A,B)
Conjuntos de datos de prueba
Conjunto de datos
Artículos Científicos
7 Sectors
Syskill and Webert Web Page Rating (SW)
WebKB Project
Experiment for COLT 98
202 MB en 11,817 documentos Web
Pruebas realizadas
Se seleccionaron 5 conjuntos de datos de
prueba
Se aplicó el algoritmo de clustering K-means a
cada conjunto de datos utilizando como
medidas de semejanza, jaccar de palabras,
coseno y distancia euclidiana.
Se evaluaron los clusters resultantes midiendo
la entropía de los clusters.
Resultados obtenidos
Artículos
Jaccard Coseno Euclideana Artículos Jaccard
10 0.54 0.35 0.90 Coseno
Euclideana
20 0.38 0.35 0.90
30 0.48 0.34 0.99
40 0.63 0.37 0.96 1.2
50 0.44 0.44 0.94
60 0.44 0.46 0.93
70 0.48 0.46 0.98 1
80 0.47 0.40 1.00
90 0.54 0.43 0.89
100 0.59 0.42 0.98 0.8
Promedio 0.50 0.40 0.95
0.6
0.4
0.2
0
10 20 30 40 50 60 70 80 90 100
SW
Jaccard Coseno Euclideana SW Jaccard
10 0.45 0.45 0.98 Coseno
Euclideana
20 0.35 0.32 0.95
30 0.50 0.48 0.97
40 0.52 0.52 1.14 1.4
0
10
20
30
40
50
70
60
80
90
100
120
130
170
110
140
150
160
180
190
200
7Sectors
Jaccard Coseno Euclidiana
10 1.81 1.81 1.81
7 Sectors jaccard
coseno
20 1.80 1.81 1.81 euclidiana
30 1.80 1.81 1.81
40 1.81 1.81 1.81 1.82
50 1.79 1.81 1.81
60 1.81 1.81 1.81
1.81
70 1.80 1.81 1.81
80 1.80 1.80 1.81
90 1.81 1.79 1.81 1.8
100 1.80 1.80 1.81
Entropía
110 1.80 1.81 1.81
1.79
120 1.81 1.80 1.78
130 1.80 1.81 1.81
140 1.79 1.80 1.81 1.78
150 1.80 1.80 1.81
160 1.80 1.80 1.81
1.77
170 1.81 1.81 1.81
180 1.80 1.81 1.81
190 1.80 1.81 1.81 1.76
200 1.81 1.81 1.81
Promedio 1.8015 1.8060 1.8076
1.75
10 20 30 40 50 60 70 80 Palabras por
90 100 110 120grupo
130 140 150 160 170 180 190 200
webKB
Jaccard Coseno Euclidiana webKB Jaccard
10 1.24 1.23 1.44 Coseno
20 1.41 1.19 1.42 Euclidiana
30 1.42 1.19 1.44
40 1.45 1.25 1.48
1.7
50 1.45 1.21 1.46
60 1.46 1.29 1.45
70 1.44 1.48 1.46 1.6
80 1.34 1.49 1.46
90 1.35 1.50 1.48
1.5
100 1.36 1.49 1.48 Entropía
110 1.38 1.40 1.50
120 1.36 1.45 1.50 1.4
130 1.42 1.43 1.49
140 1.42 1.31 1.47
1.3
150 1.43 1.43 1.49
160 1.44 1.43 1.49
170 1.43 1.48 1.49 1.2
180 1.42 1.48 1.49
190 1.42 1.48 1.49
1.1
200 1.43 1.48 1.49
Promedio 1.40 1.39 1.47
1
10 20 30 40 50 60 70 80 Conjunto
90 100 110de
120palabras
130 140 150 160 170 180 190 200
Co-training
Co-Training Jaccard
Jaccard Coseno Euclidiana Coseno
Euclidiana
10 0.52 0.38 0.52
20 0.52 0.50 0.52
30 0.52 0.50 0.52
0.55
40 0.52 0.50 0.51
50 0.52 0.52 0.53 0.53
60 0.52 0.52 0.53
70 0.52 0.52 0.53 0.51
80 0.52 0.52 0.53
90 0.52 0.52 0.53 0.49
0.47
110 0.52 0.52 0.52
120 0.52 0.52 0.52
0.45
130 0.52 0.52 0.52
140 0.52 0.52 0.52 0.43
150 0.52 0.52 0.52
160 0.52 0.52 0.52 0.41
170 0.52 0.52 0.52
180 0.52 0.52 0.52 0.39