Está en la página 1de 136

UNIVERSIDAD DE CHILE

FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS

DEPARTAMENTO DE CIENCIAS DE LA COMPUTACION

MEJORAMIENTO DE UNA METODOLOGIA PARA LA IDENTIFICACION


DE
DE WEBSITE KEYOBJECTS MEDIANTE LA APLICACION
TECNOLOGIAS EYE TRACKING Y ALGORITMOS WEB MINING

MEMORIA PARA OPTAR AL TITULO DE INGENIERO CIVIL EN

COMPUTACION

LARRY JAVIER GONZALEZ


GONZALEZ

PROFESOR GUIA:

JUAN VELASQUEZ
SILVA

MIEMBROS DE LA COMISION:
PIQUER GARDNER
JOSE
PATRICIO INOSTROZA FAJARDIN

SANTIAGO DE CHILE
DICIEMBRE 2011

Resumen
El objetivo general de esta memoria es mejorar la metodologa para identificar
Website Keyobjects dise
nada por Velasquez y Dujovne mediante el uso de herramientas Eye Tracking y algoritmos de Web Mining.
Dado un sitio web, esta metodologa toma como entrada el registro de peticiones
(web log) del sitio, las paginas que lo componen y el interes de los usuarios en los
objetos web de cada pagina, el cual es cuantificado a partir de una encuesta que
permite medir la atencion prestada por los usuarios sobre los objetos. Luego los
datos son transformados y pre-procesados para finalmente aplicar algoritmos de
Web Mining que permiten extraer los Website Keyobjects.
Considerando lo anterior, en este trabajo de memoria se sugiere una forma distinta
de cuantificar el interes de los usuarios sobre los objetos web, utilizando una
tecnologa de rastreo ocular (Eye Tracking), con el objetivo de prescindir de la
encuesta, ocupar una herramienta de mayor precision y as mejorar la clasificacion
de los Website Keyobjects.
Para comenzar, se investigaron las distintas tecnicas y herramientas de rastreo
ocular. Se opto por ocupar un Eye Tracker que ocupa la tecnica mas avanzada en
su campo, la que ilumina los ojos con luces infrarojas y captura sus movimientos
seg
un el brillo de la pupila y el reflejo de la cornea, todo esto basado en vdeo.
Luego se dise
no un experimento que permitiera establecer si se produce una mejora
en la clasificacion de los objetos al ocupar distintos valores del interes de los
usuarios: medido seg
un una encuesta o un Eye Tracker.
Se concluyo que la tecnologa Eye Tracking es sumamente u
til y precisa a la hora
de conocer que es lo que mira un usuario y, por lo tanto, que es lo que mas captura
su atencion. Ademas que el integrar esta tecnologa a la metodologa permite
no realizar una encuesta, con lo que se evitan situaciones donde es altamente
posible ingresar errores de forma involuntaria. Finalmente se establecio se produce
una leve mejora, entre un 5 % y 6 %, en la metodologa original, al ocupar la
informacion generada por el Eye Tracker.

ii

Agradecimientos
En primer lugar quiero agradecer muy especialmente a mi familia. Por brindarme
su apoyo y cari
no incondicional en todos estos a
nos. Sin ellos, nunca hubiera
estado donde estoy.
Fraternalmente agradezco a mis grandes amigos de la vida: Melissa Aliste, Joceline
Naranjo, Karla Mendoza, Rodrigo Alarcon, Camilo Lopez y Francisco Pe
na, por
compartir los buenos momentos, pero sobretodo por levantarme en los de mayor
debilidad.
Tambien agradezco a Milena Andrews, Betzabe Montt, Catalina Meza, Katherine
Mena, Cinthya Vergara, Diego Madariaga, Juan Mu
noz, Francisco Molina, Patricio Moya, Jorge Saa y muchos otros, quienes ayudaron a hacer de este camino,
uno mucho mas llevadero.
Les doy las gracias a todas las personas que de una u otra forma aportaron en mi
carrera universitaria. A mis compa
neros de primer a
no, con quienes descubr la
universidad; a todos los profesores, quienes me iluminaron con su conocimiento y
en especial a Juan Velasquez, mi sensei, quien me dio la confianza y el apoyo para
realizar este trabajo final.
Mencion honrosa para todas las personas que hicieron posible el desarrollo de
esta Memoria, sobretodo a los participantes de mi experimento, quienes voluntariamente accedieron a ayudar.
Finalmente, agradezco a Los Dioses por permitir, desde hace muchos a
nos, una
serie de eventos no aleatorios que confluyeron no solo en este Trabajo de Ttulo,
sino en todo lo que soy.

iii

INDICE GENERAL

1. Introducci
on

1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2. Descripcion del Proyecto . . . . . . . . . . . . . . . . . . . . . . .

1.3. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5. Objetivos Especficos . . . . . . . . . . . . . . . . . . . . . . . . .

1.6. Metodologa Aplicada . . . . . . . . . . . . . . . . . . . . . . . . .

1.7. Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . .

1.8. Alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.9. Estructura de la Memoria . . . . . . . . . . . . . . . . . . . . . .

2. Marco Conceptual

10

2.1. La Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.1.1. Un poco de Historia . . . . . . . . . . . . . . . . . . . . .

11

2.1.2. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . .

12

iv

2.1.3. Datos Originados en la Web . . . . . . . . . . . . . . . . .

15

2.2. El proceso Knowledge Discovery in Databases (KDD) . . . . . . .

17

2.2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.2.2. Seleccion de datos . . . . . . . . . . . . . . . . . . . . . . .

19

2.2.3. Pre-procesamiento de datos . . . . . . . . . . . . . . . . .

19

2.2.4. Transformacion de Datos . . . . . . . . . . . . . . . . . . .

20

2.2.5. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.2.6. Interpretacion y analisis de resultados . . . . . . . . . . . .

23

2.3. Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.3.1. Web Content Mining (WCM) . . . . . . . . . . . . . . . .

25

2.3.2. Web Structure Mining (WSM) . . . . . . . . . . . . . . . .

27

2.3.3. Web Usage Mining (WUM) . . . . . . . . . . . . . . . . .

29

2.4. Eye Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.4.1. El ojo humano . . . . . . . . . . . . . . . . . . . . . . . .

33

2.4.2. Movimientos oculares . . . . . . . . . . . . . . . . . . . . .

34

2.4.3. Atencion visual . . . . . . . . . . . . . . . . . . . . . . . .

35

2.4.4. La hipotesis mente-ojo . . . . . . . . . . . . . . . . . . . .

36

2.4.5. Tecnicas Eye Tracking . . . . . . . . . . . . . . . . . . . .

38

2.4.6. Datos generados por un Eye Tracker . . . . . . . . . . . .

41

2.4.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . .

42

2.5. Website Keyobject . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.5.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

2.5.2. Implementacion . . . . . . . . . . . . . . . . . . . . . . . .

45

2.5.3. Comparacion entre objetos . . . . . . . . . . . . . . . . . .

46

2.5.4. Metodologa para encontrar Website Keyobject . . . . . .

49

3. Dise
no del Experimento

52

3.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

3.1.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

3.1.2. El grupo de control . . . . . . . . . . . . . . . . . . . . . .

54

3.1.3. El Eye Tracker . . . . . . . . . . . . . . . . . . . . . . . .

54

3.2. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.2.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.2.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.2.3. Interes de los usuarios . . . . . . . . . . . . . . . . . . . .

56

3.3. Transformacion de datos . . . . . . . . . . . . . . . . . . . . . . .

58

3.3.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

3.3.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

3.3.3. Interes de los usuarios . . . . . . . . . . . . . . . . . . . .

60

vi

3.3.4. Usuarios de control . . . . . . . . . . . . . . . . . . . . . .

62

3.4. Variaciones de la metodologa . . . . . . . . . . . . . . . . . . . .

63

3.5. Comparacion de Resultados . . . . . . . . . . . . . . . . . . . . .

63

4. Trabajo Realizado

64

4.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

4.1.1. El sitio elegido . . . . . . . . . . . . . . . . . . . . . . . .

64

4.1.2. Los usuarios entrevistados . . . . . . . . . . . . . . . . . .

65

4.1.3. El Eye Tracker Utilizado . . . . . . . . . . . . . . . . . . .

66

4.1.4. Herramientas ocupadas . . . . . . . . . . . . . . . . . . . .

68

4.2. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.2.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

4.2.2. Los objetos . . . . . . . . . . . . . . . . . . . . . . . . . .

70

4.2.3. Los conceptos . . . . . . . . . . . . . . . . . . . . . . . . .

70

4.2.4. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

4.2.5. Interes de los usuarios . . . . . . . . . . . . . . . . . . . .

71

4.3. Seleccion, limpieza y transformacion datos . . . . . . . . . . . . .

73

4.3.1. Las paginas . . . . . . . . . . . . . . . . . . . . . . . . . .

74

4.3.2. Los objetos . . . . . . . . . . . . . . . . . . . . . . . . . .

74

4.3.3. Los conceptos . . . . . . . . . . . . . . . . . . . . . . . . .

75

vii

4.3.4. Interes de los usuarios . . . . . . . . . . . . . . . . . . . .

75

4.3.5. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

4.4. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

4.4.1. Los algoritmos

. . . . . . . . . . . . . . . . . . . . . . . .

83

4.4.2. Primer experimento . . . . . . . . . . . . . . . . . . . . . .

85

4.4.3. Segundo experimento . . . . . . . . . . . . . . . . . . . . .

85

4.5. Resultados Obtenidos . . . . . . . . . . . . . . . . . . . . . . . . .

85

4.5.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.5.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.5.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . .

87

4.5.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . .

87

4.6. Comparacion y analisis . . . . . . . . . . . . . . . . . . . . . . . .

88

5. Conclusiones

90

5.1. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Ap
endice A: Resultados primer experimento

91

93

6.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

6.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

95

6.2.1. Clusters de sesiones . . . . . . . . . . . . . . . . . . . . . .

95

6.2.2. N
umero de apariciones de objetos en Clusters . . . . . . .

99

viii

6.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 100


6.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7. Ap
endice B: Resultados segundo experimento

104

7.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104


7.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.2.1. Clusters de sesiones . . . . . . . . . . . . . . . . . . . . . . 106
7.2.2. N
umero de apariciones de objetos en Clusters . . . . . . . 112
7.3. Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.4. Website Keyobjects . . . . . . . . . . . . . . . . . . . . . . . . . . 116

ix

INDICE DE FIGURAS

2.1. Ejemplo codigo HTML . . . . . . . . . . . . . . . . . . . . . . . .

13

2.2. Funcionamiento de la Web . . . . . . . . . . . . . . . . . . . . . .

14

2.3. Etapas del proceso KDD. . . . . . . . . . . . . . . . . . . . . . . .

18

2.4. Grafo dirigido que representa enlaces entre paginas. . . . . . . . .

28

2.5. Componentes del ojo humano . . . . . . . . . . . . . . . . . . . .

33

2.6. La ilusion de Kanizsa. . . . . . . . . . . . . . . . . . . . . . . . .

37

2.7. Reflejo de la cornea y brillo de la pupila. . . . . . . . . . . . . . .

40

2.8. Mapa conceptual: Descripcion de los Web Objects. . . . . . . . . .

47

3.1. Modelo de paginas, objetos y conceptos. . . . . . . . . . . . . . .

59

3.2. Modelo weblog y tiempo usado en las paginas. . . . . . . . . . . .

60

4.1. Tabla estadstica de las visitas al sitio . . . . . . . . . . . . . . . .

65

4.2. Caractersticas de los usuarios de control . . . . . . . . . . . . . .

67

4.3. Tobii T120 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

4.4. Ubicacion Eye Tracker - Usuario . . . . . . . . . . . . . . . . . . .

72

4.5. Tabla de transicion de datos generados por el Eye Tracker. . . . .

76

4.6. Men
u de navegacion compacto. . . . . . . . . . . . . . . . . . . .

78

4.7. Men
u de navegacion desplegado. . . . . . . . . . . . . . . . . . . .

79

4.8. Tabla averaged spent time on object. . . . . . . . . . . . . . . . .

79

4.9. Tablas conceptual similarity y residence time. . . . . . . . . . . .

82

xi

CAPITULO

INTRODUCCION

Desde su creacion, la Web ha sido revolucionaria en terminos de impacto, escala


y alcance. Ha sido tal el progreso que ha impulsado, que de una u otra forma ha
cambiado cada nivel de nuestra sociedad [58]. Da tras da son mas las personas
que navegan por la Web, debido, en gran medida, a la masificacion de Internet.
En la actualidad cerca del 28 % de la poblacion mundial y el 50 % de los chilenos
puede acceder a esta gran red [31].
Ante esta situacion, muchas instituciones observaron en la Web un nuevo mercado donde hacer negocios. Estas entidades lograron incrementar notoriamente
sus utilidades, lo que incentivo a otras compa
nas a explorar este nuevo nicho.
No falto mucho tiempo para que la mayora de las organizaciones comenzaran a
operar en la Web, en una especie de negocio virtual incluso actualmente nuevas
compa
nas operan exclusivamente en este medio sin contar con sucursales tangibles. Con esto, las instancias para la competencia aumentaron, pero el objetivo
final segua siendo el mismo: atraer nuevos clientes y fidelizarlos.
Para muchas instituciones ya no es suficiente tener un sitio web y proveer productos de calidad en el. La diferencia entre el exito y el fracaso de un negocio on-line
esta dado por el potencial del sitio para atraer y retener usuarios. Este potencial

esta determinado por el contenido, dise


no y aspectos tecnicos, como por ejemplo,
el tiempo empleado en cargar una pagina web [67].
En este ambiente de competencia, las compa
nas necesitan un sitio web actualizado, que ofrezca informacion acerca de lo que los usuarios estan buscando de forma
facil y accesible, lo que en muchos casos no es as [66].

1.1.

Antecedentes

En los u
ltimos a
nos ha surgido una nueva area de investigacion llamada Web Mining, que estudia diversas formas de extraer informacion desde los datos generados
en la Web. Con este conocimiento es posible desarrollar tecnicas y algoritmos para
atraer y retener usuarios en un sitio web. Esta area aplica tecnicas de Data Mining
a los datos originados en la Web con el objetivo de obtener informacion valiosa
que permita mejorar continuamente un sitio en cuanto a dise
no, contenido y otros
aspectos.
Un resultado interesante que se ha logrado en este campo son los Website Keywords [67], los que se definen como una palabra o un conjunto de palabras que
son utilizadas por los usuarios en su proceso de b
usqueda y que caracterizan el
contenido de una pagina o sitio web. Al encontrarlos, los sitios pueden ser redise
nados de acuerdo a las necesidades y requerimientos de sus usuarios, y de esta
forma, estar a la vanguardia.
Si bien identificar los Website Keywords de un sitio ayuda a conocer las preferencias de los usuarios, la metodologa que los descubre solo se enfoca en el contenido
textual, dejando fuera del analisis el contenido multimedia de los sitios web [67].
Por esta razon Dujovne y Velasquez [20] extendieron esta metodologa y lograron

integrar tanto el contenido textual como el contenido multimedia en el analisis.


Dujovne definio un Web Object como cualquier grupo estructurado de palabras o
un recurso multimedia que esta presente en una pagina web que posee meta-datos
que describen su contenido. Ademas, definio un Website Keyobject como un Web
Object que captura la atencion de los usuarios y que caracteriza el contenido de
un sitio web [20]. De las definiciones anteriores se puede deducir que todo sitio
Web esta formado por un conjunto de Web Object y que el conjunto de Website
Keyobject que posee es sub-conjunto del primero.
Dujovne y Velasquez dise
naron una metodologa que permitio identificar los Website Keyobjects de un sitio. Estos, al igual que Website Keywords, dan directrices
para que los Web Sites sean re-dise
nados en funcion de las necesidades de los
usuarios. Esta metodologa [20] requiere conocer cual es el tiempo de permanencia de los usuario en los Web Objects, es decir, cuanto tiempo gasta un usuario
mirando cada Web Object. Para determinar el tiempo de permanencia, Dujovne
siguio dos pasos: Sesionizacion y Aplicacion de una encuesta.
Sesionizaci
on: es el proceso que reconstruye las sesiones de usuarios. Una sesion
es la secuencia de Web Page que visita un usuario mientras navega en un sitio
Web. Mediante este proceso es posible determinar el tiempo de permanencia de
un usuario en una pagina Web, entre otras cosas. Este proceso sera estudiado
detalladamente en el Captulo 2.
Aplicaci
on de una encuesta: sobre un grupo de control, con la cual los Web
Objects fueron ordenados seg
un su importancia dentro de cada pagina del sitio
Web.
Al mezclar ambos procesos, Dujovne y Velasquez [20] estimaron el tiempo de
permanencia de los usuarios en los Web Object. Sin embargo, gracias a la tecnologa
3

Eye Tracking es posible prescindir de esta encuesta.


La tecnologa Eye Tracking permite conocer que es lo que una persona mira y cual
es la dilatacion de sus pupilas en funcion del tiempo [1]. Al aplicar esta tecnologa
a usuarios que navegan en un Web Site es posible medir el tiempo de permanencia
en cada Web Objects sin necesidad de realizar una encuesta. Ademas, gracias a
que mide la dilatacion de las pupilas, permite cuantificar el interes de los usuarios,
ya que la dilatacion de las pupilas esta directamente relacionada con el interes del
usuario en aquello que esta mirando [33, 45, 48].
Para evitar redundancia, en adelante una pagina web sera llamada solo pagina,
de la misma forma, un sitio web sera llamado sitio.

1.2.

Descripci
on del Proyecto

En el presente Trabajo de Ttulo se busca mejorar a la metodologa dise


nada por
Dujovne y Velasquez [20] mediante el uso de herramientas Eye Tracking. Si bien
esta Memoria es una extension de la Tesis de Dujovne [23], el lector puede no leer
dicho trabajo, pues todo lo que se necesita saber, esta incluido en esta Memoria.
Sin embargo, estudiar dicha Tesis es una ejercicio academico recomendable.
Durante el desarrollo de este Trabajo de Ttulo, se trabajara con el grupo Web
Intelligence Research Group (http://wi.dii.uchile.cl/), que cuenta con los fondos
para la adquisicion de soluciones Eye Tracking y proveera de la infraestructura
necesaria para desarrollar el proyecto. Por otro lado, se trabajara bajo la tutela
del profesor Juan D. Velasquez, quien se desenvolvera como profesor gua.

1.3.

Hip
otesis

Si es posible cuantificar el tiempo de permanencia de un grupo de usuarios de control en los Web Objects, entonces es posible realizar una mejora a la metodologa
desarrollada por Dujovne et al. [20], es decir, determinar los Website Keyobject
con mayor exactitud.

1.4.

Objetivo General

Mejorar la metodologa para identificar Website Keyobjects dise


nada por Dujovne
et al. [20] mediante el uso de herramientas Eye Tracking y algoritmos de Web
Mining.
El exito de este objetivo sera medido al comparar los resultados entregados por
ambas metodologas, la original y la modificada, mediante los indicadores Precision y Recall. Puede encontrar una explicacion detallada de estos indicadores en
en captulo 2.

1.5.

Objetivos Especficos

Para alcanzar el objetivo recien descrito es necesario desarrollar una serie de pasos
intermedios que se detallan a continuacion.
Establecer estado del arte en sistemas Eye Tracking.
Se debe comprender como funciona esta tecnologa para poder aplicarla de forma
adecuada al problema.

Analizar la naturaleza de los datos originados en la Web.


Para este trabajo, seran consideradas tres fuentes de datos: paginas web, archivo
web log y datos generados por un Eye Tracker. El contenido de una pagina puede
ser considerado como un conjunto de datos dentro del cual aparecen los Web
Objects. El archivo web log guarda todas las peticiones de los usuarios hacia el
Web Site y el Eye Tracker genera una serie de datos relacionados con el punto
de atencion del usuario frente a un monitor. Dada la diversidad de estos datos, se
analizara su naturaleza con el objetivo de realizar un estudio mas profundo.
Estudiar modelos matem
aticos usados para analizar el comportamiento
de navegaci
on de los usuarios en la Web.
Se estudiara la bibliografa existente para adquirir el conocimiento y as poder
modelar el comportamiento de navegacion de los usuarios en la Web.
Modificar la metodologa dise
nada por Dujovne et al. [20], mediante
tecnologas Eye Tracking y algoritmos de Web Mining.
La metodologa dise
nada por Dujovne et al. [20] estima el tiempo de permanencia
de los usuarios en los Web Objects mediante una encuesta. Se desea mejorar
esta metodologa midiendo cuantitativamente el tiempo de permanencia de los
usuarios en los Web Objects con herramientas Eye Tracking. Para conseguir esto
se tendra que establecer una forma para incorporar los datos generados por el Eye
Tracker en el analisis de la conducta de navegacion de los usuarios.
Aplicar ambas metodologas en el sitio de control: http://www.mbauchile.cl/.
La metodologa original y la modificada seran aplicadas en el sitios de control mencionado. Con esto se compararan los resultados entregados por ambas
metodologas y se medira la calidad de la mejora realizada.

1.6.

Metodologa Aplicada

Se comenzara con una fase investigativa en la cual se reuniran los antecedentes


requeridos para desarrollar esta memoria. A continuacion se dise
nara y ejecutara un experimento que coloque a prueba la validez de la hipotesis formulada
anteriormente. Para finalizar, una vez obtenidos los resultados del experimento,
se concluira la veracidad de la premisa.
Investigaci
on: La metodologa dise
nada por Dujovne et al. [20] esta construida
sobre una serie de teoras, entre las cuales destacan Data Mining, Web Mining,
Sesionizacion, Web Objects, etc. Dichas teoras seran estudiadas para comprender
la implementacion y el funcionamiento de la metodologa.
Por otro lado, la investigacion sobre los sistemas Eye Tracking estara enfocada en
sus bases teoricas, su funcionamiento y como seran aplicados en esta memoria.
Experimento: Consiste esencialmente en comparar la metodologa original versus la metodologa modificada. Para realizar esta comparacion, sera necesario
implementar ambas metodologas.
Para la metodologa original, se seguiran los pasos descritos por Dujovne et al.
[20], mientras que para la metodologa modificada se reemplazara el paso de estimacion de los tiempos de permanencia en los Web Objects por las mediciones que
entregara el sistema Eye Tracking.
Resultados: Una vez ejecutadas ambas metodologas, se compararan los resultados arrojados mediante el indicador Precision, para finalmente poner a prueba
la hipotesis.

1.7.

Resultados Esperados

Se espera obtener una nueva metodologa, basada en la dise


nada por Dujovne et
al. [20], que permita identificar los Website Keyobjects con mayor exactitud.

1.8.

Alcance

Si bien son varias las caractersticas que se pueden mejorar en la metodologa


dise
nada por Dujovne et al. [20], este Trabajo de Ttulo se enfocara principalmente
en ocupar la tecnologa Eye Tracking para cuantificar el tiempo de permanencia de
los usuarios en los Web Objects e incorporar estos datos a la metodologa original.

1.9.

Estructura de la Memoria

El proposito principal de este informe es dar a conocer el Trabajo de Ttulo realizado.


El Captulo 2 provee la base de conocimientos sobre los cuales se construyo esta
memoria. Se tratan diversos temas, como la Web, Eye Tracking, Website Keyobjects, etc.
La esencia de este Trabajo de Ttulo es el Captulo 3, dise
no del experimento, pues
es donde se establece la forma de trabajar para contrastar la hipotesis planteada.
La aplicacion de ambas metodologas al sitios web de control esta detallada en el
Captulo 4. All se presentan los resultados obtenidos y los respectivos analisis.
Finalmente las conclusiones logradas en este Trabajo de Ttulo son descritas en

el Captulo 5. Ademas, se exploran nuevas ramas de esta metodologa a modo de


trabajo futuro.

CAPITULO

2
MARCO CONCEPTUAL

En el presente captulo se dan los esbozos conceptuales sobre los cuales se sustenta
el trabajo realizado. El primer tema desarrollado es la Web [3]. Se especifica que es
y su diferencia con Internet. Se brinda una peque
na rese
na historica y se explica
su funcionamiento actual. Ademas, se profundiza en los sitios web, la informacion
que contienen y que generan. A continuacion, se explica el proceso KDD [5] y
cada una de sus etapas, desde la seleccion de datos hasta la interpretacion de los
resultados. Luego, la seccion 2.3 trata el tema denominado Web Mining [37] y sus
areas de aplicacion. Posteriormente, se introduce la tecnologa Eye Tracking [51]
que a grandes rasgos, permite saber que es lo que una persona mira y por cuanto
tiempo. Finalmente, se explica la metodologa para encontrar Website Keyobjects
dise
nada por Dujovne [23] que se espera mejorar.

2.1.

La Web

Actualmente, la mayora de las personas en Chile se conectan a Internet y hacen


uso de la Web diariamente, o al menos en forma semanal [18]. Sin embargo, muchos de ellos usan estos terminos indistintamente y desconocen que son objetos
totalmente diferentes.
10

Gutierrez [32] comparo pedagogicamente sus diferencias: Confundir la Web e Internet es como confundir el cerebro (una red de neuronas) con el conocimiento
que posee una persona. Otro ejemplo fue dado por Piquer [50], quien realizo la
siguiente analoga: El sistema de transporte (terrestre) esta basado en la red de
caminos y carreteras, pero el sistema de transporte es totalmente distinto a la red
de carreteras. Lo mismo ocurre para la Web e Internet.
Tecnicamente, Internet representa a la red de redes que permite la interconexion
entre dispositivos separados geograficamente, a traves del envo y recepcion de los
datos que viajan en paquetes. Por otro lado, la Web es el conjunto de paginas y
objetos relacionados que se vinculan entre s a traves de hipervnculos [70].
En palabras de su creador, Berners-Lee, la Web es el universo de informaci
on
accesible desde la red, una encarnacion del conocimiento humano. Velasquez y
Palade [66] la definieron de una forma mas concreta: La Web es un canal masivo
para la difusion e intercambio de informacion.

2.1.1.

Un poco de Historia

Los primeros computadores eran practicamente inaccesibles para la mayora de las


personas por su elevado costo. Solo algunas instituciones podan contar con ellos,
y muchas veces se arrendaba su capacidad de procesamiento. Con el progreso de
la tecnologa los computadores se volvieron mas accesibles para la poblacion y
su uso se masifico. Luego surgio la idea de conectar los computadores entre s,
escencialmente para poder comunicar mas facil y rapidamente las ideas de la comunidad cientfica, con lo que nacieron las primeras redes locales. No falto mucho
tiempo para que estas redes se hicieran mas grandes, y finalmente globales, como
hoy en da lo es Internet [32].

11

En la decada de 1980, existan varias redes incompatibles entre s entre ellas


BITNET de IBM, DECNET de Digital, UUCP de Unix, etc. [2, 50] por lo que
no se poda tener acceso a todos los recursos disponibles en estas redes. Para
resolver esta problematica, a comienzo de los noventa, Tim Berners-Lee investigador en CERN 1 , ideo un sistema de informacion, basado en la aquitectura
cliente-servidor [27], que permitiera a cada usuario en un computador navegar
de forma automatica por otros computadores independientemente del software

ocupado por ellos. Este


fue el nacimiento de la Web [3, 32].

2.1.2.

Funcionamiento

Antes de detallar el funcionamiento de la Web, se explicaran los tres pilares que


soportan su arquitectura, estos son: Uniform Resource Locator (URL) [14], Hypertext Markup Language (HTML) [12] y Hypertext Transfer Protocol (HTTP)
[13].

http://wi.dii.uchile.cl/index.php
Cuadro 2.1: Ejemplo URL.

Uniform Resource Locator. Como su nombre lo dice, es un localizador de


recursos que asocia una direccion en la Web con un nombre de dominio. En el
cuadro 2.1 se puede apreciar un ejemplo de una URL, donde se identifican tres
partes: el prefijo http:// corresponde al protocolo utilizado en la peticion, en este
caso HTTP. La parte central del string, wi.dii.uchile.cl/, es el dominio al que un
usuario busca acceder. Este nombre es traducido por un DNS 2 a una direccion IP
donde se encuentra alojado el sitio. Finalmente, el sufijo index.php hace referencia
1 European
2 Domain

Organization for Nuclear Research


Name Service

12

Figura 2.1: Ejemplo codigo HTML

a un archivo en particular, dentro del servidor, que solicita un usuario.


Hypertext Markup Language. Es un lenguaje de comunicacion basico y com
un
de hypertexto, es decir, enlaza paginas entre s mediante links [3]. Este lenguaje
permite crear documentos semi-estructurados, que son interpretados por todos
los navegadores Web. Ademas provee instrucciones para agregar otro tipo de contenido, como imagenes, sonidos y videos. La figura 2.1 corresponde a una parte
del codigo HTML de la pagina http://wi.dii.uchile.cl/index.php.
Hypertext Transfer Protocol. Es un protocolo de comunicacion que permite
13

Figura 2.2: Funcionamiento de la Web


(basado en [66])

la transferencia de documentos entre computadores, tpicamente entre un cliente


y un servidor. La especificacion de este es mantenida por World Wide Web Consortium (W3C).
El funcionamiento tpico de la web, universo de informacion accesible a traves
de Internet, ocurre cuando un usuario, mediante un navegador llamado cliente,
requiere acceder a un sitio alojado en alg
un servidor web. Un servidor Web es un
programa que esta permanentemente esperando las peticiones de los clientes en
un puerto especfico ubicable en una URL determinada. Este proceso es indistinto
si el usuario accede al sitio mendiante una URL o siguiendo un enlace.
En la figura 2.2 se pueden apreciar la interaccion entre un cliente y un servidor
Web. Como primer paso el cliente enva al servidor una peticion de un archivo
determinado (1). El servidor recibe esta peticion, la almacena en una bitacora (2)
llamada web log, busca el archivo solicitado (3) y le enva como respuesta el archivo

14

al cliente (4). Una vez que este recibe la respuesta, la guarda en una memoria
especial llamada cache y la interpreta mostrando la pagina en el navegador del
usuario (5). La comunicacion entre el cliente y el servidor se realiza siguiendo
el protocolo HTTP, mientras que los archivos enviados como respuesta por el
servidor [66].
Un sitio Web es un conjunto de paginas Web las que se encuentran en un directorio
o carpeta y que se encuentran enlazadas entre s mediante links. Las paginas Web
son, en esencia, documentos de texto plano que siguen el formato HTML y que
pueden tener incrustados otros archivos con distinto formato, como imagenes,
videos, etc. Pueden ser estaticas o dinamicas. Si es estatica, su contenido no cambia
frecuentemente, por el contrario, si es dinamica es generada por un programa que
en el momento de la peticion del usuario procesa al menos un algoritmo para crear
el contenido de la pagina. El servidor web, ademas de esperar las peticiones de
los usuarios, enva como respuesta los documentos solicitados por los usuarios y
en caso de ser requerido, procesa los algoritmos que crean las paginas dinamicas.

2.1.3.

Datos Originados en la Web

Los datos que se originan en la Web pueden ser clasificados en tres tipos: contenido,
estructura y usabilidad.
Contenido: Hace referencia a los objetos presentes en las paginas Web, como
texto, imagenes, sonidos y videos, en palabras simples, todo lo que se puede ver
en una pagina. El texto puede ser semi-estructurado, altamente estructurado o
no poseer estructura. Por otro lado, el contenido multimedia requiere meta-datos
que describan su contenido, sin embargo, es muy poco com
un encontrar estas
descripciones.

15

Estructura: Son los enlaces, o links entre las paginas. Por lo general cuando
existe un enlace entre dos paginas, estas estan relacionadas por su contenido. Si
un conjunto de paginas estan enlazadas entre ellas se crea una comunidad de
informacion com
un [28]. Estos datos pueden modelarse como un grafo dirigido,
donde las paginas son representadas por nodos y los enlaces por los arcos.
Usabilidad: Son los datos generados por los usuarios en su proceso de navegacion.
Como se menciono anteriormente, los servidores Web almacenan cada peticion
realizada por los usuarios en un archivo llamado web log [15]. Los datos que son
guardados en esta bitacora de peticiones son los siguientes:
IP del Host: Direccion IP desde donde se realizo la peticion.
User y User ID: Si el sitio posee alg
un mecanismo de identificacion, se almacena el usuario y el identificador numerico de este.
Timestamp: Fecha y hora en que se realizo la peticion.
Metodo de solicitud: Forma en la que se realiza la peticion.
URI 3 : nombre y ubicacion del archivo solicitado.
Protocolo: version del protocolo HTTP del software que realiza la peticion.
Status: Estado del resultado de la peticion. Son codigos que tienen diferentes
significados.
Bytes: Tama
no del documento enviado en bytes.
Referencia: Pagina desde la cual el usuario accedio al documento.
Agente: navegador desde el cual se realizo la peticion.
3 Uniform

Resource Identifier

16

En la siguiente seccion, se detallara un proceso estandarizado mediante el cual


se puede transformar datos en informacion. Este proceso sera aplicado posteriormente para encontrar patrones que describan los datos estudiados que corresponden en parte a los datos generados en la Web.

2.2.

El proceso Knowledge Discovery in Databases (KDD)

Casi todos los campos de estudio han estado generando y almacenando cantidades de datos sin precedentes [22, 42]. A modo de ejemplo, las compa
nas de
retail guardan cada venta realizada; los servidores Web almacenan cada peticion
de los usuarios; y los astronomos generan millones de datos diariamente. Con
este crecimiento del vol
umen de datos, se ha vuelto impractico analizarlos de forma manual y, en consecuencia, distintas entidades se han visto sobrecargadas y
sobrepasadas por sus datos.
Esta situacion genero la necesidad de crear tecnicas automaticas, o al menos semiautomaticas, para facilitar la extraccion de informacion de grandes vol
umenes
de datos. Estas tecnicas son lo que hoy se conoce como el proceso Knowledge
Discovery in Databases, en adelante KDD.

2.2.1.

Definici
on

Fayyad et al. [22] definieron KDD como el proceso no trivial de identificar patrones previamente desconocidos, validos, originales, potencialmente u
tiles y comprensibles sobre los datos, donde los datos son conjuntos de hechos almacenados
en alguna fuente y los patrones son expresiones que describen un subconjunto o
un modelo del subconjunto de los datos.

17

Figura 2.3: Etapas del proceso KDD.


(basado en [22])

Un campo relacionado con el proceso KDD es Data Warehousing [34], el que


puede participar en este proceso para facilitar la limpieza y el acceso a los datos.
A pesar de esto, no es imprescindible la existencia de un Data Warehouse para la
b
usqueda de patrones.
En la figura 2.3 se pueden apreciar la serie de pasos que compone este proceso. Es
importante notar que es interactivo e iterativo por lo que en cualquier momento
durante la ejecucion se puede volver atras. Ademas, en cada paso se recomienda
involucrar las decisionesiones de un experto del negocio [5]. A continuacion, se
describira cada una de las etapas que conforman el proceso.

18

2.2.2.

Selecci
on de datos

Consiste en elegir los datos, tpicamente desde un sistema transaccional, sobre los
cuales se trabajara posteriormente. Por lo general corresponden a un subconjunto
del universo de datos disponibles. El criterio de seleccion depende del objetivo del
proyecto y de los requerimientos del cliente. Este es un paso importante, ya que el
uso de datos irrelevantes puede conducir a errores analticos, ademas de agregar
ruido a los resultados finales [66].

2.2.3.

Pre-procesamiento de datos

Esta etapa consiste en preparar los datos para procesarlos posteriormente. Generalmente es la mas costosa en terminos de tiempo [42].
Dado que los algoritmos de Data Mining, etapa posterior del proceso KDD, son
muy sensibles a los datos erroneos y faltantes, se aplican diferentes tecnicas que
pueden sobrellevar estas situaciones. Para encontrar errores en los datos, se suele
buscar outlayers, o valores fuera de rango, mientras que para los datos faltantes
se puede completar el campo manualmente o se trata de predecir dicha variable
en funcion de las demas. En ambos casos, siempre esta la alternativa de eliminar
el registro completo.
Otra dificultad que puede presentarse ocurre cuando los datos provienen de diferentes fuentes y son reunidos, ya que se pueden producir inconsistencias, por
ejemplo, si las fuentes de datos ocupaban diferentes unidades de medida [43].

19

2.2.4.

Transformaci
on de Datos

En este paso los datos siguen siendo preparados con el objetivo de aumentar la
calidad de las predicciones. Existen diferentes transformaciones que pueden ser
aplicadas, donde las mas tpicas son: crear, eliminar, normalizar y discretizar variables. Las dos primeras, se ocupan para representar mejor el conjunto de datos,
por ejemplo, calcular la edad de una persona a partir de su fecha de nacimiento;
mientras que los finales se ocupan para reformar los datos para que sean compatibles con la tecnica de Data Mining que se desee ocupar [43].
El resultado de esta etapa es un conjunto de datos mas refinados sobre los cuales
se aplicaran las tecnicas y algoritmos de Data Mining.

2.2.5.

Data Mining

Es el core del proceso KDD que consiste en descubrir patrones en los datos. Si
bien no hay nada nuevo en esto, la caracterstica fundamental que lo diferencia de
otros mecanismos es la capacidad para operar sobre grandes vol
umenes de datos
[66, 69].
Dentro de Data Mining se encuentran varios mecanismos, como agrupacion o clustering, prediccion; que sirven para enfrentar diferentes tipos de problemas. Generalmente, se ejecuta mas de una tecnica para verificar los resultados obtenidos.

Clustering

Consiste en separar un conjunto de datos en varios subconjuntos mas peque


nos,
con la idea de que dentro de estos subconjuntos sus elementos esten altamente relacionados entre s y que, al elegir elementos de subconjuntos distintos, la relacion
20

entre estos sea baja. Para medir que tan relacionados estan dos elementos se suele
definir una funcion de distancia. Esta idea de separar conjuntos puede resultar
u
til para encontrar relaciones desconocidas en los datos, familiarizarse con ellos,
segmentarlos o dividir para reinar [42].
Para ejemplificar esta tecnica, consideremos que separamos el conjunto de todos
los animales conocidos en los subconjuntos mamferos, invertebrados, aves y peces.
Dentro de estos subconjuntos todos sus elementos comparten una caracterstica
y, por otro lado, al tomar dos ejemplos de distintos conjuntos, se puede apreciar
que no comparten ninguna caracterstica principal de los diferentes subconjuntos.
Existen diversas formas de realizar Clustering como Agglomerative Hierarchical,
Partitioner-Based y Fuzzy. Para cada una de estas existe al menos un algoritmo
que la implementa [43]. Para evaluar la calidad de los clusters entregados por estos
algoritmos se pueden emplear los indicadores AIC y BIC [68], que estan basados
en el metodo de maxima verosimilitud.
Una forma mas basica de realizar Clustering es la denominada Reglas de asociacion. Este metodo entrega observaciones sobre los datos y trata de encontrar
vnculos entre los diferentes atributos del conjunto.

Predicci
on

Se refiere a una serie de enfoques que buscan entregar mayor informacion para
tomar decisiones, basados en los datos historicos. A modo de ejemplo, las areas
de marketing usan este tipo de modelos para predecir que clientes compraran un
producto especfico [43].
Los enfoques para alcanzar este proposito son diversos, entre ellos se encuentran: regresion lineal, polinomial, logstica, m
ultiple, etc; analisis de componentes
21

principales, analisis del discriminante, clasificador Naive Bayes, redes bayesianas,


k-vecinos mas cercanos, arboles de decision, redes neuronales, etc. [42, 43]. Todos
estos enfoques pueden ser clasificados en dos tipos, regresion y clasificacion. La
diferencia entre estos es que una regresion busca predecir una variable continua,
mientras que la clasificacion, una variable discreta.
Para evaluar la calidad de una regresion se puede usar el error cuadratico medio
(ecuacion 2.1) , o el error absoluto medio (ecuacion 2.2) entre otros.
n
X

(yi yi )2
n
i=1
n
X

|yi yi |
n
i=1

(2.1)

(2.2)

El argumento que permite conocer que tan buena es una clasificacion consiste
en determinar el n
umero de eventos bien clasificados versus los mal clasificados.
Para ejemplificar esto, se consideran las siguientes propiedades de una prediccion
binaria:
Verdadero positivo (VP): N
umero de observaciones clasificadas como verdaderas que son en realidad verdaderas.
Verdadero negativo (VN): N
umero de observaciones clasificadas como falsas
siendo que son verdaderas.
Falso positivo (FP): N
umero de observaciones incorrectamente clasificadas
como verdaderas.
Falso negativo (FN): N
umero de observaciones incorrectamente clasificadas
como falsas (son verdaderas).
22

Con estos valores se construyen los siguientes indicadores, que son los que determinan la calidad de una prediccion:
Precision: Indica la fraccion de las predicciones verdaderas que fueron correctas (2.3).
Recall : Indica la fraccion de los eventos verdaderos que fueron predichos
correctamente (2.4).
F-measure: Otorga una mezcla de los indicadores anteriores, que los mezcla
uniformemente (2.5).

P recision =

Recall =

F measure = 2

VP
V P + FP

(2.3)

VP
V P + FN

(2.4)

P recision + Recall
P recision Recall

(2.5)

Esta forma de evaluar una prediccion binaria es extensible para grados mayores,
como por ejemplo al pronosticar el clima de un da que puede ser soleado, templado
o fro.

2.2.6.

Interpretaci
on y an
alisis de resultados

Los algoritmos de Data Mining entregan como resultado patrones que generalmente son un subconjunto de los datos. Sin embargo, existe la posibilidad que

23

estos patrones no tengan sentido alguno, por lo que deben ser validados por el
experto del negocio.
Si los patrones encontrados son correctos es posible tomar acciones basadas en
lo aprendido. Si no lo son, el proceso completo debe ser revisado y modificado,
prestando especial enfasis en los modelos de informacion.
Es importante destacar que el proceso KDD nunca tiene fin, ya que el entorno
siempre esta en un constante cambio. Los patrones encontrados hoy, puede que
ya ma
nana no tengan validez, sin embargo, pueden ser usados como fundamentos
para un trabajo futuro [66].
A continuacion, se estudiara un area de investigacion reciente que aplica muchos
de los conceptos descritos en esta seccion.

2.3.

Web Mining

En palabras simples, Web Mining es la aplicacion de Data Mining a los Datos


originados en la Web [11, 59]; es producto del cruce de varias areas de investigacion, como Bases de Datos, Recuperacion de la Informacion, Inteligencia Artificial, especialmente las sub areas de aprendizaje de maquina y procesamiento del
lenguaje [21]. La investigacion en este campo esta experimentando un importante
crecimiento, principalmente, por la gran cantidad de datos disponibles para ser
analizados [37]. Esta no es una tarea menor, considerando que la Web es una
gran coleccion de datos heterogeneos, desclasificados, distribuidos, variantes en el
tiempo, semi-estructurados y de alta dimension [46].
Generalmente, se confunde Web Mining con recuperacion de informacion (IR) y
extraccion de informacion (IE). Sin embargo, esto no es correcto. El objetivo de
24

IR es recuperar la mayor cantidad de archivos relevantes para una b


usqueda [37],
para lo cual, la principal tarea que se realiza es la creacion de ndices de texto
as como la b
usqueda de keywords en una coleccion. Si bien algunas tecnicas de IR
son utilizadas dentro del proceso de Web Mining, muchas de las metodologas que
se aplican no requieren del uso de Data Mining, por lo que el alcance es distinto
[23].
Como se detallo en la seccion 2.1.3, los datos originados en la Web pueden ser
clasificados en tres categoras, por lo que es natural que Web Mining tambien se
ramifique en estas categoras, pues la naturaleza de estos datos difiere de forma
tal que poseen problematicas diferentes. Las sub-areas de Web Mining son: Web
Content Mining, que estudia el contenido de las paginas; Web Structure Mining
que estudia la estructura de los sitios (links) y la Web en general y Web Usage
mining que analiza el comportamiento de los usuarios de la Web.

2.3.1.

Web Content Mining (WCM)

El objetivo de Web Content Mining es descubrir informacion u


til desde los documentos Web [37], que son considerados como el contenido, datos y otros archivos
presentes en la Web. WCM no esta limitado solo al analisis del texto de las paginas Web, sino que tambien incluye otros tipos de documentos, como imagenes y
videos [66], sin embargo, el analisis sobre este tipo de datos, denominado Multimedia Data Mining, no recibe tanta atencion como el analisis de texto [23].
Antes de estudiar el contenido textual de una pagina Web, esta se debe preprocesar de modo que un computador pueda realizar operaciones sobre el texto.
Para esto se transforma cada pagina Web en un vector de caractersticas, llamado
Vector Space Model [55].

25

Vector Space Model (VSM)

Es un modelo matricial que representa un conjunto de documentos y las palabras


que aparecen en cada uno de ellos. Una dificultad presente en la creacion de
este modelo es que varias palabras, que derivan de un mismo lema, presentan
el mismo contenido semantico. A modo de ejemplo, las palabras estudiando,
estudia y estudio no significan mas que estudiar. Este problema se soluciona
tranformando las palabras en su forma canonica, es decir, estudiando, estudia
y estudio son transformadas en estudiar.
Sea P la cantidad de palabras distintas, ya transformadas, presentes en al menos
uno de los Q documentos que se modelaran. Entonces una representacion vectorial
de los documentos esta dado por la matriz M de dimension P*Q.

M = (mij ), i = 1...P, j = 1...Q

(2.6)

En la ecuacion 2.6, mij es el peso de la palabra i en el documento j, dado un conjunto de documentos. Este valor debe explicitar que hay palabras mas importantes
que otras. Para calcular mij , se necesita saber que tan importante es una palabra
en un documento, en este sentido, el n
umero de veces que aparece la palabra i
en el documento j resulta ser relevante, y al ser normalizado por la cantidad de
veces que aparece en el total de documentos se obtiene una relacion de la palabra
i para el conjunto completo de documentos.
El calculo de mij se realiza en dos pasos. El primero mide la frecuencia de la
palabra i en el documento j versus la frecuencia de la misma palabra en el total
de documentos, representado por la ecuacion 2.7, donde mij es el n
umero de veces
que aparece la palabra i en el documento j.

26

nij
T Fij = PQ
k=1

nik

(2.7)

El segundo paso busca medir la importancia de la palabra en todo el conjunto de


documentos. Esta nocion esta dada por el logaritmo de la division entre el total
de documentos y la cantidad de ellos en los que aparece la palabra i (ecuacion
2.8).

IDFij = log(

Q
)
ni

(2.8)

Finalmente, mezclando 2.7 y 2.8 se obtiene mij .

mij = T Fij IDFij

(2.9)

Con esta representacion matricial, el conjunto de documentos esta listo para realizar Data Mining sobre su contenido.

2.3.2.

Web Structure Mining (WSM)

Esta sub-area de Web Mining estudia los enlaces presentes en las paginas Web.
Las paginas y enlaces se modelan como los nodos y los arcos de un grafo dirigido
respectivamente. El arco parte en el nodo que representa a la pagina que posee
el enlace y termina en el nodo que representa a la pagina que es apuntada. La
figura 2.4 representa los enlaces de tres paginas. La pagina A tiene dos enlaces, a
las paginas B y C, mientras que la B posee uno hacia la C.
Kleinberg [36] propuso una clasificacion de las paginas Web mediante este tipo
de analisis. Definio que una pagina es Authority si apunta a pocas paginas y
27

Figura 2.4: Grafo dirigido que representa enlaces entre paginas.

es apuntada por varias, lo que significara que su contenido es importante en la


Web. En contraste, una pagina es clasificada como Hub si posee varios enlaces a
otras paginas y es poco apuntada. Se asume que una pagina Hub posee un buen
contenido si apunta a paginas Authority y que una pagina Authority es apuntada
por varias Hub. En la figura 2.4, la pagina A es clasificada como Hub, mientras
que la C como Authority.
A modo de ejemplo, es posible establecer una analoga entre las paginas Authority
y las publicaciones de investigacion (papers). Se considera que un paper que es
muy citado posee buen contenido. Ocurre analogamente con las paginas Authority.
Los buscadores, como Google o Yahoo!, ocupan WUM para realizar sus procesos
de b
usquedas mediante los algoritmos Page Rank [6] y HITS [36] respectivamente.
Ambos ordenan las paginas seg
un sus pesos relativos en la Web [66].
Page Rank extrae las paginas mas relevantes independientemente de la consulta
ingresada por el usuario. El supuesto mas importante de este algoritmo es que la
importancia de una pagina esta dada por la cantidad de enlaces hacia ella. Por
otro lado, HITS necesita como entrada la consulta del usuario para ordenar las

28

paginas.
Otro uso que se le da a WSM es la identificacion de comunidades [24]. Estas
tecnicas son muy usadas ya que facilitan las busquedas en la Web, bajo el concepto
de dividir para reinar. La idea es encontrar comunidades que esten relacionadas
entre s por enlaces y contenidos y separar estas comunidades para realizar las
b
usquedas. Se realiza mediante el metodo Flujo maximo, corte mnimo [26].

2.3.3.

Web Usage Mining (WUM)

Esta enfocado en la aplicacion de tecnicas de Data Mining para descubrir patrones


u
tiles que puedan predecir la conducta del usuario mientras interactua en la Web
[37, 62]. Para descubrir estos patrones son analizadas las sesiones de navegacion,
que son la secuencia de paginas que un usuario visita mientras navega en un sitio
web. Para encontrarlas, hay que lidiar con varios problemas [62]:
Una direcci
on IP - Varias sesiones: Los servidores proxy son programas que
realizan acciones en representacion de otros. Por esto, cuando un usuario mediante
un proxy realiza una peticion, se almacena la IP del proxy, y no la del usuario.
Potencialmente habra varios usuarios ocupando un proxy y al mismo tiempo, con
lo que todas las peticiones de estos usuarios seran guardadas solo con la IP del
proxy.
Varias direcciones IP - Una sesi
on: En la actualidad existen herramientas que
permiten asignar aleatoriamente una IP (dentro de un conjunto fijo de estas) a
cada peticion realizada por el usuario. Con esto, una sesion podra estar compuesta
por peticiones provenientes de diferentes direcciones IP.
Varias direcciones IP - Un usuario: Un usuario puede acceder a un sitio desde

29

computadores diferentes, con lo que se hace difcil identificar al usuario.


Varios navegadores - Un usuario: Caso analogo al anterior, un usuario que usa
diferentes navegadores, incluso en el mismo computador, aparecera como varios
usuarios distintos.
Existen variadas estrategias para identificar las sesiones de navegacion de los
usuarios, las que fueron agrupadas por Spiliopoulou et al. [61] en dos categoras,
proactivas y reactivas.
Las estrategias proactivas ocupan alg
un metodo de identificacion directa del usuario,
como cookies o registros username/password. Cada vez que un usuario realiza una
peticion a un servidor web, su identificacion es anexada y enviada al servidor. Con
este mecanismo, cada peticion es asignada confiablemente a quien la inicio, evitando as las dificultades descritas anteriormente, ya que no depende de una IP.
Luego, para identificar las sesiones, solo basta con encontrar todas las peticiones
realizadas con un mismo identificador.
En segundo lugar, las estrategias reactivas solo analizan el archivo weblog para
obtener las sesiones. Dicho archivo es particionado, por las distintas direcciones IP,
en un conjunto de sesiones recontruidas. Para soslayar (en parte) los problemas
mencionados anteriormente, es necesario aplicar una de las siguientes heursticas
[23].
Heurstica orientada a la navegaci
on: Esta heurstica se basa en que los usuarios navegan por la Web solo siguiendo links, es decir, no escriben directamente
una URL en el navegador, por lo que si llega una peticion que no es accesible
desde las paginas que previamente han sido visitadas por un usuario, entonces
debe asignarse a una nueva sesion.
En el caso de que el usuario haga uso de la utilidad Retroceder una pagina del
30

navegador (evento que no es guardado en el weblog, pues queda almacenado en el


cache del navegador) y visite una nueva pagina que no posee un link desde la u
ltima
pagina visitada, esta heurstica reconstruye el Retroceder una pagina realizado
por el usuario. Esta situacion es extendida para reconstruir el movimiento del
usuario, eligiendo el camino mas corto que permita llegar desde la u
ltima pagina
visitada hacia la nueva, siguiendo los links presentes en el sitio [62, 16].
Heurstica orientada al tiempo: Esta heurstica instaura un lmite maximo
para la duracion de una sesion. Para calcular este lmite, Catledge y Pitkow [9]
midieron el tiempo promedio de inactividad en un sitio, resultando 9.3 minutos. A
este valor se sumo 1.5 veces la desviacion estandar, lo que resulto en 25.5 minutos.
Este valor fue aproximado a 30 minutos y en la actualidad es usado como el tiempo
maximo que puede durar una sesion [16, 60].
Luego de ordenar las peticiones de las diferentes direcciones IP por el tiempo en el
que llegaron, estas son particionadas en periodos de 30 minutos, para finalmente
asignar a cada particion una sesion. Cabe notar que para esta heurstica, a diferencia de la anterior, no importa si una pagina esta unida a otra a traves de un
link, por lo que se asume que un usuario puede escribir directamente una URL en
el navegador [61].
Una vez reconstruidas las sesiones de navegacion de los usuarios (que no es mas
que un pre-procesamiento de los datos), se puede aplicar diferentes tecnicas de
Data Mining, como Metodos estadsticos, Clusterig y Reglas de asociacion.
Los metodos estadsticos sirven para conocer, por ejemplo, las paginas que son
mas visitadas, o las que nunca lo son. Las tecnicas de clustering permiten agrupar
sesiones de navegacion de los usuarios. Estos clusters pueden ser usados para personalizar un sitio web, en funcion del usuario que navega por este. Las reglas de

31

asociacion entregan como resultado patrones como X % de los usuarios que visitaron la pagina P1, tambien visitaron la pagina P2 y si no existe un link directo
entre esas paginas, una recomendacion directa para el administrador del sitio sera
incluir un link desde P1 hacia P2 [66]. Es importante recordar que todos los patrones descubiertos deben ser analizados por un experto en el negocio, tpicamente
el administrador del sitio web, para que valide la informacion adquirida.
Para continuar, se tratara un tema estudiado hace mas de 50 a
nos, pero que en
la actualidad y promovido por avance de la tecnologa, ha llegado a ser ampliamente en otras areas de investigacion como usabilidad, marketing, asistencia para
minusvalidos, dise
no, etc.

2.4.

Eye Tracking

Eye Tracking es una tecnica mediante la cual los movimientos oculares de un individuo son medidos, por lo que un investigador puede conocer lo que una persona
esta mirando en cada momento y la secuencia en la que sus ojos se desplazan
de un lugar a otro. Seguir los movimientos oculares de la gente puede ayudar
a los investigadores de la Interaccion Humano-Computador a entender el procesamiento de la informacion visual y los factores que pueden tener repercusiones
en la usabilidad de la interfaz. De esta forma, las grabaciones de los movimientos
oculares pueden proporcionar una fuente de datos objetiva para la evaluacion de
interfaces, que a su vez pueden otorgar informacion para mejorar el dise
no de las
mismas [51].
La presente seccion comienza con un basico resumen del ojo humano, pues es
necesario recordar su composicion para comprender las sub-secciones posteriores.
A continuacion se presentan un modelo de los movimientos que pueden realizar
32

Figura 2.5: Componentes del ojo humano

los ojos. Luego se describen diferentes teoras de la atencion visual, campo donde
hasta el da de hoy no existe un consenso sobre su funcionamiento. Dada esta base
de conocimiento se presenta la hipotesis fundamental en la que se basa toda la
tecnologa Eye Tracking, se describen las diferentes tecnicas dentro de este campo
y finalmente, se describen los datos que genera un Eye Tracker actual.

2.4.1.

El ojo humano

El ojo es un organo que detecta la luz y que es capaz de transformar estos estmulos
en impulsos electricos, los que seran interpretados posteriormente en el cerebro.
En la figura 2.5 se puede apreciar un modelo del ojo humano, cuyos componentes
mas importantes para este trabajo, seran detallados brevemente a continuacion.
C
ornea: Es una estructura transparente ubicada al frente del ojo, que permite el
paso de la luz y protege otras estructuras posteriores. Posee propiedades opticas
de refraccion significativas, que son usadas por diferentes Eye Trackers como una
caracterstica localizable.
M
acula (o fovea): Es una peque
na depresion en la retina, donde los rayos lumi-

33

nosos son enfocados y que se encuentra especialmente capacitada para la vision


en alta resolucion, es decir, la macula esta en funcionamiento cuando observamos
algo con especial atencion o interes. [19].
Pupila: Es un orificio situado en la parte central del iris por el cual penetra la luz.
Cuando es iluminada, puede reflejar la iluminacion del globo ocular, caracterstica
que, al igual que en el caso anterior, es medible por los Eye tracker [19].
Retina: Ubicada en la superficie posterior del ojo, la retina contiene receptores
sensibles a la luz, lo que constituyen la primera etapa de la percepcion visual [19].

2.4.2.

Movimientos oculares

Cuando observamos una escena, cualquiera que esta sea, los ojos de una persona se
mueven entre puntos que capturan su atencion, y as se logra recrear una imagen
cerebral de la escena [44].
Si bien existen modelos de los movimientos oculares complejos que constan de
cinco pasos [19], el modelo tpico (y suficiente para los estudios de Eye Tracking) esta constituido por dos elementos: fixation (o fijacion), momento en el cual
los ojos permanecen fijos sobre un objeto y es posible apreciarlo en detalle; y
saccades (o movimientos sacadicos), que corresponden a los rapidos movimientos
oculares entre dos fixations [44]. Es importante notar que mientras se produce
un movimiento sacadico permanecemos ciegos (no somos concientes de lo que
esta entre los dos objetos que capturaron nuestra atencion). Sin embargo, nuestro
cerebro es capaz de interpretar esta secuencia de imagenes como un continuo, y
por ende, nuestra apreciacion parece mas un video que una secuencia de imagenes.

34

2.4.3.

Atenci
on visual

La atencion visual es un fenomeno que ha sido estudiado por cerca de cien a


nos y
que todava no se logra comprender. Los primeros estudios estaban limitados por
la tecnologa, y correspondan solo a observacion e introspeccion. En la actualidad,
este campo es estudiado por distintas disciplinas como psicofsica, neurociencia
cognitiva y ciencias de la computacion, por nombrar solo algunas [19].
Lo magnfico del sistema de vision humano es que creemos tener una imagen clara
de todo nuestro entorno, cuando por lo general no es as. Cuando prestamos atencion a un objeto en particular, nuestra mirada es dirigida directamente hacia este
y se produce un enfoque ntido. Entonces el cerebro junta estos trozos de imagenes
y forma una imagen mental del entorno, que es mucho mejor que cualquier cosa
enfocada separadamente [44].
En terminos generales, la vision humana tiene dos partes: una peque
na zona central con una resolucion muy alta, llama vision foveal, y la gran mayora del campo
visual con una baja resolucion, llamado la vision periferica.
Usualmente el hecho de prestar atencion a regiones de interes esta relacionado con
realizar movimientos oculares (overt attention). Sin embargo, tambien podemos
colocar atencion en objetos perifericos sin realizar este tipo de movimientos (covert
attention) [25].
Por otro lado, se conocen dos formas en las que la atencion es guiada: bottomup y top-down. La primera derivada solo de la escena visual, establece que las
regiones de interes atraen nuestra atencion lo suficientemente fuertes como para
que no observemos el resto de la escena (vision foveal). Por otro lado, top-down
es conducida por otros factores cognitivos, como el conocimiento, la expectacion
y las metas actuales. Bajo este modelo, las personas son mas propicias a ver a su
35

alrededor (vision periferica); a modo de ejemplo, un individuo que conduce con


regularidad, mas propenso a notar las estaciones de combustible mientras realiza
otra actividad que alguien que no lo conduce [25].
En la actualidad, a
un no esta claro que es lo que realmente captura nuestra atencion, ni como respondemos a diferentes estmulos. Existe evidencia de que prestamos atencion a ubicaciones espaciales, caractersticas y objetos. La mayora de los
investigadores creen que estas teoras no son excluyentes entre s y que, ademas,
la atencion visual puede ser desarrollada en cada una de estas subareas. Vale la
pena mencionar que los humanos podemos prestar atencion simultaneamente a
m
ultiples regiones de interes (maximo cinco) [25].
Los primeras representaciones de los movimientos oculares llevaron a pensar que
el reconocimiento de un estmulo no es una operacion de un solo paso, sino mas
bien es un proceso paralelo, al menos parcialmente realizado en serie; debido a
la tendencia de agrupar objetos. En la figura 2.6 se puede apreciar la llamada
ilusion de Kanizsa [35], donde se muestra este efecto. Muchas personas, luego de
ver esta imagen, diran que vieron un triangulo, el que solo es interpretado en
nuestro cerebro [44].

2.4.4.

La hip
otesis mente-ojo

Considerando las teoras descritas en la seccion anterior, Duchowski [19] planteo el


siguiente modelo:
1. Dado un estmulo, como una imagen, la escena es vista en su mayor parte en
paralelo, a traves de la vision periferica y, por lo tanto, en baja resolucion. En
esta etapa, las caractersticas interesantes de la imagen pueden aparecer.

36

Figura 2.6: La ilusion de Kanizsa.

2. En estos momentos la atencion esta desconectado de la vista foveal (alta


resolucion), pero los ojos son rapidamente posicionados en la primera region
que ha atrado.
3. Una vez los ojos son posicionados, la fovea se alnea hacia la region de interes
y la atencion esta ligada con la percepcion, es decir, la atencion del usuario
ha sido capturada y, por ende, se logra observar en alta resolucion.
Nielsen y Pernice [44] propusieron un modelo mas simple, pero que en esencia es
el mismo. Su hipotesis establece que Las personas estan usualmente pensando
en lo que estan mirando. Aunque no siempre entienden lo que ven o no est
an
totalmente enfocados en esto; si estan observando algo, entonces estan colocando
atencion, especialmente cuando estan concentrados en una tarea en particular.

37

2.4.5.

T
ecnicas Eye Tracking

En la presente seccion se describiran las diferentes tecnicas existentes para realizar el seguimiento de los ojos. Estas tecnicas pueden ser clasificadas en dos
categoras: las que miden la posicion del ojo con respecto a la cabeza y las que
miden la orientacion de los ojos en el espacio, lo que es denominado el punto de
atencion (lo que una persona esta mirando) [19].

Electro oculografa

En la decada de 1950, la electrooculografa fue la tecnica mas usada de Eye Tracking. Se basaba en la medicion de la diferencia de potencial electrico de la piel
mediante el uso de electrodos ubicados al rededor de los ojos. Esto es posible ya
que la cornea se mantiene unas decimas de mV mas positiva que la retina con lo
que se produce la diferencia de potencial que es medida y que vara de acuerdo al
movimiento de los ojos. [41, 57].
Esta tecnica mide la posicion relativa de los ojos con respecto a cabeza, por lo
que no es adecuada para calcular el punto de atencion, a menos que se mida
simultaneamente la posicion de la cabeza [19].

Lentes de contacto esclerales

Esta tecnica consiste en adjuntar una referencia mecanica u optica a un lente de


contacto que sera usado directamente sobre los ojos. Es necesario que el lente de
contacto sea particularmente grande, de modo que se extienda sobre la cornea y
la esclerotica, pues as se reduce la posiblidad de que se desplace sobre el ojo [19].
Se han usado distintos tipos de referencias sobre los lentes de contacto siendo la
38

mas com
un una peque
na bobina, que puede ser ubicada desde el exterior al aplicar
un campo electromagnetico [17, 53].
Si bien es una de las tecnicas mas precisas para medir los movimientos oculares,
es tambien la mas invasiva y causa malestar al usarlo. Por otro lado, solo mide la
posicion relativa del ojo a la cabeza, y generalmente no es adecuada para identificar
el punto de atencion [19].

Foto/Vdeo oculografa

Esta categora agrupa una amplia variedad de herramientas que capturan los
movimientos oculares. Esencialmente, mide distintas caractersticas de los ojos,
como por ejemplo, la pupila, el lmite entre la esclerotica y el iris o el reflejo de
la cornea cuando es iluminada. Aunque difieren en su enfoque, estas tecnicas se
agrupan porque a menudo no encuentran el punto de atencion [19]. Sin embargo,
es posible localizarlo mediante estimaciones y regresiones polinomiales [10, 39].
Estas tecnicas son de las mas atractivas debido a su versatilidad y simplicidad
[10]. Normalmente, consisten en una serie de fotos y/o videos que guardan los
movimientos oculares y que posteriormente son analizadas de forma manual o
automatica. Varios de estos metodos requieren que la cabeza este fija, por ejemplo,
mediante una mentonera.

Reflejo de la c
ornea y Centro de la pupila basado en video

Es la tecnica Eye Tracking mas usada en la actualidad. Consisten en un computador estandar de escritorio con una camara infrarroja montada debajo de un
monitor, con el software de procesamiento de imagenes para localizar e identificar
el Reflejo de la Cornea y el Centro de la Pupila. Con estas caractersticas, es posi39

Figura 2.7: Reflejo de la cornea y brillo de la pupila.

ble disociar los movimientos oculares de la cabeza, con lo que es posible calcular
el punto de atencion de los usuarios [51].
En funcionamiento, una luz infrarroja de un LED es dirigida hacia el usuario para
crear reflejos notorios de las caractersticas de los ojos y con esto conseguir que
sean mas faciles de rastrear (se ocupa luz infrarroja para evitar deslumbrar al
usuario). La luz entra en la retina y una gran parte de ella se refleja, por lo que
la pupila aparece como un disco brillante y bien definido (efecto conocido como
pupila brillosa). El reflejo de la cornea tambien es generado por la luz infrarroja,
apareciendo como un peque
no, pero fuerte brillo [51]. En la figura 2.7 se puede
apreciar el efecto pupila brillosa y el reflejo de la cornea. Una vez que el software
de procesamiento de imagenes ha identificado el centro de la pupila y la ubicacion
del reflejo de la cornea, el vector que resulta de ellos se mide, y con algunos calculos
trigonometricos, el punto de atencion puede ser encontrado.
Este tipo de Eye Tracker necesita ser ajustado a las caractersticas de cada persona. El proceso de calibracion funciona mostrando un punto en el monitor y si
el usuario observa este punto con un determinado margen de error y durante un
tiempo mayor a cierto umbral, el sistema registra la relacion centro de la pupila,

40

reflejo de la cornea como un punto (x,y) especfico. Este proceso es repetido con
otros puntos en el monitor para obtener mayor precision en todo el monitor [51].

2.4.6.

Datos generados por un Eye Tracker

Mediante la u
ltima tecnica descrita, los Eye Trackers modernos son capaces de
capturar varios tipos de datos, entre estos [63]:
Timestamp: Fecha y hora en milisegundos de cuando se recogieron los datos.
GazePointXLeft: Posicion horizontal en el monitor que observa el ojo izquierdo.
GazePointYLeft: Posicion vertical en el monitor que observa el ojo izquierdo.
CamXLeft: Ubicacion horizontal de la pupila izquierda en la imagen de la camara.
CamYLeft: Ubicacion vertical de la pupila izquierda en la imagen de la camara.
DistanceLeft: Distancia en mm. desde el Eye Tracker hasta el ojo izquierdo.
PupilLeft: Diametro de la pupila del ojo izquierdo dada en mm.
GazePointXRight: Posicion horizontal en el monitor que observa el ojo derecho.
GazePointYRight: Posicion vertical en el monitor que observa el ojo derecho.
CamXRight: Ubicacion horizontal de la pupila derecha en la imagen de la
camara.
CamYRight: Ubicacion vertical de la pupila derecha en la imagen de la camara.
DistanceRight: Distancia en mm. desde el Eye Tracker hasta el ojo derecho.
PupilRight: Diametro de la pupila del ojo derecho dada en mm.
Las mediciones de el tama
no de las pupilas y la distancia a los ojos pueden variar de forma importante entre los individuos dependiendo del uso de lentes. Sin
embargo, las variaciones en estas medidas son certeras.
Para los datos que corresponden a la ubicacion de un punto el monitor, este se

41

considera como el primer cuadrante de un mapa carteciano cuyo origen es la


esquina inferior izquerda.
Ademas de estos datos, son generados paralelamente codigos de validacion con
los que se puede determinar si una muestra es valida o corresponde a un error.
Estos codigos de validacion son generados independientemente para cada ojo,
por lo que es posible, por ejemplo, que se haya medido correctamente el punto
donde esta enfocado el ojo izquierdo, mientras que el derecho no se haya podido
determinar.

2.4.7.

Aplicaciones

Las aplicaciones de estas tecnicas son tan variadas como los campos en los cuales
se ocupa. A continuacion, se presenta una seleccion de investigaciones que han
sido desarrolladas mediante el seguimiento de los ojos:

Administrador de Energa para PC

Moshnyaga [40] implemento un administrador de energa para PCs que mantiene


activo un monitor solo si hay alguna persona observandolo, en caso contrario,
aten
ua su consumo energetico o lo apaga. Esto es analogo a lo que ocurre en la
actualidad, pero ocupando como entrada eventos de un teclado o mouse.

An
alisis de la conducta de los usuarios en una busqueda Web

Granka et. al [30] investigaron como los usuarios interact


uan con los resultados
de una b
usqueda en la Web, y como ellos eligen los links para seguir navegando.
Concluyeron que los dos primeros links son los mas observados en una pagina de
42

resultados de una b
usqueda Web, independiente del buscador empleado, lo que
concuerda con el hecho de que los tres primeros enlaces son los que reciben la
mayora de las visitas en el mismo contexto.

Buscando patrones en las p


aginas Web

Granka et. al [29] estudiaron como el tama


no de los elementos y la densidad
de la informacion en una pagina Web influan en su capacidad para atraer y
capturar la atencion de los usuarios. Ellos concluyeron que el tama
no y la densidad
de informacion no contribuyen significativamente cuando el usuario comienza a
prestar atencion a alg
un elemento. Ademas descubrieron que los usuarios generan
la capacidad de ignorar las zonas donde se encuentra publicidad en las paginas
Web.

Buenas pr
acticas para estudios Eye Tracking

Ali-Hasan et. al [1] establecieron un conjunto de buenas practicas para los estudios de Eye Tracking en television y video que incluye como realizar preguntas
adecuadas, moderar la duracion de las entrevistas y analizar los datos generados.

Usabilidad

Variada es la literatura sobre la aplicacion de la tecnologa Eye Tracking en estudios de usabilidad. Duchowski desarrollo toda una metodologa para aplicar esta
nueva herramienta [19], mientras que Nielsen y Pernice la aplicaron expecialmente
en usabilidad Web [44]. En esta area Burget et al. desarrollaron una metodologa
que permite encontrar las areas de mayor interes de los usuarios de una pagina
Web en pos de determinar su significado [7], mientras que Pan et al. estudiaron
43

las caractersticas sobre como las personas miran las paginas Web. Dado que estas incorporan diversos formatos, estipularon que la forma en que una persona
observa una pagina es distinta a como contempla otro tipo de entornos [47].
En el estudio de la interaccion humano computador, esta tecnologa tambien ha
sido aplicada. Pool y Ball establecieron que tan aplicada era esta tecnologa en
esta area de estudio [51]. Ademas, Rudmann et al. incorporaron a la investigacion
los procesos congnitivos que tienen los humanos mientras interactuan con un PC
[54]. Por otro lado, Tsianos et al. limitaron los procesos cognitivos estudiados a
solo los relacionados con el aprendizaje en un ambiente de educacion a distancia
[64].
A continuacion, se nombran otros estudios donde se aplico Eye Tracking: Buscher
et al. quienes buscaron las regiones de un monitor que son mas preferidas por
los usuarios para leer, independientemente del contenido [8] Redline et al. propusieron usar esta tecnologa para medir el dise
no de instrumentos administrados
visualmente [52] y Pietinen et al. desarrollaron una metodologa para estudiar
como interactuan dos programadores que trabajan colaborativamente frente a un
computador [49].
Para finalizar este Captulo, en la siguiente seccion se detallara el trabajo realizado
por Dujovne y Velasquez [20] en el que esta basada esta memoria, la que busca
mejorar su implementacion y precision.

2.5.

Website Keyobject

En la presente seccion se describira a fondo los Website Keyobjects. Se comenzara con su definicion, luego se explicitara su implementacion, se establecera una

44

medida de comparacion de objetos y finalmente se detallara una metodologa para


encontrarlos.

2.5.1.

Definici
on

Dujovne y Velasquez definieron un Web Object como un grupo estructurado de


palabras o contenido multimedia, que esta presente en una pagina Web y que posee
meta datos que describen su contenido [65]. En la definicion anterior los meta
datos son fundamentales ya que son la base de la informacion para construir el vector que representara el contenido de la pagina. Ademas, dos archivos multimedia
pueden ser comparados mediante sus metadatos, problema que es considerablemente mas abordable que el comparar directamente los archivos, ya que solo se
compara texto.
Ademas definieron los Web Site Key Object como uno o un grupo de Web Object
que atraen la atencion del usuario y que caracterizan el contenido de una pagina
o sitio web [65]. Estos proveen conocimiento acerca del contenido y formato que
mas interesan a los usuarios de un sitio web, por lo que encontrarlos puede ser
u
til para mejorar el sitio tanto en presentacion como en contenido.

2.5.2.

Implementaci
on

Considerando la primera definicion, para que una pagina Web este compuesta por
Web Object, es necesario que sus objetos posean los meta datos, cosa que por
lo general no ocurre. Existe una gran variedad de formas para agregarlos a las
paginas Web, dependiendo de la ontologa que se quiera ocupar.
En [65] se asocio a cada objeto un documento XML que contiene los meta datos

45

que describen su contenido y la pagina a la que este pertenece. Ademas, en la


pagina Web tambien se establece la relacion entre el objeto y el documento XML.
Para esto se usan tags de HTML. El siguiente es el formato con el que se guardaron
los meta datos:
identificador de la pagina
objeto:
identificador.
formato.
concepto(s).
Cada objeto debe poseer al menos un concepto asociado pues en caso contrario, el
objeto no tiene significado alguno. Cada concepto es un grupo de tres sustantivos
pues, en el lenguaje espa
nol, permiten una completa mas no suficiente definicion de
cualquier concepto [56]. Ademas cada concepto debe pertenecer a una categora
que los agrupe. Al usar estas categoras los conceptos podran relacionarse con
otros.
La figura 2.8 muestra un mapa conceptual que describe tanto la definicion como
la implementacion de los Web Objects.

2.5.3.

Comparaci
on entre objetos

Para comparar dos Web Objects, Dujovne y Velasquez [65] usaron la idea que los
objetos son un c
umulo de conceptos. El siguiente procedimiento muestra como
lograron establecer una medida de similitud entre objetos.

46

Figura 2.8: Mapa conceptual: Descripcion de los Web Objects.

Considere los objetos O1 y O2 tal que |O1 | = N , |O2 | = M , N >= 0, M >= 0 y


N <= M . Ademas sea Ci (O) el i-esimo concepto del objeto O.

Enlazar conceptos

El siguiente algoritmo permite enlazar los conceptos de O1 y O2 .


Ci (O1 ), i = 1..N
Cj (O2 ), j = 1..M
Comparar Ci (O1 ) con Cj (O2 ) (Comparacion de conceptos).
Guardar el resultado de la comparacion en un contador.
Guardar un enlace entre Ci (O1 ) y Cj (O2 ) con el contador mas grande
(Conceptos mas parecidos).
Para contrastar conceptos, se comparan las palabras que los componen. Si una
palabra del primer concepto esta en el segundo, se suma 1 al contador; si posee
un sinonimos, se suma 0,5.

47

Ordenar conceptos

Una vez almacenados todos los enlaces entre los conceptos correspondientes a O1 y
O2 , son ordenados de modo que queden en la misma posicion relativa en funcion de
los enlaces recientemente creados, es decir, que el primer concepto de O1 termine
enlazado con el primer concepto de O2 . El siguiente algoritmo ejemplifica esto:
Ci (O1 ), i = 1..N
Buscar el Cj (O2 ) que esta pareado con Ci (O1 )
Intercambiar Cj (O2 ) con Ci (O2 )

Transformar conceptos en un string

Como se menciono anteriormente, cada concepto debe pertenecer a una categora.


Cada categora, la que es representada por un caracter. Luego, al reemplazar cada
concepto por el caracter que representa a su categora, el c
umulo de conceptos
queda transformado en un string.

Aplicar la distancia de Levenshtein

Levenshtein [38] ideo una norma que mide la distancia entre dos strings, la que
tambien es conocida como la distancia de edicion y es ampliamente usada en la
actualidad por distintos correctores ortograficos. Consiste en contar el n
umero
de cambios, a nivel de caracteres, que deben hacerse sobre un string para ser
transformado en el de comparacion. Estos cambios pueden ser: eliminar, agregar
o cambiar un caracter por otro en cualquier lugar de la palabra.
Entonces, como O1 y O2 fueron transformados en strings, son comparados me48

diante la distancia de Levenshtein, con lo que se tiene un indicador de que tan


parecidos son dos objetos. Mientras menor sea la distancia, mas parecidos seran
los objetos.
Finalmente la ecuacion 2.10 define una norma que permite comparar objetos,
donde L(O1 , O2 ) es la distancia de Levenshtein de los strings que representan a
los objetos y |O| es el n
umero de conceptos del objeto O.

do(O1 , O2 ) = 1

2.5.4.

L(O1 , O2 )
max(|O1 | , |O2 |)

(2.10)

Metodologa para encontrar Website Keyobject

La metodologa que idearon Dujovne y Velasquez consta de dos grandes procesos:


Transformacion de datos y aplicacion de algoritmos de clustering.
Transformaci
on de datos

Esta
es una etapa tpica del proceso KDD (Ver seccion 2.2). Dado que en este
problema particular las fuentes de datos son varias es necesario realizar una diversa
limpieza y transformacion de datos.
Sesionizaci
on: Detallada con anterioridad (subseccion 3.3.2), el objetivo de esta
etapa es finalizar con la secuencia de paginas que visitaron los diferentes usuarios
de un sitio. Ademas, esta secuencia debe tener asociados los tiempos de permanencia de los usuarios en cada pagina.
Incorporaci
on de Metadatos: El primer paso de esta etapa es identificar los
objetos que componen las paginas del sitio. Una vez identificados, se deben definir
los conceptos que describen a cada uno de los objetos. Luego, esta informacion
debe ser almacenada en un base de datos. El levantamiento de estos datos debe ser
49

en conjunto con el webmaster, para asegurar que los conceptos reflejen fielmente
el contenido de los objetos.
Tiempos de permanencia en objetos: Luego de definir los objetos, Velasquez
y Dujovne propusieron realizar una encuesta a un grupo de usuarios de control de
modo que cada persona entrevistada distribuya un total de 10 puntos de interes
entre todos los objetos de una pagina. Con estos datos, se estimo el porcentaje de
permanencia de cada usuario en los objetos de cada pagina.
Posteriormente, en la lista de sesiones se reemplazo cada registro de pagina visitada por los objetos que componen dicha pagina, intercambiando el tiempo de
permanencia de la pagina por el tiempo ponderado de permanencia en cada objeto.
Vector de comportamiento del usuario: Finalmente, para cada sesion identificada se seleccionaron los n objetos que capturaron mas la atencion del usuario,
definiendo as el Important Object Vector (IOV) seg
un la ecuacion 2.11

v = [(o1 , t1 )...(on , tn )]

(2.11)

Algoritmos de Clustering
Una vez realizada toda la limpieza y transformacion de datos, se procede a procesar algoritmos de clustering sobre las sesiones de los usuarios, representadas mediante el Important Object Vector. Para poder ejecutar estos algoritmos, es de crucial
importancia definir una medida de distancia, o similitud, entre estos vectores.
Medidas de similitud para sesiones: Dujovne y Velasquez [65] definieron la
similitud entre dos IOV mediante la ecuacion 2.12.

50

i
1 X
k k
st(, ) = ( min( , ) do(ok , ok ))
i
k k
k=1

(2.12)

En la ecuacion 2.12, y corresponden al identificador de las sesiones de usuarios


a ser comparadas, k corresponde al tiempo de permanencia del usuario en el
objeto ok y do(ok , ok ) es la similitud entre los respectivos objetos, definida en la
ecuacion 2.10. La ecuacion 2.12 esta definida entre los valores 0 y 1, siendo 0
cuando los IOV no se parecen en nada y 1 cuando son identicos.
Esta medida de similitud fue ocupada como parametro de entrada para los algoritmos de clustering. Dujovne y Velasquez implementaron tres de estos algoritmos,
principalmente para comparar los resultados que entregaron estas tecnicas. Los
algoritmos de clustering ocupados fueron: Self Organizing Feature Maps, K-means
y Association Rules.

51

CAPITULO

3
DEL EXPERIMENTO
DISENO

Para seguir la naturaleza investigativa de este trabajo de ttulo, es necesario realizar un experimento que compruebe la hipotesis planteada en 1.3. Este experimento, bosquejado en 1.6, sera desmenuzado con gran detalle en este captulo.

3.1.

El entorno

En esta seccion se describira el ambiente sobre el cual se llevara a cabo el experimento. La idea principal es preparar el medio para que los resultados obtenidos
sean limpios, es decir, no incorporen sesgo ni otras variables ajenas al estudio o
que su influencia sea mnima. Se comienza por describir las caractersticas que
debe tener el sitio sobre el cual se desarrollara el experimento, luego el grupo de
control sobre el cual se trabajara y, para terminar, se listaran las caractersticas
mnimas que debe poseer el Eye Tracker a ocupar.

3.1.1.

El sitio

Necesita satisfacer tres requerimientos: Debe tener un n


umero de paginas adecuado, la cantidad de objetos por paginas no puede ser excesivo y debe poseer una
52

gran cantidad de visitas almacenadas (sesiones).


La variedad de sitios en Internet es abrumadora. Se pueden encontrar sitios de
solo una pagina, como sitios con un n
umero de paginas del orden de millones. Para
este trabajo, de ser reducido el n
umero de paginas (10-20) no sera posible apreciar
todo el potencial del experimento. En caso contrario, si el sitio esta constituido
por muchas paginas (200 o mas), se estara agregando una dificultad adicional
innecesaria. Por estas razones se espera que el sitio sobre el cual se desarrollara este
estudio este constituido por unas 100 paginas distintas.
Con respecto al n
umero de objetos por pagina, si una de estas se encuentra constituido por un objeto, entonces no es necesario testear esta pagina, ya que el
tiempo de permanencia en el objeto es equivalente al tiempo de permanencia en
la pagina. Si el n
umero de objetos por pagina es excesivo, antes de agregar dificultad al experimento, se recomendara al administrador del sitio seguir consejos de
usabilidad basicos para el re-dise
no del sitio. Se espera que el promedio de objetos
por pagina no sea superior a 20.
Por otro lado, uno de los supuestos esenciales para poder realizar Data Mining,
es tener grandes cantidades de datos. Por eso, la factibilidad de acceso a los datos
guardados en el weblog es crtica.
Adicionalmente, otra caracterstica deseable del sitio es que se puedan realizar
cambios sobre este. Si bien es factible realizar el experimento sobre uno que no es
modificable, sera un desperdicio no implementar las mejoras descubiertas durante
el desarrollo del experimento.

53

3.1.2.

El grupo de control

Este es un punto sumamente relevante para el desarrollo del experimento, pues de


no elegir una muestra suficientemente representativa de los usuarios que visiten el
sitio, se podra llegar a resultados que no correspondan a la realidad.
De contar con abundantes recursos (tiempo, dinero, personas), se recomienda altamente estudiar al menos a 39 personas distintas, pues en este caso, el Teorema
del Lmite Central nos dice que la media y la varianza de la muestra seran similares a las de la poblacion, donde aplicado a este caso, las variables aleatorias
corresponden al tiempo de permanencia de los usuarios en los objetos web.
En caso contrario se necesita asegurar que la muestra elegida sea representativa
del universo. Para lograr esto, se usara el conocimiento experto del encargado del
sitio, quien proveera pautas sobre el p
ublico objetivo del portal. Sin embargo, se
consideraran usuarios que no sean parte del p
ublico objetivo del sitio, pues dada
la naturaleza aleatoria de la navegacion, es posible que personas totalmente ajenas
al sitio accedan a este. Ademas, se seleccionaran usuarios web de distintos niveles
de expertise: amateurs, seniors y expertos. Con respecto al sexo, la edad, nivel de
educacion, etc. se seguiran las pautas otorgadas por el administrador del sitio.

3.1.3.

El Eye Tracker

En la actualidad, y con el avance de la tecnologa en este campo, la mayora de


los Eye Tracker comerciales son precisos, pero su costo es elevado. Por lo que el
elegido para realizar el experimento debe estar dentro del alcance economico del
proyecto y su precision debe permitir identificar los objetos que mira un usuario.

54

3.2.

Captura de datos

En esta seccion se describe como se obendran los distintos datos para realizar el
experimento. Estos datos, al ser de orgenes diversos, necesitan ser tratados de
forma distinta cada uno.

3.2.1.

P
aginas

Una vez elegido el sitio, sera desmenuzado en todas sus componentes. Para realizar esto se empleara un crawler que recuperara desde la Web todas las paginas
disponibles que conforman el sitio y tambien los enlaces entre estas.
Ademas, las paginas recuperadas por el crawler seran almacenadas como imagenes
con formato png para posteriormente realizar el cruce entre estas y los datos que
entregara el eye tracker (coordenada del pixel dentro de la pagina).

Objetos

Como primer paso, la demarcacion de los objetos debe ser, idealmente, realizada
con el administrador del sitio. En caso de no ser posible trabajar en conjunto
con el, sera necesario que valide esta separacion. Para describir el contenido de
cada objeto se procedera seg
un definieron Dujovne y Velasquez [65] por lo que se
guardara su formato y una lista de conceptos descriptores del objeto.

3.2.2.

Weblog

El archivo weblog (ver 2.1.3) sera recuperado con el administrador de sistemas


de la maquina donde esta alojado el sitio. Este archivo puede estar en distintas
55

carpetas, dependiendo del servidor web instalado y de la configuracion del mismo.

3.2.3.

Inter
es de los usuarios

Para capturar el interes de los usuarios en los diferentes objetos de las paginas, se
procedera de dos maneras: uso de un Eye Tracker y aplicacion de una encuesta.

Eye Tracker

Con el objetivo de determinar cuantitativamente los tiempos de permanencia en


los Web Objects, se empleara un Eye Tracker comercial que entregara los datos
correspondientes a los movimientos oculares de los usuarios. La captura de estos
datos se realizara de dos formas: mediante la asignacion de tareas a los usuarios
de control y la presentacion de las paginas del sitio como estmulos.
Asignaci
on de tareas: En estudios de usabilidad de sitios web, lo habitual es
asignar tareas a usuarios de control y, mientras ellos la realizan, almacenar sus
movimientos oculares. Estas tareas deben reflejar lo que el usuario tpico puede
hacer en el sitio. Ejemplo de esto es que a un usuario de control se le asigne la
tarea de solicitar un credito de consumo en el sitio de alg
un banco.
Para poder asignar estas tareas se necesita un acabado conocimiento de los procesos de negocio que se realizan en el sitio estudiado. Si no se posee esta competencia,
es muy probable que el estudio no llegue a buen resultado, pues los movimientos
oculares de los usuarios de control son sesgados hacia la tarea solicitada. Por esto,
las tareas elegidas deben ser validadas por quien tiene a cargo el sitio estudiado,
pues es quien tiene el conocimiento experto sobre el negocio del portal.
P
aginas como estmulos: Dado que no se usara la tecnologa Eye Tracking
56

para un estudio de usabilidad, sino que solo se espera cuantificar el tiempo de


permanencia de los usuarios en los Web Objects, se propone una forma distinta
para capturar los datos. En vez de asignar tareas a los usuarios, se les presentaran
las paginas que componen el sitio como estmulos, es decir, se les ense
naran secuencialmente todas las paginas. En este proceso, el usuario podra avanzar a la
pagina siguiente cuando considere que no hay nada mas que llame su atencion.
Ademas cada pagina podra ser vista por un tiempo maximo determinado. Este
tiempo se calculara a partir de los tiempos de permanencia de los usuarios de la
pagina almacenados en el weblog.
A pesar de que el Eye Tracker necesita ser calibrado para cada usuario testeado, a
la mitad del grupo de control se le ocultara el funcionamiento de esta herramienta, para determinar si hay diferencias significativas entre los usuarios que saben
que se almacenaran sus movimientos oculares y los que no. Algunos de los datos
generados por un Eye Tracker son detallados en la subseccion 2.4.6

Encuesta

Luego de realizar la medicion con el Eye Tracker, se procedera a realizar la misma


encuesta que aplicaron Velasquez y Dujovne [65] a los participantes de su experimento. Con esto se obtendran los tiempos permanencia que estimaron Velasquez
y Dujovne para implementar la metodologa. Ademas, al comparar los datos generados por la encuesta y por el Eye Tracker, se podra contrastar lo que dicen
que vieron los usuarios, con lo que realmente vieron.

57

3.3.

Transformaci
on de datos

Para continuar con la gua dada por el proceso KDD (ver 2.2), luego de capturar
los datos, seran transformados con el fin de que los datos sean procesables por
los algoritmos de Data Mining. Analogamente a la captura, la transformacion de
datos sera realizada independientemente para cada una de las fuentes de datos.

3.3.1.

P
aginas

Las paginas no seran transformadas. Solo se almacenara su url, imagen en formato


png y tama
no en pixeles.

Objetos

Mas que transformar los datos de los Objetos Web, estos deben ser caracterizados
mejor. Se almacenara su formato, una descripcion sencilla y su tama
no en pixeles.
Ademas, en otra tabla relacional se guardaran las listas de conceptos que describen
los objetos y la categora a la que pertenencen. Junto con esto se creara la relacion
que parea los objetos con sus conceptos.
Por otro lado, para conocer los objetos que aparecen en las paginas, se creara una
relacion que mapea los objetos en las paginas. Esta relacion guardara ademas
la coordenada superior derecha del objeto en la pagina. Con esta informacion,
dada la coordenada de un pixel en la imagen de la pagina, se podra determinar a
que objeto pertenece dicho pixel. Esto sera de vital importancia al mapear lo que
miran los usuarios mientras navegan.
Ademas, una vez cargados los datos de los objetos y los conceptos, se procedera a calcular la distancia conceptual entre objetos, seg
un la ecuacion 2.10. Estas
58

Figura 3.1: Modelo de paginas, objetos y conceptos.

distancias seran guardadas en una tabla relacional, de modo que al ejecutar los
algoritmos de Data Mining, no sea necesario volver a calcular la separacion entre
objetos.
La figura 3.1 muestra el modelo relacional que soporta lo dicho anteriormente
sobre paginas, objetos y conceptos.

3.3.2.

Weblog

Una vez recuperado el archivo weblog (ver 2.1.3) sera pre-procesado y almacenado
en una tabla relacional que permita manipular los datos que guarda. Posteriormente se llevara a cabo la sesionizacion, proceso descrito en la subseccion , cuyos
resultados seran almacenados en otra tabla. Estos resultados daran a conocer la
secuencia de paginas visitadas por los usuarios y la duracion de su estancia en
cada pagina. La figura 3.2 ilustra el modelo que almacenara los datos del weblog
y los tiempos empleados por los usuarios en las paginas.

59

Figura 3.2: Modelo weblog y tiempo usado en las paginas.

3.3.3.

Inter
es de los usuarios

A continuacion se detallara el procedimiento para transformar los datos que miden


el interes de los usuarios en los objetos web.

Eye Tracker

Los datos que entrega el Eye Tracker se reduciran y agruparan de modo que
se pueda calcular cuanto tiempo gastan los usuarios observando cada objeto. La
idea principal es dado los tama
nos de paginas y objetos en pixeles y la ubicacion
de estos u
ltimos, mapear las coordenadas que entrega el Eye Tracker, tambien
en pixeles, sobre los objetos de una pagina que observo un usuario en cierto
instante. Una vez mapeado al objeto correspondiente, se almacenara el tiempo que
gasto cada usuario en cada objeto del sitio. Luego, este valor se transformara en un
porcentaje de permanencia del usuario en los objetos para finalmente promediar

60

los tiempos de permanencia de todos los usuarios en los objetos.


Ademas de estos datos se almacenara la forma en que fueron capturados los datos,
mediante la presentacion de las paginas como estmulos o mediante la asignacion
de tareas. As mismo, se guardara si el usuario conoca o no el funcionamiento del
Eye Tracker. Con estos datos, posteriormente se establecera cual es la mejor forma
de capturar los movimientos oculares para esta metodologa y si es influyente en el
estudio que las personas entrevistadas conozcan que se guardaran sus movimientos
oculares.

Encuesta

Los datos que entregara la aplicacion de la encuesta corresponden a la asignacion


de puntos de interes que los usuarios otorgan a los objetos presentes en las paginas.
Para cada pagina, los usuarios dispondran de 10 puntos de interes, que seran
repartidos a libre criterio entre los objetos que mas llamen su atencion. Luego,
como paso intermedio y bajo el supuesto de los puntos de interes de un objeto son
directamente proporcionales al tiempo que un usuario enfoca su atencion en este,
se transformaran los puntos de interes en un porcentaje de permanencia. A modo
de ejemplo, si un objeto obtiene 5 puntos de atencion, entonces el porcentaje de
permanencia sera de 0,5. Finalmente, se promediaran todos los porcentajes de
permanencia de los objetos, con lo que se tendra una distribucion de permanencia
para los objetos de todas las paginas del sitio.
Una vez transformados los datos generados por el Eye Tracker y por la encuesta,
cada registro de la tabla spent time on pages (figura 3.2) sera reemplazada por
todos los objetos que componen la pagina asociada. En este proceso, la transformacion principal corresponde a ponderar el tiempo de permanencia de las paginas

61

por los porcentajes de permanencia de los objetos, calculados en las transformaciones anteriores. Esta informacion reflejara que objetos son los que miran los
usuarios mientras navegan por el sitio Web.
Con estas transformaciones se podra intuir si existen diferencias significativas
entre capturar el interes de los usuarios mediante una encuesta o con un software
especializado de Eye Tracking.

3.3.4.

Usuarios de control

Acerca de los usuarios entrevistados durante el desarrollo del experimento, se


almacenara el sexo, edad, profesion, area de la profesion, nivel academico, dominio
de Internet, conocimiento del estudio y conocimiento del sitio.
El area de la profesion corresponde a una agrupacion de las profesiones seg
un
el area de estudio, este campo puede tomar valores entre matematico, biologo
o humanista. La incorporacion de este dato busca establecer si existe relacion
entre el area de la profesion y lo que mas llama la atencion de los usuarios. Los
campos sexo, edad, profesion, nivel academico, dominio de Internet y conocimiento
del sitio se almacenaran para llevar control sobre la muestra seleccionada para
el estudio, con el objetivo de que sea lo mas representativa posible. El campo
conocimiento del estudio guarda si el usuario entrevistado conoce el objetivo del
estudio y el funcionamiento del Eye Tracker. Con esta campo, se establecera si
existe variacion significativa entre los usuarios que saben que sus movimientos
oculares seran grabados y los que no. Ademas, al combinar estos datos con los
obtenidos al aplicar la encuesta, se establecera si lo que dicen que vieron los
usuarios, es realmente lo que vieron.

62

3.4.

Variaciones de la metodologa

La gran variacion que se implementara consiste en incorporar a la metodologa


dise
nada por Dujovne y Velasquez [65] los tiempos de permanencia de los usuarios
en los objetos calculados a partir de los datos generados por un Eye Tracker. Este
cambio no considera ninguna otra alteracion mas que reemplazar los tiempos de
permanencia en los objetos estimados mediante una encuesta.
Sin embargo, se realizaran dos tipos de capturas de datos con el Eye Tracker, mediante la asignacion de tareas y presentacion de estmulos, estos datos se analizaran
y de encontrar que son dispares, esta metodologa se procesara dos veces, una por
cada tipo de captura de datos.

3.5.

Comparaci
on de Resultados

Las distintas versiones de la metodologa para encontrar website keyobjects entregaran como resultados distintos conjuntos de objetos. Para poder comparar estos
resultados nuevamente se usara el conocimiento experto del encargado del sitio,
quien establecera si un objeto clasificado como website keyobjects realmente lo
es. Una vez adquirido este conocimiento se compararan los conjuntos obtenidos
por las metodologas mediante el indicador precision (ver 2.2.5). Este indicador
es usado para evaluar la prediccion de un algoritmo de clasificacion. Con estos
resultados se concluira y se establecera la validez de la hipotesis.

63

CAPITULO

4
TRABAJO REALIZADO

En el presente captulo se detalla todo el trabajo elaborado para finalizar el experimento dise
nado en el captulo anterior. Se comenzara por describir el entorno
en el que se trabajo, como se capturaron y transformaron los datos, para finalizar
con las tecnicas de Web y Data Mining empleadas.

4.1.

El entorno

En esta seccion se describira el contexto sobre el que se trabajo. Se especificara el


sitio elegido, se describiran los usuarios de control seleccionado, as como el Eye
Tracker usado y las herramientas usadas a lo largo del experimento.

4.1.1.

El sitio elegido

Los experimentos se desarrollaron sobre el sitio http://www.mbauchile.cl, perteneciente


a la direccion del Magster en gestion y direccion de empresas del Departamento
de Ingeniera Industrial de la Universidad de Chile. Este sitio fue lanzado a la
Web en Enero del a
no 2011, luego de la re-estructuracion del anterior.

64

Figura 4.1: Tabla estadstica de las visitas al sitio

Esta compuesto por 124 paginas y 163 objetos distintos que aparecen en 2.047 en
el sitio, es decir, un objeto puede estar presente mas de una vez en el sitio. Con
esto, el n
umero promedio de objetos por pagina es 12,55.
Sobre las visitas al sitio, en promedio cada mes acceden 4.158 personas distintas,
se contabilizan 6.111 sesiones y se ven 26.589 paginas. En la tabla 4.1 se puede
apreciar el trafico mensual (desde Enero del 2011). Cabe notar que el trafico
mensual en el mes de Septiembre fue superior a promedio de los meses anteriores.
Esto se debio a que durante dicho mes se realizaron las pruebas para este trabajo,
lo que explica el aumento de visitas.

4.1.2.

Los usuarios entrevistados

Antes de seleccionar a los usuarios de control que participaran en el experimento,


se solicito al experto del negocio informacion sobre el mercado objetivo del sitio en
estudio con el objetivo de elegir una muestra mas representativa de los individuos
que visitan el sitio.
Teniendo en cuenta esta informacion, se seleccionaron 33 personas. De estas, 16
65

son de sexo masculino y 17 femenino, mientras que su promedio de edad es de


24,3 a
nos. En este universo, 19 de ellos se declararon matematicos, 8 humanistas
y 6 biologos.
Los matematicos son ingenieros de varias especialidades, en su mayora civiles. Los
humanistas fueron psicologos literatos y ling
uistas, mientras que en los biologos
aparecen medicos, odontologos, kinesiologos y veterinarios.
Con respecto al conocimiento y uso de la Web, 15 de ellos se declararon expertos
al navegar por la Web, 12 consideran que su conocimiento es regular y solo 6 de
ellos se declararon usuarios basicos.
15 de las personas entrevistadas conocan de que se trataba el estudio, es decir,
estaban al tanto de que sus movimientos oculares seran medidos, mientras que
los 18 restantes lo desconocan.
En la tabla 4.2 se puede apreciar el detalle de estos atributos de las personas
entrevistadas.

4.1.3.

El Eye Tracker Utilizado

Para el desarrollo de los experimentos se conto con herramientas de Software y


Hardware de Eye Tracking. Acerca del hardware, se uso el Eye Tracker Tobii T120
(Ver figura 4.3), que consiste en un monitor de 17 pulgadas al que se le incorpora
dos emisores infrarrojos y un sensor de luminosidad. Este hardware posee una
resolucion temporal de 120 Hz y tiene un margen de error de 0,5 . Con respecto al
software, se uso el programa Tobii Studio Enterprise Edition, solucion que permite
mapear facilmente lo que se muestra en el monitor, con el lugar del mismo que
los usuarios observan.

66

Figura 4.2: Caractersticas de los usuarios de control

67

Figura 4.3: Tobii T120

Estas herramientas pertenecen a la categora Reflejo de la cornea y Centro de la


pupila basado en vdeo, clasificacion mas avanzadas de las herramientas en esta
area (Ver 2.4.5).
Antes de realizar el experimento, se evaluaron otras soluciones de Eye Tracking,
que fueron descartadas debido a su alto costo y a la dificultad de traerlos al
pas, mientras que la empresa Tobii, posee una filial en Chile para toda America
Latina, que provea las herramientas bajo concepto de arriendo, con lo que el valor
de adquirirlo fue considerablemente menor.

4.1.4.

Herramientas ocupadas

Los experimentos fueron ejecutados sobre un Notebook HP 530 con un procesador


Intel Core Duo T2050 de 1.60 GHz con 2GB de memoria RAM. Se emplearon los
sistemas operativos Windows XP Profesional Edition y Ubuntu 11.04. El primero
se uso para ejecutar el software Tobii Studio Enterprise Edition (captura de datos)
y el segundo para el desarrollo de los algoritmos del experimento.
68

El desarrollo de programas de limpieza y transformacion de datos se realizo en


python 2.7.1 y SQL dependiendo de lo que fuera mas conveniente en cada caso.
Los algoritmos de data mining tambien se desarrollaron en python 2.7.1. La base
de datos usada fue PostgreSQL 8.4.9.

4.2.

Captura de datos

La diversidad de los datos usados es tan grande que llega a ser relevante para el
desarrollo de esta memoria. En este sentido esta seccion esta dedicada a describir
como se adquirieron los datos con los que posteriormente se trabajo. Se listan los
procesos seg
un el origen desde donde se obtuvieron los datos.

4.2.1.

El sitio

Para conocer la composicion de el sitio http://www.mbauchile.cl se implemento un


crawler que genero la lista de paginas que componen el sitio. Este crawler se
desarrollo ocupando la librera de Python Beautiful Soup.

Las p
aginas

Ademas cada pagina fue almacenada en formato png, para posteriormente mapear
sobre estas los objetos. Se midio el tama
no en pxeles de todas las paginas y luego
se almaceno esta informacion.

69

4.2.2.

Los objetos

Una vez capturada la lista de paginas a analizar se procedio a identificar los objetos
del sitio. Para separar cada pagina en los objetos que la componen se consideraron
dos criterios: diferencias en el contenido (Conceptos) y la separacion espacial entre
objetos de cada pagina. Esta separacion genero 163 objetos distintos, los que por
lo general aparecieron en varias paginas.
Para conocer cuales eran las coordenadas de los objetos dentro de las paginas
se empleo la librera Python Imaging Library (PIL), que permite trabajar con
imagenes sobre el interprete de Python. Se implemento un script, que a partir de
las imagenes de las paginas del sitio, generaba las coordenadas de los distintos
objetos pertenecientes a cada pagina.

4.2.3.

Los conceptos

Luego de listar los objetos se procedio a generar los conceptos que describen su
contenido. Se procedio de forma analoga a lo que realizo Dujovne [65], es decir,
cada concepto fue creado de forma manual. De haber empleado alg
un generador
de conceptos automatico, como el algoritmo Latent Dirichlet Allocation (LDA)
[4], se estara agregando una nueva variable en el estudio de la metodologa, con
lo que sera mas complejo determinar si el aumento o disminucion de la precision
fue debido al uso del eye-tracker o al uso del algoritmo LDA.
Toda la informacion generada en estos pasos fue almacenada en una base de datos
relacional, cuyo modelo se puede apreciar en la figura 3.1.

70

4.2.4.

El Weblog

Este se recupero desde el servidor donde se aloja el sitio en conjunto con el administrador de sistemas, luego de obtener permiso del due
no del sitio. No se logro recuperar la totalidad de las peticiones pues no se almacenan los registros
historicos. Sin embargo, se obtuvo las peticiones correspondientes al mes de Agosto de 2011. Durante este mes visitaron el sitio 3.031 personas distintas, en 5.480
sesiones. En total se visualizaron 28.832 paginas, se registraron 156.259 peticiones,
y se alcanzo un trafico de 3.20 GB.

4.2.5.

Inter
es de los usuarios

Para medir elinteres de los usuarios en los objetos web, se midio y estimo su
tiempo de permanencia en ellos. Esto se realizo de dos formas: mediante el uso de
un Eye Tracker y mediante la aplicacion de la encuesta empleada por Dujovne
[65].

Eye Tracker

A cada uno de los usuarios de control se les instruyo como procedera el experimento. A la mitad de estos se les revelo que sus movimientos oculares seran
almacenados, mientras que al resto se le oculto. Con esto se espera determinar si
hay diferencias considerables en los resultados con respecto a esta variable.
La figura 4.4 muestra como fueron ubicados los usuarios frente al Eye Tracker, ya
que este es sensible a la posicion relativa entre los mismos.
A 15 de los usuarios de control (Ver figura 3.1), se les planteo la siguiente situacion:
Usted tiene la inquietud de postular a un programa MBA, pero a
un no toma una
71

Figura 4.4: Ubicacion Eye Tracker - Usuario

decision definitiva, por lo que su primer paso sera informarse. En la b


usqueda de
informacion ha llegado al sitio http://mbauchile.cl, el cual provee datos relevantes
sobre el MBA que dicta la Universidad de Chile. Partiendo desde el home del
sitio, navegue libremente hasta que pueda tomar una decision o decida realizar un
nuevo paso. De esta forma, se busco emular la navegacion tpica de los usuarios
en sus casas.
Los restantes 18 individuos no navegaron libremente, sino se les instruyo a mirar
las paginas que se les presentaran, sin seguir ning
un enlace. A cada uno de ellos
se les presentaron paginas semi-aleatorias del sitio. Los usuarios podan pasar a
la pagina siguiente cuando lo estimaran conveniente, pero si pasaban mas de un
minuto en una pagina, automaticamente se le redirecciono a la pagina posterior.
El n
umero de paginas presentadas a los usuarios no fue superior a 30.
Los datos que genera el Eye Tracker Tobii T120 son diversos y numerosos. El software permite exportar vdeos y 5 tipos de archivos de datos por cada usuario entrevistado: All Data, Areas of Interes, Combined Data, Event Data y Fixation Data.
El primero corresponde a todos los datos que genera el software mezclados entre s.
72

En el archivo Areas of Interes se puede exportar las areas de interes de las paginas,
si es que estas fueron definidas antes de desarrollar el experimento. Esta caracterstica resulta muy u
til cuando se presentan estmulos visuales como imagenes,
donde no es posible seguir links de forma libre. El archivo Combined Data mezcla
los datos de los archivos Event Data y Fixation Data. El primero de estos contiene la informacion de los eventos mientras se ejecuta el experimento. Almacena
los clicks que se realizaron (derecho, izquierdo, y coordenadas del pxel), los links
que se siguieron, los estmulos que se mostraron y si cambio algo en la pagina,
como un nuevo display. Finalmente, el archivo Fixation Data guarda los datos
de las Fixation y Sacades de los movimientos oculares de los usuarios. Con estos
archivos, sin considerar los videos generados, se almacenaron 2.2 GB de datos en
archivos de texto.

Encuesta

Luego de ser enfrendatos al Eye Tracker, independiente de la forma en que se


capturaron sus movimientos oculares, se solicito a los sujetos responder una encuesta en la que por cada pagina vista, indicaran los objetos que mas capturaron
su atencion. Para medir el interes prestado por los usuarios, se les indico repartir
10 puntos, como ellos quisieran, sobre los objetos de cada pagina, teniendo en
cuenta que mientras mas puntos tena un objeto, mas interes les presto el usuario.

4.3.

Selecci
on, limpieza y transformaci
on datos

A continuacion se detalla como se pre-procesaron los datos capturados anteriormente. Este proceso se separo seg
un el origen de los datos. Se describe de forma
especial el trabajo realizado para medir el interes de los usuarios, pues es en este
73

punto donde se produce la diferenciacion con la metodologa original, descrita en


detalle en el Marco Conceptual.

4.3.1.

Las p
aginas

De la lista de paginas obtenidas anteriormente con el crawler, se eliminaron dos:


la pagina correspondiente al RSS y una pagina repetida. La que corresponde
al RSS del sitio, se elimino pues no se espera que sea visitada por personas,
sino por programas lectores de noticias. La segunda pagina que se elimino era
igual en objetos y conceptos a otra, pero con una URL distinta, por lo que no
fue considerada en el estudio. Sin embargo, en el proceso de sesionizacion las
peticiones a la pagina eliminada fueron consideradas como peticiones a su pagina
equivalente.

4.3.2.

Los objetos

Una vez que se identificaron los 163 objetos del sitio, el experto del negocio
valido esta separacion, pero tambien agrupo, disgrego y elimino algunos objetos
pre-seleccionados.
Posteriormente a esta validacion, como cambiaron algunos objetos, hubo que recalcular las posiciones de los mismos en las paginas. Para esto se modifico y reejecuto el script que genero la ubicacion (en pxeles) de los objetos en las pagina.
Luego las coordenadas de los pxeles de los objetos fueron normalizados seg
un la
dimension del estmulo, con lo que las coordenadas de los objetos pasaron de estar
guardados como enteros entre 0 y el largo de la dimension del objeto, a un valor
de doble precision entre 0 y 1. Esto para adecuarse a la forma en que entrega los
datos el Eye Tracker.
74

4.3.3.

Los conceptos

Con respecto a los conceptos que describen los objetos, se valido por el experto
del negocio la forma en que fueron generados, por lo que no fue necesario realizar
ninguna modificacion, con la salvedad de agrupar o disgregar los conceptos de los
objetos que fueron modificados por el experto.
Luego, en estos momentos se implemento el script que calcula la similitud conceptual entre objetos. Para implementar este script se siguio el algoritmo definido
anteriormente por Dujovne en [65] y descrito en este informe en la subseccion
2.5.3. Los resultados obtenidos fueron almacenados en una tabla relacional, llamada conceptual similarity, que guardaba los objetos comparados y su similitud.
(Ver figura 4.9).

4.3.4.

Inter
es de los usuarios

Se separo la transformacion de datos del interes del usuario en funcion a la forma


en que se capturaron los datos.

Eye Tracker

De todos los archivos que genero el Eye Tracker, solo se trabajo con los archivos
All Data (uno por cada usuario de control) y se usaron algunos videos como
referencias. Esto constituyo la primera seleccion de datos. Luego, de todos los
atributos que posee este archivo (38) se consideraron solo 16, los que se pueden
apreciar en la figura 4.5. De estos, el campo people id no fue generado por el Eye
Tracker y corresponde a un identificador de la persona entrevistada.
El campo datetime guarda el tiempo, desde que se inicio el experimento en el que
75

Figura 4.5: Tabla de transicion de datos generados por el Eye Tracker.

se capturo el registro. Los campos validity left y validity right indican la validez
de la captura de los datos, tanto para el ojo izquierdo como para el derecho. Con
estos datos se establecio un filtro para considerar o no el registro, en funcion de
si fue calculado correctamente o no.
Los atributos event, event key, data1, data2, descriptor en conjunto describen los
eventos mientras se proceda con el experimento. Almacenan informacion desde
cuando se comienza y termina un determinado estmulo, como una pagina, los
clicks que realiza el usuario, los desplazamientos dentro de un estmulo, como
deslizar el scroll wheel hacia abajo, y si se desplego alg
un men
u de navegacion.
Media wigth y media height guardan el tama
no en pxeles del estmulo media desplegado en la pantalla, no la resolucion de esta u
ltima. Estos atributos son importantes para luego mapear los puntos de atencion de los usuarios en los objetos web.
En este sentido, los atributos mapped fixation point x y mapped fixation point y
76

mapean los enfoques al mirar en los estmulos.


El primer paso para transformar estos datos fue agruparlos seg
un el punto observado (en una vecindad peque
na), aumentando el tiempo de duracion de la fijacion
seg
un la cantidad de registros agrupados.
Un resultado estadstico conocido es el rango de duracion de las fijaciones, que estan entre los 150 y 600 milisegundos (ms) [19], por lo que la cota inferior para que
el cerebro comprenda lo que se esta observando es de 150 ms. Como se se
nalo anteriormente, el eye tracker empleado tiene una resolucion de 120 Hz, por lo que
captura informacion cada 8 ms. Con esta informacion, se consideraron no validos los registros (ya agrupados) con el campo fixation duration menor a 150 ms,
pues en este caso, el usuario entrevistado nunca noto que miro un punto en un
momento.
Con los registros no validos, por una fixation duration menor a 150 ms o por que
as lo indicaban los atributos validity left y validity right, se contruyo un indicador,
denominado acceptance percentage, que mostraba el porcentaje del tiempo en el
cual se midieron correctamente los movimientos oculares del usuario de control
sobre cada estmulo (pagina web).
Si este indicador era peque
no, sera un error considerar los registros correspondientes al estmulo para el analisis posterior pues simplemente se estaran extrapolando resultados, que podran ser validos o no. Por esta razon los registros
correspondientes a estmulos con bajo acceptance percentage, fueron eliminados.
Se consideraron validos los estmulos con acceptance percentage mayor al promedio de todos los valores mas dos desviaciones estandar, resultando como mnimo
86 %. A partir de este resultado se puede catalogar la captura de datos con el Eye
Tracker como exitosa.

77

Figura 4.6: Men


u de navegacion compacto.

Posteriormente, ya eliminados estos registros se procedio a mapear los puntos de


interes de los usuarios en los estmulos a los objetos. Este paso no representa mayor
dificultad salvo por el men
u de navegacion (ver figuras 4.6 y 4.7), que puede estar
en dos estados, compacto y desplegado (en alguno de sus men
u). Esto se produce
cuando un usuario mueve el mouse por sobre uno de estos men
u.
Para mapear correctamente si un usuario de control miraba el men
u de navegacion
o el objeto por debajo de este, se emplearon los datos de los atributos event,
event key, data1, data2, descriptor con los que en conjunto se establecio en que
momento hubo un men
u desplegado, cual era este. Con esta salvedad en mente,
basto con mapear las coordenadas de los objetos, con las coordenadas de los puntos
de atencion para asignar a cada registro el objeto que le corresponda.
A continuacion, se agruparon los registros por objeto, con lo que se calculo el
porcentaje del tiempo que un usuario miro cada objeto de un estmulo. Si alg
un
objeto no fue mirado, se incluyo que el porsentaje de interes del usuario en este
objeto fue 0. Este valor se considero debido a que su ausencia afectara el calculo
de los tiempos de permanencia promedios.
78

Figura 4.7: Men


u de navegacion desplegado.

Figura 4.8: Tabla averaged spent time on object.

Finalmente, se promediaron los tiempos de permanencia y el resultado de este


proceso se almaceno en la tabla averaged spent time on object (ver figura 4.8). El
campo study id hace referencia a la forma en que se capturaron los datos. Estas
pueden ser navegacion libre o guiada, ambos mediante el Eye Tracker o con la
encuesta de los puntos de interes.

79

La encuesta

Los resultados de la encuesta correspondieron a archivos donde se registro la pagina, el objeto, y los puntos de interes que le asigno el usuario. Estos datos fueron
transformados, de modo que los 10 puntos que asigno cada usuario, correspondiera al 100 % del interes del usuario en dicho estmulo. A modo de ejemplo, si
una persona asigno 5 puntos al objeto X en la pagina Y se asumio que el interes del usuario sobre el objeto X fue del 50 % en la pagina Y. Analogamente
al caso anterior, se asigno 0 al interes del usuario en los objetos que no obtuvieron puntos. Luego estos resultados se promediaron y se tambien almacenaron
averaged spent time on object (ver figura 4.8)

Pre-procesamiento

En esta etapa se realizo una comparacion de los resultados almacenados en la tabla


4.8. Se comparo el promedio y la desviacion estandar del modulo de la diferencia
entre los valores averaged seg
un el tipo de captura de datos realizada (study id ).
La tabla 4.1 muestra los resultados obtenidos de esta comparacion, donde se puede
apreciar que los valores obtenidos al comparar la navegacion libre con la guiada
son mucho mas peque
nos que al comparar los resultados de cualquiera de estos
mecanismos con la encuesta, por lo que se decidio dejar de analizar la navegacion
libre y guiada como capturas distintas. Por esta razon, hubo que recalcular los
tiempos promedio de permanencia en los objetos, que resulto muy parecido a los
existentes. En conclusion, se paso de tres conjuntos de datos (navegacion libre,
navegacion guiada y encuesta) a solo dos (Eye Tracker y encuesta).

80

Comparaci
on

Promedio

Desviacion Estandar

libre - guiado

0,013194

0,039402

libre - encuesta

0,032408

0,100782

guiado - encuesta

0,055501

0,120487

Cuadro 4.1: Comparacion de los tiempos de permanencia en los objetos.

4.3.5.

El Weblog

A partir de peticiones web recuperadas con anterioridad desde el weblog, se procedio a ejecutar el proceso de sesionizacion. Sin entrar en el detalle de este proceso,
pues esta fuera del alcance de la memoria, se obtuvo como resultado un conjunto
de sesiones, en las que cada una de estas contena una lista de paginas, asociadas
a la cantidad de tiempo que permanecieron en estas.
Luego, analogamente a lo realizado por Dujovne [65], para cada registro se reemplazo la pagina por los objetos que la conformaban y se pondero el tiempo de
permanencia en la pagina por el porsentaje de permanencia en el objeto. Ademas
se consideraron con especial cuidado los objetos que aparecieron en mas de una
pagina, pues para una sesion, el mismo objeto pudo haber sido visto dos veces.
En este caso, se sumaron los tiempos correspondiente a ambas paginas, pues se le
presto atencion dos veces.
A continuacion se procedio a seleccionar los n objetos mas importantes de cada
sesion, como fue descrito en la ecuacion 2.11. El criterio de seleccion de los objetos
mas importantes fue el tiempo de permanencia en ellos. La determinacion de n se
realizo de forma analoga a como procedio Dujovne et al. [65], quien extendio lo
realizado por Velasquez et al. [67]. Se calculo el promedio () y la desviacion estandar () sobre el n
umero de objetos por seccion. Luego, se eligio un n
umero n en
el rango [3, +3]. Estos datos fueron almacenados en la tabla residence time

81

Figura 4.9: Tablas conceptual similarity y residence time.

(Ver figura 4.9).


Para finalizar esta seccion, la figura 4.9 describe el resultado final de todo este
proceso y que sera la entrada para aplicar tecnicas de data mining. La tabla conceptual similarity almacena la similitud entre dos objetos (ver subseccion 4.3.2),
mientras que la tabla residence time almacena los tiempos de permanencia en los
n objetos mas importantes de cada sesion, es decir, guarda los IOV (Ver ecuacion
2.11).

4.4.

Data Mining

La metodologa para encontrar Website Keyobject ideada por Dujovne y Velasquez


[65] agrupaba los vectores de comportamiento de los usuarios mediante tres tecnicas: Self Organizing Feature Maps, K-means y Association Rules. Los resultados
de estas tecnicas eran conjuntos de vectores donde sus elementos eran parecidos
entre s, pero distintos al tomar elementos de conjuntos diferentes.
El criterio que usaron para determinar si un objeto era un Website Keyobject fue
seleccionar los objetos que aparecieron mas veces en los clusters arrojados por los
82

tres algoritmos.

4.4.1.

Los algoritmos

En esta seccion se describiran los tres algoritmos empleados durante el experimento. Cabe recordar que para poder comparar sesiones entre s se empleara la
ecuacion 2.12, que describe una medida de similitud entre dos IOV.

Self Organizing Feature Maps (SOFM)

SOFM es un modelo de red neuronal que basicamente procesa una base de datos
resultando en un mapa (usualmente bidimencional) donde casos similares se mapean en regiones cercanas. Ocupa un modelo de aprendizaje no supervisado, por
lo que difiere de las redes neuronales comunes.
Para este trabajo, al igual que en el desarrollado por Dujovne [65], se empleara una
red de forma toroidal, donde los extremos de una red bidimensional se unen para
dar la forma deseada.
En este algoritmo cada neurona sera definida como un IOV (Ver ecuacion 2.11). La
forma de actualizar los IOV, mientras se produce el entrenamiento, sera modificada
de modo que compare los vectores de objetos importantes presentes en cada una
de las sesiones. Para cada IOV, se debe encontrar la neurona mas parecida a este y
actualizar los pesos de la red en funcion de las distancias calculadas. Este proceso
se repetira hasta que los cambios en los pesos de la red sean menores a un .

83

K-means

Es probablemente el metodo mas conocido para realizar clustering. Consiste en


partir con K IOVs aleatorios denominados centros. Para los IOV restantes se
calcula cual es el centro mas cercano a estos y se enlazan generando subconjuntos
de IOVs. Luego se calcula el centro de masas de cada subconjunto y se vuelve
a iterar hasta que la cantidad de cambios en los subconjuntos sea baja, es decir,
cuando los subconjuntos converjan. La debilidad de este metodo es el valor inicial
K que es desconocido.
En este caso particular, para determinar el centro de masas de los subconjuntos
mencionados, se calculara cual es el objeto culla distancia promedio a todos los
demas objetos en el subconjunto es la menor.

Association Rules

Es una tecnica que permite encontrar relaciones entre distintos atributos de un


conjunto de datos. De integrar los identificadores de las sesiones a los datos, no se
encontrara ning
un tipo de regla, ya que para todos los ejemplos el identificador
es distinto.
Como entrada para este algoritmo se implemento una peque
na transformacion de
datos para dejar los IOV como la lista de los objetos mas vistos (Ecuacion 4.1).

r = (o1 , ..., on )

84

(4.1)

4.4.2.

Primer experimento

Se desarrollo la misma estrategia empleada por Dujovne y Velasquez [65]. Se


compararon los vectores de comportamiento de los usuarios mediante las tres
tecnicas y se designaron como Website Keyobject los objetos que aparecieron mas
veces en los diferentes clusters generados. En este experimento se consideraron
como tiempos de permanencia en los objetos los resultados de la encuesta sobre
las paginas del sitio.

4.4.3.

Segundo experimento

Consistio en agregar a la metodologa anterior los tiempos calculados a partir


de los datos capturados por el Eye Tracker. Esto no es un cambio relevante en
la metodologa, es solo cambiar los datos de entrada para los algoritmos. Para
designar un objecto como Website Keyobject, se ocupo el mismo criterio anterior.

4.5.

Resultados Obtenidos

En esta seccion se listan los objetos clasificados como Website Keyobject seg
un
cada tecnica ocupada para ambos experimentos. Dado que la diferencia entre
ambos esta dada por los tiempos de permanencia en los objetos, la forma de lo
que entrega cada tecnica es independiente de que experimento se esta analizando.
Las listas completas de resultados obtenidos para el experimento 1 se encuentran
en el apendice A (Captulo 6). En el se listan todas las tecnicas y lo que arrojaron
como resultados. En tanto, para el experimento 2, los resultados se encuentran en
el apendice B (Captulo 7).

85

4.5.1.

SOFM

Para la implementacion de esta tecnica se ocupo una red conm forma toroidal, y
se realizaron varias pruebas con respecto a la cantidad de neuronas de la red, encontrando que una constitida por 12X12 neuronas entrego los mejores resultados.
Esta red entrego 8 clusters para cada experimento. La salida de este algoritmo se
modifico para que entregara listas de los identificadores de sesiones pertenecientes
a cada cluster, con el objetivo de poder contar el n
umero de apariciones de los
objetos en los distintos clusters.
Los resultados de esta tecnica, para el experimento 1 se encuentran en la seccion
6.1, mientras que para el experimento 2, en la 7.1.

4.5.2.

K-Means

La salida de este algoritmo corresponde a un conjunto de listas donde cada una de


ella contiene los identificadores de las sesiones agrupadas. La ecuacion 4.2 muestra
como ejemplo una lista de este tipo.

L1 = {2505, 1726, 1105}

(4.2)

De forma analoga al caso anterior, los resultados entregados por esta tecnica
para el primer experimento se pueden encontrar en la seccion 6.2, mientras que
para el segundo en la 7.2. En estos se listan los identificadores de las sesiones
correspondientes a cada cluster y luego se muestra el n
umero de apariciones de
los objetos en estos.

86

4.5.3.

Association Rules

Para la ejecucion de Association Rules se uso la plataforma Weka, que incluye


variados algoritmos de Data Mining. Se considero solo los objetos precentes en los
IOVs, los que fueron transformados de acuerdo a la plataforma.
Se utilizo el algoritmo Apriori y se solicito que generara solo 30 reglas con una
confianza mnima de 0,9. Tanto el algoritmo, como la plataforma a ocupar fueron
los mismos empleados por Dujovne [65] cuando implemento esta metodologa.
Una regla de asociacion tiene la sigiente forma:
o1 = T o2 = F ==> o3 = T conf : (1)
Lo que representa que si el objeto o1 tiene valor T y el objeto o2 tiene valor F,
el objeto o3 tendra como valor T con una confianza de 1.
Los resultados entregados por el algoritmo, para ambos experimentos se encuentran en las secciones 6.3 y 7.3 respectivamente.

4.5.4.

Website Keyobjects

Como se menciono anteriormente, el criterio utilizado para nombrar como Website


Keyword a un objeto fue la cantidad de veces en las que apareca en los distintos
clusters de objetos. Para calcular este indicador por experimento, se tomaron los
resultados de las tres tecnicas empleadas y se sumo la cantidad de veces en las
que aparecan los objetos.
En la seccion 6.4 se muestran los objetos que aparecieron mas veces en los clusters
para el experimento 1. Luego se muestran los objetos que fueron predichos como
Website Keyobjects y si estos fueron validados por el experto del negocio o no.
87

experimento

10

20

30

primero

70 %

75 %

70 %

segundo

70 %

80 %

76 %

Cuadro 4.2: Comparacion de los experimentos (precision)

Analogamente, para el experimento 2, estos resultados se encuentran en la seccion


7.4.

4.6.

Comparaci
on y an
alisis

El cuadro 4.2 muestra la precision alcanzada en los dos experimentos. Se seleccionaron tres rangos para comparar los resultados, tomando los primeros 10, 20 y
30 Website Keyobjects.
Se puede notar un ligero aumento (5 % a 6 %) en la precision al comparar ambos
experimentos, con lo que se valida que esta tecnologa resulta u
til para medir el
interes de los usuarios.
Dujovne y Velasquez [65] con su metodologa (experimento 1) alcanzaron una precision del 80 %, valor que es mayor al 75 % promedio obtenido en este experimento.
Esto se puede deber a la cantidad de paginas y objetos en estudio, ya que ellos
analizaron un sitio de 27 paginas con 40 objetos, mientras que en este trabajo se
analizo un sitio de 124 paginas y mas de 160 objetos. Otra posible fuente de error
es la generacion de los metadatos. En este trabajo, al igual que en el desarrollado
por Dujovne, los metadatos se generaron a mano, lo que se pudo generar errores
involuntarios.
Por otro lado, se puede notar que cuando se eligen 30 Website Keyobjects la
precision obtenida disminuye. Esto ocurre pues para este n
umero se comienza
88

a designar objetos que no son relevantes. En este punto, si consideramos como


threshold n = 24 se obtiene que la precision del segundo experimento es 83 %.

89

CAPITULO

5
CONCLUSIONES

En el presente trabajo de ttulo se analizo una metodologa que permite encontrar


Website Keyobjects y se logro mejorar la precision de la prediccion de esta al
incorporar la tecnologa Eye Tracking.
En el presente trabajo de ttulo se probo que usar un Eye Tracker para medir la
cantidad de tiempo que los usuarios gastan observando los distintos objetos de
una pagina web en vez de realizar una encuesta para estimar estos valores mejora
la precision a la hora de encontrar los Website Keyobjects de un sitio.
Para lograr estos resultados se realizo un amplio estudio acerca de los datos originados en la web, los modelos matematicos que se usan para describir el comportamiento de los usuarios en la web y las herramientas existentes de seguimiento
ocular. Este conocimiento fue plasmado en el Captulo 2 de este trabajo de ttulo,
y usado en el posterior desarrollo del presente informe.
Como metodologa de investigacion, se siguieron los pasos del metodo cientfico,
se planteo una hipotesis, se aislo la variable a estudiar, se dise
no y aplico un
experimento y finalmente se determino si la hipotesis planteada era correcta.
Una de las limitantes que tiene el seguimiento ocular es que solo determina que es
lo que una persona observa. Esto es insuficiente cuando se busca calificar lo que una
90

persona mira, en otras palabras, con estas herramientas no se puede determinar


si lo que se observa me gusta o me desagrada. Es por esto que los resultados
entregados por el Eye Tracker deben ser considerados como el modulo (siempre
positivo) del interes de una persona.

5.1.

Trabajo Futuro

Con la restriccion descrita anteriormente, inherente seguimiento ocular, surge de


forma natural el siguiente paso para mejorar la metodologa para encontrar Website Keyobjects, considerar que sienten o piensan los usuarios mientras miran un
objeto web. Esto se puede lograr al usar elementos de neurotecnologa, como electrodos que midan que zona del cerebro se exita mas cuando una persona navega
por un sitio web. Emotiv.com es una empresa que fabrica este tipo de aparatos
(solo para este tipo de investigaciones) a bajo costo.
Otra posible mejora a la metodologa consiste en explorar a
un mas los datos
generados por el Eye Tracker. Durante el desarrollo de este trabajo de ttulo solo se
usaron estos datos para determinar que objetos miran los usuarios de control. Sin
embargo, existe una amplia gama de estudios donde se pueden usar estos datos,
como determinar a partir de la trayectoria de los movimientos oculares si una
persona entiende lo que ve o no. Ademas para este trabajo no se consideraron los
datos de la dilatacion de las pupilas, siendo conocido que mientras mas dilatadas
se encuentren, mayor es el interes que presta una persona a lo que observa. Sin
embargo, a
un as no se puede clasificar este interes como bueno o malo.
Otros caminos para enriquecer esta metodologa son los que no se exploraron
en esta memoria, como establecer una ontologa para normalizar los metadatos.
Con esto se podra establecer relaciones mas expresivas entre los objetos. En esta
91

misma area se podra automatizar el proceso que genera los metadatos, pues
hasta el momento es un proceso lento y tedioso que al ser manual, permite la
introduccion de errores involuntarios.
Finalmente, se podra analizar la forma en la que opera esta metodologa, investigar si cambiando la estructura de la misma se pueden lograr mejores resultados
que aplicando 3 algoritmos de Data Mining distintos. Crear una nueva forma de
ranquear los objetos podra ayudar en este objetivo.

92

CAPITULO

APENDICE
A: RESULTADOS
PRIMER EXPERIMENTO

6.1.

SOFM

C1 = [3860, 5284, 5153, 2550, 3315, 5887, 4328, 1645, 1876, 4230,
2106, 4302, 2167, 3179, 3211, 1129, 2314, 5374, 3970, 2853,
3624, 2549]
C2 = [5752, 4191, 4483, 5944, 3859, 4360, 4919, 5439, 4517, 1500,
1447, 5547, 2846, 3688, 5732, 2421, 2287, 1502, 1359, 2311,
5873, 2267, 2935, 4134, 1198, 4507, 1573, 5017, 2704, 1725,
3309, 3493, 2792, 2435, 2527, 4738, 4863, 3886, 2302, 3851,
2804, 3513, 3517, 2847, 1410, 5676, 2259, 1524, 3789, 1362,
4733, 4387, 5435, 2787, 3717, 3847, 5499, 1900, 2123, 4534,
2622, 4322, 1312, 3236, 2178, 2390, 4730, 3814, 3001, 5889,
4045, 3938, 4218, 2196, 5352, 2566, 4653, 3565, 5223, 5190,
2401, 2469, 5237, 1726, 3826, 1887, 2682, 1288, 1683, 2186,
4673, 2155, 2553, 4631, 3953, 1364, 3261, 4164, 4181, 1882,
4248, 3684, 1590, 3231, 4957, 1880, 5226, 4179, 2798, 3758,
93

5851, 2066, 3726, 5362, 2260]


C3 = [1281, 1233, 3975, 4952, 1163, 3882, 2399, 4766, 4625, 2697,
5531, 1095, 5567, 1150, 1210, 4380, 4796, 3658, 2451, 5919,
4540, 4647, 4861, 4705, 2633, 1507, 3634, 1373, 4800, 4205,
3162, 4799, 4892, 2076, 2337, 1957, 4512, 3733, 4196, 1282,
2355, 3732, 5710, 1140, 5415, 5207, 2568, 5096, 4480, 3101,
4621, 4924, 4682, 4200, 4708, 5376, 3995, 3462, 3993, 5303,
4760, 1296, 4795, 1285, 5278, 4510, 1335, 3566, 5790, 2160]
C4 = [5649, 4870, 5383, 3181, 5291, 3867, 4170, 1637, 2443]
C5 = [4216, 2732, 2767, 3029, 5214, 4291, 5515]
C6 = [4611, 1585, 2255, 1274, 1698, 5549, 1445, 5356, 2700, 5269,
3738, 3311, 3459, 4321, 4474, 2687, 1248, 4781, 5874, 4686,
1470, 2407, 2959, 5449, 5283, 2275, 4932, 4000, 1620, 5652,
5227, 1636, 2181, 2294, 5416, 4586, 1850, 5641, 3655, 5727,
1164, 1483, 3718, 1704, 2089, 3089, 3628, 2659, 5183, 4651,
1264, 3022, 1755, 4665, 3600, 2731, 4238, 1810, 4274, 4885,
3836, 3416, 4491, 2381, 3250, 5228, 2901, 5341, 1948, 4124,
5917, 3302, 2643, 5391, 1422, 2333, 5548, 3661, 2331, 5992,
5363, 3500, 2505, 1699, 2841, 3045, 5726, 5671, 5185, 4312,
5569, 4908, 1284, 3844, 4546, 2197, 2747, 4646, 2305, 4195,
3244, 2265, 3724, 3482, 4934, 2749, 2639, 5021, 4845, 2772,
2881, 4743, 4690, 4846, 3876, 1166, 2459, 3042, 3470, 5578,
3297, 5876, 1118, 5675, 4787, 5843, 3780, 5354, 2203, 2289,
4999, 3645, 5544, 5295, 5230, 3318, 5026, 4146, 4001, 4876,
1459, 4210, 5801, 5239, 5216, 3735, 4864, 3195, 2645, 5040,
4479, 1522, 3474, 2714, 5559, 2015, 2277, 1985, 3506, 1733,
2301, 4035, 4317, 5865, 1605, 4850, 3384, 3503, 4940, 3377,

94

3870, 1278, 4351, 4711, 5576, 1559, 3534, 2082, 5347, 2286,
2717, 1158, 3437, 2406, 5003, 3456, 1149, 1251, 2917, 5951,
4568, 3232, 5095, 3591, 2561, 1283, 1438, 4347, 4529, 4747,
4062, 1157, 4136, 3403, 3208, 4891]
C7 = [1191, 3218, 1481, 1857, 1584, 3286, 1214, 1855, 3050, 5484,
5948, 3739, 4523, 2771, 4900, 1400, 3757, 3670, 4632, 5654,
4912, 4295, 5721, 1685, 3941, 4071, 5287, 5072, 5350, 4180,
2890, 1453, 4107, 1862, 3435, 4727, 2555, 2365, 4613, 4478,
1730, 5054, 2556, 5272, 1314, 1583, 5302, 3744, 2319, 2800,
3978, 1105, 1169, 2977, 5068, 5322, 2034, 5534, 2781, 2516,
5379, 3734, 5655, 3092, 2072, 5329, 1505, 2028, 5619, 1236,
5902, 5498, 2739, 4404, 3046, 5184, 2603, 5333, 4554, 1933,
3391, 5867, 2293, 4112, 3997, 1675, 4503, 4852, 5690, 6011,
3789, 1618, 1341, 3772, 3727, 4739, 4717, 2745, 5421, 3380,
5669, 5665, 5425, 3476]
C8 = [4357, 5060, 5646, 3078, 1280, 3172, 2428, 2321, 4443, 3508,
4931, 4497, 3588, 2525, 4089, 5100, 4729, 5808, 4624, 3622,
5142, 1467, 3605, 5319, 3239, 1885, 1624, 4541, 4153, 3551,
2317, 2040, 2493, 1835, 3115, 5392, 1615]

6.2.
6.2.1.

K-Means
Clusters de sesiones

C1 = [4210, 4503, 1900, 4000]


C2 = [3302, 1585, 2381, 4357, 3670, 4717, 3506, 3493, 5726, 5226,
95

4328, 4673, 2639, 2781, 1857, 3208, 2123, 3772, 2178, 1284,
2525, 1957, 3050, 5808, 1855]
C3 = [3727, 4218, 5790, 5287, 4739, 5223, 1624, 4781, 3684, 1169,
4196, 5690, 4248, 1214, 2603, 3172, 4238, 3315, 5216, 5362,
4730, 4799, 4554, 5363, 3993, 5578, 4747, 5017, 2739, 5333,
2355, 4216, 5675, 5887, 3605, 4800, 4931, 3046, 4205, 4474,
2645, 3101, 5379, 2682, 3780, 3456, 3508, 1882, 1470]
C4 = [2401, 4360, 2082, 5544, 4295, 2556, 5227, 5060, 4651, 2890,
4478, 3953, 2399, 3600, 2302, 4071, 3318, 1810, 4766, 4999,
5652, 4146, 4743, 3995, 3239, 4613, 3938, 4541, 2516, 3179,
2881, 3688, 3384, 4738, 4891, 2421, 2333, 1280, 2155, 4321,
2267, 4529, 5992, 6011, 4686, 3844, 1887, 2959, 1118, 2555,
4191, 5867, 5207, 3622, 1605, 3115, 2186, 4112, 1698, 5549,
4089, 5228, 4852, 4124, 2167, 1359, 4733, 3195, 2847, 5142,
5919, 4934, 2301, 4302, 4845, 4632, 2390, 4682, 2787, 3380,
1400, 3886, 5752, 2505, 2259, 3565, 5392, 3311, 4200, 2659,
1726, 2917, 1704, 3826, 1150, 4291, 2311, 1210, 5184, 1335,
5646, 1725, 3416, 3732, 3534, 5876, 4900, 1573, 2771, 1251,
2767, 4035, 3851, 3500, 4885, 3503, 5214, 3588, 1105, 1164,
3482, 5641, 3658, 1283, 3391, 2203, 5948, 5515, 2286, 5303,
1835, 1129, 1453, 2747, 1364, 4787, 4380, 5352, 4892, 1314,
2977, 4387, 3001, 5721, 5865, 1500, 5435, 2700, 5851, 2568,
4631, 1281, 2717, 3244, 2196, 3231, 1285, 2550, 4491, 4625,
4180, 5391, 2732, 1191, 3758, 4507, 5237, 2428, 3045, 4179,
5100, 1373, 2277, 4170, 5347, 5499, 1699, 3859, 3876, 5272,
1985, 1584, 2265, 2704, 3733, 5302, 3459, 5072, 5801, 1140,
2901, 5021, 2255, 5619, 5054, 5329, 3724, 5291, 3470, 1502,

96

4512, 2072, 1288, 3882, 4912, 2028, 3089, 2643, 1933]


C5 = [3836, 2749, 3870, 5548, 3978, 2493, 2106, 2697, 5655, 1559,
4940, 4850, 1166, 2321, 4134, 4164, 5534, 5531, 3377, 3744,
3860, 4924, 4497, 2331, 1620, 1645, 4908, 3634, 1675, 1410,
4952, 1685, 3645, 5498, 4181, 5873, 4864, 2015, 5295, 1149,
3286, 3628, 2435, 5096, 4611, 1583]
C6 = [3236, 5185, 5669, 2293, 1264]
C7 = [1880, 5374, 3092, 1362, 2197, 4546, 3970, 4711, 5183, 1618,
1683, 3437, 5095, 3655, 3462, 2317, 3591, 5843, 2566, 5354,
1483, 1163, 1481, 5654, 2798, 2853, 1467, 3309, 5902, 4322,
5569, 4708, 1637, 1459, 1278, 3250, 4510, 3734, 2841, 2792,
1615, 5350, 4665, 4705, 1248, 3624, 2289, 4001, 3757, 4760,
3211, 5449, 2365, 4727, 3735, 1948, 5889, 5676, 1282, 4195,
1438, 5671, 2443, 5040, 2469, 1636, 5383, 4729, 4534, 2804,
5547, 5421, 4586, 4045, 4136, 2089, 1507, 2633, 1445, 3474,
4646, 4540, 3789, 3789, 5322, 2553, 3726, 1095, 1158, 3181]
C8 = [3435, 1522, 1524, 3738, 3403, 4107, 4062, 5003, 4347, 5425,
1885, 4351, 4795, 2622, 2287, 5319, 4796, 5576, 3718, 3867,
2076, 3975, 5341, 1198, 1296, 1447, 5649, 2260, 3661, 4870,
5484, 2407, 5439, 4957, 2181, 1755, 1876, 5559, 5732, 4653,
2066, 4932, 3297, 5416, 2549, 4690, 2800, 4483, 3042, 4230,
3029, 2319, 2294, 4153, 2451, 3162, 1850, 5567, 2772, 4863,
3218, 4621, 3513, 4480, 3078, 2846, 4274, 2406, 1505, 5068,
4624, 2160, 5230, 1341, 4876, 5239, 1733, 3739, 4479, 3232,
1862, 3566, 4861, 2337, 5376, 2714, 3717, 1236, 2687, 4517,
4404, 5026, 3022, 5283, 2731, 2305, 2040, 1233, 1730, 2314,
4919, 5153, 5278, 5710, 5415, 2935, 4568, 4846, 2275, 5284,

97

5944, 1422, 3476, 5951, 3847, 5874, 3997, 2527, 5727, 1274,
3261, 1312, 5269, 5356, 3551, 4647, 2459, 2745, 4443, 4317,
2561, 1590, 3517, 3814, 5917, 5190, 1157, 4523, 2034, 3941,
5665, 4312]

98

6.2.2.

N
umero de apariciones de objetos en Clusters

objeto

apariciones objeto

apariciones objeto

apariciones objeto

apariciones

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

84

85

86

99

objeto

apariciones objeto

apariciones objeto

apariciones objeto

apariciones

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

6.3.

Association Rules

1. 7=T

==> 141=T

<conf:(1)>

2. 130=F

==> 129=F

<conf:(1)>

3. 129=F

==> 130=F

<conf:(1)>

4. 129=F

==> 141=T

<conf:(1)>
100

5. 130=F

==> 141=T

<conf:(1)>

6. 130=F 141=T

==> 129=F

<conf:(1)>

7. 129=F 141=T

==> 130=F

<conf:(1)>

8. 129=F 130=F

==> 141=T

<conf:(1)>

9. 130=F

==> 129=F 141=T

<conf:(1)>

10. 129=F

==> 130=F 141=T

<conf:(1)>

11. 19=F

==> 141=T

<conf:(1)>

12. 32=F

==> 141=T

<conf:(1)>

13. 100=F

==> 141=T

<conf:(1)>

14. 110=F

==> 141=T

<conf:(1)>

15. 7=T 130=F

==> 129=F

<conf:(1)>

16. 7=T 129=F

==> 130=F

<conf:(1)>

17. 7=T 129=F

==> 141=T

<conf:(1)>

18. 7=T 130=F

==> 141=T

<conf:(1)>

19. 7=T 130=F 141=T

==> 129=F

<conf:(1)>

20. 7=T 129=F 141=T

==> 130=F

<conf:(1)>

21. 7=T 129=F 130=F

==> 141=T

<conf:(1)>

22. 7=T 130=F

==> 129=F 141=T

<conf:(1)>

23. 7=T 129=F

==> 130=F 141=T

<conf:(1)>

24. 62=F

==> 141=T

<conf:(1)>

25. 8=T

==> 141=T

<conf:(1)>

26. 20=F

==> 141=T

<conf:(1)>

27. 33=F

==> 141=T

<conf:(1)>

28. 39=F

==> 141=T

<conf:(1)>

29. 7=T 19=F

==> 141=T

<conf:(1)>

30. 7=T 32=F

==> 141=T

<conf:(1)>

101

102

6.4.

Website Keyobjects

id

descripcion

keyobject

cabecera logo mba

cabecera menu navegacion

143

super testimonios

141

super foto cabecera

banner x4

no

142

super noticias

banner links de interes

no

banner siguenos

no

11

compartir inferior

no

27

cuerpo p7 malla curricular

55

cuerpo p84 magisteres

cabecera logo ingenieria industrial

no

54

cuerpo p83 primer parrafo descripcion

51

cuerpo p83 becas 50 por ciento

53

cuerpo p83 financiamiento directo

16

cuerpo p2 porque elegirnos

20

cuerpo p4 texto cuerpo estructura

22

cuerpo p4 texto cuerpo modalidad

47

cuerpo p81 modalidad

26

cuerpo p6 metodologa

21

cuerpo p4 texto cuerpo grado otorgado s

50

cuerpo p83 bancos y contacto

no

23

cuerpo p4 texto cuerpo objetivos

18

cuerpo p4 grafico secuencia temporal

126

formulario contacto

38

cuerpo p8 contenido cursos

13

cuerpo p10 doble grado internacional

cabecera buscar

no

66

cuerpo p9 promedio edad

no

cabecera rss

no

103

CAPITULO

APENDICE
B: RESULTADOS
SEGUNDO EXPERIMENTO

7.1.

SOFM

C1 = [2732, 1296, 5567, 1280, 4529, 4302, 2106, 2798, 3195, 2066,
5347, 3600, 3506, 5534, 2739, 3315, 4729, 4541]
C2 = [5727, 5710, 3789, 4738, 4665, 4274, 1618, 2255, 1264, 5100,
5391, 2034, 4931, 2407, 4134, 3437, 2682, 5676, 1164, 5671,
5291, 5655, 4708, 2314, 2622, 3232, 2167, 2399, 3380, 4932,
1726, 2040, 3172, 3867, 2890, 2792, 3211, 1274, 4357]
C3 = [3297, 5669, 4611, 5184, 3476, 5732, 3938, 5350, 2714, 1500,
4891, 5054, 1214, 5948, 4218, 3309, 3670, 2089, 3311, 2566,
1284, 2421, 3688, 1400, 3179, 2935, 5619, 3970, 1685, 4491,
4071, 4179, 4443, 3744, 5851, 1704, 5374, 4291, 1636, 2568,
2311, 4554, 2196, 5951, 1169, 2428, 3718, 2178, 5416, 3250,
1524, 1615, 2337, 3456, 4200, 3860, 5889, 2800, 1335, 2525,
2553, 4876, 5499, 2853, 3717, 3474, 1590, 5021, 5226, 5302,
1885, 5876, 4705, 2265, 5060, 1470, 5484, 1359, 4730, 1373,
104

4747, 1467, 5190, 3503, 2555, 3231, 5329, 1140, 5026, 5449,
5223, 1880, 3042, 1573, 5865, 4136, 1312, 4861, 4625, 4360,
2901, 2301, 4586, 1810, 3162, 1095, 3459, 1282, 5333, 3724,
4312, 2556, 5383, 5214, 6011, 2305, 2390, 1149, 3734, 4727,
2072, 2302, 2435, 5843, 2293, 3628, 2633, 1835, 4653, 3403,
3470]
C4 = 4760, 2493, 4999, 2186, 1447, 2028, 5284, 1985, 2321, 4170,
4196, 2550, 1364, 2203, 4238, 5654, 3462, 3482, 1733, 4216,
4733, 3181, 3022, 3859, 4845, 5549, 5548, 2717, 3876, 3814,
3384, 1314, 2331, 1699, 2287, 5269, 4934, 3208, 5902, 4900,
2259, 4952, 5944, 1251, 2977, 4781, 5919, 3941, 4864, 2804,
4153, 5096, 3534, 5559, 1410, 1236, 5376, 5665, 2781, 1850,
1957, 4766, 1158, 3847, 5003, 2704, 4940, 1862, 2443, 5322,
5439, 2451, 5354, 4717, 2155, 3975, 3735, 1585, 5652, 2317,
1624, 5867, 3239, 3218, 3757, 4690, 2841, 5544, 2267, 3416,
3844, 2401, 2082, 4295, 4321, 3261, 4870, 5237, 4800, 5379,
4107, 3851, 4919, 2275, 3591, 3565, 1882, 3634, 4195, 2381,
3500, 5992, 3089, 1900]
C5 = [5040, 5319, 2697, 5790, 2015, 5721, 2123, 4739, 5641, 4534,
5207, 4230, 2561, 4568, 3551, 5578, 1505, 5272, 3789, 1605,
3772, 5230, 5531, 4799, 4478, 1502, 4632, 5185, 1166, 2659,
3738, 2527, 4673, 5873, 5352, 4651, 2160, 4924, 4062, 4885,
3655, 4795, 2181, 4404, 2917, 2365, 2645, 3046, 5887, 5752,
1248, 3622, 5515, 4510, 4647, 3658, 5228, 5287, 1445, 4347,
4852, 4846, 2749, 5072, 1285, 3739, 3244, 1645, 3001, 5392,
4180, 2289, 2319, 5068, 1675, 1583]
C6 = [4089, 4523, 3826, 4479, 2787, 2846, 4682, 1698, 3684, 3045,

105

3726, 5362, 3493, 3508, 5227, 5425, 3588, 4317, 1933, 3029,
2687, 3997, 3286, 2700, 1876, 1157, 3115, 4205, 2516, 1150,
2847, 1163, 2772, 4912, 2505, 1453, 4686, 1288, 2355, 3050,
1584, 2771, 5874, 4181, 2277, 1948, 4908, 5415, 4892, 4621,
5435, 3733, 3566, 5183, 5142, 4328, 2076, 4613, 5547, 1481,
4124, 5808, 5801, 3624, 3886, 2747, 1438, 4210, 5690, 3995,
5675, 4863, 2459, 3758, 1620, 3870, 4322, 4517, 2549, 1341,
3236, 2959, 5295, 4191, 4624, 2286, 3882, 2603, 5095, 4480,
1855, 1233, 4512, 1283, 1105, 3391, 4146, 4711, 1459, 2333,
4503, 4351, 5649, 3101, 3318, 3513, 4546, 4646, 4743, 4540,
1191, 1887, 3953, 2197, 4796, 2294, 4112, 4164, 5576, 4483,
3727, 1857, 3993, 1637, 2745, 5017, 4507, 5303, 1362, 1129,
4787, 4000, 1559, 3435, 2639, 5239, 1725, 5569, 3517, 3836,
1755, 1683, 3078, 2260, 1522, 4045, 2406, 5278, 4001, 1118,
5341, 2469, 2643, 4387, 5917, 4631, 5498, 3377, 3302, 3732,
3092, 1507, 3978, 3661, 2767, 3780, 4850, 1483, 3645, 5421,
4248, 5726]
C7 = [3605, 1422, 4474, 5356, 5363, 4497, 1210, 4957, 4380, 5153,
1281]
C8 = [4035, 1278, 5283, 1198, 2881, 5646, 1730, 5216, 2731]

7.2.
7.2.1.

K-Means
Clusters de sesiones

C1 = [3732, 5876, 3500, 2901, 3622, 2659, 2881]


C2 = [1212]
106

C3 = [4522, 5865, 2516, 1263, 5421, 1191, 3758, 2435, 2704, 4878,
3181, 3830, 4091, 5901, 3315, 1210, 3588, 4541, 5239, 5485,
4302, 3236, 3582, 1585, 3870, 4624, 4507, 1375, 4621, 4896,
2160, 4404, 5874, 2556, 4898, 1725, 2866, 3991, 4714, 4912,
1343, 5727, 1283, 2566, 3685, 2772, 1559, 2781, 4651, 2390,
4291, 5873, 1683, 2421, 3950, 2740, 1292, 5676, 1158, 5654,
1948, 3849, 1675, 3584, 2277, 4071, 3202, 1618, 2401, 2286,
4586, 3305, 1129, 5346, 4124, 2717, 5840, 4811, 3652, 5417,
4739, 1660, 5190, 5095, 4451, 5520, 3022, 4892, 2040, 3938,
3095, 3232, 1597, 2194, 4617, 2459, 2800, 3422, 3782, 2847,
2576, 5619, 1566, 3503, 4738, 1420, 2265, 4919, 2549, 2078,
3462, 4090, 5870, 1699, 2087, 5425, 1362, 1285, 4480, 3600,
1583, 3628, 5534, 2643, 4625, 5710, 2495, 3452, 4631, 5856,
5228, 5393, 2960, 5681, 2917, 3551, 1626, 5675, 5919, 5790,
5352, 4395, 5902, 5327, 3882, 3432, 3441, 5504, 2021, 1159,
2331, 4443, 2739, 3850, 3941, 2858, 3266, 5379, 1590, 5951,
3847, 1858, 5410, 1517, 2505, 3172, 4546, 1571, 2568, 3150,
5354, 4750, 4483, 1857, 2771, 1251, 2186, 4647, 4353, 4402,
5303, 4380, 5017, 5993, 3311, 4799, 2176, 1598, 4511, 1916,
2469, 1095, 2882, 4317, 5567, 5992, 2531, 2321, 4748, 1467,
1556, 4000, 1810, 5914, 5948, 2275, 3403, 2747, 1885, 5435,
4581, 5548, 2787, 5549, 4387, 4613, 5804, 5341, 4218, 4347,
1214, 4170, 1985, 3318, 4355, 1425, 2311, 5312, 5185, 4558,
1841, 2577, 3431, 4436, 4908, 1169, 4180, 4705, 2167, 2260,
3204, 1265, 1262, 3101, 4795, 3614, 5663, 1887, 5501, 5295,
5563, 1909, 2633, 2302, 3250, 2697, 4504, 5521, 5297, 1274,
1438, 1500, 2904, 5072, 1898, 1997, 2766, 3565, 5207, 2561

107

1211, 5913, 3365, 5009, 2287, 3634, 5509, 1734, 4359, 2308,
4846, 5559, 4628, 4934, 5484, 2804, 2267, 3465, 3970, 4627,
5499, 2028, 2307, 1312, 2695, 4523, 1569, 5734, 2428, 5671,
3391, 1572, 5588, 2964, 3299, 5783, 4717, 3534, 1698, 3566,
1730, 4766, 2346, 5391, 3637, 3876, 1233, 3340, 2233, 4306,
3309, 5844, 5424, 3871, 3632, 5641, 3001, 1726, 2895, 4517,
2679, 1314, 2255, 5674, 5388, 5934, 4724, 5944, 2962, 4900
3231, 3286, 5064, 3029, 4827, 6008, 4529, 2034, 3717, 1687,
1449, 2682, 1603, 3572, 2066, 4351, 4885, 4179, 4632, 4138,
5223, 3859, 2407, 5052, 4166, 4568, 1958, 3899, 4452, 5437,
4690, 5356, 1794, 5415, 1453, 3733, 3886, 2070, 2841, 4629,
5273, 1280, 5264, 4653, 4388, 5984, 1166, 3114, 2072, 1155,
4512, 3753, 5291, 3390, 5344, 2071, 4008, 1605, 3039, 4728,
5359, 1481, 2745, 5977, 2988, 4734, 3982, 2620, 3195, 5554,
1584, 1333, 3748, 1149, 5801, 4062, 3437, 1376, 3078, 4334,
1435, 2640, 5256, 3162, 3744, 1704, 1422, 5153, 3045, 2493,
3134, 1350, 4155, 2798, 3599, 3011, 3661, 2838, 5025, 5655,
1483, 1430, 3844, 5598, 4216, 3302, 5547, 2696, 1295, 2293,
2090, 1807, 4089, 4497, 5278, 2557, 1447, 1850, 2251, 4786,
5227, 1296, 4569, 4251, 1234, 5183, 4696, 4238, 4107, 5963,
3477, 4639, 2010, 2889, 5571, 3653, 2405, 3517, 3233, 1475,
2767, 2835, 5592, 5515, 5843, 5026, 3435, 4861, 4041, 2406,
5867, 1762, 3823, 2909, 1587, 3200, 2603, 4479, 4478, 5199,
5100, 2846, 5732, 3115, 4296, 4112, 2714, 1163, 3513, 3739,
2076, 2490, 5649, 2853, 5510, 1436, 5594, 4534, 2831, 4894,
4863, 5287, 1364, 4196, 2297, 5272, 3605, 2891, 2127, 1260,
2955, 1795, 4924, 3814, 4146, 4646, 3655, 1281, 4850, 4136,

108

4718, 3312, 2319, 2615, 4527, 1554, 1373, 1862, 5362, 5347,
3270, 1359, 5544, 3416, 3456, 5311, 1505, 1470, 1400, 5498,
1410, 5580, 4153, 3324, 3042, 1335, 5744, 5011, 3995, 1153,
1150, 5340, 3922, 2097, 5946, 5142, 2137, 5288, 5096, 4453,
5428, 5533, 4321, 4554, 3016, 4864, 4295, 2550, 5066, 1502,
1215, 5569, 1637, 5363, 4294, 1748, 2827, 5669, 1882, 4796,
3050, 1518, 4035, 5752, 5582, 4845, 1140, 4313, 3993, 2196,
2874, 1733, 4209, 3508, 1198, 1876, 4510, 5561, 3709, 3937,
1524, 5664, 3966, 2518, 4018, 3505, 2815, 1360, 3096, 5652,
3482, 4733, 2732, 2660, 4673, 5217, 5360, 3728, 3868, 5660,
4312, 4134, 2155, 3171, 2479, 3787, 1157, 1493, 5777, 2667,
4357, 4491, 2337, 3975, 4163, 2949, 4191, 1685, 4999, 3322,
5853, 3821, 1754, 5480, 3789, 5576, 2935, 3860, 4241, 3297,
4730, 1341, 3684, 5887, 4933, 2285, 4186, 2294, 5633, 3734,
1933, 3247, 5723, 4530, 5021, 1235, 4665, 5237, 4989, 5802,
4895, 3459, 4857, 2959, 2555, 3046, 3971, 4524, 1117, 4492,
3476, 5449, 1632, 4802, 5827, 5302, 2015, 4540, 5639, 3601,
2507, 1366, 1573, 3136, 5155, 1756, 4332, 3727, 1880, 3591,
3480, 5322, 2687, 4753, 1640, 2289, 3181, 5284, 4205, 4608,
3997, 4760, 2284, 4729, 1523, 2612, 2836, 1835, 4230, 3092,
3780, 4940, 3091, 5329, 2700, 4310, 2259, 4794, 4515, 1515,
4474, 3211, 4400, 4852, 3120, 1781, 5917, 2685, 2197, 3772,
1236, 5333, 2783, 4274, 5033, 4270, 5068, 1264, 1457, 4433,
3396, 2181, 5721, 4874, 2089, 5426, 4611, 3658, 5349, 2355,
4626, 3836, 5283, 3089, 5746, 1759, 2253, 2365, 5394, 2314,
5892, 3779, 4935, 5851, 4394, 5184, 3724, 1522, 2235, 6011,
4720, 3453, 1934, 5578, 5889, 4870, 5497, 3864, 4800, 3851,

109

1305, 3275, 1624, 2514, 4954, 3493, 3470, 4338, 4001, 1282,
4781, 5940, 5665, 2645, 2914, 4248, 1278, 2512, 4121, 2351,
3826, 4876, 4957, 4503, 3253, 3261, 4360, 2613, 1288, 3740,
5165, 3479, 2403, 2821, 4655, 3735, 3940, 3949, 5274, 4708,
1164, 2333, 2571, 1551, 5392, 1796, 5357, 2954, 2450, 1574,
2731, 4543, 2995, 1558, 2890, 4871, 1238, 2497, 3867, 5350,
5003, 3718, 1889, 1248, 2305, 4239, 5955, 2317, 4686, 2860,
4328, 4711, 5376, 2250, 2451, 2629, 3218, 1936, 2443, 3444,
5196, 5276, 4200, 4991, 2622, 5791, 3646, 5811, 2454, 3621,
5374, 2573, 3466, 2922, 5735, 5383, 4747, 1957, 4521, 5054,
3624, 5386, 4195, 4614, 2322, 3469, 1121, 5531, 3377, 5216,
4932, 2382, 4471, 1570, 1259, 4164, 4958, 4314, 5690, 1620,
3380, 5780, 5040, 5447, 2758, 1615, 5230, 4938, 1740, 1874,
5269, 1755, 4322, 2977, 5416, 1636, 3865, 5412, 4133, 5198,
1623, 1111, 1206, 1118, 2943, 2475, 4756, 1445, 1132, 3663,
3518, 1579, 4247, 3208, 5507, 5277, 5712, 1722, 1284, 1900,
4913, 4045, 5709, 5808, 3625, 1580, 1302, 1249, 3474, 4161,
2106, 1307, 3003, 4931, 4187, 5345, 2527, 2639, 2123, 4677,
2394, 3645, 3738, 1773, 2525, 5353, 3210, 5875, 2258, 4615,
1257, 2039, 2482, 4952, 3726, 2465, 3398, 1507, 3670, 1593,
4688, 1352, 5334, 3397, 1378, 2553, 2788, 3506, 3280, 4889,
2792, 5956, 2749, 4181, 1801, 2657, 4727, 1464, 1684, 1384,
2381, 5226, 1855, 2178, 3648, 1326, 1351, 3667, 3671, 3635,
5522, 4468, 2192, 5584, 5400, 4706, 4742, 2824, 4464, 1324,
3328, 4309, 3265, 3595, 3417, 5489, 3366, 5286, 4891, 1503,
1918, 4210, 5726, 2341, 5657, 3762, 3978, 1645, 3384, 4918,
5857, 4508]

110

C4 = [3757, 5439]
C5 = [5319, 4787]
C6 = [3239, 4682]
C7 = [3953, 2342, 5060, 3179, 4712, 3644, 2316, 5646, 4927, 5403,
4904, 2399, 2822, 2082, 3688, 5304, 2203, 5214, 4721, 1746,
1105, 3244, 2301, 4185, 4743, 1114, 1541]

111

7.2.2.

N
umero de apariciones de objetos en Clusters

objeto

apariciones objeto

apariciones objeto

apariciones objeto

apariciones

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

112

objeto

apariciones objeto

apariciones objeto

apariciones objeto

apariciones

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

160

161

162

163

7.3.

Association Rules

1. 141=T

==> 8=T

<conf:(1)>

2. 7=T

==> 8=T

<conf:(1)>

3. 7=T 141=T

==> 8=T

<conf:(1)>
113

4. 123=F

==> 8=T

<conf:(1)>

5. 76=F

==> 8=T

<conf:(1)>

6. 76=F

==> 141=T

<conf:(1)>

7. 7=T 123=F

==> 8=T

<conf:(1)>

8. 76=F 141=T

==> 8=T

<conf:(1)>

9. 8=T 76=F

==> 141=T

<conf:(1)>

10. 76=F

==> 8=T 141=T

<conf:(1)>

11. 99=F

==> 8=T

<conf:(1)>

12. 99=F

==> 141=T

<conf:(1)>

13. 99=F 141=T

==> 8=T

<conf:(1)>

14. 8=T 99=F

==> 141=T

<conf:(1)>

15. 99=F

==> 8=T 141=T

<conf:(1)>

16. 123=F 141=T

==> 8=T

<conf:(1)>

17. 7=T 123=F 141=T

==> 8=T

<conf:(1)>

18. 7=T 76=F

==> 8=T

<conf:(1)>

19. 7=T 76=F

==> 141=T

<conf:(1)>

20. 7=T 76=F 141=T

==> 8=T

<conf:(1)>

21. 7=T 8=T 76=F

==> 141=T

<conf:(1)>

22. 7=T 76=F

==> 8=T 141=T

<conf:(1)>

23. 7=T 99=F

==> 8=T

<conf:(1)>

24. 7=T 99=F

==> 141=T

<conf:(1)>

25. 7=T 99=F 141=T

==> 8=T

<conf:(1)>

26. 7=T 8=T 99=F

==> 141=T

<conf:(1)>

27. 7=T 99=F

==> 8=T 141=T

<conf:(1)>

28. 29=F

==> 8=T

<conf:(1)>

29. 106=F

==> 8=T

<conf:(1)>

30. 87=F

==> 8=T

<conf:(1)>

114

115

7.4.

Website Keyobjects

id

descripcion

keyobject

cabecera logo mba

cabecera menu navegacion

143

super testimonios

141

super foto cabecera

banner x4

no

142

super noticias

banner links de interes

no

banner siguenos

no

11

compartir inferior

no

27

cuerpo p7 malla curricular

55

cuerpo p84 magisteres

52

cuerpo p83 financiamiento bancario

no

50

cuerpo p83 bancos y contacto

no

54

cuerpo p83 primer parrafo descripcion

51

cuerpo p83 becas 50 por ciento

53

cuerpo p83 financiamiento directo

16

cuerpo p2 porque elegirnos

20

cuerpo p4 texto cuerpo estructura

22

cuerpo p4 texto cuerpo modalidad

21

cuerpo p4 texto cuerpo grado otorgado

19

cuerpo p4 texto cuerpo convalidaciones no

23

cuerpo p4 texto cuerpo objetivos

18

cuerpo p4 grafico secuencia temporal

126

formulario contacto

38

cuerpo p8 contenido cursos

13

cuerpo p10 doble grado internacional


116

12

cuerpo p10 convenios de intercambio

no

63

cuerpo p9 distribucion de cargos

66

cuerpo p9 promedio edad

no

64

cuerpo p9 nacionalidad

no

BIBLIOGRAFIA

[1] Noor F. Ali-Hasan, Elizabeth J. Harrington, and Joel B. Richman. Best practices for eye tracking of television and video user experiences. In Proceeding
of the 1st international conference on Designing interactive user experiences
for TV and video, UXTV 08, pages 58, New York, NY, USA, 2008. ACM.
[2] T. Berners-Lee, R. Cailliau, J.F. Groff, and B. Pollermann. World-wide web:
The information universe. Internet Research, 2(1):5258, 1993.
[3] Tim Berners-Lee, Robert Cailliau, Ari Luotonen, Henrik Frystyk Nielsen, and
Arthur Secret. The world-wide web. Commun. ACM, 37:7682, August 1994.
[4] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. J. Mach. Learn. Res., 3:9931022, March 2003.
[5] Ronald J. Brachman and Tej Anand.

Advances in knowledge discovery

and data mining. chapter The process of knowledge discovery in databases, pages 3757. American Association for Artificial Intelligence, Menlo Park,
CA, USA, 1996.
[6] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search
engine* 1. Computer networks and ISDN systems, 30(1-7):107117, 1998.
[7] Radek Burget and Ivana Rudolfova. Web page element classification based
on visual features. In Ngoc Thanh Nguyen, Huynh Phan Nguyen, and Adam
Grzech, editors, ACIIDS, pages 6772. IEEE Computer Society, 2009.
117

[8] Georg Buscher, Ralf Biedert, Daniel Heinesch, and Andreas Dengel. Eye
tracking analysis of preferred reading regions on the screen. In Elizabeth D.
Mynatt, Don Schoner, Geraldine Fitzpatrick, Scott E. Hudson, W. Keith
Edwards, and Tom Rodden, editors, CHI Extended Abstracts, pages 3307
3312. ACM, 2010.
[9] L.D. Catledge and J.E. Pitkow. Characterizing browsing strategies in the
World-Wide Web. Computer Networks and ISDN systems, 27(6):10651073,
1995.
[10] Juan J. Cerrolaza, Arantxa Villanueva, and Rafael Cabeza. Taxonomic study
of polynomial regressions applied to the calibration of video-oculographic
systems. In Proceedings of the 2008 symposium on Eye tracking research
&#38; applications, ETRA 08, pages 259266, New York, NY, USA, 2008.
ACM.
[11] G. Chang, M. Healey, J. McHugh, and J. Wang. Mining the World Wide
Web. Kluwer, 2001.
[12] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo html
4.01. http://www.w3.org/TR/1999/REC-html401-19991224/. Lastchecked
30 Marzo 2011.
[13] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo http.
http://www.w3.org/Protocols/. Lastchecked 30 Marzo 2011.
[14] WORLD WIDE WEB CONSORTIUM. Especificacion uniform resource locator. http://www.w3.org/Addressing/URL/url-spec.html. Lastchecked 06
Abril 2011.

118

[15] WORLD WIDE WEB CONSORTIUM.

Logging control in w3c.

http://www.w3.org/Daemon/User/Config/Logging.html.

Lastchecked 01

Abril 2011.
[16] R. Cooley, B. Mobasher, J. Srivastava, et al. Data preparation for mining
world wide web browsing patterns. Knowledge and information systems,
1(1):532, 1999.
[17] R. Da. A METHOD OF MEASURING EYE MOVEMENT USING A SCLERAL SEARCH COIL IN A MAGNETIC FIELD. IEEE transactions on biomedical engineering, 10:137, 1963.
[18] Centro de Investigacion de la Web. Como funciona La Web. pages 1142.
Universidad de Chile, 2008.
[19] A.T. Duchowski. Eye tracking methodology: Theory and practice. Springer
Verlag, 2003.
[20] Luis E. Dujovne and Juan D. Velasquez. Design and Implementation of a
Methodology for Identifying Website Keyobjects. In Proceedings of the 13th
International Conference on Knowledge-Based and Intelligent Information
and Engineering Systems: Part I, KES 09, pages 301308, Berlin, Heidelberg,
2009. Springer-Verlag.
[21] Oren Etzioni. The world-wide web: quagmire or gold mine? Commun. ACM,
39:6568, November 1996.
[22] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to knowledge discovery in databases. AI magazine, 17(3):37, 1996.
[23] Luis Eduardo Dujovne Fischman. Dise
no y Aplicacion de una Metodologa
para el Mejoramiento del Contenido de Sitios Web Mediante la Identificacion.
Masters thesis, Santiago, Chile, 2010.
119

[24] G.W. Flake, S. Lawrence, C.L. Giles, and F.M. Coetzee. Self-organization
and identification of web communities. Computer, 35(3):6670, 2002.
[25] Simone Frintrop, Ro Erich, and Henrik I. Christensen. Computational visual
attention systems and their cognitive foundations: A survey. ACM Trans.
Appl. Percept., 7:6:16:39, January 2010.
[26] D.R. Fulkerson and L.R. Ford Jr. Maximal flow through a network. Canad.
J. Math, 8:399404, 1956.
[27] J.M. Gallaugher and S.C. Ramanathan. Choosing a Client/Server Architecture. Information Systems Management, 13(2):713, 1996.
[28] D. Gibson, J. Kleinberg, and P. Raghavan. Inferring web communities from
link topology. In Proceedings of the ninth ACM conference on Hypertext and
hypermedia: links, objects, time and spacestructure in hypermedia systems:
links, objects, time and spacestructure in hypermedia systems, pages 225
234. ACM, 1998.
[29] L. Granka, H. Hembrooke, and G. Gay. Location location location: Viewing
patterns on WWW pages. In Proceedings of the 2006 symposium on Eye
tracking research & applications, page 43. ACM, 2006.
[30] Laura A. Granka, Thorsten Joachims, and Geri Gay. Eye-tracking analysis of
user behavior in www search. In Proceedings of the 27th annual ACM SIGIR
conference, pages 478479, Sheffield, United Kingdom, 2004. ACM.
[31] MINIWATTS MARKETING GROUP. Estadsticas de uso de internet y sitios
web. http://www.internetworldstats.com/stats.htm, 2011. Lastchecked 01
Marzo 2011.
[32] Claudio Gutierrez. Como funciona la Web, chapter La Web como espacio de
informacion universal, pages 9 22. Centro de Investigacion de la Web, 2008.
120

[33] E.H. Hess and J.M. Polt. Pupil size as related to interest value of visual
stimuli. Science, 132:349350, 1960.
[34] William H. Inmon, Derek Strauss, and Genia Neushloss. DW 2.0: The Architecture for the Next Generation of Data Warehousing. Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA, 2008.
[35] G. Kanizsa. Subjective contours. Scientific American, 1976.
[36] J.M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal
of the ACM (JACM), 46(5):604632, 1999.
[37] R. Kosala and H. Blockeel. Web mining research: A survey. ACM SIGKDD
Explorations Newsletter, 2(1):115, 2000.
[38] VI Levenshtein. Binary codes capable of correcting deletions, insertions and
reversals, Cybernet. Control Theory, 10(8):707710, 1966.
[39] Boh Martin, Michael Dorr, Mathis Graw, Thomas Martinetz, and Erhardt
Barth. A software framework for simulating eye trackers. In Proceedings of
the 2008 symposium on Eye tracking research &#38; applications, ETRA 08,
pages 251258, New York, NY, USA, 2008. ACM.
[40] Vasily G. Moshnyaga. The use of eye tracking for pc energy management. In
Carlos Hitoshi Morimoto, Howell O. Istance, Aulikki Hyrskykari, and Qiang
Ji, editors, ETRA, pages 113116. ACM, 2010.
[41] OH Mowrer, TC Ruch, and NE Miller. The corneo-retinal potential difference as the basis of the galvanometric method of recording eye movements.
American Journal of PhysiologyLegacy Content, 114(2):423, 1935.
[42] Glenn J. Myatt. Making Sense of Data: A Practical Guide to Exploratory
Data Analysis and Data Mining. Wiley-Interscience, 2006.
121

[43] Glenn J. Myatt and Wayne P. Johnson. Making Sense of Data II: A Practical
Guide to Data Visualization, Advanced Data Mining Methods, and Applications. Wiley Publishing, 2009.
[44] J. Nielsen and K. Pernice. Eyetracking web usability. New Riders Pub, 2009.
[45] Flavio T.P. Oliveira, Anne Aula, and Daniel M. Russell. Discriminating the
relevance of web search results with measures of pupil size. In Proceedings
of the 27th international conference on Human factors in computing systems,
CHI 09, pages 22092212, New York, NY, USA, 2009. ACM.
[46] S.K. Pal, V. Talwar, and P. Mitra. Web mining in soft computing framework:
Relevance, state of the art and future directions. Neural Networks, IEEE
Transactions on, 13(5):11631177, 2002.
[47] Bing Pan, Helene A. Hembrooke, Geri K. Gay, Laura A. Granka, Matthew K.
Feusner, and Jill K. Newman. The determinants of web page viewing behavior: an eye-tracking study. In Proceedings of the 2004 symposium on Eye
tracking research \& applications, pages 147154, San Antonio, Texas, 2004.
ACM.
[48] Timo Partala and Veikko Surakka. Pupil size variation as an indication of
affective processing. Int. J. Hum.-Comput. Stud., 59:185198, July 2003.
[49] Sami Pietinen, Roman Bednarik, Tatiana Glotova, Vesa Tenhunen, and
Markku Tukiainen. A method to study visual attention aspects of collaboration: eye-tracking pair programmers simultaneously. In Kari-Jouko RAihA
and Andrew T. Duchowski, editors, ETRA, pages 3942. ACM, 2008.
[50] Jose Miguel Piquer. Como funciona la Web, chapter Internet, pages 43 50.
Centro de Investigacion de la Web, 2008.

122

[51] A. Poole and L.J. Ball. Eye tracking in human-computer interaction and usability research: current status and future prospects. Encyclopedia of human
computer interaction, pages 211219, 2005.
[52] C.D. Redline and C.P. Lankford. Eye-movement analysis: a new tool for
evaluating the design of visually administered instruments (paper and web).
In AAPOR Annual Conference, Montreal, Quebec, Canada, May. Citeseer,
2001.
[53] D. Roberts, M. Shelhamer, and A. Wong. A new wireless search-coil system.
In Proceedings of the 2008 symposium on Eye tracking research & applications, pages 197204. ACM, 2008.
[54] Darrell S. Rudmann, George W. McConkie, and Xianjun Sam Zheng. Eyetracking in cognitive state detection for hci. In Sharon L. Oviatt, Trevor
Darrell, Mark T. Maybury, and Wolfgang Wahlster, editors, ICMI, pages
159163. ACM, 2003.
[55] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic
indexing. Commun. ACM, 18:613620, November 1975.
[56] M. Seco. Estudios de lexicografa espa
nola. Thomson-Paraninfo, 1987.
[57] B. Shackel.

Eye movement recording by electro-oculography.

Venables

DH, Martin IManual of Psycho-physiological Methods. Amsterdam: NorthHolland, pages 299236, 1967.
[58] Nigel Shadbolt, Tim Berners-Lee, Jim Hendler, Claire Hart, and Richard
Benjamins. The next wave of the web. In Proceedings of the 15th international
conference on World Wide Web, WWW 06, pages 750750, New York, NY,
USA, 2006. ACM.

123

[59] M. Spiliopoulou. Data mining for the web. Principles of Data Mining and
Knowledge Discovery, pages 588589, 1999.
[60] M. Spiliopoulou and L. Faulstich. WUM: a tool for web utilization analysis.
The World Wide Web and Databases, pages 184203, 1999.
[61] Myra Spiliopoulou, Bamshad Mobasher, Bettina Berendt, and Miki Nakagawa. A framework for the evaluation of session reconstruction heuristics in
web-usage analysis. INFORMS J. on Computing, 15:171190, April 2003.
[62] Jaideep Srivastava, Robert Cooley, Mukund Deshpande, and Pang-Ning Tan.
Web usage mining: discovery and applications of usage patterns from web
data. SIGKDD Explor. Newsl., 1:1223, January 2000.
[63] Tobii Technology. Tobii Studio 2.X User Manual.
[64] Nikos Tsianos, Panagiotis Germanakos, Zacharias Lekkas, Costas Mourlas,
and George Samaras. Eye-tracking users behavior in relation to cognitive
style within an e-learning environment. In ICALT, pages 329333. IEEE,
2009.
[65] Juan D. Velasquez and Luis E. Dujovne. Identifying Web Site Key Objects:
A Methodological Approach.
[66] Juan D. Velasquez and Vasile Palade. Adaptive Web SitesA Knowledge Extraction from Web Data Approach. In Proceeding of the 2008 conference on
Adaptive Web Sites, pages 1272, Amsterdam, The Netherlands, The Netherlands, 2008. IOS Press.
[67] Juan D. Velasquez, Richard Weber, Hiroshi Yasuda, and Terumasa Aoki.
A Methodology to Find Web Site Keywords. In Proceedings of the 2004
IEEE International Conference on e-Technology, e-Commerce and e-Service
124

(EEE04), EEE 04, pages 285292, Washington, DC, USA, 2004. IEEE Computer Society.
[68] Yanjun Wang and Qun Liu. Comparison of akaike information criterion (aic)
and bayesian information criterion (bic) in selection of stock-recruitment relationships. Fisheries Research, 77(2):220 225, 2006.
[69] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning
Tools and Techniques with Java Implementations (The Morgan Kaufmann
Series in Data Management Systems). Morgan Kaufmann, 1st edition, October 1999.
[70] Juan D. Velasquez y Lorena Donoso. Aplicacion de Tecnicas de Web Mining
sobre los Datos Originados por Usuarios de Paginas Web. Vision Crtica desde
las Garantas Fundamentales, especialmente la Libertad, la Privacidad y el
Honor de las Personas. pages 4768, 2010.

125