Documentos de Académico
Documentos de Profesional
Documentos de Cultura
COMPUTACION
PROFESOR GUIA:
JUAN VELASQUEZ
SILVA
MIEMBROS DE LA COMISION:
PIQUER GARDNER
JOSE
PATRICIO INOSTROZA FAJARDIN
SANTIAGO DE CHILE
DICIEMBRE 2011
Resumen
El objetivo general de esta memoria es mejorar la metodologa para identificar
Website Keyobjects dise
nada por Velasquez y Dujovne mediante el uso de herramientas Eye Tracking y algoritmos de Web Mining.
Dado un sitio web, esta metodologa toma como entrada el registro de peticiones
(web log) del sitio, las paginas que lo componen y el interes de los usuarios en los
objetos web de cada pagina, el cual es cuantificado a partir de una encuesta que
permite medir la atencion prestada por los usuarios sobre los objetos. Luego los
datos son transformados y pre-procesados para finalmente aplicar algoritmos de
Web Mining que permiten extraer los Website Keyobjects.
Considerando lo anterior, en este trabajo de memoria se sugiere una forma distinta
de cuantificar el interes de los usuarios sobre los objetos web, utilizando una
tecnologa de rastreo ocular (Eye Tracking), con el objetivo de prescindir de la
encuesta, ocupar una herramienta de mayor precision y as mejorar la clasificacion
de los Website Keyobjects.
Para comenzar, se investigaron las distintas tecnicas y herramientas de rastreo
ocular. Se opto por ocupar un Eye Tracker que ocupa la tecnica mas avanzada en
su campo, la que ilumina los ojos con luces infrarojas y captura sus movimientos
seg
un el brillo de la pupila y el reflejo de la cornea, todo esto basado en vdeo.
Luego se dise
no un experimento que permitiera establecer si se produce una mejora
en la clasificacion de los objetos al ocupar distintos valores del interes de los
usuarios: medido seg
un una encuesta o un Eye Tracker.
Se concluyo que la tecnologa Eye Tracking es sumamente u
til y precisa a la hora
de conocer que es lo que mira un usuario y, por lo tanto, que es lo que mas captura
su atencion. Ademas que el integrar esta tecnologa a la metodologa permite
no realizar una encuesta, con lo que se evitan situaciones donde es altamente
posible ingresar errores de forma involuntaria. Finalmente se establecio se produce
una leve mejora, entre un 5 % y 6 %, en la metodologa original, al ocupar la
informacion generada por el Eye Tracker.
ii
Agradecimientos
En primer lugar quiero agradecer muy especialmente a mi familia. Por brindarme
su apoyo y cari
no incondicional en todos estos a
nos. Sin ellos, nunca hubiera
estado donde estoy.
Fraternalmente agradezco a mis grandes amigos de la vida: Melissa Aliste, Joceline
Naranjo, Karla Mendoza, Rodrigo Alarcon, Camilo Lopez y Francisco Pe
na, por
compartir los buenos momentos, pero sobretodo por levantarme en los de mayor
debilidad.
Tambien agradezco a Milena Andrews, Betzabe Montt, Catalina Meza, Katherine
Mena, Cinthya Vergara, Diego Madariaga, Juan Mu
noz, Francisco Molina, Patricio Moya, Jorge Saa y muchos otros, quienes ayudaron a hacer de este camino,
uno mucho mas llevadero.
Les doy las gracias a todas las personas que de una u otra forma aportaron en mi
carrera universitaria. A mis compa
neros de primer a
no, con quienes descubr la
universidad; a todos los profesores, quienes me iluminaron con su conocimiento y
en especial a Juan Velasquez, mi sensei, quien me dio la confianza y el apoyo para
realizar este trabajo final.
Mencion honrosa para todas las personas que hicieron posible el desarrollo de
esta Memoria, sobretodo a los participantes de mi experimento, quienes voluntariamente accedieron a ayudar.
Finalmente, agradezco a Los Dioses por permitir, desde hace muchos a
nos, una
serie de eventos no aleatorios que confluyeron no solo en este Trabajo de Ttulo,
sino en todo lo que soy.
iii
INDICE GENERAL
1. Introducci
on
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8. Alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Marco Conceptual
10
2.1. La Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
11
2.1.2. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . .
12
iv
15
17
2.2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
19
19
20
20
23
24
25
27
29
32
33
34
35
36
38
41
2.4.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . .
42
44
2.5.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2.5.2. Implementacion . . . . . . . . . . . . . . . . . . . . . . . .
45
46
49
3. Dise
no del Experimento
52
3.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.1.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
54
54
55
3.2.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.2.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
56
58
3.3.1. Paginas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.3.2. Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
60
vi
62
63
63
4. Trabajo Realizado
64
4.1. El entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
64
65
66
68
69
4.2.1. El sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
70
70
4.2.4. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
71
73
74
74
75
vii
75
4.3.5. El Weblog . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
82
. . . . . . . . . . . . . . . . . . . . . . . .
83
85
85
85
4.5.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
4.5.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
87
87
88
5. Conclusiones
90
6. Ap
endice A: Resultados primer experimento
91
93
6.1. SOFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
6.2. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
95
6.2.2. N
umero de apariciones de objetos en Clusters . . . . . . .
99
viii
7. Ap
endice B: Resultados segundo experimento
104
ix
INDICE DE FIGURAS
13
14
18
28
33
37
40
47
59
60
65
67
68
72
76
4.6. Men
u de navegacion compacto. . . . . . . . . . . . . . . . . . . .
78
4.7. Men
u de navegacion desplegado. . . . . . . . . . . . . . . . . . . .
79
79
82
xi
CAPITULO
INTRODUCCION
1.1.
Antecedentes
En los u
ltimos a
nos ha surgido una nueva area de investigacion llamada Web Mining, que estudia diversas formas de extraer informacion desde los datos generados
en la Web. Con este conocimiento es posible desarrollar tecnicas y algoritmos para
atraer y retener usuarios en un sitio web. Esta area aplica tecnicas de Data Mining
a los datos originados en la Web con el objetivo de obtener informacion valiosa
que permita mejorar continuamente un sitio en cuanto a dise
no, contenido y otros
aspectos.
Un resultado interesante que se ha logrado en este campo son los Website Keywords [67], los que se definen como una palabra o un conjunto de palabras que
son utilizadas por los usuarios en su proceso de b
usqueda y que caracterizan el
contenido de una pagina o sitio web. Al encontrarlos, los sitios pueden ser redise
nados de acuerdo a las necesidades y requerimientos de sus usuarios, y de esta
forma, estar a la vanguardia.
Si bien identificar los Website Keywords de un sitio ayuda a conocer las preferencias de los usuarios, la metodologa que los descubre solo se enfoca en el contenido
textual, dejando fuera del analisis el contenido multimedia de los sitios web [67].
Por esta razon Dujovne y Velasquez [20] extendieron esta metodologa y lograron
1.2.
Descripci
on del Proyecto
1.3.
Hip
otesis
Si es posible cuantificar el tiempo de permanencia de un grupo de usuarios de control en los Web Objects, entonces es posible realizar una mejora a la metodologa
desarrollada por Dujovne et al. [20], es decir, determinar los Website Keyobject
con mayor exactitud.
1.4.
Objetivo General
1.5.
Objetivos Especficos
Para alcanzar el objetivo recien descrito es necesario desarrollar una serie de pasos
intermedios que se detallan a continuacion.
Establecer estado del arte en sistemas Eye Tracking.
Se debe comprender como funciona esta tecnologa para poder aplicarla de forma
adecuada al problema.
1.6.
Metodologa Aplicada
1.7.
Resultados Esperados
1.8.
Alcance
1.9.
Estructura de la Memoria
CAPITULO
2
MARCO CONCEPTUAL
En el presente captulo se dan los esbozos conceptuales sobre los cuales se sustenta
el trabajo realizado. El primer tema desarrollado es la Web [3]. Se especifica que es
y su diferencia con Internet. Se brinda una peque
na rese
na historica y se explica
su funcionamiento actual. Ademas, se profundiza en los sitios web, la informacion
que contienen y que generan. A continuacion, se explica el proceso KDD [5] y
cada una de sus etapas, desde la seleccion de datos hasta la interpretacion de los
resultados. Luego, la seccion 2.3 trata el tema denominado Web Mining [37] y sus
areas de aplicacion. Posteriormente, se introduce la tecnologa Eye Tracking [51]
que a grandes rasgos, permite saber que es lo que una persona mira y por cuanto
tiempo. Finalmente, se explica la metodologa para encontrar Website Keyobjects
dise
nada por Dujovne [23] que se espera mejorar.
2.1.
La Web
Gutierrez [32] comparo pedagogicamente sus diferencias: Confundir la Web e Internet es como confundir el cerebro (una red de neuronas) con el conocimiento
que posee una persona. Otro ejemplo fue dado por Piquer [50], quien realizo la
siguiente analoga: El sistema de transporte (terrestre) esta basado en la red de
caminos y carreteras, pero el sistema de transporte es totalmente distinto a la red
de carreteras. Lo mismo ocurre para la Web e Internet.
Tecnicamente, Internet representa a la red de redes que permite la interconexion
entre dispositivos separados geograficamente, a traves del envo y recepcion de los
datos que viajan en paquetes. Por otro lado, la Web es el conjunto de paginas y
objetos relacionados que se vinculan entre s a traves de hipervnculos [70].
En palabras de su creador, Berners-Lee, la Web es el universo de informaci
on
accesible desde la red, una encarnacion del conocimiento humano. Velasquez y
Palade [66] la definieron de una forma mas concreta: La Web es un canal masivo
para la difusion e intercambio de informacion.
2.1.1.
Un poco de Historia
11
2.1.2.
Funcionamiento
http://wi.dii.uchile.cl/index.php
Cuadro 2.1: Ejemplo URL.
12
14
al cliente (4). Una vez que este recibe la respuesta, la guarda en una memoria
especial llamada cache y la interpreta mostrando la pagina en el navegador del
usuario (5). La comunicacion entre el cliente y el servidor se realiza siguiendo
el protocolo HTTP, mientras que los archivos enviados como respuesta por el
servidor [66].
Un sitio Web es un conjunto de paginas Web las que se encuentran en un directorio
o carpeta y que se encuentran enlazadas entre s mediante links. Las paginas Web
son, en esencia, documentos de texto plano que siguen el formato HTML y que
pueden tener incrustados otros archivos con distinto formato, como imagenes,
videos, etc. Pueden ser estaticas o dinamicas. Si es estatica, su contenido no cambia
frecuentemente, por el contrario, si es dinamica es generada por un programa que
en el momento de la peticion del usuario procesa al menos un algoritmo para crear
el contenido de la pagina. El servidor web, ademas de esperar las peticiones de
los usuarios, enva como respuesta los documentos solicitados por los usuarios y
en caso de ser requerido, procesa los algoritmos que crean las paginas dinamicas.
2.1.3.
Los datos que se originan en la Web pueden ser clasificados en tres tipos: contenido,
estructura y usabilidad.
Contenido: Hace referencia a los objetos presentes en las paginas Web, como
texto, imagenes, sonidos y videos, en palabras simples, todo lo que se puede ver
en una pagina. El texto puede ser semi-estructurado, altamente estructurado o
no poseer estructura. Por otro lado, el contenido multimedia requiere meta-datos
que describan su contenido, sin embargo, es muy poco com
un encontrar estas
descripciones.
15
Estructura: Son los enlaces, o links entre las paginas. Por lo general cuando
existe un enlace entre dos paginas, estas estan relacionadas por su contenido. Si
un conjunto de paginas estan enlazadas entre ellas se crea una comunidad de
informacion com
un [28]. Estos datos pueden modelarse como un grafo dirigido,
donde las paginas son representadas por nodos y los enlaces por los arcos.
Usabilidad: Son los datos generados por los usuarios en su proceso de navegacion.
Como se menciono anteriormente, los servidores Web almacenan cada peticion
realizada por los usuarios en un archivo llamado web log [15]. Los datos que son
guardados en esta bitacora de peticiones son los siguientes:
IP del Host: Direccion IP desde donde se realizo la peticion.
User y User ID: Si el sitio posee alg
un mecanismo de identificacion, se almacena el usuario y el identificador numerico de este.
Timestamp: Fecha y hora en que se realizo la peticion.
Metodo de solicitud: Forma en la que se realiza la peticion.
URI 3 : nombre y ubicacion del archivo solicitado.
Protocolo: version del protocolo HTTP del software que realiza la peticion.
Status: Estado del resultado de la peticion. Son codigos que tienen diferentes
significados.
Bytes: Tama
no del documento enviado en bytes.
Referencia: Pagina desde la cual el usuario accedio al documento.
Agente: navegador desde el cual se realizo la peticion.
3 Uniform
Resource Identifier
16
2.2.
Casi todos los campos de estudio han estado generando y almacenando cantidades de datos sin precedentes [22, 42]. A modo de ejemplo, las compa
nas de
retail guardan cada venta realizada; los servidores Web almacenan cada peticion
de los usuarios; y los astronomos generan millones de datos diariamente. Con
este crecimiento del vol
umen de datos, se ha vuelto impractico analizarlos de forma manual y, en consecuencia, distintas entidades se han visto sobrecargadas y
sobrepasadas por sus datos.
Esta situacion genero la necesidad de crear tecnicas automaticas, o al menos semiautomaticas, para facilitar la extraccion de informacion de grandes vol
umenes
de datos. Estas tecnicas son lo que hoy se conoce como el proceso Knowledge
Discovery in Databases, en adelante KDD.
2.2.1.
Definici
on
Fayyad et al. [22] definieron KDD como el proceso no trivial de identificar patrones previamente desconocidos, validos, originales, potencialmente u
tiles y comprensibles sobre los datos, donde los datos son conjuntos de hechos almacenados
en alguna fuente y los patrones son expresiones que describen un subconjunto o
un modelo del subconjunto de los datos.
17
18
2.2.2.
Selecci
on de datos
Consiste en elegir los datos, tpicamente desde un sistema transaccional, sobre los
cuales se trabajara posteriormente. Por lo general corresponden a un subconjunto
del universo de datos disponibles. El criterio de seleccion depende del objetivo del
proyecto y de los requerimientos del cliente. Este es un paso importante, ya que el
uso de datos irrelevantes puede conducir a errores analticos, ademas de agregar
ruido a los resultados finales [66].
2.2.3.
Pre-procesamiento de datos
Esta etapa consiste en preparar los datos para procesarlos posteriormente. Generalmente es la mas costosa en terminos de tiempo [42].
Dado que los algoritmos de Data Mining, etapa posterior del proceso KDD, son
muy sensibles a los datos erroneos y faltantes, se aplican diferentes tecnicas que
pueden sobrellevar estas situaciones. Para encontrar errores en los datos, se suele
buscar outlayers, o valores fuera de rango, mientras que para los datos faltantes
se puede completar el campo manualmente o se trata de predecir dicha variable
en funcion de las demas. En ambos casos, siempre esta la alternativa de eliminar
el registro completo.
Otra dificultad que puede presentarse ocurre cuando los datos provienen de diferentes fuentes y son reunidos, ya que se pueden producir inconsistencias, por
ejemplo, si las fuentes de datos ocupaban diferentes unidades de medida [43].
19
2.2.4.
Transformaci
on de Datos
En este paso los datos siguen siendo preparados con el objetivo de aumentar la
calidad de las predicciones. Existen diferentes transformaciones que pueden ser
aplicadas, donde las mas tpicas son: crear, eliminar, normalizar y discretizar variables. Las dos primeras, se ocupan para representar mejor el conjunto de datos,
por ejemplo, calcular la edad de una persona a partir de su fecha de nacimiento;
mientras que los finales se ocupan para reformar los datos para que sean compatibles con la tecnica de Data Mining que se desee ocupar [43].
El resultado de esta etapa es un conjunto de datos mas refinados sobre los cuales
se aplicaran las tecnicas y algoritmos de Data Mining.
2.2.5.
Data Mining
Es el core del proceso KDD que consiste en descubrir patrones en los datos. Si
bien no hay nada nuevo en esto, la caracterstica fundamental que lo diferencia de
otros mecanismos es la capacidad para operar sobre grandes vol
umenes de datos
[66, 69].
Dentro de Data Mining se encuentran varios mecanismos, como agrupacion o clustering, prediccion; que sirven para enfrentar diferentes tipos de problemas. Generalmente, se ejecuta mas de una tecnica para verificar los resultados obtenidos.
Clustering
entre estos sea baja. Para medir que tan relacionados estan dos elementos se suele
definir una funcion de distancia. Esta idea de separar conjuntos puede resultar
u
til para encontrar relaciones desconocidas en los datos, familiarizarse con ellos,
segmentarlos o dividir para reinar [42].
Para ejemplificar esta tecnica, consideremos que separamos el conjunto de todos
los animales conocidos en los subconjuntos mamferos, invertebrados, aves y peces.
Dentro de estos subconjuntos todos sus elementos comparten una caracterstica
y, por otro lado, al tomar dos ejemplos de distintos conjuntos, se puede apreciar
que no comparten ninguna caracterstica principal de los diferentes subconjuntos.
Existen diversas formas de realizar Clustering como Agglomerative Hierarchical,
Partitioner-Based y Fuzzy. Para cada una de estas existe al menos un algoritmo
que la implementa [43]. Para evaluar la calidad de los clusters entregados por estos
algoritmos se pueden emplear los indicadores AIC y BIC [68], que estan basados
en el metodo de maxima verosimilitud.
Una forma mas basica de realizar Clustering es la denominada Reglas de asociacion. Este metodo entrega observaciones sobre los datos y trata de encontrar
vnculos entre los diferentes atributos del conjunto.
Predicci
on
Se refiere a una serie de enfoques que buscan entregar mayor informacion para
tomar decisiones, basados en los datos historicos. A modo de ejemplo, las areas
de marketing usan este tipo de modelos para predecir que clientes compraran un
producto especfico [43].
Los enfoques para alcanzar este proposito son diversos, entre ellos se encuentran: regresion lineal, polinomial, logstica, m
ultiple, etc; analisis de componentes
21
(yi yi )2
n
i=1
n
X
|yi yi |
n
i=1
(2.1)
(2.2)
El argumento que permite conocer que tan buena es una clasificacion consiste
en determinar el n
umero de eventos bien clasificados versus los mal clasificados.
Para ejemplificar esto, se consideran las siguientes propiedades de una prediccion
binaria:
Verdadero positivo (VP): N
umero de observaciones clasificadas como verdaderas que son en realidad verdaderas.
Verdadero negativo (VN): N
umero de observaciones clasificadas como falsas
siendo que son verdaderas.
Falso positivo (FP): N
umero de observaciones incorrectamente clasificadas
como verdaderas.
Falso negativo (FN): N
umero de observaciones incorrectamente clasificadas
como falsas (son verdaderas).
22
Con estos valores se construyen los siguientes indicadores, que son los que determinan la calidad de una prediccion:
Precision: Indica la fraccion de las predicciones verdaderas que fueron correctas (2.3).
Recall : Indica la fraccion de los eventos verdaderos que fueron predichos
correctamente (2.4).
F-measure: Otorga una mezcla de los indicadores anteriores, que los mezcla
uniformemente (2.5).
P recision =
Recall =
F measure = 2
VP
V P + FP
(2.3)
VP
V P + FN
(2.4)
P recision + Recall
P recision Recall
(2.5)
Esta forma de evaluar una prediccion binaria es extensible para grados mayores,
como por ejemplo al pronosticar el clima de un da que puede ser soleado, templado
o fro.
2.2.6.
Interpretaci
on y an
alisis de resultados
Los algoritmos de Data Mining entregan como resultado patrones que generalmente son un subconjunto de los datos. Sin embargo, existe la posibilidad que
23
estos patrones no tengan sentido alguno, por lo que deben ser validados por el
experto del negocio.
Si los patrones encontrados son correctos es posible tomar acciones basadas en
lo aprendido. Si no lo son, el proceso completo debe ser revisado y modificado,
prestando especial enfasis en los modelos de informacion.
Es importante destacar que el proceso KDD nunca tiene fin, ya que el entorno
siempre esta en un constante cambio. Los patrones encontrados hoy, puede que
ya ma
nana no tengan validez, sin embargo, pueden ser usados como fundamentos
para un trabajo futuro [66].
A continuacion, se estudiara un area de investigacion reciente que aplica muchos
de los conceptos descritos en esta seccion.
2.3.
Web Mining
2.3.1.
25
(2.6)
En la ecuacion 2.6, mij es el peso de la palabra i en el documento j, dado un conjunto de documentos. Este valor debe explicitar que hay palabras mas importantes
que otras. Para calcular mij , se necesita saber que tan importante es una palabra
en un documento, en este sentido, el n
umero de veces que aparece la palabra i
en el documento j resulta ser relevante, y al ser normalizado por la cantidad de
veces que aparece en el total de documentos se obtiene una relacion de la palabra
i para el conjunto completo de documentos.
El calculo de mij se realiza en dos pasos. El primero mide la frecuencia de la
palabra i en el documento j versus la frecuencia de la misma palabra en el total
de documentos, representado por la ecuacion 2.7, donde mij es el n
umero de veces
que aparece la palabra i en el documento j.
26
nij
T Fij = PQ
k=1
nik
(2.7)
IDFij = log(
Q
)
ni
(2.8)
(2.9)
Con esta representacion matricial, el conjunto de documentos esta listo para realizar Data Mining sobre su contenido.
2.3.2.
Esta sub-area de Web Mining estudia los enlaces presentes en las paginas Web.
Las paginas y enlaces se modelan como los nodos y los arcos de un grafo dirigido
respectivamente. El arco parte en el nodo que representa a la pagina que posee
el enlace y termina en el nodo que representa a la pagina que es apuntada. La
figura 2.4 representa los enlaces de tres paginas. La pagina A tiene dos enlaces, a
las paginas B y C, mientras que la B posee uno hacia la C.
Kleinberg [36] propuso una clasificacion de las paginas Web mediante este tipo
de analisis. Definio que una pagina es Authority si apunta a pocas paginas y
27
28
paginas.
Otro uso que se le da a WSM es la identificacion de comunidades [24]. Estas
tecnicas son muy usadas ya que facilitan las busquedas en la Web, bajo el concepto
de dividir para reinar. La idea es encontrar comunidades que esten relacionadas
entre s por enlaces y contenidos y separar estas comunidades para realizar las
b
usquedas. Se realiza mediante el metodo Flujo maximo, corte mnimo [26].
2.3.3.
29
31
asociacion entregan como resultado patrones como X % de los usuarios que visitaron la pagina P1, tambien visitaron la pagina P2 y si no existe un link directo
entre esas paginas, una recomendacion directa para el administrador del sitio sera
incluir un link desde P1 hacia P2 [66]. Es importante recordar que todos los patrones descubiertos deben ser analizados por un experto en el negocio, tpicamente
el administrador del sitio web, para que valide la informacion adquirida.
Para continuar, se tratara un tema estudiado hace mas de 50 a
nos, pero que en
la actualidad y promovido por avance de la tecnologa, ha llegado a ser ampliamente en otras areas de investigacion como usabilidad, marketing, asistencia para
minusvalidos, dise
no, etc.
2.4.
Eye Tracking
Eye Tracking es una tecnica mediante la cual los movimientos oculares de un individuo son medidos, por lo que un investigador puede conocer lo que una persona
esta mirando en cada momento y la secuencia en la que sus ojos se desplazan
de un lugar a otro. Seguir los movimientos oculares de la gente puede ayudar
a los investigadores de la Interaccion Humano-Computador a entender el procesamiento de la informacion visual y los factores que pueden tener repercusiones
en la usabilidad de la interfaz. De esta forma, las grabaciones de los movimientos
oculares pueden proporcionar una fuente de datos objetiva para la evaluacion de
interfaces, que a su vez pueden otorgar informacion para mejorar el dise
no de las
mismas [51].
La presente seccion comienza con un basico resumen del ojo humano, pues es
necesario recordar su composicion para comprender las sub-secciones posteriores.
A continuacion se presentan un modelo de los movimientos que pueden realizar
32
los ojos. Luego se describen diferentes teoras de la atencion visual, campo donde
hasta el da de hoy no existe un consenso sobre su funcionamiento. Dada esta base
de conocimiento se presenta la hipotesis fundamental en la que se basa toda la
tecnologa Eye Tracking, se describen las diferentes tecnicas dentro de este campo
y finalmente, se describen los datos que genera un Eye Tracker actual.
2.4.1.
El ojo humano
El ojo es un organo que detecta la luz y que es capaz de transformar estos estmulos
en impulsos electricos, los que seran interpretados posteriormente en el cerebro.
En la figura 2.5 se puede apreciar un modelo del ojo humano, cuyos componentes
mas importantes para este trabajo, seran detallados brevemente a continuacion.
C
ornea: Es una estructura transparente ubicada al frente del ojo, que permite el
paso de la luz y protege otras estructuras posteriores. Posee propiedades opticas
de refraccion significativas, que son usadas por diferentes Eye Trackers como una
caracterstica localizable.
M
acula (o fovea): Es una peque
na depresion en la retina, donde los rayos lumi-
33
2.4.2.
Movimientos oculares
Cuando observamos una escena, cualquiera que esta sea, los ojos de una persona se
mueven entre puntos que capturan su atencion, y as se logra recrear una imagen
cerebral de la escena [44].
Si bien existen modelos de los movimientos oculares complejos que constan de
cinco pasos [19], el modelo tpico (y suficiente para los estudios de Eye Tracking) esta constituido por dos elementos: fixation (o fijacion), momento en el cual
los ojos permanecen fijos sobre un objeto y es posible apreciarlo en detalle; y
saccades (o movimientos sacadicos), que corresponden a los rapidos movimientos
oculares entre dos fixations [44]. Es importante notar que mientras se produce
un movimiento sacadico permanecemos ciegos (no somos concientes de lo que
esta entre los dos objetos que capturaron nuestra atencion). Sin embargo, nuestro
cerebro es capaz de interpretar esta secuencia de imagenes como un continuo, y
por ende, nuestra apreciacion parece mas un video que una secuencia de imagenes.
34
2.4.3.
Atenci
on visual
2.4.4.
La hip
otesis mente-ojo
36
37
2.4.5.
T
ecnicas Eye Tracking
En la presente seccion se describiran las diferentes tecnicas existentes para realizar el seguimiento de los ojos. Estas tecnicas pueden ser clasificadas en dos
categoras: las que miden la posicion del ojo con respecto a la cabeza y las que
miden la orientacion de los ojos en el espacio, lo que es denominado el punto de
atencion (lo que una persona esta mirando) [19].
Electro oculografa
En la decada de 1950, la electrooculografa fue la tecnica mas usada de Eye Tracking. Se basaba en la medicion de la diferencia de potencial electrico de la piel
mediante el uso de electrodos ubicados al rededor de los ojos. Esto es posible ya
que la cornea se mantiene unas decimas de mV mas positiva que la retina con lo
que se produce la diferencia de potencial que es medida y que vara de acuerdo al
movimiento de los ojos. [41, 57].
Esta tecnica mide la posicion relativa de los ojos con respecto a cabeza, por lo
que no es adecuada para calcular el punto de atencion, a menos que se mida
simultaneamente la posicion de la cabeza [19].
mas com
un una peque
na bobina, que puede ser ubicada desde el exterior al aplicar
un campo electromagnetico [17, 53].
Si bien es una de las tecnicas mas precisas para medir los movimientos oculares,
es tambien la mas invasiva y causa malestar al usarlo. Por otro lado, solo mide la
posicion relativa del ojo a la cabeza, y generalmente no es adecuada para identificar
el punto de atencion [19].
Foto/Vdeo oculografa
Esta categora agrupa una amplia variedad de herramientas que capturan los
movimientos oculares. Esencialmente, mide distintas caractersticas de los ojos,
como por ejemplo, la pupila, el lmite entre la esclerotica y el iris o el reflejo de
la cornea cuando es iluminada. Aunque difieren en su enfoque, estas tecnicas se
agrupan porque a menudo no encuentran el punto de atencion [19]. Sin embargo,
es posible localizarlo mediante estimaciones y regresiones polinomiales [10, 39].
Estas tecnicas son de las mas atractivas debido a su versatilidad y simplicidad
[10]. Normalmente, consisten en una serie de fotos y/o videos que guardan los
movimientos oculares y que posteriormente son analizadas de forma manual o
automatica. Varios de estos metodos requieren que la cabeza este fija, por ejemplo,
mediante una mentonera.
Reflejo de la c
ornea y Centro de la pupila basado en video
Es la tecnica Eye Tracking mas usada en la actualidad. Consisten en un computador estandar de escritorio con una camara infrarroja montada debajo de un
monitor, con el software de procesamiento de imagenes para localizar e identificar
el Reflejo de la Cornea y el Centro de la Pupila. Con estas caractersticas, es posi39
ble disociar los movimientos oculares de la cabeza, con lo que es posible calcular
el punto de atencion de los usuarios [51].
En funcionamiento, una luz infrarroja de un LED es dirigida hacia el usuario para
crear reflejos notorios de las caractersticas de los ojos y con esto conseguir que
sean mas faciles de rastrear (se ocupa luz infrarroja para evitar deslumbrar al
usuario). La luz entra en la retina y una gran parte de ella se refleja, por lo que
la pupila aparece como un disco brillante y bien definido (efecto conocido como
pupila brillosa). El reflejo de la cornea tambien es generado por la luz infrarroja,
apareciendo como un peque
no, pero fuerte brillo [51]. En la figura 2.7 se puede
apreciar el efecto pupila brillosa y el reflejo de la cornea. Una vez que el software
de procesamiento de imagenes ha identificado el centro de la pupila y la ubicacion
del reflejo de la cornea, el vector que resulta de ellos se mide, y con algunos calculos
trigonometricos, el punto de atencion puede ser encontrado.
Este tipo de Eye Tracker necesita ser ajustado a las caractersticas de cada persona. El proceso de calibracion funciona mostrando un punto en el monitor y si
el usuario observa este punto con un determinado margen de error y durante un
tiempo mayor a cierto umbral, el sistema registra la relacion centro de la pupila,
40
reflejo de la cornea como un punto (x,y) especfico. Este proceso es repetido con
otros puntos en el monitor para obtener mayor precision en todo el monitor [51].
2.4.6.
Mediante la u
ltima tecnica descrita, los Eye Trackers modernos son capaces de
capturar varios tipos de datos, entre estos [63]:
Timestamp: Fecha y hora en milisegundos de cuando se recogieron los datos.
GazePointXLeft: Posicion horizontal en el monitor que observa el ojo izquierdo.
GazePointYLeft: Posicion vertical en el monitor que observa el ojo izquierdo.
CamXLeft: Ubicacion horizontal de la pupila izquierda en la imagen de la camara.
CamYLeft: Ubicacion vertical de la pupila izquierda en la imagen de la camara.
DistanceLeft: Distancia en mm. desde el Eye Tracker hasta el ojo izquierdo.
PupilLeft: Diametro de la pupila del ojo izquierdo dada en mm.
GazePointXRight: Posicion horizontal en el monitor que observa el ojo derecho.
GazePointYRight: Posicion vertical en el monitor que observa el ojo derecho.
CamXRight: Ubicacion horizontal de la pupila derecha en la imagen de la
camara.
CamYRight: Ubicacion vertical de la pupila derecha en la imagen de la camara.
DistanceRight: Distancia en mm. desde el Eye Tracker hasta el ojo derecho.
PupilRight: Diametro de la pupila del ojo derecho dada en mm.
Las mediciones de el tama
no de las pupilas y la distancia a los ojos pueden variar de forma importante entre los individuos dependiendo del uso de lentes. Sin
embargo, las variaciones en estas medidas son certeras.
Para los datos que corresponden a la ubicacion de un punto el monitor, este se
41
2.4.7.
Aplicaciones
Las aplicaciones de estas tecnicas son tan variadas como los campos en los cuales
se ocupa. A continuacion, se presenta una seleccion de investigaciones que han
sido desarrolladas mediante el seguimiento de los ojos:
An
alisis de la conducta de los usuarios en una busqueda Web
resultados de una b
usqueda Web, independiente del buscador empleado, lo que
concuerda con el hecho de que los tres primeros enlaces son los que reciben la
mayora de las visitas en el mismo contexto.
Buenas pr
acticas para estudios Eye Tracking
Ali-Hasan et. al [1] establecieron un conjunto de buenas practicas para los estudios de Eye Tracking en television y video que incluye como realizar preguntas
adecuadas, moderar la duracion de las entrevistas y analizar los datos generados.
Usabilidad
Variada es la literatura sobre la aplicacion de la tecnologa Eye Tracking en estudios de usabilidad. Duchowski desarrollo toda una metodologa para aplicar esta
nueva herramienta [19], mientras que Nielsen y Pernice la aplicaron expecialmente
en usabilidad Web [44]. En esta area Burget et al. desarrollaron una metodologa
que permite encontrar las areas de mayor interes de los usuarios de una pagina
Web en pos de determinar su significado [7], mientras que Pan et al. estudiaron
43
las caractersticas sobre como las personas miran las paginas Web. Dado que estas incorporan diversos formatos, estipularon que la forma en que una persona
observa una pagina es distinta a como contempla otro tipo de entornos [47].
En el estudio de la interaccion humano computador, esta tecnologa tambien ha
sido aplicada. Pool y Ball establecieron que tan aplicada era esta tecnologa en
esta area de estudio [51]. Ademas, Rudmann et al. incorporaron a la investigacion
los procesos congnitivos que tienen los humanos mientras interactuan con un PC
[54]. Por otro lado, Tsianos et al. limitaron los procesos cognitivos estudiados a
solo los relacionados con el aprendizaje en un ambiente de educacion a distancia
[64].
A continuacion, se nombran otros estudios donde se aplico Eye Tracking: Buscher
et al. quienes buscaron las regiones de un monitor que son mas preferidas por
los usuarios para leer, independientemente del contenido [8] Redline et al. propusieron usar esta tecnologa para medir el dise
no de instrumentos administrados
visualmente [52] y Pietinen et al. desarrollaron una metodologa para estudiar
como interactuan dos programadores que trabajan colaborativamente frente a un
computador [49].
Para finalizar este Captulo, en la siguiente seccion se detallara el trabajo realizado
por Dujovne y Velasquez [20] en el que esta basada esta memoria, la que busca
mejorar su implementacion y precision.
2.5.
Website Keyobject
En la presente seccion se describira a fondo los Website Keyobjects. Se comenzara con su definicion, luego se explicitara su implementacion, se establecera una
44
2.5.1.
Definici
on
2.5.2.
Implementaci
on
Considerando la primera definicion, para que una pagina Web este compuesta por
Web Object, es necesario que sus objetos posean los meta datos, cosa que por
lo general no ocurre. Existe una gran variedad de formas para agregarlos a las
paginas Web, dependiendo de la ontologa que se quiera ocupar.
En [65] se asocio a cada objeto un documento XML que contiene los meta datos
45
2.5.3.
Comparaci
on entre objetos
Para comparar dos Web Objects, Dujovne y Velasquez [65] usaron la idea que los
objetos son un c
umulo de conceptos. El siguiente procedimiento muestra como
lograron establecer una medida de similitud entre objetos.
46
Enlazar conceptos
47
Ordenar conceptos
Una vez almacenados todos los enlaces entre los conceptos correspondientes a O1 y
O2 , son ordenados de modo que queden en la misma posicion relativa en funcion de
los enlaces recientemente creados, es decir, que el primer concepto de O1 termine
enlazado con el primer concepto de O2 . El siguiente algoritmo ejemplifica esto:
Ci (O1 ), i = 1..N
Buscar el Cj (O2 ) que esta pareado con Ci (O1 )
Intercambiar Cj (O2 ) con Ci (O2 )
Levenshtein [38] ideo una norma que mide la distancia entre dos strings, la que
tambien es conocida como la distancia de edicion y es ampliamente usada en la
actualidad por distintos correctores ortograficos. Consiste en contar el n
umero
de cambios, a nivel de caracteres, que deben hacerse sobre un string para ser
transformado en el de comparacion. Estos cambios pueden ser: eliminar, agregar
o cambiar un caracter por otro en cualquier lugar de la palabra.
Entonces, como O1 y O2 fueron transformados en strings, son comparados me48
do(O1 , O2 ) = 1
2.5.4.
L(O1 , O2 )
max(|O1 | , |O2 |)
(2.10)
Esta
es una etapa tpica del proceso KDD (Ver seccion 2.2). Dado que en este
problema particular las fuentes de datos son varias es necesario realizar una diversa
limpieza y transformacion de datos.
Sesionizaci
on: Detallada con anterioridad (subseccion 3.3.2), el objetivo de esta
etapa es finalizar con la secuencia de paginas que visitaron los diferentes usuarios
de un sitio. Ademas, esta secuencia debe tener asociados los tiempos de permanencia de los usuarios en cada pagina.
Incorporaci
on de Metadatos: El primer paso de esta etapa es identificar los
objetos que componen las paginas del sitio. Una vez identificados, se deben definir
los conceptos que describen a cada uno de los objetos. Luego, esta informacion
debe ser almacenada en un base de datos. El levantamiento de estos datos debe ser
49
en conjunto con el webmaster, para asegurar que los conceptos reflejen fielmente
el contenido de los objetos.
Tiempos de permanencia en objetos: Luego de definir los objetos, Velasquez
y Dujovne propusieron realizar una encuesta a un grupo de usuarios de control de
modo que cada persona entrevistada distribuya un total de 10 puntos de interes
entre todos los objetos de una pagina. Con estos datos, se estimo el porcentaje de
permanencia de cada usuario en los objetos de cada pagina.
Posteriormente, en la lista de sesiones se reemplazo cada registro de pagina visitada por los objetos que componen dicha pagina, intercambiando el tiempo de
permanencia de la pagina por el tiempo ponderado de permanencia en cada objeto.
Vector de comportamiento del usuario: Finalmente, para cada sesion identificada se seleccionaron los n objetos que capturaron mas la atencion del usuario,
definiendo as el Important Object Vector (IOV) seg
un la ecuacion 2.11
v = [(o1 , t1 )...(on , tn )]
(2.11)
Algoritmos de Clustering
Una vez realizada toda la limpieza y transformacion de datos, se procede a procesar algoritmos de clustering sobre las sesiones de los usuarios, representadas mediante el Important Object Vector. Para poder ejecutar estos algoritmos, es de crucial
importancia definir una medida de distancia, o similitud, entre estos vectores.
Medidas de similitud para sesiones: Dujovne y Velasquez [65] definieron la
similitud entre dos IOV mediante la ecuacion 2.12.
50
i
1 X
k k
st(, ) = ( min( , ) do(ok , ok ))
i
k k
k=1
(2.12)
51
CAPITULO
3
DEL EXPERIMENTO
DISENO
Para seguir la naturaleza investigativa de este trabajo de ttulo, es necesario realizar un experimento que compruebe la hipotesis planteada en 1.3. Este experimento, bosquejado en 1.6, sera desmenuzado con gran detalle en este captulo.
3.1.
El entorno
En esta seccion se describira el ambiente sobre el cual se llevara a cabo el experimento. La idea principal es preparar el medio para que los resultados obtenidos
sean limpios, es decir, no incorporen sesgo ni otras variables ajenas al estudio o
que su influencia sea mnima. Se comienza por describir las caractersticas que
debe tener el sitio sobre el cual se desarrollara el experimento, luego el grupo de
control sobre el cual se trabajara y, para terminar, se listaran las caractersticas
mnimas que debe poseer el Eye Tracker a ocupar.
3.1.1.
El sitio
53
3.1.2.
El grupo de control
3.1.3.
El Eye Tracker
54
3.2.
Captura de datos
En esta seccion se describe como se obendran los distintos datos para realizar el
experimento. Estos datos, al ser de orgenes diversos, necesitan ser tratados de
forma distinta cada uno.
3.2.1.
P
aginas
Una vez elegido el sitio, sera desmenuzado en todas sus componentes. Para realizar esto se empleara un crawler que recuperara desde la Web todas las paginas
disponibles que conforman el sitio y tambien los enlaces entre estas.
Ademas, las paginas recuperadas por el crawler seran almacenadas como imagenes
con formato png para posteriormente realizar el cruce entre estas y los datos que
entregara el eye tracker (coordenada del pixel dentro de la pagina).
Objetos
Como primer paso, la demarcacion de los objetos debe ser, idealmente, realizada
con el administrador del sitio. En caso de no ser posible trabajar en conjunto
con el, sera necesario que valide esta separacion. Para describir el contenido de
cada objeto se procedera seg
un definieron Dujovne y Velasquez [65] por lo que se
guardara su formato y una lista de conceptos descriptores del objeto.
3.2.2.
Weblog
3.2.3.
Inter
es de los usuarios
Para capturar el interes de los usuarios en los diferentes objetos de las paginas, se
procedera de dos maneras: uso de un Eye Tracker y aplicacion de una encuesta.
Eye Tracker
Encuesta
57
3.3.
Transformaci
on de datos
Para continuar con la gua dada por el proceso KDD (ver 2.2), luego de capturar
los datos, seran transformados con el fin de que los datos sean procesables por
los algoritmos de Data Mining. Analogamente a la captura, la transformacion de
datos sera realizada independientemente para cada una de las fuentes de datos.
3.3.1.
P
aginas
Objetos
Mas que transformar los datos de los Objetos Web, estos deben ser caracterizados
mejor. Se almacenara su formato, una descripcion sencilla y su tama
no en pixeles.
Ademas, en otra tabla relacional se guardaran las listas de conceptos que describen
los objetos y la categora a la que pertenencen. Junto con esto se creara la relacion
que parea los objetos con sus conceptos.
Por otro lado, para conocer los objetos que aparecen en las paginas, se creara una
relacion que mapea los objetos en las paginas. Esta relacion guardara ademas
la coordenada superior derecha del objeto en la pagina. Con esta informacion,
dada la coordenada de un pixel en la imagen de la pagina, se podra determinar a
que objeto pertenece dicho pixel. Esto sera de vital importancia al mapear lo que
miran los usuarios mientras navegan.
Ademas, una vez cargados los datos de los objetos y los conceptos, se procedera a calcular la distancia conceptual entre objetos, seg
un la ecuacion 2.10. Estas
58
distancias seran guardadas en una tabla relacional, de modo que al ejecutar los
algoritmos de Data Mining, no sea necesario volver a calcular la separacion entre
objetos.
La figura 3.1 muestra el modelo relacional que soporta lo dicho anteriormente
sobre paginas, objetos y conceptos.
3.3.2.
Weblog
Una vez recuperado el archivo weblog (ver 2.1.3) sera pre-procesado y almacenado
en una tabla relacional que permita manipular los datos que guarda. Posteriormente se llevara a cabo la sesionizacion, proceso descrito en la subseccion , cuyos
resultados seran almacenados en otra tabla. Estos resultados daran a conocer la
secuencia de paginas visitadas por los usuarios y la duracion de su estancia en
cada pagina. La figura 3.2 ilustra el modelo que almacenara los datos del weblog
y los tiempos empleados por los usuarios en las paginas.
59
3.3.3.
Inter
es de los usuarios
Eye Tracker
Los datos que entrega el Eye Tracker se reduciran y agruparan de modo que
se pueda calcular cuanto tiempo gastan los usuarios observando cada objeto. La
idea principal es dado los tama
nos de paginas y objetos en pixeles y la ubicacion
de estos u
ltimos, mapear las coordenadas que entrega el Eye Tracker, tambien
en pixeles, sobre los objetos de una pagina que observo un usuario en cierto
instante. Una vez mapeado al objeto correspondiente, se almacenara el tiempo que
gasto cada usuario en cada objeto del sitio. Luego, este valor se transformara en un
porcentaje de permanencia del usuario en los objetos para finalmente promediar
60
Encuesta
61
por los porcentajes de permanencia de los objetos, calculados en las transformaciones anteriores. Esta informacion reflejara que objetos son los que miran los
usuarios mientras navegan por el sitio Web.
Con estas transformaciones se podra intuir si existen diferencias significativas
entre capturar el interes de los usuarios mediante una encuesta o con un software
especializado de Eye Tracking.
3.3.4.
Usuarios de control
62
3.4.
Variaciones de la metodologa
3.5.
Comparaci
on de Resultados
Las distintas versiones de la metodologa para encontrar website keyobjects entregaran como resultados distintos conjuntos de objetos. Para poder comparar estos
resultados nuevamente se usara el conocimiento experto del encargado del sitio,
quien establecera si un objeto clasificado como website keyobjects realmente lo
es. Una vez adquirido este conocimiento se compararan los conjuntos obtenidos
por las metodologas mediante el indicador precision (ver 2.2.5). Este indicador
es usado para evaluar la prediccion de un algoritmo de clasificacion. Con estos
resultados se concluira y se establecera la validez de la hipotesis.
63
CAPITULO
4
TRABAJO REALIZADO
En el presente captulo se detalla todo el trabajo elaborado para finalizar el experimento dise
nado en el captulo anterior. Se comenzara por describir el entorno
en el que se trabajo, como se capturaron y transformaron los datos, para finalizar
con las tecnicas de Web y Data Mining empleadas.
4.1.
El entorno
4.1.1.
El sitio elegido
64
Esta compuesto por 124 paginas y 163 objetos distintos que aparecen en 2.047 en
el sitio, es decir, un objeto puede estar presente mas de una vez en el sitio. Con
esto, el n
umero promedio de objetos por pagina es 12,55.
Sobre las visitas al sitio, en promedio cada mes acceden 4.158 personas distintas,
se contabilizan 6.111 sesiones y se ven 26.589 paginas. En la tabla 4.1 se puede
apreciar el trafico mensual (desde Enero del 2011). Cabe notar que el trafico
mensual en el mes de Septiembre fue superior a promedio de los meses anteriores.
Esto se debio a que durante dicho mes se realizaron las pruebas para este trabajo,
lo que explica el aumento de visitas.
4.1.2.
4.1.3.
66
67
4.1.4.
Herramientas ocupadas
4.2.
Captura de datos
La diversidad de los datos usados es tan grande que llega a ser relevante para el
desarrollo de esta memoria. En este sentido esta seccion esta dedicada a describir
como se adquirieron los datos con los que posteriormente se trabajo. Se listan los
procesos seg
un el origen desde donde se obtuvieron los datos.
4.2.1.
El sitio
Las p
aginas
Ademas cada pagina fue almacenada en formato png, para posteriormente mapear
sobre estas los objetos. Se midio el tama
no en pxeles de todas las paginas y luego
se almaceno esta informacion.
69
4.2.2.
Los objetos
Una vez capturada la lista de paginas a analizar se procedio a identificar los objetos
del sitio. Para separar cada pagina en los objetos que la componen se consideraron
dos criterios: diferencias en el contenido (Conceptos) y la separacion espacial entre
objetos de cada pagina. Esta separacion genero 163 objetos distintos, los que por
lo general aparecieron en varias paginas.
Para conocer cuales eran las coordenadas de los objetos dentro de las paginas
se empleo la librera Python Imaging Library (PIL), que permite trabajar con
imagenes sobre el interprete de Python. Se implemento un script, que a partir de
las imagenes de las paginas del sitio, generaba las coordenadas de los distintos
objetos pertenecientes a cada pagina.
4.2.3.
Los conceptos
Luego de listar los objetos se procedio a generar los conceptos que describen su
contenido. Se procedio de forma analoga a lo que realizo Dujovne [65], es decir,
cada concepto fue creado de forma manual. De haber empleado alg
un generador
de conceptos automatico, como el algoritmo Latent Dirichlet Allocation (LDA)
[4], se estara agregando una nueva variable en el estudio de la metodologa, con
lo que sera mas complejo determinar si el aumento o disminucion de la precision
fue debido al uso del eye-tracker o al uso del algoritmo LDA.
Toda la informacion generada en estos pasos fue almacenada en una base de datos
relacional, cuyo modelo se puede apreciar en la figura 3.1.
70
4.2.4.
El Weblog
Este se recupero desde el servidor donde se aloja el sitio en conjunto con el administrador de sistemas, luego de obtener permiso del due
no del sitio. No se logro recuperar la totalidad de las peticiones pues no se almacenan los registros
historicos. Sin embargo, se obtuvo las peticiones correspondientes al mes de Agosto de 2011. Durante este mes visitaron el sitio 3.031 personas distintas, en 5.480
sesiones. En total se visualizaron 28.832 paginas, se registraron 156.259 peticiones,
y se alcanzo un trafico de 3.20 GB.
4.2.5.
Inter
es de los usuarios
Para medir elinteres de los usuarios en los objetos web, se midio y estimo su
tiempo de permanencia en ellos. Esto se realizo de dos formas: mediante el uso de
un Eye Tracker y mediante la aplicacion de la encuesta empleada por Dujovne
[65].
Eye Tracker
A cada uno de los usuarios de control se les instruyo como procedera el experimento. A la mitad de estos se les revelo que sus movimientos oculares seran
almacenados, mientras que al resto se le oculto. Con esto se espera determinar si
hay diferencias considerables en los resultados con respecto a esta variable.
La figura 4.4 muestra como fueron ubicados los usuarios frente al Eye Tracker, ya
que este es sensible a la posicion relativa entre los mismos.
A 15 de los usuarios de control (Ver figura 3.1), se les planteo la siguiente situacion:
Usted tiene la inquietud de postular a un programa MBA, pero a
un no toma una
71
En el archivo Areas of Interes se puede exportar las areas de interes de las paginas,
si es que estas fueron definidas antes de desarrollar el experimento. Esta caracterstica resulta muy u
til cuando se presentan estmulos visuales como imagenes,
donde no es posible seguir links de forma libre. El archivo Combined Data mezcla
los datos de los archivos Event Data y Fixation Data. El primero de estos contiene la informacion de los eventos mientras se ejecuta el experimento. Almacena
los clicks que se realizaron (derecho, izquierdo, y coordenadas del pxel), los links
que se siguieron, los estmulos que se mostraron y si cambio algo en la pagina,
como un nuevo display. Finalmente, el archivo Fixation Data guarda los datos
de las Fixation y Sacades de los movimientos oculares de los usuarios. Con estos
archivos, sin considerar los videos generados, se almacenaron 2.2 GB de datos en
archivos de texto.
Encuesta
4.3.
Selecci
on, limpieza y transformaci
on datos
A continuacion se detalla como se pre-procesaron los datos capturados anteriormente. Este proceso se separo seg
un el origen de los datos. Se describe de forma
especial el trabajo realizado para medir el interes de los usuarios, pues es en este
73
4.3.1.
Las p
aginas
4.3.2.
Los objetos
Una vez que se identificaron los 163 objetos del sitio, el experto del negocio
valido esta separacion, pero tambien agrupo, disgrego y elimino algunos objetos
pre-seleccionados.
Posteriormente a esta validacion, como cambiaron algunos objetos, hubo que recalcular las posiciones de los mismos en las paginas. Para esto se modifico y reejecuto el script que genero la ubicacion (en pxeles) de los objetos en las pagina.
Luego las coordenadas de los pxeles de los objetos fueron normalizados seg
un la
dimension del estmulo, con lo que las coordenadas de los objetos pasaron de estar
guardados como enteros entre 0 y el largo de la dimension del objeto, a un valor
de doble precision entre 0 y 1. Esto para adecuarse a la forma en que entrega los
datos el Eye Tracker.
74
4.3.3.
Los conceptos
Con respecto a los conceptos que describen los objetos, se valido por el experto
del negocio la forma en que fueron generados, por lo que no fue necesario realizar
ninguna modificacion, con la salvedad de agrupar o disgregar los conceptos de los
objetos que fueron modificados por el experto.
Luego, en estos momentos se implemento el script que calcula la similitud conceptual entre objetos. Para implementar este script se siguio el algoritmo definido
anteriormente por Dujovne en [65] y descrito en este informe en la subseccion
2.5.3. Los resultados obtenidos fueron almacenados en una tabla relacional, llamada conceptual similarity, que guardaba los objetos comparados y su similitud.
(Ver figura 4.9).
4.3.4.
Inter
es de los usuarios
Eye Tracker
De todos los archivos que genero el Eye Tracker, solo se trabajo con los archivos
All Data (uno por cada usuario de control) y se usaron algunos videos como
referencias. Esto constituyo la primera seleccion de datos. Luego, de todos los
atributos que posee este archivo (38) se consideraron solo 16, los que se pueden
apreciar en la figura 4.5. De estos, el campo people id no fue generado por el Eye
Tracker y corresponde a un identificador de la persona entrevistada.
El campo datetime guarda el tiempo, desde que se inicio el experimento en el que
75
se capturo el registro. Los campos validity left y validity right indican la validez
de la captura de los datos, tanto para el ojo izquierdo como para el derecho. Con
estos datos se establecio un filtro para considerar o no el registro, en funcion de
si fue calculado correctamente o no.
Los atributos event, event key, data1, data2, descriptor en conjunto describen los
eventos mientras se proceda con el experimento. Almacenan informacion desde
cuando se comienza y termina un determinado estmulo, como una pagina, los
clicks que realiza el usuario, los desplazamientos dentro de un estmulo, como
deslizar el scroll wheel hacia abajo, y si se desplego alg
un men
u de navegacion.
Media wigth y media height guardan el tama
no en pxeles del estmulo media desplegado en la pantalla, no la resolucion de esta u
ltima. Estos atributos son importantes para luego mapear los puntos de atencion de los usuarios en los objetos web.
En este sentido, los atributos mapped fixation point x y mapped fixation point y
76
77
79
La encuesta
Los resultados de la encuesta correspondieron a archivos donde se registro la pagina, el objeto, y los puntos de interes que le asigno el usuario. Estos datos fueron
transformados, de modo que los 10 puntos que asigno cada usuario, correspondiera al 100 % del interes del usuario en dicho estmulo. A modo de ejemplo, si
una persona asigno 5 puntos al objeto X en la pagina Y se asumio que el interes del usuario sobre el objeto X fue del 50 % en la pagina Y. Analogamente
al caso anterior, se asigno 0 al interes del usuario en los objetos que no obtuvieron puntos. Luego estos resultados se promediaron y se tambien almacenaron
averaged spent time on object (ver figura 4.8)
Pre-procesamiento
80
Comparaci
on
Promedio
Desviacion Estandar
libre - guiado
0,013194
0,039402
libre - encuesta
0,032408
0,100782
guiado - encuesta
0,055501
0,120487
4.3.5.
El Weblog
A partir de peticiones web recuperadas con anterioridad desde el weblog, se procedio a ejecutar el proceso de sesionizacion. Sin entrar en el detalle de este proceso,
pues esta fuera del alcance de la memoria, se obtuvo como resultado un conjunto
de sesiones, en las que cada una de estas contena una lista de paginas, asociadas
a la cantidad de tiempo que permanecieron en estas.
Luego, analogamente a lo realizado por Dujovne [65], para cada registro se reemplazo la pagina por los objetos que la conformaban y se pondero el tiempo de
permanencia en la pagina por el porsentaje de permanencia en el objeto. Ademas
se consideraron con especial cuidado los objetos que aparecieron en mas de una
pagina, pues para una sesion, el mismo objeto pudo haber sido visto dos veces.
En este caso, se sumaron los tiempos correspondiente a ambas paginas, pues se le
presto atencion dos veces.
A continuacion se procedio a seleccionar los n objetos mas importantes de cada
sesion, como fue descrito en la ecuacion 2.11. El criterio de seleccion de los objetos
mas importantes fue el tiempo de permanencia en ellos. La determinacion de n se
realizo de forma analoga a como procedio Dujovne et al. [65], quien extendio lo
realizado por Velasquez et al. [67]. Se calculo el promedio () y la desviacion estandar () sobre el n
umero de objetos por seccion. Luego, se eligio un n
umero n en
el rango [3, +3]. Estos datos fueron almacenados en la tabla residence time
81
4.4.
Data Mining
tres algoritmos.
4.4.1.
Los algoritmos
En esta seccion se describiran los tres algoritmos empleados durante el experimento. Cabe recordar que para poder comparar sesiones entre s se empleara la
ecuacion 2.12, que describe una medida de similitud entre dos IOV.
SOFM es un modelo de red neuronal que basicamente procesa una base de datos
resultando en un mapa (usualmente bidimencional) donde casos similares se mapean en regiones cercanas. Ocupa un modelo de aprendizaje no supervisado, por
lo que difiere de las redes neuronales comunes.
Para este trabajo, al igual que en el desarrollado por Dujovne [65], se empleara una
red de forma toroidal, donde los extremos de una red bidimensional se unen para
dar la forma deseada.
En este algoritmo cada neurona sera definida como un IOV (Ver ecuacion 2.11). La
forma de actualizar los IOV, mientras se produce el entrenamiento, sera modificada
de modo que compare los vectores de objetos importantes presentes en cada una
de las sesiones. Para cada IOV, se debe encontrar la neurona mas parecida a este y
actualizar los pesos de la red en funcion de las distancias calculadas. Este proceso
se repetira hasta que los cambios en los pesos de la red sean menores a un .
83
K-means
Association Rules
r = (o1 , ..., on )
84
(4.1)
4.4.2.
Primer experimento
4.4.3.
Segundo experimento
4.5.
Resultados Obtenidos
En esta seccion se listan los objetos clasificados como Website Keyobject seg
un
cada tecnica ocupada para ambos experimentos. Dado que la diferencia entre
ambos esta dada por los tiempos de permanencia en los objetos, la forma de lo
que entrega cada tecnica es independiente de que experimento se esta analizando.
Las listas completas de resultados obtenidos para el experimento 1 se encuentran
en el apendice A (Captulo 6). En el se listan todas las tecnicas y lo que arrojaron
como resultados. En tanto, para el experimento 2, los resultados se encuentran en
el apendice B (Captulo 7).
85
4.5.1.
SOFM
Para la implementacion de esta tecnica se ocupo una red conm forma toroidal, y
se realizaron varias pruebas con respecto a la cantidad de neuronas de la red, encontrando que una constitida por 12X12 neuronas entrego los mejores resultados.
Esta red entrego 8 clusters para cada experimento. La salida de este algoritmo se
modifico para que entregara listas de los identificadores de sesiones pertenecientes
a cada cluster, con el objetivo de poder contar el n
umero de apariciones de los
objetos en los distintos clusters.
Los resultados de esta tecnica, para el experimento 1 se encuentran en la seccion
6.1, mientras que para el experimento 2, en la 7.1.
4.5.2.
K-Means
(4.2)
De forma analoga al caso anterior, los resultados entregados por esta tecnica
para el primer experimento se pueden encontrar en la seccion 6.2, mientras que
para el segundo en la 7.2. En estos se listan los identificadores de las sesiones
correspondientes a cada cluster y luego se muestra el n
umero de apariciones de
los objetos en estos.
86
4.5.3.
Association Rules
4.5.4.
Website Keyobjects
experimento
10
20
30
primero
70 %
75 %
70 %
segundo
70 %
80 %
76 %
4.6.
Comparaci
on y an
alisis
El cuadro 4.2 muestra la precision alcanzada en los dos experimentos. Se seleccionaron tres rangos para comparar los resultados, tomando los primeros 10, 20 y
30 Website Keyobjects.
Se puede notar un ligero aumento (5 % a 6 %) en la precision al comparar ambos
experimentos, con lo que se valida que esta tecnologa resulta u
til para medir el
interes de los usuarios.
Dujovne y Velasquez [65] con su metodologa (experimento 1) alcanzaron una precision del 80 %, valor que es mayor al 75 % promedio obtenido en este experimento.
Esto se puede deber a la cantidad de paginas y objetos en estudio, ya que ellos
analizaron un sitio de 27 paginas con 40 objetos, mientras que en este trabajo se
analizo un sitio de 124 paginas y mas de 160 objetos. Otra posible fuente de error
es la generacion de los metadatos. En este trabajo, al igual que en el desarrollado
por Dujovne, los metadatos se generaron a mano, lo que se pudo generar errores
involuntarios.
Por otro lado, se puede notar que cuando se eligen 30 Website Keyobjects la
precision obtenida disminuye. Esto ocurre pues para este n
umero se comienza
88
89
CAPITULO
5
CONCLUSIONES
5.1.
Trabajo Futuro
misma area se podra automatizar el proceso que genera los metadatos, pues
hasta el momento es un proceso lento y tedioso que al ser manual, permite la
introduccion de errores involuntarios.
Finalmente, se podra analizar la forma en la que opera esta metodologa, investigar si cambiando la estructura de la misma se pueden lograr mejores resultados
que aplicando 3 algoritmos de Data Mining distintos. Crear una nueva forma de
ranquear los objetos podra ayudar en este objetivo.
92
CAPITULO
APENDICE
A: RESULTADOS
PRIMER EXPERIMENTO
6.1.
SOFM
C1 = [3860, 5284, 5153, 2550, 3315, 5887, 4328, 1645, 1876, 4230,
2106, 4302, 2167, 3179, 3211, 1129, 2314, 5374, 3970, 2853,
3624, 2549]
C2 = [5752, 4191, 4483, 5944, 3859, 4360, 4919, 5439, 4517, 1500,
1447, 5547, 2846, 3688, 5732, 2421, 2287, 1502, 1359, 2311,
5873, 2267, 2935, 4134, 1198, 4507, 1573, 5017, 2704, 1725,
3309, 3493, 2792, 2435, 2527, 4738, 4863, 3886, 2302, 3851,
2804, 3513, 3517, 2847, 1410, 5676, 2259, 1524, 3789, 1362,
4733, 4387, 5435, 2787, 3717, 3847, 5499, 1900, 2123, 4534,
2622, 4322, 1312, 3236, 2178, 2390, 4730, 3814, 3001, 5889,
4045, 3938, 4218, 2196, 5352, 2566, 4653, 3565, 5223, 5190,
2401, 2469, 5237, 1726, 3826, 1887, 2682, 1288, 1683, 2186,
4673, 2155, 2553, 4631, 3953, 1364, 3261, 4164, 4181, 1882,
4248, 3684, 1590, 3231, 4957, 1880, 5226, 4179, 2798, 3758,
93
94
3870, 1278, 4351, 4711, 5576, 1559, 3534, 2082, 5347, 2286,
2717, 1158, 3437, 2406, 5003, 3456, 1149, 1251, 2917, 5951,
4568, 3232, 5095, 3591, 2561, 1283, 1438, 4347, 4529, 4747,
4062, 1157, 4136, 3403, 3208, 4891]
C7 = [1191, 3218, 1481, 1857, 1584, 3286, 1214, 1855, 3050, 5484,
5948, 3739, 4523, 2771, 4900, 1400, 3757, 3670, 4632, 5654,
4912, 4295, 5721, 1685, 3941, 4071, 5287, 5072, 5350, 4180,
2890, 1453, 4107, 1862, 3435, 4727, 2555, 2365, 4613, 4478,
1730, 5054, 2556, 5272, 1314, 1583, 5302, 3744, 2319, 2800,
3978, 1105, 1169, 2977, 5068, 5322, 2034, 5534, 2781, 2516,
5379, 3734, 5655, 3092, 2072, 5329, 1505, 2028, 5619, 1236,
5902, 5498, 2739, 4404, 3046, 5184, 2603, 5333, 4554, 1933,
3391, 5867, 2293, 4112, 3997, 1675, 4503, 4852, 5690, 6011,
3789, 1618, 1341, 3772, 3727, 4739, 4717, 2745, 5421, 3380,
5669, 5665, 5425, 3476]
C8 = [4357, 5060, 5646, 3078, 1280, 3172, 2428, 2321, 4443, 3508,
4931, 4497, 3588, 2525, 4089, 5100, 4729, 5808, 4624, 3622,
5142, 1467, 3605, 5319, 3239, 1885, 1624, 4541, 4153, 3551,
2317, 2040, 2493, 1835, 3115, 5392, 1615]
6.2.
6.2.1.
K-Means
Clusters de sesiones
4328, 4673, 2639, 2781, 1857, 3208, 2123, 3772, 2178, 1284,
2525, 1957, 3050, 5808, 1855]
C3 = [3727, 4218, 5790, 5287, 4739, 5223, 1624, 4781, 3684, 1169,
4196, 5690, 4248, 1214, 2603, 3172, 4238, 3315, 5216, 5362,
4730, 4799, 4554, 5363, 3993, 5578, 4747, 5017, 2739, 5333,
2355, 4216, 5675, 5887, 3605, 4800, 4931, 3046, 4205, 4474,
2645, 3101, 5379, 2682, 3780, 3456, 3508, 1882, 1470]
C4 = [2401, 4360, 2082, 5544, 4295, 2556, 5227, 5060, 4651, 2890,
4478, 3953, 2399, 3600, 2302, 4071, 3318, 1810, 4766, 4999,
5652, 4146, 4743, 3995, 3239, 4613, 3938, 4541, 2516, 3179,
2881, 3688, 3384, 4738, 4891, 2421, 2333, 1280, 2155, 4321,
2267, 4529, 5992, 6011, 4686, 3844, 1887, 2959, 1118, 2555,
4191, 5867, 5207, 3622, 1605, 3115, 2186, 4112, 1698, 5549,
4089, 5228, 4852, 4124, 2167, 1359, 4733, 3195, 2847, 5142,
5919, 4934, 2301, 4302, 4845, 4632, 2390, 4682, 2787, 3380,
1400, 3886, 5752, 2505, 2259, 3565, 5392, 3311, 4200, 2659,
1726, 2917, 1704, 3826, 1150, 4291, 2311, 1210, 5184, 1335,
5646, 1725, 3416, 3732, 3534, 5876, 4900, 1573, 2771, 1251,
2767, 4035, 3851, 3500, 4885, 3503, 5214, 3588, 1105, 1164,
3482, 5641, 3658, 1283, 3391, 2203, 5948, 5515, 2286, 5303,
1835, 1129, 1453, 2747, 1364, 4787, 4380, 5352, 4892, 1314,
2977, 4387, 3001, 5721, 5865, 1500, 5435, 2700, 5851, 2568,
4631, 1281, 2717, 3244, 2196, 3231, 1285, 2550, 4491, 4625,
4180, 5391, 2732, 1191, 3758, 4507, 5237, 2428, 3045, 4179,
5100, 1373, 2277, 4170, 5347, 5499, 1699, 3859, 3876, 5272,
1985, 1584, 2265, 2704, 3733, 5302, 3459, 5072, 5801, 1140,
2901, 5021, 2255, 5619, 5054, 5329, 3724, 5291, 3470, 1502,
96
97
5944, 1422, 3476, 5951, 3847, 5874, 3997, 2527, 5727, 1274,
3261, 1312, 5269, 5356, 3551, 4647, 2459, 2745, 4443, 4317,
2561, 1590, 3517, 3814, 5917, 5190, 1157, 4523, 2034, 3941,
5665, 4312]
98
6.2.2.
N
umero de apariciones de objetos en Clusters
objeto
apariciones objeto
apariciones objeto
apariciones objeto
apariciones
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
84
85
86
99
objeto
apariciones objeto
apariciones objeto
apariciones objeto
apariciones
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
6.3.
Association Rules
1. 7=T
==> 141=T
<conf:(1)>
2. 130=F
==> 129=F
<conf:(1)>
3. 129=F
==> 130=F
<conf:(1)>
4. 129=F
==> 141=T
<conf:(1)>
100
5. 130=F
==> 141=T
<conf:(1)>
6. 130=F 141=T
==> 129=F
<conf:(1)>
7. 129=F 141=T
==> 130=F
<conf:(1)>
8. 129=F 130=F
==> 141=T
<conf:(1)>
9. 130=F
<conf:(1)>
10. 129=F
<conf:(1)>
11. 19=F
==> 141=T
<conf:(1)>
12. 32=F
==> 141=T
<conf:(1)>
13. 100=F
==> 141=T
<conf:(1)>
14. 110=F
==> 141=T
<conf:(1)>
==> 129=F
<conf:(1)>
==> 130=F
<conf:(1)>
==> 141=T
<conf:(1)>
==> 141=T
<conf:(1)>
==> 129=F
<conf:(1)>
==> 130=F
<conf:(1)>
==> 141=T
<conf:(1)>
<conf:(1)>
<conf:(1)>
24. 62=F
==> 141=T
<conf:(1)>
25. 8=T
==> 141=T
<conf:(1)>
26. 20=F
==> 141=T
<conf:(1)>
27. 33=F
==> 141=T
<conf:(1)>
28. 39=F
==> 141=T
<conf:(1)>
==> 141=T
<conf:(1)>
==> 141=T
<conf:(1)>
101
102
6.4.
Website Keyobjects
id
descripcion
keyobject
143
super testimonios
141
banner x4
no
142
super noticias
no
banner siguenos
no
11
compartir inferior
no
27
55
no
54
51
53
16
20
22
47
26
cuerpo p6 metodologa
21
50
no
23
18
126
formulario contacto
38
13
cabecera buscar
no
66
no
cabecera rss
no
103
CAPITULO
APENDICE
B: RESULTADOS
SEGUNDO EXPERIMENTO
7.1.
SOFM
C1 = [2732, 1296, 5567, 1280, 4529, 4302, 2106, 2798, 3195, 2066,
5347, 3600, 3506, 5534, 2739, 3315, 4729, 4541]
C2 = [5727, 5710, 3789, 4738, 4665, 4274, 1618, 2255, 1264, 5100,
5391, 2034, 4931, 2407, 4134, 3437, 2682, 5676, 1164, 5671,
5291, 5655, 4708, 2314, 2622, 3232, 2167, 2399, 3380, 4932,
1726, 2040, 3172, 3867, 2890, 2792, 3211, 1274, 4357]
C3 = [3297, 5669, 4611, 5184, 3476, 5732, 3938, 5350, 2714, 1500,
4891, 5054, 1214, 5948, 4218, 3309, 3670, 2089, 3311, 2566,
1284, 2421, 3688, 1400, 3179, 2935, 5619, 3970, 1685, 4491,
4071, 4179, 4443, 3744, 5851, 1704, 5374, 4291, 1636, 2568,
2311, 4554, 2196, 5951, 1169, 2428, 3718, 2178, 5416, 3250,
1524, 1615, 2337, 3456, 4200, 3860, 5889, 2800, 1335, 2525,
2553, 4876, 5499, 2853, 3717, 3474, 1590, 5021, 5226, 5302,
1885, 5876, 4705, 2265, 5060, 1470, 5484, 1359, 4730, 1373,
104
4747, 1467, 5190, 3503, 2555, 3231, 5329, 1140, 5026, 5449,
5223, 1880, 3042, 1573, 5865, 4136, 1312, 4861, 4625, 4360,
2901, 2301, 4586, 1810, 3162, 1095, 3459, 1282, 5333, 3724,
4312, 2556, 5383, 5214, 6011, 2305, 2390, 1149, 3734, 4727,
2072, 2302, 2435, 5843, 2293, 3628, 2633, 1835, 4653, 3403,
3470]
C4 = 4760, 2493, 4999, 2186, 1447, 2028, 5284, 1985, 2321, 4170,
4196, 2550, 1364, 2203, 4238, 5654, 3462, 3482, 1733, 4216,
4733, 3181, 3022, 3859, 4845, 5549, 5548, 2717, 3876, 3814,
3384, 1314, 2331, 1699, 2287, 5269, 4934, 3208, 5902, 4900,
2259, 4952, 5944, 1251, 2977, 4781, 5919, 3941, 4864, 2804,
4153, 5096, 3534, 5559, 1410, 1236, 5376, 5665, 2781, 1850,
1957, 4766, 1158, 3847, 5003, 2704, 4940, 1862, 2443, 5322,
5439, 2451, 5354, 4717, 2155, 3975, 3735, 1585, 5652, 2317,
1624, 5867, 3239, 3218, 3757, 4690, 2841, 5544, 2267, 3416,
3844, 2401, 2082, 4295, 4321, 3261, 4870, 5237, 4800, 5379,
4107, 3851, 4919, 2275, 3591, 3565, 1882, 3634, 4195, 2381,
3500, 5992, 3089, 1900]
C5 = [5040, 5319, 2697, 5790, 2015, 5721, 2123, 4739, 5641, 4534,
5207, 4230, 2561, 4568, 3551, 5578, 1505, 5272, 3789, 1605,
3772, 5230, 5531, 4799, 4478, 1502, 4632, 5185, 1166, 2659,
3738, 2527, 4673, 5873, 5352, 4651, 2160, 4924, 4062, 4885,
3655, 4795, 2181, 4404, 2917, 2365, 2645, 3046, 5887, 5752,
1248, 3622, 5515, 4510, 4647, 3658, 5228, 5287, 1445, 4347,
4852, 4846, 2749, 5072, 1285, 3739, 3244, 1645, 3001, 5392,
4180, 2289, 2319, 5068, 1675, 1583]
C6 = [4089, 4523, 3826, 4479, 2787, 2846, 4682, 1698, 3684, 3045,
105
3726, 5362, 3493, 3508, 5227, 5425, 3588, 4317, 1933, 3029,
2687, 3997, 3286, 2700, 1876, 1157, 3115, 4205, 2516, 1150,
2847, 1163, 2772, 4912, 2505, 1453, 4686, 1288, 2355, 3050,
1584, 2771, 5874, 4181, 2277, 1948, 4908, 5415, 4892, 4621,
5435, 3733, 3566, 5183, 5142, 4328, 2076, 4613, 5547, 1481,
4124, 5808, 5801, 3624, 3886, 2747, 1438, 4210, 5690, 3995,
5675, 4863, 2459, 3758, 1620, 3870, 4322, 4517, 2549, 1341,
3236, 2959, 5295, 4191, 4624, 2286, 3882, 2603, 5095, 4480,
1855, 1233, 4512, 1283, 1105, 3391, 4146, 4711, 1459, 2333,
4503, 4351, 5649, 3101, 3318, 3513, 4546, 4646, 4743, 4540,
1191, 1887, 3953, 2197, 4796, 2294, 4112, 4164, 5576, 4483,
3727, 1857, 3993, 1637, 2745, 5017, 4507, 5303, 1362, 1129,
4787, 4000, 1559, 3435, 2639, 5239, 1725, 5569, 3517, 3836,
1755, 1683, 3078, 2260, 1522, 4045, 2406, 5278, 4001, 1118,
5341, 2469, 2643, 4387, 5917, 4631, 5498, 3377, 3302, 3732,
3092, 1507, 3978, 3661, 2767, 3780, 4850, 1483, 3645, 5421,
4248, 5726]
C7 = [3605, 1422, 4474, 5356, 5363, 4497, 1210, 4957, 4380, 5153,
1281]
C8 = [4035, 1278, 5283, 1198, 2881, 5646, 1730, 5216, 2731]
7.2.
7.2.1.
K-Means
Clusters de sesiones
C3 = [4522, 5865, 2516, 1263, 5421, 1191, 3758, 2435, 2704, 4878,
3181, 3830, 4091, 5901, 3315, 1210, 3588, 4541, 5239, 5485,
4302, 3236, 3582, 1585, 3870, 4624, 4507, 1375, 4621, 4896,
2160, 4404, 5874, 2556, 4898, 1725, 2866, 3991, 4714, 4912,
1343, 5727, 1283, 2566, 3685, 2772, 1559, 2781, 4651, 2390,
4291, 5873, 1683, 2421, 3950, 2740, 1292, 5676, 1158, 5654,
1948, 3849, 1675, 3584, 2277, 4071, 3202, 1618, 2401, 2286,
4586, 3305, 1129, 5346, 4124, 2717, 5840, 4811, 3652, 5417,
4739, 1660, 5190, 5095, 4451, 5520, 3022, 4892, 2040, 3938,
3095, 3232, 1597, 2194, 4617, 2459, 2800, 3422, 3782, 2847,
2576, 5619, 1566, 3503, 4738, 1420, 2265, 4919, 2549, 2078,
3462, 4090, 5870, 1699, 2087, 5425, 1362, 1285, 4480, 3600,
1583, 3628, 5534, 2643, 4625, 5710, 2495, 3452, 4631, 5856,
5228, 5393, 2960, 5681, 2917, 3551, 1626, 5675, 5919, 5790,
5352, 4395, 5902, 5327, 3882, 3432, 3441, 5504, 2021, 1159,
2331, 4443, 2739, 3850, 3941, 2858, 3266, 5379, 1590, 5951,
3847, 1858, 5410, 1517, 2505, 3172, 4546, 1571, 2568, 3150,
5354, 4750, 4483, 1857, 2771, 1251, 2186, 4647, 4353, 4402,
5303, 4380, 5017, 5993, 3311, 4799, 2176, 1598, 4511, 1916,
2469, 1095, 2882, 4317, 5567, 5992, 2531, 2321, 4748, 1467,
1556, 4000, 1810, 5914, 5948, 2275, 3403, 2747, 1885, 5435,
4581, 5548, 2787, 5549, 4387, 4613, 5804, 5341, 4218, 4347,
1214, 4170, 1985, 3318, 4355, 1425, 2311, 5312, 5185, 4558,
1841, 2577, 3431, 4436, 4908, 1169, 4180, 4705, 2167, 2260,
3204, 1265, 1262, 3101, 4795, 3614, 5663, 1887, 5501, 5295,
5563, 1909, 2633, 2302, 3250, 2697, 4504, 5521, 5297, 1274,
1438, 1500, 2904, 5072, 1898, 1997, 2766, 3565, 5207, 2561
107
1211, 5913, 3365, 5009, 2287, 3634, 5509, 1734, 4359, 2308,
4846, 5559, 4628, 4934, 5484, 2804, 2267, 3465, 3970, 4627,
5499, 2028, 2307, 1312, 2695, 4523, 1569, 5734, 2428, 5671,
3391, 1572, 5588, 2964, 3299, 5783, 4717, 3534, 1698, 3566,
1730, 4766, 2346, 5391, 3637, 3876, 1233, 3340, 2233, 4306,
3309, 5844, 5424, 3871, 3632, 5641, 3001, 1726, 2895, 4517,
2679, 1314, 2255, 5674, 5388, 5934, 4724, 5944, 2962, 4900
3231, 3286, 5064, 3029, 4827, 6008, 4529, 2034, 3717, 1687,
1449, 2682, 1603, 3572, 2066, 4351, 4885, 4179, 4632, 4138,
5223, 3859, 2407, 5052, 4166, 4568, 1958, 3899, 4452, 5437,
4690, 5356, 1794, 5415, 1453, 3733, 3886, 2070, 2841, 4629,
5273, 1280, 5264, 4653, 4388, 5984, 1166, 3114, 2072, 1155,
4512, 3753, 5291, 3390, 5344, 2071, 4008, 1605, 3039, 4728,
5359, 1481, 2745, 5977, 2988, 4734, 3982, 2620, 3195, 5554,
1584, 1333, 3748, 1149, 5801, 4062, 3437, 1376, 3078, 4334,
1435, 2640, 5256, 3162, 3744, 1704, 1422, 5153, 3045, 2493,
3134, 1350, 4155, 2798, 3599, 3011, 3661, 2838, 5025, 5655,
1483, 1430, 3844, 5598, 4216, 3302, 5547, 2696, 1295, 2293,
2090, 1807, 4089, 4497, 5278, 2557, 1447, 1850, 2251, 4786,
5227, 1296, 4569, 4251, 1234, 5183, 4696, 4238, 4107, 5963,
3477, 4639, 2010, 2889, 5571, 3653, 2405, 3517, 3233, 1475,
2767, 2835, 5592, 5515, 5843, 5026, 3435, 4861, 4041, 2406,
5867, 1762, 3823, 2909, 1587, 3200, 2603, 4479, 4478, 5199,
5100, 2846, 5732, 3115, 4296, 4112, 2714, 1163, 3513, 3739,
2076, 2490, 5649, 2853, 5510, 1436, 5594, 4534, 2831, 4894,
4863, 5287, 1364, 4196, 2297, 5272, 3605, 2891, 2127, 1260,
2955, 1795, 4924, 3814, 4146, 4646, 3655, 1281, 4850, 4136,
108
4718, 3312, 2319, 2615, 4527, 1554, 1373, 1862, 5362, 5347,
3270, 1359, 5544, 3416, 3456, 5311, 1505, 1470, 1400, 5498,
1410, 5580, 4153, 3324, 3042, 1335, 5744, 5011, 3995, 1153,
1150, 5340, 3922, 2097, 5946, 5142, 2137, 5288, 5096, 4453,
5428, 5533, 4321, 4554, 3016, 4864, 4295, 2550, 5066, 1502,
1215, 5569, 1637, 5363, 4294, 1748, 2827, 5669, 1882, 4796,
3050, 1518, 4035, 5752, 5582, 4845, 1140, 4313, 3993, 2196,
2874, 1733, 4209, 3508, 1198, 1876, 4510, 5561, 3709, 3937,
1524, 5664, 3966, 2518, 4018, 3505, 2815, 1360, 3096, 5652,
3482, 4733, 2732, 2660, 4673, 5217, 5360, 3728, 3868, 5660,
4312, 4134, 2155, 3171, 2479, 3787, 1157, 1493, 5777, 2667,
4357, 4491, 2337, 3975, 4163, 2949, 4191, 1685, 4999, 3322,
5853, 3821, 1754, 5480, 3789, 5576, 2935, 3860, 4241, 3297,
4730, 1341, 3684, 5887, 4933, 2285, 4186, 2294, 5633, 3734,
1933, 3247, 5723, 4530, 5021, 1235, 4665, 5237, 4989, 5802,
4895, 3459, 4857, 2959, 2555, 3046, 3971, 4524, 1117, 4492,
3476, 5449, 1632, 4802, 5827, 5302, 2015, 4540, 5639, 3601,
2507, 1366, 1573, 3136, 5155, 1756, 4332, 3727, 1880, 3591,
3480, 5322, 2687, 4753, 1640, 2289, 3181, 5284, 4205, 4608,
3997, 4760, 2284, 4729, 1523, 2612, 2836, 1835, 4230, 3092,
3780, 4940, 3091, 5329, 2700, 4310, 2259, 4794, 4515, 1515,
4474, 3211, 4400, 4852, 3120, 1781, 5917, 2685, 2197, 3772,
1236, 5333, 2783, 4274, 5033, 4270, 5068, 1264, 1457, 4433,
3396, 2181, 5721, 4874, 2089, 5426, 4611, 3658, 5349, 2355,
4626, 3836, 5283, 3089, 5746, 1759, 2253, 2365, 5394, 2314,
5892, 3779, 4935, 5851, 4394, 5184, 3724, 1522, 2235, 6011,
4720, 3453, 1934, 5578, 5889, 4870, 5497, 3864, 4800, 3851,
109
1305, 3275, 1624, 2514, 4954, 3493, 3470, 4338, 4001, 1282,
4781, 5940, 5665, 2645, 2914, 4248, 1278, 2512, 4121, 2351,
3826, 4876, 4957, 4503, 3253, 3261, 4360, 2613, 1288, 3740,
5165, 3479, 2403, 2821, 4655, 3735, 3940, 3949, 5274, 4708,
1164, 2333, 2571, 1551, 5392, 1796, 5357, 2954, 2450, 1574,
2731, 4543, 2995, 1558, 2890, 4871, 1238, 2497, 3867, 5350,
5003, 3718, 1889, 1248, 2305, 4239, 5955, 2317, 4686, 2860,
4328, 4711, 5376, 2250, 2451, 2629, 3218, 1936, 2443, 3444,
5196, 5276, 4200, 4991, 2622, 5791, 3646, 5811, 2454, 3621,
5374, 2573, 3466, 2922, 5735, 5383, 4747, 1957, 4521, 5054,
3624, 5386, 4195, 4614, 2322, 3469, 1121, 5531, 3377, 5216,
4932, 2382, 4471, 1570, 1259, 4164, 4958, 4314, 5690, 1620,
3380, 5780, 5040, 5447, 2758, 1615, 5230, 4938, 1740, 1874,
5269, 1755, 4322, 2977, 5416, 1636, 3865, 5412, 4133, 5198,
1623, 1111, 1206, 1118, 2943, 2475, 4756, 1445, 1132, 3663,
3518, 1579, 4247, 3208, 5507, 5277, 5712, 1722, 1284, 1900,
4913, 4045, 5709, 5808, 3625, 1580, 1302, 1249, 3474, 4161,
2106, 1307, 3003, 4931, 4187, 5345, 2527, 2639, 2123, 4677,
2394, 3645, 3738, 1773, 2525, 5353, 3210, 5875, 2258, 4615,
1257, 2039, 2482, 4952, 3726, 2465, 3398, 1507, 3670, 1593,
4688, 1352, 5334, 3397, 1378, 2553, 2788, 3506, 3280, 4889,
2792, 5956, 2749, 4181, 1801, 2657, 4727, 1464, 1684, 1384,
2381, 5226, 1855, 2178, 3648, 1326, 1351, 3667, 3671, 3635,
5522, 4468, 2192, 5584, 5400, 4706, 4742, 2824, 4464, 1324,
3328, 4309, 3265, 3595, 3417, 5489, 3366, 5286, 4891, 1503,
1918, 4210, 5726, 2341, 5657, 3762, 3978, 1645, 3384, 4918,
5857, 4508]
110
C4 = [3757, 5439]
C5 = [5319, 4787]
C6 = [3239, 4682]
C7 = [3953, 2342, 5060, 3179, 4712, 3644, 2316, 5646, 4927, 5403,
4904, 2399, 2822, 2082, 3688, 5304, 2203, 5214, 4721, 1746,
1105, 3244, 2301, 4185, 4743, 1114, 1541]
111
7.2.2.
N
umero de apariciones de objetos en Clusters
objeto
apariciones objeto
apariciones objeto
apariciones objeto
apariciones
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
112
objeto
apariciones objeto
apariciones objeto
apariciones objeto
apariciones
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
160
161
162
163
7.3.
Association Rules
1. 141=T
==> 8=T
<conf:(1)>
2. 7=T
==> 8=T
<conf:(1)>
3. 7=T 141=T
==> 8=T
<conf:(1)>
113
4. 123=F
==> 8=T
<conf:(1)>
5. 76=F
==> 8=T
<conf:(1)>
6. 76=F
==> 141=T
<conf:(1)>
7. 7=T 123=F
==> 8=T
<conf:(1)>
8. 76=F 141=T
==> 8=T
<conf:(1)>
9. 8=T 76=F
==> 141=T
<conf:(1)>
10. 76=F
<conf:(1)>
11. 99=F
==> 8=T
<conf:(1)>
12. 99=F
==> 141=T
<conf:(1)>
==> 8=T
<conf:(1)>
==> 141=T
<conf:(1)>
15. 99=F
<conf:(1)>
==> 8=T
<conf:(1)>
==> 8=T
<conf:(1)>
==> 8=T
<conf:(1)>
==> 141=T
<conf:(1)>
==> 8=T
<conf:(1)>
==> 141=T
<conf:(1)>
<conf:(1)>
==> 8=T
<conf:(1)>
==> 141=T
<conf:(1)>
==> 8=T
<conf:(1)>
==> 141=T
<conf:(1)>
<conf:(1)>
28. 29=F
==> 8=T
<conf:(1)>
29. 106=F
==> 8=T
<conf:(1)>
30. 87=F
==> 8=T
<conf:(1)>
114
115
7.4.
Website Keyobjects
id
descripcion
keyobject
143
super testimonios
141
banner x4
no
142
super noticias
no
banner siguenos
no
11
compartir inferior
no
27
55
52
no
50
no
54
51
53
16
20
22
21
19
23
18
126
formulario contacto
38
13
12
no
63
66
no
64
cuerpo p9 nacionalidad
no
BIBLIOGRAFIA
[1] Noor F. Ali-Hasan, Elizabeth J. Harrington, and Joel B. Richman. Best practices for eye tracking of television and video user experiences. In Proceeding
of the 1st international conference on Designing interactive user experiences
for TV and video, UXTV 08, pages 58, New York, NY, USA, 2008. ACM.
[2] T. Berners-Lee, R. Cailliau, J.F. Groff, and B. Pollermann. World-wide web:
The information universe. Internet Research, 2(1):5258, 1993.
[3] Tim Berners-Lee, Robert Cailliau, Ari Luotonen, Henrik Frystyk Nielsen, and
Arthur Secret. The world-wide web. Commun. ACM, 37:7682, August 1994.
[4] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. J. Mach. Learn. Res., 3:9931022, March 2003.
[5] Ronald J. Brachman and Tej Anand.
and data mining. chapter The process of knowledge discovery in databases, pages 3757. American Association for Artificial Intelligence, Menlo Park,
CA, USA, 1996.
[6] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search
engine* 1. Computer networks and ISDN systems, 30(1-7):107117, 1998.
[7] Radek Burget and Ivana Rudolfova. Web page element classification based
on visual features. In Ngoc Thanh Nguyen, Huynh Phan Nguyen, and Adam
Grzech, editors, ACIIDS, pages 6772. IEEE Computer Society, 2009.
117
[8] Georg Buscher, Ralf Biedert, Daniel Heinesch, and Andreas Dengel. Eye
tracking analysis of preferred reading regions on the screen. In Elizabeth D.
Mynatt, Don Schoner, Geraldine Fitzpatrick, Scott E. Hudson, W. Keith
Edwards, and Tom Rodden, editors, CHI Extended Abstracts, pages 3307
3312. ACM, 2010.
[9] L.D. Catledge and J.E. Pitkow. Characterizing browsing strategies in the
World-Wide Web. Computer Networks and ISDN systems, 27(6):10651073,
1995.
[10] Juan J. Cerrolaza, Arantxa Villanueva, and Rafael Cabeza. Taxonomic study
of polynomial regressions applied to the calibration of video-oculographic
systems. In Proceedings of the 2008 symposium on Eye tracking research
& applications, ETRA 08, pages 259266, New York, NY, USA, 2008.
ACM.
[11] G. Chang, M. Healey, J. McHugh, and J. Wang. Mining the World Wide
Web. Kluwer, 2001.
[12] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo html
4.01. http://www.w3.org/TR/1999/REC-html401-19991224/. Lastchecked
30 Marzo 2011.
[13] WORLD WIDE WEB CONSORTIUM. Especificacion del protocolo http.
http://www.w3.org/Protocols/. Lastchecked 30 Marzo 2011.
[14] WORLD WIDE WEB CONSORTIUM. Especificacion uniform resource locator. http://www.w3.org/Addressing/URL/url-spec.html. Lastchecked 06
Abril 2011.
118
http://www.w3.org/Daemon/User/Config/Logging.html.
Lastchecked 01
Abril 2011.
[16] R. Cooley, B. Mobasher, J. Srivastava, et al. Data preparation for mining
world wide web browsing patterns. Knowledge and information systems,
1(1):532, 1999.
[17] R. Da. A METHOD OF MEASURING EYE MOVEMENT USING A SCLERAL SEARCH COIL IN A MAGNETIC FIELD. IEEE transactions on biomedical engineering, 10:137, 1963.
[18] Centro de Investigacion de la Web. Como funciona La Web. pages 1142.
Universidad de Chile, 2008.
[19] A.T. Duchowski. Eye tracking methodology: Theory and practice. Springer
Verlag, 2003.
[20] Luis E. Dujovne and Juan D. Velasquez. Design and Implementation of a
Methodology for Identifying Website Keyobjects. In Proceedings of the 13th
International Conference on Knowledge-Based and Intelligent Information
and Engineering Systems: Part I, KES 09, pages 301308, Berlin, Heidelberg,
2009. Springer-Verlag.
[21] Oren Etzioni. The world-wide web: quagmire or gold mine? Commun. ACM,
39:6568, November 1996.
[22] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to knowledge discovery in databases. AI magazine, 17(3):37, 1996.
[23] Luis Eduardo Dujovne Fischman. Dise
no y Aplicacion de una Metodologa
para el Mejoramiento del Contenido de Sitios Web Mediante la Identificacion.
Masters thesis, Santiago, Chile, 2010.
119
[24] G.W. Flake, S. Lawrence, C.L. Giles, and F.M. Coetzee. Self-organization
and identification of web communities. Computer, 35(3):6670, 2002.
[25] Simone Frintrop, Ro Erich, and Henrik I. Christensen. Computational visual
attention systems and their cognitive foundations: A survey. ACM Trans.
Appl. Percept., 7:6:16:39, January 2010.
[26] D.R. Fulkerson and L.R. Ford Jr. Maximal flow through a network. Canad.
J. Math, 8:399404, 1956.
[27] J.M. Gallaugher and S.C. Ramanathan. Choosing a Client/Server Architecture. Information Systems Management, 13(2):713, 1996.
[28] D. Gibson, J. Kleinberg, and P. Raghavan. Inferring web communities from
link topology. In Proceedings of the ninth ACM conference on Hypertext and
hypermedia: links, objects, time and spacestructure in hypermedia systems:
links, objects, time and spacestructure in hypermedia systems, pages 225
234. ACM, 1998.
[29] L. Granka, H. Hembrooke, and G. Gay. Location location location: Viewing
patterns on WWW pages. In Proceedings of the 2006 symposium on Eye
tracking research & applications, page 43. ACM, 2006.
[30] Laura A. Granka, Thorsten Joachims, and Geri Gay. Eye-tracking analysis of
user behavior in www search. In Proceedings of the 27th annual ACM SIGIR
conference, pages 478479, Sheffield, United Kingdom, 2004. ACM.
[31] MINIWATTS MARKETING GROUP. Estadsticas de uso de internet y sitios
web. http://www.internetworldstats.com/stats.htm, 2011. Lastchecked 01
Marzo 2011.
[32] Claudio Gutierrez. Como funciona la Web, chapter La Web como espacio de
informacion universal, pages 9 22. Centro de Investigacion de la Web, 2008.
120
[33] E.H. Hess and J.M. Polt. Pupil size as related to interest value of visual
stimuli. Science, 132:349350, 1960.
[34] William H. Inmon, Derek Strauss, and Genia Neushloss. DW 2.0: The Architecture for the Next Generation of Data Warehousing. Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA, 2008.
[35] G. Kanizsa. Subjective contours. Scientific American, 1976.
[36] J.M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal
of the ACM (JACM), 46(5):604632, 1999.
[37] R. Kosala and H. Blockeel. Web mining research: A survey. ACM SIGKDD
Explorations Newsletter, 2(1):115, 2000.
[38] VI Levenshtein. Binary codes capable of correcting deletions, insertions and
reversals, Cybernet. Control Theory, 10(8):707710, 1966.
[39] Boh Martin, Michael Dorr, Mathis Graw, Thomas Martinetz, and Erhardt
Barth. A software framework for simulating eye trackers. In Proceedings of
the 2008 symposium on Eye tracking research & applications, ETRA 08,
pages 251258, New York, NY, USA, 2008. ACM.
[40] Vasily G. Moshnyaga. The use of eye tracking for pc energy management. In
Carlos Hitoshi Morimoto, Howell O. Istance, Aulikki Hyrskykari, and Qiang
Ji, editors, ETRA, pages 113116. ACM, 2010.
[41] OH Mowrer, TC Ruch, and NE Miller. The corneo-retinal potential difference as the basis of the galvanometric method of recording eye movements.
American Journal of PhysiologyLegacy Content, 114(2):423, 1935.
[42] Glenn J. Myatt. Making Sense of Data: A Practical Guide to Exploratory
Data Analysis and Data Mining. Wiley-Interscience, 2006.
121
[43] Glenn J. Myatt and Wayne P. Johnson. Making Sense of Data II: A Practical
Guide to Data Visualization, Advanced Data Mining Methods, and Applications. Wiley Publishing, 2009.
[44] J. Nielsen and K. Pernice. Eyetracking web usability. New Riders Pub, 2009.
[45] Flavio T.P. Oliveira, Anne Aula, and Daniel M. Russell. Discriminating the
relevance of web search results with measures of pupil size. In Proceedings
of the 27th international conference on Human factors in computing systems,
CHI 09, pages 22092212, New York, NY, USA, 2009. ACM.
[46] S.K. Pal, V. Talwar, and P. Mitra. Web mining in soft computing framework:
Relevance, state of the art and future directions. Neural Networks, IEEE
Transactions on, 13(5):11631177, 2002.
[47] Bing Pan, Helene A. Hembrooke, Geri K. Gay, Laura A. Granka, Matthew K.
Feusner, and Jill K. Newman. The determinants of web page viewing behavior: an eye-tracking study. In Proceedings of the 2004 symposium on Eye
tracking research \& applications, pages 147154, San Antonio, Texas, 2004.
ACM.
[48] Timo Partala and Veikko Surakka. Pupil size variation as an indication of
affective processing. Int. J. Hum.-Comput. Stud., 59:185198, July 2003.
[49] Sami Pietinen, Roman Bednarik, Tatiana Glotova, Vesa Tenhunen, and
Markku Tukiainen. A method to study visual attention aspects of collaboration: eye-tracking pair programmers simultaneously. In Kari-Jouko RAihA
and Andrew T. Duchowski, editors, ETRA, pages 3942. ACM, 2008.
[50] Jose Miguel Piquer. Como funciona la Web, chapter Internet, pages 43 50.
Centro de Investigacion de la Web, 2008.
122
[51] A. Poole and L.J. Ball. Eye tracking in human-computer interaction and usability research: current status and future prospects. Encyclopedia of human
computer interaction, pages 211219, 2005.
[52] C.D. Redline and C.P. Lankford. Eye-movement analysis: a new tool for
evaluating the design of visually administered instruments (paper and web).
In AAPOR Annual Conference, Montreal, Quebec, Canada, May. Citeseer,
2001.
[53] D. Roberts, M. Shelhamer, and A. Wong. A new wireless search-coil system.
In Proceedings of the 2008 symposium on Eye tracking research & applications, pages 197204. ACM, 2008.
[54] Darrell S. Rudmann, George W. McConkie, and Xianjun Sam Zheng. Eyetracking in cognitive state detection for hci. In Sharon L. Oviatt, Trevor
Darrell, Mark T. Maybury, and Wolfgang Wahlster, editors, ICMI, pages
159163. ACM, 2003.
[55] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic
indexing. Commun. ACM, 18:613620, November 1975.
[56] M. Seco. Estudios de lexicografa espa
nola. Thomson-Paraninfo, 1987.
[57] B. Shackel.
Venables
DH, Martin IManual of Psycho-physiological Methods. Amsterdam: NorthHolland, pages 299236, 1967.
[58] Nigel Shadbolt, Tim Berners-Lee, Jim Hendler, Claire Hart, and Richard
Benjamins. The next wave of the web. In Proceedings of the 15th international
conference on World Wide Web, WWW 06, pages 750750, New York, NY,
USA, 2006. ACM.
123
[59] M. Spiliopoulou. Data mining for the web. Principles of Data Mining and
Knowledge Discovery, pages 588589, 1999.
[60] M. Spiliopoulou and L. Faulstich. WUM: a tool for web utilization analysis.
The World Wide Web and Databases, pages 184203, 1999.
[61] Myra Spiliopoulou, Bamshad Mobasher, Bettina Berendt, and Miki Nakagawa. A framework for the evaluation of session reconstruction heuristics in
web-usage analysis. INFORMS J. on Computing, 15:171190, April 2003.
[62] Jaideep Srivastava, Robert Cooley, Mukund Deshpande, and Pang-Ning Tan.
Web usage mining: discovery and applications of usage patterns from web
data. SIGKDD Explor. Newsl., 1:1223, January 2000.
[63] Tobii Technology. Tobii Studio 2.X User Manual.
[64] Nikos Tsianos, Panagiotis Germanakos, Zacharias Lekkas, Costas Mourlas,
and George Samaras. Eye-tracking users behavior in relation to cognitive
style within an e-learning environment. In ICALT, pages 329333. IEEE,
2009.
[65] Juan D. Velasquez and Luis E. Dujovne. Identifying Web Site Key Objects:
A Methodological Approach.
[66] Juan D. Velasquez and Vasile Palade. Adaptive Web SitesA Knowledge Extraction from Web Data Approach. In Proceeding of the 2008 conference on
Adaptive Web Sites, pages 1272, Amsterdam, The Netherlands, The Netherlands, 2008. IOS Press.
[67] Juan D. Velasquez, Richard Weber, Hiroshi Yasuda, and Terumasa Aoki.
A Methodology to Find Web Site Keywords. In Proceedings of the 2004
IEEE International Conference on e-Technology, e-Commerce and e-Service
124
(EEE04), EEE 04, pages 285292, Washington, DC, USA, 2004. IEEE Computer Society.
[68] Yanjun Wang and Qun Liu. Comparison of akaike information criterion (aic)
and bayesian information criterion (bic) in selection of stock-recruitment relationships. Fisheries Research, 77(2):220 225, 2006.
[69] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning
Tools and Techniques with Java Implementations (The Morgan Kaufmann
Series in Data Management Systems). Morgan Kaufmann, 1st edition, October 1999.
[70] Juan D. Velasquez y Lorena Donoso. Aplicacion de Tecnicas de Web Mining
sobre los Datos Originados por Usuarios de Paginas Web. Vision Crtica desde
las Garantas Fundamentales, especialmente la Libertad, la Privacidad y el
Honor de las Personas. pages 4768, 2010.
125