Documentos de Académico
Documentos de Profesional
Documentos de Cultura
-Esther Hochsztain-
Facultad de Informtica
Universidad Politcnica de Madrid
-Esther Hochsztain-
Indice
Indice.............................................................................................................................................................2
Resumen del trabajo de investigacin...........................................................................................................2
1. Algoritmo de evaluacin de los logros de un sitio web mediante el cmputo del valor de las
sesiones de usuarios...................................................................................................................................2
2. Metodologa para la estimacin de la utilidad de una pgina web..................................................10
Bibliografa analizada..................................................................................................................................15
Publicaciones que el trabajo ha generado....................................................................................................16
1.
1.1)
La exitosa aplicacin de tcnicas de minera de datos en la Web requiere que stas se adapten a los
cambios continuos en los objetivos de los sitios web. Unadelasrazonesporlascualeshafalladola
aplicacindetcnicasdedescubrimientodeconocimientoendatosextradosdelawebesque,enla
mayoradeloscasos,elanlisissehaconcentradoexclusivamenteenanlisisdepginasycaminosms
visitadossintenerencuentalosobjetivosdelsitioweb.Sinembargo,sisequierenextraerpatronestiles
einteresantes,losdatosdelawebsedeberanenriquecerconinformacinrelacionadaconelnegocio.
Seproponeunalgoritmoparadeterminar el valor deunasesindeunusuarioenlaweb.Dicho
algoritmo,tieneencuentalasmetasdelsitioweb,elcomportamientoyperfildelusuarioyloscambiosen
laspolticasyobjetivosmarcadosporlosadministradoresdelsitioweb.Lasolucinqueseproponees
innovadoraenelsentidoenquepermite,tenerencuentapuntosdevistadedistintosusuarios,eintegrarla
informacindelsitiowebconlasmetasdelnegocio.
Laentradadelalgoritmoesunamatrizdevaloresenlaquecadacasillarepresentaelvalorquetiene
avanzar desdeunadeterminadapginaaotra.Elartculopresentatambinresultadosexperimentales
basadosen2400sesionesanalizadasatendiendoacuatrodiferentesmatrices.
PalabrasClaves:Mineradedatosenlaweb,anlisisbasadoengrafos,valoracindesesionesdeusuario
1.2)
Introduccin
El continuo crecimiento del World Wide Web, unido al entorno competitivo en el cual se mueven las
organizaciones modernas, ha hecho necesario disear los sitios web teniendo en cuenta, como aspecto
fundamental, el conocimiento que se puede extraer de las navegaciones de los usuarios que lo utilizan.
Una de las formas de conocimiento ms frecuentemente utilizadas consiste en descubrir cules son los
caminos de usuario ms frecuentes. Sin embargo, esto no es suficiente, hacindose necesario integrar, por
ejemplo, minera de datos con los objetivos del sitio web, con el propsito de conseguir que cada sitio
web sea el ms atractivo y como consecuencia el ms competitivo.
Lamayoradelasorganizacionesqueexploranelcomportamientodesususuariosenlawebutilizan,
exclusivamente,datosdelassecuenciasvisitadas(clickstream).
Hastaelmomento,unodelosprincipalesproblemasenlaaplicacindetcnicasdedataminignendatos
delawebtienequeverconlaetapadepreprocesamientodedatos.
Losservidoreswebregistran,comnmente,unaentradaporcadaaccesoenelarchivolog.Entrelos
datosqueserecogenseincluyeladireccinIP,eltiempodeacceso,elmtodopedido,elURLdela
pginasolicitadaelprotocolodetransmisin,uncdigoderetornoyelnmerodebytestransmitido.El
servidorlogcontiene,noobstante,muchasentradasquesonirrelevantesoredundantesparalatareade
-Esther Hochsztain-
minera y que se requiere limpiar antes del preprocesamiento. Despus de la limpieza, es necesario
identificaryagruparlosdatosensesionessignificativas[12]
Lastcnicasinteligentesdewebmining(intelligentwebmining)puedenaprovecharlosdatosdel
clickstream una vez preprocesados para extraer conocimiento relacionado con la interaccin de los
usuariosconlaWeb[1][2],quesepuedeutilizarparatomardecisionescrticasdenegocio.
Sinembargo,estosdatossedebenenriquecerconinformacinrelativaalnegociosiloqueseesperaes
ofreceralasorganizacionesconocimientointeresanteytilsobreelmismoysobresusclientesdeforma
quelespermitacompetir.Deacuerdocon[3]hoyenda,amenosquesepuedaobtenerydemostrar
ganancia,nosepodrsobrevivir.
En este sentido, en este artculo se propone un algoritmo que a la vez que tiene en cuenta la
informacinregistradaenelservidorlogmejoraelanlisistradicional,puestoqueintegrainformacin
delnegocio.Elenfoquepropuestotieneencuenta,paraelclculodelosvaloresdeunenlace,losdatos
almacenadosenelarchivologdelservidor,losobjetivosdelnegocioyelconocimientodisponiblesobre
elreaocontextodelnegocio.
Elalgoritmopermitecalcularlosvaloresacumulados,duranteunasesin,teniendoencuenta,tantoel
anlisisdelcomportamientodelosusuarioscomolasmetascambiantesdelnegocio.
Laideabsicasubyacentealalgoritmoesmuysimilaralprocesodecorreccindeunapruebade
evaluacindelosestudiantes.Enelcasodelosexmenes,dependiendodesusrespuestaslosalumnos
sumanorestanpuntosasucalificacin.Haciendounaanaloga,laspginasvisitadasporunvisitantelo
puedenalejaroacercaralametapropuestaporlaorganizacin.Cuandosteseacercaalameta,mientras
visitalaspginas,seaadenpuntos;cuandosealejaserestan.
Lasolucinqueseproponeenesteartculoesinnovadoraporqueconsideradiferentescaminosde
evaluacinapartirdelpuntodevistadediferentesusuariosintegrandolainformacinprovenientedela
webcon losobjetivosdel negocio.De estamanera, seofrece unmarco conceptual para analizar la
evolucindelassesionesasignndolesunvalor.Elenfoquepropuestofacilitatambinladeteccinde
patronesdeevolucinapartirdesesionesdediferentevalor.
Elenfoquederepresentacinutilizadosebasaenungrafodirigidocomoelpropuestoen[4]y[5]yen
laspginaswebadaptativas propuestasen[6][7]y[8].Elvalordelcambioenlaconductadelos
usuarios es til para tomar decisiones sobre lanecesidad de adaptar las pginas web ysobre cmo
hacerlo. Por otra parte, sta propuesta se relaciona tambin con el descubrimiento de secuencias
propuestoen[9][10].
Elalgoritmo,requieredeunafasedepreparacinexhaustivadelosdatosparaidentificarsesionesy
usuariostalycomoseproponeen[11].
Elrestodelapresentepropuestaestorganizadadelasiguienteforma.Enlaseccin1.3sepresentan
losconceptosbsicosrelacionadosconelenfoquepropuesto.Enlaseccin1.4,sedescribeelalgoritmo
paracalcularlaevolucindelvalordelassesiones.Enlaseccin1.5sepresentanalgunoscriteriospara
analizarelvalordesesionesjuntoconunejemplodeaplicacin.Laseccin1.6presentalosresultados
experimentales obtenidos al aplicar el algoritmo sobre un conjunto de 2400 diferentes sesiones.
Finalmente,enlaseccin1.7sepresentanlasconclusionesylasfuturastareas deinvestigacinque
surgendelenfoquepropuesto
1.3)
Conceptosbsicos
En esta seccin se presentan algunos de los conceptos bsicos en los cuales se apoya el algoritmo
propuesto:
SitioWeb:Comoen[13]unsitiowebsedefinecomounconjuntofinitodepginasweb.
SeaWunsitiowebyseaunconjuntofinitorepresentandolaspginascontenidasenW.Cadapgina
tiene asignado un identificador nico, de manera que un sitio web consistiendo de m pginas se
representacomo={1,...,m}.(i)representaeliseimoelementoopgina.
Dospginasespeciales,quesedenotancomo 0 y ,correspondenalapginadesdelacualel
usuarioentraalsitiowebylaquevisitaantesdesalirdelasesin,respectivamente[14]
Representaciondeunsitioweb:unsitiowebseconsideraungrafodirigido,definidocomo(N,E),
dondeNesunconjuntodenodosyEesunconjuntodearcos.Unnodosecorrespondeconunapgina
webyunarcoconunenlace.
Pginas objetivo: Las pginas objetivo son los nodos que se desean alcanzar. La forma de
determinarlasformapartedelalgoritmo.Estassedefinendeacuerdoconlasmetasdenegocio,elperfil
delnavegadorysuhistoriaocomportamientopasado.Deestamanera,esposible,queunapginasea
-Esther Hochsztain-
pginaobjetivoenunavisitadeunusuarioalsitiowebynoseapartedelconjuntodepginasobjetivoen
unaposteriorvisitadelusuarioalmismositioweb.
Enlace:Unenlaceesunarcoconorigenenlapgina i ydestinoenlapgina j.Losenlacesse
representanpormediodelpar(i,j).
Valordeunenlace:Laprincipalaccindelusuarioesseleccionarunenlaceparaobtenerlasiguiente
pgina(oterminarlasesin).Estaaccintomadiferentesvaloresdependiendodeladistanciaocercanaa
lapginaoconjuntodepginasobjetivo.
Elvalordelenlace(i,j)serepresentapormediodeunnmerorealvij(vijfor0i,jn):
Sivij>0,consideramosqueelnavegante,yendodelnodoialnodoj,estmscercadelas
pginasobjetivo.
(Sivij>0,vil>0,vij>vilentonces,seconsideraqueesmejorirdelapginaialajque
irdelapginaialal)
Sivij<0seconsideraqueelnavegante,quevadelapginaialaj,seestalejandode
laspginasobjetivo.(Sivij<0,vil<0,vij<vilentoncesespeorirdelapginaialapginai
queirdelaialak)
SiIvij=0consideramosqueelenlacenorepresentaniunaventajaniunadesventajaenla
bsquedadelobjetivo.
Sesin:esunasecuenciadepginasvisitadasporunusuario.Elarchivoderegistrodeaccesosalsitio
webcontieneinformacinrelacionadaconlaidentificacindelusuario(direccinIP),URLdelapgina
solicitada y fecha y tiempo de la solicitud. Con esta informacin se puede reconstruir la sesin
representadacomounvectordepginasrecorridas:S[1],S[2],....,S[n].
LassesionessedenotanporSsiendo |S|sulongitud(nmerodepginasvisitadas).Lassesionesse
representancomovectoresdemaneraqueS[i]representalaisimapginavisitadaS[i]1in.,con,
|S|=n.
Esimportantedestacarquelaspginasdelsitiowebvisitadasduranteunasesinsepuedenrepetir.Por
ejemplo,silaprimeraysextapginasvisitadassonlapgina3,S[1]=S[6]=3.Sinembargo,laspginas
contenidasenelsitioweb1,...,mnoserepitendadoqueconformanunconjunto.
Secuenciainicialdelongitudk:(kpginasiniciales S[1],S[2],....,S[k]):lasprimeraskpginas
recorridasduranteunasesinrepresentanunasecuenciadelosk1enlacesinicialesdelasesin.
Valor deunasecuenciainicialdelongitudk: S[1],S[2],....,S[k)]:estevalorsecalculacomola
suma de cada uno de los valores de las pginas S[k] a las cuales llega el usuario recorriendo los
enlaces(S[1],S[2]),(S[2],S[3]),....,(S[k1],S[k])ysedenotaporAV(k).
AV(k)=vS[1],S[2]+vS[2],S[3]+...+vS[k1],S[k]2kn
Elvaloracumuladodeunasecuenciainicialsepuededefinircomo:
AV(k)=AV(k1)+vS[k1],S[k]
ValordeSesin:Secalculacomolasumadelosvaloresdelosenlacesrecorridosduranteunasesin
completa(pginasvisitadas)ysedenotaporVA(n),donde
AV(n)=vS[1],S[2]+vS[2],S[3]+...+vS[n1],S[n].n2
Valorpromediodeunasesin:sterepresentaelvalorpromediodecadaenlacerecorridodurante
unasesin.DenotadoporAAV(n),sedefinecomoelvalortotaldelasesindivididoporelnmerototal
deenlacesrecorridos.Elnmerodeenlacesrecorridosesn1,alfinaldeunasesinenlacualsehan
recorridonpginas.
AAV(n)=AV(n)/(n1)
InterpretacindelValorpromedioacumuladodeunasecuenciainicialdelongitudk(AAV(k)):Este
valorofrecealadministradordelsitiowebelvalorpromediogeneradoparacadaunodelosenlaces
recorridoshastaalcanzarlapginaksima.Siejecutramoselalgoritmoduranteunasesin(entiempo
real)obtendramosunamedidatilqueesindependientedelnmerodeenlacesrecorridos.Porejemplo,
sitenemospginaswebadaptativas(tienenencuentadiferentesparmetros)podramosofertarproductos
y/opginasmsatractivasaaquellosusuariosconunbajoValorAcumuladoenunasecuenciainicialde
longitudk.Deestamanera,sepodraincrementarelvalorpromedioacumuladodecadausuarioenuna
sesin.
Si el nmero depginas recorridas (k) seincrementa, el Valor Acumulado de unasecuencia inicial
promedioenlaskpginasiniciales(AAV(k)),sepuede:
Incrementar,loquesignificaquelasesinseacercalameta.
Decrementar:cuandolasesinsealejadelameta
Permanecerconstante:cuandolasesinniseacercanialejadelameta
-Esther Hochsztain-
1.4) Algoritmoparaelclculodelvalordeunasesin
Elalgoritmotieneporobjetivoconocerlocercanoqueestelcomportamientodeunusuariodelsitio
webdelosobjetivosdelaorganizacin.Medimosladistanciadelosobjetivosutilizandoelvalordelos
enlacesrecorridos.Elalgoritmodeclculodeevolucindelvalordeunasesinsebasaenelrecorridode
ungrafo.
LaentradaesunamatrizdevaloresV[m,m]quecontieneelvalordelosenlacesenunsitioweb,que
sedeterminanenbasealosprocesosdenegociosdelaorganizacinylosobjetivosdelsitioweb. El
anlisisdelosprocesosdenegociosbrindaunmarcoconceptualparadeterminarelvalordelosenlaces,
enfuncindecuantoacercan(oalejan)alusuariodelaspginasestablecidascomoobjetivodelsitioweb.
Lasmatricesdevaloracionesson,enconsecuencia,determinadasporlosdirectivosdenegociosdela
organizacin.Esdedestacarquepuedensercalculadasparacadaperfildeusuarioyportantohacen
posibleadaptarlosobjetivosempresarialesdeacuerdoalcomportamientodelosusuarios.
Comoconsecuencia,lasmatricesdevaloracionesVsonadaptablesendosaspectos:
Losobjetivosempresarialesnosonfijosninicos,puedenmodificarseoserconsideradosdesde
diferentespuntosdevista.Porejemplomarketing,ventas,auditoriayrelacionespblicaspuedenanalizar
unamismasesindesdesuspuntosdevista.Parareflejardiferentespuntosdevistaelalgoritmodeber
ejecutarsecondiferentesmatricesdevaloracionescomoinput.
Porotrolado,laentradadelalgoritmopuedeincorporar(ademsdelamatrizdevaloracionesM)
laidentificacindelusuario.Lamatrizdevaloresdelosenlacespuedeadaptarseenfuncindelperfildel
usuario,definidoporejemploenunprocesopreviodesegmentacindelosusuarios.
Lassalidas del algoritmosonlaevolucin del valoracumulado ydel valoracumulado promedio
durantelasesin.
Pseudocdigodelalgoritmo
Input: Value links matrix V[m,m]
Initializacin
AV=0
//Added Value=0
AAV=0
//Average added value=0
k=1
//number of nodes=1
read S[k] //read the first traversed page in the Web site S[1]
Pseudocode:
While new pages are traversed
k = k +1 //compute the traversed
page sequential number
read S[k] // read the next
traversed page
/* the selected link is
(S[k-1],S[k])
1S[k-1]m-1 1S[k] m
2kn */
AV = AV + V(S[k-11],S[k])
// Add link traversed value to
accumulated value
AAV = AV / k-1
// Compute average link
traversed value
Plot values
// needs the previous value to be stored
Output: Final Accumulated Value and Final Average Accumulated Value
/* or Accumulated Value and Average Accumulated Value evolution if all values
are stored. */
1.5)
-Esther Hochsztain-
ValordeunaSesin
Laprincipalventajadelalgoritmopropuestoeselclculodelaevolucindelvalordeunasesin.,que
constituyeunelementorelevanteenlaadopcindedecisionesdediseorelativasasitiosypginasweb.
Unaempresapuedebeneficiarseconestosresultadosaldetectarlanecesidaddeincorporarnuevas
pginas,realizarofertasonlineoefectuarventascruzadas.Frecuentemente,losejecutivosnocomprenden
cmousarlatecnologayqutipodeanlisisefecta[3].Nuestrapropuestasugiereadaptarlatecnologa
a las mtricas de los ejecutivos. Su principal ventaja es que no requiere de grandes esfuerzos para
entenderlayportantoelesfuerzorequeridoparautilizarlaseminimiza.
Acontinuacinpresentamosejemplosdeanlisisdelvalordeunasesinseguidosdeunejemploque
ilustraelcomportamientodelalgoritmo.
1.6)
Anlisisdelaevolucindelvalordeunasesin
Para analizar la evolucin del valor de una sesin se presenta una grfica en la cual las abcisas
representanlacantidaddeenlacesrecorridosylasordenadaselvaloracumuladohastaelltimoenlace
recorrido.
EnlaFigura1.1semuestralaevolucindelvalordeunasesin,quedisminuyealcomienzoyque
luegoaumenta.Duranteestasesinelusuariosefuealejandodelobjetivoyposteriormentevolvial.
session1
session2
session3
session4
session5
session6
-Esther Hochsztain-
A partir de las sesiones 1 a 6 que aparecen en la Figura 1.4 se pueden obtener dos patrones
interesantes.
session1
session2
session3
session4
session5
session6
1.7)
Clculodelvalordeunasesin
Enestaseccinsepresentaunejemplodeclculodelvalordeunasesin.Elejemplopermiteobservar
labajacomplejidaddelalgoritmopropuesto.Enlugardeconstituirunalimitacin,susimplicidadpuede
serconsideradaunelementopositivo,porquefacilitalacomprensindesusresultadosporpartedelos
administradoresdeunsitioweb.
La entrada del algoritmo es la siguiente matriz de valores de los enlaces V[4,4]
Origen(i)
Destino(j)
1
2
3 4
3
2
3
6
1
4
1
2
2
2
5
1
1 1
3
6
2
3 1
4
EnlaFigura1.5semuestraelgrafoconlaasignacindevaloresalosarcosasociadaalamatriz
anterior.Esfcilobservarqueenelgrafoexistendosnodosobjetivo(1y2),porquelosarcosde
entradaaestosnodossonpositivosylosarcosquesalenhaciaelrestodelosnodos(3y 4)toman
valoresnegativos.
3
2
1
2
4
-1
-2
3 -5
6
2
-1
-6
-1
-1
-3
1.8)
ResultadosExperimentales
Elanlisisylaspruebassehicieroncondatosde2400sesionesdeusuarioprovenientesdeunsitio
webdecomercioelectrnico.Losdatosfueronprocesadosteniendoencuenta4matricesdiferentes.Se
descartaronlassesionesquerecorran10pginasomenos,dadoquelapropuestanoresultainteresante
paraanalizarsesionescortas.
-Esther Hochsztain-
Losvaloresdelascuatromatricesutilizadaspremianlossiguientesaspectos:
1. rea de noticias ,
2. pgina principal
3. registro de usuarios
4. realizacin de compras .
Enlafigura1.6semuestraquealanalizarlosvaloresdelosacumuladosporsesinconlascuatro
matricesseobservanpatronesclaramentedefinidos.Seutilizaunamatrizdediagramasdedispersin,que
muestratodaslascombinacionesposiblesdelosvaloresacumuladosporsesinobtenidosconlascuatro
matricesconsideradas.Laprimerafilaylaprimeracolumnapresentanclculosobtenidosconlamatriz1,
lasegundafilaylasegundacolumnalosobtenidosconlamatriz2,yassucesivamente.
Enelcrucedelaprimerafilaylasegundacolumnasepresentaelgrficoquevinculavaloresdesesin
obtenidosconlasmatrices1y2.Enelcrucedelasegundafilaylaprimeracolumnasepresenta(conlos
ejesinvertidos)elanlisisdelasmismasmatrices.Nosecruzanlosvaloresobtenidosconunamatriz,
consigomisma,dadoquesiempreelgrficoestarformadoporpuntosubicadosenladiagonalprincipal.
Alanalizarelgrfico,seobservaporejemplocomolosvaloresobtenidosconlasmatrices1y2
muestransontotalmenteopuestas.
AV1
AV2
AV3
AV4
Figura1.6Valoresacumuladosconlas4matricesconsideradas.
EnlaFigura1.7semuestranlosvalorespromedioobtenidosconlascuatromatricesconsideradas.Se
observaelmismopatrnqueparalosvaloresacumulados.
AAV1
AAV2
AAV3
AAV4
-Esther Hochsztain-
1.9)
Bibliografa
[1]B.Mobasher,N.Jain,E.Han,andJ.Srivastava.(1997)"Webmining:PatterndiscoveryfromWWWtransaction".
InIntConferenceonToolswithArtificialIntelligence,pages558567,Newport.
[2]J.Han,M."Kamber.DataMining:ConceptsandTechniques".AcademicPressUSA2001
[3]G.PiatetskyShapiro"InterviewwithJesusMena,CEOofWebMiner,authorofDataMiningyourWebsite"Date:
June24,2001http://www.kdnuggets.com/news/2001/n13/13i.html
[4]J.BorgesandM.Levene."Miningnavigationpatternswithhypertextprobabilisticgrammars" ResearchNote
RN/99/08,DepartmentofComputerScienceUniversityCollegeLondon,1999.
[5]J.BorgesandM.Levene."Dataminingofusernavigationpatterns". WebUsageMining,inLectureNotesin
ArtificialIntelligence(LNAI1836)B.MasandandM.Spliliopoulou,editors,.SpringerVerlag,Berlin,2000.
[6]M.PerkowitzandO.Etzioni"AdaptiveWebSites:AutomaticallySynthesizingWebPages".InProceedingsof
AAAI98.
[7]M.PerkowitzandOEtzioni."Adaptivewebsites:Conceptualclustermining".InSixteenthInternationalJoint
ConferenceonArticialIntelligence,Stockholm,Sweden,1999.
[8]M.PerkowitzandO.Etzioni."TowardsadaptiveWebsites:Conceptualframeworkandcasestudy".In Artificial
Intelligences118,2000.
[9]M.Spiliopoulou,L.Faulstich,andK.Wilkler."Adatamineranalyzingthenavigationalbehaviourofwebusers".
InProc.OftheWorkshoponMachineLearninginUserModellingoftheACAI99,Greece.
[10]M.Spiliopoulou,C.Pohle,andL.Faulstich."Improvingtheeffectivenessofawebsitewithwebusagemining".
InProceedingsWEBKDD99.
[11]R.Cooley,B.Mobasher,andJ.Srivastava."Datapreparationforminingworldwidewebbrowsingpatterns".
KnowledgeandInformationSystems,1(1),February1999.
-Esther Hochsztain-
[12]E.Menasalvas,S.Milln,J.M.Pea,M.Hadjimichael,O.Marbn"Subssesions:Agranularapproachtoclick
pathanalysis"InProceedingsWCCI2002
[13]C.Shalabi,F.BanaeiKashaani,J.FaruqueandA.Faisal.(2001)"Featurematrices:AmodelforeEcientand
anonymouswebusagemining".InProceedingsofECWeb2001,Germany,September
[14]E.Menasalvas,O.Marbn,S.Milln,andJ.M.Pea"IntelligentWebMining"inIntelligentExplorationof
theWeb seriesStudiesinFuzzinessandSoftComputing,. SpringerVerlag 2002 P.S.Szczepaniak, J.Segovia,J.
Kacprzyk,L.A.Zadeheditors
2.
2.1)
Lossitioswebnecesitansermuyatractivosparalosvisitantes,debidoaqueseubicanenunentorno
sumamentecompetitivo.Proponemosenunenfoqueparaanalizarydeterminarelniveldeagradodelos
usuariosdeunsitiowebquetiendaaasegurarlasatisfaccindesususuarios,enbaseasutipodepginas
yeltipodeusuarios.
Proponemosunenfoquegranularbasadoenlaideadequeunapginapuedeserconsideradacomoun
conjuntodecaractersticas ofactores y cadaunodeellospuede percibirse endiferentes niveles de
granularidad.Elenfoquepropuestopermiteestimarunamedidadelautilidadquebrindaaunusuario
cadaniveldecadafactorenparticular.Enunapginaenparticular,cadafactortomauncierto.Lamedida
globaldeutilidadporunaciertapginasedeterminaconsiderandoconjuntamentelosnivelesquepresenta
dichapginaencadafactordediseo.
Palabras clave: minera de datos, minera de la web, enfoque granular, factores de diseo, utilidad de una
pgina
2.2)
Introduccin
Paradisearpginaswebatractivasunodelosprincipalesdesafosesencontrarlosfactoresquedeben
tenerseencuenta.Cuandoseresuelveesteproblemaelsegundodesafoesencontrarunmodelopara
cuantificarsurelevancia.Elproblemarequiereunmodeloqueconsiderelosatributosysucuantificacin
ycomotengaencuentadiferentesperfilesdeusuariosytiposdepginas.Considerandoqueenlaweb
pueden distinguirse diferentes dominios (i.e. educacionales, empresariales, administrativos,
gubernamentales),lametodologapropuestaincluyeaspectoscomunesatodoslossitiosweb.
Eldiseadordesitioswebdebeactuarenfuncindeldominiodetrabajo.Portanto,haydecisionesde
diseoquenopuedendefinirsedeunaformagenrica. Enestesentido,debemosdistinguirtiposde
pginas(i.e.comercioelectrnico,informacin)yperfilesdeusuariosycaractersticas(i.e.habilidaden
el uso de computadoras, sensibilidad y formacin artstica). El principal objetivo de este trabajo es
brindaralosadministradoresdeunsitiounametodologaparadeterminarelgradodeafabilidaddeun
sitioweb,queenellargoplazo,puedaayudarlosadisearpginasysitiosatractivos.Unarespuestaala
pregunta "qu paginas atraen ms la atencin de los usuarios?" facilitar el diseo de sitios web
adaptativosyapredecirelcomportamientodelosvisitantesdelsitiodeacuerdoasusperfilesyalas
pginasquehanvisitadoenlasesin.Hartambinposiblevinculareldiseodelaspginasconlos
objetivosempresarialesdelsitioweb.
Paraidentificarcaractersticasqueaumentanelagradoporlaspginasnecesariamentedebenincluirse
factoresusualmentetomadosencuentaeneldiseodesitiosweb.Perotambinsernincluidosaspectos
nuncausadosoconsideradosantesirrelevantes.Estoultimoseguramenteayudaramejorarlacalidadde
lossitiosconsiderandoquediferentesusuariostienendiferentesgustos,preferenciasydesagrados,yla
utilidad de una pgina puede asociarse a los perfiles de usuarios (i.e. educacin, gnero, edad,
pasatiempos,religin).Portantolametodologapropuesta requiere considerar usuariosobjetivopara
adaptarelhallazgodenuevosatributosdediseoalosperfilesdelosusuarios.Elanlisisdepatronesde
usodelawebpuedeserrelevanteparaidentificaratributosqueatraenalosusuarios.Suponemosquelos
usuariosvistanconmayorfrecuenciaaquellaspginasquelosatraenmsporqueporsudiseooporla
informacinquecontienen.Nuestratareaesdescubrirelvalorqueelusuarioasignaaunsitioweby/oa
unapgina.
Proponemos un enfoque granular para descubrir el valor que un usuario asigna a una pgina,
cuantificando cada unade los factores de diseo utilizando un enfoque que descompone suvalor o
utilidad.Laprincipalideaquesubyacelametodologapropuestaeslasiguiente:unvisitanteevalael
valordeunapginacombinandolosvaloresindividualesqueasignainconscientementealosatributosde
-Esther Hochsztain-
dichapgina.Lautilidaddeunapginawebdelpuntodevistadelusuarioesunjuiciosubjetivoque.
representeunapreferenciaglobalporlapginaweb.Estapreferenciadelusuarioesunmarcoconceptual
paracuantificarelvalordeunapginaweb.
En nuestra propuesta, suponemos que el valor (utilidad) de una pgina se basa en los valores
individuales asignadosa cada factor de diseo.Yagregando losvalores individualesde cada factor
obtendremoslautilidadconjuntadelapgina.Laspginasconmayorutilidadsernconsideradasms
atractivasysupondremosquetienenmayorprobabilidaddeserelegidas.
La propuesta se estructura de la siguiente forma: En la Seccin 2.3 se presenta la metodologa
propuesta para calcular la utilidad de pginas web. En la Seccin 2.4 se muestra un ejemplo de
utilizacindelametodologapropuesta.
2.3)
Proponemosunenfoquemetodolgicobasadoenlaestimacinlautilidadqueposeeunapginapara
unciertousuario.Nuestrapropuestautilizaelanlisisconjuntomultivariado[HA+98][GC+89]parala
construccindelmodeloyparaestimarsusparmetros.Debenefectuarsevariosajustesparaadaptarla
metodologaexistentealdiseonoexperimentalusado..
Enelmodeloparaexplicarelcomportamientodelosusuarioslavariabledependiente(y)eseltiempo
queunusuariopermaneceenunapgina.Asumimosqueexisteunarelacindirectaentreeltiempode
permanenciayelagradoporlapgina,demodoquecuantomspermaneceelusuarioenunapginams
leagrada.Asumimosqueeltiempodepermanenciadependetantodelasalternativasdediseocomode
loscontenidosdelapgina.Queremosdescubrir comodisearpginasquehagan queeltiempode
permanenciaaumente.
Consideramosfactoresdediseoaaquelloselementosquepuedenmodificarsealdisearlapgina.
Cadafactordediseopuedeserimplementadoendiferentesniveles.Entrelosfactoresquepodranser
tenidosencuentaconsideramos:
El tipo de imgenes que contiene la pgina: esttica (nivel 1), dinmica (nivel 2)
El color de fondo: suave (nivel 1), fuerte (nivel 2)
El tipo de lenguaje utilizado: tcnico (nivel 1), coloquial (nivel 2)
El tamao de letra: grande (nivel 1), pequeo (nivel 2)
Sibienenloanteriorslosesugierendosnivelesparacadafactor,podranconsiderarsems.Se
requiere que se asigne un nico nivel a cada factor en cada pgina utilizada en el experimento.
Construimosunmodeloqueexplicaeltiempodepermanenciaenfuncindelosfactoresdediseo.
Elvalorpromedio( )deltiempodepermanenciapuedeaumentarodisminuirenfuncindelos
niveles considerados para cada factor (ab ). Por tanto, los parmetros tienen dos subndices: el
primeroidentificaelfactoryelsegundoelniveldedichofactor..Tambinseconsiderauntrminode
error().Siconsideramostresfactoresdediseoelmodeloresultantees:yijk=+1i+2j+3k+ijk
Paradeterminareltiempodepermanenciaseestimanlosparmetrosdelmodelo,1i,2j,3ka
cantidaddenivelesdelosfactores1,2,3respectivamente.Losvaloresde 1i , 2 j , 3k paracada
nivel se utilizan para estimar si el tiempo de permanencia aumenta o disminuye en funcin de las
alternativasdediseoutilizadasencadapgina.
Elprocedimientodeestimacinpuedesermtricoonomtricoenfuncindesielmtodoutilizado
paratransformarlavariabledependienteeslinealomontono.Laestimacindelosparmetrospuede
requeririteraciones,dependiendodelmodeloespecificado.
Lautilidaddeunapginasedeterminaenfuncindelniveldecadaunodelosfactoresqueinfluyeen
sudiseo(nivelesdelosatributos).Seproponeunafuncinquedeterminalautilidaddeunapginaen
funcindediferentescombinacionesdeatributos.Comoconsecuencia,laspginasconmayorutilidad
sonmsatractivasyportantotendrnmayorprobabilidaddeserelegidas.
Obtencin de los datos
Analizarelcomportamientodelosvisitantesdeunsitio,yenparticularlasdecisionesqueadoptanal
visitarunapgina,permiteobtenerinformacinrelativaalarelevanciadecadafactordediseodedicha
pgina. Por tanto, cada pgina puede evaluarse tomando en cuenta diferentes atributos (factores) de
diseoysusrespectivosniveles(valores).Lametodologatradicionaldelanlisisconjunto[HA+98]se
basaenundiseoexperimental.Sepresentan aunapersona diferentes opcionesdediseoqueson
-Esther Hochsztain-
combinacionesdeatributos(factores)condiferentesniveles.Elusuariomanifiestasupreferenciaglobal
para cada una de las opciones presentadas. Nuestra propuesta se basa en esta metodologa pero, en
nuestrocaso,enlugardedisearunexperimentopara consultaral usuario,seanalizan loslogsdel
servidorweb.
Debido a que en nuestra propuesta no se usan variables independientes ni existe una persona
controlandoalosusuarios,estamosenpresenciadeundiseonoexperimental.Constituyeundiseo
"expostfacto"(luegoqueloshechosocurrieron)debidoprincipalmenteaqueseobservaalusuarioy
luegosedeterminaelpresuntofactorcausal.
Identificacin de atributos
Paradeterminarlosatributosrelevantesdeunapginawebpuedenutilizarselossiguientesmtodos:
1. Juicio de expertos
2. Mtodos cualitativos, generalmente en base a un pequeo nmero de personas entrevistadas. Pueden
basarse en grupos motivacionales o entrevistas en profundidad.
3. Identificacin experimental. Utilizamos este ltimo. Primero utilizamos la tcnica propuesta
considerando todos los factores de diseo posibles de una pgina web con el objetivo de identificar
los ms relevantes. En segundo lugar, solamente los atributos considerados relevantes en la etapa
anterior se tendrn en cuenta. Para aplicar este mtodo se requiere que el sitio web considerado
contenga pginas con diferentes criterios de diseo. Este procedimiento propuesto se detalla a
continuacin:
Determinacin de las variables independientes:
1. Identificar de factores de diseo.
2. Describir los niveles considerados de cada factor de diseo.
3. Describir las pginas web en funcin de los factores y niveles identificados anteriormente. En
resumen, cada pgina se caracterizar como una lista de vares de valores de la forma:
(factor1-nivel1x, factor2-nivel2y, , , factork-nivelky)
Identificacin de la o las variable Dependiente
Laolasvariablesdependientesconsistenenlasmedidasquenosinteresaconsiderarrespuestaalas
alternativasdediseodeunapgina.Porejemplo,eltiempodepermanenciaenlapgina,elnmerode
clicks,etc.puedenserconsideradasvariablesdependientes.
Proceso de estimacin
Consiste en estimar la utilidad de todos los niveles en todos los factores para el usuario. Estas
estimacionesparcialesdelosnivelesindividualesdelosfactoresseusanparadeterminarlaestimacin
globaldelautilidaddeunapgina.Losconceptospreliminaresconsideradosenelexperimentoson:
Poblacin objetivo: los usuarios de las pginas consideradas
Unidad experimental: una visita de un usuario a una pgina.
Parmetros: atributos de la pgina(tipo de pgina, objetivo principal, habilidades requeridas).
Variables de respuesta (variables dependientes): la utilidad de una pgina.
Factores (variables independientes): caractersticas que afectan a las variables dependientes. Un
factor es un atributo de diseo (i.e. tipo de imgenes en la pgina, tamao de letra). Estamos
interesados en identificar el impacto de estos factores, definidos como la utilidad de los atributos de
diseo. Las opciones para identificar los factores se han mencionado previamente.
Niveles: diferentes valores que puede tomar una variable independiente (i.e. las imgenes en una
pgina pueden ser estticas o dinmicas, el tamao de letra puede ser grande o chica).
2.4)
Ejemplo
Acontinuacinsepresentaunejemplodeestimacindeparmetrosydeanlisisdesusresultados.
Los factores de diseo de una pgina (variables independientes del modelo) y sus correspondientes
nivelessepresentanenlatabla2.1.
1
2
3.
FACTOR
Tipo de imgenes
Tamao de letra
Color de fondo
Nivel 1
11 = estticas
21 = grande
31 = suave
Nivel 2
12 = dinmicas
22 = pequea
32 = fuerte
Tamaodeletra
Colordefondo
Tiempo
-Esther Hochsztain-
grande
grande
pequea
pequea
grande
grande
pequea
pequea
15
12
12
8
18
16
18
14
Tipo de imgenes
Tamao de letra
Color de fondo
IMPORTANCIA
46.342%
21.951%
31.707%
Tipo de
imgenes
Tamao
de letra
11 = estticas
11 =2.375
12 = dinmicas
12 =+2.375
21 = grande
21 =+1.12
22 = pequea
22 =1.125
Color de
fondo
31 = suave
32 = fuerte
11 =1.625
31 =+1.62
5
Elvalorpositivo 12 =+2.375delniveldinmicasdelfactortipodeimgenesmuestrapreferencia
porestetipodeimgenesencontrasteconelvalornegativo 11 =2.375delasimgenesestticas.
Procediendodelamismaformaconlosrestantesatributospodemosdecirquelosnivelespreferidosde
lostresfactoresconsideradossonimgenesdinmicas,letragrandeycolordefondosuave.
Laestimacindellamediageneral es14.250.ParalacombinacinpreferidadeTipodeimgenes,
TamaodeletrayColordefondolautilidadestimadaes y =14,125+2,375+1,125+1,625=19,25,
siendoelvalorobservadodelapreferenciadedichacombinaciny=18. Paralacombinacinmenos
preferida la utilidad estimada y el valor observado de la preferencia son respectivamente 14,125+
2,375+1,125+1,625=925= y
ey=8.
Lautilidadpuedeserconsideradacomolosvaloresquesepredicenenunmodeloderegresin.El
coeficientededeterminacin entrelautilidaddecadacombinacinyeltiempoobservadoesR2.Los
factoresquepresentanmayorutilidadseconsideranlosmsrelevantesenladeterminacindelostiempos
depermanenciaestimados.
2.5)
Conclusiones
Lametodologapresentadapermiteestimarlautilidaddeunapginaenfuncindesudiseo.Se
suponequelosusuariospermanecernmstiempoenaquellaspginasquelesresultanmsinteresantes.
-Esther Hochsztain-
Elprincipalresultadodenuestroenfoqueesquelaspginaswebpuedenserparametrizadasenfuncin
dediferentesfactoresdediseoypodrandisearsedinmicamenteconelobjetivodeadaptarsealas
preferencias de los usuarios (estimadas durante el transcurso de la sesin de dicho usuario). Por
consiguiente,elenfoquepropuestopermitequelosdiseadoresdepginaswebtomendecisionesporal
poseerinformacindelacontribucinrelativasdecadafactordediseodelapginaysusrespectivos
nivelesenelagrado(outilidad)quelapginagenera.Eldiseadorpuedeestimarlamejorcombinacin
deatributos(laquegeneramayorutilidad)paracadapginaenparticular.
Elenfoque tambinconsidera informacin relativa alosperfilesdelosusuariosenrelacin asu
preferenciaporciertotipodepginas.Estopermiteeldiseodepginasparagrupospredefinidosde
usuarios, si los diseadores saben con anticipacin los segmentos de usuarios que sern potenciales
visitantesdelapgina.Porconsiguiente,lapreferenciadelosusuariosporunapginapuedesertomada
encuentaenalgoritmosdewebminingadaptativo.
2.6)
Referencias
[AGJ00]AndersenJ.,GiversenA.,JensenA.LarseR.,BachT.,SkytJ.Analysingclickstreamsusingsubsessions.
Proc.DOLAPOO,pp.2532,2000
[BM00]BorgesJ.,LeveneM.Afinegrainedheuristictocapturewebnavigationpatterns.SIGKDDExploration,2(1)
pp4050,2000.
[CY00]ChangWeiLun,YuanSoeTsyr.AsynthesizedLearningApproachforWebBasedCRM.WorkingNotes
ofWorkshoponWebMiningforEcommerce:ChallengesandOpportunities.August20,2002BostonUSApp.
4359
[GS00]GaulWolfang,SchmidtThiemeLars.Miningwebnavigationpathfragments.WorkshoponWebMiningfor
ECommerceChallengesandOpportunities.Workingnotespp.105110.Kdd2000,August20,2000,Boston,
MA.
[Ga01]JohnGajanRajakulendran.PersonalisedElectronicCustomerRelationships:ImprovingTheQualityofData
WithinWebClickstreams IndividualProject(MSc)NewcastleUniversity(UK)&UniversidadPolitecnica
MadridSupervisor:E.Menasalvas(UPM)
[GA96]IldefonsoGrande,ElenaAbascalFundamentosyTcnicasdeInvestigacinComercialESICEspaa
1996
[GC+89] Paul E. Green, Frank J. Carmone, JR. Scott M. Smith Multidimensional Scaling Concepts and
applicationsAllynandBaconADivisionofSimon&Schuster,USA1989.
[HK01]HanJ.,KamberM.DataMining:ConceptsnadTechniques.Acadc.Press,USA2001
[HA+98]JosephF.Hair,Jr,RolphE.Anderson,RonaldL.Tathan,WilliamC.BlackMultivariateDataAnalysis
PrenticeHallUSA1988
[HM02]HochztainE.,MenasalvasE.Sessionsvalueasmeasureofwebsitegoalachievement. TechnicalReport.
UniversidadPolitcnicadeMadrid,2002
[KNY00]KatoH.,NakayamaT.,YamaneY.NavigationAnalysisToolbasedontheCorrelationbetweenContents
Distributionand AccessPatterns.WorkshoponWebMiningforECommerceChallengesandOpportunities
Kdd2000,August20,2000,Boston,MA
[LAR00]LinWeiyang,AlvarezSergio,RuizCarolina. CollaborativeRecommendationviaAdaptativeAssociation
RuleMining. WorkingNotesofWorkshoponWebMiningforEcommerce:ChallengesandOpportunities.
August20,2002BostonUSApp.3541
[MB+97]SalvadorMiquel,EnriqueBign,JeanPierreLvy,AntonioCarlosCuenca,MJosMiguelInvestigacin
deMercadosMcGrawHill/InteramericanadeEspaa1997
[MJHS97]MobasherB.,JainN.,Han,EH.,SrivastavaJ.WebMining:PatternDiscoveryfromWorldWideWeb
Transactions.InInternationalConferenceonToolswithArtificialIntelligence,pp.558567,NewPort1997
[MMP+02]]MenasalvasE.,MillnS.,PeaJ.,HadjimichaelM.,MarbnO. Subsessions:agranularapproachto
clickpathanalysis.InProc.WICI02
[PM01]From:GregoryPiatetskyShapiro2001:InterviewwithJesusMena,(WebMiner)
[SFBF00]ShahabiC.,FaisalA.,BanaeiF.,FaruqueJ.INSITE:AtoolforrealtimeknowledgeDiscoveryfromusers
webnavigation.InProc.VLDB2000,2000.
[SFKFF01]ShahabiCyrus,FarnoushBanaieiKashaani,JaabedFaruque,AdilFaisal.FeatureMatrices:Amodelfor
eEcientandanonymouswebusagemining.Proc.ofECWeb2001.
Bibliografa analizada
AndersenJ.,GiversenA.,JensenA.LarseR.,BachT.,SkytJ.Analysingclickstreamsusingsubsessions.Proc.
DOLAPOO,pp.2532,2000
BorgesJ.,LeveneM.Afinegrainedheuristictocapturewebnavigationpatterns.SIGKDDExploration,2(1)pp40
50,2000.
-Esther Hochsztain-
J.BorgesandM.Levene."Miningnavigationpatternswithhypertextprobabilisticgrammars"ResearchNote
RN/99/08,DepartmentofComputerScienceUniversityCollegeLondon,1999.
J.BorgesandM.Levene."Dataminingofusernavigationpatterns".WebUsageMining,inLectureNotesin
ArtificialIntelligence(LNAI1836)B.MasandandM.Spliliopoulou,editors,.SpringerVerlag,Berlin,2000.
ChangWeiLun,YuanSoeTsyr.AsynthesizedLearningApproachforWebBasedCRM.WorkingNotesof
WorkshoponWebMiningforEcommerce:ChallengesandOpportunities.August20,2002BostonUSApp.4359
R.Cooley,B.Mobasher,andJ.Srivastava."Datapreparationforminingworldwidewebbrowsingpatterns".
KnowledgeandInformationSystems,1(1),February1999.
GaulWolfang,SchmidtThiemeLars.Miningwebnavigationpathfragments.WorkshoponWebMiningforE
CommerceChallengesandOpportunities.Workingnotespp.105110.Kdd2000,August20,2000,Boston,MA.
JohnGajanRajakulendran.PersonalisedElectronicCustomerRelationships:ImprovingTheQualityofDataWithin
WebClickstreamsIndividualProject(MSc)NewcastleUniversity(UK)&UniversidadPolitecnicaMadrid
Supervisor:E.Menasalvas(UPM)
IldefonsoGrande,ElenaAbascalFundamentosyTcnicasdeInvestigacinComercialESICEspaa1996
PaulE.Green,FrankJ.Carmone,JR.ScottM.SmithMultidimensionalScalingConceptsandapplicationsAllyn
andBaconADivisionofSimon&Schuster,USA1989.
HanJ.,KamberM.DataMining:ConceptsnadTechniques.Acadc.Press,USA2001
JosephF.Hair,Jr,RolphE.Anderson,RonaldL.Tathan,WilliamC.BlackMultivariateDataAnalysisPrentice
HallUSA1988
HochztainE.,MenasalvasE.Sessionsvalueasmeasureofwebsitegoalachievement.TechnicalReport.
UniversidadPolitcnicadeMadrid,2002
KatoH.,NakayamaT.,YamaneY.NavigationAnalysisToolbasedontheCorrelationbetweenContents
DistributionandAccessPatterns.WorkshoponWebMiningforECommerceChallengesandOpportunitiesKdd
2000,August20,2000,Boston,MA
LinWeiyang,AlvarezSergio,RuizCarolina.CollaborativeRecommendationviaAdaptativeAssociationRule
Mining.WorkingNotesofWorkshoponWebMiningforEcommerce:ChallengesandOpportunities.August20,
2002BostonUSApp.3541
SalvadorMiquel,EnriqueBign,JeanPierreLvy,AntonioCarlosCuenca,MJosMiguelInvestigacinde
MercadosMcGrawHill/InteramericanadeEspaa1997
MobasherB.,JainN.,Han,EH.,SrivastavaJ.WebMining:PatternDiscoveryfromWorldWideWebTransactions.
InInternationalConferenceonToolswithArtificialIntelligence,pp.558567,NewPort1997
MenasalvasE.,MillnS.,PeaJ.,HadjimichaelM.,MarbnO.Subsessions:agranularapproachtoclickpath
analysis.InProc.WICI02
E.Menasalvas,O.Marbn,S.Milln,andJ.M.Pea"IntelligentWebMining"inIntelligentExplorationofthe
WebseriesStudiesinFuzzinessandSoftComputing,.SpringerVerlag2002P.S.Szczepaniak,J.Segovia,J.
Kacprzyk,L.A.Zadeheditors
From:GregoryPiatetskyShapiro2001:InterviewwithJesusMena,(WebMiner)
M.PerkowitzandO.Etzioni"AdaptiveWebSites:AutomaticallySynthesizingWebPages".InProceedingsof
AAAI98.
M.PerkowitzandOEtzioni."Adaptivewebsites:Conceptualclustermining".InSixteenthInternationalJoint
ConferenceonArticialIntelligence,Stockholm,Sweden,1999.
M.PerkowitzandO.Etzioni."TowardsadaptiveWebsites:Conceptualframeworkandcasestudy".InArtificial
Intelligences118,2000.
ShahabiC.,FaisalA.,BanaeiF.,FaruqueJ.INSITE:AtoolforrealtimeknowledgeDiscoveryfromusersweb
navigation.InProc.VLDB2000,2000.
ShahabiCyrus,FarnoushBanaieiKashaani,JaabedFaruque,AdilFaisal.FeatureMatrices:AmodelforeEcient
andanonymouswebusagemining.Proc.ofECWeb2001.
M.Spiliopoulou,L.Faulstich,andK.Wilkler."Adatamineranalyzingthenavigationalbehaviourofwebusers".In
Proc.OftheWorkshoponMachineLearninginUserModellingoftheACAI99,Greece.
M.Spiliopoulou,C.Pohle,andL.Faulstich."Improvingtheeffectivenessofawebsitewithwebusagemining".In
ProceedingsWEBKDD99.
-Esther Hochsztain-
[3] Web Site Goal Achievement Measured by a Sessions Value Algorithm - Web Mining for Usage
Patterns and User Profiles. Edmonton, Alberta, Canada WEBKDD'02 (no aceptado)
[4] Algoritmo de evaluacin de los logros de un sitio web mediante el cmputo del valor de las
sesiones de usuarios. VII Jornadas de Ingeniera del Software y Bases de Datos - El Escorial, Madrid2002 -JISBD2002
[5] Algoritmo de Cmputo del Valor de las Sesiones de Usuarios para Evaluacin de los Logros de
un Sitio Web -Conferencia Latinoamericana de Informtica - Montevideo, Uruguay -CLEI2002