Está en la página 1de 9

http://maya.cs.depaul.edu/~mobasher/webminer/survey/node6.html LamineradeusodeInterneteseltipodeactividadenlareddemineraqueimplicael descubrimientoautomticodepatronesdeaccesodelosusuariosdeunoomsservidoresweb.A medidaquemsorganizacionessebasanenlaInternetylaWorldWideWebparahacernegocios, lasestrategiasytcnicastradicionalesdeanlisisdemercadodebenserrevisadosenestecontexto. Lasorganizacionessuelengeneraryrecopilargrandescantidadesdedatosensusoperaciones diarias.Lamayorpartedeestainformacinsuelesergeneradosautomticamenteporlosservidores webyrecogidaenlosregistrosdeaccesoalservidor.Otrasfuentesdeinformacindelosusuarios sonregistrosreferencialesquecontieneinformacinsobrelaspginasdereferenciaparacada pginadereferencia,yelregistrodeusuarioodatosdelaencuestaobtenidosatravsde herramientastalescomoscriptsCGI. Elanlisisdeestosdatospuedeayudaraestasorganizacionesparadeterminarelvalordetiempode vidadelosclientes,estrategiasdemarketingatravsdecrucedeproductos,ylaeficaciadelas campaasdepromocin,entreotrascosas.

Elanlisisdelosregistrosdeaccesoalservidorylos datosderegistrodeusuariotambinpuedeproporcionarinformacinvaliosasobrelaformade estructurarmejorunapginawebconelfindecrearunapresenciamsefectivaparala organizacin.Enlasorganizacionesqueutilizantecnologasdeintranet,esteanlisispuedearrojar luzsobreunagestinmseficazdecomunicacinparagruposdetrabajoylainfraestructuradela organizacin.Finalmente,paralasorganizacionesquevendenpublicidadenlaWorldWideWeb,el anlisisdelospatronesdeaccesodeusuarioayudaaorientarlosanunciosagruposespecficosde usuarios. Lamayoradelasherramientasdeanlisiswebexistentes[Inc96,eSI95,net96]proporcionar mecanismosparadenunciarlaactividaddelusuarioenlosservidoresylasdiversasformasde filtradodedatos.Elusodeherramientascomo,porejemplo,esposibledeterminarelnmerode accesosalservidorylosarchivosindividualesdentrodeunespaciowebdelaorganizacin,los tiemposdelosintervalosdetiempodevisitas,ylosnombresdedominioylasdireccionesURLde losusuariosdelservidorWeb.Sinembargo,engeneral,estasherramientasestndiseadaspara tratardebajaamoderadaservidoresdetrfico,y,adems,suelenproporcionarunanlisispocoo nadadelasrelacionesentrelosdatosdeaccesoaarchivosydirectoriosdentrodelespacioweb. Lossistemasmssofisticadosytcnicasparaeldescubrimientoyanlisisdelospatronesestn surgiendoahora.Estasherramientassepuedenclasificarendoscategorasprincipales,como veremosacontinuacin. Lasherramientasnuevasparaeldescubrimientodeusuariopatrndeusodesofisticadastcnicasde laIA,mineradedatos,lapsicologaylateoradelainformacin,paraextraerconocimientoa partirdelosdatosrecogidos.Porejemplo,elsistemaWEBMINER[MJHS96,CMS97]presentauna arquitecturageneralparalamineradeusodelaWeb.WEBMINERdescubreautomticamentelas reglasdeasociacinypatronessecuencialesdelosregistrosdeaccesoalservidor.En[CPY96] algoritmosseintroducenparaencontrarlamximareferenciashaciadelanteygrandessecuencias dereferencia.Estos,asuvezserutilizadopararealizardiversostiposdeanlisisusuariocamino recorridocomolaidentificacindeloscaminosmsafondounalocalidadatravesadaWeb.Pirolli et.al.[PPR96]teoradelainformacinelusodeforrajeo[PC95]paracombinarpatronescamino recorrido,escribiendolapginaWebylainformacindelatopologadelsitiodeclasificarlas pginasparafacilitarelaccesodelosusuarios.Enlaseccinsiguientevamosadiscutiralgunasde estastcnicaspropuestasconmsdetalle. Unavezquelospatronesdeaccesohansidodescubiertos,losanalistasnecesitanlasherramientasy tcnicasadecuadasparacomprender,visualizareinterpretarestospatrones.Ejemplosdeestas

herramientasincluyenelsistemadeWebViz[PB94]paravisualizarlarutadelospatronesde recorrido.OtroshanpropuestoutilizarlastcnicasdeOLAPcomocubosdedatosconelfinde simplificarelanlisisdelasestadsticasdeusodeaccesoalosregistrosdelservidor[Dyr97].El sistemaWEBMINER[MJHS96]seproponeunmecanismodeconsultassimilaraSQLpara consultarelconocimientodescubierto(enformadereglasdeasociacinypatronessecuenciales). Estasyotrastcnicassediscutenenlasseccionessiguientes. PatrndedescubrimientodeTransaccionesWeb Comosediscutienlaseccin2.2,elanlisisdecmolosusuariosestnaccediendoaunsitioes fundamentalparadeterminarlasestrategiasdemarketingeficacesylaoptimizacindelaestructura lgicadelsitioWeb.Debidoaquemuchasdelascaractersticasnicasdelmodeloclienteservidor enlaWorldWideWeb,incluidaslasdiferenciasentrelatopologafsicadelosrepositoriosdeWeb ylasrutasdeaccesodeusuario,yladificultadenlaidentificacindeusuariosnicos,ascomo sesionesdelosusuariosotransacciones,esnecesarioparadesarrollarunnuevomarcoparaqueel procesodeminera.Enconcreto,hayunaseriedecuestionesenelpreprocesamientodedatospara lamineraquedebenserabordadosantesdequelosalgoritmosdeminerasepuedeejecutar.Estos incluyeneldesarrollodeunmodelodedatosderegistrodeacceso,eldesarrollodetcnicaspara limpiar/filtrarlosdatosenbrutoparaeliminarlosvaloresextremosy/oelementosirrelevantes, queagrupaalaspginasindividualesdeaccesosenunidadessemnticas(esdecir,las transacciones),laintegracindediversasfuentesdedatostalescomoinformacinderegistrode usuario,yseespecializagenricosalgoritmosdemineradedatosparaaprovecharlanaturaleza especficadelosdatosderegistrodeacceso. http://maya.cs.depaul.edu/~mobasher/webminer/survey/node9.html PreprocessingTasks DataCleaning TransactionIdentification DiscoveryTechniquesonWebTransactions PathAnalysis AssociationRules SequentialPatterns ClusteringandClassification Limpiezadedatos Tcnicasparalimpiarelregistrodelservidorparaeliminarloselementosirrelevantessonde importanciaparacualquiertipodeanlisisderegistrodeWeb,nosloenlamineradedatos.Las asociacionesdescubiertasoestadsticaspresentadasslosontilessilosdatosrepresentadosenel registrodelservidordaunaideaprecisadequeelusuarioaccedaalsitioWebde.Eliminacinde elementosirrelevantespuedenserrazonablementellevaacabocomprobandoelsufijodelnombre delaURL.Porejemplo,todaslasentradasdelregistrodenombredearchivoconsufijoscomo,gif, jpeg,gif,jpeg,jpg,JPG,yelmapasepuedequitar. Unproblemarelacionado,peromuchomsdifcilesdeterminarsihayaccesosimportantequenose registranenelregistrodeacceso.Mecanismostalescomodepsitoslocalesyservidoresproxy puededistorsionargravementelaimagenglobalderecorridosdeusuariosatravsdeunsitioWeb. Unapginaqueapareceunasolavezenunregistrodeaccesopuedetener,dehecho,hahecho referenciaennumerosasocasionesporvariosusuarios.Losmtodosactualesparatratardesuperar esteproblemaincluyenelusodecookies,almacenamientoencach,yelregistroexplcitodel

usuario.Comosedetallaen[Pit97],ningunodeestosmtodossonsininconvenientesgraves.Las cookiespuedenserborradasporelusuario,almacenamientoencachderrotasmayorvelocidadque lamemoriacachsecreparaproporcionarysepuededesactivar,yelregistrodeusuarioses voluntariaylosusuariossuelendarinformacinfalsa.Mtodosparatratarelproblemade almacenamientoencachincluyenelusodelatopologadelsitiooregistrosreferenciales,juntocon lainformacintemporalparainferirlasreferenciasquefaltan. Otroproblemaasociadoconlosservidoresproxyeseldelaidentificacindelusuario.Elusodeun nombredeequipoparaidentificarlosusuariospuedendarlugaravariosusuariosqueseagrupan errneamentecomounusuario.Unalgoritmopresentadoen[PPR96]compruebasicadapeticinde entradaesaccesibledesdelaspginasyavisitadas.Sisesolicitaunapginaquenoest directamentevinculadaalaspginasanteriores,variosusuariosseasumequeexistenenlamisma mquina.En[CMS97],duracindelasesindeusuariodeterminaautomticamenteenfuncinde lospatronesdenavegacinseutilizanparaidentificaralosusuarios.Heursticasinvolucraneluso deunacombinacindedireccinIP,nombredelamquina,elagentedelnavegador,yla informacintemporalparaidentificaralosusuarios[Pit97]. Identificacindelatransaccin AntesdequelamineraserealizaenlosdatosdeusodelaWeb,lassecuenciasdelasreferencias debenseragrupadasenunidadeslgicasquerepresentanlastransaccioneswebosesionesde usuario.Unasesindeusuariotodaslasreferenciasdepginaqueelusuariohagaenunasolavisita aunsitio.Laidentificacindelassesionesdeusuarioessimilaralproblemadelaidentificacinde losusuariosindividuales,comosemencionanteriormente.Unatransaccindifieredeunasesin deusuarioenelqueeltamaodeunatransaccinpuedevariardesdeunapginadereferencianico paratodaslasreferenciasdepginaenunasesindeusuario,enfuncindeloscriteriosutilizados paraidentificarlastransacciones.Adiferenciadelosdominiostradicionalesdemineradedatos, comoelpuntodeventadebasesdedatos,noexisteunmtodoconvenientedeagruparlas referenciasdepginasenlastransaccionesmspequeasqueunasesindeusuariocompleta.Este problemasehaabordadoen[CMS97]y[CPY96]. [CMS97]asumequecadapginadereferenciaseutilizatantoparafinesdenavegacinparallegara otrapgina,oconfinesdeinformacindecontenido.Dostiposdetransaccionessedefinen.El primertipoeslanavegacindecontenido,dondecadatransaccinconsisteenunareferenciaa contenidonicoytodaslasreferenciasdenavegacinenelcaminorecorridoquellevaala referenciadecontenido.Estasoperacionessepuedenutilizarparaextraerpatronesdecamino recorrido.Elsegundotipodetransaccinesdesloelcontenido,queconstadetodaslasreferencias decontenidoparaunasesindeusuariodeterminada.Estasoperacionessepuedenutilizarpara descubrirlaasociacinentrelaspginasdecontenidodeunsitio.Unapginadereferenciadadose clasificacomolanavegacinoelcontenido,basadoeneltiempodedicadoalapgina.Estetipode "escribirlapgina"esmsdelineadoen[PPR96],dondelosdistintostiposdepginacomondice depginas,pginaspersonales,etcseutilizaneneldescubrimientodelospatronesdeuso. [CPY96]defineelconceptodereferenciaadelantadamximaconelfindeidentificarlas transacciones.Cadatransaccinsedefinecomoelconjuntodepginasenelcaminodesdela primerapginaenelregistrodeunusuarioalapginaantesdeunareferenciahaciaatrsest hecho.Unanuevaoperacinseiniciacuandolareferenciaadelantadasiguientesehace.Una referenciahaciaadelantesedefinecomounapginaquenoestenelconjuntodepginasparala transaccinactual.Delmismomodo,unareferenciahaciaatrssedefinecomounapginaqueya estcontenidoenelconjuntodepginasparalatransaccinactual.Porejemplo,unasecuenciade accesodeABCDCBEFEGsedividiraentresoperaciones,esdecir,ABCD,ABEF,yABEG.Las

transaccionescreadoconestealgoritmosonsimilaresalasoperacionesdenavegacindecontenido de[CMS97]ysepuedeutilizarparaextraercaminorecorridodelospatrones. TcnicasdedescubrimientoalasTransaccionesWeb Unavezquelastransaccionesdeusuarioolassesioneshansidoidentificadoscomoseindicaenla seccin3.1.2,existenvariostiposdeminerapatrndeaccesoquesepuedenrealizarenfuncinde lasnecesidadesdelosanalistas.Algunasdeestastcnicasdedescubrimientosediscutena continuacin. RutadeAnlisis reglasdeasociacin Lospatronessecuenciales Agrupamientoyclasificacin

RutadeAnlisis Haymuchosdiferentestiposdegrficosquesepuedenformarparalarealizacindeanlisisdela ruta,yaqueungrficorepresentaalgunarelacindefinidaenlaspginasWeb(uotrosobjetos).El msobvioesungrficoquerepresentaladistribucinfsicadeunsitioWeb,conlaspginasWeb comonodosyenlacesdehipertextoentrepginascomoaristasdirigidas.Otrosgrficospodra formarsesobrelabasedelostiposdepginasWebconbordesquerepresentansimilitudentrelas pginas,olacreacindelosbordesquedanelnmerodeusuariosquevandesdeunapginaaotra [PPR96].Lamayoradelostrabajoshastalafechaconsisteendeterminarlospatronesdefrecuencia derecorridoodegrandessecuenciasdereferenciadeladisposicinfsicadetipogrfico.Las operacionesdenavegacindecontenidode[CMS97],mximareferenciaadelantadadelas transacciones[CPY96],osesionesdelosusuariosde[PPR96]sepuedeutilizarparaelanlisisdela ruta.AnlisisdelarutapodraserutilizadoparadeterminarlasrutasmsvisitadasenunsitioWeb. Otrosejemplosdeinformacinquepuedeserdescubiertoatravsdeanlisisdelarutasonlos siguientes: 70%delosclientesqueaccedieron/company/products/file2.htmllohicieronapartirde/ empresayprocederatravsde/empresa/whatsnew,/empresa/productos,y /Company/products/file1.html; 80%delosclientesqueaccedieronalsitiocomenzapartirde/empresa/productos,o 65%delosclientesabandonaronellugardespusdecuatroomenospginasdereferencia. Laprimerareglaindicaquehayinformacintilen/company/products/file2.html,peroyaquelos usuariostiendenatomarunarutamslargaalapgina,noestmarcadaclaramente.Lasegunda reglaindicasimplementequelamayoradelosusuariosaccedenalsitioatravsdeunapginaque nosealapginaprincipal(quesesupone/empresaenesteejemplo)yquepodraserunabuena ideaincluirinformacindedirectoriotipoenestapgina,siesNohayya.Laltimareglaindica unatasadedesercinparaelsitio.Dadoquemuchosusuariosnonavegarpormsdecuatropginas enelsitio,seraprudenteparaasegurarquelainformacinimportanteestcontenidadentrode cuatropginasdelospuntosdeentradahabitualesdelsitio. Reglasdeasociacin

Asociacindetcnicasdedescubrimientodelaregla[AS94,HS95,SON95,SA95]seaplican generalmentealasbasesdedatosdetransaccionesenlasquecadatransaccinsecomponedeun conjuntodeelementos.Enestecontexto,elproblemaesdescubrirtodaslasasociacionesy correlacionesentreloselementosdedatosdondelapresenciadeunconjuntodeartculosenuna transaccinimplica(conunciertogradodeconfianza)lapresenciadeotroselementos.Enel contextodelamineraWeb,esteproblemaequivaleadescubrirlascorrelacionesentrelas referenciasalosarchivosdisponiblesenelservidormedianteunclientedeterminado.Cada transaccinestcompuestaporunconjuntodedireccionesURLdeaccesoaunclienteenunasola visitaalservidor.Porejemplo,elusodereglasdeasociacintcnicasdedescubrimientodeque podemosencontrarcorrelacionescomolassiguientes: 40%delosclientesquehanaccedidoalapginawebconURL/ company/products/product1.html,tambinseaccedea/company/products/product2.html,o 30%delosclientesqueaccedieron/empresa/comunicados/offer.htmlespecial,hizounpedido enlneaen/company/products/product1. Yaquenormalmentelasbasesdedatosdetransaccionestalescontienencantidadesmuygrandesde datos,actualasociacindetcnicasdedescubrimientodereglastratanderecortarelespaciode bsquedadeacuerdoconelapoyodeloselementosenconsideracin.Elapoyoesunamedida basadaenelnmerodecasosdetransaccionesdeusuarioenlosregistrosdetransacciones. Eldescubrimientodetalesnormasparaorganizacionesqueparticipanenelcomercioelectrnico puedeayudareneldesarrollodeestrategiasdemarketingeficaces.Pero,adems,reglasde asociacindescubiertodelosregistrosdeaccesoalaWWWpuededarunaideadecmoorganizar mejorelespacioWebdelaorganizacin.Porejemplo,sisedescubrequeel80%delosclientesque acceden/empresa/productosy /Company/products/file1.htmltambinseaccedea/company/products/file2.html,perosloel30% delaspersonasqueaccedierona/empresa/productostambinseaccedea/ company/products/file2.html,entoncesesprobablequealgunainformacinenfile1.htmlllevaalos clientesaccederfile2.html.Estacorrelacinpodrasugerirqueestainformacindebesermovidoa unnivelsuperior(porejemplo,/company/products)paraaumentarelaccesoafile2.html. Lospatronessecuenciales Elproblemadeldescubrimientodepatronessecuenciales[MTV95,SA96]esencontrarentreesos patronesdetransaccionesquelapresenciadeunconjuntodeelementosesseguidoporotro elementoenelconjuntodetransaccionesdesellodetiempoordenado.Enlosregistrosde transaccionesdelservidorWeb,lavisitadeunclienteseregistraduranteunperododetiempo.La marcadetiempoasociadaaunatransaccinenestecasoserunintervalodetiempoquese determinayseadjuntaalatransaccindurantelalimpiezadedatosolosprocesosdeidentificacin delatransaccin.EldescubrimientodepatronessecuencialesenlosregistrosdeaccesoalaWeb delservidorWebpermitealasorganizacionesdebaseparapredecirlospatronesdeusuariovisitay ayudaenlaseleccinlapublicidaddirigidaagruposdeusuariosenfuncindeestospatrones.Al analizarestainformacin,elsistemademineraWebpuededeterminarlasrelacionestemporales entreloselementosdedatoscomolossiguientes: 30%delosclientesquevisitaron/empresa/productos/,habahechounabsquedaenYahoo,enla ltimasemanaenlapalabraclavew,o 60%delosclientesquehizounpedidoenlneaen/company/products/product1.html,tambinhizo unpedidoenlneaen/company1/products/product4plazode15das.

Otrotipoimportantededependenciadedatosquepuedenserdescubiertos,utilizandolas caractersticastemporalesdelosdatos,sonsecuenciasdetiemposimilares.Porejemplo,podemos estarinteresadosenencontrarlascaractersticascomunesdetodoslosclientesquevisitaronun archivoenparticularenelperododetiempo.O,porelcontrario,podemosestarinteresadosenun intervalodetiempo(enunda,odentrodeunasemana,etc)enelqueesmsunarchivoen particularaccederaella. Agrupamientoyclasificacin Eldescubrimientodelasreglasdeclasificacin[MAR96,CS96,HCC93,WK91]lepermiteauno desarrollarunperfildeloselementosquepertenecenaungrupodeterminadodeacuerdoconsus atributoscomunes.Esteperfilpuedeutilizarseparaclasificarlosnuevosdatosqueseagreganala basededatos.EnlamineraWeb,lastcnicasdeclasificacinpermitendesarrollarunperfilde clientesquetienenaccesoadeterminadosarchivosaservidoresbasadoseninformacin demogrficadisponibleenlosclientes,oenbaseasuspatronesdeacceso.Porejemplo,la clasificacinenlosregistrosdeaccesoalaWWWpuedeconduciraldescubrimientodelas relacionescomolassiguientes: losclientesdelasagenciasestatalesodegobiernoquevisitanelsitiotiendenaestarinteresadosen lapgina/company/products/product1.html,o 50%delosclientesquehizounpedidoenlneaen/company/products/product2,estabanenel grupodeedad2025yvivienlacostaoeste. Enalgunoscasos,lainformacinvaliosasobrelosclientespuedeserrecogidaporelservidorde formaautomticadesdelosnavegadoresdelosclientes.Estoincluyelainformacindisponibleenel ladodelclienteenlosarchivosdelahistoria,losarchivosdecookies,mtodos,etcotrosmedios utilizadosparaobtenerelperfilylainformacindemogrficadelosclientesincluyenelregistrode usuario,formulariosdeencuestasenlnea,ytcnicascomo``annimaventadeentradas"[Inc96]. Anlisisdeagrupamiento[KR90,Fis95,NH94]permiteagruparalosclientesoloselementosde datosquetienencaractersticassimilares.Laagrupacindelainformacindelclienteode elementosdedatosenlosregistrosdetransaccionesWeb,puedefacilitareldesarrolloyejecucin deestrategiasdemarketingfuturo,tantoenlneacomofueradelnea,talescomocorreoderetorno automticoalosclientesqueentranenungrupodeterminado,oquecambiadinmicamenteunsitio enparticularparauncliente,enunasegundavisita,basadoenlaclasificacinanteriordeese cliente. Anlisisdelospatronesdescubiertos AdministradoresdesitiosWebestnmuyinteresadosenpreguntascomo"Cuntagenteest utilizandoelsitio?","Culessonlaspginasqueseaccedeconmsfrecuencia?",EtcEstas preguntasrequierenqueelanlisisdelaestructuradehipervnculos,ascomoelcontenidodelas pginas.Losproductosfinalesdeesteanlisispodranincluir:1)lafrecuenciadevisitasporcada documento,2)lamsrecientevisitaaldocumento,3)queestdevisitaenlaquelosdocumentos, 4)lafrecuenciadeusodecadahipervnculo,y5)elusomsrecientedecadahipervnculo. EldescubrimientodelospatronesdeusodeInternet,llevadaacaboporlastcnicasdescritas anteriormente,noseramuytilamenosquehubieramecanismosyherramientasparaayudaraun analistadeentenderlosmejor.Porlotanto,ademsdedesarrollarlastcnicasdeminerapatronesde

usodelosregistrosdeformularioWeb,hayunanecesidaddedesarrollartcnicasyherramientas quepermitenelanlisisdelospatronesdescubiertos.Estastcnicasseesperaqueatraigaapartirde unaseriedecampos,incluyendoestadsticas,grficosyvisualizacin,anlisisdeusabilidad,yla basededatosdeconsulta.Enestaseccinseofreceunestudiodelasherramientasytcnicas existentes.AnlisisdeusodelaconductadeaccesoWebdeserunreamuynueva,haymuypoco trabajoenella,yenconsecuenciaestaencuestanoesmuyextensa. Tcnicasdevisualizacin TcnicasOLAP DatosyConocimientoConsulta Anlisisdelausabilidad Tcnicasdevisualizacin Visualizacinhasidoutilizadoconmuchoxitoenayudaralagenteaentenderlosdiversostipos defenmenos,tantorealcomoabstracta.Porlotanto,esunaeleccinnaturalparalacomprensin delcomportamientodelosusuariosdelaWeb.Pitkow,etal[PB94]handesarrolladoelsistemapara lavisualizacindepatronesWebVizWWWdeacceso.UnparadigmaWebcaminoquesepropone enelqueconjuntosdeentradasderegistrodeservidorseutilizanparaextraerpatronesde subsecuenciasdeWebrecorridodecaminosllamadoWeb.WebVizpermitealanalistaparaanalizar deformaselectivalapartedelaWebqueesdeintersmediantelafiltracindelaspartes irrelevantes.LaWebsevisualizacomoungrafodirigidoconciclos,dondelosnodossonlas pginasylosbordesson(entreotraspginas)hipervnculos. Lavisualizacinsecomponededosventanas,laventanadecontrolWebVizylaventanadela pantalla[PB94].Laprimeraproporcionaelanalistadecontrolesparaajustarlosenlaces,seleccione unahoradeterminadaparaver,elcontroldelaanimacin,yreorganizareldiseo.Disposicindela segundaventanapermitelafrecuenciadeundocumentodeaccesoaserrepresentadoporelancho delnodoquelorepresenta,mientrasqueelcolordelnodoquerepresentarecientedeacceso.Ancho deenlaceyelcolortienenunsignificadocorrespondiente.Manipulacintemporalselograconel controldeslizantereproduccin.deloscontrolesde. TcnicasOLAP OnLineAnalyticalProcessing(OLAP)seestconvirtiendoenunparadigmamuypoderosoparael anlisisestratgicodelasbasesdedatosenentornosdenegocios.Algunasdelascaractersticas clavedeanlisisestratgicoson:1)elvolumendedatosmuygrandes,2)elapoyoexplcitodela dimensintemporal,3)elapoyoparalosdiversostiposdeagregacindelainformacin,y4)el anlisisdelargoalcance,dondelastendenciasgeneralessonmsimportantesquedetallesde elementosdedatosindividuales.MientrasqueOLAPsepuederealizardirectamenteenlaparte superiordebasesdedatosrelacionales,laindustriahadesarrolladoherramientasespecializadas paraqueseamseficienteyeficaz,porejemplo,[Adv97].Adems,lacomunidadcientficaha demostradorecientementequelasnecesidadesfuncionalesyderendimientodeOLAPrequieren quelasestructurasdelanuevainformacinsedise.Estohallevadoaldesarrollodelmodelode informacinlosdatosdelcubo[GBLP96],ylastcnicasparasuaplicacineficaz[HRU96, SDNR96,AAD96]. Untrabajoreciente[Dyr97]hademostradoqueelanlisisdelasnecesidadesdelosdatosdeusode

laWebtienenmuchoencomnconlosdeunalmacndedatos,yporlotantolastcnicasOLAP sonmuyaplicables.Elaccesoalainformacinenlosregistrosdelservidorsemodelacomouna historiaslodeadicin,quecrececoneltiempo.Unregistronicodeaccesonoesprobableque contengalahistoriasolicitudensutotalidaddelaspginasenunservidor,sobretodoporque muchosclientesutilizanunservidorproxy.Porquelainformacinsobrelassolicitudesdeaccesose distribuirn,yexistelanecesidaddeintegrarlo.Dadoqueeltamaodelosregistrosdelservidor crecemuyrpidamente,puedequenoseaposibleproporcionarunanlisisenlneadetodo.Porlo tanto,hayunanecesidadderesumirlosdatosderegistro,talvezdevariasmaneras,parahacersus anlisisenlneaposible.Hacerpartesdelregistrodeformaselectiva(in)visibleavariosanalistas puedesernecesariaporrazonesdeseguridad.EstosrequisitosparademostrarusodelaWebde anlisisdedatosquelastcnicasdeOLAPpuedesermuyaplicable,yestetemarequieredemayor investigacin. DatosyConocimientoConsulta Unadelasrazonesqueseatribuyenalgranxitodelatecnologadebasededatosrelacionalha sidolaexistenciadeunaltonivel,lenguajedeclarativo,consulta,loquepermitequeunaaplicacin paraexpresarloquelascondicionesdebensersatisfechasporlosdatosquenecesita,enlugarde tenerqueespecificarcmoobtenerlosdatosrequeridos.Dadoelgrannmerodepatronesque puedenserexplotados,parecequehayunaclaranecesidaddeunmecanismoparaespecificarelfoco delanlisis.Enfoquepuedeserotorgadaenmenosdedosmaneras.Enprimerlugar,las restriccionespuedensercolocadosenlabasededatos(talvezenunlenguajedeclarativo)para restringirlapartedelabasededatosparaserexplotadopara,porejemplo,[MJHS96].Ensegundo lugar,laconsultasepuederealizarenelconocimientoquesehaextradoporelprocesominero,en cuyocasounlenguajedeconsultadeconocimientoenlugardelosdatosquesenecesita.Un mecanismodeconsultassimilaraSQLhasidopropuestoparaelsistemaWEBMINER[MJHS96], cuyosdetallesseproporcionanenlaseccin5. Anlisisdelausabilidad Lainvestigacinenlasinteraccioneshumanoordenador(HCI)hainiciadorecientementeel desarrollodeunacienciacomputacionaldelafacilidaddeuso[GSB94].Elobjetivoprincipalde esteesfuerzoesdesarrollarunenfoquesistemticoparaestudiosdeusabilidadmediantela adaptacindelarigurosidaddelmtodoexperimentaldelacienciacomputacional.Elprimerpaso esdesarrollarmtodosdeinstrumentacinqueserecogendatossobrelausabilidaddelsoftware,de formasimilaralainstrumentacinquesehahechoparaanalizarelrendimiento.Estosdatosse utilizanparaconstruirmodelosinformticosysimulacionesqueexplicanlosdatos.Porltimo,la presentacindedatosdiversosytcnicasdevisualizacinseutilizanparaayudaralosanalistas comprenderelfenmeno.Esteenfoquetambinsepuedeutilizarparamodelarelcomportamiento denavegacindelosusuariosenlaWeb. Comosedescribeenestaseccin,hayunacrecientenecesidad,ascomoelinterseneldesarrollo detcnicasyherramientasparaanalizarlospatronesdeusodelainformacinenlaWeb.Algunas ideasinicialessehanpropuesto,perotodavaestnensusetapasinicialesyanquedamucho trabajoporhacer.Creemosquelastcnicasquesonmseficacesqueincluyenlassiguientes caractersticas:(i)serbasadaenlosdatosdemtodosempricos,(ii)utilizargrandescantidadesde datosparalavalidacin,(iii)queelusorigurosodemtodosexperimentalesyunanlisisestadstico riguroso,etc http://maya.cs.depaul.edu/~mobasher/webminer/survey/node23.html

También podría gustarte