Está en la página 1de 151

Cmo

funciona
la
Web
CentrodeInvestigacindelaWeb
DepartamentodeCienciasdelaComputacin
UniversidaddeChile
CIWesunNcleoCientficoMilenio

2008CentrodeInvestigacindelaWeb,todoslosderechosreservados.
RegistrodePropiedadIntelectualNmero169174,Chile
ISBN:9789563192251
PublicacinAutoeditada.
PrimeraEdicin,Junio2008.
SantiagodeChile.
EditorGeneral:ClaudioGutirrezGallardo.
Distribucingratuitadeejemplaresimpresosparacolegiosyuniversidadeschilenos.
Distribucingratuitadeversindigitalatravsdewww.ciw.cl
GrficodelaPortada:EduardoGraells,enCaractersticasdelaWebChilena,estudio
dirigidoporRicardoBaezaYatesdesde2001.
DiseodePortada:JavierVelascoM.
DiseoInterior:MauricioMonsalveM.
ImpresoenGrficaLOM.

ndice
Introduccin.............................................................................................................1
LosAutores..............................................................................................................5
Captulo1
LaWebcomoespaciodeinformacinuniversal................................................9
Defuentesaisladasaredesdeinformacin................................................10
LasbaseslgicasdelaWeb...........................................................................12
LafilosofadelaWebcomoespaciodeinformacin:laW3C..................14
LaWebSemntica...........................................................................................16
ElFuturodelaWeb.........................................................................................20
Captulo2
AnatomadelaWeb.............................................................................................23
Introduccin.....................................................................................................23
ConceptosBsicos...........................................................................................24
CaracterizandolaWeb....................................................................................29
Captulo3
Internet....................................................................................................................43
EldesarrollodeInternet.................................................................................43
Arquitectura.....................................................................................................45
ElgobiernodeInternet...................................................................................49
Captulo4
BuscandoenlaWeb..............................................................................................51
Crawling:qupginasdeberaconocerunbuscador?............................53
Indexamiento:qudeberaalmacenarsedelaspginas?........................55
Bsqueda:qupreguntasdeberaresponder,ycmo?...........................56
InteraccinconelUsuario:cmopresentarlainformacin?..................59

Captulo5
ManejodegrandesvolmenesdeinformacinutilizandoClustersdecom
putadores................................................................................................................63
MquinasdebsquedayClusters................................................................65
RecoleccindepginasWebyClusters.......................................................69
Captulo6
XML:TransformandolaWebenunaBasedeDatos.......................................75
XML:Unlenguajeparaalmacenarinformacin.........................................78
TransformacindedocumentosXML..........................................................80
ExtraccindeinformacindesdeXML........................................................85
Pararecordar....................................................................................................89
Captulo7
UsoyBsquedadeInformacinGeogrficaenlaWeb.................................93
CuleseltipodeinformacingeogrficaenlaWeb?............................94
Servicioswebdeinformacingeogrfica...................................................97
MquinasdebsquedaWebgeogrfica.....................................................99
Captulo8
MultimediaenlaWeb.......................................................................................103
EluniversocrecientedelainformacinmutimedialenlaWeb............103
Indexacinautomatizadadelainformacinmultimedial.....................106
BsquedaoRecuperacindeinformacinmultimedial........................108
Captulo9
RedesSociales.....................................................................................................113
AnlisisdeRedesSociales...........................................................................113
RedesSocialesySoftware...........................................................................116
SitiosyAplicacionesMencionados............................................................122
Captulo10
ClasificacinyFiltradodeInformacinenlaWebViva...........................127
SindicacindeContenido............................................................................128
CanalesyAgregadoresdeRSS....................................................................130

FiltradoyClasificacindeInformacin.....................................................131
LosPrimerosFiltrosAutomticos...............................................................132
FiltrosqueAprendenyseAdaptan............................................................134
FiltradoColaborativo....................................................................................136
ElRoldelosTags...........................................................................................138
Conclusin......................................................................................................139

Introduccin
Ellibroqueellectortieneensusmanosesproductodelaexperiencia
delequipodecientficosquetrabajaenelCentrodeInvestigacindelaWeb.
Hemosqueridoexponeralgranpbliconosloloquehacemos,sinosobre
todo,cmofuncionaeseproductotanpropiodenuestrostiemposqueesla
Web.Estelibropretende,aniveldedivulgacin,daraconocerlasdiferentes
facetasqueestndetrsdelfuncionamientodelaWeb.
Comenzamosconlacuestinbsica:QueslaWeb?Enelcaptulo1el
profesorClaudioGutirrezdesarrollaunarespuestaaestapreguntapartien
dodelasideasdeloscreadoresdelaWeb,quienespensaronlaWebcomo
ungigantescoespaciodeinformacinuniversal,unasuertedebibliotecain
finita.
Laspreguntasinmediatasquesiguenalaanteriorson:Questructura
hatomadoesteespacio?Cmoestorganizado?Cmoesusadohoyporla
gente?Estayotraspreguntas,juntoconelanlisisdelaWebchilena,lasres
pondeelprofesorRicardoBaezaenelcaptulo2.
LaWebesunespaciolgicoqueestconstruidosobreunsoporteesen
cial: la red de comunicaciones conocida como Internet. El lector
probablementehabrescuchadousarestasdospalabrasenformaintercam
biable.Enelcaptulo3,elprofesorJosMiguelPiquerexponelaevoluciny
desarrollodeInternet.Estagigantescaredmundialdecomunicacionestiene
protocolosparticularesy...ungobierno!

Introduccin
Yafamiliarizados conInternet,laWeb ysus estructuras,pasamos a
ocuparnosdeunodelostemasfundamentalesalhablardelaWeb:cmo
buscar enella?ElprofesorGonzalo Navarroenelcaptulo 4nosexplica
cmoesposiblequeunbuscadorencuentreycategoricelainformacin
dispersaencasiinfinitossitiosenlaWeb.Ydepasonosdaalgunasindica
cionesdecmopresentarestainformacinalusuario.Enlamismalnea,el
profesorMauricioMarnenelcaptulo5nosdesvelalasestructurascompu
tacionalesnecesariasparadesarrollarestasbsquedas,asaber,losclusters
decomputadores.
ntimamenteligadaconlabsquedadeinformacinestlaestructura
quelainformacindebeposeer.ElprofesorMarceloArenasnosintroduce
enelcaptulo6enelmodernolenguajepararepresentarinformacin:eles
tndar conocido como XML. Adentrndose algo en detalles tcnicos, nos
explicaquesesteformato,cmoseusa,ycmoseextraeinformacindel.
Peronoslodetextoviveelhumano.Escadavezmscomnmanejar
otrostiposdeinformacin.LaprofesoraAndreaRodrgueznosexplicaenel
captulo7cmosepresentalainformacingeogrficaenlaWebycmose
latrataactualmente.Enelcaptulo8,elprofesorJavierRuizdelSolarnosin
troduceelmundodelainformacinmultimedialenlaWeb,unfenmenode
crucialimportanciaactualmente.
Porltimo,loscaptulos9y10estndedicadosafenmenosrecientes
eneldesarrollodelaWeb.ElinvestigadorJavierVelasconospresentael
temadelasredessociales,cmostashanpermeadolaWebysehantrans
formadoenunadesusaplicacionesestrella.Porotrolado,elprofesorCarlos
HurtadonosmuestralaWebviva,esdecir,aquellaquecambiacontinua
mente,dondejuegaunrolimportantelasuscripcinacontenidos,elfiltrado
automticoyeletiquetadodecontenidos.

Introduccin
Esperamoshabercubiertolosprincipalesaspectostcnicosdeestegran
fenmenoqueeslaWeb.Hemosintentadomantenernosenunlenguajeno
tcnico,aunquepreciso.Paraaquellosquequierenseguirinformndose,co
nociendoyestudiandoestostemas,hemosincluidoalfinaldecadacaptulo
unabibliografasobrecadatema.
AgradecemosalaIniciativaCientficaMileniolaposibilidaddepoder
llegaraunpblicomsamplioqueelquehabitualmentetratamos(nuestros
alumnos,colegasinvestigadores)yojalalgnjovenmotivadoporalguna
delasideasaqupresentadasseinclineporinvestigarsobrelaWeb.Conello
habremoscolmadonuestrasexpectativas.
GonzaloNavarro
DirectordelCentrodeInvestigacindelaWeb
Santiago,Chile,Abril2008.

LosAutores
MarceloArenasesprofesorauxiliardelDepartamentodeCienciadela
ComputacindelaPontificiaUniversidadCatlicadeChile.Obtuvolosgra
dos de Licenciado en Matemticas (1997), Magster en Ciencias de la
Ingeniera(1998)yelttulodeIngenieroCivildeIndustriasconMencinen
Computacin(1998)delaPontificiaUniversidadCatlicadeChile;yelgra
dodeDoctorenCienciadelaComputacindelaUniversidaddeToronto,
Canad(2005).Suinvestigacinhaestadoenfocadaadistintosaspectosdela
Web,talescomoeldesarrollodemetodologasparamejorareldiseodelas
basesdedatosXML,eldesarrollodeunaarquitecturaparaelintercambiode
informacinXMLylaconstruccindelenguajesdeconsultaparalaWebSe
mntica.
RicardoBaezaYatesesdirectordeYahoo!ResearchBarcelona,Espaa
yYahoo!ResearchLatinAmericaenSantiago,Chile.Hasta2005fuedirector
delCentrodeInvestigacindelaWebdelDepartamentodeCienciasdela
ComputacindelaEscueladeIngenieradelaUniversidaddeChile,ycate
drticoICREAenelDepartamentodeTecnologadelaUniversitatPompeu
Fabra en Barcelona, Espaa. Mantiene vnculos con ambas universidades
comoprofesorjornadaparcial.Susintereseseninvestigacinincluyenalgo
ritmosyestructurasdedatos,recuperacindeinformacin,mineradela
Web,basesdedatosdetextoeimgenes,yvisualizacindesoftwareybases
dedatos.
ClaudioGutirrezesprofesorasociadodelDepartamentodeCiencias
delaComputacindelaUniversidaddeChile.ObtuvolaLicenciaturaen
5

LosAutores
Matemticasenlamismauniversidad,MagsterenLgicamatemticaenla
P.UniversidadCatlicadeChile,yPh.D.enComputerScienceenWesleyan
University,EE.UU.Sureadeinvestigacineslalgicaaplicadaalacompu
tacin, bases de datos y Web Semntica. Ha obtenido premios al mejor
artculoenconferenciasdelaWebSemnticalosaos2005,2006y2007.Ac
tualmenteesinvestigadorasociadodelCentrodeInvestigacindelaWeb.
CarlosHurtadoesdoctorenCienciasdelaComputacindelaUniver
sidaddeToronto;IngenieroCivilyMagsterenCienciasdelaIngenierade
laUniversidadCatlicadeChile.EsprofesordelDepartamentodeCiencias
delaComputacindelaUniversidaddeChile,dondedictacursosydesa
rrollainvestigacinenlasreasdebasesdedatos,inteligenciaartificialy
mineradedatos.SehadesempeadocomoinvestigadorasociadodelCen
trodeInvestigacindelaWeb,delLondonKnowledgeLabydelBirkbeck
CollegedelaUniversidaddeLondres.Essocioymiembrodelequipodede
sarrollodeorbitando.com.
MauricioMarn esinvestigadorenelCentrodeInvestigacindeYa
hoo! de Santiago de Chile, e investigador asociado en el Centro de
InvestigacindelaWebdelaUniversidaddeChile.Anteriormentefuepro
fesortitulardelaUniversidaddeMagallanes,Chile.ObtuvounaMaestra
enCienciasdelaComputacinenlaUniversidaddeChileyDoctoradoenla
UniversidaddeOxford,Inglaterra.Susreasdeinterseninvestigacinson:
procesamientoparaleloydistribuidodelainformacinconaplicacionesen
mquinasdebsquedaparalaWeb.ActualmenteesPresidentedelaSocie
dadChilenadeCienciadelaComputacin.
GonzaloNavarroobtuvosuDoctoradoenCienciasMencinComputa
cinenlaUniversidaddeChile(1998).Actualmenteesprofesortitulary
directordelDepartamentodeCienciasdelaComputacindelamismaUni
versidad.Hadirigidodiversosproyectosdeinvestigacinyhoyesdirector
6

LosAutores
delNcleoMilenioCentrodeInvestigacindelaWeb.Susreasdeinters
sonalgoritmosyestructurasdedatos,basesdedatostextuales,compresin,
ybsquedaaproximada.Escoautordeunlibrosobrebsquedaentextoy
demsde200artculoscientficos.
JosM.PiqueresprofesorasociadodelDepartamentodeCienciasde
laComputacindelaUniversidaddeChile,ydirectortcnicodeNICChile.
ActualmentedirigeellaboratoriodeinvestigacindeNICChile(NIClabs),
dondesedesarrollanproyectosdecooperacinconlaindustria(EntelPCSy
SixLabs)sobreredesavanzadascomomultimediamvil,IPv6,IMSyredes
desensores.ObtuvounMagsterenCiencias,mencinComputacinenla
Universidad de Chile (1986), y un Doctorado en Computacin en l'cole
PolytechniquedePars(1991).Esautordemsde30publicacionesinterna
cionales.
M.AndreaRodrguezTastetstieneunMaster(1997)yunPh.D.(2000)
enIngenierayCienciasdelaInformacinEspacialdelaUniversidadde
Maine,EE.UU.ActualmenteesprofesoraasociadaenelDepartamentode
IngenieraInformticayCienciasdelaComputacindelaUniversidadde
Concepcin e investigadora asociada en el Centro de Investigacin de la
WebdelaUniversidaddeChile.Andreaharealizadotrabajosenelreade
recuperacindeinformacinbasadaencontenidogeoespacial,accesoein
dexacindeinformacinespaciotemporaleintegracinsemnticadedatos
heterogneos.
JavierRuizdelSolaresprofesorasociadodelDepartamentodeInge
nieraElctricadelaUniversidaddeChile.ObtuvoelttulodeIngeniero
CivilElectrnicoyelgradodeMagsterenIngenieraElectrnicadelaUni
versidadTcnicaFedericoSantaMara,yelgradodeDoctorenIngeniera
delaUniversidadTcnicadeBerln,Alemania.Susreasdeinvestigacin
incluyenvisincomputacional,robticamvilybsquedaautomatizadade
7

LosAutores
informacinmultimedialenlaWeb.Haobtenidopremiosalmejorartculoy
alainnovacinenloseventosderobticamvilRoboCup2004y2007.Ac
tualmenteesinvestigadorasociadodelCentrodeInvestigacindelaWeb,
directordelLaboratoriodeRobticadelaUniversidaddeChileyconferen
cistadistinguidodelaSociedaddeRobticayAutomatizacindelIEEE.
JavierVelasco,comunicadorsocial,esunodelospionerosenelcampo
delaArquitecturadeInformacinenChiledesde2000.Hatrabajadoenim
portantesproyectosWebenChileylosEstadosUnidos.Tambinhasido
profesoradjuntoenlaUniversidaddeMaine,USA,yeditoradministrativo
enlarevistaBoxesandArrows.Desde2003integrapartedelequipoCIW,
dondeofrececursosyconsultorasenestamateria,ydesde2006formaparte
dellaboratoriodeYahoo!ResearchenSantiago.Sutrabajoseenfocaeneldi
seodeexperienciadeusuarioensistemasdeinformacin,loqueincluye
arquitecturadeinformacin,usabilidad,diseodeinteraccin,diseodein
terfaces,diseodeinformacinyestrategiaenproyectosWeb.

Captulo1
LaWebcomoespaciode
informacinuniversal
ClaudioGutirrez
Todoestaraensusciegosvolmenes.Todo:lahistoriami
nuciosadelporvenir,LosegipciosdeEsquilo,elnmeropreci
sodevecesquelasaguasdelGangeshanreflejadoelvuelo
deunhalcn,elsecretoyverdaderonombredeRoma,laen
ciclopediaquehubieraedificadoNovalis,missueosyentre
sueosenelalbadelcatorcedeagostode1934,lademostra
cindelteoremadePierreFermat,losnoescritoscaptulos
deEdwinDrood,esosmismoscaptulostraducidosalidioma
quehablaronlosgaramantas,lasparadojasdeBerkeleyacer
cadeltiempoyquenopublic,loslibrosdehierrodeUri
zen,lasprematurasepifanasdeStephenDedalusqueantes
de un ciclo de mil aos nada querran decir, el evangelio
gnsticodeBaslides,elcantarquecantaronlassirenas,elca
tlogofieldelaBiblioteca,lademostracindelafalaciade
esecatlogo.Todo,...
J.L.Borges,LaBibliotecaTotal.

Captulo1LaWebcomoespaciodeinformacinuniversal
Elsueodelabibliotecainfinitasehahechorealidad:laWebhoycon
tieneloquesoBorgesybastantems.Dehecho,seestimaquelapieza
promediodeinformacinenlaWebhoydanuncaservistamsqueporsu
productorysusamigoscercanos,yunonopuedevermsqueunporcentaje
minimaldeloqueestpublicado.
Cmoselogrestafantsticabibliotecainfinita?Enestebrevecaptulo
revisaremoslosfundamentosconceptualesytcnicosqueestnenlabasede
laWeb,ydiscutiremossusalcancesylimitaciones.
EscomnquelostrminosWeb,RedeInternetseusenintercambiable
mente. Desde el punto de vista tcnico son objetos completamente
diferentes.Internethacereferenciaalaredfsicaqueconectadiferentescom
putadoresylugares.Suspreocupacionessonprotocolosdetransmisinde
datos(TCPIP),manejodenombresdedominio,etc.yquelotratamosende
talleenel captulo3.LaWebhacereferenciaalaarquitecturalgicadela
informacinquehasidoposibleconstruirsobreesaredfsica.Confundirlos
escomoconfundirelcerebro(unaredneuronal)conelconocimientoquepo
seeunapersona.Todostenemoscasielmismomaterialcerebral,perolos
conocimientosylainformacinquecadaunoposeedifierenvastamente.

Defuentesaisladasaredesde
informacin
Laevolucindelprocesamientodeinformacinhaidodesdeunidades
aisladashastaunainterconexinmundialhoydaatravsdelaWeb.
Probablementelamejormetforaseadenuevoladeunabiblioteca.All
hayinformacinrestringidaallugarfsicodondefunciona.Porunmomento
olvidemosloscatlogosglobales(productosdelaWebtambin!),ypense
10

Captulo1LaWebcomoespaciodeinformacinuniversal
moscmohace50aosalguienbuscabainformacin.Debarecorrerbiblio
tecaporbiblioteca,ycorrelacionarocompararlainformacinamano.Por
ejemplo,determinarlosttulosdelibrosqueestudianlavidadeAndrsBe
llo.Nopodanavegaratravsdelaimagenvirtualdetodosloslibrosde
todaslasbibliotecasdelmundojuntas.Sinembargo,laWebhizoposibleesa
realidad.
Eldesarrollodelatecnologacomputacionalhasidoclaveenestepro
ceso. Los computadores en sus inicios eran gigantescos armatostes que
ocupabanpisosenterosdeedificios,centrosdeprocesamientodeinforma
cin.Lagente,tcnicos,usuarios,etc.girabaentornoaellos.Laconexin
entredosdeestosgigantescosaparatoseraescasaonula.Coneladveni
mientodeloscomputadorespersonales,llegtambinlaideadequecada
usuarioposeedordeunPCpudieraconectarseconotroscercanos.Nacie
ronlasredeslocales.Deestaideahayunpasoapensarunaredmsgrande,
yfinalmenteunaredglobal.Yconesto,apareceelproblemadecmoco
ordinar, integrar la informacin que est en cada uno de los nodos
(computadores)deestagigantescared.
Acomienzosdelosnoventa,TimBernersLee[1]tuvounaideagenial:
disearestesistemaglobaldeinformacindetalformaquecadausuarioen
unnodopudieranavegarporelrestodeformatotalmenteautomtica,esde
cir, sin tener idea de cmo funciona el sistema del otro, qu sistema
operativotiene,qulenguajesdeprogramacinusa,quaplicacionescorre.
SuexperienciaenelCERN(verfigura1.1)fuelagatilladoradeestasimple
idea,queeselorigendelaWeb.EnpalabrasdeBernersLee:Elconceptode
laWebintegrmuchossistemasdeinformacindiferentes,pormediodela
formacindeunespacioimaginarioabstractoenelcuallasdiferenciasentre
ellosnoexistan.LaWebtenaqueincluirtodalainformacindecualquier
tipoencualquiersistema.

11

Captulo1LaWebcomoespaciodeinformacinuniversal

Figura 1.1: La Propuesta Original de la Web en el CERN [2]

EsascomolaWebeshoyungranespaciodeinformacinuniversal,
unavitrinadeaccesoacasiexcluimosladeorganizacionescomoelPent
gono,etc.todalainformacinexistenteenelmundohoyenda.

LasbaseslgicasdelaWeb
Desdeelpuntodevistatcnico,lostrespilaresbsicossobrelosquese
sustentalaarquitecturalgicadelaWebson:

12

Captulo1LaWebcomoespaciodeinformacinuniversal
1. Identificadoresnicos(URI):enunmundoideal,lasuposicinb
sicanecesariaparapoderreferirse(referenciar)yhablarde(describir)
todoslosobjetos,esquestostengansunombrepropio,queentr
minos tcnicos se llama identificador. En la Web estos nombres
propiossellaman IdentificadoresUniversalesdeRecursos (URIporsus
siglasinglesas).
UnaversinmselementaldeURIeslaURL(Localizadoruniversal
derecursos),quecorrespondeaunadireccinenlaWeb.Ladireccin
esunadelasformasdeidentificarunobjeto,peroesbuenosealar
quelanocindeidentificadoresmsampliaqueladedireccin,por
ejemplopararecursosmvilesquenotienendireccinfija.
2. Lenguaje universal para describir HTML: Otra suposicin bsica
paralacomunicacinuniversalesunlenguajenico,entendiblepor
todos.TimBernersLeediseellenguajeHTML(siglasdelingls
HyperTextMarkupLanguage,queasuscaractersticasdesimplicidad
deuso,sumaunacaractersticaclave:elserunlenguajedehipertexto,
esdecir,quetieneunformadeanclaroredirigirallectordesdeun
puntocualquieradeltextoaotrolugar.Estossonlosfamososlinkso
enlacesenlaWeb.
3. ProtocolodetransmisindedatosHTTP:Desdeunpuntodevista
mstcnico,unonecesitaunprotocoloquepermitaenviarytraerin
formacinenHTMLdesdeunlugar(sitio)aotroenestagigantesca
redqueeslaWeb.
ElprotocoloHTTP(sigladelinglsHyperTextTransferProtocol)
tienevariascaractersticasdistintivasquelohanhechomuyperdu
rable. HTTP es un protocolo de transmisin entre clientes y
servidores.Elcliente,quepuedeserunbrowser,unagente,ocual
13

Captulo1LaWebcomoespaciodeinformacinuniversal
quierherramienta.Elservidoreselquealmacenaocrearecursos
comoarchivosHTML,imgenes,etc.Entreellospuedehabervarios
intermediarios,comoproxies,gatewaysytneles.Atravsdeins
truccionessimples,peropoderosas,elclienteindicaalservidorqu
accionesrealizarpararecibiroentregardatos.Vermsdetallesen
captulo3.

LafilosofadelaWebcomoespaciode
informacin:laW3C
LaWebfuecreadaconunaciertafilosofa,unaposicindeprincipios
frentealosdesarrollosquesevenandandoenmateriadepublicaciones,de
desarrollo de software,dederechosdeautoryde difusin. Estafilosofa
puederesumirseentresprincipiosbsicos:todospuedenpublicar,todospueden
leer,nadiedeberestringir.
Cmolograrestotcnicamente?Enestadireccin,secreelConsorcio
delaWeb(W3C),unaorganizacininternacionalquesepropusocomosus
dosobjetivosprimordialeselimpulsarlainteroperabilidadyevolutividaddela
recientementecreadareduniversaldeinformacin.Paraestosecomenzaron
agenerarestndaresyprotocolos.Qusignificanestosdosrequerimientos
enmsdetalle?Enunfamosoartculo, ExplorandolaUniversalidad [3],Tim
BernersLeedesglosabasusaspectosbsicos:
IndependenciadeDispositivo.Lamismainformacindebeserac
cesibledesdediversosdispositivos.Estosignifica,porejemplo,que
lavisualizacindebetenerestndaresquepermitanaccederalain
formacindesdecasicualquierformatodepantallayaudio.Unade

14

Captulo1LaWebcomoespaciodeinformacinuniversal
lasbasesparaimplementarestadesiderataeslaseparacindeconte
nidoyformaenlainformacin.
IndependenciadeSoftware.Haymuchosydiversosprogramasde
software que se usan. Ninguno debe ser crtico para el funciona
mientodelaWeb.Eldesarrollodescentralizadodelsoftwarehasido
claveparasucrecimiento.Adems,temanomenor,estepostulado
previenequelaWebmismacaigabajoelcontroldeunacomunidad
dadaoalgngobiernousandoelcontroldelsoftware.

Internacionalizacin.Desdesusinicios,laWebnohaestadocar
gadaaningnpas.ConlaintroduccindeUNICODE,laltima
barreraquecargabasudesarrollohacialoslenguajesoccidentalesha
sidobarrida.(LadiferenciaclaveentreelviejoHTMLyelnuevoes
tndarXHTML,apartedemejorastcnicasrelacionadasconXML,es
queXHTMLestbasadoenUNICODE.)

Multimedia.Losformatosdisponiblesparapublicardebenestar
abiertosatodaslasfacetasdelacreatividadhumanacapacesdere
presentar.Enestesentido,soportarmultimedianorepresentaslo
unpardeavancestecnolgicos,sinounafilosofadedesarrollodela
Web.

Accesibilidad.Lagentedifiereenmltiplescosas,enparticular,
ensuscapacidades.LauniversalidaddelaWebdebepermitirque
ellaseausadaporlagenteindependientementedesusdiscapacida
des. De nuevo aqu la separacin de contenido y forma de la
informacinesunpilarbsico.

Ritmoyrazn. ComodiceTBL,lainformacinvaradesdeun
poemahastaunatablaenunabasededatos.Elbalanceentreproce
samientoautomticoyhumanodebeestarpresente.Porunlado,por

15

Captulo1LaWebcomoespaciodeinformacinuniversal
lascantidadesytipodeinformacinactualmentedisponibleesim
pensable que sta sea procesada slo por seres humanos: se
necesitanagentesautomticos.Porotraparte,esabsurdopensarque
enalgnmomentoloshumanossernprescindibleseneldesarrollo
yenriquecimientodelaWeb.Hayquebuscar losjustostrminos
paracadaaplicacin.
Calidad.Lasnocionesdecalidadsonsubjetivasehistricas.Por
elloesimpensablequealgnda toda lainformacinvayaaserde
calidad.Aquhayotrocompromiso,yesquelatecnologadelaWeb
debepermitirnosnavegaryvivirentreinformacincondiferentes
nivelesdecalidad.

Independenciadeescala.Laarmonaagranescalasuponearmo
naensuscomponentes.LaWebdebesoportargrandesypequeos
grupos.Debepermitirquelaprivacidaddelainformacindeindivi
duosygrupospuedasernegociadaporellosmismos,ypermitirque
cadagruposesientaseguroenelcontroldesuespacio.Hayquelo
grarunbalanceentreungigantemonolticoyunadiversidadque
puedallevaralaislamientocompletodecadauno.

LaWebSemntica
UnodelosproblemasmsimportantesqueaparececonlaWebeselde
determinarqusignificacadadatoqueestenlaWeb.Esprcticamente
imposibleparaunusuariochilenoentenderunapginaenchinootailands.
Yviceversa.Elproblemaesanmsdramtico:esmuydifcilparaunhu
manoencontrarlainformacinquenecesita.Losbuscadoresfuncionande
manerapuramentesintctica,esdecir,noentiendenlaspalabras.Qu
hacer?
16

Captulo1LaWebcomoespaciodeinformacinuniversal
Tradicionalmenteesoeraresueltoporcatalogadores,personasespeciali
zadasqueagregaban metadatos (etiquetasqueexplicitaninformacin)alos
libros:qutematrata,dndeestubicado,culeselautor,etc.Estosmeta
datosestnaccesiblesenuncatlogoenlasbibliotecas.EnlaWeb,comoya
veamos,notenemoscatlogo,nimenoscatalogadores.Conlosvolmenes
deinformacinquecadadacrecen,esimposiblequehumanossepreocu
pendeclasificarlainformacin.Adems,porqueelmodelodelaWebes
distribuido,quienespublicantienendiversasvisionessobrecmoclasificar
susobjetos.
Paralosprofesionales de lainformacin, elprincipal desafo hoy es
cmomanejarestaextraordinariacantidaddedatosquecrecedaada.Es
tamoscomenzandoaverlosproblemas:losmotoresdebsquedaamenudo
nocontestanloquebuscamos;haydificultadesparafiltrarlainformacin;la
heterogeneidaddelosdatosyloscontenidos;desdeelpuntodevistade
quienpublica,sehaconvertidoenunproblemahacervisiblelavisible,tanto
enformatocomoencontenido.Hanhabidoavancesenlosnivelesestructu
rales y sintcticos con el estndar XML y sus tecnologas aledaas.
Desafortunadamente,alniveldelsignificado(semntica)anestamosmuy
pordebajodelasnecesidades.Estamoslejosderesponderpreguntascomo
todoslosmuseosqueexhibantrabajosdeGuayasamnoCuleslabi
bliotecaquetienelamejorcoleccindelosescritosdeGandhi?oCules
lacompaaqueofreceelmejormapadeIsladePascuadesdeelpuntode
vistaprecio/resolucin? Unmotor de bsqueda estndar (como Google,
Yahoo!, etc.) no puede responder tales consultas. Pero tampoco ningn
agentelaspodraresponderhoyenda.Sinembargo,lainformacinest
all:hayquerelacionarlayagregarla.Lalimitacinobedecealafaltadeha
bilidaddelasmquinasparaentenderelsignificadoylasrelacionesentre
laspartesdeinformacinquerecolectan.Hoyendaloshumanosagrega
moselcontexto,interpretamosydamossentidoalainformacinqueexiste
17

Captulo1LaWebcomoespaciodeinformacinuniversal
enlaWeb.Enotradireccin,otroejemplodeestaslimitacionesesladificul
tadparadiseareimplementarunatareatannaturalcomoorganizartodos
losrecursoseducacionalesdeunpas,detalformaqueresultesencillopara
cadaestudianteyprofesorelpublicaryobtenerlainformacinquerequie
ran. Se necesitan vocabularios comunes, descripcin precisa de los datos
expuestos,publicacindistribuida,bsquedasautomatizadas.Enunafrase:
debidoalasenormesdimensiones,laWebsehaconvertidoenunatorrede
Babelnosloalniveldellenguajenatural,sinoesencialmentealniveldel
significado,contradiciendolasideasporlascualesfuecreada.Lasolucin?
Pavimentarelcaminoparalaconstruccindeagentesdesoftwarequepue
dan procesar informacin de la Web por nosotros. La nocin de Web
Semntica[4]estransformarlaWebactualdetalformaquelainformaciny
losserviciosseanentendiblesyusablestantoporcomputadorescomopor
humanos.LaWebSemnticacrearelambientenecesariodondelosagentes
desoftwarepuedanrpidamenterealizartareassofisticadasyayudaralos
humanosaencontrar,entender,integrar,yusarlainformacinenlaWeb.

MetadatosyRDF
LacaractersticadistintivadelaWebSemnticaserunlenguajeestn
dar de metadatos y ontologas, que permitirn que agentes de software
encuentrenelsignificadodelainformacinenpginasWeb,siguiendoenla
cesalasdefinicionesdetrminosclavesyreglaspararazonaracercadeellas
lgicamente.Los metadatossondatosdescriptivosacercadeunobjetoore
curso, sea ste fsico o electrnico. Las ontologas son especificaciones
formalesdevocabularioyconceptoscompartidosparaundominio.
Aunqueelconceptodemetadatosesrelativamentenuevo,losconcep
tos subyacentes han estado rondando desde que se organizaron grandes
coleccionesdeinformacin.Enreastalescomocatalogacinenbibliotecasy
18

Captulo1LaWebcomoespaciodeinformacinuniversal
museoshansidousadospordcadas,porejemplo,elDCC(DeweyDecimal
Classification),OCLC(OnLineComputerLibraryCenter),DublinCore.Una
maneratildepensaracercadelosmetadatoseslasumatotaldeloque
unopuededeciracercadecualquierobjetodeinformacinacualquiernivel
deagregacin.Haymuchostiposdemetadatos,ylosusosmscomunesse
refieren a documentacin de copyrights y accesos legales, versionamiento,
ubicacindeinformacin,indizacin,descripcindecondicionesfsicasde
recursos,documentacindesoftware,autentificacin,etc.
EnlaWeb,losmetadatostambinhanjugadounrolimportanteenre
as como catlogos de propsito general (Dublin Core, Open Directory
Project,Wikipedia),sindicaciny rating (RichSiteSummaryRSS,Platform
forInternetContentPICS),coleccionespersonales(msica,fotos),privaci
dad,etc.Ylosmspopulareshoysonsimplementetags,esdecir,etiquetas;
unlenguajequenotieneverbosniadjetivos.Simplementenombres.Todos
estosmetadatossonsectorialesyusanunadiversidaddemodelosylengua
jes.
Porelcontrario,senecesitaunlenguajedesignificados(demetadatos)
universal.EsteesRDF[5](delinglsResourceDescriptionFramework),quees
unlenguajediseadoparasoportarlaWebSemntica,delamismamanera
queHTMLesellenguajequeayudainiciarlaWeb.ElmodelodeRDFes
simple:eluniversoamodelar(laWeb)esunconjuntoderecursos(esencial
mente todo puede tener una URL); el lenguaje para describirlo es un
conjuntodepropiedades(tcnicamentepredicadosbinarios);lasdescripciones
sonoracionessimilaresenestructuraalmodelosujetopredicadoobjeto,don
deelpredicadoyelobjetosonrecursosocadenasdecaracteres.As,por
ejemplo, uno puede afirmar El creador de http://www.picarte.cl es
ClaudioGutirrez.Elvocabulariodelaspropiedadesparaestelenguajepue

19

Captulo1LaWebcomoespaciodeinformacinuniversal

Figura 1.2: La Torre de la Web Semntica

deserdefinidosiguiendolaslneasdadasenlosesquemasRDF(RDFSche
ma),ybsicamentesoncodificacionesdeontologasadiferentesniveles.

ElFuturodelaWeb
NoesfcilpredecirlosdesarrollosfuturosdelaWeb.Elproyectoini
cial de Tim BernersLee inclua el desarrollo de capas sucesivas para
permitirelintercambioglobaldeinformacinyconocimiento.Luegodela
estructurabsicaqueconocemos,vendrunacapadesemntica,demetada
tos.Estacapapermitiraprocesarlainformacinsemiautomticamente,es
decir,permitiraaagentesdesoftwareprocesarlainformacinenparaleloa
loshumanos.(NtesequelaWebactualesthechacasiensutotalidadpara
quesereshumanoslanaveguen.)
20

Captulo1LaWebcomoespaciodeinformacinuniversal
LaWebporsupuestohaevolucionadoenmilesdedirecciones,muchas
noprevistas,comoredessociales,blogs,etc.Muchoshanllamadoalconjun
todeestosdesarrollosnovedososnoprevistos Web2.0.Enloscaptulos
siguientestrataremosvariasdeestasfacetas.
Elfuturoestabierto.Hoyendanoesposiblepredecirlosusosfutu
rosdelaWeb,yaquyaentramosalcampodelacienciaficcin.

Parasaberms

TimBernersLee,TejiendolaRed,SigloVeintunoEds.,Espaa,2000.
TimBernersLee,OraLassilaLaWebSemntica,ScientificAmerican,2002.
LaWorldWideWebConsortium(W3C)hadispuestounabrevegua
introductoria,enespaol,sobrelawebsemntica:
http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica
http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica

Referencias
1.
2.

3.
4.
5.

CERN:Wherethewebwasborn.PageattheCERN.
http://public.web.cern.ch/public/en/About/Weben.html
TimBernersLee.InformationManagement:AProposal(1989).
http://info.cern.ch/Proposal.html
http://info.cern.ch/Proposal.html
http://www.w3.org/History/1989/proposal.html
http://www.w3.org/History/1989/proposal.html
TimBernersLee.TheWorldWideWebPastPresentandFuture:Exploring
Universality.http://www.w3.org/2002/04/Japan/Lecture.html
http://www.w3.org/2002/04/Japan/Lecture.html
W3CSemanticWebActivity:http://www.w3.org/2001/sw/
http://www.w3.org/2001/sw/
ResourceDescriptionFramework(RDF)/W3CSemanticWebActivity:
http://www.w3.org/RDF/
http://www.w3.org/RDF/

21

Captulo2
AnatomadelaWeb
RicardoBaezaYates

Introduccin
QuestructuratienelatelaraamundialdecomputadoresoWorld
WideWeb?(laWebdeahoraenadelante,aunquenomequedaclarosiesfe
meninoomasculino).Nadiesabe.Crecemsrpidoquelacapacidaddeella
mismaparadetectarsuscambios.Susconexionessondinmicasymuchas
deellasquedanobsoletassinsernuncaactualizadas.ElcontenidodelaWeb
eshoydemilesdeterabytes(unterabyteoTbesunbillndemegabytes)de
texto,imgenes,audioyvideo.Paraaprovecharestagranbasededatosno
estructuradaesimportantepoderbuscarinformacinenella,adaptndoseal
crecimientocontinuodelaWeb.
AligualqueInternet,lareddecomputadoresqueinterconectaelglobo,
queyasobrepaslos430millonesdecomputadoresconectadosenmsde
220pasesdurante2006,losservidoresWebtambincrecenenformaexpo
nencialdesde1993(unservidorWebeselsoftwarequeadministraunsitio
Web).Lamentablementenadiesabesunmeroexacto,puesnoesposiblea
partirdeunnombrededominiosabersiesonounservidorWeb(lamayo
racomienzaconwww,peromuchoslugaresnosiguenestaconvencin).
Ademsunmismocomputadorpuedemanejardistintosservidoresytam
binexistenservidoresvirtuales(unmismo servidorWebpuedemanejar
23

Captulo2AnatomadelaWeb

Figura 2.1: Principales caractersticas de la Web.

lgicamenteotrosservidores).Enelao2000,elnmerodeservidoresso
brepaslos10millonesyenmayode2007yallegabanalos120millones.

ConceptosBsicos
LaWebescompleja:haypginasestticasydinmicas,pblicasypri
vadas, con o sin metadatos, que representan la semntica de la Web, tal
comosemuestraenlaFigura2.1.
Laspginasestticassonaquellasqueexistentodoeltiempoenunar
chivo en algn servidor Web. Las pginas dinmicas son aquellas que se
creancuandounapersonainteractaconunservidorWeb,porejemplola
respuestaaunaconsultaenunbuscadoroelresultadoderellenarunformu
larioenunsitiodecomercioelectrnico.Actualmente,lamayorpartedela
Webesdinmica,ycomoenalgunossitiossepuedegenerarunnmerono
24

Captulo2AnatomadelaWeb
acotadodepginasdinmicas(porejemplo,uncalendario),laWebquepo
demoscrearesinfinita.
Laspginaspblicassonlasquetodaslaspersonaspuedenverylaspri
vadassonlasqueestnprotegidasporunaclaveoseencuentrandentrode
unaIntranet.Comocadapersonatieneaccesoadistintaspginasprivadas,
laWebpblicadependedelobservador.Enparticularcadabuscadorrefleja
unaWebpblicadistinta.Algunossitiostieneninformacinsemnticaque
ayudaalosbuscadoresyseestimaqueun5%deellostieneinformacinfi
dedigna.Sinembargo,mssonlossitiosquetieneninformacinfalsa,loque
sellamaspamdeWeb.

MineraWeb
ParacaracterizarlaWebdebemosrealizarunprocesodemineradeda
tosdelaWeb,loque eninglsse llama Webmining.Unametforasera
excavarlaWebyesposiblehacerloendistintaspartesdeella:ensuconteni
do,ensuestructurayensuuso.Elcontenidoylaestructuraserecolectan
conunsoftwarequerecorrelaspginasdelaWebysiguensusenlaces,un
programaqueeninglssellamacrawler.Elusoseobtienedelainformacin
quedejanlaspersonasalusarunsitioWeb,quesealmacenaenunabitco
ra.Acontinuacindetallamosbrevementecadaunodeestoscasos.

ExcavandoelContenido
Lomssimpleesrecuperarinformacinatravsdebuscadorescomo
GoogleoYahoo!.Peroesposibletambinusaranlisisdelenguajenatural
para entender parcialmente la semntica del texto, extraer otros objetos
comoimgenesoaudio,aprovecharlasmarcasdeHTMLparatransformar
elcontenidooextraerdatosespecficos,omejorarlosresultadosdelosbus
25

Captulo2AnatomadelaWeb
cadoresagrupandopginassimilares.Unodelosproblemasprincipaleses
cmoencontrarlaspginasqueposeenelcontenidoquenecesitamos,pues
sloencontrartodaslaspginasquesonindexablesyaesdifcil(verfigura
2.1).

DesenredandolaEstructura
LaestructuradelaWebescomplejayevolucionaeneltiempo.Hay
desdesectoresaltamenteconectadoshastaislasquesloconocenalgunos
buscadores.Laestructurapuedeserusadaporlosbuscadoresparajerarqui
zar los resultados (en base a las pginas ms referenciadas usando
heursticas como Pagerank) o para encontrar grupos de pginas que se
apuntanentresyrepresentancomunidadesdepersonasconinteresessimi
lares.Elproblemaprincipalenestecasoesentenderelprocesodeevolucin
ysurelacinconlaspersonasqueparticipanenl.

AnalizandoelUso
Analizarlasbitcorasdeacceso(logs)aunsitioWebeslomsintere
santedesdeelpuntodevistacomercial.Porejemplo,unapginaquenunca
esvisitadatalveznotienerazndeser,osipginasmuyvisitadasnoestn
enlosprimerosniveles,estosugieremejorarlaorganizacinynavegacin
delsitio.Porlotanto,esimportantedetectarpatronesdeaccesoysusten
dencias.Estadeteccinpuedesergenricaoparaunusuarioespecfico(lo
quepermitepersonalizarsitiosenformadinmica)ylosresultadospueden
serusadospararecomendarserviciosoproductos.Elproblemaprincipalen
estecasoespoderdiferenciaralosusuariosycundoseconectanodesco
nectan(determinarsesiones).

26

Captulo2AnatomadelaWeb

ElPrincipiodelMnimoEsfuerzo
GeorgeKiplingZipferaunlingistadeHarvardypublicen1949su
librosobreelprincipiodelmnimoesfuerzounaoantesdesudeceso,ala
prematuraedadde40aos.EldescubrimientoinicialdeZipfen1932fue
quesiunocontabaelnmerodevecesqueseusabacadapalabraendistin
tostextoseningls,ylasordenabademsfrecuenteamenosfrecuente,se
cumplaquelafrecuenciadelapalabraisima,multiplicadapori,eraigual
aunaconstanteC,ylaconstanteCdependadeltextoescogido.Actualmen
teesnecesarioelevar i aunexponente t mayorque1ycercanoa2para
muchos textos existentes, en particular en la Web. Graficando esta curva
usandounaescalalogartmicaenambosejes,ellaseconvierteenunarecta
conpendientenegativat[1].
Zipfexplicaestosresultadosempricoscomounacondicinhumana,
dondesiempreesmsfcilescribirunapalabraconocidaqueunamenosco
nocida.Fenmenossimilaresaparecenenotrosmbitoscomoelnmerode
citasbibliogrficasaunartculodadoolaspoblacionesdelasciudades.Di
versosautores,entreellosMandelbrotyMiller,argumentaronmstardeque
enrealidadlaleydeZipfrepresentalaconsecuenciadelasleyesdelaspro
babilidadesenprocesosasociadosacodificacindeinformacindondehay
muchodeazar.Sinquerertomarpartidoenestadisputacientfica,ciertao
nocierta,laleydeZipfaparecefrecuentementeenlaprcticayreflejabienla
actitudnaturaldeminimizarelesfuerzo,exceptuandoloscasosextremos,
queseranenelejemploinicial,usarmuypocaspalabrasousarmuchas.Tal
vezestaleysloexplicaladiversidadhumana,laqueseinclinamsporla
perezaqueporlaerudicin.Dehecho,quetseaahoraalrededorde1.8para
textoseningls,indicaunmayorsesgoenesadiversidad,yunadegradacin
eneltiempodelariquezadelvocabularioqueusamosalescribir.

27

Captulo2AnatomadelaWeb

LaWebcomounProcesoHumano
LaWebeselproductodeltrabajocolaborativodemillonesdepersonas.
Sihayalgnfenmenodondeelprincipiodelmnimoesfuerzoaparecerasi
existiera,eslaWeb.ApartedeladistribucindepalabrasenlaWeb,lassi
guientesmedidassiguenunacurvadeZipf:
Tamaosdelaspginasodeotrostiposdearchivos(imgenes,
audio,etc.).Enestecasolaleynoseajustabienalcomienzo,porque
hacerpginasconmuypocotextoproduceelpudordelavergenza
quecontrarrestaalmnimoesfuerzo.
Nmerodeenlacesquesalendeunapgina.Enestecasola
curvanoseajustamuybienenlosextremos,porquehacerunapgi
naconmuypocosenlacescaeenelcasodelpuntoanteriory,por
otraparte,haypginasconmuchosenlacesproducidasenformaau
tomtica.
Nmerodeenlacesquelleganaunapgina.Lamayoradelas
pginastienenslounenlaceaellasyhaypocaspginasconmu
chosenlaces.
Fechadeactualizacindelaspginas,existenmspginasnue
vasomodificadasqueviejas.
Nmerodecomponentesconexosdedistintotamao.Esdecir,
gruposdepginasenlasquesepuedenavegardecualquierpgina
aotrapgina.Estorepresentaenciertamedidaelnmerodepgi
nasdeunsitioWeb:muchossitiostienenpocaspginas,pocossitios
muchaspginas.
Usodelaspalabrasenlasconsultasaunbuscador(confirmado
experimentalmenteenTodoCL.cl).Elresultadoesquelamayorade
laspreguntassonmuysimples.

28

Captulo2AnatomadelaWeb
Loanteriorsepropagaaotrasmedidas,comotrficoenlared,usode
proxies,etc.Estodoestounacasualidadproductodelazarounfenmeno
delcomportamientohumano?.Sindudalarespuestaesqueestaleyesresul
tadodelprocesohumanodecreacindelaWeb.

CaracterizandolaWeb
EstructurayVisibilidad
CuntasreferenciastieneunapginaHTML?(HTMLesunacrnimo
paraHyperTextMarkupLanguage;ellenguajeusadoparaestructurarpgi
nasWeb).Msdel75%delaspginastienealmenosunareferencia,yen
promediocadaunatieneentre5y15referencias.Lamayoradeestasrefe
renciassonapginasenelmismoservidor.Dehecho,laconectividadentre
sitiosdistintosnoesmuybuena.Enparticular,lamayoradelaspginasno
sonreferenciadaspornadieylasquessonreferenciadas,losonporpginas
enelmismoservidor.
Considerandosloreferenciasexternas(entresitiosdistintos),msdel
80%delaspginastienenmenosde10referenciasaella.Otrossitiosson
muypopulares,teniendodecenasdemilesdereferenciasaellos.Siconta
mos sitios que referencian a sitios, aparecen ODP (www.dmoz.org), el
directorioabierto,yeldirectoriodeYahoo!enlosdosprimeroslugares.Es
tossitiossonlosqueconectanlaWeb.Porotrolado,hayalgunossitiosque
nosonreferenciadospornadie(estnporquefueronincluidosmedianteel
envodirectodeunadireccinWebaYahoo!uotrosbuscadores,peroque
realmentesonislasdentrodelaWeb).Enestemismosentido,laspginas
personalestambinsepuedenconsiderarcomoentesaisladosenmuchosca
sos.Asimismo,lamayoradelossitios(80%)notieneningunareferencia
29

Captulo2AnatomadelaWeb
haciapginasenotrosservidores.Estosignificaqueunaminoradelosser
vidoresmantienetodalacarganavegacionaldelared.Estadsticasrecientes
indicanqueel1%delosservidorescontienenaproximadamenteel50%del
volumendedatosdelaWeb,queseestimabamayora20,000millonesde
pginasdurante2006.

Tamaosycaractersticas
CmoesunapginaWebpromedio?UnapginadeHTMLpromedio
tienealrededorde5a7kilobytes(alrededordemilpalabras).Siagregamos
audioovideo,estepromedioaumenta.Dehecho,ladistribucindetamaos
sigueunadistribucindeZipf.Enotraspalabras,aunquelamayoradelos
archivossonpequeos,existeunnmeronodespreciabledearchivosgran
des;yhasta50kilobytespredominaelvolumendelasimgenes.Desdeall
hasta300kilobytessonimportanteslosarchivosdeaudio.Msalldeeste
lmite,llegandoavariasdecenasdemegabytes,tenemosarchivosdevideo.
Losformatosmspopulares(enbasealaextensindelnombredearchivo)
sonHTML,GIF,TXT,PDF,PSyJPG,entreotros.
CmoesunapginaHTML?Alrededordelamitaddeellasnotiene
ningunaimagen.Un30%notienemsdedosimgenesysutamaoprome
dioesde14Kb.Porotrapartehayunporcentajenodespreciable(mayoral
10%)depginasconmsde10imgenes.Laraznesquesonimgenesti
pogrficas,comoporejemplopuntosrojos,lneasdeseparacindecolor,
etc.LamayoradelaspginasusanHTMLsimple.Slounporcentajepe
queosiguetodaslasnormasyotroporcentajemayor(alrededordel10%)es
slotexto.Finalmente,lacalidaddeltextodejamuchoquedesear,pueshay
erroresdetipeo,erroresquevienedelaconversindeimgenesdedocu
mentosatexto,etc.Msan,lainformacincontenidapuedeestarobsoleta,

30

Captulo2AnatomadelaWeb
puedeserfalsaoengaosa.Hayquetenerestoenmentecuandousamos
unapginaWebcomofuentedeinformacinolareferenciamos.

LosSitiosImpenetrables
Estossitiossonaquellosquecontienenunaomspginasdondeun
buscadornopuedeextraerlosenlacesalaspginasinternasporquenousan
HTMLsinoundiseogrficobasadoenunprograma.Esdecir,laestticaes
prioritariaperoporignoranciamatasucontenido.Segnelltimoestudio
delaWebChilena[4],estossonel21%delossitios,esdecirmsde25mil
sitios.EstoincluyesitiosqueusanFlashensuportada,otrosquesonohacen
unallamadaaunprogramayunospocosqueusanmapasdeimgenesanti
cuados.Muchosdeestossitiostienenunaportadaimpenetrabledemsde
100Kbsdecdigo,sincontarimgenes,asqueademssonpocovisibles,
puesenunmdemnormaltardaranalmenos30segundosencargarse.
Unopuedeperdonarquelamayoradelasempresaschilenasnosepan
queFlashoJavascriptmalusadoconviertesussitiosenbvedasdeseguri
dad.Sinembargo,haycasosenqueestoesimperdonable:
Laempresasdetecnologasdelainformacinnopuedenapelar
alaexcusadeserignorantes.
Lossitiosdegobiernodebenserlosmspblicos,visibles1yf
cilesdeencontrardelaWeb.

Lasempresasdondelainformacinesunodesusvaloresfun
damentales. Y sin mencionar las empresas de este tipo que no
tienensitioWeb!

Porejemplo,cuandosuportadahacedifcillanavegacin.

31

Captulo2AnatomadelaWeb

LaWebcomounGrafo
Imaginemosqueporcadapersonaqueconocemosexisteunaconexin
directaentreellaysusamigos.Porejemplo,unnmerotelefnico.Sihace
mosestoparatodaslaspersonasdelmundo,tenemosungrafo(comolosde
laFigura2.2)muygrande.Enesegrafopodemosahoramedirdistancias
entredospersonasusandoelnmeromnimodellamadastelefnicasque
necesitaunapersonaparacontactarconotra.Porejemplo,silapersonaque
quierocontactarestenChinaesposiblequesiyoconozcounapersonaque
conoceaunapersonaenChina,elnmerodellamadasseapequeo(enel
mejorcaso,slotresllamadas).Ladistanciamximaentredospersonasse
llamaeldimetrodelgrafo,usandounaanalogageomtrica.Amediadosde
lossesenta,Milgramrealizunfamosoexperimentoutilizandopaquetesde
correoyestimqueeldimetrodentrodeEstadosUnidosera6.
Paraqueungrafotengaundimetropequeodebetenermuchascone
xiones.Sitodaslasconexionesexisten,eldimetroes1.Porotraparte,un
grafoaleatoriotieneundimetromuchomayor.Unmodelodegrafoquere
presentabienestefenmenoesaquelenelquecadapersonaestconectada
contodaslaspersonascercanas(geogrficamente)ysloconalgunaslejanas
demaneraaleatoriayconunadistribucindeprobabilidaduniforme.Este
modelosellamasmallworldomundopequeo,valgalaredundancia,ytam
binrepresentabienlaredneuronaldeungusanoylaredelctricadeloeste
deEstadosUnidos,entreotroscasos[2].
Afinalesdelos90,Albert,JeongyBarabsimidieronladistancia(n
meromnimodeenlacesparallegardeunapginaaotras)entre330mil
pginasdelaWeb[5].Conestoaproximaroneldimetroconunafuncinlo
gartmicaenelnmerodepginas.Alextrapolarestafuncin,considerando
queelnmerodepginasWebesdemsdemilmillonesdepginas,obtu

32

Captulo2AnatomadelaWeb
vieronqueeldimetrodelaWebesaproximadamente19.Esdecir,con19
clicksdelratnllegamosacualquierpginaWebdelplaneta.Ellosyotros
autoressugierenqueunbuscadorpodraaprovecharestoparaencontrarr
pidamentelapginadeseada.Sinembargo,estosignificasaberquenlace
seguir,unproblemaquenoestrivial.
AunqueelmodelodemundopequeopodraservlidoenlaWeb,
estemodelonoexplicacmounapersonaqueslotieneconocimientolocal
puedesaberaquincontactarparaencontraraotrapersona.Recientemente,
Kleinberg[6]hamodificadoelmodelooriginal,detalmodoquelasconexio
nes lejanas no siguen una distribucin uniforme, sino que una que es
inversamenteproporcionalalcuadradodeladistancia.Estadistribucines
ptimaenelsentidoqueminimizaelnmeropromediodellamadasqueha
raunapersonaparacontactaraotra,yexplicaloqueocurreenlaprctica.
LaWebesmsqueunsimpleconjuntodedocumentosendistintosser
vidores, ya que existen relaciones de informacin entre los documentos
mediantelosenlacesqueestablecenentreellos.Estopresentamuchasventa
jas,tantoparalosusuarios,alahoradebuscarinformacin,comoparalos
programasquerecorrenlaWebalahoradebuscarcontenidopararecolectar
(probablementeparaunmotordebsqueda).Debidoaestoseplanteala
Webcomounmodelodegrafodirigido,enelquecadapginaesunnodoy
cadaarcorepresentaunenlaceentredospginas.
Engenerallaspginasenlazanapginassimilares,demodoqueespo
siblereconocerpginasmejoresquelasdems,esdecir,pginasquereciben
unnmeromayordereferenciasquelonormal.EnbaseaestolaWebtiene
unaestructuraquesepuedeclasificarcomoredlibredeescala.Dichasredes,
alcontrariodelasredesaleatorias,secaracterizanporunadistribucindis
parejade enlaces yporque dichadistribucinsigueunaleydeZipf.Los
nodosaltamenteenlazadosactancomocentrosqueconectanmuchosdelos
33

Captulo2AnatomadelaWeb

Figura 2.2: Ejemplos ilustrativos de una red aleatoria y una red libre de escala.
Cada grafo tiene 32 nodos y 32 enlaces.

otrosnodosalared,comoseilustraenlaFigura2.2.Estoquieredecirquela
distribucindelosenlacesesmuysesgada:unaspocaspginasrecibenmu
chosenlacesmientrasquelamayorarecibemuypocosoinclusoninguno.

Conectividad
ParaconocerqupginasWebapuntanaunapginadadaesnecesario
recorrertodalaWeb,algoquelosgrandesbuscadoreshacenperidicamen
te.ElprimerestudiodelaestructuradelgrafodelaWebfuerealizadoa
partirdedosrecorridosdeAltavistaenMayoyOctubrede1999,cadauno
demsde200millonesdepginas(entreun20%yun25%delaWebenesa
poca)y1.500millonesdeenlaces.Sloalmacenaryprocesarelgrafoequi
valenteestodoundesafo.
Losresultadosdeesteestudiomostraronquelafraccindepginasde
laWebquesonapuntadaspor i pginasesproporcionala1/i2.1,mientras
quelafraccindepginasquetienenienlacesesproporcionala1/i2.7.Esto
significaqueelnmerodepginasmuyapuntadas(populares)yelnmero

34

Captulo2AnatomadelaWeb
depginasconmuchosenlacesesmuypequeo.Estosvaloressoncasilos
mismosparalosdosrecorridos,peseaqueentreellospasaron6meses.

Estructura
ParaanalizarlaestructuradelaWebsebuscanlaspartesdelgrafoque
estnconectadasentres.Elestudioyamencionado,yelnicorealizadoa
nivelglobal,muestraqueelncleoocentrodelaWebloconstituanmsde
56millonesdepginas,existiendouncaminoparairdecualquierpginaa
otra,conunlargomximo(dimetro)dealmenos28.Enotraspalabras,el
caminomscortoentredospginasenelpeorcasoimplicabavisitar28de
ellas.Estocontrastaconelmodelodelmundopequeomencionadoalco
mienzoquepredecaundimetromximode20pginasparatodalaWeb.
Enlaprcticaseencontraroncaminoshastadelargo900,loqueindicaqueel
dimetrodelaWebesmuchomayor.Detodosmodos,estenmeronoes
tangrandeconsiderandoquesoncientosdemillonesdepginas.
LaFigura2.3muestralaestructuradelaWebdeacuerdoalestudio
mencionado.Alaizquierdahaba43millonesdepginasdesdelascualesse
podallegaralcentro,peronoviceversa.Delmismomodo,aladerechaha
baotras43millonesquepodanseraccedidasdesdeelcentro,peroqueno
enlazabanpginasdelncleo.Alrededordeestosdosgruposhaytentculos
quecontienen44millonesdepginasyquesoncaminossinsalida,conla
excepcindealgunostubos,queconectanelgrupodelaizquierdaconelde
laderecha.Finalmente,tenemos17millonesdepginasqueestnagrupadas
enislasquenoestnconectadasalcentrodelaWeb.Muchossepreguntarn
cmoAltavistaconocaestasislassinoestnconectadasalrestodelaWeby
nopuedenserrecorridassiguiendoenlaces.Esmuysimple:estossonsitios
Webquefuerondirectamenteenviadosalbuscadoryporlotantoestnen
sundiceaunqueelrestodelmundonolasconozca.
35

Captulo2AnatomadelaWeb
Losautoresdelestudionohacenningunainterpretacinsobreestaes
tructura.EnlasinvestigacionesquehemosrealizadoenChile,quemuestran
unaestructurasimilar,elgrupodelaizquierdasonpginasmsnuevasque
annosondemasiadoconocidasyquesitienenxitopasarnalcentrodela
Web,dondeestnlaspginasconsolidadas.Encambio,enelgrupodelade
rechasonpginasantiguasquenoenlazanalcentrodelaWebporqueensu
pocaesaspginasnoexistan,perosfueronenlazadaspornuevaspginas.
TambinincluyenmuchossitiosWebquenotienenenlacesexternospero
quesehanpreocupadodetenerunenlacedesdeunbuensitio,porejemplo
vaenlacespublicitarios.
EnChilehemosencontradoquelaproporcindesitiosquesonislases
muyalta,muchomayorqueenelestudiooriginal,graciasaqueconocemos
todoslosdominios.cl.

Figura 2.3: Estructura del grafo de la Web.

36

Captulo2AnatomadelaWeb

DinmicadelaWeb
MsdelamitaddelaWebhanacidoohasidoactualizadaenloslti
mosseismeses.Partedeesecrecimiento,alrededorde20%,esreplicndose
atravsdesitiosespejosomirrorsuotrostiposdecopias(enalgunoscasos
plagio).Almismo tiempo granpartedelaWebmuere.Se estimaqueel
tiempopromediodevidadeunapginaesalrededordetresmeses.Otra
partedelaWebmuta,yaseaatravsdecambiosdenombresdedominio,
sitios,directoriosoarchivos.Escomounorganismocatico,comounacolo
nia de bacterias que est sobrealimentada en algunas partes y en otras
agoniza.
LadinmicaviolentadelaWebysuvolatilidadtieneconsecuencias
importantes.Porejemplo,sitiosWebnuevosserndifcilesdeencontrarsin
campaasdepublicidad,correoelectrnicooatravsdelacomunicacin
verbal entre personas. Lo mismo para los buscadores. Adems, los sitios
nuevostendrnmenossitiosquelosreferencien,conlosquesonmenosim
portantesparabuscadorescomoGoogleoYahoo!queusanlosenlacesaun
sitioparaevaluarsuimportancia.
UnsitionuevogeneralmentecomienzaenISLASoIN.Luego,siesco
nocido,pasaalcentrodelaWeboMAIN.Siluegodecidenoapuntaraun
sitioimportanteonoesactualizadopasaaladerechauOUT,opeoran,se
conviertenuevamenteenisla.LoscomponentesmsestablesenChileestn
enMAINyOUTquetienenel35%detodoslossitios.Enlafigura2.4,mos
tramos la dinmica de la estructura de la WebChilena. Los tonos claros
indicanlaprocedenciadelossitiosantiguos,mientrasquelososcurosrepre
sentanlossitiosnuevos.Eltamaodeltarrodebasuraindicalacantidadde
sitiosquedesaparecen.

37

Captulo2AnatomadelaWeb

Figura 2.4: Dinmica de la estructura del grafo de la Web Chilena entre los aos
2000 y 2002 [3].

LaWebChilena
DefinimoscomositioWebchilenoaquelqueterminaen.cloelcualsu
IPperteneceaunproveedorchilenodeInternet.Elltimoestudiorealizado
condatosde2006mostrlossiguientesresultados:LaWebchilenaestcom
puestapormsde170.000sitios,yestoscontienenmsde7millonesde
pginas.MuchasdesuscaractersticassonmuysimilaresalasdelaWeb
globalengeneral.
El14%delossitiosestnconectadosentresatravsdeenlaces
ytienenel53,3%delaspginas.Porotrolado,el49,5%delossitios
estcompletamentedesconectadoentrminosdeenlaces,perore
presentansloel14%delaspginas.
Unsitiopromediotiene43pginas,contenidasen0,304MiB,
con1,56referenciasdesdeotrossitios.
Undominiopromediotiene1,08sitiosy46,61pginas,conteni
dasen0,328MiB.

38

Captulo2AnatomadelaWeb
Cercade1/4delaspginaschilenasfuecreadaoactualizada
enelltimoao,loqueimplicaunaltogradodecrecimientoydina
mismo.
Alrededordel80%delaspginasdeChileestenespaoly
cercadel17%eningls.Otrosidiomastienenunapresenciamuy
leve.
LossustantivosquemsaparecenenlaWebchilenason:Chile,
producto,usuarios,servicioymensaje.TambinaparecenSantiago,
Web,blog,regineinformacin.
LospasesmsreferenciadosdesdeChilesonArgentina,Espa
a,Alemania,Reino Unido yMxico,y engeneralelnmero de
referenciasapasesextranjerosestrelacionadoconelvolumende
intercambiocomercial.
Lossitiosquerecibenmsenlacessonsii.cl,uchile.cl,mi
neduc.cl,meteochile.clybcentral.cl.

Losproveedoresdehostingconmayornmerodesitiosson
IFX Networks, VirtuaByte, TChile, Telefnica Internet Empresas,
DattaWebyPuntoWeb.

Respectoalacalidaddelaspginasysitios:
Detodoslossitios,el20%msgrandedeelloscontieneel99%
delainformacinenlaWebchilena,medidaenelnmerodebytes
contenidosensuspginas.
Cercadel21%delossitiosdeChilenosonfcilesdeencontrar
yaqueestnhechoscontecnologasnovisiblesparalosmotoresde
bsqueda,comoFlashyJavascript.
Unaspocaspginasacaparanlamayoradelosenlaces.Dehe
cho,sloel3%delaspginastienenalgnvalordecontenidoen

39

Captulo2AnatomadelaWeb
trminosdeestarreferenciadasdesdeotrossitios.Sinembargo,estas
pginasestnrepartidasenel35%delossitiosWeb.

Cercade5%delosenlacesyanoexisten.

RespectoalastecnologasWeb:
Delosservidoresqueentreganinformacin,elservidorWeb
msutilizadoesApachecon66,7%,seguidoporMicrosoftInternet
InformationServercon32,8%.
Delosservidoresqueentreganinformacin,elsistemaoperati
vo ms utilizado es Unix, con 48,5%, seguido por Microsoft
Windowscon38,5%.Adems,Linuxesutilizadoenun12%delos
servidores.
ElgeneradordepginasdinmicasmsusadoesPHPcon75%
departicipacinenelmercado.
ElformatodedocumentosmsusadoesPDF,con53%depar
ticipacin,seguidoporXMLconun21%.

Aproximadamentehayunadisponibilidaddeldobledearchi
vosconpaquetesdesoftwareparaLinuxqueparaWindowsenla
Webchilena.

40

Captulo2AnatomadelaWeb

Parasaberms

CentrodeInvestigacindelaWeb,http://www.ciw.cl
http://www.ciw.cl
GoogleLabs,http://labs.google.com
http://labs.google.com
SearchEngineWatch,http://www.searchenginewatch.com
http://www.searchenginewatch.com
TodoCL,elbuscadorchileno,http://www.todocl.cl
http://www.todocl.cl
WebInformationRetrievalresources,http://www.webir.org
http://www.webir.org
WorldWideWebConsortium,http://w3c.org
http://w3c.org
Yahoo!Research,http://research.yahoo.com
http://research.yahoo.com

Referencias
1.
2.
3.

4.

5.
6.

InformationonZipf'sLaw.http://www.nslijgenetics.org/wli/zipf/
http://www.nslijgenetics.org/wli/zipf/
S.Boccalettietal.ComplexNetworks:Structure&Dynamics.Physics
Reports,Elsevier.2006.
RicardoBaezaYates,BarbaraJ.Poblete,FelipeSaintJean.Evolucindela
WebChilena20012002.CentrodeInvestigacindelaWeb.2003.
http://www.ciw.cl/recursos/estudio2002/estudio2002html.html
http://www.ciw.cl/recursos/estudio2002/estudio2002html.html
RicardoBaezaYates,CarlosCastillo,EduardoGraells.Caractersticasdela
WebChilena2006.
http://www.ciw.cl/material/web_chilena_2006/index.html
http://www.ciw.cl/material/web_chilena_2006/index.html
R.Albert,H.JeongandAL.Barabsi.DiameteroftheWorldWideWeb
Nature401,130.1999.
J.Kleinbergetal.TheWebasagraph:measurements,models,and
methods.Proceedingsofthe5thInternationalComputingand
combinatoricsConference,1999.

41

Captulo3
Internet
JosMiguelPiquer

EldesarrollodeInternet2
Enlasdcadasde1970y1980loscomputadoressedesarrollabanrpi
damente mientras iba siendo claro que exista la necesidad de inter
conectarlosenredesmundiales,bsicamenteparapoderenviar mail desde
unapartedelmundoacualquierotra;necesidadbsicadelacomunidad
cientficaquehastaesemomentoslodisponadeunlentoypococonfiable
sistemadecartasinternacionalesparaintercambiarideasytrabajosescritos.
Sinembargo,estasredessedesarrollabanentornoauntipodetermina
dodecomputador:existanlaredesdecomputadoresIBM(BITNET),Digital
(DECNET),Unix(UUCP),etc.EnChilenosconectamosalaredBITNETya
laredUUCPen1986.AmbasconexionesllegabanalaFacultaddeCiencias
FsicasyMatemticasdelaUniversidaddeChile,peroBITNETllegabaal
2

Enellenguajecoloquial,muchasvecesellegousaintercambiablementelasnocio
nesdeInternetyWeb.Desdeunpuntodevistatcnicoesnecesariodiferen
ciarlas.Unaanalogapuedeayudaraaclararlaintuicindeestadiferencia:elsis
temadetransportedepasajerosterrestreestbasadoenunareddecarreteras.
Peroeltransportedepasajerosylareddecarreterassondoscosascompletamen
tediferentes,conproblemasdiferentes.LomismoocurreparalaWebrespectode
Internet.

43

Captulo3Internet
Centro de Computacin (en el segundo piso en Blanco Encalada 2120) y
UUCPalDepartamentodeCienciasdelaComputacin(enelprimerpisode
lamismadireccin).Estasredeseranincompatiblesentres,ynotenamos
formadeenviarmailsdesdelaunahacialaotra,porloquetuvimosporun
tiempounsistemadeinterconexinqueconsistadeunapersonaconundis
kettequesubaybajabalasescalerasconelmaildeunaredhacialaotra.
Lanecesidadclaradeconstruirunsistemainterconectadomundialen
tretodasestasredesfueunodelosmotoresfundamentalesdeInternet.El
mismonombreloindica:elobjetivoeraconstruirunainterred;unaredde
redes.Internetconquistelmundoatravsdedostecnologasclave:elpro
tocoloInternet(IP),quepermitaconectaraInternetacualquiertecnologa
deredexistente;yalsistemadenombresdedominioquepermititenerdi
recciones de correo electrnico nicas e independientes de la tecnologa
usada.En1986,enlaUniversidaddeChiletenamosvariasdireccionesde
mail,lasqueocupabanlacasitotalidaddelasuperficiedenuestrastarjetas
devisita.Sielnombredeusuarioerajperez,enlatarjetafigurabalasiguien
telista:
UUCP:...!seismo!uchdcc!jperez
BITNET:jperez@uchcecvm.BITNET
DECNET:uchvax.DECNET::jperez
X.400:S=jperez;P=uchdcc;A=d400;C=cl;

Alcomenzarausarnombresdedominio,ladireccindecorreosevol
vinica(jperez@dcc.uchile.cl)yse hamantenidoaspor20aos,a
pesardequelatecnologafsicadeinterconexinhacambiadomltiplesve
ces.Paralograresto,laUniversidaddeChiletuvoqueinscribirsecomola
organizacinacargodeadministrareldominio .CL,yaquefuelaprimera
enrequerirunnombredeestetipoenChile.

44

Captulo3Internet
Hoyresultadifcilimaginarlainformalidaddeesosaos,perotodo
estoocurrasinapoyooficialdeningntipo,yerasimplementeelesfuerzo
deungrupodeinvestigadoresmotivadostantoenChilecomoenelextranje
roparaqueInternetfuncionaraysedesarrollara.
Durantemuchosaoseldominio.CLcrecimuylentamente(verfigu
ra 3.1b). Al cabo de 10 aos, comenzaron a aparecer las inscripciones
masivasdenombresyhuboquecrearunaorganizacinformalqueadminis
trara los nombres (NIC Chile), un sistema de cobros por dominio y un
sistemadeadministracindelosconflictosquesurgenentornoaunnom
bre. NIC Chile contina operando el dominio .cl bajo el alero de la
UniversidaddeChilehastaeldadehoy.
Enelmundo,losnombresdedominiohansidounodelosprincipales
puntosdeconflictoentreelsectorprivado,elpblicoylacomunidadinter
nacional. Aunque se ha ido avanzando mucho y se han creado
organizacionesconbastanteapoyoparaadministrarlosanivelmundial,aun
persistenmuchasdiscusionesentornoalaoperacindelsistema,surelacin
conlasmarcasylapropiedadintelectualyelroldelosgobiernosenlosdo
miniosdepas.

Arquitectura
ParaquelaWebfuncione,serequieredeunaInternetqueproveabsi
camentelafuncionalidadquepermitaquecualquiercomputadorconectado
aInternetpuedaconectarseaunservidoridentificadoporlaURLutilizada.
PartedeesafuncionalidadlaproveeelISP(InternetServiceProvider)y
otrapartelaproveemicomputadoryotraelservidorwebdedestino.

45

Captulo3Internet

(a)

(b)
Figura 3.1: (a) Flujo de las News en 1993, (b) nombres inscritos bajo el
dominio .cl en 1993. Tomados de [1].

46

Captulo3Internet
LaarquitecturaInternetdivideestafuncionalidadencuatroservicios:
1. TraduccindenombrededominioadireccinIP(DNS)
Esteeselservicioinicialqueseinvocaparatraducirunnombrede
dominio (como www.ciw.cl) a una direccin IP (como
146.83.4.11),queesbsicamenteunnmeronicoqueserequiere
para poder llegar al computador destino. Este servicio es crucial
paraelfuncionamientoeficientedelaWeb,puestoquetodonombre
debesertraducidoantesdepoderconectarnosalservidor.Laopera
cinrequieredevariosservidoresdenombres(DNS)queresponden
por cada dominio, proveiendo redundancia y rapidez en las res
puestas.
EsteservicioesprovistoenparteporelISP,quiendebeproveernos
deunservidordenombresinicialaquienenviarlenuestrasconsul
tas,yenparteporservidoresporcadadominio.Enelejemplo,hay
ungrupodeservidorespara.clyotroparaciw.cl,losquerespon
denconladireccinIPdewww.ciw.cl.
2. ConexinyTransporte(socket)
UnavezobtenidaladireccinIPdelservidorestablecemosunaco
nexinconl,quepermiteenviaryrecibirdatosenformaconfiable.
Estosehaceatravsdeunsocketqueeslapartemscomplejadel
sistemaporqueimplementaunprotocolodecorreccindeerrores
quepermitetransmitirinformacinsobreunaInternetquepierde
datos,quelosdesordenayavecesinclusolosduplica.
Lainteligenciadel socket radicasloenlosextremosdelacone
xin:elnavegadoryelservidor.Elrestodelarednointervieneen
esteservicio,yesoesfundamentalparamanteneraInternetcomo

47

Captulo3Internet
unserviciobaratoyeficiente,dadoquelacomplejidadprincipalla
ejecutanloscomputadoresenlosextremos.Estocontrastaconlared
telefnicaqueestodolocontrario:lostelfonossontontosytodala
inteligenciaycomplejidad radicaenlaredmisma,loquelahace
muchomscara.
EsteservicionoesprovistoporelISP.
3. RuteodepaquetesIP
ElserviciobsicoquemedebeproveerunISPeselruteodelosda
tos que fluyen entre el navegador y el servidor, los que van en
paquetesseparadoslosunosdelosotrosyquedebenpasaratravs
devariasredespotencialmenteenpasesycontinentesdiferentes.
EsteeselserviciofundamentalquemeproveeelISP.
4. ProtocoloHTTP
Esteeseldilogoqueseestableceentreelnavegador(InternetEx
plorer, Mozilla Firefox, Opera, etc.) y el servidor web en el otro
extremounavezqueestnconectados.Elprotocolopermiteinter
cambiar contenidos de todo tipo, como texto, pginas web,
imgenes,audio,video,etc.TodalawebestbasadaenHTTP.
ElprotocolooriginalfuedesplegadoenInterneten1991yrpida
mentelecambilacaraaInternet;pas determinalesdetextoa
navegadoresmuyparecidosalosactuales.
Enresumen,elnavegadorenvaunaURLalservidor,quienleres
pondeconelcontenidoalmacenadoparaesaURLdemaneraqueel
navegador lo interprete y decida qu hacer con ste. El dilogo
HTTPterminaalterminaresatransferencia.

48

Captulo3Internet

ElgobiernodeInternet
EninglssehabladeInternetGovernance,quemsqueungobierno
esunaformadecontrolysupervisindelsistemaquenosdgarantasde
queestofuncioneenformaestableparatodos.
Enuninicio,cuandoChileseconectaInterneten1992,unpardeper
sonas controlaban los servicios y asignaban recursos casi sin formalidad
alguna.Solicitamos3aJonPostel,quienmanejabalosnombresdedominio,
quenosasignaralaadministracinde.clyaqueestabavacante.Nosdiola
respuestapositivarpidamente.
Estohacambiadomuchoyhoyesmuycomplejoeltemadelaadminis
tracinyasignacinderesponsabilidadesenInternet.Enestoparticipala
comunidadInternetcompleta,losgobiernosylosorganismosinternaciona
lescomolasNacionesUnidas.Alserdealcanceglobal,Internetnodebeser
controladaporningnpasenparticular,perolacomunidadletememucho
aunaadministracinburocrticatipoNacionesUnidas.
Porahora,elorganismoqueintentaadministrarestadiscusinylosre
cursosdeInternetesICANN,queesunafundacinsinfinesdelucrocon
residenciaenCalifornia,EstadosUnidos.Suautoridadesbastantecuestio
nada,perotodosrespetansusprocedimientosparagarantizarlaestabilidad
operacionaldeInternet.Amododeejemplo,.clesunodelospocosdomi
niosdepasquetieneunacuerdomarcofirmadoconICANNespecificando
lasresponsabilidadesdecadaparte.
ExisteunagranbatalladepoderentornoaInternetenlaactualidad[2].
Algunosopinanquelospasesdebentomarcontrolsobresusrecursosalser
un servicio bsico, los organismos internacionales consideran que deben
3

JorgeOlivos,PatricioPobleteyyo.

49

Captulo3Internet
existirleyesglobalespararegirlaylosusuariossloqueremosquesigafun
cionando.Afortunadamente,aestasalturasnoesfciltomaraccioneslocales
paraningunodelosactoresyserequiereunciertoconsensoparallevara
cabocualquiercambio,loquedaalgunasgarantasdequeelsistemasiga
operandoenformaestablepormuchosaosms.

Parasaberms

ParasabermssobreelgobiernodeInternet,visiteelsitiodeICANN:
http://www.icann.org
NICChile(http://www.nic.cl
http://www.nic.cl)seencargadeadministrarlosnombresde
dominioenChile.

Referencias
1.

2.
3.

RicardoBaezaYates,JosM.Piquer,PatricioV.Poblete.TheChilean
InternetConnectionorINeverPromisedYouaRoseGarden.INET'93.
http://www.nic.cl/inet93/paper.html
http://www.nic.cl/inet93/paper.html
.CL.WikipediatheFreeEncyclopedia:http://en.wikipedia.org/wiki/.cl
http://en.wikipedia.org/wiki/.cl
InternetGovernance.WikipediatheFreeEncyclopedia:
http://en.wikipedia.org/wiki/Internet_governance
http://en.wikipedia.org/wiki/Internet_governance

50

Captulo4
BuscandoenlaWeb
GonzaloNavarro
Sedicequelosmsjvenesnotienenideadecmoerabuscarinforma
cinantesque que existieralaWeb.Eso esslo parte de laverdad.Los
menosjvenestampocorecordamosgrancosa.Nosresultaunejerciciode
imaginacin muy difcil recordar cmo vivamos cuando, ante cualquier
consulta,desdeculturalhastadeentretenimiento,nopodamosescribirun
pardepalabrasennuestrobuscadorfavoritoyencontrarinmediatamente
montaasdeinformacin,engeneralmuyrelevante.
ParaoperarestemilagronobastaconInternet.Nisiquierabastaconla
Web.Elingredienteimprescindiblequesenecesitasonlosbuscadoresom
quinas debsqueda.Estosbuscadores,cuyosrepresentantesmsconocidos
hoysonprobablementeGoogle[1],Yahoo![2]yMicrosoftMSN[3],sonlos
queconocenenqupginasdelaWebaparecenqupalabras(ysabenbas
tante ms). Sinun buscador, deberamos conocer las direcciones Web de
todoslossitiosdebibliotecas,odeturismo,odecualquiertemaquenospu
dierainteresar,ylosquenoconociramosseracomosinoexistieran.Enun
sentidomuyreal,losbuscadoresconectanlaWeb,puesexistengrandespor
cionesdelaWebalasquenosepuedellegarnavegandodesdeotraparte,a
menosqueseuseunbuscador.Noesentoncessorprendentequecasiunter
cio del tiempo que los usuarios pasan en Internet lo dediquen a hacer
bsquedas.

51

Captulo4BuscandoenlaWeb

Figura 4.1: Arquitectura tpica de una mquina de bsqueda Web.

Estonosdaunaprimeraideadelgigantescodesafotecnolgicoycien
tfico que supone desarrollar un buscador. Debemos resolver cuestiones
bsicascomoqupginasdeberaconocerunbuscador?Qudeberaal
macenar de esaspginas?Qu tipo depreguntasdeberaaceptar?Qu
deberaresponderaesaspreguntas?Cmodeberamostrarlainformacin?
Ysassonslolaspreguntasmselementales.
Paraordenarladiscusincomencemosmostrandolaarquitecturatpica
deunamquinadebsqueda,enlafigura4.1.Ensta,laWebylosusuarios
sonelmundoexterioralbuscador.Todoloqueestaladerechaespartedel
buscador.

52

Captulo4BuscandoenlaWeb
EnelcrawlingserecolectanpginasdelaWeb,yaseanuevasoactuali
zadas.Elprocesodeindexamientoeselqueextraelosenlacesquepartende
laspginasledasyrealimentaelcrawlingconnuevasdireccionesparavisi
tar, mientras que almacena enel ndice lainformacin paraqu palabras
aparecenenqupginas,juntoconunaestimacindelaimportanciadeta
lesocurrencias. La bsqueda usa elndice pararesponder unaconsulta,y
luegopresentalainformacinalusuarioparaquestenavegueporella[4].

Crawling:qupginasdeberaconocer
unbuscador?
Sellamacrawlingalprocedimientodevisitarpginasparairactualizan
doloqueelbuscadorsabedeellas.Uncrawleresunprogramaquecorreen
lamquinadelbuscadoryquesolicitaadistintoscomputadoresdeInternet
queletransfieranelcontenidodelaspginasWebquellesindica.Paraes
toscomputadoresescasilomismoqueuncrawlerounserhumanovisite
suspginas:debeenviarleelcontenidodelapginasolicitada.
Qupginasdeberaconocerunbuscador?Estentadorresponderqueto
das!Perolamentablementeestonoesposible.LaWebcambiademasiado
seguido:unporcentajealtodelaspginascambiadeunmesaotro,yapare
ce un porcentaje importante de pginas nuevas. Internet no es lo
suficientementerpida:senecesitanmesesparatransmitirtodaslaspginas
delaWebalbuscador.Essimplementeimposiblemantenerunafotoactuali
zada de la Web. Ni siquiera es posible explorarla al ritmo al que va
creciendo!Lafotoquealmacenaunbuscadoressiempreincompletayslo
parcialmenteactualizada.Noimportacuntoscomputadoresusemosparael
buscador.Losmayoresbuscadoreshoyniseacercanacubrireltotaldela
Web.EsinclusodifcilsaberculeseltamaorealdelaWeb!Estoesan
53

Captulo4BuscandoenlaWeb
peorsiconsideramoslallamadaWebdinmica,formadaporpginasquese
generanautomticamenteapedido(porejemplo,alhacerunaconsultaalsi
tio de una lnea area), y que son potencialmente infinitas. Y esto
consideradoqueserefierensloalaWebpblica(deaccesogratuito).
Algunosnmerospuedendarunaideadelasmagnitudesinvolucra
das.En2005seestimabaquelaWebcontena11.500millonesdepginas,de
lascualeslosmayoresbuscadorescubranalosumoel70%.Algunosestu
dioscalculanquelaWebdinmica,porotrolado,puedellegaralos500mil
millonesdepginas.
QuerermantenerunafotodelaWebaldapuedecompararseconque
rerestaraltantodetodoloqueocurreentodaspartesdelmundo,hastalos
menoresdetalleslocales,medianteleereldiariocontinuamente.Vanocu
rriendomsnovedadesdelasqueesposibleirleyendo.Podemospasarnos
todoeltiempoleyendodetallesinsignificantesyperdindonosloshechos
msimportantes,opodemostenerunapolticamsinteligentedeseleccio
narlasnoticiasmsrelevantes,ypostergar(talvezparasiempre)lalectura
delasmenosrelevantes.
Untemafundamentalenunbuscadoresjustamenteeldedecidirqu
pginasdebe conocer,yconcuntafrecuencia actualizar elconocimiento
quetienesobrecadapgina.Uncrawlercomienzaconunconjuntopequeo
depginasconocidas,dentrodelascualesencuentraenlacesaotraspginas,
queagregaalalistadelasquedebevisitar.Rpidamenteestalistacreceyes
necesariodeterminarenquordenvisitarlas.Esteordensellamapoltica
decrawling.Algunasvariablesrelevantesparadeterminarestapolticason
laimportanciadelaspginas(deberaactualizarmsfrecuentementeuna
pginaqueesmsimportante,loquepuedemedirsecomocantidaddeve
ces que la pgina se visita, o cantidad de pginas que la apuntan, o
frecuenciaconquesebuscanlaspalabrasquecontiene,etc.),ylafrecuencia
54

Captulo4BuscandoenlaWeb
decambiodelaspginas(elcrawlerdeberavisitarmsfrecuentementeuna
pginaquecambiamsseguido),entreotras.

Indexamiento:qudeberaalmacenarse
delaspginas?
Elindexamientoeselprocesodeconstruirunndicedelaspginasvisita
dasporelcrawler.Estendicealmacenalainformacindemaneraquesea
rpidodeterminarqupginassonrelevantesaunaconsulta.
Nobastaconalmacenarlaspginastalcual,parapoderbuscarenellas
despus?No.Dadoslosvolmenesdedatosinvolucrados(losmayoresbus
cadoreshoyindexanmsde3milmillonesdepginas,queocupanvarios
terabytes),esimposiblerecorrerunaaunatodaslaspginasalmacenadasen
unbuscadorparaencontrarculescontienenlaspalabrasqueleinteresanal
usuario.Estodemorarahorasodasparaunasolaconsulta!
Elbuscadorconstruyeloquesellamaunndiceinvertido,quetieneuna
listadetodaslaspalabrasdistintasquehavisto,yparacadapalabraalmace
nalalistadelaspginasdonde staaparecemencionada.Conunndice
invertido,lasconsultassepuedenresolvermediantebuscarlaspalabrasen
elndiceyprocesarsuslistasdepginascorrespondientes(intersectndolas,
porejemplo).Lafigura4.2ilustraunndiceinvertido.
Losbuscadoresgrandesdebenprocesarhastamilconsultasporsegun
do. Si bien este trabajo puede repartirse entre varios computadores, la
exigenciasiguesiendoalta.Elmayorcostopararesponderunaconsultaesel
deleerdediscolaslistasdepginasapuntadasporelndiceinvertido.Es
posibleusartcnicasdecompresindedatosparareducirelespacioenque
serepresentanestaslistas.Conestoselograganarespacioyvelocidadsi
55

Captulo4BuscandoenlaWeb

Figura 4.2: Ejemplo de un ndice invertido para tres pginas Web.

multneamente.Puedenhacersetambinotrascosas,comoprecalcularlas
respuestasalasconsultasmspopulares.

Bsqueda:qupreguntasdebera
responder,ycmo?
Hemosestadoconsiderandoqueelusuarioescribealgunaspalabrasde
intersyelbuscadorledalalistadelaspginasdondeaparecenestaspala
bras. La realidad es bastante ms complicada. Tomemos el caso ms
elemental,deunaconsultaporunanicapalabra.Normalmentehaymillo
56

Captulo4BuscandoenlaWeb
nesdepginasquecontienenesapalabra,yestclaroqueelusuarionotiene
lamenorposibilidaddeexaminarlastodasparaverculessatisfacensune
cesidad de informacin. De alguna manera el buscador debe ordenar las
respuestasporsusupuestarelevanciaalaconsulta.
Existenmuchasformasdecalcularestarelevancia,quedanlugarame
jores o peores heursticas. Por ejemplo, uno puede considerar que una
pginadondelapalabrabuscadaaparecevariasvecesesmsrelevanteque
otradondeapareceunavez.Perosilapalabraaparecemsvecesenunap
ginaqueesmuchomslargaqueotra,entoncestalvezlapalabranoseatan
importanteenesapgina.Tambinunopuedeconsiderarcuanimportante
es lapgina ens (por ejemplo siesmuy visitada,o muy apuntada por
otras).Losbuscadoresutilizanfrmulasmatemticasparacalcularlarele
vanciaquetienenencuentaestosaspectos.
Existen tcnicas ms sofisticadas, por ejemplo llevar informacin de
cmosecomportaronotrosusuarioscuandohicieronestamismaconsulta
(porejemplo,elbuscadorpuedesaberquelagranmayoradelosusuarios
quebuscaronmp3terminaronyendoaciertossitiosespecficos).Estosella
mamineradeconsultasyesextremadamentetilparadarbuenasrespuestas
aconsultasquenodicenmucho.Tambinpuedeusarseinformacinposicio
nal, por ejemplo si la palabra aparece en el ttulo de la pgina o de los
enlacesquelaapuntan,puedesermsrelevantequesiaparececercadelfi
nal.
Lasituacinsecomplicacuandolaconsultatienevariaspalabras,don
de algunas pueden ser ms importantes que otras. Normalmente las
ocurrenciasdepalabrasqueaparecenenmuchosdocumentos,comolosart
culos y preposiciones, son poco importantes porque no sirven para
discriminar.Parapeor,suslistasdeocurrenciasenlosndicesinvertidosson
muylargas,ocupandoespaciointil.Porellomuchosbuscadoreslasomiten
57

Captulo4BuscandoenlaWeb
de sus ndices (intentebuscar and ensu buscador favorito).Laformade
combinarelpesodelasdistintaspalabrasdalugartambinamejoresopeo
res heursticas. Por ejemplo los buscadores en la Web normalmente
muestranslopginasdondeaparecentodoslostrminos,comounaforma
deeliminarrespuestasirrelevantes.Asimismo,losmejoresdanpreferenciaa
pginasdondelaspalabrasaparecencercanasentres.
PerolaverdadesqueenlaWebhaymucha,muchamsinformacin
delaquesepuedeobtenermediantebuscardocumentosquecontengancier
tas palabras. Esta limitacin se debe a que no es fcil implementar
bsquedas ms sofisticadas a gran escala. Conseguir responder consultas
mscomplejasaescaladelaWebesuntemaactualdeinvestigacin.Algu
nosejemplosson:
1. Buscarporcontenidoenfotos,audioovideo.Imagnesemos
trarunafotodesupromocinypoderencontrarotrasfotosdelas
mismaspersonasenlaWeb,inclusosinrecordarsusnombres.Ota
rarearunapartedeunameloda(inclusoconerrores)yencontrarel
mp3parapoderbajarlo.Existentcnicasparahaceresto,peronoa
granescala.Losbuscadoresofrecenbsquedadefotos,perobasada
enpalabrasqueunapersonaseencargadeasociaracadafotodu
ranteelcrawling.
2. HacerpreguntascomplejasquesepuedeninferirdelaWeb.
Porejemplopreguntascomoculeslafarmaciamscercanaque
vendaunantigripalaunprecioinferiora$3.000?yquuniversida
desdictanunacarreradeDiseo Grfico de 5aosenlaRegin
Metropolitana?Responderestetipodepreguntasrequierenormal
mentedeciertacooperacindequienescribelaspginas.

58

Captulo4BuscandoenlaWeb
3. Hacerconsultasconcomponentetemporal,comoquocurri
conelseguimientoenlosmediosdecomunicacinalasconsecuen
cias de la guerra en el Lbano en los meses siguientes a su
finalizacin?Estorequierellevarunacuentahistricadelosconteni
dosdelaWebalolargodeltiempo.

InteraccinconelUsuario:cmo
presentarlainformacin?
Yavimosquelasrespuestasquesemuestranalusuariosonslouna
mnimapartedelasquecalifican.Losbuscadoresnormalmentepresentan
unalistadelasprimeraspginassegnelordenquehanhechoenbaseala
consulta.Enestalistaseindicaladireccindelapgina(paraqueelusuario
puedavisitarlaconunclick)yusualmenteelcontextodeltextodondelaspa
labrasaparecen.Estoayudaalusuarioasaberrpidamentesilaspalabras
aparecenenlaformaqueesperaba(porejemplo investigacinpuederefe
rirseacientficaopolicial).
Podermostraruncontextorequierequeelbuscadornoalmaceneslo
elndiceinvertido,sinotambinelcontenidocompletodelaspginasque
indexa.Sibienelespacioesbarato,estoesunrequerimientobastanteexi
gente, pues el buscador debera tener suficiente almacenamiento para
duplicartodalaWebensusdiscos!Porejemplo,parareducirelespacio,el
buscadorpuedeevitaralmacenarlasimgenes.Lacompresindedatoses
tambintilparaaliviaresteproblema.
Losbuscadoressuelenserlosuficientementebuenoscomoparaque,en
ungranporcentajedelasveces,loquebusqueelusuarioestentrelaspri
meras respuestas que ofrece. De todos modos es posible pedirle que

59

Captulo4BuscandoenlaWeb
entregueelsiguienteconjuntoderespuestas,yelsiguiente,hastahallarlo
queunobusca.Laexperiencianormalesque,silarespuestanoestenlas
primeraspginas,esraroqueestmsadelante.Enesoscasosesmejorre
formular la consulta, por ejemplo hacindola ms especfica (si se
encontrarondemasiadaspginasirrelevantes)omsgeneral(siseencontra
ron muy pocas respuestas). Por ejemplo, en la figura 4.2, si buscramos
investigacinencontraramostantolapginadelCentrodeInvestigacin
delaWebcomolanoticiapolicial.Refinandolaconsultaa investigacin
policialtendramosmejorprecisin.Estaiteracinesfrecuenteenlasse
sionesconlosbuscadores,yconeltiempoelusuarioaprendeaformular
consultasmsexitosas.
Existen formas mucho ms sofisticadas de presentar la informacin,
peronuevamenteesdifcilaplicarlasasistemasmasivoscomolaWeb.Asi
mismosueleocurrirquelasinterfacesdemasiadointeligentesresultanser
demasiadocomplejasparalamayoradelagente.Inclusoloslenguajesde
consultamssofisticados,dondesepuedeindicarquelaspalabrasAyBde
benaparecer,perono C,normalmenteestndisponiblesenlosbuscadores
Web,peroseusanmuyraramente.Lareglaenestecasoesquelasimplici
dadeslomejor.

60

Captulo4BuscandoenlaWeb

Parasaberms

Elsitiowww.searchenginewatch.com
www.searchenginewatch.comestdedicadoalasestadsticassobre
lasprincipalesmquinasdebsquedaenlaWeb.
Lossitioshttp://www.press.umich.edu/jep/0701/bergman.html
http://www.press.umich.edu/jep/0701/bergman.htmly
http://www2.sims.berkeley.edu/research/projects/howmuchinfo2003/
http://www2.sims.berkeley.edu/research/projects/howmuchinfo2003/
estndedicadosaestudiarelcrecimientodelaWeb,yengeneraldela
cantidaddeinformacindisponibleenelmundo.
Elsitiowww.todocl.cl
www.todocl.cleselbuscadorchilenoTodo.cl.

Referencias
1.
2.
3.
4.

Google.http://www.google.com
http://www.google.com
Yahoo!http://www.yahoo.com
http://www.yahoo.com
MicrosoftMSN.http://www.msn.com
http://www.msn.com
RicardoBaezaYates,BerthierRibeiroNeto.ModernInformationRetrieval.
AddisonWesleyLongman,1999.Captulo13.

61

Captulo5
Manejodegrandesvolmenes
deinformacinutilizando
Clustersdecomputadores
MauricioMarn
Seestimaquelacantidaddetextoalmacenadoenlosdistintossitios
WebdelmundoesdelordendecentenasdeTerabytes,ylacantidaddein
formacindisponiblecrecedatrasda.Enesteescenarioesevidenteque
almacenaryprocesartodaesainformacinutilizandounslocomputador
esprcticamenteimposible.Loquehacenlosbuscadoresactualesesutilizar
muchoscomputadorespararesolverlosdistintospasosinvolucradosenla
produccindeunarespuestaaunaconsultadeusuario[1].Aesteconjunto
decomputadoresselesllamacluster.
Unclusterestcompuestodeunconjuntodecomputadoresinterconec
tadosmedianteunaredquelespermiteenviarsemensajesentreellos(ver
figura5.1).Estosmensajesseutilizanpararecolectarlainformacinnecesa
riapararesolverunadeterminadatareacomoporejemplolasolucinauna
consultadeunusuario.Enelclustercadacomputadortienesupropiame
moriaRAMydiscoparaalmacenarinformacin.Cadacomputadorpuede
leeryescribirinformacinensupropiamemoriaysinecesitainformacin

63

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores

Figura 5.1: P computadores con memoria local e interconectados mediante una


red.

almacenadaenotrocomputadordebeenviarleunmensajeyesperarlares
puesta.
Unejemploquemuestralamaneraenqueestotrabajaeselsiguiente
(verfigura5.2).SupongamosqueexistenPcomputadoresdeunclusterque
necesitantenerensumemoriaunlibrode N pginasparapodertrabajar,
perodicholibroseencuentraalmacenadoenunslocomputador,digamos
elcomputador1.Loquepuedehacerelcomputador1esdividirellibroenP
partescadaunadeN/Ppginasyenviarunapartedistintaacadaunodelos
P1 computadoresdelcluster.Luegodeestepasocadacomputadorqueda
conunapartedistintadellibro.Luego,enunsegundopaso,cadacomputa
dorenvaatodoslosotroslapartedetamaoN/Pquetienealmacenadaen
sumemoria.Alfinaldeestepasotodosloscomputadoresquedanconuna
copiacompletadellibro.
Unaestrategiaalternativaessimplementehacerqueelcomputadorque
tieneellibroenviunmensajeacadaunodelosP1restantescomputadores
conunacopiadellibro.Elresultadofinaleselmismo,peroesmenoseficien
tequeelprimermtodoporquenoexisteelparalelismoqueseproduceenel
64

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores

Figura 5.2: Enviando un libro de N pginas a P computadores.

segundopasocuandotodosalmismotiempoestnenviandounacopiade
supartedetamaoN/Patodoslosotros.

MquinasdebsquedayClusters
Enunclusterutilizadocomomquinadebsqueda,cadacomputador
tienesupropiamemoriaRAMydiscoparaalmacenarunapartedelainfor
macindelsistemacompleto.Porejemplo,sitenemosunacoleccindetexto
bajadodelaWebporelcrawlerqueocupaNbytesytenemosunclustercon
Pcomputadores,entoncespodemosasignaracadaunodelosPcomputado
resunafraccinN/Pdelosbytesdelacoleccin.Enlaprcticasilacoleccin
65

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores
completatieneDdocumentosopginasWeb,entoncesacadacomputador
delclusterseleasignanD/Pdocumentos.
Enunamquinadebsquedalasconsultasdelosusuarioslleganaun
computadorrecepcionistallamadobroker,elcualdistribuyelasconsultasen
trelos P computadoresqueformanelcluster(verfigura5.3).Talcomose
muestraenlafigura4.1,lasmquinasdebsquedautilizanunndiceinver
tidoparadisminuireltiempodeprocesamientorequeridoparaobtenerla
respuestaaunaconsulta.
DadoquecadacomputadordelclustertieneuntotaldeD/Pdocumen
tos almacenados en su memoria, lo que se hace es construir un ndice
invertidoencadacomputadorconlosdocumentosalmacenadoslocalmente
encadaunodeellos.Entoncescadavezqueelbrokerrecibeunaconsultade
unusuario,esteenvaunacopiadelaconsultaatodosloscomputadoresdel
cluster(notarquepodemosconsiderarungrupograndedeconsultascomo

Figura 5.3: Organizacin de un cluster de computadores.

66

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores
unlibroyporlotantoelbrokerpuededistribuirlasdemaneraeficienteutili
zando la estrategia de la figura 5.2). En el siguiente paso, todos los
computadoresenparaleloleendesdesumemorialaslistasinvertidasasocia
dasconlaspalabrasqueformanlaconsultadelusuario.Luegoserealizala
interseccindelaslistasinvertidasparadeterminarlosdocumentosquecon
tienentodaslaspalabrasdelaconsulta.
Altrminodeestepasotodosloscomputadorestienenunconjuntode
respuestasparalaconsulta.Sinembargo,lacantidadderespuestaspuede
serinmensamentegrandepuestoquelaslistasinvertidaspuedenllegara
contenermilesdeidentificadoresdedocumentosquecontienentodaslaspa
labrasdelaconsulta.Esnecesariohacerunrankingdelosresultadospara
mostrarlosmejoresKresultadosalusuariocomosolucinalaconsulta.
Pararealizarelrankingfinaldedocumentosesnecesariocolocaren
unodeloscomputadoresdelclusterlosresultadosobtenidosportodoslos
otros.Estoconelfindecompararesosresultadosunosconotrosydetermi
nar los mejores K. Sin embargo, enviar mensajes conteniendo una gran
cantidad de resultados entre dos computadores puede consumir mucho
tiempo.Esdeseablereducirlacantidaddecomunicacinentrecomputado
res.
Ahora,sicadacomputadorhacalculadolosmejoresresultadosparala
consultaconsiderandolosdocumentos(listasinvertidas)quetienealmace
nadosensudisco,entoncesnoesnecesarioenviarlostodosalcomputador
encargadoderealizarelrankingfinal.Bastaconenviaraestecomputador
los K mejoresdecadaunodelos P1computadoresrestantes.Esdecir,el
rankingfinalsepuedehacerencontrandolosKmejoresentrelos KP re
sultadosaportadosporlosPcomputadores.

67

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores
Peroestosepuedemejorarmasanyasreduciralmximolacantidad
decomunicacinentreloscomputadores.Dadoquelosdocumentosestn
uniformementedistribuidosenlosPcomputadoresesrazonablepensarque
cadacomputadortendrmsomenosunafraccinK/PdelosmejoresKre
sultadosmostradosalusuario.Entoncesloquesepuedehacerestrabajar
porciclosrepetitivosoiteraciones.Enlaprimeraiteracintodosloscompu
tadores envan sus mejores K/P resultados al computador encargado de
hacerelrankingfinal.Estecomputadorhaceelrankingyluegodeterminasi
necesitamsresultadosdelosotroscomputadores.Siesasentoncespide
nuevamenteotrosK/PresultadosyashastaobtenerlosKmejores(verfigu
ra 5.4). Esto porque si tenemos mala suerte podra ocurrir que para esa
consultaenparticularunodeloscomputadoresposealosKmejoresresulta
dosqueselevanaentregaralusuario,casoenquesenecesitanPiteraciones
paraobtenerlarespuestaparaelusuario.Peroesmuypocoprobableque
estoocurraparatodaslasconsultasqueseprocesanenunamquinadebs
quedagrande.Enlaprcticaserequierenunooalomsdositeraciones
paralainmensamayoradelasconsultas,locualpermitereducirconsidera
blementeelcostodecomunicacinentreloscomputadoresdelcluster.
Enlasmquinasdebsquedamsconocidasserecibenalrededorde
600consultasporsegundo.Unamaneradeexplotaralmximolacapacidad
deloscomputadoresdelclustereshacerlostrabajarenparalelo.Estosepue
de lograr asignando los computadores para hacer el ranking de manera
circular.Porejemplo,elcomputadorbrokereligealcomputador1paraha
cerelrankingdelaconsulta q1,alcomputador2paralaconsulta q2,...,el
computadorPparalaconsultaqp,elcomputador1paralaconsultaqp+1,yas
sucesivamentedemaneraqueenuninstantedadopodamosteneraPcom
putadoreshaciendoelrankingdePconsultasdistintasenparalelo.

68

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores

RecoleccindepginasWebyClusters
Parapoderrealizarconsultasdeinformacinenunamquinadebs
quedanecesitamosque stacontengainformacinactualizadadelaWeb.
Losbuscadorescomercialestienensoftwareenoperacinqueestconstante
mente conectndose a los sitios Web de todo el mundo para bajar los
documentosdelossitioseindexarlos(esdecir,actualizarelndiceinvertido
delamquinadebsqueda)yponerlosadisposicindelosusuarios.
LaWebmundialesinmensamentegrandeylosenlacesaInternettie
nenlimitacionesdevelocidaddetransferenciadedatos,porlotantonoes
posiblebajartodalaWebenunpardehoras.Porejemplo,actualmentebajar
todalaWebChilenatomade4a5dasutilizandounsolocomputadorco
nectado a un enlace de alta velocidad. Para bajar la Web mundial es
necesarioutilizarclustersdecomputadorescuyonmerovaraentrediezy
veintemilcomputadoresyesunprocesoquedemoravariassemanas.
Granpartedelxitodeunamquinadebsquedadescansaensucapa
cidad de almacenar la versin ms reciente de la Web. Por lo tanto es
necesarioestablecerunordenpararealizarlasvisitasalossitiosWebdema
nera de recuperar primero los sitios que son de mayor inters para los
usuarios.Unamaneradeasignarunamedidadeintersparalossitios
Webessuponerquelossitiosquesonmsapuntadosporotrossitiosreco
nocidoscomoimportantessontambininteresantesparalosusuarios.Un
sitioaesapuntadoporotrositiob,sienelsitiobhaypginasWebquetie
nenenlacesoreferenciasalaspginasdelsitioa.
LaprimerapginadeunsitioWebesllamada homepage.Unaoms
pginassondescubiertassi,cuandobajamosunapgina,stacontieneenla
cesapginasnuevasquenohansidoconsideradasanteriormente.Entonces
69

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores
sibajamoselhomepagedeunsitiopodemosdescubrirnuevaspginasdes
delosenlacesqueestapginatiene.
UnaestrategiapararecuperarlaspginasWebdelosdistintossitiosen
ordendeimportanciaescalcularunnmerorealqueindicalaimportancia
decadapginaquesedescubre.Laprximapginaabajareslaquepresen
taunmayorvalornumricoeneseinstante.Porejemplo,podemosusarla
siguientereglaparanumerarlaspginas.Inicialmentelesdamoselvalor1a
todoshomepagesconocidos.Cadavezquesebajaunhomepagelereparti
mosdemaneraequitativaelvalor1atodaslaspginasalasqueelhome

Figura 5.4: Ranking iterativo en un computador del cluster.

70

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores
pageapunta(pginasreferenciadasporlosenlacesdelhomepage).Asu
vez,estaspginasdesegundonivelapuntanaotraspginasyhacemoslo
mismo,esdecir,elvalordeestaspginasesrepartidoalaspginasapunta
dasporellasyassucesivamente.Lafigura5.5muestraunejemplodedos
sitiosconhomepagesdadosporlaspginasAyB.Enesteejemplo,lapgi
naCeslatercerapginaaserbajadapuestoquerecibeelvalor1/3desdela
pginaA,yelvalor1/4desdelapginaB.
LamaneradeponeramuchoscomputadoresabajarlaWebmundiales
distribuirdemaneraequilibradatodosloshomepagesconocidosenPcom
putadores.Porejemplo,enelcasodelafigura5.5elhomepageAesalojado
enelcomputador1yelhomepageBespuestoenelcomputador2.Deesta
maneraelcomputador1puedebajarlapgina A almismotiempoqueel
computador2bajalapginaB.Sinembargo,debehaberunpuntodecomu
nicacinentreloscomputadorespuestoqueunavezqueelcomputador1
bajalapginaA,estehanumeradocon1/3lastrespginasalasqueapunta
yporlotantopodraelegiracualquieradeestastrescomolasiguientepgi
naabajar.Luego,sinohaycomunicacinentreloscomputadores1y2,el
computador1podraelegirunapginadistintaalapgina C comolasi
guientepginaaserbajada.UnasituacinsimilarocurreconlapginaEsi
elcomputador1noleenvamensajesalcomputador2indicandocambiosen
lanumeracindelaspginasdelsitioB.
Unasolucinpocoeficienteeshacertrabajaraloscomputadoresenfor
maestrictamentesincrnicapermitindolesbajarslounapginaparaluego
realizarelintercambiodemensajes.Sinembargoestopuederesultarenuna
subutilizacindelparalelismodisponible,puestoquenosiempreocurren
casoscomoelmostradoenlafigura5.5.ParaunaWebinmensamentegran
deesmsprcticopermitirqueloscomputadorestrabajenbajandomuchas
71

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores

Figura 5.5: Dos sitios Web asignados a dos computadores.

pginasparaluegoiniciarunafasedeintercambiodemensajesyrenumera
cin de pginas. Claramente hay una situacin de compromiso entre la
cantidaddepginasquelesdejamosbajarantesdeiniciarlafasedecomuni
cacin,yelerrorquesepuedecometeralrenumerartardamente.
Estomuestraquealgunasveceshacertrabajaramuchoscomputadores
enparalelodemaneraeficienteinvolucrapensarenlasolucinaproblemas
quenosurgencuandosetrabajaconunsolocomputador.Enestecasopode
mosalcanzargraneficienciapermitiendoelerrorperodeformacontrolada.
Porejemplo,cadacomputadorpuedebajarunnmerondepginasyalfi
nalizarlafasedecomunicacindeterminarlamagnituddelerrorcometido
y,enbaseaesaevaluacin,ajustarelvalordenparaelsiguienteciclo.

72

Captulo5Manejodegrandesvolmenesdeinformacinutilizando
Clustersdecomputadores

Parasaberms

UnapresentacinenelCentrodeInvestigacindelaWebsobreelmismo
tema:www.ciw.cl/material/tw07mmarin.pdf
www.ciw.cl/material/tw07mmarin.pdf
ElartculoWebSearchforaPlanet:TheGoogleClusterArchitecture,de
LuizBarroso,JeffreyDeanyUrsHoelzle,comentalaarquitecturade
clustersdeGoogle:http://labs.google.com/papers/googlecluster.html
http://labs.google.com/papers/googlecluster.html

Referencias
1.
2.

RicardoBaezaYates,BerthierRibeiroNeto:ModernInformationRetrieval
AddisonWesleyLongman,1999.Captulos9y13.
LuizBarroso,JeffreyDean,UrsHoelzle.WebSearchforaPlanet:The
GoogleClusterArchitecture.IEEEMicro,Marzo/Abril2003(vol.23,nro.
2).Pginas2228.http://labs.google.com/papers/googlecluster.html
http://labs.google.com/papers/googlecluster.html

73

Captulo6
XML:TransformandolaWeb
enunaBasedeDatos
MarceloArenas
UnadelasrazonesparalapopularizacindelaWebhasidoeldesarro
llodeunainfinidaddepginasqueentregandistintosservicios;buscadores
comoYahoo!yGoogle,grandesrepositoriosdeinformacincomoWikipe
dia, tiendas electrnicas como Amazon, diarios y revistas electrnicas,
pginapersonales,etc.BajoestedesarrollohaestadoHTML,unlenguaje
quepermiteestructurartantolainformacincomolasposibilidadesdena
vegacinenunapginaWeb.
Durantelosltimosaos,lacantidaddeinformacinalmacenadaenla
Webhaidocreciendodemaneradramtica.Hoyningnusuariotienelaca
pacidadderecorrerlaWebenteraenbuscadeinformacin,yesnecesario
utilizarbuscadoresautomticoscomoYahoo!yGoogleparapoderrevisar
unafraccinsignificativadeestared.
Nadiepuedenegarlaimportanciayutilidadquetienenlosbuscadorespara
encontrarinformacinenlaWeb.Sinembargo,muchosusuariospuedende
cirquesuexperienciaconellosnohasidocompletamentesatisfactoria.A
medidaquelasconsultasquesequiererealizarsonmscomplejas,labs
quedadeinformacinpuederequerirdevarios,omuchos,intentosenlos
cualesesnecesariojugarcondistintosparmetros.Pienseporejemploenla
75

Captulo6XML:TransformandolaWebenunaBasedeDatos
consultadlalistadelibrosdeArielRubinstein.Pararealizarestaconsul
tabastaconponerArielRubinsteinenunbuscadoryusarlosprimeros
elementosdelalistaderespuesta(probablementeelprimero)paraencontrar
lapginadeesteautor,yahlalistadesuslibros.Peroahorapienseenla
preguntadlalistadelibrosdeArielRubinsteinysusprecios.Qucolo
caraenunbuscadorparaencontrarlarespuesta?Peoraun,pienseenuna
preguntacomolasiguientedlalistadelibrosdeArielRubinsteinquehan
bajadodeprecioenlosltimosaos.Cmosepuedebuscarestainforma
cinusandoYahoo!oGoogle?
Porqulosbuscadorestienendificultadesenlosejemplosanteriores?
UnadelasrazoneseselusodeHTML;esteesunlenguajequepermitedes
plegarinformacinqueesfcildeentenderparalosusuarios,peroqueen
generalesdifcildeinterpretarparaloscomputadores.Estasdificultadesya
puedenverseenejemplostansencilloscomoelsiguiente:
<html>
<bodybgcolor="#FFFFFF">
<center>
<h2>TodoLibros</h2>
</center>
<ul>
<li><b>Teor&iacute;adeJuegos.</b>
MartinOsborneyArielRubinstein.Precio:16000.</li>
</ul>
</body>
</html>

Estearchivoesusadoparamostrarlalistadelibrosvendidosporlali
breraTodoLibros.Ntesequeestearchivohasidoindentado(espaciado)
demaneraqueseafcilvisualizarlaestructurajerrquicadeldocumento.
Porejemplo,<li>correspondeauntemenlalistadefinidapor<ul>.Enun
76

Captulo6XML:TransformandolaWebenunaBasedeDatos
browsertalcomoFireFoxoExplorer,estalistaserdesplegadadelasiguien
teforma:

TodoLibros
TeoradeJuegos.MartinOsborneyArielRubinstein.
Precio:16000.

Paraunusuariolainformacinenestalistaesfcildeentender;esclaro
quehayunalistadelibros,cadaunoconsusautoresysuprecio.Sinembar
go,parauncomputadorestainformacinnoestanclara.Unadelasrazones
esqueelcomputadornotienelainformacindecontexto,ometainforma
cin,quetieneelusuario.Cmopuedeuncomputadordeducirqueest
frenteaunalistadelibros?Yaunsisabeesto,cmopuedeextraerinforma
cin desde el documento, por ejemplo los precios de los libros? Es
importantenotaraququeeldocumentoHTMLnotieneningunaindicacin
sobredondebuscarestainformacin,simplementedicecmodebeserdes
plegadalalistadelibros.As,elcomputadordebetratardeinterpretarel
textoparapoderextraerlalistadeprecios.Porejemplo,puedebuscarlapa
labraPrecioyelnmeroquelosigue(oantecede).Aunqueenestecaso
estopuededarbuenosresultados,lasituacinpuedevolversemscompli
cada si la lista contiene varios precios para un mismo libro (precio sin
descuento,condescuentoporcompraelectrnica,condescuentoaclientes
frecuentes,etc),oaunmscomplicadasiserequieredehaceralgunosclcu
los para saber el precio final (precio despus del 15% de descuento por
compraelectrnica).
LabsquedadeinformacinenlaWebpuedemejorarsesilosformatos
usadosparaalmacenarinformacinpuedenserfcilmenteinterpretadospor

77

Captulo6XML:TransformandolaWebenunaBasedeDatos
loscomputadores.UnapropuestaparahacerestoeselusodeXML,comose
verenlassiguientessecciones.

XML:Unlenguajeparaalmacenar
informacin
UndocumentoXML(eXtensibleMarkupLanguage[2])essimilaraun
documentoHTML;estcompuestopormarcadores,otags,queestnani
dadoscomoenelcasodeHTML.Lamayordiferenciaesquelosmarcadores
de HTML tienen significados predefinidos, tales como <title> y <ul>,
mientrasquelosdeXMLsondefinidosporelusuario.Porejemplo,elsi
guienteesundocumentoXMLquealmacenalamismainformacinqueel
documentoHTMLmostradoenlaseccinanterior:
<?xmlversion="1.0"?>
<libreria>
<nombre>TodoLibros</nombre>
<libro>
<titulo>Teor&iacute;adeJuegos</titulo>
<autor>
<nombre>Martin</nombre>
<apellido>Osborne</apellido>
</autor>
<autor>
<nombre>Ariel</nombre>
<apellido>Rubinstein</apellido>
</autor>
<precio>16000</precio>
</libro>
</libreria>

78

Captulo6XML:TransformandolaWebenunaBasedeDatos
Comopuedeverse,eldocumentoestcompuestopormarcadorestales
como<libreria>,<libro>y<autor>.Unmarcadorconnombre<a>esce
rrado por uno connombre </a>.Losnombres de los marcadoresfueron
definidosporunusuario,ylanicarestriccinquedebencumplir,comoen
elcasodeHTML,esquedebenestarcorrectamenteanidados;sileyendoel
documentodearribahaciaabajo<autor>aparecedespusde<libro>,en
tonces el marcador </autor> que lo cierra debe aparecer antes que el
marcador </libro> que cierraa <libro>,valedecir, <autor> debeestar
completamentecontenidodentrode<libro>.Atravsdeestoseespecifica
que<autor>esunodelosautoresde<libro>.
LosmarcadoresdeldocumentoXMLfuerondiseadosparamostrarde
formaclaralainformacinsobreunlibro.Siuncomputadorquierebuscarel
ttulodeunlibro,entoncesbastaconquebusqueelmarcador<titulo>,ysi
quiereencontrarelpreciodellibroconttuloTeoradeJuegos,entonces
bastaqueencuentreunmarcador<libro>quetengaTeoradeJuegosen
<titulo>,yque despus despliegue lo que seencuentraenelmarcador
<precio>dentrodeeselibro.Laformaenquelainformacinestagrupada
ylosnombresdelosmarcadoresleindicanauncomputadordndebuscar
informacin.
XMLentoncessurgecomounabuenaalternativaparaalmacenarinfor
macin;uncomputadortienemayoresposibilidadesdeinterpretaryextraer
informacindesdeestetipodedocumentos.Debemosentoncesreemplazar
HTMLporXML?Larespuestaesno.Estosdoslenguajestienendistintasfi
nalidades. Mientras HTML es usado para especificar cmo desplegar
informacinenunbrowser,XMLesusadoparaalmacenarinformacinyno
contieneindicacionesdecomomostrarla.Setieneentoncesquediseartec
nologasquepermitansacarventajasdelosdoslenguajes.Enlasiguiente
seccinsevercmohaceresto.

79

Captulo6XML:TransformandolaWebenunaBasedeDatos

TransformacindedocumentosXML
UnadelasrazonesparalacreacindeXMLfuetenerunformatoque
permitieraintercambiarinformacinenlaWeb.Laideaesquesivariasper
sonas o empresas desean intercambiar datos sobre un tema comn, por
ejemplolibros,yusanformatosXMLdistintosparaalmacenarsuinforma
cin, entonces puedan intercambiar informacin de manera sencilla. La
formadehacerestoesusandoalgnlenguajedetransformacinquepermi
tacambiardeunformatoaotro.Porejemplo,siunaempresausaelformato:
<autor>
<nombre>Martin</nombre>
<apellido>Osborne</apellido>
</autor>

paraalmacenarlosnombredeautoresdelibros,mientrasotrausaunforma
tomssimpledondeelnombreesalmacenadocomounasolapalabra:
<autor>MartinOsborne</autor>

entoncesunaregladetransformacindesdeelprimerformatoalsegundo
debeconcatenarelnombreyapellidodeunautorparagenerarsunombre
comounasolapalabra.
XMLfueelegidocomoellenguajeparaintercambiarinformacinpor
su gran flexibilidad, esencialmente cualquier documento XML es vlido
mientraslaanidacindelosmarcadoresseacorrecta.Ellenguaje elegido
paraespecificarlastransformacionesfueXSLT(ExtensibleStylesheetLan
guageTransformations[3]).Esteesunlenguajequebuscapatronesdentro
deundocumentoeindicacmoreestructurarlos.Porejemplo,buscaeltag
<autor>,ydespusindicaquelaspalabrasqueaparecendentrode <nom
bre>y<apellido>paraesteautortienenqueserconcatenadas.

80

Captulo6XML:TransformandolaWebenunaBasedeDatos
XSLTnoslopermitehacertransformacionesentredocumentosXML,
engeneralpermitegenerarcualquiertipodedocumentodesdeundocumen
toXML(HTML,textoplano,programaenalgnlenguajedeprogramacin
comoJavaoC++,etc).Enparticular,hoyesusadoporbrowserstalescomo
FireFoxyExplorerparapoderdesplegardocumentosXML.Laideaaques
simple:comoXMLesunmejorformatoparaalmacenarinformacin,convie
netenerlosdocumentosenlaWebenesteformato.SiundocumentoXML
tienequeserdesplegadoporunbrowser,entoncesseusaunconjuntodere
glasXSLTparagenerarundocumentoHTMLdesdelafuenteXML,elcual
esusadoporelbrowseraldesplegarlainformacin.Veamosestoenelejem
ploanterior.ParaindicarculeselprogramaXSLTausaraldesplegarun
documentoXMLseusaunalneaadicionaleneldocumento:
<?xmlversion="1.0"?>
<?xmlstylesheettype="text/xsl"href="libreria.xslt"?>
<libreria>
<nombre>TodoLibros</nombre>
<libro>
...
</libro>
</libreria>

Enelcampohref="libreria.xslt"seindicaquesedebeusarelar
chivoXSLT libreria.xslt.Enlafigura6.1semuestrapartedelconjunto
dereglasXSLTqueesusadoparatransformareldocumentoXML,coninfor
macinsobrelibroseneldocumentoHTMLmostradoenlaprimeraseccin.
Noseesperaaququeellectorpuedaentendertodoslosdetallesdeun
documentoXSLT,perosquedespusdeterminarestaseccintengauna
ideadecmofuncionaestelenguaje.Comopuedeverseenlafigura6.1,un
documentoXSLTestcompuestoporunaseriedepatronesquesondeclara
dosatravsdelmarcadorxsl:template.Cadaunodeestospatronestiene
81

Captulo6XML:TransformandolaWebenunaBasedeDatos
<?xmlversion="1.0"?>
<xsl:stylesheetversion="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:templatematch="/">
<html>
<bodybgcolor="#FFFFFF">
<center>
<h2>
<xsl:applytemplatesselect="/libreria/nombre"/>
</h2>
</center>
<ul>
<xsl:applytemplatesselect="/libreria/libro"/>
</ul>
</body>
</html>
</xsl:template>
<xsl:templatematch="/libreria/nombre">
<xsl:valueofselect="."/>
</xsl:template>
<xsl:templatematch="/libreria/libro">
...
</xsl:template>
...
</xsl:stylesheet>
Figura 6.1: Reglas XSLT para transformar un documento XML en HTML.

82

Captulo6XML:TransformandolaWebenunaBasedeDatos
unatributomatchqueindicadndesedebeusarelpatrn.Porejemplo,el
patrn:
<xsl:templatematch="/libreria/nombre">
<xsl:valueofselect="."/>
</xsl:template>

debeserusadoentodoslosnodosdeldocumentoXMLquesonalcanzados
siguiendoelcamino/libreria/nombredesdeelpuntoinicialdeldocumen
to.As,enelejemplosevaaalcanzarelelementoconmarcador<nombre>,
queeshijodelelementoconmarcador<libreria>.Enelpatrndearriba,
seutiliza xsl:valueof paraindicarquseleccionardesdeesteelemento,
enestecasoTodoLibrosyaqueseusaselect=".".
NtesequeeldocumentoXSLTtieneunsolopatrntalquematch="/".
Esteeselprimerpatrnquedebeserusado,yenlseindicaqueeldocu
mentoaconstruiresdelaforma:
<html>
<bodybgcolor="#FFFFFF">
<center>
<h2>
<xsl:applytemplatesselect="/libreria/nombre"/>
</h2>
</center>
<ul>
<xsl:applytemplatesselect="/libreria/libro"/>
</ul>
</body>
</html>

83

Captulo6XML:TransformandolaWebenunaBasedeDatos
EnestedocumentoHTMLaparecedosveces xsl:applytemplates.
Estoesusadoparaindicarqueenesospuntossedebecolocarlosresultados
deaplicarlospatronescorrespondientes.Porejemplo,enelcasode:
<h2><xsl:applytemplatesselect="/libreria/nombre"/></h2>

sedebeusarelpatrnquecontienelaexpresin match="/libreria/nom
bre".YasehabavistoqueestepatrngeneracomorespuestaTodoLibros,
porloquealhacerelreemplazosevaaobtener:
<html>
<bodybgcolor="#FFFFFF">
<center>
<h2>TodoLibros</h2>
</center>
...
</body>
</html>

SisecomparaestoconeldocumentoHTMLmostradoenlaseccinini
cial,sedarcuentaqueloquesemuestraarribacoincideconlaprimera
partedeldocumentoHTMLinicial.Paraconstruirelrestodeldocumentose
utilizaelpatrnquecontienelaexpresin match="/libreria/libro".Este
patrn,yelrestodeldocumentoXSLT,sonomitidosenlafigura6.1.
Enelenfoqueparaalmacenarinformacindescritoenestaseccin,los
datossonalmacenados enun archivo XML,elcual esdesplegado enun
browserusandounconjuntodereglasXSLTqueindicancmogenerarun
archivoHTMLdesdeelarchivoXMLoriginal.Parasacarelmayorprovecho
aesteenfoque,todavanosfaltaindicarcmosepuedeextraerinformacin
desdeundocumentoXML.Estoseverenlasiguienteseccin.

84

Captulo6XML:TransformandolaWebenunaBasedeDatos

ExtraccindeinformacindesdeXML
Enlasseccionesanterioressemostrunenfoqueparaalmacenarinfor
macinenlaWebenelcuallosdatossonalmacenadosenXMLymostrados
alosusuariosenHTML(utilizandotransformacionesescritasenXSLT).Se
argumentquesteeraunbuenenfoqueporquepermitatenerlomejorde
dosmundos:porunaparteparauncomputadoresmsfcilinterpretarin
formacinescritaenXML,yporlotantoesmsfcilextraerinformacin
desdeesteformato;yporotraparteHTMLproveedebuenasherramientas
paradesplegarinformacinenlaWeb.
Paraqueelenfoqueanteriorpuedallevarseacaboesnecesariotener
buenoslenguajesdeconsultaparaXML.Estoslenguajesdebensersuficien
temente expresivos como para permitir al usuario expresar consultas
generales,ytambindebenestaracompaadosdeprocedimientoseficientes
paraevaluarconsultas.EnestaseccinsevaaintroducirXPathyXQuery,
losdoslenguajesdeconsultamspopularesparaXML.
LaprimeraversinestandarizadadeXPathesde1999[4].XPathpuede
serconsideradocomoellenguajedeconsultamspopularparaXML,yaque
formapartedelamayorpartedeloslenguajesdeconsultaparaXMLy,en
particular,espartedeXQuery[1],comosevermsadelante.XPathprovee
unaseriedeherramientasquepermitennavegarundocumentoXML,selec
cionarelementosdesdelyextraerlosparaserdesplegadosousadospor
otrasconsultas.UnadelasrazonesdelapopularidaddeXPathesqueestas
herramientassonsimplesdeusar,ysonlosuficientementeexpresivaspara
podermanejarmuchasdelasconsultasquelosusuariostienenenlaprcti
ca.Adems,laestructurasimpledeestelenguajehapermitidoeldesarrollo
deprocedimientoseficientesparaevaluarconsultas.

85

Captulo6XML:TransformandolaWebenunaBasedeDatos
LamejormaneradeentenderXPathesatravsdealgunosejemplos.
SupongaqueseestutilizandoeldocumentoXMLconinformacinsobreli
brosdescritoenlaseccin6.1,yquesehautilizadorepetidasveceseneste
captulo.Siunusuarioquiereextraerelnombredelalibrera,entoncespue
deutilizarlasiguienteconsultaXPath:
child/?nombre/text()

EsencialmenteunaconsultaenXPathconsistedeuncamino,ysures
puestaeselconjuntodetodosloselementosquepuedenseralcanzadosen
undocumentoXML,siguiendoelcaminodesdeelprimerelementodeeste
documento.EnunaconsultaXPathsepuedenutilizarpalabrasquetienen
unsignificadoreservado(child y text() enelejemplo)opalabrascuyo
significadoestdadoporundocumento(nombreenelejemplo).Adems,en
unaexpresinXPathsepuedeutilizarelsmbolo?paraindicarquesequie
re chequear una condicin. En elejemplo, la palabrareservada child es
utilizadaparapasardeunelementoasushijosy ?nombreindicaqueslose
vaaconsiderarloselementosconmarcador<nombre>.Deestaforma,utili
zando la expresin child en el ejemplo se pasa de un elemento con
marcador <libreria>alosquetienemarcadores <nombre>y <titulo>,y
luegoutilizandoeltest?nombreseseleccionaelnicoelementoconmarca
dor <nombre> hijodelelementoconmarcador <libreria>.Finalmentese
utiliza text() para extraer el texto almacenado dentro del elemento con
marcador<nombre>,valedecir,TodoLibros.
Esimportantedestacarqueparasimplificarlapresentacindellengua
jeXPath,noseestusandoaqulasintaxisdeXPathdefinidaen[4],sinoque
unaversinsimplificada(peroquereflejalaformaenquetrabajaXPath).
Supongaahoraquesequiereextraerlalistadeapellidosdetodoslos
autoresdelibros.Parahaceresto,sepuedeutilizarlasiguienteconsulta:
descendant/?apellido/text()

86

Captulo6XML:TransformandolaWebenunaBasedeDatos
Lamayordiferenciaconlaconsultaanterioreslautilizacindelapala
bra reservada descendant, la cul indica que se debe utilizar a los
descendientesdelprimerelementodeldocumento,valedecir,aloselemen
tosquesonalcanzablesutilizandoloscaminoschild,child/child,child/
child/child,etc.Ntesequeestaconsultafuncionainclusoencasosenque
lainformacinsobreautoresesdadademaneramenosestructurada:
...
<primer_autor>
<nombre>Martin</nombre>
<apellido>Osborne</apellido>
</primer_autor>
<segundo_autor>
<nombre>Ariel</nombre>
<apellido>Rubinstein</apellido>
</segundo_autor>
...

Engeneral,seconsideraunaventajadeXPathelquepuedafuncionar
sobreinformacinsemiestructurada,yaqueenlaprcticalaestructurade
muchosdocumentosXMLesirregular.
Enestepunto,ellectorprobablementesehadadocuentadequelacon
sultaanteriorpuedefuncionardemaneraincorrectasieldocumentonoslo
contieneapellidosdeautores(porejemplo,contienelosapellidosdelagente
quetrabajaenlalibrera).Enesecasosepuedeutilizarlaconsulta descen
dant/?libro/descendant/?apellido/text() que busca apellidos que
aparezcandentrodeelementosconmarcador<libro>.
UnadelaslimitacionesdeXPatheslafaltadeherramientasparaes
tructurarlainformacinqueseextrae;unaconsultaenXPathretornaun
conjuntodeelementosynoundocumentoXML.XQueryesunlenguajems
87

Captulo6XML:TransformandolaWebenunaBasedeDatos
completo,queusaXPathparanavegardocumentosXMLytieneherramien
tasparaestructurarlainformacinextradacomoundocumentoXML[1].
EnelsiguienteejemplosemuestraunaconsultaXQuery:
let$lib:=doc("libreria.xml")
return
<lista>
{
for$xin$bib/child/?libro
for$yin$x/descendant/?apellido
where$y/text()=Rubinstein
return
<libro>
{
<titulo>$x/descendant/?titulo/text()</titulo>
<precio>$x/descendant/?precio/text()</precio>
}
</libro>
}
</lista>

AligualqueparaelcasodeXPath,enunaconsultaXQuerypueden
aparecerelementosquetienenunsignificadopredefinidoyotrosquedeben
serinterpretadosenundocumentoXML.Enlaconsultaanterior,letesuti
lizado para indicar que la variable $lib est ligada al documento
libreria.xml (unavariableenXQuerycomienzaconelsmbolo $).Ade
ms,enestaconsultaforesusadoparaindicarqueunavariabledebetomar
todoslosvaloresalcanzadosalutilizaruncaminoenXPath.Porejemplo,
for$xin$bib/child/?libro indicaque $x vaatomarcomovalorlos
elementosconmarcador<libro>quesonhijosdelprimerelementodeldo
cumento. Ntese que al igual que en un lenguaje de programacin, las

88

Captulo6XML:TransformandolaWebenunaBasedeDatos
instruccionesqueutilizanforpuedenapareceranidadas.Enlaconsultaan
terior, where esusadoparachequearunacondiciny return paraindicar
quealgodebeestarenlasalidadelaconsulta.As,porejemplo,enlacondi
cinwhere$y/text()=Rubinsteinsechequeaqueelapellidodelautor
quesevaautilizarseaRubinstein.Esimportantedestacarqueenunacon
sulta XQuery se puede indicar cmo se va a estructurar la respuesta
colocandomarcadoresXML.Enelejemplo,<lista>eselmarcadordelpri
merelementodeldocumentodesalida,ycontienecomohijosunaseriede
librosconmarcador<libro>.
Seguramenteellectoryasehadadocuentaquelaconsultaanteriorre
tornalalistadelibrosescritosporRubinsteinconsusprecios.Estaesunade
lasconsultasqueseplantealprincipiodeestecaptulo,yparalascualesno
eraclarocomoresponderlassilainformacineraalmacenadaendocumen
tosHTML.Comosemuestraenelejemplo,silainformacinsealmacenaen
formatoXML,unasimpleconsultaenXQuerypuedebastarparaextraerla
informacindeseada.Inclusoenelcasodelaconsultamscomplejavistaal
comienzodeestecaptulo(dlalistadelibrosdeRubinsteinquehanbaja
dodeprecioenlosltimosaos),unaconsultaenXQuerypuedeserusada
paraextraerlainformacindeseada.

Pararecordar
Qudeberarecordarellectordespusdenavegarporestecaptulo?
EllectordeberaestarsatisfechosilaarquitecturapresentadaenlaFigura6.2
leresultafamiliar.
EncasodequeellectornorecuerdetodosloscomponentesdelaFigura
6.2,aqudamosunbreveresumendeloquesetratestecaptulo.Ellengua
jeHTMLesusadoparaindicaraunbrowser(talcomoFireFoxoExplorer)la
89

Captulo6XML:TransformandolaWebenunaBasedeDatos
formaenquesedebedesplegarlainformacin.Aunqueelresultadodedes
plegarestainformacinesfcildeentenderparalosusuarios(comovemosa
diarioenlaspginasWebquevisitamos),es,engeneral,difcildeentender
parauncomputador.Parasolucionaresteproblema,XMLhasurgidocomo
unlenguajeparaalmacenarinformacin,queesdefcilprocesamientopara
uncomputador.EsimportantedestacarqueXMLnohavenidoareemplazar
HTML,muyporelcontrariosehaconvertidoensucomplemento;lainfor
macinsealmacenaenXMLysedespliegautilizandoHTML,loquenos
permitetenerlomejordeestosdosmundos.Unaseriedetecnologashan
sidodesarrolladasparasacarelmximodeprovechoalmatrimonioentre
HTMLyXML.Porunaparte,esnecesarioutilizarellenguajedetransforma
cinXSLTparapoderdesplegarcomoHTMLinformacinqueesguardada
comoXML.Porotraparte,lenguajesdeconsultatalescomoXPathyXQuery
son utilizados para extraer y analizar informacin que es almacenada en
XML.

Figura 6.2: Tecnologas para transformar la Web en una base de datos.

90

Captulo6XML:TransformandolaWebenunaBasedeDatos

Parasaberms

ElsitiodelaWorldWideWebConsortiumosimplementeW3C
(http://www.w3.org/
http://www.w3.org/)esunbuenlugarparainformarsedelosavancesen
lastecnologasWebcomoXML.
Elsitiohttp://www.w3schools.com/
http://www.w3schools.com/tienetutorialessobreHTML,XML,
XSLT,XPath,Xquery,etc.

Referencias
1.

2.

3.
4.

S.Boag,D.Chamberlin,M.F.Fernndez,D.Florescu,J.RobieyJ.Simon.
XQuery1.0:AnXMLQueryLanguage.RecomendacindelaW3C,enero
2007,http://www.w3.org/TR/xquery/
http://www.w3.org/TR/xquery/
T.Bray,J.Paoli,C.M.SperbergMcQueen,E.Maler,F.Yergeau.Extensible
MarkupLanguage(XML)1.0.RecomendacindelaW3C,agosto2006,
http://www.w3.org/TR/2006/RECxml20060816/
http://www.w3.org/TR/2006/RECxml20060816/
J.Clark.XSLTransformations(XSLT)Version1.0.Recomendacindela
W3C,noviembre1999,http://www.w3.org/TR/xslt
http://www.w3.org/TR/xslt
J.ClarkyS.DeRose.XMLPathLanguage(XPath)Version1.0.
RecomendacindelaW3C,noviembre1999,
http://www.w3.org/TR/xpath
http://www.w3.org/TR/xpath

91

Captulo7
UsoyBsquedade
InformacinGeogrficaenla
Web
AndreaRodrguez
SibienesciertoqueensusprimerostiemposlaWebcontenaesencial
mente documentos textuales, hoy en da y en forma creciente la Web
contienetambininformacinenformadeimgenes,mapas,audioyvideos.
Estoamplalasposibilidadesparaquebuscadorestradicionalesincorporen
nuevasfacilidadesenlabsquedadeinformacinyformasdepresentarlos
resultadosdeestasbsquedas.UnejemplodeestoeselyaconocidoGoogle
Earth[4],elcualnosbrindalaposibilidaddecombinarimgenessatelitales,
mapas,levantamientosdeterrenooedificacionesen3dimensionesparapo
der entregar informacin referente a lugares especficos (ej. hoteles,
hospitales,etc.),explorarinformacingeogrficageneralenformadevideos
omapas(ej.paisajes,mapasdetransporte,etc.)ycompartirlugaresdeinte
rsagregandoinformacinadicional(ej.fotos,notas,etc.).
LoquehacequeGoogleEarthnoseaslounconjuntodeimgeneses
questastienenlasemnticadadaporundominioparticulardeinforma
cin, eneste caso, como informacin geogrfica. Lo interesante es que si
sabemosdequtratalainformacin,entoncespodemosusarpropiedadest
93

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb
picasdesudominioquenosayudanaconseguirunamejorbsquedayre
cuperacin de informacin. Consideremos un ejemplo sencillo en el que
queremosencontrarhotelesenlaciudaddePucn.Unabsquedatradicio
nalrecuperaralosdocumentosquecontienenlaspalabrashotelyPucn,
independientemente de que Pucn corresponda a una entidad geogrfica
que,portanto,estcercanaaotraslocalidadesdecaractersticassimilares
comoVillarricaoCaburgua.Msan,eventualmenteunusuariopodrarea
lizarconsultasquevanmsalldelareferenciadenombredeunlugar,ya
seapormediodelaespecificacindelarelacindeunlugarconotro(ej.ho
telescercadePucn)obienestableciendoreasgeogrficasdeinters(ej.
hotelesenlaregindeLosLagos).Unopodrairmslejosytratardecombi
nardominiosdeinformacincomo,porejemplo,informacingeogrficay
temporal,talcomoseraelcasodeconsultarporacontecimientosocurridos
duranteunaciertapocayenunaregindeterminada.
Elobjetivodeestecaptuloesdescribiruncasoconcretoenelcualel
dominiodeinformacinhadadolugaraaplicacionesparticularesenlaWeb.
Esteeselcasodeinformacingeogrfica,paralacualdescribiremossure
presentacinyusoenlaWeb.

Culeseltipodeinformacin
geogrficaenlaWeb?
ExistendiferentesformasdeinformacingeogrficaenlaWeb(figura
7.1),lasquepodemosclasificarprimariamenteentrestipos:
Imgenes,enparticular,imgenessatelitalesque representan
unavistadelasuperficieterrestre.
Mapasdigitales,enlosqueesencialmentesedibujanobjetosen
unespaciogeogrfico.

94

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb
Textos,enlosquelasreferenciasalocalizacionesgeogrficasse
dan,principalmente,mediantenombredelugaresyterminologas
enlenguajenaturalparalasrelacionesconotroslugares.

Conelprimerysegundotipodeinformacingeogrficaunopuede
asociarinformacinalalocalizacindeunlugarporlascoordenadasque
describensulatitudylongitud.Taltipodeinformacinseutilizatpicamen
teenlavisualizacinymanipulacindemapasatravsdeserviciosWebde
informacingeogrficaoGeoWebServices.GoogleMaps[5]caedentrodeeste
tipodeserviciosproveiendounaplataformabasedecartografaeimgenes
satelitalesquenospermitensituarnosenunpuntoparticulardelespacio.
Elsegundotipodeinformacingeogrficatambinrepresentaelemen
tosenelespacio geogrfico aunque,implcitamente,mediante referencias
quenoestnbasadasenunsistemadecoordenadas,sinoque,msbien,se
asocianadiferentesaspectosdeundocumentoenlaWeb,especficamente:

dndefueroncreadoslosdocumentos,
dequtratanoaquserefierenlosdocumentos,

dnderesidenlosusuariosdelosdocumentos.

Amododeejemplodeestostiposdereferenciasgeogrficas,unusua
rio podra requerir manejar las pginas de la Web Chilena o encontrar
documentosquehaganreferenciaaConcepcinoaalgunaentidadgeogrfi
ca relacionada a esa ciudad, o bien determinar los documentos que son
usualmentevisitadosporusuariosubicadosenConcepcin.Elmanejodees
tas referencias geogrficas han impulsado la extensin de las mquinas
tradicionalesdebsqueda,dandoorigenalasdenominadasmquinasdebs
quedaWebgeogrficaoGeoWebSearchEngines.

95

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb

(a)

(b)
Figura 7.1: Tipos de informacin geogrfica: (a) pgina Web con geo-referencias
textuales y (b) servicio Web de mapas.

96

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb
ServiciosWebdeinformacingeogrficaymquinasdebsquedapue
dencombinarseenunmismosistema.Porejemplo,unopuedepensaren
tenerinformacincartogrficaquesirvedebasedevisualizacindedocu
mentostextualesmanejadospormquinasdebsquedaWebgeogrficas(ej.
GoogleEarth).

Servicioswebdeinformacingeogrfica
ServiciosWebdeinformacingeogrfica(GWSs:GeospatialWebServi
ces)soncomponentesmodularesdeaplicacionesquepuedenserpublicadas,
localizadaseinvocadasatravsdelaWeb,demododeaccesaryprocesar
datos de una variedad de repositorios de datos geogrficos (figura 7.2).
GWSsimplementantareasdeprocesamientogeogrfico,talescomovisuali
zacincartogrficaoplanificacinderutas.

Figura 7.2: Componentes de una arquitectura de servicios Web de informacin


geogrfica compuesta de: el solicitante de informacin, el agente descubridor de
los servicios que satisfacen a un solicitante y el proveedor de informacin tanto en
forma de mapa (WMS) o en documentos de objetos geomtricos o GML (FWS).

97

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb
LatecnologadeGWSssebasaenunaseriedeprotocolosestndares
derivadosdelXMLadiferentesnivelesdeespecificacin,desdeespecifica
cindeinformacingeomtricahastadescripcindemetadatos.Debidoa
queelnmerodeGWSsdisponibleshoyendaenlaWebcrecedemanera
rpidaycontinua,adicionalmentealosproblemasintrnsecosdelagrandi
versidad en la forma de describir y representar informacin geogrfica,
descubrirlosserviciosquecontienenlosdatosgeogrficosdeintersentreto
doslosserviciosdisponiblesesunatareacentralparaeldesarrollodeGWSs.
Comnmente,eldescubrimientodeserviciosWebesdeltiposintcticoatra
vs de interfaces estndares para una bsqueda basada en taxonomas o
palabrasclaves.
Enpresenciadediferentesproveedoresdeinformacingeogrfica,sin
embargo,esusualqueunasimplebsquedasintcticanopermitaundescu
brimientoapropiadodeinformacin.Consideremos,porejemplo,elcasode
quererencontrarmapasquedescribanparquesnacionalesenelsurdeChile.
UnodeberahacerunabsquedaporparquesnacionalesyporelsurdeChile
(larelacinenesgeneralmenteeliminadaenlosbuscadorestradicionales)o
porunasecuenciafijadecaracteresparquesnacionalesenelsurdeChile.Esta
bsquedameramentesintcticanopodraconsiderarlossiguientesaspectos
delasemnticadelaconsulta:
QuzonasincluyeelsurdeChile?
Culeslasemnticadelarelacinen?Qusucedesiunpar
quenacionalsesobreponeadoszonasgeogrficas(centroysurde
Chile)?

Sonlosparquesadministradosenlareginconsideradosna
cionalesono?

Todosestosaspectoshaninducidoanuevostrabajosdentrodelcontex
tode WebSemntica denominado GeoWebSemntica [1,8].Laideaescrear
98

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb
representacionesdelosrecursosdeinformacingeogrfica,yasociarestos
recursosconestructurasderepresentacinformalesqueestnsiendocons
truidasenelcontextodelaWebSemntica.

MquinasdebsquedaWebgeogrfica
MquinasdebsquedaWebgeogrfica(MBGs)surgencomounanue
vaformaderecuperarinformacindelaWebqueexplotadosideasbsicas:
(1)recursosenlaWebtienenunareferenciageogrficae(2)informacinge
ogrficamente cercana es ms relevante. La ideas de estas mquinas de
bsquedaesqueunopuedapreguntarporpalabrasclavesyporunalocali
dad geogrfica, de manera que los resultados de una bsqueda sean
documentosquehaganreferenciaaesalocalidadoaalgunageogrficamen
tecercana[7].As,losresultadospuedennosloserpresentadoscomouna
listadedocumentosenordenderelevancia,sinoquevisualmentecomosm
bolossobreunmapacuyasubicacionesindicanlaexistenciadedocumentos
quelasreferencian.Unaarquitecturaparaestasmquinasextiendelaarqui
tecturaclsicademquinastradicionales(figura7.3).
TresaspectosimportantesenlaimplementacindeunaMBGson:(1)
cmoextraerlasreferenciasgeogrficasyasociarun geocodingalosdocu
mentosWeb,(2)cmorealizarelindexamientodelaspginassegnsugeo
referenciaycontenidodemaneradeagilizarsubsquedaporpalabrascla
vesypornombre delugares,y(3)cmointroducir enlarelevancia(i.e.
ranking)delosresultadoselconceptodevecindadespacialoproximidadde
losdocumentosrespectoaunaconsultadeunusuario.Mientraslosdoslti
mosaspectosincorporanalosmecanismosdeindexamientoyrelevanciade
buscadorestradicionalesnocionesreferentealmanejodeinformacinespa
cial,geocodingesunatareaparticulardeMBGs.

99

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb

Figura 7.3: Una arquitectura para mquinas de bsqueda de informacin


geogrfica compuesta de: (1) crawling para recoleccin y segmentacin de
pginas Web en texto y geo referencias, (2) indexamiento para generar un ndice
que agilice la bsqueda en base a trminos y geo referencias, y (3) la bsqueda
que recupera y selecciona documentos en base a un ranking por contenido (texto)
y proximidad (espacio).

ExtraerlasgeoreferenciasdeunapginaWebnoesunatareafcil.
UnadelasformasmssimplesdegeoreferenciarunapginaWebesconsi
derarlalocalizacindelservidorquelacontienecomolugardereferencia.
OtraformadeasociargeoreferenciasadocumentosWebesagregandoin
formacin de metadatos geoespaciales (geo tags), denotando que el
contenidodelapginaWebesrelevanteparaciertalocalizacin.Estalocali
zacin puede ser descrita usando protocolos estndares basados enXML
talescomoelGeoRSS[6].Finalmente,otrastcnicasrealizanun parsing o

100

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb
segmentacindedocumentoscompletosparaextraernombresdelugares,
comociudadesoregiones.
Actualmente,eldesarrollodemquinasdebsquedaWebgeogrficas
presentagrandesdesafosparalainvestigacin.Algunosdeestostemasson:
Desarrollodeprototiposdebuscadoresagranescala.Estoin
volucra consideraciones de rendimiento y escalabilidad para la
recoleccin,indexamientoybsquedadepginascongeocoding.
Tcnicas que combinen procesamiento de lenguaje natural,
datamining,anlisisdeenlacesentredocumentosyestructurade
documentosparaobtenermejorasencuantoageocoding.
Crawlingyrankingqueincorporennocionesdelocalidad.As,
porejemplo,unopodraanalizarlaestructuraespacialydecone
xin entre las pginas Web y detectar pginas que sean ms
enlazadasglobalmente(ej.enelmundo)olocalmente(ej.enelpas).
Luegopginasconreferencialocalseranmsrelevantesenelcon
textodeunabsquedaconreferenciaaesalocalidad.
Procesamientodeconsultaydiseodeinterfacesdebsqueda
espacial.Enestesentido,analizarestrategiasderankingderesulta
dosquepermitanunamejorvisualizacindestosdemanerade
reflejartantosusimilitudespacialydecontenido.

MiningdedatosgeogrficosenlaWeb.Temasdeminingde
datosgeogrficosrefierenalanlisis (clasificacin, reconocimiento
depatrones,agrupamiento)delaestructura,usoycontenidodelas
pginasWebenbaseauncriterioespacial.Porejemplo,analizarla
distribucingeogrficadelaspersonasqueseconectanaciertossi
tiosyelenlaceentrepginasgeogrficamentedistribuidas.

101

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb

Parasaberms

LapresentacinASpatialDimensionforSearchingtheWorldWideWeb
http://www.ciw.cl/recursos/andreaHIS2002.pdftratatemasrelacionados
http://www.ciw.cl/recursos/andreaHIS2002.pdf
conlabsquedageoespacial.
EllibroTheGeospatialWeb:HowGeobrowsers,SocialSoftwareandthe
Web2.0areShapingtheNetworkSocietytrataestostemas.Sepuedever
uncaptulodeejemploen:http://www.geospatialweb.com/
http://www.geospatialweb.com/
WikipediatieneunaentradaparalaGeoweb:
http://en.wikipedia.org/wiki/Geoweb
http://en.wikipedia.org/wiki/Geoweb

Referencias
1.

2.
3.
4.
5.
6.
7.
8.

MaxEgenhofer(2002).TowardtheSemanticGeospatialWeb,ACMGIS:
SymposiumonAdvancesinGeographicInformationSystems,ACMPress,
pp.14.
ISO/TC.ISO/TC211Geographicinformation/Geomatics.
URL:http://www.isotc211.org/
http://www.isotc211.org/
OpenGis.OpenGIS'Specifications(Standards).URL:
http://www.opengeospatial.org/standards
GoogleEarth.URL:http://earth.google.com/
http://earth.google.com/
GoogleMaps.URL:http://maps.google.es/
http://maps.google.es/
GeoRSS:GeographicallyencodedObjectsforRSSfeeds.
URL:http://www.georss.org/
http://www.georss.org/
AndreaRodrguez(2002).ASpatialDimensionforSearchingtheWorld
WideWb,HybridIntelligentSystems,IOPress,pp.583592.
FredericoFonsecaandAndreaRodrguez(2007).FromGeoPragmaticsto
DerivationOntologies:NewDirectionsfortheGeoSpatialSemanticWeb.
TransactionsinGIS11(3):313316.

102

Captulo8
MultimediaenlaWeb
JavierRuizdelSolar

Eluniversocrecientedelainformacin
mutimedialenlaWeb
Elmundodigitalenelcualestamosinmersosgeneraunnmeroin
mensoysiemprecrecientededatosdigitales,quecadadaesmsdifcilde
administrar.Cmarasfotogrficas,cmarasdevideodigital,audiodigital,
televisindigital,Internet(mensajesinstantneos,Emails,etc.),msicayvi
deosdisponiblesenlaWebsonalgunasdelasprincipalesfuentesdeestos
datosdigitales.Deacuerdoalestudio Howmuchinformation? [1]enelao
2002cincoexabytesdeinformacinfueroncreadosenelmundo(1exabyte
correspondea1018bytes109gigabytes!),92%deestainformacinfuealma
cenadaendiscosdurosyalrededorde1,75%sehizoaccesibleatravsdela
Web.Nosecuentacondatosmsrecientes,peroseestimaquelacantidad
deinformacingeneradacreceatasasmayoresal30%anual.
DeestaformalaWebseesttransformandoenunabasededatosmul
timedial4 gigantesca.Sinembargo,estainformacinalmacenadaenlaWeb
4

Lapalabramultimediavienedeunirlaspalabrasdellatnmultum(mltiples,
muchos)ymedium(medios),osea,significaquelainformacinmultimedialpro
vienedemltiplesmedioscomotexto,audio,grficos,fotografas,videosyani

103

Captulo8MultimediaenlaWeb
estilsiempreycuandoposeamoslosmecanismosnecesariosparaencon
trarlainformacinquerequerimos,porejemplo,lacancinolafotografa
quenecesitamosenundeterminadomomento.Puedesucederqueapesar
dequelaimagenocancinseencuentreenlaWeb,noseamoscapacesde
encontrarla.EstaleltamaodelaWebquesonnecesariasherramientasque
nosayudenenlaslaboresdebsqueda.Estasherramientasdebenserms
sofisticadasquelasempleadasenlosbuscadorestradicionales(porejemplo,
GoogleoYahoo!),lascualesfuerondiseadasparabsquedadetexto,node
datosmultimediales.
Parasimplificarelprocesodebsquedadeinformacinmultimedialse
requierequeenelmomentoenquelainformacinseahechapblicaenla
Web,staseacorrectamenteclasificadaoanotada.Esdecir,alainformacin
quesealmacenarseledebedarunadescripcinadecuada,generalmente
textual(unnombreounafrase)quepermitaquelainformacinpuedaluego
serrecuperada.Cuandolainformacinaserhechapblicaesunobjetomul
timedialconocido,unacancinounapelcula,lainformacindelttuloes
suficienteparaquestepuedaserencontradofcilmente.Pienseporejemplo
enlascancionesdisponiblesenelsitioitunes[2].
Sinembargo,cuandoelobjetomultimedialnoesconocido,noesfcil
determinarculeselmejortextoquelodescribe.Cmopodramosanotar
adecuadamentelasmilesdefotografasdigitalesquetenemosalmacenadas
enlosdiscosdurosdenuestroscomputadores,olashorasdevideodigital
almacenadasencintasdevideo,olainformacingeneradaportodoslosca
nalesdenoticiasdelmundo,encasoquesequisierandejardisponiblesenla
Web?

maciones.Usualmentelainformacindetextopuronoseconsideracontenido
multimedial.

104

Captulo8MultimediaenlaWeb
Elproblemanoessolamentetemporal,esdecir,detenereltiemposufi
cientepararealizarlasanotaciones,sinodecmodescribirelcontenidode
unaciertafotografaovideo.Distintaspersonasgenerarndistintasdescrip
cionesendistintosinstantesdetiempo.Porejemplo,unapersonadenombre
JuanpuedesacarseunafotografadurantesusvacacionesenIsladePascua.
EnlafotografaapareceJuanconsuamigaMara,unaplayayunaembarca
cindenombreAnakena.Culeslamejordescripcinoanotacinpara
estafotografa?Juan?Juanenvacaciones?,JuanyMara?Anakena?pa
reja en la playa? vacaciones en Isla de Pascua? playa? mar? arena?
embarcacinenlaplaya?Obviamentetodasestasanotacionespodranutili
zarse,sinembargo,almomentodepublicarlafotografanopuedesaberse
culeslamejordescripcin.Lamejordependerdequseestbuscandoy
dequinrealicelabsqueda.Elproblemaobvioesquelaanotacinylabs
quedadelafotografasucedenendistintosinstantes,porloquealanotarla
imagennoseconocelosrequerimientosdesusfuturasoperacionesdebs
queda.
Unasegundaalternativaparaanotarobjetosmultimedialesconsisteen
usarcategorasfijascomolasqueporejemplousaelsitioYouTube[3]para
clasificarsusvideos.Elproblemaenestecasoesquealafotografaoalvi
deo a ser publicado se le debe asignar una cierta categora fija. Los
problemassonobvios:elobjetomultimedialaserclasificadopuedecaeren
msdeunacategorayladeterminacindelacategoradependedelserhu
manoquerealicelacategorizacin.
Unaterceraalternativapararealizarlasanotacionesespermitirqueun
sistemacomputacionalpuedanrealizarlasanotacionesenformaautomati
zada (sin intervencin humana) y por lo tanto objetiva. En este caso
pediremosalsistemacomputacionalquegenereunadescripcindelobjeto
multimedialaseranotado.Estadescripcinseusarposteriormentecomo

105

Captulo8MultimediaenlaWeb
unndice,pormediodelcualsepodrbuscaralobjetoencuestin.Alusar
ndices,latareadeanotarsedenominaindexacin5.Seleagregaeladjetivo
automatizadaparaenfatizarelhechodequeestalaborserealizasininter
vencinhumana.

Indexacinautomatizadadela
informacinmultimedial
Laindexacinautomatizadadeinformacinmutimedialtraeconsigo
mltiplesbeneficioscomoahorroentiemposdebsquedayestandarizacin
enlasanotacionesdelasimgenes.Comofuemencionadoanteriormente,
lossereshumanosrealizananotacionesoclasificanlasimgenesdeacuerdo
acriteriospropios.Adems,cuandounhumanoanotaunaimagensepreo
cupaobviamentedelasnecesidadesdebsquedapresentesynopiensaen
lasfuturas.Estoprovocaquelainformacinquenoesanotadaenelpresen
te, no pueda ser buscada en el futuro. Sin embargo, la indexacin
automatizadapermiteanotarenformaobjetivalamayorcantidaddecarac
tersticasposiblesydeestaformaanticiparsealasnecesidadesfuturasde
bsquedadelusuario.
Existenindexacionesdetipotexto(cadaimagenrecibeunadescripcin
textualexplcita,i.e.unafrasequelarepresenta),poratributos(cadaimagen
esdescritamedianteunaespecificacindeciertosatributosquecontiene,ej.
texturas)oporcontenido(laforma,elcoloroalgunaotracaractersticade
losobjetosquecontienelaimagenesutilizadaenformaimplcitaparasuin
dexacin).Encadaunodeestoscasoelobjetomultimedialsealmacenajunto
asudescriptorenlabasededatos.
5

Seutilizantambinlostrminosindizacin(dendice)eindexamiento(delingls
index).

106

Captulo8MultimediaenlaWeb
Enlafigura8.1semuestralafotografadeunamujersentadaenunjar
dn, y dos posibles tipos de indexacin, usando descriptores de texto y
color.Enelcasodelosdescriptoresdetexto,laentradaalsistemaesuna
descripcintextualentregadaporunhumano,yelmdulodeindexacin
automatizada(enrigorsemiautomatizadaenestecaso)determinaunaver
sinreducidadeldescriptordetextousandounalgoritmodestemming,que
filtraalgunaspalabras(ejemplo:artculos,conjunciones)yreduceotrasasu
raz(verbosysustantivos).Enelcasodelosdescriptoresdecolorsemuestra
elusodehistogramasdecolorRGB,quepermitencalcularestadsticasdel
contenidocromticodelaimagenenloscanalesrojo(R:red),verde(G:gre
en)yazul(B:blue).

Figura 8.1: Ejemplo de clculo de descriptores de texto y de color sobre una


imagen.

107

Captulo8MultimediaenlaWeb

BsquedaoRecuperacinde
informacinmultimedial
Lasoperacionesdebsquedadeinformacinmultimedial,tambinco
nocidas como recuperacin6 de informacin multimedial, se realizan
utilizandolosdescriptoresalmacenadosenlabasededatosjuntoalosobje
tosmultimediales7.Elsistemaidealdebsquedadebiera,apartirdeuna
descripcintextualenlenguajenaturaldelcontenidodeunaimagen,encon
trar todas aquellas imgenes que corresponden a dicho contenido, sin
importarcomostasfueronanotadas.Porejemplo,imgenesconperros,
imgenesdelhundimiento deunbarco,imgenesdeIsladePascua,
fotosdemimam,etc.Sinembargo,estesistemaidealnoesrealizableen
laactualidad.Silasimgenesfueronanotadasusandodescriptorestextuales
esmuypocoprobablequelaspersonasqueanotarondichasimgeneshayan
utilizadolosmismosdescriptorestextualesusadosenlaoperacindebs
queda.Silasimgenesfueronanotadasutilizandounsistemadeindexacin
automatizadaenbaseasucontenidodebajonivel(color,bordes,textura,
etc.)esdifcilencontrarlaadecuadacorrespondenciaentrelosdescripciones
textualesdealtonivelutilizadosporlossereshumanos,paradescribirel
contenidodelasimgenes,ylasdescripcionesdebajonivelutilizadaspor
lossistemascomputacionalesderecuperacindeimgenes.Esteproblema
seconocecomoelgapsemnticoexistenteentrelasdescripcionesdebajoy
altonivel[4].
Debido alnoresuelto problemadelgapsemntico,enlaactualidad
debeutilizarseelmismotipodedescriptorestantoparaanotarcomopara
6
7

Enlaliteraturacientficadehablainglesaestaoperacinseconocecomoretrieval.
Recordemosqueennuestrocasoestamosinteresadosenbasesdedatosaccesibles
atravsdelaWeb.

108

Captulo8MultimediaenlaWeb
recuperarlasimgenes.Deestaformaexistendostiposdesistemasdeinde
xacinprincipales:aquellosbasadosendescriptoresdetextoylosbasados
endescriptoresdecontenidodebajonivel,extradosdeimgenesdeejem
plo.
Sistemasdebsquedaenbaseaanotacionestextuales.Seutilizandes
criptoresdetexto,yelproblemadebsquedaorecuperacindeunobjeto
multimedialsereducealacomparacinentreeldescriptordetextoquedefi
nelaoperacindebsquedaylosdescriptoresdetextoalmacenadosenla
basededatos(figura8.2).Comofueanteriormenteexplicado,losproblemas
conestosmtodosson:(i)distintossereshumanosrealizandistintasdescrip
ciones (anotaciones) de una misma imagen. (ii) Las anotaciones de una
imagenestnrelacionadasalarelevanciadelosobjetosypersonasquese
encuentrenenella.Pero larelevancia delcontenidopuede cambiar enel
tiempo.Porejemplo,previoalescndaloLewinski,enlaimgenesdevideo
almacenadasenlaCasaBlancanadiehubieraanotadolapresenciadeLe
winski.Luegodelescndalosusimgenessehicieronrelevantes.
Sistemasdebsquedaporcontenidoenbaseaejemplos.Dadaunaimagen
deejemploelsistemadebsquedaretornaimgenesparecidasencontenido
alejemplo.Comopasointermedioelsistemaextraeenformaautomatizada
undescriptordelcontenidodebajoniveldelaimagen,elcualescomparado
conlosdescriptoresdebajonivelalmacenadosenlabasededatos(figura
8.2).Medianteestetipodesistema,lasimgenesqueretornansonparecidas
alasdelejemplo.Deestaforma,silaimagendelejemplocontieneunapues
tadesol,elsistemaretornaimgenesdepuestasdesol;ysilaimagendel
ejemplocontienerboles,elsistemaretornaimgenesderboles.Comoeste
tipodesistemastieneporobjetivolarecuperacindeimgenesparecidasa
ladeejemplo,lacomparacinentrelosdescriptoressetraduceenladetermi
nacindelasimilituddeestos.Algunasmedidasdesimilitudcomnmente

109

Captulo8MultimediaenlaWeb

Figura 8.2: Sistema estndar de recuperacin de informacin multimedial.

usadassondedistanciavectorial(Euclidiana,deMahalanobis,etc.)ycorre
lacin. Entre los descriptores de bajo nivel ms utilizados se encuentran
aquellosbasadoseninformacindecolor(e.g.histogramasdecolor),textu
ras (e.g. matrices de coocurrencia) y bordes (e.g. histogramas de bordes
direccionales).
Finalmente,cabesealarquetambinexistensistemasdebsquedaen
baseacategoras.Enestecasoelusuarioseleccionaunacategorayelsiste
ma de bsqueda retorna objetos multimediales correspondientes a esa
categora(sereshumanos,animales,Chile,frica,deportes,etc.).
Talcomofuesealadoanteriormente,laprincipallimitacindeestossiste
mas es la rigidez del sistema de categorizacin, y que el usuario debe
navegarporunsinnmerodecategorasysubcategorashastaencontrarel
objetomultimedialrequerido.

110

Captulo8MultimediaenlaWeb

Parasaberms

AlejandroJaimes,JavierRuizdelSolar,R.Verschae,DinkoYaksic,Ricardo
BaezaYates,EmilioDavis,CarlosCastillo.BsquedaporContenido
Visual:TREC2003ylaWebChilena.Presentacin.CIW/DCC/DIE
UniversidaddeChile.http://www.ciw.cl/recursos/uchile_talk_june26.pdf
http://www.ciw.cl/recursos/uchile_talk_june26.pdf

Referencias
1.

2.
3.
4.

HowMuchInformation?2003ProjectWebsite.BerkelyUniversity.
Disponibleel23deabrilde2007en
http://www.sims.berkeley.edu/research/projects/howmuch
info2003/internet.htm
info2003/internet.htm
itunesWebsite.Disponibleel23deabrilde2007en:
http://www.apple.com/itunes/
http://www.apple.com/itunes/
YouTubeWebsite.Disponibleel23deabrilde2007en:
http://www.youtube.com/
http://www.youtube.com/
IntervaloSemntico.WikipedialaEnciclopediaLibre.
http://es.wikipedia.org/wiki/Intervalo_semntico
http://es.wikipedia.org/wiki/Intervalo_semntico

111

Captulo9
RedesSociales
JavierVelasco
Vivimosensociedad;dependemosdeotraspersonasparagranparte
deloquehacemosdiariamente.Durantenuestravidaformamosrelaciones
conpersonasqueasuvezserelacionanconotrosaquinesnoconocemos.
Estosvnculosvanformandonuestraredsocial.
Podemosverejemplosderedessocialesenespaciostancercanoscomo
nuestrasfamilias,tanorganizadoscomonuestrostrabajos,ascomoredes
formaleseinformalesgeneradasentornoainteresescomunescomodepor
tes,colecciones,oreligiones.Otrafuentederedessocialessonloslugaresde
estudio ylosespacios de colaboracinentre investigadoresy artistas,as
comoelbarriodondevivimos.
Elvalordeunaredsocialradicaenqueseconstruyesobrelabasedela
confianza;nospermitellegarapersonasquedeotramaneranopodramos
contactar,dadoqueunarecomendacinpersonaldeunconocidomutuoge
neraconfianza.

AnlisisdeRedesSociales
ElAnlisisdeRedesSocialessehavenidodesarrollandocomounaespe
cialidad desde los aos 60's desde diferentes disciplinas de las Ciencias
Sociales,conelapoyodeunaramadelasmatemticasllamada Teorade
113

Captulo9RedesSociales

Figura 9.1: Ejemplo de Grafo para una Red Social compuesta por 11 personas

Grafos.Estaltimapermitecuantificarlosvnculosentrelaspersonasque
pertenecenaunaredsocialyanalizarlaestructuradedichared.Enbaseala
teoradegrafos,elanlisisderedessocialesdefinealaspersonascomono
dos,ylasrelacionesentrestascomoaristas.
Elanlisisderedessocialessebasaenlaideadequelarelacinentrelas
personasesmsimportantequesuscaractersticasindividuales,esporestoque
suestudiosehadesarrolladoentrminosmatemticosabstractosyrepre
senta un enfoque alternativo al estudio tradicional de organizaciones
sociales,dondelascaractersticasindividualessonloprimordial.
Elanlisisderedessocialesseenfocaenlaestructuradeestasredes,y
suunidaddeanlisises larelacinentredospersonas.Lasrelacionesfuertes
entrepersonas,porejemplounmatrimonio,conforman aristas fuertes.Las
aristasdbilesmuchasvecestienenmayorimportanciaquelasfuertes,yaque
proveenunatajoentrepersonasquedeotraformanoestaranconectadas,
generandoasmayoresoportunidadesdeexposicinanuevasideasygru

114

Captulo9RedesSociales
pos de influencia [4]. Las asociaciones profesionales son un buen ejemplo
dondelasaristasdbilespuedenresultarsumamentetilesparaeldesarro
lloprofesionaldeunapersona.
Partedelanlisisenlaestructuradeestasredesimplicadeterminarla
importanciadedeterminadonodoparaelconjunto.Lasmedidasmscomu
nesparadeterminarestaimportanciason[2]:
Centralidad(DegreeCentrality):Dependerdelacantidaddearistas
queconectanaunapersonaenelconjunto.Losnodosmsconectadosson
mscentrales.EnelejemplodelaFigura9.1,siconsideramosungrafodado
porelsubconjuntodecincopersonasformadopor:Jorge,Karen,Josefina,
RosayFlorencia,Florenciaseralapersonamscentral.
Cercana(ClosenessCentrality):Dependedelalongituddesumade
lasaristasqueconectanaunapersonacontodaslasdems.Aproximasu
peso;sucapacidadparallegarenpocospasosacualquiera.Enelgrafodel
ejemplo(figura9.1),JorgeyJosefinatienenelmayorgradodecercana.
Intermediacin(BetweennessCentrality).Esunamedidadelnmero
devecesqueunnodoapareceenelcaminomscortoentreotrosdosnodos.
Laintermediacinnosdaunaaproximacinalpesocomoconector(como
hub)delnodo,suimportanciaparaquelaredsemantengaunida.Enelgrafo
delejemplo(figura9.1),Sergiotieneelmayorgradodeintermediacin.
Elestudioenlaformadelasredessocialespermitedeterminarlautili
daddestasparalosindividuosquelasconforman,ascomosudinmica.
Porejemplo,elflujodeinfluenciadentrodeunacompaamsalldelos
rolesdetrabajo.Esteenfoquehapermitidoimportantesdesarrolloseneles
tudiodelasredessocialesqueintegramosenlavidadiaria,yhasidomuy
valiosoenelestudiodeladifusindeenfermedadescontagiosas[4].

115

Captulo9RedesSociales

RedesSocialesySoftware
Lasredescomputacionalessurgencomounaformadepotenciarlaco
municacin en redes humanas de trabajo. El desarrollo de Internet y el
aumentoenlacapacidadcomputacionaldelosservidoreshapermitidoel
desarrollodediversosformatospararedestecnolgicasquesoportanelfun
cionamientoderedessocialesylaconstruccindenuevasredessociales.
Lasredessocialescomputacionalesestnpermitiendoalaspersonas
crearnuevasdinmicasdecomunicacinmspotentesquelasanteriores.
Diferentesestudioshandescubiertoqueestasredesdesoftwarepermitena
laspersonastantofortalecersusredessocialesactualescomoformarnuevas
redesdemaneraefectiva[1].Hoyendapodemosanalizarprcticamente
cualquierservicioosistemadeInternetentrminosderedessociales.
Todasestasredestecnolgicasseranintilessinosenutrierandelaco
municacinentrelaspersonas;inclusohayquieneshanexpresadoestoen
trminosmatemticos.BobMetcalfe,unodelosinventoresdeEthernet,de
termin,enrelacinconlasredesdetelecomunicaciones,quelautilidaddela
redcreceenrelacinalcuadradodelacantidaddeusuariosconectados (Leyde
Metcalfe).Posteriormente,DavidReeddescubriqueestafrmulaquedaba
corta para describir Internet, ya que adems de permitir comunicaciones
personaapersonapermitelacreacindegrupos.LaleydeReedpostulaque
lautilidaddeunared,enparticularlasredessociales,creceenformaexponenciala
lacantidaddepersonasquelaintegran[6].

AplicacionesdeRedesSociales
Acontinuacindescribimosalgunosdelosejemplosmscomunesde
redessocialesmediatizadasporsoftware:
116

Captulo9RedesSociales
1.Correoelectrnico (Email):Esunaherramientaomnipresenteque
permitecomunicarnostantoconnuestrafamilia,amigos,compaerosdetra
bajo,comoconloslderesdeopininyautoridadesque antesresultaban
inalcanzables.Unanlisisdenuestrousodelcorreoynuestralibretadedi
recciones permitira generar una imagen de nuestras redes sociales: la
frecuenciadelosmensajesrevelaralafuerzadelasaristasennuestrared.
Laslistasdecorreoelectrnicotambinconformanredessocialesorganiza
dasentornoatemasparticulares.
2.MensajeraInstantnea (IM):Lacomunicacinsincrnicaqueestos
sistemaspermitenimplicaunafuerzatodavamayorenlasrelacionesdelas
quesuponeelcorreoelectrnico.Laestructurabsicadeestossistemasesla
lista de contactos, donde organizamos a las personas ms relevantes de
nuestraredsocialconquienesqueremos(odebemos)estarcomunicadosde
manerapermanente.Estegrupocomprendeherramientasdemensajerapor
texto(ICQ,MSN,AIM,Y!IM)ascomolasmsrecientesdevozyvideo
(Skype,gTalk).
3.LaWebMundial(WWW):Lossitiosquecomponenestaredpertene
cenapersonasindividuales,obienaorganizacionesdestas.Unanlisisde
loslinksentresitiosWebnospodradarsealesinteresantesacercadelasre
lacionesentrelaspersonasoinstitucionesquelospublican.
Existensitiosdedicadosaorganizarvnculosentrepersonasrelaciona
dasadeterminadostemas.Porejemplo,elportaldeYahoo!hasidodesde
susprimerosdasunhubdeconexinhaciadiferentespuntosdelaWWW.
4.ComunidadesEnlnea:AlgunosSitiosWebpermitencrearunperfil
personaleiragregandounalistadecontactosparaparticiparconellosendi
ferentes formas. Linkedin es un sitio de conexiones profesionales que
permitegenerarrecomendacioneslaboralesdegrancredibilidad.Econozco
117

Captulo9RedesSociales
esunaaplicacinsimilarenEspaol.Orkutpermiteorganizarredesdecon
tactosygruposparalaparticipacinenforos.Fotologpermiteamillonesde
personasenelmundopublicarsusfotografasyseguirlasfotosdesusami
gos.
4.1 Facebook: Es una comunidad online cerrada, donde los perfiles
puedeneditarseparaservisiblessloatusamigos.Sepresentacomouna
plataformasobrelaquesepuedenmontaraplicacionesparaquelasperso
nas se comuniquen en variados formatos. Facebook goza de gran
popularidadycrecimiento,yhatenidounaimportantepenetracinenChile
apartirdefinesde2007.Facebookpermite,atravsdelaopcinveramigos
comunes,explorarelfenmenodelmundopequeoentusredessociales.Ver
Cap.2.
5.Blogs:Estasbitcoraspersonalescuentancondiferentestiposdeco
nexinhaciaotraspersonas.Unblogcitaaotrocomofuentedeinformacin,
puedeopinaracercadeloqueotrohapublicado,ymuchosblogsmuestran
explcitamenteunalistadesusblogsrelacionadosoamigos.Sontresformas
dedescribirrelacionesentrelosblogsquerevelanycreanredessociales[5].
Elanlisisdeestoslinksysufrecuenciadarcuentadelaredsocialentre
susautores.
5.1Lacoctelera:EsunsistemadeblogsconsedeenEspaaquecuenta
convariasdelasherramientasparafomentarlainteraccindelosusuarios,
loquelatransformanenunbuenejemploderedsocial.
EnelperfildeusuariodeLaCoctelera(figura9.2)podemosverunava
riedaddeelementos:
Reseadelautor:permiteincluirtunombre,ubicacin(ciudadypas),
unafotografayunapequeadescripcin.Estareseapermitiralosnuevos
visitantesconocerlainformacinbsicadelautor.
118

Captulo9RedesSociales
Amigos,dolosyFans:LaCocteleraclasificaaloscontactosenbasea
ladireccionalidaddelasreferencias.Siponesaunapersonaentulistade
contactosystenotecorresponde,pasaaserundolo.Silareferenciaesrec
procasecategorizacomoAmigo.Laspersonasquetehansealadoentresus
contactossinquetlosincluyaspasanasertusFans.
ltimosPost:Elperfilincluyeunresumendetusltimosposts,sea
landosushorariosycomentarios.
ltimosComentarios:Haceunseguimientoalaactividaddelosco
mentariosenelblog.
LoMsComentado:Llevaunaestadsticadelospostsconmayorcanti
daddecomentarios.
Hablade:Haceunseguimientoalostagsmsfrecuentesdecadablog
(elusodetagsseexplicamsadelante).Estostagspermitennavegaralos
postsasociadosaestostrminostantodelmismoautor,elconjuntodeusua
riosdeLaCoctelera,yunabsquedageneralenTechnorati,unbuscador
especializadodeblogs.
6.ClasificacinSocial(Folksonomies):Lasbibliotecasutilizanpalabras
clavecomounelementocrticoensussistemasdeclasificacindedocumen
tos.AlgunossitiosWebpermitenacualquierusuarioagregarunapalabra
claveodescriptoradeterminadoobjetoensucoleccin.Deestamanera,son
losmismosusuariosquienesorganizanloselementosdelsistema,tantode
maneraindividualcomocolectiva.Elsistemageneraautomticamentelinks
paratodosestostags,loquepermitealosusuriosnavegarelsistemacon
granflexibilidad.VerCap.10.
AlgunosdelosejemplosmsrelevantesdesitiosWebconclasificacin
socialson:
119

Captulo9RedesSociales

Figura 9.2: Ejemplo de Perfil de Usuario de La Coctelera

120

Captulo9RedesSociales
6.1.Del.icio.us:Esunsistemadefavoritossociales,enelqueunusua
riocreasucuentaycomienzaamarcarsuspginasfavoritas,aadiendotags
descriptoresacadarecurso.Estostagspermitirnlanavegacinporentre
losfavoritosdeltotaldeusuariosenelsistema,generandounsistemadeor
ganizacincolectivodelosrecursos.Del.icio.ustambinpermiterecopilar
unalistadeusuariosrelacionados(ocontactos),yexplorarlosfavoritosde
stos.
6.2.Flickr:Estesitio esbsicamente unfotolog conmltiplesherra
mientasdeinteraccinsocial.Alpublicarunafoto,elautorpuedeasignar
tagsastaparalaexploracindelespaciocolectivotalcomoendel.icio.us.
Tambinofrecelaadministracindeunalistadecontactoscondiferentes
gradosderelacin:contacto,amigoyfamilia.Flickrpermitelacreaciny
participacinentornoagruposdeintersdeacuerdoareglasfijadasporun
moderador.Losusuariosdeflickrpuedenaadirtagsalasfotografasque
visitan,marcarlascomofavoritosydejarcomentarios.Flickrsoportamlti
plesformatosdeinteraccinentrelaspersonas,ydapieadiferentestiposde
estudioalaredsocialquesehaidoformandoentresususuariosqueactual
mentesuperanlosdosmillones.
7.FiltrosColaborativos:Elanlisisdeactividadenunawebmediante
mineradedatosrevelapatronesdecomportamientoyhaceposiblegenerar
sistemasderecomendacionespersonalizadasqueseajustanalaspreferen
ciasparticularesdeunapersonadeacuerdoalaactividaddeluniversode
usuariosdelsistema.Amazonfueunadelasprimeraswebsenexplotaresta
tcnicapararecomendarlibros.Cuandounovisitalafichadeunlibroen
Amazon.com,elsistemasugiererecomendacionespersonalizadasdeacuer
doalascaractersticasdellibroyelhistorialdelusuarioenelsitio,loque
consideracomprasyrevisionesanteriores,enunanlisiscruzadoconlaacti
vidaddeotrosusuarios.Elsistemavadetectandopersonasconintereses

121

Captulo9RedesSociales
comunesparagenerardeestamaneralasrecomendacionespersonalizadas.
Mientrasmayorseaelhistorialdetuperfil,mayorserlaprecisindelasre
comendaciones.VerCap.10.
8.RedesP2P:Peertopeer(ingls)significaconexinentrepares.Estas
redessondescentralizadas,nocuentanconunservidorcentralensudistri
bucin,sinoconunconjuntodenodosdeigualrelevancia[4].Enlaprctica
lasredesP2Psepresentanendiferentesformas:unassonpuramentedistri
buidasyotrasseapoyanenservidorescentralespararealizarsusfunciones.
ElusomspopulardelasredesP2Phasidoelintercambiodemsicay
videosentrepersonasparticulares.Estosintercambiosdemsicaypelculas
muchasvecesimplicalaviolacinaderechosdeautordedichomaterial,lo
quehasignificadoproblemaslegalesparalasloscreadoresdelsoftwareque
handiseadoestasredes.Actualmente,lasredesP2Phanencontradolafor
madedesligarsedelaresponsabilidadlegalportalesviolaciones.Algunos
ejemplospopularesdeestasredesson:Napster,Kazaa,Gnutella,BitTorrent.

SitiosyAplicacionesMencionados

AIM(http://www.aim.com/
http://www.aim.com/)

Amazon (http://www.amazon.com/
http://www.amazon.com/) tienda gigante de co
mercio electrnico, la que comenz como una librera pronto se
transformenlatiendamsgrandedelmundo.Actualmentevende
todaclasedeproductos.

BitTorrent(http://www.bittorrent.com/
http://www.bittorrent.com/)esunprotocoloP2P
paraelintercambiodearchivos.

122

Captulo9RedesSociales
Del.icio.us(http://del.icio.us/
http://del.icio.us/)sistemadebookmarks(ofavo
ritos)socialesqueutilizaclasificacinsocialmediantetags.

Econozco(http://www.xing.com/econozco
http://www.xing.com/econozco)esunaredsocial
laboralencastellano,queahoraespartedeXing,unaredsociallabo
ralinternacional.

Facebook(http://www.facebook.com/
http://www.facebook.com/)comunidadonlinecon
mltiplesformatosdecomunicacin,permiteeldesarrollodeaplica
cionesquesemontansobresta.

Flickr(http://www.flickr.com/
http://www.flickr.com/)unfotologconmltipleshe
rramientas de interaccin social. Actualmente es propiedad de
Yahoo!.

Fotolog(http://www.fotolog.com/
http://www.fotolog.com/)aplicacinsocialdefotos,
muypopularenChile.
gTalk(http://www.google.com/talk/
http://www.google.com/talk/)mensajerainstantnea
yvozdeGoogle.
GnutellaesunaredP2Ptotalmentedistribuida,quepermiteel
intercambiodearchivos.
ICQ(http://www.icq.com/
http://www.icq.com/)fueunodelosprimerossistemas
demensajerainstantnea(IM).
Kazaa(http://www.kazaa.com/
http://www.kazaa.com/)esunaaplicacinP2Psemi
distribuidaquepermiteelintercambiodemsica,videos,softwarey
todotipodearchivos.

LaCoctelera(http://www.lacoctelera.com/
http://www.lacoctelera.com/)esunsistemade
blogsconmltiplesherramientasdeinteraccinsocial.

123

Captulo9RedesSociales
Linkedin (http://www.linkedin.com/
http://www.linkedin.com/) comunidad social de
perfileslaborales.

MSNMessenger(http://im.live.com/Messenger/IM/Home/
http://im.live.com/Messenger/IM/Home/)

Napster(http://free.napster.com/
http://free.napster.com/)unodelosmspopulares
sistemasP2P.

Orkut (http://www.orkut.com/
http://www.orkut.com/) es una comunidad online,
propiedaddeGoogle.

Skype(http://www.skype.com/
http://www.skype.com/)

Technorati(http://www.technorati.com/
http://www.technorati.com/)buscador especiali
zadoenblogs.
Y!IM (http://messenger.yahoo.com/
http://messenger.yahoo.com/) sistema de mensajera
instantneadeYahoo!

124

Captulo9RedesSociales

Parasaberms

Tutorialesderedessocialesencastellano,deSteveBorgatti:
http://www.analytictech.com/networks/en_castellano.htm
http://www.analytictech.com/networks/en_castellano.htm
Linked:HowEverythingIsConnectedtoEverythingElseandWhatIt
Means,porAlbertLaszloBarabasi,Plume,2003
SixDegrees:TheScienceofaConnectedAge,porDuncanJ.Watts,W.W.
Norton&Company,2004
TheWisdomofCrowds,porJamesSurowiecki,Anchor,2005.

Referencias
1.

2.
3.
4.
5.
6.

NoorAliHasanyLadaAdamic.ExpressingSocialRelationshipsonthe
BlogthroughLinksandComments.InternationalConferenceonWeblogs
andSocialMedia.Boulder,Colorado.2007.
DiegoDeUgarte.TeoradeRedesSociales.Contextos,2006.
http://www.deugarte.com/wiki/contextos/Teora_de_redes_sociales
StevenJohnson.Emergence:TheConnectedLivesofAnts,Brains,Cities,
andSoftware.Scribner,2002.
MarkLevene.AnIntroductiontoSearchEnginesandWebNavigation.
AddisonWesley,2005.
CameronMarlow.Audience,structureandauthorityintheweblog
community.MITMediaLaboratory,2004.
DavidWeinberger.SmallPiecesLooselyJoined,aunifiedtheoryoftheweb
PerseusBooks,2002.

125

Captulo10
ClasificacinyFiltradode
InformacinenlaWebViva
CarlosHurtadoLarran
GranpartedelaWebcorrespondeainformacinestableoquecambia
lentamente.staincluyesitioscorporativosypersonalescasiestticos,cono
cimiento enciclopdico e informacin que se revisa poco a travs del
tiempo.HayotraWeb,llamadaWebviva,queserefrescaminutoaminu
to, que est compuesta, principalmente, por sitios de noticias, weblogs y
comunidadesdigitales.LoqueinteresaalosusuariosdeestaWebeslono
vedoso,lo que apareci en el ltimo da,en las ltimas horas, o incluso
minutos.EslaWebenlaquenadiesebaadosvecesenlamismainforma
cin. El adjetivo viva no slo apela a su dinamismo, sino a que su
contenido,videos,fotografas,artculos,etc.,esgeneradoporcomunidades
digitalesdondeinteractanmillonesdepersonasenelmundo:lallamada
Web2.0[14]conaplicacionescomoFlickr,YouTube,Del.icio.us,Facebook,
Twitter,etc.ylosmsde70millonesdeweblogsyvariantescomovideo
logs,linklogsyfotologsdelplaneta.
Esteespaciodeinformacinfuerecintomadoencuentaporlosprinci
palesbuscadoresdelaWeb(Google,Yahoo!,MSN)unpardeaosatrs.En
eseentonces,lainstantaneidaddelainformacinnoerarequerimientoaten
dido por estos sistemas de bsqueda. Entregar informacin frescaeraen

127

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
ciertomodoincompatibleconlatareatitnicadelosbuscadoresderecolec
tarmilesdemillonesdepginasencostososrecorridosdelaWeb.Mientras
afinesdelao2005,losgrandesbuscadoressloactualizabanelcontenido
deunapginacada1015das,surganbuscadorescomoTechnorati,Blo
glines y Blogpulse, entre otros, que se posicionaron en la Web viva,
conquistandounsegmentodeusuariosconsiderableenmuypocotiempo.
LadinmicadelaWebvivaseasemejamsalaformaenquelainfor
macin viaja desde canales de comunicacin en radio y televisin a las
personas,quealconceptoinicialdelaWebcomounagranbibliotecadigital
compartida. Sin embargo, los principios de la Web siguen operando con
fuerza:reddistribuida,concontenidoenlazado(hipertexto),libertaddege
neraryconsumirinformacin,millonesdecanalesyreceptoreslatentes.En
estecaptuloexplicaremoslosconceptosquepredominanenestenuevocon
texto:canales,agregadoresdeinformacinysindicacindecontenido,entre
otros,ymostraremoselproblemadefiltrarinformacin,unadelasprincipa
lestareasparamanejarlasobrecargadeinformacinalaqueestenuevo
escenarionosexpone.

SindicacindeContenido
LaWebvivaesunespaciodondelainformacinsediseminaenforma
automticayagranvelocidad.Aquescomnqueunanoticiapublicadaen
unsitiolocalsepropaguecasienformainstantneaacientosomilesdesi
tiosenpocashorasy,casienparalelo,searecolectadaporlamayoradelos
buscadores.Estainstantaneidadessostenida(apartedelaWebmisma)por
lainfraestructuradesindicacindecontenidodelaWeb.Sindicarconteni
dosignificahacerdisponiblecontenidoparaqueotrospuedanpublicarlo,
procesarlooredistribuirlo.Elconcepto,muchomsantiguoquelaWebmis

128

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
ma,provienedelmundodelosmediosdeprensa,radioytelevisin,donde
contenido como fotografas,videosy noticias, entre otros, esdiariamente
sindicadoalrededordelplaneta.
Lasindicacindecontenidoesunprcticacadadamsextendidaenla
Web:compaasdemsicasindicaninformacinsobrediscografaquelue
go es publicada por sitios de comercio electrnico; bolsas de comercio
sindicaninformacinenlneasobreelvalordeaccionesqueesprocesada
porportalesfinancieros;lamayoradelascomunidadesdigitalesemergen
tes estn sindicando informacin con el objeto de llegar cada da a ms
usuarios.
EnlaWeb,lainformacinsindicadaesprocesableporcomputadores,
esdecir,esfcilparaunprogramacomputacionalsencillo,detectarlosatri
butosmsimportantesdeunartculo,video,imagen,etc.sindicado.Para
queestoseaposibleexistenformatosquepermitendescribirlainformacin
sindicada.Elmsantiguodeestosformatos,RDFSiteSummary(RSS),fue
desarrollado por RamanhatanGuha,mientrastrabajaba paraNetscape,el
ao1999.Enpocotiempo,RSSderivenunacoleccindeformatosquein
cluye Really Simple Syndication, RDF Site Summary y Rich Site
Summary[2].En2003apareciunnuevoformatoalternativo,Atom,apo
yado por el consorcio de la Web (W3C) con la finalidad de unificar las
propuestasanteriores.Enlaactualidad,RSSyAtom(enadelanteusaremos
eltrminoRSSparareferirnosaambosformatos)compitenporestablecerse
comoestndaresdefactoenlaWeb.Elpotencialdeestosformatosesenor
me,porejemplo,hoypodemosrecolectarRSSsindicadodediversasfuentes,
combinarlo y procesarlo para producir nuevo RSS (lo que se denomina
mashup)quealavezpodemossindicarparaqueotroslorecolecten,yas
sucesivamente,enunasuertedecadenaalimenticiadondelainformacinse

129

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
transforma,sintetizaycombina,desdesusfuenteshastaelusuarioquela
consume.

CanalesyAgregadoresdeRSS
EnlaWebdeladcadapasada,losusuariosdebanesforzarseporen
contrarinformacin,yaseamediantebuscadoresonavegandoenlaces.Hoy,
podemosaccederaunagrancantidaddeinformacindeinterssloespe
randoquestallegueanosotros.Paraqueestoseaposible,lasfuentesde
informacindelaWebviva,llamadoscanales,publicanRSSsobreinfor
macinsindicada.EsteRSSesrecolectadoenformaperidicaymostradoen
lapantalladelusuariofinalporaplicacionesconocidascomoagregadores.
EstossistemasentreganunflujocontinuodeRSS,quereferencianvideos,fo
tografas,animaciones,artculos,noticias,etc,provenientesdecanalestan
diversoscomomediosdeprensa,sitiosdetecnologaoweblogs.
Enlaactualidad,existeunaofertadecientosdeagregadoresRSS,la
queincluyesistemasbasadosenlaWeb,comoYahoo!PipesoGoogleRea
der,oagregadoresqueseinstalancomosoftwareclienteencomputadores
personales,PDA'sotelfonosmviles.Adicionalmente,losprincipalesnave
gadores y lectores de correo electrnico estn incorporando funciones de
agregadores.
Tambin hay agregadores que recolectan RSS para comunidades de
usuarios.EsteeselcasodeOrbitando[12](verfigura10.1),queseenfocaen
personasinteresadasencontenidorelacionadoaChile,oTopix[13],quese
enfocaenunacomunidadmsamplia.

130

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.1: Portada de Orbitando [13].

FiltradoyClasificacindeInformacin
Loscanalesyagregadoresnospermitenaccederaunaenormecantidad
deinformacin.Estaessindudaunabuenanoticia.Clasificaryfiltrarinfor
macin son dos tareas fundamentales para manejar la sobrecarga de
informacinenestenuevocontexto.
Filtrarinformacineslatareadedejarpasarpartedestaybloquear
otradeacuerdoaunobjetivo.Enalgunassituacioneselobjetivoesevitarin
formacin como contenidos no aptos para menores o publicidad no
solicitada.Unejemplomuypopulareselfiltradodecorreoelectrnicono
deseado(spam).Enotroscasos,necesitamosfiltrarparadescartarinforma
cin irrelevante que constituye ruido. El filtrado de informacin tambin
puedetenercomoobjetivopersonalizaryajustarlosagregadoresdeacuerdo
alosinteresesdeunusuarioounacomunidaddeusuarios.
131

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
Clasificaresunatareasimilar.Enestecaso,debemosdecidirunaoms
categoras,entreunconjuntofijodestas,alasqueasociamosdeterminada
informacin,comocuandoorganizamoslosarchivosdenuestrocomputador
encarpetas.EscomnenlaWebquelascategorasseantpicos,queincluso
puedenformarestructurasjerrquicasdondelosmsespecficosseconectan
conlosmsgenerales.Enotroscasos,lascategoraspuedenreferirseaalgu
na propiedad de la informacin como su tipo u origen. Por ejemplo,
podramosnecesitarclasificartextoparadetectarcomentariospositivosyne
gativos.Enelextremoderechodelafigura10.1sepuedenverlascategoras
enqueunagregadorclasificaRSS.Seconsiderantpicoscomopoltica,ne
gocios, tecnologa, etc. y tipos de informacin como weblogs, videos,
fotografas,podcasts,etc.
Hoyenda,losusuarioscomunesdeagregadoresslopuedenfiltrar
manualmenteunafraccinmnimadelflujodeinformacinquepuedenre
cibir.Tambinespocoprcticopensareneditoresquehaganestetrabajo,
como suele ocurrirenmediosde prensatradicionales. ElOpenDirectory
Project [11], una ambiciosa iniciativa de comprometer editores humanos
paraclasificarlaWeb,gozdegranpopularidadensusiniciosafinesdelos
noventa,perosuimpactodecrecienlosltimosaos.

LosPrimerosFiltrosAutomticos
Afinesdelosochenta,tomfuerzaeldesarrollodeprogramasquefil
tranenformaautomtica.Unodelosprimerosdeestossistemas, CONSTRUE,
implementado inicialmente para la agencia de noticias Reuters, permita
programarfiltrosbasadosareglasmodeladasporexpertos.Porejemplo,la
siguienteregla,mencionadaconfrecuenciaenlibrosdelarea,determinasi
unartculoesonorelevanteparalacategoratrigo:

132

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
if((trigoandpredio)or(trigoandcomodity)or
(quintalandexportar)or(trigoandtonelada)
or(trigoandinviernoandnotsuave))
thenclase=relevante
elseclase=irrelevante

El antecedente de la regla (la condicin a la izquierda del smbolo


then)usaoperadoreslgicoscomoand,orynot.Cadatrminodeestacon
dicinesverdaderosieltrminoapareceenelartculo.Enelejemplo,siel
artculosatisfaceelantecedentedelaregla,esclasificadocomorelevante,en
casocontrarioesclasificadocomoirrelevante.
Algunosexperimentosinicialesmostraronquelatasadeerrordeunfil
tro generado por CONSTRUE poda ser menor a 10%. A pesar de estos
resultadospositivos,pordistintosmotivos,elmtododeCONSTRUEsetorn
rpidamenteimpracticableenlamayoradelasaplicacionesdondeseutili
z.Enprimerlugar,eltiempoycostoquetomatenerexpertosdefiniendo
reglasesalto.Msan,siloqueseconsiderarelevantecambia,losexpertos
debenintervenirdenuevolasreglas,yenalgunoscasoseltrabajodebeha
cersedesdecero.Lainformacinesengeneraldinmicaylasreglasdeun
filtrodebenevolucionarconstantemente.Porejemplo,elintersdeunaco
munidadalacualseenfocaunagregadorpuedeestarenconstantecambio,
odebemosreprogramarelfiltrocontinuamenteparaincorporarnuevostr
minos.
SibiensistemascomoCONSTRUEpermitenprogramarsistemasquefil
tranenformaautomtica,hoyesclaroqueelproblemadefondoesmucho
mscomplejo:requerimosdesistemasqueaprendanafiltrarenbaseauna
adaptacincontinualasnecesidadesdeinformacindelosusuarios.Noso
lamente esimportante automatizarelproceso defiltradosino tambinel
procesodeconstruccinyadaptacindeunfiltro.
133

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

FiltrosqueAprendenyseAdaptan
Disciplinascomoestadstica,aprendizajedemquinas,reconocimiento
depatronesy,ltimamente,mineradedatos[3,4,5]sonlabaseparadesa
rrollar filtros de informacin que aprenden y se adaptan en base a la
experiencia.Paraqueesteprocesodeaprendizajeselleveacabo,debemos
contarconinformacinyafiltrada,esdecir,ejemplospositivosynegativos,
denominadadatosdeentrenamiento,quesepuedengenerarporexpertosova
feedbackdeusuarioscomunes.Estosdatosseusanparaentrenaroinducirel
filtro.Unaformadepensarenesteprocesoesqueamedidaqueincluimos
msdatosenelentrenamiento,elsistemaincorporanuevas reglas,siempre
teniendocuidadodequestassepuedangeneralizarainformacinmsall
delosdatosdeentrenamiento.Lafigura10.2muestraunejemplodeunpro
cesodeentrenamientodeunmodeloparaclasificarvinos.
Enesteprocesoesmuyimportanteevaluareldesempeodelsistema
creado,esdecir,medirsucapacidadparapredecircorrectamentelascatego
rasdenuevainformacinquesepresenta.Entrminossimples,estosehace
separandodelosdatosdeentrenamientounnuevoconjunto,llamadoda
tos de prueba, que usamos para medir la tasa de error. En general, es
importantedistinguirdistintostiposdeerror(falsospositivosyfalsosnega
tivos).Porejemplo,enunagregadordecontenidoparaniosesmuchoms
graveelerrordedejarpasarinformacinnoaptaquemuestraviolenciao
pornografa,queelerrordedescartaralgunainformacinadecuada.
Hoyendaexistencientosdetcnicasparadesarrollarfiltrosdeinfor
macin,algunasdelascualeshanalcanzadotasasdeerrormenoresaun
10%endiversosexperimentos.Entreestasestnlosrbolesdedecisin,m
quinas de soporte vectorial, redes neuronales, redes bayesianas,
discriminanteslineales,regresinlogstica,etc.Enlaactualidad,estastcni
134

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.2: Construccin mediante aprendizaje de un rbol de decisin para


filtrar vinos.

135

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
cassonusadasconxitoendistintasaplicaciones,nosloenelcontextode
laWeb,sinoenproblemastanvariadoscomoreconocimientodevoz,clasifi
cacin de imgenes telescpicas en astronoma o evaluacin de riesgo
financiero.
Nuevasideasymejorassedesarrollanenlaactualidadparabajarlasta
sasdeerrorPodremostenersistemascomputacionalesconcapacidadesde
aprendizajeydesempeosimilar asereshumanos? Paraellonecesitamos
desarrollar sistemas que emulen capacidades cognitivas humanas como
comprensindelenguajenatural,capturadesentidocomnyotrasformas
deprocesamientoavanzadoparallegaralasemnticadelainformacin.

FiltradoColaborativo
Unenfoqueradicalmentedistintoydemuchaaplicacinenlaactuali
dad,conocidocomofiltradocolaborativo[6],sebasaenlaideadequela
informacinrelevanteparaunusuarioestambinrelevanteparaotrosusua
rios con preferencias similares. Una comunidad de usuarios puede en
conjuntoactuarcomoungranfiltroespontneo,sicombinamoseinterpreta
mosadecuadamentelasaccionesdecadaunodesusmiembros.
Elfiltradocolaborativonoesmsquelasistematizacindeunmtodo
desentidocomnqueaplicamosadecisionesdelavidadiaria.Porejemplo,
siintentamosseleccionarunapelculaparaverenelcine,podramosprime
ro buscar personas con gustos similares a losnuestros, para luego elegir
algunapelculaspreferidasporestaspersonas.Estaeleccin,enmuchosca
sos,sermsacertadaquelaqueharamosdespusdeconocerinformacin
intrnsecadelaspelculas.Elmtododefiltradocolaborativoestilenespe
cialcuandoescomplejoycostosoanalizarlainformacinaprocesar,como
sucederasistaestcompuestaporvideos,imgenes,audio,etc.
136

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.3: Esquema de Filtrado Colaborativo.

Elmtododefiltradocolaborativoseexplica,agrossomodo,enlafigura
10.3.Contamosconunabasededatosdepreferenciasdondecadarectngu
lorepresentalasnotas(de1a10)conquecalificacadausuariounconjunto
deartculos(denotadosdeAaZ).Unusuarioparticular,quellamaremosX,
tambinhaevaluadoalgunosartculos,peronoconoceelartculoC.Enton
ces el sistema puede predecir una nota para este artculo que refleje la
opinindeX.Parahacerestoenunaprimeraetapa,seidentificaungrupo
deusuariosafinesaX,porejemplo,buscamosaaquelloscuyasnotastengan
mayorcorrelacinconlasnotasde X.Comoresultadodeestaetapa,selec
cionamosdosusuarios.Finalmente,elsistemapredicelanotadeXcomoun
promediosimpledelasnotasparaelartculoCdelosdosusuariosseleccio
nados.
Latcnicadefiltradocolaborativotieneenlaactualidadmuchasaplica
cionesdebidoalaproliferacindecomunidades digitalesenlaWebque
registran informacin de preferencias de sus usuarios. Estas preferencias
137

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
puedenserimplcitas,comoselecciones("clicks"ocomprasdeproductos),o
explcitas,comocomentariosonotas.Doscasosdeaplicacionesmuycitadas
sonelsistemaderecomendacindeproductosdeAmazonyNetflix,unsis
temaWebrecomendadordepelculas.Elmtododefiltradocolaborativoes
labasedelasnuevasgeneracionesdeagregadoresquepermitenportadasde
informacinpersonalizadas.

ElRoldelosTags
Otroenfoquecolaborativoparaclasificaryfiltrarsebasaenelfenme
node"etiquetadosocial"("socialtagging")queeslaaccindeusuariosdela
Webdemarcarrecursoscon"etiquetas"("tags"),esdecir,contrminosque
confieren semntica a los recursos. Las etiquetas representan entidades
comopersonas,eventos,lugares,conceptos,etc.Granpartedelainforma
cindelaWebvivaestsujetaaunintensoetiquetadosocial.Lasetiquetas
sepublicanenlosarchivosRSSasociadosainformacinsindicadaypueden
servistascomocategorasdesistemasdeclasificacin,llamadosfolcsonom
as(neologismoquecombinalapalabragriegaclasificarconlaalemana
pueblo)que,adiferenciadelastaxonomasclsicas,evolucionancongran
dinamismoproductodelacreacinydesaparicincontinuadeetiquetas.
Lafigura10.4muestranubesdeetiquetasdeOrbitando(izquierda)y
Technorati(derecha).Estasestructurasmuestranlasetiquetasmspopulares
asociadasaunacoleccindedocumentos.Eltamaodecadaetiquetaenla
nubenosdicesupesoopopularidadenlacoleccindedocumentos.
Enlaactualidad,lasnubesdeetiquetassonestructurasmuypopulares.
Sinembargo,debidoaquelasetiquetassecreanlibremente,lasnubespue
densercaticas(comoporejemplolanubedeTechnoratiquesemuestraen
lafigura10.4(derecha)),debidoasobreposicin(dosomsetiquetascon
138

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.4: (izquierda) Nube de tags generada por Orbitando. (derecha) Nube de
tags generada por Technorati.

muchosdocumentoscomunes),sinonimia(dosetiquetasomsquesignifi
canlomismo),polisemia(unaetiquetaconmsdeunsignificado)yotros
problemas.Adicionalmente,nosiempredisponemosdeetiquetas.Unrea
extensadeinvestigacin,denominadaextraccindeinformacin[8],estu
dia el problema de generar etiquetas desde colecciones de texto plano e
identificarrelacionessemnticasentreellas.

Conclusin
LaWebvivahageneradounanuevadinmicadeaccesoalainforma
cinqueestpresentandodesafoscientficosytecnolgicosimportantes.En
estecontexto,lainformacinfluyedesdecanaleshaciaagregadoresquela
debenfiltraryclasificarparafinalmentepresentarlaalosusuarios.
Hoy,lamayoradelainformacinenlaWebtienelaspropiedadesde
unflujo.Lossistemascomputacionalesquefiltrandebentenerlacapacidad
deadaptarsecontinuamenteasteyalosrequerimientoscambiantesdelos
139

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
usuarios.Estossistemasdebensercapacesdeinterpretarinformacincomo
selecciones,votos,transaccionesyetiquetasparasacarprovechodeladin
micasocialycolaborativadelaWebactual.
Agradecimientos. SeagradeceaCarlosOrregoyJosMaraHurtado
porsusaportesysugerenciasquecontribuyeronamejoraresteartculo.

Parasaberms

EnelsitioDesarrolloWebhayuntutorialsencillosobreRSS:
http://www.desarrolloweb.com/articulos/2101.php
KDNuggetsesunsitiodedicadoalamineradedatos,descubrimientode
informacinymineraWeb.http://www.kdnuggets.com/
http://www.kdnuggets.com/

Referencias
1.

SoumenChakrabarti.MiningtheWebDiscoveringKnowledgefrom
HypertextData.MorganKaufmannPublishers,2002.
2. BenHammersley.ContentSyndicationwithRSS.O'Really,2003.
3. R.Feldman,J.Sanger.TheTextMiningHandbook:AdvancedApproachin
AnalyzingUnstructuredData.CambridgeUniversityPress,2007.
4. D.Hand,H.Mannila,P.SmythPrinciplesofDataMining.TheMITPress,
2001.
5. J.HanandM.Kamber.DataMiningConceptsandTechniques.Morgan
KauffmanPubdmozlishers,2001.
6. JohnS.Breese;DavidHeckerman;CarlKadie.EmpiricalAnalysisof
PredictiveAlgorithmsforCollaborativeFilteringFourteenthConferenceon
UncertaintyinArtificialIntelligence.MorganKaufman,1998.
7. P.Jackson,I.Moulinier.NaturalLanguageProcessingforOnline
Applications:TextRetrieval,ExtractionandCategorization.JohnBenjamins
PublishingCo.2002.
8. GroupLensResearch.Movielens.http://movielens.umn.edu
http://movielens.umn.edu
9. Nielsen/NetRatings.http://www.netratings.com
http://www.netratings.com
10. NewsMap.www.marumushi.com/apps/newsmap
www.marumushi.com/apps/newsmap
11. OpenDirectoryProject.www.dmoz.com
www.dmoz.com

140

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
12.
13.
14.
15.

Orbitando.www.orbitando.com
www.orbitando.com
Topix.www.topix.net
www.topix.net
TimO'Reilly.WhatIsWeb2.0.O'ReillyNetwork.Septiembre,2005.
FabrizioSebastianiMachinelearninginautomatedtextcategorization.
ACMComputingSurveys(CSUR)archiveVolume34,Issue1,March2002.

141

También podría gustarte