Está en la página 1de 7

Concepción y desarrollo de un periódico electrónico

personalizado
V. Luque Centeno, C. Fernández Panadero, C. Delgado Kloos, A. Marín López, C.
García Rubio

Resumen
La información de los grandes medios de comunicación (prensa, radio, televisión) se ha
caracterizado desde su nacimiento por una característica común: la elaboración de
información y su posterior difusión al público en general. Teniendo en cuenta la gran
diversidad de intereses que existe entre los miembros de una comunidad, muchas han sido
las redacciones de los periódicos que han deseado poder hacer llegar a cada uno de sus
lectores una versión personalizada de su diario impreso. Lamentablemente, para la gran
mayoría de los periódicos es imposible tener una imprenta que genere ejemplares
personalizados de forma que se les haga llegar cada mañana a sus respectivos lectores.
Sin embargo, las nuevas tecnologías como Internet sí permiten realizar servicios
telemáticos como el que hemos abordado con nuestro proyecto: un periódico electrónico
personalizable.

Introducción
Tradicionalmente, los navegadores de Internet o browsers han sido considerados como meras
herramientas de visualización de documentos. La única interactividad que permitían al usuario
consistía en la ejecución de programas en el lado del servidor (programas CGI) que eran invocados
tras rellenar un formulario HTML. La aparición de los applets de Java y los guiones de JavaScript ha
permitido que parte de esa interactividad pueda ser ejecutada en el navegador del cliente sin que
exista interacción con el servidor. Últimamente han aparecido en la red numerosos ejemplos de
páginas Web que sorprendían a los internautas al posibilitarles la interacción del usuario con el
documento en aplicaciones prácticas de lo que se ha venido a llamar HTML dinámico. El principal
atractivo de HTML dinámico es que permite que los guiones de JavaScript puedan tratar el
documento como un modelo de objetos programables. El grado de control que desde JavaScript se
puede realizar sobre estos objetos que se corresponden con partes del documento es tan grande
que es posible encontrar páginas Web consistentes en juegos, tutoriales de enseñanza o
aplicaciones sencillas como pequeñas hojas de cálculo y todas ellas escritas en muy pocas líneas
de código fuente.

Aunque la personalización de servicios telemáticos no es nueva en Internet, lo cierto es que hasta


ahora, esta personalización estaba basada en la ejecución de programas CGI en el servidor que
daban el servicio personalizado a quien lo solicitaba. Sin embargo, la ejecución de estos programas
CGI suponen un consumo de recursos que pueden limitar el número máximo de accesos
simultáneos al servidor, por lo que ha habido tradicionalmente bastantes reservas a utilizar este tipo
de solución como método de proporcionar servicios telemáticos a usuarios de forma individual,
sobretodo en servidores donde el número de accesos concurrentes es bastante elevado. Conviene
por tanto intentar repartir esta carga computacional entre el servidor y el cliente, de forma que las
rutinas que deban ser ejecutadas en el servidor sean ejecutadas en el servidor y que las rutinas que
puedan ser ejecutadas en el cliente puedan ser ejecutadas en el cliente. Nuestro proyecto consiste
en la elaboración de un sistema telemático (un periódico electrónico) que, a diferencia de los
actuales, incluya una capacidad de personalización constante y continua y que permita llevar a cabo
un aprovechamiento óptimo de recursos haciendo uso de la capacidad computacional del ordenador
del cliente y minimizando el trasiego de información redundante por la red.

La personalización no es un requisito imprescindible para usar nuestro periódico. Siempre será


posible una lectura del mismo sin personalización. La medida de éxito de nuestro proyecto se
basará precisamente en el grado de aceptación que los lectores hagan de nuestro servicio de
personalización en lugar de acceder a la información de una forma anónima sin personalizar.

Diseño del sistema


A continuación de la figura 1 se enumeran las características más importantes de los elementos que
la integran.

Editor de periodistas
El editor de periodistas consiste en una aplicación Java ejecutable también como applet cuya labor
primordial radica en la edición de las noticias del periódico electrónico. Al ser a la vez un applet y
una aplicación, es posible ejecutarlo tanto de forma independiente en una máquina con plataforma
Java como en un navegador Web. Está compuesta por una ventana de edición y varios botones y
menús que permiten insertar de forma cómoda para el periodista las etiquetas de marcado que se
consideren oportunas así como sus atributos. Al terminar su edición, la noticia es insertada en una
base de datos alojada en el servidor. Durante la redacción de la noticia, el periodista puede ir
guardando versiones temporales de su trabajo tanto en el disco duro de su ordenador como en el
mismo servidor. El cliente de periodistas se encuentra disponible en cuatro versiones diferentes: una
para la gestión de noticias, otra para la gestión de imágenes, otra para la gestión de publicidad y
otra última para la gestión de plantillas de presentación. Aparte del interfaz de edición incorporado,
el cuerpo de la noticia puede ser editado con cualquier herramienta externa del gusto del periodista.

Base de datos
La base de datos es el repositorio natural de la información publicada por el periódico. En ella se
almacenan todos los elementos multimedia que forman parte de las noticias (texto, audio, vídeo,
imágenes, ...). Con el fin de permitir un fácil reemplazamiento de este componente, el sistema
realiza exclusivamente accesos a través de consultas SQL estándar de bases de datos relacionales
mediante conexiones ODBC, lo cual permite a su vez, utilizar un gran número de bases de datos
disponibles de diversos fabricantes. Actualmente, nuestro prototipo utiliza una base de datos de libre
distribución llamada mysql y que se encuentra disponible en nuestra plataforma de pruebas: una
red de estaciones Linux.

Demonio de volcado
El demonio de volcado consiste en una aplicación de ejecución periódica que vuelca los contenidos
más recientes de la base de datos a ficheros en formato HTML que puedan ser directamente
entregados al cliente por el servidor de Web.

Reportero digital
Además de las noticias elaboradas en la redacción del periódico digital mediante el uso de nuestro
cliente de periodistas, el lector puede estar interesado en otras fuentes de información, como la que
pueden ofrecer a su vez otros periódicos electrónicos de la red. Aunque la idea de hacer referencias
bibliográficas de unos periódicos a otros es impensable para las ediciones impresas en papel, lo
cierto es que no sólo la tecnología del hipertexto lo hace posible, sino que además lo hace
aconsejable. En Internet se dice que tan valioso o más que ofrecer información es ofrecer el camino
que lleva hasta ella. Así, uno de nuestras decisiones de diseño consiste en ofrecer al lector la
posibilidad, no sólo de profundizar contenidos hilvanando la lectura de noticias relacionadas, sino
también de contrastar esos contenidos con las versiones que publican otros medios, agrupando
esas referencias en torno a las noticias publicadas por nuestro diario.
Bien sea por la declaración explícita por parte del periodista de la redacción del periódico digital o
por la detección automática a través de nuestro agente catalogador (con criterio aceptable, aunque
menos fiable que el anterior), las noticias que forman parte del periódico acaban por tanto
acompañadas de una lista de temas o palabras clave que permiten, entre otras cosas:

• Agrupar las noticias de una misma sección por temas afines o subsecciones. Nuestro
prototipo actual incluye muchas noticias dentro de la sección de un día (entre menos de 10
hasta alrededor de más de 100) y, al no tener implementado el agente catalogador, las
noticias aparecen sin clasificar causando una cierta sensación de desorden. De esta forma,
cuando esté operativa la clasificación por subsecciones no será necesario buscar noticias
relacionadas a una dada en toda su sección, sino sólo en su misma subsección.
• Incluir referencias de las noticias en todas y cada una de las secciones o subsecciones en
las que la noticia tenga posibilidad de representación (téngase en cuenta que una noticia no
tiene un único tema, sino varios). Así, una noticia acerca de la incorporación de España al
euro podrá encuadrarse de forma automática tanto en la sección de Nacional como en la de
Economía.
• Proporcionar alimentación al mecanismo de gestión de la personalización dinámica. La
personalización dinámica está basada en la detección automática de noticias que
previsiblemente resulten interesantes al lector debido a su relación con otras noticias por las
que ha mostrado interés previamente. Los temas son los mecanismos que permiten
establecer esas relaciones entre noticias. Cuando el sistema detecta que un lector ha
estado interesado en una noticia, el mecanismo de detección automática de preferencias
anota los temas de esa noticia con el motivo de añadirlos a la lista dinámica de temas de
interés del lector.
• Elaborar la bibliografía electrónica de cada noticia (al final de la misma o en torno a ella). A
la hora de publicar una noticia es posible incluir referencias a otros documentos con el fin de
permitir al lector profundizar contenidos. Esta bibliografía puede hacer referencias a tres
categorías distintas de noticias:

o Otras noticias del mismo periódico, lo cual permite al lector hilvanar contenidos
relacionados entre sí.
o Otras noticias almacenadas en la base de datos y accedidas por medio del servicio
de hemeroteca digital, lo cual permite profundizar sobre los contenidos y elaborar
las líneas de acontecimientos relacionados con la noticia.
o Otras noticias publicadas en otros periódicos, lo cual permite contrastar en otros
medios la información conseguida.

Índice
Un periódico está formado por noticias agrupadas por secciones. Cuando el número de secciones
que ofrece un periódico es razonable y el número de noticias por sección es relativamente grande, la
simple enumeración de titulares con enlaces a las noticias una detrás de otro supone una gran
cantidad de información que puede resultar inmanejable si no se proporciona al lector de los
mecanismos adecuados. Los índices de nuestro periódico incorporan rutinas de plegado de forma
que es posible compactar o expandir la información de cada sección o subsección haciendo visible
al lector la información que desea consultar en cada momento. Este índice permitirá además resaltar
los titulares de aquellas noticias que el sistema detecte como de mayor relevancia para el lector
frente a las noticias que no sean consideradas como importantes.

Noticias
Pero si bien la primera imagen que recibe un lector acerca de su periódico no es otra cosa que su
índice, lo cierto es que la información final, las noticias, son los elementos que finalmente siempre
busca el lector. Lo anterior, los índices, no son más que simples cruces de caminos para llegar a la
información de la noticia redactada por el periodista, si bien es cierto que también las noticias
también pueden estar relacionadas entre sí a través del hipertexto permitiendo una navegación
temática sin índices. Las noticias del periódico son ficheros escritos en un lenguaje de marcado
basado en XML llamado JML (inicialmente, en nuestro prototipo el lenguaje de marcado de las
noticias en HTML) que se conservan publicados durante un periodo de tiempo configurable (una
semana, una quincena ...). Al igual que las noticias publicadas en la red por los periódicos
electrónicos actuales, las noticias de nuestro prototipo pretenden incluir imágenes ilustrativas,
publicidad (personalizada, aunque ficticia en un primer momento) y una bibliografía electrónica
generada tanto manual como automáticamente y que intente mejorar la que ya existe en algunos
diarios como Cinco Días.

Hemeroteca digital
Las noticias que han adquirido cierta antigüedad desde que fueron publicadas son eliminadas del
servidor cuando se considera que han perdido interés para el público general. Sin embargo, siempre
es posible extraer una versión de esa noticia accediendo directamente a la base de datos donde se
almacena. El hecho de abrir la posibilidad de acceder a noticias que han dejado de ser publicadas y
de realizar investigaciones en el periódico mediante búsquedas dirigidas por temas otorga al
periódico electrónico un valor añadido de importancia tanto o más considerable en la medida en la
que los contenidos de esa hemeroteca digital aumenten a lo largo del tiempo. Sin embargo, el
acceso a esta base de datos es un proceso que requiere bastante capacidad de procesamiento y
que sólo se puede realizar en el servidor (que es donde residen los datos). Nuestra solución para
este problema consiste en la implementación de un programa CGI de búsqueda en la base de datos
por distintos criterios combinables entre sí (temas, autores, fechas, secciones, lugares, ...).

Encuadernador digital
El encuadernador digital es el encargado de reunir los componentes del periódico que deben formar
parte de la edición personalizada de cada lector y realizar su entrega conjunta al cliente.
Básicamente se puede considerar a este servicio como un seleccionador de los fascículos que
deben formar parte del periódico personalizado. Al contrario de los periódicos digitales actuales, que
publican una serie de secciones separadas e interrelacionadas entre sí (los de edición impresa
simplemente incluyen una edición completa de todas las secciones repartidas de forma consecutiva
por no pocos hectogramos de papel), el encuadernador proporciona el periódico al lector en un
único documento en el que sólo se incluyen las secciones que le interesan, de forma que este puede
ser visualizado de un vistazo (usando las rutinas de plegado y desplegado) sin necesidad de estar
permanentemente conectado a la red. La selección de aquellas secciones a las que está suscrito el
lector (y por ende la no inclusión de las secciones a las que no está suscrito) permite que ese único
documento no tenga un tamaño extraordinariamente grande como sí lo tendría un periódico que
incluyera todas las secciones. Además, el encuadernador digital tiene en cuenta la especificación de
un intervalo de fechas, de forma que es posible, por ejemplo, admitir y servir solicitudes del periódico
personalizado de los últimos N días o entre dos fechas dadas.

Agente de personalización
La personalización de un periódico electrónico determina no sólo la forma en la que el lector
visualice las noticias que lea, sino también la selección de las noticias que se entregan al lector en
función de sus preferencias. Se distingue, por tanto entre una personalización de presentación y una
personalización de contenidos.

La personalización de presentación afecta no sólo a los colores de los componentes de las


noticias, al tipo y tamaño de letra o la disposición de esos elementos a lo largo y ancho de la
pantalla, sino también al grado de resaltación con el que unas noticias aparecen destacadas
respecto de otras o también a la forma en la que los titulares de algunas noticias son capaces de
mostrar información adicional sobre su contenido (añadiendo una entradilla desplegable, por
ejemplo). Para personalizar la presentación de las noticias se utilizan uso de hojas de estilo
personalizadas.

La personalización de contenidos o proceso de cribación de noticias comprende una labor que se


realiza conjuntamente en el servidor y en el cliente (con un esfuerzo por encaminar la mayor parte
posible de esa labor desde el primero hasta el segundo). Con el fin de estimar el grado de interés
que un lector pueda tener sobre determinada noticia, se han tenido en cuenta dos formas distintas
en las que un lector pueda especificar las preferencias sobre los contenidos que puedan ser
interesantes para él.
• Personalización estática: Consiste en la especificación explícita por parte del lector acerca
de cuales son los temas que le interesan. En este tipo de especificación es posible decir
que le interesan las noticias de determinadas secciones que traten de ciertos temas,
especificar que le aparezcan resaltados los artículos de sus periodistas favoritos, o que
simplemente no desea recibir determinadas secciones que nunca lee. La personalización
estática permite al usuario, mediante el relleno de un formulario, una especificación precisa
y controlada acerca de sus propios intereses. Sin embargo, esta especificación puede
convertirse en una labor tediosa y que con el paso del tiempo acaba por dejar de ser usada
ya que requiere la intervención explícita del lector y el uso de formularios de no poca
complejidad.

Teniendo en cuenta que los intereses de los lectores cambian a lo largo del tiempo, una
personalización explícita y estática acaba por no reflejar los intereses temporales del lector
(aquellos por los que está interesado tan sólo de forma ocasional) o sus intereses
subconscientes (aquellos que el lector tiene de una forma inconsciente para él). Con tal
motivo, se tiene en cuenta otra forma adicional de especificación de preferencias: la
personalización dinámica.

• Personalización dinámica: Consiste en la detección automática de los intereses de un


lector basándose en su comportamiento a la hora de leer el periódico con el fin de poder
predecir en un futuro cercano el grado de interés que el lector pueda tener en las noticias
del periódico. Este tipo de personalización tiene lugar de forma ágil para el usuario. Dado
que este tipo de personalización está centrada en la captación de los intereses temporales
del lector, se aplican sobre este tipo de preferencias algoritmos de envejecimiento que
reflejen la pérdida de interés del lector sobre las noticias ya acontecidas. Téngase en
cuenta que estos algoritmos de envejecimiento no se aplican en la personalización estática.

En el prototipo inicial de nuestro proyecto, tanto las preferencias estáticas como dinámicas
se almacenan en el lado del servidor (más tarde se almacenarán en el ordenador del
cliente). Por esta razón, y con el fin de no realizar una transacción con el servidor cada vez
que se registra uno de estos eventos, los registros se agrupan en el lado del cliente y van
siendo almacenados en el servidor de forma periódica.
Un periódico electrónico que estuviera completamente personalizado y sólo tuviera en cuenta las
preferencias individuales del lector no podría ser calificado como valioso porque no mostraría al
usuario noticias consideradas como importantes para todos los lectores ni motivaría el despertar de
nuevos intereses en el lector. Si bien la personalización estática y dinámica se complementan para
reflejar los intereses del lector en todo momento, lo cierto es que un periódico debe mostrar además
ideas nuevas que estimulen la aparición de inquietudes en el lector. Por tal motivo, en el proceso de
selección de noticias intervienen, además de la personalización, los siguientes elementos:

• Intereses de grupo o de comunidades virtuales: Aunque cada lector es completamente


diferente, lo cierto es que es posible encontrar grupos de lectores con un conjunto de
intereses comunes. Mediante una comparación de las personalizaciones estática y
dinámica es posible reconocer estos grupos de personas y permitirles ponerse en contacto
de forma que puedan intercambiar opiniones, comentarios, e intereses. El reconocimiento
de estos grupos de personas permite realizar estimaciones sobre el interés medio que
sobre una noticia pueda tener esa comunidad de forma que ese grado de interés pueda ser
tenido en cuenta en la elaboración del periódico personalizado de cada uno de sus
miembros. Así, cada uno de ellos no sólo verá resaltadas las noticias que le interesan, sino
también aquellas cuyo grado de interés para el grupo al que pertenece haya sido
catalogado como aceptable. La creación de foros de discusión sobre determinados temas o
el intercambio de direcciones de correo electrónico de personas con intereses afines puede
ser un valor añadido de gran importancia para el periódico electrónico del futuro, pues
facilita que los lectores puedan encontrar gente con intereses afines.
• Finalmente, el periódico siempre puede estar interesado en mostrar determinados
contenidos (considerados como importantes para la redacción) independientemente de si
esos contenidos resultan o no seleccionados en el proceso de personalización. Por ejemplo,
un periódico puede estar interesado en que se muestre al usuario lector siempre su noticia
de portada o la editorial de su director. Este tipo de noticias, consideradas como de interés
editorial permiten que el usuario pueda ser consciente de eventos importantes que afectan
al conjunto de la sociedad. Tanto el interés editorial como el interés de las comunidades
virtuales impiden el aislamiento cultural al que podría acarrear un periódico completamente
personalizado de forma individual.

Una vez tenidas en cuenta las distintas fuentes de las que es posible extraer las preferencias de los
lectores queda por determinar la forma en la que esas preferencias son utilizadas para tanto para la
elaboración del periódico personalizado (cribación de las noticias que lo forman) como para la
visualización de las noticias por las que muestra interés el lector (selección de los párrafos que se
resaltan).

Parece evidente que una noticia debe aparecer tanto o más resaltada cuanto más grado de interés
haya mostrado el lector sobre los temas de esa noticia (lo mismo sería aplicable al nivel de párrafo
dentro de una noticia). Cuando el titular de una noticia no resulta seleccionado porque ninguno de
sus temas es considerado de interés para el lector, pero esa noticia forma parte de una sección a la
que está suscrito, el titular de esa noticia (el titular junto con una posible entradilla más un enlace
para profundizar sobre el tema) es incluido en el periódico pero la noticia no aparece como
resaltada. Sólo cuando el lector decida desplegar completamente esa sección y haya cuando menos
contemplado los titulares de las noticias que le aparecen resaltadas, verá la referencia a esa noticia
(junto con su posible entradilla desplegable). Esto se podrá realizar sin interactuar con el servidor de
forma que se minimicen las transacciones entre el cliente y el servidor. Finalmente, aquellas
secciones a las que no esté suscrito el lector no serán incluidas en la edición personalizada y por lo
tanto sus noticias no se mostrarán al lector (salvo aquellas noticias que puedan pertenecer a otras
secciones en las que el lector sí está suscrito).

Agradecimientos
El trabajo en el que se basa este documento ha sido parcialmente financiado por el proyecto TEL97-
0788 de la CICYT. Queremos agradecer las aportaciones de nuestros compañeros Peter T. Breuer,
Pilar Diezhandino, Tony Hernández, Natividad Martínez, Tomás Nogales, A. Rodríguez de las Heras
y Luis Sánchez de la Universidad Carlos III de Madrid. Agradecemos también la ayuda prestada
por El PAIS Digital y Fundesco.

Referencias

1. Tim Bray, Jean Paoli, and C. M. Sperberg-McQueen (eds): XML: Extensible Markup
Language (XML) 1.0 W3C Recommendation, 10 Febrero 1998. http://www.w3.org/TR/REC-
xml
2. ``Information Processing - Text and Office Systems - Standard Generalized Markup
Language (SGML)'' ISO 8879:1986, First edition. Geneva, 15 Octubre 1986.
3. Bert Bos, Håkon Wium Lie, Chris Lilley, Ian Jacobs (eds): CSS: Cascading Style Sheets,
level 2 W3C Proposed Recommendation, 24-Mar-1998. http://www.w3.org/TR/1998/PR-
CSS2-19980324
4. Dave Raggett, Arnaud Le Hors, Ian Jacobs (eds): HTML 4.0 Specification W3C
Recommendation, 18 Diciembre 1997. http://www.w3.org/TR/REC-html40-971218
5. Lauren Wood, Jared Sorensen (eds): DOM: Document Object Model Specification, W3C
Working Draft, 18 Marzo 1998. http://www.w3.org/TR/WD-DOM-19980318
6. Richard Light. Presenting XML Sams Net, Indianapolis 1997. ISBN 1575213346
7. ed. Dan Connolly. XML: Principles, Tools and Techniques Sebastopol, CA: O'Reilly, 1997
(World Wide Web journal; 2-4).
8. LT XML Language Technology Group, Human Communication Research Centre, University
of Edinburgh. http://www.ltg.ed.ac.uk
9. ADEPT·Editor: Authoring Software for Knowledge Capture
http://www.arbortext.com/editor.html
10. MySQL T.c.X. DataKonsultAB
http://ftp.sunet.se/pub/unix/databases/relational/mysql/index.html
11. Krishna Bharat, Tomonari Kamba, Michael Albers Personalized, interactive news on the
Web Multimedia Systems 6: 349-358 (1998)
12. El Digital de Telepolis http://www.telepolis.es
13. Titulares.com http://www.titulares.com
14. Webreference.com http://www.webreference.com

Vicente Luque Centeno, Carmen Fernández Panadero,


vlc [at] it [dot] uc3m.es mcfp [at] it [dot] uc3m.es
Carlos Delgado Kloos, Andrés Marín López,
cdk [at] it [dot] uc3m.es amarin [at] it [dot] uc3m.es
Carlos García Rubio
cgr [at] it [dot] uc3m.es
Área Ingeniería Telemática
Dept. Tecnologías de las Comunicaciones
Universidad Carlos III de Madrid
http://www.it.uc3m.es/~per