Está en la página 1de 84

Revista

BITS
DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN

Nº฀6฀/฀Segundo฀Semestre฀2011
de Ciencia
UNIVERSIDAD DE CHILE

Alejandro฀Barros:฀฀ •฀ En฀camino฀฀hacia฀la฀Web฀Semántica:฀

Open฀Data:฀nuevo฀
฀ Experiencias฀de฀la฀Biblioteca฀del฀
Congreso฀Nacional฀de฀Chile

paradigma฀en฀el฀ •฀ Ricardo฀Baeza฀฀Yates:฀
฀ 32฀años฀de฀computación:฀฀
manejo฀de฀datos de฀estudiante฀a฀Fellow
contenidos
Revista

BITS
DEPARTAMENTO฀DE฀C I ENC IAS฀DE฀LA฀COMPUTAC IÓN
de Ciencia
UNIVERSIDAD DE CHILE

investigación destacada
Comité Editorial:
Nelson Baloian, profesor.
Claudio Gutiérrez, profesor.
Alejandro Hevia, profesor.
02 Expresiones regulares (autómatas) con variables y sus aplicaciones
Pablo Barceló

Gonzalo Navarro, profesor.


computación y sociedad
Sergio Ochoa, profesor.

Editor General
Pablo Barceló
08 El DCC 1983 – 1988: refundando el Departamento
Jorge Olivos

Editora Periodística
Ana Gabriela Martínez A.
14 32 años de computación: de estudiante a Fellow
Ricardo Baeza Yates

Periodista
Karin Riquelme D.
19 El primer computador digital en Chile: Aduana de Valparaíso,
diciembre de 1961
Juan Álvarez

Diseño y Diagramación OPEN DATA


Sociedad Publisiga Ltda.

Imagen Portada:
La nube de Linked Data
25 Open Data: nuevo paradigma en el manejo de datos
Alejandro Barros

Fotografías:
DCC
28 Open Government Data en el mundo
Álvaro Graves

En camino hacia la Web Semántica: experiencias de la Biblioteca


33
Gastón Carreño
Daniel Hernández del Congreso Nacional de Chile
Biblioteca del Congreso Nacional Biblioteca del Congreso Nacional de Chile (BCN)
La Nación
René Cabezas

Dirección
42 Open Source Software: similitudes y diferencias con Open Data
Jens Hardings

Departamento de Ciencias de la Computación


Avda. Blanco Encalada 2120, 3º piso
Santiago, Chile.
46 OpenStreetMap: el mapa libre del mundo
Julio Costa

837-0459 Santiago
www.dcc.uchile.cl
Teléfono: 56-2-9780652
52 Análisis de Datos Astronómicos
Karim Pichara, Rodolfo Angeloni, Susana Eyheramendy

Fax: 56-2-6895531
revista@dcc.uchile.cl 58 Entendiendo la privacidad hoy
Alejandro Hevia

Revista Bits de Ciencia del Departamento de SURVEYS


Ciencias de la Computación de la Facultad de
Ciencias Físicas y Matemáticas de la Universidad de
La Web de los Datos
Chile se encuentra bajo Licencia Creative Commons
Atribución-NoComercial-CompartirIgual 3.0 Chile.
Basada en una obra en www.dcc.uchile.cl
66 Claudio Gutiérrez, Daniel Hernández

CONVERSACIONES

Entrevista a Héctor García Molina


Revista Bits de Ciencia N°6
ISSN 0718-8005 (versión impresa)
76 Claudio Gutiérrez

CONFERENCIAS
www.dcc.uchile.cl/revista
ISSN 0717-8013 (versión en línea)
80 Latin American Theoretical INformatics (LATIN 2012)
EDitorial
La Computación está más viva que nunca. Todo el posibles (con las debidas reservas de privacidad). Lo
espectro de nuestros campos - incluyendo la teoría, más interesante de esto es que la información se presta
la simulación, la implementación, etc.- debería estar perfectamente para esta idea: al contrario del capital
más atento y ser más propositivo que nunca antes en que es limitado, los datos claramente abundan; los
la historia. Esto porque la sociedad del futuro (que ya datos no se gastan, y además pueden ser replicados
es la sociedad del presente en un puñado de países), y compartidos.
la tan manoseada pero no por eso menos importante Pero todo esto que suena tan bonito es bastante más
sociedad del conocimiento, solo podrá ser construida complejo en la práctica. Por ejemplo, por el momento
a través de la aplicación masiva de las tecnologías de muchas de las compañías más exitosas se están haciendo
la información. gratuitamente con nuestros datos (supongo que no
Uno de los mayores desafíos que esta sociedad moderna necesito nombrarlas). Además, en general los datos
impone en nuestra área es la inmensa proliferación son como el material en estado crudo, no refinado.
de datos de todo tipo. Cada vez producimos más Saber sacar la información relevante que hay en ellos
información, y cada vez tenemos mayor capacidad es una habilidad que debe ser enseñada y entrenada.
computacional para almacenarla. Por ejemplo, las bases Es como si a uno le regalaran un cerro que está lleno
de datos astronómicas generan diariamente terabytes de oro. Para hacerse rico hay que saber sacarlo.
de información describiendo el estado del cielo, las Pero no nos adelantemos. El tema de la Revista es
bases de datos genómicas describen secuencias de Open Data, es decir, la idea de hacer públicos la mayor
ADN de muchísimos organismos, nuestro paso por cantidad de datos posibles a la mayor cantidad de
las redes sociales genera cada vez más datos sobre gente posible. Esto acarrea problemas que van desde
nuestros gustos, relaciones y posición geográfica, entre los legales, hasta los más técnicos que tienen que ver
muchos otros. Lo importante de todo esto, es notar con el formato de publicación de esos datos. Lo que
que el real valor de la sociedad del conocimiento está hemos tratado de hacer en este número de la Revista
en esos datos. O puesto de otra forma, los datos serán es acercarnos a esos problemas a través de la visión de
en la sociedad del conocimiento lo que alguna vez varios expertos: Alejandro Barros, sobre el paradigma
fue el oro o el dinero. de Open Data; Álvaro Graves, sobre la aplicación
Este paso hacia una sociedad basada en la información de este paradigma en los gobiernos; la Biblioteca del
ha hecho cambiar muchos de nuestros paradigmas. Congreso Nacional, acerca de cómo esta entidad está
Por ejemplo, Tim Berners-Lee –el creador de nuestro dejando disponibles sus datos; Jens Harding, sobre el
fetiche moderno más relevante, la Web– declaró hace concepto de open software; Julio Costa, sobre un sistema
poco que ésta debía pasar lo antes posible de su actual abierto de mapas; Karim Pichara, Rodolfo Angeloni y
estado centrado en documentos (es decir, donde los Susana Eyheramendy, acerca de Datos Astronómicos;
documentos o páginas son lo más importante) a un y Alejandro Hevia, sobre temas de privacidad.
estado centrado en datos (es decir, donde los datos Por otro lado, también seguimos con nuestras secciones
sean ciudadanos de primera clase). El modelo de esta habituales: Investigación Destacada, Computación
Web del futuro puede verse como el de una inmensa y Sociedad (con artículos de Jorge Olivos, Ricardo
red de bases de datos distribuidas, que colaboran Baeza Yates y Juan Álvarez), Surveys (donde Claudio
activamente intercambiando su información. Este es Gutiérrez y Daniel Hernández nos cuentan sobre la
el famoso concepto de Linked Data. Web de Datos), y Conversaciones (con el destacado
Pero si los datos son el capital del futuro, entonces, profesor Héctor García-Molina, de la Universidad de
¿quiénes deberían ser los dueños de esos datos? Esta Stanford).
es sin duda una decisión política. Pero lo que es claro
es que si queremos que la sociedad del conocimiento ¡Esperamos les guste!
sea, a la vez, la sociedad de la inclusión, entonces una
respuesta justa a esta pregunta sería: “Todos”. Todos
Pablo Barceló
deberíamos ser dueños de la mayor cantidad de datos
Editor Revista Bits de Ciencia
investigación destacada

Expresiones regulares (autómatas)


con variables y sus aplicaciones

En este artículo estudiamos expresiones variables por símbolos. Tales lenguajes


regulares que utilizan tanto símbolos de son regulares, y además demostramos que
un alfabeto finito como variables. Tales aparecen naturalmente en varias aplicaciones
variables se interpretan como símbolos como consultar bases de datos de grafos
en el alfabeto. Además, consideramos con información incompleta y el análisis
dos tipos de lenguajes definidos por estas de programas. Para proveer un análisis
expresiones: bajo la semántica existencial, computacional más sólido, mencionamos
una palabra pertenece al lenguaje de la también ciertos resultados teóricos que
expresión con variables E si pertenece al ayudan a entender el comportamiento de
lenguaje definido por alguna expresión que las expresiones regulares con variables,
se puede obtener desde E al reemplazar así como la complejidad de algunos de
variables por símbolos; bajo la semántica los problemas de decisión más básicos
universal, una palabra pertenece al lenguaje asociados con ellas.
de la expresión con variables E si pertenece Organización: en la siguiente sección
al lenguaje definido por toda expresión que introducimos las definiciones básicas de
Pablo Barceló se puede obtener desde E al reemplazar lenguajes regulares y autómatas que son
Profesor Asistente DCC, Universidad
de Chile. Ph.D. in Computer Science,
University of Toronto (2006); Magíster
en Ciencias de la Computación,
Pontificia Universidad Católica de Chile
(2002); Ingeniero en Electricidad,
Pontificia Universidad Católica de
Chile. Áreas de interés: Bases de
Datos, Lógica para la Ciencia de la
Computación, autómata.
pbarcelo@dcc.uchile.cl

2 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

necesarias para entender la investigación Como mencionamos anteriormente, cada es, el lenguaje de todas las palabras que
realizada. Luego, motivamos la introducción expresión regular ϕ define un conjunto comienzan con una secuencia de 0s y luego
de las expresiones regulares con variables de palabras (es decir, un lenguaje) L(ϕ) siguen con una secuencia de 1s del mismo
con dos aplicaciones diferentes: análisis sobre el alfabeto A. Tal lenguaje se define largo. Intuitivamente, este lenguaje no es
de programas y bases de datos de grafos recursivamente como sigue: regular porque las expresiones regulares
con información incompleta. A partir de carecen de la habilidad de “contar”, es decir
Casos base:
éstas definimos las dos semánticas para de especificar que hay la misma cantidad
las expresiones regulares con variables: 1) L(∅) = ∅. Es decir, ∅ denota al conjunto de 0s que de 1s en una palabra.
Existencial y Universal. En la siguiente sección vacío.
Por razones obvias, el conjunto de los
listamos y explicamos las propiedades 2) L(ε) = { }. Esto es, ε denota a la palabra lenguajes definidos por expresiones regulares
computacionales más importantes de estas vacía. se llaman lenguajes regulares. Aunque es
expresiones, y finalmente discutimos las
3) L(0) = {0} y L(1) = {1}. Esto es, el 0 probable que los lenguajes regulares hayan
conclusiones de nuestro trabajo, así como
denota a la palabra con un único símbolo sido creados (¿o descubiertos?) por varios
los problemas relacionados que deseamos
0, y análogamente para el 1. investigadores al mismo tiempo, usualmente
estudiar a futuro.
se cita como su inventor, en los años
Casos inductivos: cincuenta, al lógico estadounidense Stephen
ExPRESIONES REGULARES 4) L(ϕ ∪ ϕ’) = L(ϕ) ∪ L(ϕ’). Es decir, como Kleene. También fueron estudiados por el
Y AUTóMATAS era de esperar el símbolo ∪ representa famoso lingüista Noah Chomsky, quien
la unión de lenguajes. los enmarcó en su jerarquía de gramáticas
Las expresiones regulares son un método formales, siendo los lenguajes regulares
gramatical ampliamente utilizado en 5) L(ϕ ⋅ ϕ’) = L(ϕ) ⋅ L(ϕ’), donde
uno de sus escalones más bajos.
computación para especificar conjuntos L(ϕ)⋅ L(ϕ’) = {ww’ | w ∈ L(ϕ) y w’ ∈
(posiblemente infinitos) de palabras sobre Una de las propiedades más importantes
L(ϕ’)}.
un alfabeto finito. Su objetivo básico es de los lenguajes regulares es su clausura
servir como una herramienta concisa y Esto quiere decir que el símbolo ⋅ representa con respec to a las combinaciones
flexible para la especificación de patrones la concatenación de lenguajes. Booleanas usuales. Esto quiere decir que
de texto. los lenguajes regulares son cerrados bajo
6) L(ϕ∗) se define como la unión de todos
unión, intersección y complemento. Note
De forma de hacer más fácil la presentación, los lenguajes L(ϕ)i, para i mayor o igual
que la primera operación (unión) pertenece
a partir de ahora reducimos nuestro estudio al a 0, donde los lenguajes L(ϕ)i se definen
explícitamente a la gramática, y, por tanto,
alfabeto binario A = {0,1}. Sin embargo, cabe inductivamente de la siguiente forma:
demostrar que los lenguajes regulares son
notar que todo lo que mencionemos acerca L(ϕ)0 := {} y L(ϕ)i+1 = L(ϕ)i ⋅ L(ϕ). cerrados bajo unión es trivial. Por otro lado,
de las expresiones regulares, y sus variantes,
Esto es, el símbolo *, que se llama ni la intersección ni el complemento son
a lo largo del artículo es independiente
usualmente clausura de Kleene, representa operaciones en la gramática, y de hecho
de esta elección inicial. Es decir, todas las
la concatenación de un número arbitrario de probar que los lenguajes regulares son
propiedades que mencionemos son también
veces de un lenguaje consigo mismo. cerrados bajo estas operaciones requiere
ciertas si trabajamos con cualquier alfabeto
una demostración no trivial.
A’ distinto de A. Por ejemplo, la expresión regular (01)*
representa el lenguaje de todas las palabras Otra buena propiedad de los lenguajes
El conjunto de expresiones regulares se halla
de la forma 0101 … 0101, mientras 0* ∪ regulares es su “robustez”, en el sentido
definido recursivamente por la siguiente
0*10* ∪ 0*10*10* representa el lenguaje que pueden ser carac terizados de
gramática:
de las palabras con a lo más dos 1s. Por muchas formas diferentes, e.g. como
ϕ, ϕ’ := ∅ | ε | 0 | 1 | ϕ ∪ ϕ’ | ϕ ⋅ ϕ’ | ϕ∗ supuesto, no todo conjunto de palabras gramáticas, algebraicamente, en términos
Para facilitar la simplicidad de notación, el puede ser representado por una expresión del poder expresivo de ciertas lógicas, etc.
símbolo ⋅ comúnmente se elimina de las regular (es decir, no todo lenguaje es regular). Probablemente, junto con la caracterización
expresiones regulares (ya que es fácilmente Uno de los ejemplos más paradigmáticos gramatical de los lenguajes regulares en
distinguible dentro del contexto, los lugares es el lenguaje que contiene a todas las términos de expresiones regulares, que
en que aparece). palabras de la forma 0n 1n, para n > 0. Esto ya hemos visto, la otra caracterización

3
más famosa es la algebraica, en términos posible transición es al estado q, pero sólo ExPRESIONES REGULARES
de autómatas. Esta equivalencia es si el autómata está leyendo el símbolo 1 CON VARIABLES
particularmente importante, ya que en en la palabra.
la práctica muchas veces es conveniente Nuestra investigación trata sobre el tema de las
El hecho que un autómata reconozca
construir el autómata equivalente a una Expresiones Regulares con Variables (ERVs),
un lenguaje que es regular no es una
expresión regular para poder determinar las que permiten describir sucintamente
coincidencia, ya que el famoso teorema
las palabras que la satisfacen. otras expresiones regulares más complejas.
de Kleene establece la equivalencia de los
Recordemos que un autómata es una tupla lenguajes regulares y aquellos aceptados Para motivar el problema comenzaremos
T = (Q,q,F,δ), donde (1) Q es un conjunto por autómatas. con una aplicación de estas expresiones en
finito de estados, (2) q es un estado particular el análisis de programas [LRYS04].
Teorema de Kleene: sea L un lenguaje.
en Q denominado estado inicial, (3) F es el Utilizamos el alfabeto que contiene las
Entonces las siguientes afirmaciones son
subconjunto de Q que contiene a los estados operaciones sobre los elementos del
equivalentes:
finales, y (4) δ es una función parcial de programa, e.g. variables, punteros, archivos,
transición, que se define desde Q × {0,1} 1) L es regular (es decir, L = L(ϕ) para etc. (por ejemplo, def, para definir una
en Q. El autómata T acepta una palabra alguna expresión regular ϕ). variable, use, para usarla, malloc, para
w = a1 a2 ⋅⋅⋅ an sobre alfabeto {0,1} si el 2) L es aceptado por algún autómata T. localizar un puntero, entre otros). A estos
autómata puede “correr” sobre w desde símbolos comúnmente sigue una variable;
el estado inicial a uno final siguiendo las Es interesante ver que, en cierto sentido,
e.g. def(x) significa definir la variable x.
reglas dictadas por la función de transición. el Teorema de Kleene expresa que los
lenguajes regulares pueden ser entendidos En este caso las ERVs sirven para describir
Formalmente, si existe función ρ : {0,1,. . . , n}
tanto declarativamente - aquellos que son y detectar cier to tipo de bugs (i.e.
→ Q tal que (a) ρ(0) = q, (b) ρ(i+1) = δ(ρ(i),ai+1),
especificados por las expresiones regulares comportamiento indeseado) en el programa.
para todo i entre 0 y (n-1), y (c) ρ(n) ∈ F.
- como proceduralmente - aquellos que son Por ejemplo, la expresión:
El lenguaje aceptado por el autómata T
se define como el conjunto de todas las aceptados por los autómatas. Este tipo de (¬def(x))* use(x),
palabras aceptadas por T. equivalencias aparecen en distintas áreas
de la computación y son comúnmente muy donde ¬def es una abreviación para el
Por ejemplo, el siguiente autómata acepta relevantes. Por un lado, la parte declarativa complemento de la expresión regular def,
exactamente el lenguaje regular 0(10)*: permite al usuario especificar lo que que identifica aquellas variables que han
desea, mientras la parte procedural ayuda sido utilizadas sin antes ser definidas. En
en la implementación y optimización del general, dada una ERV E y un programa P,
sistema. Un ejemplo paradigmático es el nos interesa encontrar los posibles valores de
de los lenguajes de consulta para bases de las variables que hacen que E se satisfaga en
datos relacionales: el usuario especifica sus P (estos valores corresponden a los bugs de
consultas en SQL, mientras el sistema las P). En términos más formales, nos interesan
ejecuta utilizando el álgebra relacional. aquellas palabras que son definidas por
alguna expresión regular sin variables que se
Es importante destacar que las expresiones pueda obtener desde E reemplazando a las
Los estados son los círculos azules y las regulares y su contraparte algebraica, los variables por símbolos del alfabeto. Es decir,
transiciones son las flechas en rojo. El autómatas, tienen variadas aplicaciones en este caso interpretamos existencialmente
estado inicial es q, denotado por la flecha en distintas áreas de la computación. Éstas la semántica de la expresión regular con
de entrada sin etiqueta. El estado final es incluyen, entre innumerables otras, lingüística variables.
q’, denotado por el doble círculo. Desde computacional [Mar05], compiladores
el estado q la única posible transición es [ALSU06], búsqueda en texto [CR03, NR07], Una segunda aplicación de las ERVs viene
al estado q’, pero sólo si el autómata está datos semiestructurados [Bun97, BSV99], del área de Bases de Datos de Grafos (GDBs).
leyendo el símbolo 0 en la palabra. De la verificación de software [VW86], análisis En su forma más simple una GDB es un
misma forma, desde el estado q’ la única de programas [NNH10], etc. par (V,E), donde V es un conjunto finito de

4 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

vértices y E es un subconjunto de triples


en V × A × V, donde A es un alfabeto
Dado que la mayoría de los problemas de decisión
finito. Es decir, E es un conjunto de arcos clásicos de autómatas y expresiones regulares se
etiquetados en A. Por ejemplo, sea C el
conjunto de todas las ciudades del mundo vuelven intratables en la presencia de variables, es
y F el conjunto de todos los triples de la
forma (c,a,c’), tal que c y c’ son ciudades importante en el futuro desarrollar heurísticas que
en C y a es el nombre de una aerolínea
que vuela en forma directa desde c hasta permitan trabajar con ellas en ciertos contextos
c’. Entonces H = (C,F) es una GDB.
importantes.
El lector familiarizado con los temas de
autómatas notará que una GDB no es más
que un autómata no determinista, donde
verificar si existe un camino desde Santiago variables (donde las variables representan
los vértices corresponden a los estados y
a Toronto en H tal que la concatenación la información estructural faltante).
las arcos a las transiciones. Como es bien
de las etiquetas en ese camino pertenece
sabido, estos autómatas no entregan mayor Recuerde que en la presencia de información
al lenguaje regular definido por (LAN ∪
poder expresivo a su versión determinista incompleta estamos interesados en las
Air Canada)*.
(la que fue definida en la sección anterior). respuestas certeras a una consulta. En
Es decir, todo lenguaje definido por un En la mayoría de las aplicaciones modernas, particular, pensando en el lenguaje de
autómata no determinista puede también en que los datos son constantemente consulta específico de las GDBs, quisiéramos
ser definido por un autómata, y por tanto transferidos, intercambiados y tienen detectar si dos nodos se hayan unidos por
también por una expresión regular. Esto niveles no menores de incertidumbre, es una palabra en un lenguaje regular dado,
quiere decir que las GDBs son, en esencia, necesario proveer un modelo flexible que independiente de la interpretación de la
expresiones regulares. permita especificar que ciertos datos son información faltante (las variables). Esto
desconocidos o simplemente no están quiere decir que, al contrario del caso
Como es usual en cualquier modelo de base
disponibles. Este modelo se denomina de anterior, en este escenario nos interesa una
de datos, las GDBs vienen acompañadas
información incompleta. Usualmente en interpretación universal de las ERVs que
de su propio lenguaje de consulta, el que
este escenario buscamos las respuestas a representan nuestras GDBs con información
permite extraer información a partir de
las consultas que son independientes de la parcial.
la información almacenada. Una de las
interpretación faltante. Tales respuestas se
características más importantes de las GDBs, Podemos entonces definir la semántica
denominan certeras, ya que son invariantes
y que en particular la hacen distinas de de una ERV E. Primero debemos entender
frente a la reparación que establezcamos
las bases de datos relacionales, es que en cómo interpretar sus variables. Para ello
sobre la base de datos.
ellas estamos tan interesados en consultar ocupamos el concepto de valuación, que no
la “topología” de los datos como los datos En un reciente artículo [ABR11] hemos es más que una función η : V → A, donde
mismos. En particular, muchas veces estamos comenzado el estudio de este tema sobre V es el conjunto de variables mencionadas
interesados en “navegar” el grafo, es decir, GDBs. Una de las mayores fuentes de en E. Esto es, η es una función que a cada
en recorrerlo recursivamente desde un lado incompletitud en este escenario es la pérdida variable le asigna una letra del alfabeto.
a otro. Una típica consulta de esta forma es de información estructural, principalmente
Definimos además la aplicación de η sobre
verificar si un par de nodos se haya unido la pérdida de la información contenida en la
E, denotado η(E), como la expresión regular
por una palabra en un lenguaje regular etiqueta de un arco. Como ya mencionamos,
sin variables que se obtiene desde E al
dado. Por ejemplo, continuando con la GDB cada GDB puede ser descrita por un
reemplazar simultáneamente cada variable
H = (C,F), uno podría querer verificar si autómata, y por tanto por una expresión
x en E por el símbolo η(x).
existen vuelos (no necesariamente directos) regular. Eso quiere decir que las GDBs con
entre Santiago y Toronto que sólo utilicen información estructural incompleta pueden Dada una expresión regular E con variables,
a LAN o Air Canada. Para ello se debe ser descritas por expresiones regulares con definimos su semántica tanto en términos

5
existenciales como universales (motivadas capacidad de expresar algunos lenguajes ERV corresponden a la unión e intersección,
por las aplicaciones mencionadas más de forma más sucinta. respectivamente, de todas las ERVs sin
arriba) como sigue: variables obtenidas desde E al reemplazar
Es importante hacer notar que ésta no es la
sus variables por letras en el alfabeto (i.e. por
a) La semántica existencial de E es el única semántica posible para las expresiones
sus valuaciones). Sin embargo, el número
lenguaje L ∪ (E) que se define como regulares con variables. De hecho, hace
de valuaciones de E es exponencial en
la unión de todos los lenguajes de la varias décadas la comunidad de lenguajes
el número de sus variables, y, por tanto,
forma L(η(E)), donde η es una valuación formales viene estudiando la clase de los
L ∪ (E) y L ∩ (E) pueden ser expresados,
de E. Esto es, una palabra pertenece a patrones [Sal03], que son nada más que
respectivamente, por expresiones regulares
L∪(E) si y sólo si es aceptada por alguna concatenaciones de letras y variables. En
de tamaño exponencial, en el caso de la
expresión regular E’ sin variables que se el caso de los patrones, sin embargo, las
semántica existencial, y doble exponencial,
puede obtener desde E al reemplazar valuaciones permiten reemplazar variables
en el caso de la semántica universal.
simultáneamente a sus variables por no sólo por letras sino también por palabras
símbolos del alfabeto. arbitrarias en el alfabeto (bajo una semántica Esto sugiere fuertemente que las ERVs son
existencial). Esto hace que los patrones, al menos exponencialmente más sucintas
b) La semántica universal de E es el
al contrario de las ERVs, puedan expresar que su versión sin variables. Es decir, que
lenguaje L∩(E) que se define como la
propiedades mucho más allá del mundo ERVs de tamaño polinomial pueden definir
intersección de todos los lenguajes de la
regular. Por ejemplo, el patrón xx define lenguajes que sólo pueden ser definidos
forma L(η(E)), donde η es una valuación
el conjunto de todas aquellas palabras por expresiones regulares de tamaño
de E. Esto es, una palabra pertenece a
de la forma ww, donde w es una palabra exponencial. Note que esto no se sigue
L∩(E) si y sólo si es aceptada por toda
cualquiera. Este lenguaje no es regular y, directamente de lo explicado en el párrafo
expresión regular E’ sin variables que se
de hecho, ni siquiera es context-free. Este anterior, ya que es necesario demostrar que
puede obtener desde E al reemplazar
aumento en expresividad conlleva, como existen ERVs E de tamaño polinomial tal que
simultáneamente a sus variables por
es de esperar, problemas en términos de la L∪(E) (o L∩(E)) requieren para ser expresados
símbolos del alfabeto.
decibilidad de algunos problemas básicos de expresiones regulares de tamaño
Po r e j e m p lo, s e a E la e x p r e sió n de decisión (por ejemplo, la equivalencia) exponencial. Éste es uno de los principales
(0 ∪ 1)* xy (0 ∪ 1)*. Entonces, la palabra [JSSY05], que sí son decidibles para las resultados de nuestro artículo:
00 pertenece a L∪(E), como lo atestigua la expresiones regulares (y, por tanto también
Teorema: existe una familia {En}n > 0 de
valuación η(x) = η(y) = 0. Por otro lado, para las ERVs, dado que éstas no pueden
ERVs de tamaño polinomial en n, tal
la palabra 10011 pertenece a L ∩(E) y no expresar lenguajes no regulares).
hay palabra de largo menor que también que cualquier:
pertenezca a este lenguaje. Esto se debe al a) expresión regular, o
hecho que xy es una subexpresión de E, y
PROPIEDADES
que, por tanto, si una palabra w pertenece
COMPUTACIONALES DE b) autómata (determinista o no

a L∩(E) entonces w contiene a toda palabra


LAS ERVs determinista),

de largo 2 como subpalabra. Es posible que define L∪(En) (respectivamente, L∩(En))


Aunque las ERVs constituyen un modelo
demostrar por una simple enumeración de es de tamaño al menos exponencial
simple de especificación de propiedades
casos que no hay palabra más corta que (respectivamente, doble exponencial)
importantes en distintas áreas de la
10011 que tenga esta propiedad (y note con respecto a En.
computación, hasta el momento de
que 10011 sí la tiene).
nuestro trabajo nadie había iniciado un Esto significa que efectivamente las ERVs son
Note que cada ERV E utiliza un número estudio sistemático de sus propiedades al menos exponencialmente más sucintas
finito de variable y que, por tanto, el computacionales. A continuación detallamos que su versión sin variables, y que este
número de posibles valuaciones para E es algunas de las más importantes conclusiones resultado es robusto, en el sentido que
también finito. Esto nos permite hacer una aplica a todos los modelos de computación
obtenidas a lo largo de nuestro estudio
importante primera observación: dado que equivalentes a las expresiones regulares que
[ABR11a]:
los lenguajes regulares son cerrados bajo hemos descrito en el presente artículo.
unión e intersección, entonces tanto L∪(E) 1) Hemos mencionado en la sección anterior
como L∩(E) son también lenguajes regulares. que las ERVs sólo pueden definir, bajo ambas 2) Existe otra interesante forma de demostrar
Esto quiere decir que las ERVs no agregan semánticas, lenguajes regulares. Esto se que las ERVs permiten describir sucintamente
poder expresivo a las expresiones regulares debe al hecho que los lenguajes regulares lenguajes regulares complejos. Un problema
sin variables. Pero como veremos en la son cerrados bajo unión e intersección, y clásico en lenguajes regulares es el de
próxima sección, lo que sí aportan es la la semántica existencial y universal de una intersección, definido de la siguiente forma:

6 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

dadas expresiones regulares E1 , … , Ek de valuaciones. Note que para verificar que modificadas y consultadas, como es el
tamaño O(n), determine el tamaño de la w pertenece a a L∪(E) basta “adivinar” una caso de las Bases de Datos de Grafos con
menor expresión E que es equivalente valuación η para E y verificar, en tiempo información incompleta.
a la intersección de todos los Ei´s (tal E polinomial, que w está en a L(η(E)). Dado
existe ya que las expresiones regulares que η es un testigo de tamaño polinomial en AGRADECIMIENTOS
son cerradas bajo intersección). Es bien E, podemos concluir que el problema puede
sabido que en algunos casos el menor E ser resuelto en nondeterministic polynomial Este trabajo fue realizado en colaboración
que cumple la propiedad expresada arriba time (NP). De la misma forma, verificar si con Leonid Libkin y Juan Reutter, ambos
es de tamaño O(nk) (es decir, exponencial). w está en L∩(E) puede ser resuelto en el de la Universidad de Edinburgo. Mi trabajo
Sin embargo, utilizando ERVs y la semántica complemento, coNP, de la clase NP. fue patrocinado por el proyecto Fondecyt
universal podemos expresar la intersección 1110171.
Lamentablemente, salvo en casos bastante
polinomialmente:
restringidos, el problema de verificar si
Teorema: Sean E1 , … , Ek expresiones una palabra w está en L ∪ (E) puede ser
regulares de tamaño O(n). Existe ERV E de completo para la clase NP. Esto dice BIBLIOGRAFíA
tamaño O(nk) tal que L∩(E) es equivalente que, bajo suposiciones ampliamente
a la intersección de todos los Ei´s. diseminadas en la comunidad, el problema [1] [ALSU06] A. Aho, M. Lam, R. Sethi, J.
Ullman. Compilers: Principles, Techniques
es computacionalmente intratable. En and Design. Addison-Wesley, 2nd edition,
Por supuesto, todo este poder de concisión
particular, la complejidad del problema 2006.
de las ERVs tiene costos al momento de
coincide con la complejidad del problema [2] [BLR11] P. Barceló, L. Libkin, J. Reutter.
analizar la complejidad de ciertas tareas
de satisfacibilidad o del vendedor viajero, Querying Graph Patterns. PODS 2011.
básicas de las expresiones regulares, lo que
ambos considerados inherentemente [3] [BLR11a] P. Barceló, L. Libkin, J. Reutter.
veremos en el próximo punto.
exponenciales. Parameterized Regular Expressions and
3) El problema básico de decisión para una Their Languages. Enviado.
expresión regular es el de verificar si una
CONCLUSIONES [4] [Bun97] P. Buneman. Semistructured Data.
palabra pertenece al lenguaje definido por PODS 1997.
ella. Esto es, dada expresión regular ϕ y Hemos definido la clase de las ERVs, [5] [BSV99] P. Buneman, D. Suciu, V. Vianu.
palabra w, ¿es cierto que w ∈ L(ϕ)? Es fácil analizado su aplicabilidad en dos áreas Data on the Web. Morgan Kauffman,
ver que este problema puede ser resuelto 1999.
distintas de la computación y estudiado
eficientemente. Una demostración usual algunas de sus propiedades computacionales [6] [CR03] M. Crochemore, W. Rytter. Jewels
procede como sigue: convierta ϕ en un of Stringology. WSP, 2003.
básicas. Dado que la mayoría de los
autómata no determinista equivalente. Se problemas de decisión clásicos de autómatas [7] [JSSY95] T. Jiang, A. Salomaa, K. Salomaa,
sabe que esto se puede hacer en tiempo S. Yu. Decision problems for patterns.
y expresiones regulares se vuelven intratables JCSS, 50(1), 53-63, 1995.
polinomial. Luego verifique si la palabra w en la presencia de variables, es importante
es aceptada por el autómata, lo que también [8] [LRYS04] Y. Liu, T. Rothamel, F. Yu, S.
en el futuro desarrollar heurísticas que Stoller, N. Hu. Parametric Regular Path
puede realizarse polinomialmente. permitan trabajar con ellas en ciertos Queries. PLDI 2004.
Para el caso de las ERVs esto no es tan contextos importantes (e.g. Bases de Datos [9] [Mar05] C. Martín-Vide. Formal Grammars
fácil. Imagine que dada ERV E queremos de Grafos). and Languages. The Oxford Handbook
verificar si una palabra w pertenece a L∪(E) of Computational Linguistics, 2005.
Otro problema importante es el de la
o L∩(E). La técnica de primero convertir a [10] [NR07] G. Navarro, M. Raffinot. Flexible
clausura de las ERVs con respecto a las
L∪(E) o L∩(E) en un autómata equivalente Pattern Matching in Strings: Practical
combinaciones Booleanas. Por ejemplo, On-Line Search Algorithms for Texts
T, para luego verificar si w es aceptado por sabemos que si E y E’ son ERVs entonces and Biological Sequences. Cambridge
T, nos acarrearía costos computacionales L∪(E) ∩ L∪(E’) sólo puede ser representado, University Press, 2002.
insalvables, ya que sabemos que T puede en algunos casos, por una expresión [11] [NNH10] F. Nielson, H. Nielson, C.
ser de tamaño exponencial en E. Es decir regular sin variables de tamaño al menos Hankin. Principles of Program Analysis.
este procedimiento nos entrega un algoritmo Springer-Verlag, 2010.
exponencial en E y E´. Sin embargo, es
al menos exponencial, y, por tanto, no aún posible que el mismo lenguaje pueda [12] [Sal03] K. Salomaa. Patterns. Bulletin of
implementable computacionalmente. the EATCS, 2003.
ser representado por una ERV de tamaño
polinomial. Este tipo de resultados podrían [13] [VW86] M. Vardi, P. Wolper. An Automata-
Es posible demostrar que la complejidad
Theoretic Approach to Automatic Program
del problema es un poco mejor, aunque ser útiles en contextos dinámicos en que las
Verification. LICS 1986.
no mucho más, utilizando el concepto de ERVs son permanentemente actualizadas,

7
computación y sociedad

El DCC 1983 – 1988:


refundando el Departamento

Jorge Olivos (a la izquierda) durante una presentación de la empresa Epson. Gentileza: Gastón Carreño.

En dos artículos previos1, se relata el innumerables aristas, la mayoría marcadas


nacimiento, en 1975, del Departamento por trabas y conflictos. Sin embargo, pienso
de Ciencias de la Computación (DCC) de que, sobre todo, éste fue un período que se
la Universidad de Chile. Sin embargo, en caracterizó por el gran esfuerzo realizado
1981 dejó de serlo a raíz de una decisión por llevar adelante este proyecto.
administrativa. Fue necesaria una década
En una reunión con Pepe Pino, Alfredo
para recuperar en pleno derecho el estatus
Piquer y Patricio Poblete se me solicitó
de Departamento. Como Director desde
hacerme cargo de esta unidad. Conocía
1983 a 1988 estuve a cargo de impulsar
las gestiones para devolverle la categoría muy bien a Pepe, ya que habíamos sido
perdida a la unidad. En el presente artículo compañeros de carrera. A Alfredo lo había
relato esta experiencia -no exenta de tenido como alumno destacado en la carrera
dificultades- de cómo aporté a sentar las de Ingeniería Matemática y como, además,
bases de lo que hoy tenemos. tenía buenos antecedentes de Patricio,
finalmente acepté el desafío.

EL CONTExTO DE UNA Para ese entonces, la disciplina había cobrado


DECISIóN importancia en todas las universidades del
mundo desarrollado, por lo que me parecía
Cuando en 1983 acepté dirigir la entonces razonable que se pudiese reproducir en Chile
Jorge Olivos
Académico Departamento de Ingeniería División de Computación, nunca imaginé las lo que ya era una realidad en otros lugares.
Matemática, Universidad de Chile
(1970-1982). Director DCC Universidad dificultades que tendría que sortear. Mirando La misión, entre muchas otras, era volver a
de Chile (1983 – 1988). Actualmente, hacia atrás, creo que esta historia tiene formalizar en una estructura departamental
Director del Centro de Computación,
FCFM, Universidad de Chile.
jolivos@dcc.uchile.cl
1 Revista Bits de Ciencia números cuatro y cinco.

8 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

un cuerpo de conocimientos donde la con las autoridades por el incumplimiento Sorprendentemente, el coordinador de un
Facultad ya tenía un claro liderazgo a nivel de los compromisos que adquirían con la departamento, de quien se creía era afín
país gracias, en particular, a las personas Unidad. Las paralizaciones, respaldadas por a nuestra propuesta, manifestó rechazo
que formaban la División. nuestros alumnos, ayudaron a conseguir al proyecto. Su principal argumento fue
los recursos que solicitábamos. Recuerdo que la computación era una excelente
En la primera reunión me quedó claro
especialmente a Fernando Ortiz, quien herramienta, pero nada más que eso. En
que debía aceptar la Dirección, a fin de
como representante estudiantil de la carrera, cambio, las ingenierías civiles de la Facultad
evitar la disolución definitiva del proyecto.
siempre colaboró activamente en todas las eran temáticas, orientadas al problema, y
La situación de la unidad era compleja.
iniciativas conducentes a mejorar la calidad convenía mantenerlas así.
Las dificultades crecientes que hubo los
de la enseñanza.
años anteriores, habían hecho mella en Pepe rápidamente contraargumentó que la
el grupo. Uno de nuestros primeros logros fue el computación también podía ser considerada
aumento gradual del espacio en planta un área, y no reconocer su crecimiento en el
Ese fue el escenario con que me encontré.
física. El primer hito fue el traspaso de la mundo y en Chile era cegarse a la realidad.
No obstante, tomar la decisión no fue
Biblioteca del CEC -con todo su personal- Se desató entonces un encendido debate.
fácil, ya que había pasado por dos etapas
desde su ubicación en una casa de Beauchef, El coordinador de la carrera de Ingeniería
desgastadoras en el pasado. Al egresar me
al primer piso del edificio de Computación Matemática también vio en el argumento
incorporé al Departamento de Matemáticas,
que, poco a poco, pasó a formar parte “temático” un ataque a su propia carrera y
donde colaboré en la formación de sus
de nuestra unidad. Con el transcurso del así surgió un aliado espontáneo.
ingenieros y ayudé en la agotadora labor
tiempo, la Biblioteca extendió su horario de
de su consolidación académica. Así Finalmente, Isaac Ergas cerró el tema, resumió
atención a los días sábado y domingo, usando
se construían en esa época los nuevos los argumentos, y dio su propia opinión: la
siempre a los alumnos para la atención
departamentos donde era necesario mejorar Ingeniería Civil en Computación era una
en horario no hábil. Luego, la biblioteca
el nivel académico, los programas de oportunidad para que la Universidad de
comenzó a operar con la modalidad de
estudio y obtener los recursos necesarios Chile contribuyera al desarrollo del país en
“estanterías abiertas”, es decir, los alumnos
para crecer. Las dificultades por falta de un área importante, de la misma manera
podían ingresar al sector de los libros. Hasta
medios y la escasa ayuda de los decanos como lo había hecho hasta ese momento
entonces, ese era un privilegio del que sólo
era algo que ya habíamos experimentado con las otras especialidades. En la votación,
gozaban los académicos.
en el Departamento de Matemáticas. la Ingeniería Civil en Computación fue
Ahora nos tocaba vivirlo en la División de aprobada por mayoría.
Computación. EL PRIMER INGENIERO
Dos años después, se tituló el primer
Anteriormente, en 1970, ya había tenido que CIVIL EN COMPUTACIóN
Ingeniero Civil en Computación. Ronald
participar activamente en la reestructuración Corovic aprobó su memoria titulada “Interfaz
Hasta esa fecha, el DCC tenía docencia
completa del Plan Común de la Facultad intuitiva para docencia” en 1986, guiada
en el ámbito de las matemáticas. La especializada en dos programas académicos:
el de Magíster en Ciencias mención por el mismo Pepe Pino.
modernización de los planes de estudio
-que en esencia aún se mantienen vigentes- Computación, creado en 1975, y el de
se tradujo en tener que impartir materias Ingeniería de Ejecución en Procesamiento EQUIPAMIENTO UNIx
nuevas y reemplazar a muchos profesores de la Información, creado en 1969.
del Pedagógico, quienes eran los principales Teníamos la sensación que nos faltaba algo
Sin embargo, durante años el principal anhelo
docentes del antiguo plan. Ese cambio fue muy importante en el Departamento. En
fue crear un nuevo programa: Ingeniería
liderado por el destacado y carismático ese entonces, la vanguardia en computación
Civil en Computación. En 1984 nuestra
profesor Moisés Mellado. Él fue, además, el era sinónimo de Unix. Nuestro esfuerzo se
aspiración se haría realidad. La Escuela de
principal responsable de la creación de la centró en adquirir una de esas máquinas.
Ingeniería había evaluado nuestra propuesta
carrera de Ingeniería Matemática, apoyado y la decisión final la tomaría el Consejo de Como los VAx eran equivalentes a Unix,
por el profesor Domingo Almendras.
Docencia, compuesto por los coordinadores realizamos gestiones con Sonda -que
docentes de los departamentos de la Facultad. distribuía los equipos Digital- para conseguir
LAS PRIMERAS Nuestro coordinador docente era Pepe Pino la donación de un equipo con el sistema
DIFICULTADES y a él le correspondió defender la propuesta. operativo Unix. Sin embargo Sonda nunca
El Subdirector de la Escuela de ese entonces, manifestó interés en esta propuesta, ya
Cuando asumí la administración de la Isaac Ergas, manifestó que los requisitos se que su principal negocio se centraba en el
División eran tiempos difíciles. Para cumplían y, por lo tanto, estaba en manos desarrollo de aplicaciones bajo el sistema
materializar los planes de desarrollo de la del Consejo decidir si la Facultad debía o operativo VMS, de Digital. En esos años,
División teníamos problemas constantes no ofrecer esta nueva carrera. Bell ya había comenzado a cobrar por

9
En ese momento no dimensionamos el enorme en esa época, se nos brindó rápidamente
ayuda técnica, y gracias a personas como
valor que tenía el haber enviado el primer email Yves Devillers, el gurú de UUCP del INRIA,
así como del recordado y estimado Philippe
del país, ya que esa era una práctica habitual Flajolet, fue posible incorporarnos a esa red,
vía x.25. Destaco que incluso lo hicimos
en el resto del mundo. Ahora veo que ese día antes que muchas universidades francesas.
Para activar la red UUCP, nuestra contraparte
contribuimos a la historia local. en Chile estuvo conformada por Jo Piquer
y Patricio Poblete. En esa época, realizar
llamadas de larga distancia y el enganche
entre los módems era complejo, por decir
lo menos.

Sin embargo, al poco tiempo de ingresar a esta


los binarios de Unix, lo que constituía Recuerdo que Jo Piquer tuvo dificultades no red pública surgió un obstáculo insalvable,
una traba adicional. menores para ingresar a la USACH con el Pier Beeterma, responsable en Holanda (CWI)
módem que haría posible la interconexión. del hub UUCP a nivel europeo, se quejó
La solución llegó de un modo inesperado.
Su aspecto “lana” no cuadraba con el porque Chile se había incorporado a la red
En diciembre de 1982, NCR Corporation
ambiente militarizado que existía en la a través de Europa y no vía Estados Unidos
sacó al mercado un equipo mediano
USACH, que tenía como Rector Delegado como nos correspondía geográficamente.
basado integralmente en Unix: el Tower
a un Coronel de Ejército. Naturalmente, en el INRIA exclamaron al
1632, que tenía un procesador Motorola
68000, con 512K de RAM. Lo que NCR Con UUCP - que funcionaba en una unísono: “Ils sont fous ces hollandais!”2 como
Corporation hacía, como parte de sus modalidad store and forward- cuando se en una historieta de Asterix.
políticas comerciales, era realizar donaciones establecía la conexión dial-up se despachaba A raíz de esta exigencia, tuvimos que hacer
de estos equipos a universidades y fue así el correo saliente y se recibía el entrante, el cambio y nos pusieron en contacto con
como tuvimos la suerte de recibir uno a esto se repetía en la siguiente conexión. Rick Adams, fundador de UUNET en Estados
fines de 1983. Así, el envío de archivos o correos no era Unidos, quién gentilmente colaboró con
inmediato como lo es hoy con Internet. nosotros para realizar la transición que
En una visita realizada en 1984, Gastón
En ese momento no dimensionamos el dejaría tranquilos a los holandeses. Rick,
Gonnet, destacado profesor del DCC de la
enorme valor que tenía el haber enviado en la famosa máquina Seismo, controlaba
Universidad de Waterloo, logró compilar
el primer email del país, ya que esa era una la red UUCP en Estados Unidos y también
exitosamente Maple en nuestro Tower. Fue
práctica habitual en el resto del mundo. la distribución de News (USENET).
así como nuestra Unidad dispuso de un
Ahora veo que ese día contribuimos a la
sistema de cálculo simbólico de gran calidad Gracias a la red UUCP, que constituyó un
historia local.
para apoyar la actividad en investigación aporte de proporciones para el Departamento,
y docencia. Ese mismo año también adquirimos un comenzamos a ofrecer, gratuitamente, el
Tower xP, adquisición que, a pesar de haber servicio de correo a otras universidades
sido apoyada por el decanato, tuvo muchas chilenas y a algunos organismos públicos
EL PRIMER consecuencias molestas, en especial durante y privados. Esta red inició una escuela
EMAIL DE CHILE el funesto período del Decano interventor de administradores de sistemas de gran
de la Facultad, Juan Antonio Poblete. prestigio. Liderada por Jo Piquer, jugaron
En 1985, el Departamento jugó un rol
un rol destacado Marcelo San Martín, Luis
clave en la interconexión vía UUCP entre
Fuentes y, posteriormente, Eduardo Mercader
los equipos Unix de tres universidades: LA LLEGADA DEL
y Willy Contreras.
Universidad de Chile, Universidad de DOMINIO .CL AL PAíS
Santiago y Pontificia Universidad Católica. En tanto, la distribución de News en Chile,
Como parte de esta actividad, fue posible Con equipamiento Unix en nuestras que por su volumen y costos no podíamos
el envío del primer correo en Chile entre instalaciones, y a raíz de una visita que recibir en línea, eran despachadas desde
el DCC, donde estaban Jo Piquer y Patricio hice en 1986 al centro de investigación Estados Unidos vía cintas. Estos despachos
Poblete, y la Universidad de Santiago INRIA Roquencourt, Francia, solicité ayuda eran esperados con cierta ansiedad ya que
(USACH), donde se encontraban Edgardo para incorporar al DCC a la red pública Usenet era una verdadera mina de oro
Krell y Sergio Mujica. internacional UUCP. Como era frecuente de información.

2 “¡Están locos estos holandeses!”

10 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Era una época donde las comunicaciones


constituían una pieza clave y las velocidades
de transferencia nos significaban verdaderos
dolores de cabeza presupuestarios. Teníamos
que hacer malabares para pagar las facturas
(x.25 al comienzo, telefonía o dial-up
después). Recuerdo nuestra alegría cuando
llegaron los poderosos módems TrailBlazer
de Telebit que nos permitieron comunicarnos
a velocidades por encima de los 10.000
bps, algo genial en dichos días.

En un comienzo era habitual reunirse en


torno al Tower cuando se realizaban las
llamadas, para estar presente cuando se
recibía el correo, ya que realizábamos muy
pocas llamadas diarias y sólo cuando había
algo muy urgente se alteraba el Crontab.
En definitiva, ¡era parecido a esperar la
diligencia en el viejo Oeste!

Uno de los peligros para las escuálidas


arcas del DCC era la recepción de archivos
demasiado grandes ya que la lentitud de los Jorge Olivos durante una presentación de la empresa Epson (gentileza: Gastón Carreño).
módems y el protocolo de comunicaciones
hacían necesaria la retransmisión de
todo el archivo cuando se presentaba un
Chile fue el primer país en Latinoamérica EQUIPÁNDONOS
en ingresar a UUCP, seguido por poco de
inconveniente en la transmisión que, como Argentina. La incorporación argentina a En la Facultad contábamos con equipamiento
bien se imaginan, ocurría frecuentemente. UUCP ilustra bien cómo ocurrían las cosas en para los alumnos que, en general, podíamos
En una oportunidad, Ricardo Baeza Yates esa época. Dante Caputo, flamante ministro considerar de buena calidad para la época.
hizo el envío de software para Macintosh, de Relaciones Exteriores del presidente Hasta hacía muy poco computación era
a solicitud de Ricardo Cisternas. Ricardo Alfonsín, solicitó al notable y recordado sinónimo de Mainframe y nosotros no éramos
Baeza Yates, que en ese entonces estaba Alberto Mendelzon, en ese entonces profesor la excepción. No puedo olvidar mi desencanto
realizando estudios de Doctorado en de la Universidad de Toronto, Canadá, con la plataforma computacional que existía
Canadá, no pudo imaginar lo que ocurriría que informatizara el servicio. Interesaba en Francia en el último lustro de los años
con la recepción de su envío. Después la interconexión del Ministerio con sus setenta, ya que en la Facultad disponíamos
de numerosos intentos infructuosos fue representaciones en todo el mundo, en de un mejor servicio computacional que
necesario recurrir al administrador de UUNET especial con Estados Unidos. Mendelzon ellos, basado en Mainframes IBM. A raíz de
para que eliminara de la cola de envío los dejó así en funcionamiento una solución la política nuclear francesa había restricciones
archivos que no lográbamos recibir. basada en UUCP. Al igual que con nosotros, de compra de equipamiento norteamericano
Una consecuencia positiva de estar en UUCP al incorporarse los TLDs, el ministerio y, por lo mismo, un énfasis en el desarrollo
fue la llegada, en 1987, de los Top Level argentino heredó la responsabilidad del de una industria informática propia (Bull).
Domains (TLDs), ya que desde ese momento dominio .ar, algo que a ellos les ha significado Recién en los ochenta, las universidades
pasamos a controlar el dominio .cl que es más de un problema, ya que en la actualidad francesas fueron autorizadas a adquirir
el que hoy nos distingue. Lo habitual en esa todavía continúan entregando el servicio equipos americanos, por ejemplo, VAx y
época era que el organismo responsable de dns primario para todo el país, esto es, con Unix por cierto.
de UUCP en el país fuese el responsable son el NIC argentino. Alberto Mendelzon
posteó en las News (USENET), en ese Nuestros alumnos disponían entre los años
de la administración de su correspondiente
entonces, que Argentina era el primer país 1983 a 1986, para sus trabajos de docencia,
dominio. Ocupé el puesto de coordinador
de Latinoamérica en ingresar a la red UUCP, de computadores personales con MS-DOS y
administrativo del dominio y Jo Piquer el
posteo que fue rápidamente rectificado de terminales con acceso a los equipos Tower,
de técnico, cargo que aún mantiene en la
por Patricio Poblete, que por esos días se cuando estos entraron en funcionamiento.
actualidad. La administración de dominios
encontraba como profesor visitante en la Por cierto también había facilidades de
bajo .cl quedó entonces en manos del
Universidad de Waterloo. acceso a los Mainframe IBM.
Departamento y continúa siendo así.

11
En 1986 logramos que se compraran grupo de investigación en esa institución, ellos continuaron colaborando en una
equipos Macintosh para apoyar la docencia se mantiene hasta la fecha. modalidad part time.
de Plan Común. Nuestra apuesta fue que
No era posible, en un comienzo, enviar Recuerdo que la última persona que traje al
en el futuro los computadores tendrían
rápidamente a Francia a académicos Departamento, poco después de finalizar
interfaces gráficas, ventanas y harían uso
jóvenes, ya que no dominaban el francés. mi período, fue Gonzalo Navarro, alumno
del mouse y así debíamos preparar a los
El primero en salir fue Ricardo Baeza brillante de un curso que impartí en Buenos
futuros ingenieros. Estos equipos disponían
Yates que partió a doctorarse a Waterloo, Aires. Le propuse venir a trabajar a Chile
además de un lenguaje Pascal, enseñado
en Canadá, y lo siguieron otros a Francia como académico y después de un corto
en primer año, que facilitaba mucho el
como Jo Piquer (con enseñanza media en período en la empresa privada en Argentina,
debugging de los programas (la manito
la Alianza Francesa) y Luis Mateu. Nancy aceptó el ofrecimiento.
aquella), algo siempre crucial cuando se
Hitschfeld partió al ETH de Suiza y Nelson
enseña un lenguaje de programación.
Baloian a Alemania.
Al año siguiente, en 1987, logramos adquirir
UN EQUIPO TODO
para nuestra docencia de especialidad, los
Aquí se hizo uso de una política de la TERRENO
Facultad que incentivaba la formación de
espectaculares computadores personales
posgrado de sus investigadores jóvenes y La primera secretaria que contratamos,
Amiga 500 de Commodore, un equipo que
que en realidad constituía un prerrequisito en 1984, fue Adriana Latorre. En 1985
era multimedial y que acababa de aparecer
para ascender en la carrera académica. llegaron Guillermo Morales, como auxiliar,
en el mercado. Tenían componentes muy
y Margarita Serei como jefe administrativo.
avanzados para la época, un sistema operativo
Margarita se transformó rápidamente en
verdaderamente multitasking, una notable LAS BASES ACADÉMICAS
pieza clave del Departamento por su gran
interfaz gráfica, un sistema estéreo de sonido
Conseguir cargos para contratar personal capacidad de trabajo y conocimiento de
y mouse. Su principal inconveniente era la
académico fue una tarea compleja. La la operación administrativa de la Facultad.
ausencia de un disco duro. Los desarrolladores
primera contratación fue Ricardo Baeza Yates Posteriormente, ingresó Magna Bornand,
de este notable equipo eran todos partidarios
y siguieron varias más, entre ellas: Jo Piquer, en 1986, como reemplazo de Adriana que
de Unix y C. Este equipo fue utilizado durante
Luis Mateu, Mario Jofré, Nancy Hitschfeld dejó el Departamento para ir a trabajar con
un buen tiempo, en particular, en las clases
y Nelson Baloian, entre tantos otros que se Alfredo Piquer, y Sara Quiñones. También
de computación gráfica. Recuerdo que el
me puedan quedar en el tintero, pero que contratamos a Fernando Álvarez y Juan
trabajo de memoria de ingeniero de Luis
contribuyeron desde su ámbito al desarrollo Erices como auxiliares. En la Biblioteca ya
Mateu estuvo basado en una aplicación para
del Departamento. Una de nuestras teníamos a ximena Rivera, bibliotecaria, y
Amiga, que tenía la especial particularidad
preocupaciones permanentes era la dificultad a Fernando Abatte y Gloria Mondaca como
que no se caía nunca y que sirvió por un
para alcanzar estabilidad con nuestro grupo personal de apoyo.
buen tiempo como herramienta pedagógica
en el DCC. de investigadores. Así, por ejemplo, ocurrió Completamos entonces la dotación
con Luis Hermosilla y Ernesto Azorín, que administrativa del Depar tamento y
después de períodos relativamente cortos disponíamos de todo el primer piso del
FORMACIóN DE como investigadores migraban al sector edificio de Computación.
ACADÉMICOS privado o bien al extranjero en busca de
nuevos horizontes.
Durante el tiempo en que estuve como RECORDANDO A LOS
Director del DCC tuve la oportunidad de A mediados de 1986 sufrimos una pérdida DECANOS
hacer uso de los contactos adquiridos en muy grande cuando varios investigadores
el Departamento de Matemáticas con el dejaron la Unidad; en dicha oportunidad se Durante mi período como Director, en la
área de cooperación técnica de la Embajada fueron Alfredo Piquer, Pablo Alliende, José Facultad hubo cuatro decanos. El primero
de Francia. Recibimos como profesores Benguria, Mario Jofré, Fernando Taboada fue Claudio Anguita, poco después asumió
visitantes a varios investigadores del INRIA y, poco después, Rafael Hernández. Si Guillermo González, quien no terminó su
entre los cuales destacaría a Philippe bien Alfredo ya estaba ocupando otros período y tuvo que sufrir el inicio de las
Flajolet, Jean Marc Steyeart, Jean-Jacques puestos en la Facultad, primero como protestas y paros estudiantiles; Juan Antonio
Lévy, Bruno Salvy, Matthieu Devin y Director del CEC y después como Director Poblete que llegó como Decano Interventor
Catherine Granger. La relación fructífera Económico, no esperábamos que fuese a y su período fue de meses (entre abril y
que se creó con el INRIA y que se inició adoptar la decisión de partir a crear una octubre de 1985), siendo reemplazado en
cuando Jean Vuillemin, director de mi empresa. Esta dolorosa pérdida fue mitigada forma estable por Atilano Lamana, elegido
tesis de Doctorado, era responsable de un parcialmente por el hecho de que todos democráticamente por la Facultad.

12 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

En general, la relación con los decanos fue


de arduo trabajo ya que siempre teníamos
Después de este período, el DCC disponía de
dificultades para conseguir los recursos una planta de académicos de tamaño razonable,
prometidos en el plan estratégico, por el
Decano Anguita. La situación no fue más con formación de Doctorado o en vías de serlo;
grave gracias a la presencia en el decanato
de académicos que comenzaban a jugar el de una carrera de ingeniería; había resuelto los
rol de generación de recambio en los puestos
directivos de la Facultad. Recibimos un problemas más acuciantes de infraestructura física;
especial apoyo en mi período, primero de
Víctor Pérez y después de Francisco Brieva, se disponía de un status de Departamento no de
que en general apoyaban, en la medida de
sus posibilidades, nuestra exigencia de un jure pero si de facto, y había logrado aianzarse
mejor trato por parte de la Facultad.

Cuando sale el Decano González y llega


como Unidad en la Facultad.
Juan Antonio Poblete, poco después del
terremoto de 1985, todo empeoró. Dado
el status que teníamos como División y que
reseñó Pepe Pino en su anterior artículo, por las oficinas de la dama responsable del había resuelto los problemas más acuciantes
para el nuevo Decano éramos el epítome sumario, Directora Jurídica de la Facultad de de infraestructura física; se disponía de un
de las ilegalidades que se cometían en la Medicina. Inclusive llegó a esas oficinas el status de Departamento no de jure pero si
Facultad, donde en particular existían varios Director de Matemáticas de ese entonces, de facto, y había logrado afianzarse como
directores “truchos” que inclusive asistían Rafael Correa, ya que la División era un Unidad en la Facultad. En el ámbito de la
al Consejo de Facultad, entre los cuales me apéndice de ese Departamento. Finalmente, investigación se generaban publicaciones
encontraba yo. Con el nuevo Decano llegaron me condenaron a una suspensión de un y existía una relación privilegiada con el
algunas personas que intentaron dividirnos, 50% de mi sueldo y el sumario lo dejaron INRIA. Los peligros iniciales de disolución
sin éxito. En este corto período del decanato abierto, cerrándose recién cuando regresó del Departamento habían quedado en el
de Poblete la Facultad inició un movimiento la democracia al país, a comienzos de los pasado.
de oposición liderado por Igor Saavedra, años noventa.
Si bien fueron tiempos difíciles, siento que
profesor del Departamento de Física muy
Cuando asumió Atilano Lamana se restituyó en ese período el equipo de personas del
querido y respetado en nuestra Facultad,
la antigua estructura departamental y DCC colaboró en sentar las bases de lo que
y como nosotros no dejábamos de lado
regresamos a jugar el rol de Departamento, hoy es el nuevo Departamento.
nuestra propia agenda de reivindicaciones
al menos al interior de la Facultad.
en ocasiones entrábamos en conflicto con La responsabilidad principal de continuar
la fuerza opositora principal que nos pedía en la senda de crecimiento quedaba en
postergar nuestros reclamos. LA HORA DE LA buenas manos: Patricio Poblete quien
DESPEDIDA siempre actuó como subdirector durante
mi período y siempre luchó por recuperar
LAS úLTIMAS el sitial que correspondía a la disciplina
En condiciones anímicas similares a las de
DIFICULTADES Pepe Pino, después de esta tercera tarea en la Facultad.
realizada en la Facultad, ya estaba en 1988
En ese período fui sumariado y se revisó
francamente agotado. Patricio Poblete
completamente todo nuestro funcionamiento. AGRADECIMIENTOS
asumió como nuevo Director.
Entre los cargos que me imputaron, estaba
la solicitud hecha a NCR de hacer llegar el Después de este período, el DCC disponía Los recuerdos de este período han sido
Tower xP, a comienzos de 1985, máquina de una planta de académicos de tamaño posibles gracias a la ayuda de Pepe Pino,
que ya había sido acordada con el anterior razonable, con formación de Doctorado o en Patricio Poblete, Jo Piquer y Margarita
Decano González. Todo el DCC desfiló vías de serlo, de una carrera de ingeniería; Serei.

13
computación y sociedad

32 años de computación:
de estudiante a Fellow

“Con Donald Knuth, una de las personas que más admiro, en la ceremonia de premios de ACM, en San Francisco, junio de 2010”.

Es difícil escribir sobre la experiencia seguro que me he olvidado de eventos y


personal en cualquier tema, especialmente personas tan o más importantes que las
cuando nunca antes se ha hecho y además que incluyo en este recuento personal. Por
porque soy, aunque a veces no lo parezca, lo tanto, pido disculpas de antemano por
de naturaleza introvertida. Me considero posibles omisiones. Además, para acotar la
afortunado de poder trabajar gran parte de extensión de estas líneas, circunscribo mi
mi tiempo en actividades que me gustan, historia a mi relación con la computación
intentando combinar la teoría con la práctica. en Chile.
Para lograr esto, mi principal motivación
personal siempre ha sido encontrar mis
límites, autogenerando desafíos que han
ESTUDIANTE
guiado mis pasos.
Cuando en 1979 entré a la Universidad
Por otra parte, es una oportunidad para de Chile a estudiar el Plan Común de
agradecer a las personas que han influenciado Ingeniería en la Facultad de Ciencias Físicas
mi carrera y dejar por escrito tanto los y Matemáticas (FCFM) nunca había visto un
recuerdos más relevantes como las lecciones computador. Tampoco tenía muy claro qué
Ricardo Baeza Yates aprendidas, de acuerdo con un criterio muy especialidad quería seguir ya que realmente
Vicepresidente de investigación de personal. Como la memoria es frágil, estoy me gustaban la geografía y la astronomía. Mi
Yahoo! para Europa, Medio Oriente y
Latinoamérica. Profesor Titular DCC,
Universidad de Chile (en leave of
absence). Catedrático jornada parcial
de la Universitat Pompeu Fabra en
Barcelona. ACM Fellow, IEEE Fellow y
primer socio distinguido de la SCCC.
rbaeza@acm.org
www.baeza.cl

14 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

primer encuentro con la computación fue producto de la inseguridad propia de un DCC, lo que había sido una motivación
ese año e inmediatamente me cautivaron posgrado pionero en un país pequeño y importante para volver a Chile.
los algoritmos y su lógica implacable. Sin lejano. Esto ha ido cambiando gradualmente
Pero mi país no me recibió exactamente con
embargo el computador todavía era un para llegar a una exigencia más acorde con
los brazos abiertos, pues me dio una fiebre
ente abstracto pues usábamos las famosas la realidad de países desarrollados. Sin
tifoidea que me dejó un mes en cama y me
“pantallas de papel” donde escribíamos embargo, el esfuerzo tuvo recompensa ya
cambió la digestión para el resto de mi vida.
un programa que luego era ingresado y que el resultado principal de la tesis fue
Poco después, a finales de diciembre tuve
procesado por un operador, obteniendo el publicado en el congreso de la Sociedad
la oportunidad de participar en el primer
resultado unos días después. Sin embargo, Chilena de Ciencia de la Computación
curso de comunicación para la acción que
igual decidí seguir ingeniería eléctrica ese mismo año. En él participaba Gastón
Fernando Flores daba en Chile. Allí no sólo
porque era la especialidad más difícil, un Gonnet de la Universidad de Waterloo
tuve la oportunidad de conocer su filosofía,
primer desafío, y porque aún no existía la al que le gustó mi trabajo y me invitó a
sino también conocer a mucha gente que
ingeniería en computación de seis años. De realizar el Doctorado con una beca bajo
más tarde volvería a encontrar, entre ellos
todas formas tomé el curso de Estructuras su dirección, el cual comencé en Canadá
a Claudio Orrego.
de Datos del Bachiller en Computación y en mayo de 1986.
luego no pude dejar de tomar las restantes En 1990 me reincorporé a las tareas
El año 1985 fue además importante por
materias, terminando ambas carreras a la vez. docentes, coordinando y reformando el
otras razones. Primero, fui contratado como
Esto generó un segundo desafío que terminó Magíster en Ciencias mención Computación.
instructor del DCC, lo que significaba tener
en 1982 cuando reprobé una de las trece También, aunque no estaba entre mis áreas
trabajo asegurado al volver del Doctorado.
materias que había decidido cursar1. de conocimiento, dicté el primer curso de
Durante ese año también trabajé en mi
Programación Orientada a Objetos, porque
Finalmente pude conocer directamente Magíster en Ingeniería Eléctrica, que
pensaba que era un tema importante que los
un computador alrededor de 1981: un defendí en abril de 1986. La tesis me la
estudiantes (¡y yo!) tenían que conocer. El
IBM 370. Luego en 1983 usé los primeros dirigió René Nóbile que lamentablemente
siguiente desafío era encontrar fondos para
microcomputadores que usaban CPM y falleció muy joven unos años más tarde. El
continuar mi investigación en algoritmos
finalmente, si mi memoria no me engaña, tema era realmente de computación, pues
de búsqueda en texto, el tema de mi tesis
en 1984 llegaron los NCR Tower que usaban abordaba cómo implementar primitivas
Unix, el sistema operativo que uso hasta de computación gráfica en una pantalla de Doctorado. Así es como conseguí ese
hoy. En esos años comencé a usar el correo orientada a texto, algo que hoy no tiene mismo año mi primer proyecto gracias a
electrónico y procesadores de texto de mucho sentido. Por otro lado esto me un programa novedoso de la Fundación
calidad como troff. Durante mis estudios, las impulsó a enseñar durante 1985 uno de Andes para trabajar con la industria, en
tres personas del Departamento de Ciencias los primeros cursos de computación gráfica este caso una joven y pequeña empresa,
de la Computación (DCC) que dejaron una en Chile. Ars Innovandi, bajo la dirección de Pablo
huella importante en mi formación fueron Palma. Este proyecto culminó con el software
Patricio Poblete, posiblemente el mejor SearchCity, para Windows 3.1, que permitía
profesor que he tenido, Alfredo Piquer y
EL REGRESO buscar dentro de todos los ficheros de un
Jorge Olivos. También tuve la suerte de computador personal. SearchCity obtuvo
En septiembre de 1989, después de tres años
tener muchos compañeros de generación en 1992 el premio de la revista PC Software
de Doctorado y seis meses de posdoctorado,
que luego decidieron ser investigadores, al mejor software chileno. Sin embargo
volví a Chile a los 28 años, promovido a
destacando entre ellos a Nancy Hitschfeld la idea era demasiado precoz para su
Profesor Asociado gracias a mi productividad
y Jo Piquer. época, más viniendo de Chile. Diez años
científica durante ese tiempo. Es decir, me
pasarían hasta que una aplicación similar
Patricio Poblete fue también mi supervisor había saltado la etapa de Profesor Asistente,
tuviera éxito.
de tesis del Magíster en Computación, lo que ahora estimo no fue una sabia idea de
programa del cual fui el segundo estudiante parte del comité de evaluación de la FCFM, En 1991 obtuve mi segundo proyecto, el
graduado en enero de 1985, pese a que el ya que me salté una etapa de aprendizaje primero de Fondecyt, en un tema distinto,
programa existía hace ya bastante tiempo. importante. Por otro lado volver a un grupo visualización de software. En ese momento
En retrospectiva, mi tesis sobre análisis ya consolidado por el trabajo que habían aprendí la importancia de tener más de una
de algoritmos podría haber sido medio hecho mis profesores ya mencionados, línea de investigación activa y significó el
Doctorado y explicaba por qué pocas además de Juan Álvarez y José A. Pino, comienzo de una secuencia permanente
personas se habían graduado, ya que la entre otros, hacía el retorno más fácil y me de proyectos. Ese año también me pidieron
exigencia en Chile era mucho mayor, permitía por fin aportar al desarrollo del ser el organizador de la Conferencia de

1 Física Cuántica, del Bachiller en Física, principalmente por no asistir a clases pues eran muy temprano (si fuera supersticioso habría reprobado por el trece). Por otro lado,
los 120 créditos aprobados pasaron a ser parte de las leyendas de la Facultad.

15
La mayor satisfacción de la labor que uno realiza
no son las cientos de citas a tus trabajos cientíicos,
sino el saber que parte de la tecnología que uno ha
desarrollado es utilizada por cientos de millones de
personas. Para esto es muy importante combinar la
mejor teoría con la mejor práctica o, en otras palabras,
combinar la investigación básica con la aplicada.
Ricardo Baeza Yates (1994).

la Sociedad Chilena de Ciencia de la internacional. Esto permitió que desde vara muy alta para mis futuros estudiantes,
Computación (SCCC) para hacerla realmente investigadores consagrados a estudiantes incluyendo investigadores consagrados
internacional. Esto implicaba solicitar por tuvieran un punto de encuentro anual. En como Edgar Chávez en México o Carlos
primera vez sólo trabajos en inglés y publicar estos eventos nacionales conocí a muchos Castillo en España.
las actas en una editorial internacional, que colegas de otras universidades, generando
En 1995 organicé junto a Eric Goles, el
fue Plenum Press. Ese congreso lo recuerdo amistades de las que perduran, en particular
segundo Congreso Latinoamericano de
muy bien, no sólo por el nerviosismo de Leopoldo Bertossi y Miguel Nussbaum.
Informática Teórica, LATIN, en Viña del Mar.
la primera experiencia como organizador,
En 1993 comencé a escribir una columna Éste fue seguramente el primer congreso
sino también porque nevó en Santiago en
mensual de divulgación en la Revista realizado en Chile publicado por Springer
octubre y tuvimos que conseguir estufas a
Informática, Crónicas Binarias, colaboración en sus Lecture Notes in Computer Science.
última hora, explicándole a los brasileños
que duró hasta 2004. También me tocó2 por También organicé al mismo tiempo el
que habían venido de manga corta, que eso
primera vez ser Director de Departamento Segundo Workshop Sudamericano en
no era la típica primavera santiaguina. Éste
por un período de dos años. No era algo Procesamiento de Palabras, que ahora es un
fue el primer paso para convertir el Congreso
que me gustara hacer pero acepté el desafío congreso consolidado llamado SPIRE, que
Internacional de la SCCC en uno de los más
con gusto e intente hacerlo lo mejor posible se realiza alternadamente en Latinoamérica
prestigiosos de Latinoamérica.
pese a la falta de experiencia. En esta y Europa. Organicé SPIRE en Chile en 2001
En 1992, un año antes de la explosión de tarea aprendí lo difícil que es mediar entre en el Skorpios I navegando hacia la laguna
la Web, junto con Jo Piquer lideramos personas y tuve el apoyo de dos personas de San Rafael4 y nuevamente en 2007 en
la presentación de un proyecto Fondef que conocían muy bien el funcionamiento Santiago.
para crear una plataforma de comercio del DCC: Magna Bornand y Margarita
electrónico. La evaluación fue negativa y Serei. Ellas me enseñaron a apreciar los Durante 1995 también comencé a asesorar
frustrante, pues encontraron el proyecto tan pequeños detalles que hacen funcionar un en nombre del DCC, junto a Patricio
bueno, que dijeron que podía ser financiado todo. Agregar a mi currículum una faceta Poblete y Jo Piquer, al Servicio de Registro
por fondos privados sin problemas. Fue administrativa era un factor necesario para Civil e Identificación para el Proyecto de
como correr una maratón, ganarla y en la ser finalmente ascendido a Profesor Titular Nueva Cédula y Pasaporte, donde mi
llegada saber que en realidad estábamos en 19953. labor estuvo enfocada en la definición y la
inscritos para los cien metros planos el día supervisión de las pruebas del sistema AFIS
En 1994, Jorge Olivos me recomendó
anterior. Al parecer Conicyt pensaba que de identificación de impresiones dactilares.
traer a un estudiante brillante que había
Chile estaba en el Silicon Valley y otra Aquí, por razones obvias, impulsé una
conocido en Argentina y que necesitaba
visión futurista se fue al agua. versión del pasaporte con hojas extras para
financiamiento para hacer un posgrado.
viajeros insaciables.
A finales de 1992 también fui elegido por Confiar ciegamente en Jorge fue una decisión
primera vez Presidente de la SCCC, un acertada pues el estudiante era Gonzalo En 1996 tomé mi primer año sabático
reconocimiento tal vez anticipado de mis Navarro. No sólo hizo una tesis de Magíster en Barcelona, que resultó ser un año de
pares. En este cargo promoví las primeras que ganó el premio CLEI (el segundo de mis renovación y cambios, pues mi transición
Jornadas Chilenas de Computación de estudiantes en conseguirlo), sino que luego desde los algoritmos a la aplicación de
1993 en La Serena, que comprendían un fue el primer Doctor graduado en el DCC en ellos en la recuperación de información
foro de investigación tanto nacional como 1998, con una tesis excelente que dejó una era ya irreversible.

2 Uso este verbo pues como es un puesto que nadie quiere, el turno depende de la jerarquía académica.
3 En ese momento, a los 34 años, era el más joven de la Universidad de Chile. Para los lectores españoles, Profesor Titular en Chile es equivalente a Catedrático.
4 Para muchos de los asistentes, es el mejor congreso en el que han participado, por la forma en que se combinaron el programa científico y el programa social.

16 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

CONSOLIDACIóN
En 1997 me tocó copresidir un congreso
de la IEEE Computer Society que era parte
de un multievento organizado por Eduardo
Vera. Esto me permitió tener los contactos
adecuados como presidente del Comité de
Programa para publicar las actas del Congreso
de la SCCC de ese año en IEEE CS Press,
lo que consolidó su posición internacional
en la región. Al año siguiente, nuevamente
como presidente de la SCCC, incorporé el
campeonato de programación de la ACM a
las Jornadas Chilenas de Computación. La Fernando Flores, el Presidente Ricardo Lagos y Francisco Vidal, inaugurando La Ventana Digital
participación de Chile en este campeonato (2003).
es un incentivo positivo para los estudiantes
de los últimos años y de posgrado. es mucho más satisfactorio que muchas
de la Web, que dirigí hasta 2005 y cuyo
En 1998 también comencé mi participación menos personas citando mi trabajo), sino
financiamiento fue renovado hasta el 2008.
en la comisión gubernamental para definir que me permitió obtener datos que sólo los
Éste es el único núcleo de la Iniciativa
la Agenda Digital durante los Gobiernos grandes buscadores tenían, la interacción
Científica Milenio que ha existido hasta la
de Eduardo Frei y Ricardo Lagos, primero de cientos de miles de personas y hacer
fecha y el proyecto de mayor financiamiento
trabajando con Claudio Orrego y luego con investigación única en el mundo. Este
otorgado en Chile en el área de computación.
Álvaro Díaz, siendo el único representante buscador aún funciona y usa tecnología
Este proyecto permitió crear una masa crítica
del mundo universitario. Ese mismo año desarrollada en Chile.
de investigadores, financiar estudiantes de
diseñé y comencé el Postítulo en Gestión A finales de ese año organicé el primer posgrado y ser un referente internacional
Informática. Éste fue el primer programa Encuentro Sociedad y Tecnologías de la en el área de la Web y la manipulación
en Chile que incorporó aspectos humanos Información que fue todo un éxito y que pude y búsqueda de información. Actividades
que son cruciales en proyectos de software, continuar hasta 2009. Este evento permitió realizadas en el marco de este proyecto
como liderazgo, trabajo en equipo y difundir distintos aspectos de la computación incluyeron el primer y cuarto congreso
negociación. en la primera década del siglo xxI. Por latinoamericano de la Web, LA-WEB, los
A mediados de 1999 publiqué en mi otra parte, y en paralelo con otros grupos, años 2003 y 2007 en Santiago, concursos
sitio Web un manifiesto personal titulado participé en el desarrollo de la bioinformática estudiantiles y una novedosa experiencia
“Diseñemos Todo de Nuevo: Reflexiones en Chile. Primero representé por varios años de sensibilización social del potencial de
sobre la Computación y su Enseñanza”, a nuestro país en la red europea de biología Internet para videoconferencias públicas
inspirado en ideas de Don Norman y otros, molecular, EMBNET, y luego junto a Juan llamada La Ventana Digital.
además de mi propia experiencia. Este texto Asenjo comenzamos en 2001 un curso de
La Ventana Digital consistía en una
ha tenido influencia en muchos internautas, bioinformática en la FCFM. Gracias a esto,
proyección de video con múltiples canales
tanto dentro como fuera de Chile. unos años más tarde lideré el laboratorio
de audio que comunicaba el Patio de los
de bioinformática de uno de los proyectos
En paralelo a estas actividades continuaba Naranjos, en el Palacio de la Moneda,
del Programa Genoma Chile.
con mi trabajo de investigación sobre con la Plaza de Armas de Arica a dos mil
Búsqueda en la Web, en particular con A finales de 2002 me tocó nuevamente ser kilómetros de distancia. Esta experiencia
Nivio Ziviani y Berthier Ribeiro-Neto de Director de Departamento. Esta vez tenía la fue inaugurada por el Presidente Ricardo
la Universidad Federal de Minas Gerais en experiencia necesaria pero la situación del Lagos en noviembre de 2003 y tuvo una
Belo Horizonte, Brasil. Ellos crearon Akwan, DCC era más difícil. La solución fue tener un alta repercusión mediática al permitir a
una empresa de tecnología de búsqueda mecanismo de gobierno parlamentario, con muchas personas conversar gratuitamente
y un buscador para la Web brasileña, un Consejo de Departamento que tomaba por un lapso de diez días con parientes o
TodoBR, en 1999, que fue comprada en las decisiones y donde el Director era sólo amigos que no habían visto en años, sin
2005 por Google. Con el apoyo de ellos el informador y ejecutor de las mismas. necesidad de entender Internet.
comencé un buscador similar para la Web Este cambio, que se mantiene hasta ahora,
En 2003 también fui honrado con el
chilena, TodoCL, en marzo de 2000. Este ha ayudado a fortalecer el desarrollo del
nombramiento de miembro correspondiente
buscador no sólo permitía experimentar Departamento.
de la Academia Chilena de Ciencias, siendo
tecnología local y servir a millones de En 2002 también lideré la propuesta del la primera persona de computación, que
personas al mes (algo que en retrospectiva Núcleo Milenio Centro de Investigación trabajaba en Chile, en obtener este rango.

17
Por esta razón en los últimos años no he
podido estar de forma permanente en Chile,
pero siempre intento estar presente y por
eso paso más de un mes al año en el país.
Pese a este alejamiento físico parcial, he
seguido participando en distintos ámbitos
gracias a Internet y he seguido recibiendo
reconocimientos en Chile, lo que agradezco
profundamente.

EPíLOGO
La mayor satisfacción de la labor que uno
realiza no son las cientos de citas a tus
trabajos científicos, sino el saber que parte
de la tecnología que uno ha desarrollado
es utilizada por cientos de millones de
Con el Presidente Ricardo Lagos y Carlos Álvarez (CORFO), junto a Usama Fayyad (Chief Data Oficer) personas. Para esto es muy importante
y Prabhakar Raghavan (Director de Investigación) de Yahoo!, anunciando el Laboratorio (2006). combinar la mejor teoría con la mejor
práctica o, en otras palabras, combinar la
investigación básica con la aplicada. Esta
es una opinión muy personal, pues muchos
científicos sólo hacen investigación básica y
no creen importante resolver un problema
real. Por supuesto la investigación básica
es necesaria, pero no es muy productiva
si no existen investigadores que permitan
aplicar estas ideas para generar tecnología
que pueda ser usada por la sociedad en
general. Otra satisfacción importante es el
impacto indirecto de las personas que uno
ayuda a formar, tanto en el ámbito científico
Con Víctor Pérez (centro), Rector de la Universidad de Chile; Francisco Brieva, Decano de la FCFM; como en el profesional.
Ron Brachman (izquierda), VP de Operaciones de Yahoo! Research, y Roberto Alonso (derecha),
Director de Yahoo! Latinoamérica, inaugurando el Laboratorio (2006). ¿Qué he aprendido? Primero que para
desarrollar tu potencial tienes que encontrar
tus límites. Segundo, que es mejor no hacer
Esto ratificaba a la computación como Zelanda) y, nuevamente, Barcelona. En esta planes pues eso es limitarte a ti mismo5. Mejor
una ciencia en Chile, una antigua y válida última ciudad, Yahoo! me ofreció montar ir aprovechando las oportunidades que vas
aspiración de nuestra comunidad. dos laboratorios de investigación, uno en encontrando en el camino y que aparecen
Barcelona y otro en Santiago, un desafío gracias a tu esfuerzo, pues al final la vida es
A finales de 2005, con un grupo de amigos
imposible de rechazar. El laboratorio de un algoritmo online. Por este último hecho, no
y discípulos de Alberto Mendelzon,
Santiago se anunció en enero de 2006 y luego te arrepientas de ninguna de tus decisiones,
comenzamos a planear una reunión para
se inauguró formalmente en noviembre de pues seguro que las pensaste bien y siempre
honrar su recuerdo. Esto se concretó en
ese año. Sin duda el Centro de Investigación más tarde tendrás información que antes
noviembre de 2006 con el primer Alberto
de la Web y la experiencia con TodoCL, no tenías. Tercero, cuando no sepas cómo
Mendelzon Workshop (AMW), navegando
fueron dos de los factores principales seguir, reinvéntate todas las veces que sea
nuevamente por fiordos chilenos en el
para que Yahoo! instalara un laboratorio necesario. En investigación esto significa
Skorpios I. Este Workshop es ahora un
de investigación en Santiago, en el cual inventar tú mismo el problema o, por qué
importante evento regional en Bases de
he contado con el apoyo fundamental de no, cambiar de tema. Cuarto, conoce gente,
Datos.
Mauricio Marín. El laboratorio ha sido usado colabora y trabaja grupalmente sin esperar
Entre 2003 y 2005 tomé un segundo varias veces por CORFO como ejemplo nada a cambio, así se construye tu reputación.
año sabático distribuido entre Stanford, para fomentar otras inversiones extranjeras Finalmente lo más importante: no pienses en
Melbourne, Sydney, Christchurch (Nueva en tecnología. lo que tienes que hacer, ¡sólo hazlo!

5 Personalmente, si hubiera intentado ponerme metas, nunca habría imaginado todo lo que he hecho y el reconocimiento que he obtenido.

18 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

computación y sociedad

El primer computador digital en Chile:


Aduana de Valparaíso, diciembre
de 1961
Plaza Sotomayor, Valparaíso, 1960. Foto: Mario Ortega P.

Hace medio siglo en la Aduana de Valparaíso en Valparaíso. Posteriormente, en 1831 la


se instaló el primer computador digital en Aduana Mayor o Superintendencia de Aduanas
Chile: un IBM-1401 con 4K de memoria, se trasladó desde Santiago a Valparaíso, y
una lectora/perforadora de tarjetas y una desde 1936 funciona en el edificio ubicado
impresora. Su instalación fue motivada por un en la Plaza Sotomayor [1].
Tratado de Libre Comercio que comprometió Un primer esfuerzo por “mecanizar” las
a nuestro país a entregar oportunamente las estadísticas de importaciones y exportaciones
estadísticas de importaciones y exportaciones. se registró en 1927 con la importación
Esta primera experiencia computacional e instalación de equipos IBM antes que
continuó la “mecanización” de apoyo a la el fabricante se instalara en Santiago en
administración que comenzó en la Aduana 1929 y abriera una sucursal en Valparaíso
a fines de los años veinte. en 1931[2].

Posteriormente, en los años cuarenta y


INTRODUCCIóN cincuenta el servicio de Aduanas incorporó
progresivamente máquinas IBM de “registro
La Administración de Aduanas fue organizada unitario” (Unit Record), especializadas en
en Santiago en 1744 por el Gobernador realizar distintos procesos con información
Agustín de Jáuregui. En 1810, tras la perforada en tarjetas: perforadoras,
Juan Álvarez Rubio promulgación de la libertad de comercio, verificadoras, clasificadoras, intercaladoras,
Académico DCC, Universidad de
Chile. Master of Mathematics se dictó la primera Ordenanza de Aduanas tabuladoras, interpretadoras, calculadoras
(Computer Science), University of y reproductoras.
Waterloo. Ingeniero de Ejecución en
y se estableció la revisión de las mercancías
Procesamiento de la Información,
Universidad de Chile.
jalvarez@dcc.uchile.cl

19
EL TRATADO DE LIBRE
COMERCIO Y LA
REORGANIZACIóN DE
LA ADUANA
El 2 de Mayo de 1961 se promulgó como Ley
de la República el Tratado de Montevideo,
que instituyó la Asociación Latinoamericana
de Libre Comercio (ALALC) que tuvo
“por objeto contribuir a la aceleración del
desarrollo económico equilibrado de América
Latina, a su progresiva industrialización
y a la tecnificación de su agricultura y
demás actividades primarias, con el fin de
Primeros equipos en la Aduana a ines de los años veinte (gentileza: La Nación).
promover la elevación del nivel de vida
de sus pueblos”. El tratado estableció un
régimen de gravámenes a la importación
de mercaderías procedentes de Argentina,
Brasil, Colombia, Ecuador, México, Paraguay,
LA NECESIDAD DE UN Una vez terminada la capacitación, y
Perú y Uruguay [3]. bajo la jefatura de Domingo Godoy en el
COMPUTADOR Y LA
Departamento de Estadística, René Cabezas y
El Tratado gatilló “la necesidad de convertir PREPARACIóN PREVIA
a las Aduanas en instrumentos ágiles y Leopoldo Valdivia comenzaron a programar
operantes de regulación de los tráficos a Las nuevas necesidades estadísticas derivadas un sistema estadístico de importaciones.
favor de la liberación y crecimiento de los de la ALALC y de la implantación de la Terminados los programas, escritos con
mercados complementarios supranacionales”. nomenclatura de Bruselas aconsejaron “papel y lápiz” en hojas de codificación,
En consecuencia, en 1961 se procedió la instalación en el Departamento de en el mes de agosto de 1961 fueron
a dar “una nueva conformación de la Estadística de un computador IBM-1401 autorizados, con una asignación especial
Superintendencia de Aduanas, consultando en comercializado internacionalmente desde de E°200, para viajar a Buenos Aires para
su mecanismo los Departamentos, Secciones 1959 para aplicaciones administrativas realizar pruebas en las instalaciones de
y Funciones que requiera la Dirección o “comerciales”, es decir, para procesos IBM-Argentina, acompañados por Alfonso
del servicio para una administración con un gran volumen de datos pero con Carvallo de IBM [7]. Los programas fueron
eficaz y responsable de las Aduanas, en cálculos sencillos (sumas, promedios, perforados en tarjetas y sólo al final de la
consonancia con las modernas técnicas y porcentajes, etc.). primera semana lograron que funcionaran y
principios que gobiernan la organización en las dos semanas siguientes los corrigieron
La Aduana decidió aceptar la oferta y afinaron.
racional”(...) “Entre las obras de mayor
de arriendo de un 1401 y convocó a
entidad, cabe destacar la modernización
sus empleados a un concurso interno
del Departamento de Estadística de la
para capacitarse como programador. Se INSTALACIóN DEL
Superintendencia de Aduanas, con el fin COMPUTADOR IBM-1401
presentaron alrededor de sesenta empleados
de que esté en condiciones de programar
que fueron sometidos a un test de aptitudes
y procesar a tiempo las estadísticas del El diario La Nación del lunes 11 de diciembre
aplicado por IBM. Finalmente fueron
comercio internacional y de cabotaje, como de 1961 consignó en una breve noticia la
seleccionados René Cabezas, de 26 años, Jefe
instrumento de información y evaluación llegada del primer computador digital a
de Máquinas UR, y Leopoldo Valdivia, de 27
económica para las autoridades gubernativas, Chile:
años. Los dos fueron entrenados en diagramas
organismos públicos y demás entidades
de flujo y en el lenguaje ensamblador SPS Computador electrónico instalarán
vinculadas a la planificación o estudio
(Symbolic Programming System) por Federico en la Aduana
de nuestras relaciones comerciales con
Cavada del Departamento de Ingeniería de
terceros países” [4]. Prestará sus funciones en el
Sistemas de IBM, ubicado en calle Prat 772
La reorganización del Ser vicio y el de Valparaíso. Para su labor de soporte de
Departamento de Estadística de
nombramiento de Octavio Gutiérrez como sistemas, Cavada fue previamente capacitado
estos servicios.
nuevo Superintendente mereció el titular por Hernán Carvallo de IBM, quien a su vez En el vapor “Imperial” de la Sudamericana
principal de portada del diario La Nación había recibido entrenamiento en México llegó a Valparaíso el nuevo sistema
[5] e incluso un editorial [6 ]. en 1959.

20 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Computador Electrónico 1401, que será Latinoamericana de Libre Comercio, la


instalado en el Departamento de Estadística implementación de la Nomenclatura
de la Superintendencia de Aduanas, según Arancelaria de Bruselas, un control más
convenio suscrito con la IBM. Este equipo afinado de los valores de las mercaderías
es único en su género y se trata del primero de importación y exportación y otros
en llegar a Chile. programas relacionados con los compromisos
internacionales suscritos por Chile.
La instalación del computador Electrónico
1401 ha sido determinada por las nuevas Para examinar en el más alto nivel
necesidades estadísticas derivadas administrativo y técnico las bondades de
del funcionamiento de la Asociación su aplicación en la Aduana se efectuó un
Latinoamericana de Libre Comercio, de la seminario para ejecutivos del Servicio, curso
implantación de la nomenclatura arancelaria que fue dictado por el experto de la IBM,
de Bruselas, de un control más afinado de los señor Alfonso Carvallo Díaz.
valores de las mercaderías de importación
Se ha contratado además, otro equipo
y otros programas relacionados con los
electrónico para mecanizar las secciones
compromisos internacionales contraídos
Liquidación y Control de la Aduana de
por Chile.
Valparaíso, el cual estará instalado en 1963.
En el edificio de la Superintendencia Este computador podrá efectuar en sólo tres
Diario La Nación del 11 de diciembre
quedaron ya totalmente terminadas las horas el total del trabajo correspondiente de 1961.
obras previas a su instalación. Los trabajos a una jornada diaria, con el consiguiente
fueron ejecutados por el contratista señor mejor y más rápido servicio a la industria Jet de Panagra, procedente de Nueva York”,
Madrid. y al comercio. informó a LA NACIÓN el gerente general
Inventarios Se está examinando, por otra parte, la en nuestro país, Hernán Elizalde.
conveniencia de mecanizar el control de Numerosas Condecoraciones
Desde 1962, por otra parte, los inventarios
pasajeros a las zonas liberadas sobre la
de bienes muebles serán llevados en “El señor Watson, que fue condecorado en
base de tarjetas perforadas. Esto permitirá
forma automática por medio de fichas una oportunidad por el gobierno de Chile
controlar con prontitud y seguridad los
perforadas. Esto permitirá mantener un con las insignias de la Orden al Mérito
viajes efectuados a esas zonas por cualquier
registro centralizado de inventarios en la “Bernardo O’Higgins” por prominentes
persona.
Dirección del Servicio, que abarcará todas servicios a nuestro país, es un distinguido
las dependencias del país. Confirmando la importancia de instalar hombre de negocio norteamericano, del
el primer computador, viajó a Chile nada Estado de Nueva York. Graduado en la
El computador 1401 se instaló en el primer
menos que el presidente de IBM Arthur K. Universidad de Yale, sirvió al ejército de su
piso del Edificio de Aduanas. Al respecto,
Watson. El diario La Nación del 15 de enero patria durante la última guerra, mereciendo
el contrato de arriendo establecía que los
de 1962 dio cuenta del hecho: el ascenso a Mayor...”
impuestos de importación debía pagarlos
el cliente. En consecuencia, y para evitar Uno de los mayores productores de Franco éxito en Chile
los elevados aranceles, el edificio fue equipos electrónicos llegará hoy
declarado como parte del recinto aduanero. “La I.B.M. que ya opera en 92 países, está
Es el presidente de la I.B.M. que opera en prestando en Chile un positiva cooperación
La instalación fue registrada en el boletín
92 países y que ha comenzado a colocar a la modernización de nuestros clásicos
de la Superintendencia de Aduanas del mes
con éxito sus computadores electrónicos sistemas de trabajo, particularmente en
de enero de 1962:
en la Administración chilena el campo de la Administración y de los
Mecanización del Servicio de negocios. Más de ochenta clientes de
“La IBM cuyos computadores electrónicos
Aduanas nuestros equipos de máquinas eléctricas
comienzan a revolucionar el sistema de
Se ha instalado en el Departamento de trabajo de las más importantes oficinas y electrónicas de contabilidad, control
Estadística de la Superintendencia el chilenas, liberando al personal de todas las y estadística, están funcionando ya con
moderno computador electrónico 1401, tareas de carácter rutinario y multiplicando pleno éxito.
equipo que es el más moderno que existe el tiempo creador, está de pláceme pues Se encuentra ya en la Aduana de Valparaíso
en el país. Su instalación fue determinada será visitada por el más alto ejecutivo de el primer computador electrónico I.B.M.,
por las necesidades estadísticas originadas la Compañía, su presidente, Arthur K. que ha llegado al país y que va destinado
por el funcionamiento de la Asociación Watson, quien llega hoy, a mediodía, en el a la Superintendencia del mismo servicio,

21
en Valparaíso. Impuestos Internos ya cerró
contrato por un equipo electrónico similar.
En general, el interés del comercio, la
industria y la Administración es tan grande
por aprovechar las ventajas de la electrónica
al servicio de la racionalización de las tareas
que creemos que en los próximos dos años
pasarán de una docena de computadores
que colocaremos en Chile”.

La I.B.M. según información de Elizalde


tiene 3 sucursales y en ella trabajan 296
empleados en su totalidad nacionales.

La puesta en marcha del 1401 no fue una


tarea sencilla y tardó cerca de tres meses. Lecto-perforadora 1402, procesador 1401 e impresora 1403 similares a los de la Aduana.
Su inauguración quedó consignada en
el diario La Nación del miércoles 14 de
marzo de 1962: minuto. El computador no disponía de un resultados se imprimieron en alrededor de
sistema operativo, por lo que era operado por 400 páginas de formulario continuo.
Un moderno equipo electrónico
los propios programadores. De hecho, una
inauguró aduana de Valparaíso La máquina resultó bastante robusta y para
compilación entregaba como resultado un
el soporte de hardware, IBM destinó a los
Valparaíso.- Uno de los más modernos programa en lenguaje de máquina perforado
técnicos Carlos Fuentes y Lautaro Medina.
y grandes computadores electrónicos en tarjetas. Para su ejecución, las tarjetas
Sólo se recuerdan problemas intermitentes
actualmente en uso en el país, comenzó debían ser trasladadas manualmente a la
con la lectora de tarjetas que resultó con
a prestar servicios en la mañana de ayer lectora, activando su lectura y ejecución
algunos daños durante el desembarco que
en el Departamento de Estadísticas de la a través del panel de control.
se atribuyeron a “la falta de una paloma
Superintendencia de Aduanas.
Una vez que el computador estuvo para el operador de la grúa”. Por otra parte,
La máquina fue proporcionada por la IBM, operativo, el sistema estadístico se procesó jamás se descubrió la razón de algunas
empresa que también dictó los cursos paralelamente, tanto en las máquinas UR, “caídas” inexplicables del procesador,
correspondientes a los funcionarios que como en el 1401. Después de jornadas de aunque se observó que coincidían con los
tendrán a su cargo el manejo de la moderna trabajo que abarcaron varios días completos, movimientos de algunas maquinarias del
máquina. se logró tener las estadísticas actualizadas, muy cercano recinto portuario.
logrando superar el retraso de dos años
El funcionamiento del computador permitirá La IBM, cuyo encargado de la sucursal en
del sistema antiguo. Cabe señalar que los
a la Aduana agilizar sus labores en el Valparaíso era Carlos de la Barrera quien
aspecto estadístico, ya que operaciones
que anteriormente demoraban varios meses,
ahora será posible realizarlas en el término
de pocos días.

El equipo inaugurado ayer consta de tres


máquinas: la unidad de proceso o “pensante”
(cerebro electrónico), la parte encargada de
la lectura y perforación de tarjetas, y una
impresora de alta velocidad.

CARACTERíSTICAS
TÉCNICAS
El computador IBM-1401 contaba de un
procesador con 4K de memoria, una lectora/
perforadora 1402 de 400 tarjetas por minuto
y una impresora 1403 de 600 líneas por

René Cabezas compilando un programa (gentileza: René Cabezas).

22 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

había trabajado anteriormente en la Aduana,


utilizaba el computador arrendado a la
Aduana para mostrarlo a sus clientes. En una
oportunidad uno de los visitantes presionó
uno de los botones del panel de control
preguntando “¿para qué sirve esta tecla?”
Resultado: se interrumpió abruptamente
un programa que llevaba horas de proceso.
Desde entonces, la Aduana restringió
las visitas de demostración a los clientes
de IBM.

EVOLUCIóN POSTERIOR
Considerando la satisfactoria experiencia
inicial, que incluso significó recibir una carta
de felicitación del presidente Jorge Alessandri, Ediicio de Aduanas, agosto de 2010.
en 1963 la Aduana decidió “agrandar” el
computador agregando 4K de memoria y
cuatro unidades de cinta magnética 729. y una base de datos de personal. Por otra de disco. Finalmente, en 1975 el IBM-1401
Como anécdota se puede señalar que parte, IBM instaló otro computador 1401 fue reemplazado por un IBM-370 modelo
se recibió un programa que ordenaba para la Armada de Chile, a unas pocas 125, uno de los primeros computadores de
(“sorteaba”) una cinta, pero lamentablemente cuadras de distancia, estableciéndose un ese tipo en Chile.
no funcionó. Sorprendentemente, después convenio de respaldo mutuo.
de examinar los cientos de tarjetas que
contenían el programa en el lenguaje de
En 1965, durante el gobierno de Eduardo Frei CONCLUSIONES
Montalva, se realizó una asesoría externa
máquina, René Cabezas logró corregirlo.
que dirigió el experto norteamericano La instalación del primer computador
Al respecto, un “sort” con el algoritmo
Robert Kennedy[9]. Como resultado, la en Chile en la Aduana de Valparaíso en
de cascada tardaba alrededor de doce
Aduana nuevamente se reestructuró y 1961 presenta elementos de continuidad
horas en ordenar la información de una
se creó el Centro de Procesamiento de y cambio. La continuidad se reflejó al
cinta magnética de 2.400 pies de longitud
Datos a cargo de Guillermo Fliess y se considerar el computador como un hito
grabada con una densidad de 800 bits por
desarrollaron nuevos sistemas aduaneros. más en la “mecanización” de apoyo a la
pulgada.
Posteriormente, en 1973 se agregaron al administración que comenzó a fines de
La incorporación del computador tuvo computador 24K de memoria y una unidad los años veinte. La continuidad también
efectos en el Departamento de Estadística.
En diciembre de 1962 se estableció una
planta de ocho personas para la sección
de máquinas de contabilidad y estadística:
un jefe de máquinas, tres programadores,
tres operadores y un jefe de registro y
La Aduana de Valparaíso ocupa un lugar privilegiado
despacho[8]. Se decidió entonces capacitar
más programadores. Después de un
en la Historia de la Computación en Chile. En
nuevo test de habilidades se seleccionó a
Guillermo Fliess, Luis Reyes, Luis Prado y 1961 se programaron las primeras aplicaciones
Raúl Domínguez. Esta vez acudieron a las
oficinas de IBM en Santiago, ubicadas frente administrativas y se recibió el primer computador
a la Estación Mapocho, donde recibieron
cursos de capacitación en el lenguaje digital en Chile.
de máquina y en el lenguaje simbólico
Autocoder. Bajo la nueva jefatura del
Departamento de Estadísticas de don Carlos
Reyes Lanyon desarrollaron aplicaciones
estadísticas, un sistema de remuneraciones

23
De izquierda a derecha: Federico Cavada, René Cabezas y Guillermo Fliess.

se reflejó en la mantención, tanto del al menos una placa conmemorativa virtual, Carlos Adriazola del Archivo del diario La
proveedor de los equipos (IBM), como la análoga a las que se encuentran actualmente Nación; Patricia Liberona del Archivo Central
estructura administrativa de la institución en la fachada de su edificio y que rinden Andrés Bello; Ana María Carter, Daniel
(sección de máquinas del Departamento homenaje a un grupo de sus trabajadores Encalada y Luis Cortés de la Biblioteca de
de Estadística). Un reflejo de la percepción y al poeta nicaragüense Rubén Darío, la Facultad de Economía y Negocios de la
de continuidad fue la escasa y anecdótica quien trabajó en la Aduana a fines del siglo Universidad de Chile.
cobertura noticiosa por parte de la prensa xIx, período en que escribió su obra más
escrita. importante: “Azul” en 1888. REFERENCIAS
Los elementos de cambio fueron percibidos
[1] Aduana de Chile, “Historia de la Aduana
con la obtención oportuna de los primeros AGRADECIMIENTOS de Chile”, septiembre 2011.
resultados y la comprobación de la presencia http://www.aduana.cl/prontus_aduana/site/
de una tecnología poderosa y flexible. Aunque la responsabilidad de la redacción artic/20070224/pags/20070224173229.
es exclusivamente del autor, agradecemos html
El efecto fue la creación en 1965 de
la valiosa colaboración de Guillermo Fliess, [2] IBM de Chile, “80 años IBM Chile”;
un Centro de Procesamiento de Datos
René Cabezas y Federico Cavada, quienes septiembre 2011.
transversal a toda la institución y que fue
proporcionaron valiosa información y http://www-03.ibm.com/marketing/cl/
uno de los elementos fundamentales en la marketing/historia/index.shtml
fotografías de la época. Gracias también
restructuración de la Aduana. En síntesis, la
a mi colega en el proyecto “Historia de la [3] Superintendencia de Aduanas de Chile,
experiencia computacional de la Aduana “Boletín Oficial”, diciembre 1962.
Computación en Chile” Claudio Gutiérrez
fue valiosa y aleccionadora para otros
por sus comentarios. [4] Superintendencia de Aduanas de Chile,
servicios e instituciones del Estado y para “Boletín Oficial”, abril 1962.
el desarrollo futuro de la disciplina. Guillermo Fliess tiene actualmente 73 años
[5] La Nación, “Reestructuración total de las
y acaba de cumplir 51 años trabajando en
Aduanas – Instrucciones impartió Ministro
la Aduana. René Cabezas, 74 años, trabajó
EPíLOGO en la Aduana hasta 1963 y permaneció
de Hacienda al nuevo jefe del Servicio”,
portada del 21 de diciembre de 1961.
activo en el área hasta el año 2008 y vive
La Aduana de Valparaíso ocupa un lugar [6] La Nación, “El Servicio de Aduanas”,
actualmente en Santiago. Federico Cavada, editorial del 23 de diciembre de 1961.
privilegiado en la Historia de la Computación
82 años, trabajó en IBM hasta su retiro y
en Chile. En 1961 se programaron las [7 Superintendencia de Aduanas de Chile,
vive actualmente en Viña del Mar. “Boletín Oficial”, agosto 1961.
primeras aplicaciones administrativas y se
recibió el primer computador digital en Agradecimientos también para Gabriel [8] Superintendencia de Aduanas de Chile,
Chile. Este medio siglo de Historia merece Ahumada de la Biblioteca del Congreso; “Boletín Oficial”, diciembre 1962.
[9] Superintendencia de Aduanas de Chile,
“Boletín Oficial”, abril 1965.

24 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

OPEN DATA

Open Data: nuevo


paradigma en el manejo de datos

El desarrollo digital de los Estados se inició el aumento del nivel de empoderamiento


buscando aumentar la eficiencia del quehacer que los ciudadanos han adquirido en los
de estos, digitalizando procesos y actividades últimos años.
con el objetivo de mejorar su desempeño
Lo anterior genera dos consecuencias en
y reducir los costos de operación, el foco
términos del diseño de las políticas públicas
eran los procesos de back office.
y desarrollo digital de los Estados:
El desarrollo del gobierno electrónico,
1) Nuevo modelo de servicios, los servicios
Alejandro Barros ha estado identificado con un modelo de
Magíster en Ciencias mención que presta el Estado a sus ciudadanos,
Computación, Universidad de Chile. gobierno-céntrico. Desde hace algunos
sean estos en la forma de personas
Director de e.nable. Ex Secretario años, su eje ha cambiado, poniendo al
Ejecutivo Estrategia Digital de Chile naturales o instituciones, deben diseñarse
2007-2008. Consultor internacional ciudadano al centro, lo que denominamos
e implementarse teniendo como foco
de empresas e instituciones públicas, modelo ciudadano-céntrico. Este cambio se
especializado en planificación quién es el receptor de los mismos y
estratégica tecnológica, políticas sustenta en una mejor identificación de su
no quién los produce, para lo cual el
tecnológicas, gobierno electrónico, misión de servicio al ciudadano, producto
compras públicas e introducción de Estado debe incorporar al momento de
tecnologías en procesos de negocios. de la madurez alcanzada y en parte por
Académico Asociado del Centro de
Sistemas Públicos de la Universidad
de Chile.
abc@alejandrobarros.com
www.alejandrobarros.com

25
su diseño atributos esenciales de este 3. Oportuna, debe disponibilizarse en
nuevo enfoque:
• La información pública es una forma inmediata o al menos con poca
forma de infraestructura, con demora.
a. One-stop-shop (ventanilla única).
el mismo nivel de importancia
4. Disponible a todo tipo de usuarios (sin
b. Múltiples canales de atención. que otras infraestructuras (agua,
restricción de acceso).
c. Altos estándares de usabilidad. electricidad, carreteras).
5. Procesable, esto es, datos estructurados
d. Interoperabilidad. • Debemos ma ximizar el que puedan ser procesados por un
valor público a partir de la computador.
e. Niveles de servicio definidos ex
ante.
data existente en manos del
6. No discriminatoria, disponible a
Estado. cualquiera sin necesidad de registro.
2) Gobierno abierto, concepto que
agrupa la participación, transparencia • La magia de datos abiertos es 7. No propietaria, esto es, que no puede
y colaboración de los ciudadanos en que habilita la transparencia estar en formatos asociados a alguna
las políticas públicas, en este ámbito y la innovación. entidad o bien que requieran de algún
el Open Data juega un rol relevante tipo de herramienta propietaria para su
y se ha transformado en la forma de uso.
operacionalizar dicho enfoque.
CONFUSIONES 8. Licenciamiento libre, no sujeto a ningún
HABITUALES tipo de copyright, patente u otro tipo
OPEN DATA de derecho.
La disponibilización de los datos públicos
Ahora bien cuando contrastamos estos
Hoy en día, cada vez más países, han es un proceso que debe estar normado, el
principios con la realidad de los Estados de
adoptado el modelo de gobierno abierto, el cual si bien es bastante nuevo ya se rige por
la región, es que vemos que existe una gran
cual se sustenta en un cambio de paradigma ciertos estándares internacionales. Hoy en
brecha, el comportamiento de los países
frente a los datos que están en poder del día, existen dos marcos de referencia para
de la región está más bien marcado por el
Estado, transformándolos en públicos y ello, las recomendaciones sobre información
secretismo y la opacidad respecto de los
promoviendo su acceso a uso por parte de pública de la OCDE5 y los ocho principios
datos en poder del Estado.
los ciudadanos. Los Gobiernos de Estados de datos abiertos, esto es:
Unidos1, Australia 2 y Reino Unido3 por Un ejemplo reciente de ello fue la discusión
1. Completitud, toda la data es pública,
mencionar algunos han definido en los que se dio en Chile respecto de los niveles
no sólo lo que la autoridad estime
últimos años modelos de gobierno abierto, de pobreza utilizando para argumentar
pertinente (preprocesada).
en particular de Open Data. los resultados de la encuesta Casen, si
2. Fuente debe ser primaria (raw data). el acceso a esos datos hubieran seguido
Los Estados, producto de su función recopilan
y producen grandes volúmenes de datos
de todo tipo4 (climatológico, económico,
social, cultural y muchos otros), los cuales
generalmente se encuentran con accesos
restringidos, en muchos casos ni siquiera
se conoce su existencia, en formatos no La posibilidad de que los ciudadanos puedan
estandarizados y con una gestión bastante
deficiente por parte del Estado. acceder a los datos públicos en forma simple va
El enfoque Open Data busca cambiar
esto, disponibilizando esa data a todos a impactar positivamente en nuestras sociedades,
los ciudadanos, lo cual en el poco tiempo
que lleva este tema ha demostrado que
mejorando la democracia y la economía.
genera alto valor público. Daniel Lathrop y
Laurel Rume en su libro Open Government
plantea tres conceptos que me parecen
fundamentales a la hora de entender el
impacto del Open Data.

1 http://www.whitehouse.gov/the_press_office/TransparencyandOpenGovernment/
2 http://agimo.govspace.gov.au/2010/07/16/declaration-of-open-government/
3 http://thenextweb.com/uk/2010/01/20/uk-government-open-data-revolution/
4 The Future of the Goverment, WEF, 2011.
5 http://www.alejandrobarros.com/content/view/718580/Que-hacer-con-la-informacion-del-Sector-Publico-segun-la-OCDE.html#content-top
26 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 1

los principios antes señalados, podríamos 3) ¿Por qué tengo que tener un software democracia, producto de mayores niveles
haber visto una noticia como la siguiente: específico para procesarlo (SPSS o de participación y compromiso, mejorando
Stata) o bien bajar un ejecutable con la economía ya que se ha demostrado que
“Un grupo de estudiantes secundarios
los datos? el acceso a datos públicos permite realizar
con la ayuda de su profesor refutaron las
obras derivadas a partir de esa data con su
conclusiones del ministro de Hacienda Algunos países han avanzado más allá del
consecuente impacto en la innovación y el
respecto de la distribución del ingreso, mero acceso a los datos, el modelo Open
emprendimiento.
llegaron a esa conclusión producto del Data ya ha demostrado que produce cambios
análisis de los datos publicados de la importantes no sólo en el sector público, Los Estados de la región ya están tomando
encuesta CASEN 2010”. adicionalmente está generando sinergias cartas en este tema, partiendo por establecer
en la innovación y el emprendimiento, tal marcos jurídicos, como son las leyes de
Diario local, junio 2010. transparencia que muchos de los Estados de
es el caso del Reino Unido, que a través
Como lo mencionaba, una noticia como de su organización The National Archives la región han establecido. Estos son tímidos
la anterior no sería fácil, ya que el acceso pasos pero van en la dirección correcta.
(Archivos Nacionales) ha definido un modelo
a los datos de dicha encuesta es bastante de licenciamiento de la data7 el cual permite Algunas iniciativas interesantes en esta
tortuoso. lo expuesto en la Figura 1. materia en nuestro país son las que están
Cuando el Ministerio de Planificación liderando la Biblioteca del Congreso y el
No sólo como ciudadano puedo acceder
Consejo para la Transparencia con sus
(MIDEPLAN) dice que tiene los datos de a la data pública, sino que además puedo
proyectos de Open Data, es de esperar que
la encuesta CASEN, lo primero que un usarla en términos comerciales; este modelo
estas organizaciones contagien al resto del
ciudadano se pregunta cuando accede al permite que se genere emprendimiento en
Estado chileno.
sitio donde se encuentra dicha información torno a dichos datos.
denominado “Casen Interactiva6” es: Los ciudadanos debiéramos estar alerta y
hacer cumplir nuestros derechos en lo que
1) ¿Por qué debo demostrar que soy un CONCLUSIONES FINALES a los datos en poder del Estado respecta,
investigador como solicita MIDEPLAN
recordándole que en lo que se refiere a la
para obtenerlo? La posibilidad de que los ciudadanos
data pública, al Estado le corresponde sólo
puedan acceder a los datos públicos en
2) ¿Por qué tengo que dar a conocer su administración y que la propiedad de
forma simple va a impactar positivamente
los objetivos de la solicitud de los estos es de los ciudadanos en su conjunto,
en nuestras sociedades, mejorando la
mismos? salvo en casos muy excepcionales.

6 http://celade.cepal.org/redatam/paises/chl/mideplanii/Index.html
7 http://www.nationalarchives.gov.uk/doc/open-government-licence/

27
OPEN DATA

Open Government Data en el mundo

Desde hace algunos años ha tomado fuerza la ¿QUÉ ES OPEN


idea de publicar libremente datos de gobierno
GOVERNMENT DATA?
de distintos países, tanto a nivel nacional,
regional y municipal. Este movimiento, Open Government Data consiste en un
conocido como Open Government Data conjunto de principios que apuntan a
(OGD) se ha extendido durante los últimos que los datos generados o usados por los
años y actualmente más de una veintena de gobiernos debiesen estar a libre disposición
países, incluyendo Estados Unidos y el Reino y uso por parte de los ciudadanos. Existen
Unido, implementan portales de publicación varias razones que justifican esto: en primer
de datos. Asimismo, este movimiento se ha lugar, los datos generados por el gobierno
visto fuertemente asociado a Linked Data, son financiados con los impuestos de todos.
que consiste en una serie de principios para ¿No deberían todos los ciudadanos poder
publicar datos usando tecnologías de la usarlos, dado que han pagado por ellos? En
Web Semántica, que los hacen fácilmente segundo lugar, el reuso de estos datos permite
procesables por máquinas. Esta simbiosis que otras personas se beneficien directa e
ha beneficiado a distintas organizaciones al indirectamente de estos, aumentando su
interior del gobierno, así como a académicos, valor y utilidad. En Estados Unidos, empresas
investigadores y ciudadanos en general. El como BrightScope.com (que reporta
Álvaro Graves presente artículo describe cómo los países información sobre consejeros financieros)
Ingeniero Civil en Computación
y Magíster en Ciencias mención
han comenzado a adoptar OGD y cómo y aplicaciones como Roadify.com (que
Computación, Universidad de el uso de Linked Data ha ayudado en la entrega información sobre transporte público
Chile. Estudiante de PhD en
publicación de datos. de Nueva York en tiempo real) utilizan
Cognitive Science, Tetherless World
Constellation, Rensselaer Polytechnic
Institute, Estados Unidos.
alvaro@graves.cl

28 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 1

La nube de Linked Data (los datasets y sus enlaces) en septiembre de 2010. Los datasets en verde de la izquierda, corresponden a datos de gobierno.

datos publicados por el gobierno para sus licencias abiertas. Existen por supuesto una alguna manera: de esta forma, es posible
operaciones. En tercer lugar, la publicación serie de restricciones sobre qué cosas no navegar por distintos datasets para obtener
de datos gubernamentales permite que la pueden considerarse OGD: por ejemplo, más información que la provista por una
ciudadanía esté más informada sobre cuáles es usualmente aceptado que la información organización solamente. Por ejemplo, un
son las actividades del gobierno y cómo personal de ciudadanos, así como datos médico puede buscar en DBpedia -una
se realizan, aumentando la transparencia que puedan afectar la seguridad nacional versión “semantificada” de Wikipedia- acerca
y el accountability de este último: por no deben ser publicados. A pesar de estas de la proteína P53, encargada de la supresión
ejemplo, en Estados Unidos es posible excepciones, se entiende como una buena de tumores y encontrará una descripción
ver qué funcionarios de la Casa Blanca práctica el que la opción por omisión sea de ésta en varios idiomas, así como temas
han sido visitados, cuántas veces y por publicar datos y el no hacerlo sea el caso relacionados (oncología, proteínas, etc.).
quién[1]. Finalmente, tecnologías como particular. Luego, desde DBpedia es posible obtener
la Web permiten que el costo de publicar las URIs con que esta proteína es descrita
datos sea muy bajo: una vez que los datos en otros datasets. Al acceder a estos
han sido recolectados o generados y usados
LINKED DATA nuevos datasets es posible encontrar qué
por el gobierno, el proceso de publicarlos enfermedades están asociadas a P53.
Uno de los movimientos de mayor impacto
es generalmente sencillo y simple.
en la Web Semántica es Linked Data[3], Es claro que las comunidades de OGD y
En 2007 un grupo de expertos definió un el cual consiste en una serie de principios Linked Data tienen mucho en común y
conjunto de ocho principios que reflejan para publicar datasets acerca de distintos pueden beneficiarse mutuamente, la primera
cómo los gobiernos debiesen publicar temas, donde cada “cosa” (un auto, una usando Linked Data como plataforma,
datos[2]: los datos deben ser completos, persona, el día de ayer) tiene asignada una la segunda mostrando en OGD un caso
primarios, estar disponibles a tiempo, URI (similar a una dirección Web o URL). de uso real. Actualmente, un porcentaje
ser accesibles, fácilmente procesables Como cada cosa es identificable por estas importante de la “nube” de Linked Data
por máquinas, no se debe discriminar URIs, el siguiente paso es enlazar estos (los conjuntos de datos conectados) son
a quienes lo soliciten, no deben estar datasets, identificando qué URIs se refieren datos de gobierno, como puede verse en
en formatos propietarios y deben usar a la misma “cosa” o están relacionadas de la Figura 1.

29
Figura 2 lenguaje para datos en la Web Semántica.
Este trabajo se ha hecho en conjunto con
Tetherless World Constellation y ha implicado
dos procesos paralelos: por un lado la
conversión textual de los datos de manera
automática, donde estos se extraen desde las
tablas Excel y archivos CSV y se aplica una
transformación genérica para generar RDF. El
segundo proceso consiste en la publicación
de datos mejorados, curados manualmente,
donde se busca una representación más
fidedigna de lo que los datos representan
en el mundo real, que a la estructura de
la tabla desde la que fueron sacados. Por
ejemplo: la conversión automática de una
tabla con nombre, apellido y dirección de
una persona considerará los tres valores
asociados a la misma entidad (la fila de la
tabla); una versión mejorada considerará
qué nombre y apellido pertenecen a una
persona, mientras que la dirección está
asociada a un lugar, el cual está relacionado
Portal Data.gov del Gobierno estadounidense, permite buscar datasets relacionados con agricultura, con la persona, como se puede ver en la
defensa, medio ambiente y presupuestos, entre otros. Figura 3.

serie de aplicaciones, como DataMasher[5]


DESARROLLO DE OGD (sitio especializado en crear mashups, es
Reino Unido: modelo
EN EL MUNDO decir visualizaciones de cruza de datos)
Top-Down
y Fly On Time[6] (sitio que permite saber
Las historias de OGD en Estados Unidos En enero de 2010, el Gobierno del Reino
cuántas son las demoras de vuelos en
y en el Reino Unido son ilustrativas de Unido lanzó Data.gov.uk[7] (Figura 4). El
Estados Unidos), por nombrar algunas.
cómo los gobiernos han adoptado distintos enfoque británico fue diferente: se usó
Una de las prioridades de Data.gov era
modelos de OGD y cuál ha sido su relación tecnología semántica y Linked Data desde
liberar la mayor cantidad de datos, bajo
con Linked Data. un principio, por lo que en muchos casos
un proceso de publicación simple, por lo
(no todos) los datos están disponibles en
que se dio flexibilidad a los funcionarios de
Estados Unidos: gobierno en cuanto a los mecanismos de RDF así como en su contraparte en formato
CSV. Por ejemplo, cada escuela en el Reino
modelo Bottom-Up publicación: es así que los datos han sido
publicados principalmente como archivos Unido tiene una URI (por ejemplo, http://
(Disclaimer: estoy asociado con Tetherless xML, Excel, Comma-Separated Values (CSV), education.data.gov.uk/id/school/103335).
World Constellation y he participado Really Simple Syndication (RSS), Keyhole El uso de Linked Data permite que al
activamente en éste como parte del Markup Language (KML o KMZ) y archivos acceder a esta URI (sea posible obtener
trabajo realizado por este laboratorio en Shapefile (SHP). información relevante para la escuela: al
colaboración con Data.gov). usar un navegador como Firefox o Chrome
Otra medida tomada para simplificar el obtenemos un documento HTML, pero
En mayo de 2009, la administración del proceso de publicación fue apuntar a también es posible escribir programas que
Presidente Barack Obama lanzó el sitio los datos localizados en los servidores
vean los datos “puros” en RDF usando esta
Data.gov[4] que fue la primera plataforma de los organismos gubernamentales
URI, los cuáles serán más fáciles de procesar
centralizada de publicación de datos en correspondientes, en vez de replicarlos en
que extraerlos desde el HTML.
el mundo, construida por un gobierno. Data.gov; de esta forma se evitan problemas
Comenzando con cerca de 40 datasets, técnicos y se puede reusar buena parte de Asimismo, el Gobierno británico dispuso de
actualmente provee sobre los 300.000, los la infraestructura existente (por ejemplo, SPARQL endpoints (servicios Web donde
cuales describen información relacionada servicios que proveen feeds RSS). Desde es posible ejecutar consultas en SPARQL,
con temas de energía, salud, migraciones, hace algún tiempo, Data.gov (Figura 2) el equivalente a SQL para datos semánticos)
seguridad pública y muchos más. El uso ha comenzando a publicar datos en RDF con información sobre distintas áreas
de los datos ha sido aprovechado por una (Resource Description Framework), el (educación, transporte, etc.), de manera

30 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

que en muchos casos no es necesario Figura 3


descargar la información, sino que es posible
consultarla directamente en los servidores
del Gobierno.

CATÁLOGOS DE OGD
Como una forma de facilitar el acceso a
esta gran cantidad de datos, existen varios
esfuerzos por crear “metacatálogos” donde
sea fácil buscar datasets disponibles en
distintos portales. Así, por ejemplo, la
Comunidad Europea ha trabajado en los
últimos años para disponer de un portal
centralizado que liste los datos de los
países que la componen, tanto a nivel
local, regional, así como nacional. Uno
de los problemas es que al haber cientos El proceso de conversión desde una tabla a RDF puede ser automático, llevando a una representación
de catálogos, no es fácil para los usuarios más cercana a la tabla (a la izquierda) o una conversión mejorada, reusando vocabularios (en este
caso FOAF y vcard) y más cercana a lo que los datos describen (grafo a la derecha).
encontrar los datos que buscan, de manera
que han creado PublicData.eu[8], el cual
permite buscar en diversos portales de la Figura 4
Comunidad Europea. De esta forma, no se
intenta replicar el trabajo hecho por otras
organizaciones gubernamentales, sino
agregarlo para facilitar la búsqueda por
parte de los usuarios.

A nivel internacional, Tetherless World


Constellation ha creado un catálogo de
fuentes de datos de gobierno de diversos
países y organizaciones internacionales,
el cual se puede explorar seleccionando
diversos criterios como país de origen y temas
relacionados, entre otros[9]. Un esfuerzo
similar ha realizado la fundación CTIC, la
cual también provee un navegador[10] para
buscar catálogos de datos por país y tipo,
como se puede ver en la Figura 5.

DESAFíOS
Se puede decir que OGD presenta desafíos
Portal Data.gov.uk del Gobierno del Reino Unido. En la versión actual se facilita la búsqueda de
en varios frentes, pero por brevedad sólo datos y aplicaciones relevantes para localidades especíicas, basado en el código postal.
mencionaré los que parecen más relevantes.
En primer lugar, es necesario un fuerte
política pública, implementar OGD requiere serán los encargados de OGD en cada
apoyo político y considerar a OGD como
tiempo y dinero para que los encargados lo órgano del Estado, lo que toma tiempo.
una política fundamental para mejorar
puedan llevar a cabo. En segundo lugar, la En tercer lugar está el asunto de la calidad.
la transparencia de un gobierno. Sin
cantidad, variedad y distribución de datos Es claro que no todos los datos son igual
una valoración desde el mundo político,
disponibles implican que se requiere especial de “buenos” en términos del “ruido” que
cualquier esfuerzo se va a quedar sólo en
preparación por parte de los organismos poseen, cuán confiables son, cómo son
buenas intenciones. Más aún, este apoyo
públicos: la experiencia en distintos países representados, etc. Para ayudar a resolver
debe verse reflejado en una asignación
muestra que es necesario capacitar a quienes esto, es necesario establecer una serie de
de recursos, ya que como cualquier otra

31
Figura 5
CONCLUSIONES
Este artículo ha hecho una breve revisión
sobre qué es Open Government Data, su
relación con Linked Data, así como ejemplos
exitosos de la aplicación de estas tecnologías
en gobiernos de distintas partes del mundo.
Existen una serie de desafíos a la hora de
implementar OGD: en general existe un
conflicto natural entre la simplicidad de
publicación y simplicidad de consumo
de los datos y cada gobierno ha buscado
un camino diferente para lidiar con este
problema. Más aún, hacer fácil para la
ciudadanía el usar estos datos sigue siendo
un problema abierto. Sin embargo, ya es
posible ver beneficios en el uso de estos
datos por parte de empresas y desarrolladores
para creación de aplicaciones y servicios.
Asimismo, OGD ha mostrado que es posible
transparentar las actividades del gobierno,
facilitando la detección de potenciales
Países que poseen catálogos de datos públicos, según la Fundación CTIC. fraudes e ineficiencias en la gestión.

Todavía hay mucho camino por recorrer


métricas que ayuden a los consumidores de barreras para la creación de aplicaciones. para aprovechar todo el potencial que
estos datos. Finalmente, quizás las preguntas Para lograr esto es recomendable tener ofrece Open Government Data, pero la
más importantes que debiésemos tratar de un modelo de datos flexible desde el cual tendencia en el mundo es que poco a poco
resolver son: ¿cómo hacemos para que los sea posible traducir y exportar a diferentes los gobiernos van abriendo más sus datos
ciudadanos comunes y corrientes puedan formatos. Es aquí donde RDF aparece como para que la ciudadanía pueda hacer uso
sacar el máximo provecho de estos datos sin una excelente alternativa: convertir desde de ellos tanto a nivel nacional, regional
tener que convertirse en hackers?, ¿qué tipo RDF a otros formatos resulta más fácil que como local.
de servicios debiesen ofrecer los gobiernos desde, por ejemplo, CSV o Excel. Por otro
para aumentar la participación ciudadana lado, una crítica importante que se le ha
en las iniciativas de OGD? hecho a Data.gov es la falta de recursos
REFERENCIAS
para mantener una comunidad de hackers [1] http://bit.ly/WHvisitors
Con todo lo anterior, queda la pregunta
y desarrolladores. El acceso a ejemplos de
sobre cómo poder replicar estas iniciativas [2] h t t p : / / w w w. o p e n g o v d a t a . o r g /
código, APIs (Application Programming
en otros países e instituciones. Por una home/8principles
Interface), tutoriales, documentación, etc.
parte, la experiencia muestra que no es [3] http://linkeddata.org
facilita el uso de los datos por parte de
necesario centralizar todos los datos, sino
programadores, particularmente quienes [4] http://data.gov
centralizar las búsquedas: los usuarios no
desarrollan software en su tiempo libre. [5] http://www.datamasher.org/
tienen por qué cargar con la responsabilidad
Otra crítica hecha a Data.gov (y en menor
de saber dónde están los datos, sólo saber [6] http://flyontime.us/
grado a Data.gov.uk) ha sido la calidad
que pueden buscarlos en un solo sitio. Esto [7] http://data.gov.uk
del sistema de búsquedas. Encontrar la
conlleva a que el repositorio debe coordinar
información que se busca no resulta fácil, lo [8] http://publicdata.eu
con los diversos organismos proveedores
que desmotiva a los usuarios. Un esfuerzo [9] http://logd.tw.rpi.edu/demo/international_
de datos; lo anterior es posible usando
para mejorar esto ha sido alpha.gov.uk, el dataset_catalog_search
vocabularios para describir catálogos de
cual ofrece sugerencias en una forma similar [10] http://datos.fundacionctic.org/sandbox/
datos, tales como dcat[11] para comunicar
a lo que hace Google Instant[13]. Ésta y otras catalog/faceted/
qué datasets están disponibles. Asimismo,
alternativas para mejorar las búsquedas
es importante publicar los datos en la mayor [11] http://vocab.deri.ie/dcat
pueden ser críticas para garantizar el éxito
variedad de formatos posible, de manera de [12] http://drupal.org
de un portal de OGD.
llegar a diferentes audiencias y disminuir las
[13] http://www.google.com/instant/

32 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

OPEN DATA

En camino hacia la Web Semántica:


experiencias de la Biblioteca del
Congreso Nacional de Chile
Biblioteca de Valparaíso. Gentileza: Biblioteca del Congreso Nacional.

La Biblioteca del Congreso Nacional (BCN) el concepto de “Open Data” se orienta a


adscribe al concepto de Open Government que los datos deben ser asequibles a todos
por considerar que se trata de una filosofía de en forma libre y sin restricciones, “Linked
trabajo útil para empoderar a los ciudadanos Data” es una forma de publicar los datos
y otorgarles acceso y licencia de uso a los de manera tal que se facilite la interrelación
datos generados por entidades públicas, de entre las distintas fuentes de datos.
tal manera que los puedan usar, almacenar, El año 2010 la World Wide Web Foundation3
redistribuir e integrar con otras fuentes de a través del Centro de Tecnología, CTIC,
datos. Esta apertura de la información se realizó un estudio acerca de la aplicabilidad
justifica tanto por favorecer la participación y potencial de una iniciativa de Open
Biblioteca del Congreso Government Data (OGD) en Chile, Ghana
ciudadana, fortaleciendo la democracia,
Nacional de Chile (BCN)1 y Turquía. El reporte [1] indica que Chile
La Biblioteca del Congreso Nacional, como por ser un motor de innovación al
al servicio de los parlamentarios, permitir la creación de nuevas industrias presenta condiciones propicias para la
y en estrecha coordinación con el
Senado y la Cámara de Diputados, con estos datos. liberación de la información pública
es un espacio de interacción social en términos de disposición para OGD,
entre estos y la comunidad nacional. Hoy en día el concepto de Open Government recomendando su inicio dada la existencia
Aquí pueden reconocerse en su
historia político social, informarse y se entrelaza con los conceptos de Open Data de conocimiento, personas, tecnología
compartir conocimiento acumulado. y Linked Data2. Entendemos que mientras y voluntad.
Además, permite la vinculación
con articuladores del conocimiento
nacional y mundial en los ámbitos
social, político y legislativo.

1 Artículo escrito por: Christian Sifaqui, Eridan Otto, Felipe Almazán y Daniel Hernández (asesor externo).
2 Linked Data - Connect Distributed Data across the Web. www.linkeddata.org
3 World Wide Web Foundation. http://www.webfoundation.org/

33
Figura 1

Página principal de www.leychile.cl

Así como el informe lo indica, la BCN cree • Widgets/Gadgets: la BCN entrega En este artículo se describen algunos
que los organismos estatales en Chile están en sus portales www.bcn.cl y www. proyectos realizados por la BCN que se
preparados para entrar de lleno a OGD. En leychile.cl un conjunto de aplicaciones enmarcan en torno a la iniciativa OGD,
esta línea, la Biblioteca ha llevado a cabo computacionales en plataforma Web lo anterior ha sido un proceso natural
las siguientes acciones: como una forma de entregar acceso realizado por la institución, ya que la
automático, distribuido y sencillo. naturaleza de sus servicios hace que
• Portales/Sitios de libre acceso: toda
esté permanentemente incrementando
la información que la BCN pone a • Web Semántica: como punto de partida
semánticamente la información que ella
disposición en sus portales (www.bcn. en el uso de las tecnologías que sustentan
administra y pone a disposición de la
cl, www.leychile.cl, etc.) es completa, este concepto, la BCN liberó el sitio
ciudadanía.
confiable, distribuible, reusable, se basa http://datos.bcn.cl donde se ofrecen
en el concepto de patrimonio cultural datasets con ontologías públicas para
común y permite la interoperabilidad. facilitar el análisis computacional ESTRUCTURACIóN DE
Esto ha llevado consigo un incremento automático y se publicarán datos en LOS CONTENIDOS CON
de las visitas de sus portales en forma el modelo de datos enlazados (RDF), xML: CASO LEYCHILE
constante, por ejemplo, el año pasado se algunos de ellos pueden ser accedidos
contabilizaron más de 10,5 millones de con el lenguaje de consulta SPARQL. Se define la legislación como el conjunto
visitas anuales y durante estos primeros Hoy, datos.bcn.cl incorpora los datos de normas positivas (leyes, decretos,
siete meses ya hay un incremento del provenientes del portal Ley Chile y resoluciones, etc.) que conforman el
19% con respecto al año 2010. progresivamente se irán incorporando ordenamiento jurídico nacional.
otros datasets, como el de las Reseñas
• Marcaje: la BCN coloca en los objetos La legislación es información que proviene
Biográficas de Parlamentarios. Junto con
digitales marcas y atributos semánticos del sector público, es generada por órganos
la publicación centralizada en datos.bcn.
para obtener resultados más precisos del Estado y financiada con recursos públicos.
cl, se está trabajando en el marcado de
y relacionados entre sí. Este proceso Asimismo es de interés público, ya que
contenidos con RDFa en varios de los
de “semantizado de la información” opera en temas de utilidad general y afecta
portales administrados por la BCN, lo
ha permitido que los buscadores la vida de los ciudadanos en particular. Esta
que facilitará la publicación de datos
actuales accedan en forma precisa a información tiene un alto valor público,
de manera distribuida y su posterior
la información disponible en nuestros ya que genera una experiencia en los
integración con datos.bcn.cl.
portales.

34 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 2

Modelo de “vida” de una norma.

ciudadanos que es considerada valiosa por • Art. 706° [...] el error en materia de textos refundidos y concordancias). Este
ellos. Dicho lo anterior, podemos indicar derecho constituye una presunción sistema ofrece una caja de búsqueda y al
que la legislación es información pública y de mala fe, que no admite prueba en mismo tiempo servicios Web que ofrecen el
por ende debe ser de dominio público. contrario. texto en formato xML, también proporciona
servicios complementarios y aplicaciones
Se desprende en forma natural el concepto Pero los artículos mencionados nos conducen
como widgets y gadgets para hacer más fácil
de “mecanismo de concreción de principio a lo que se conoce como “ficción legal del
el consumo y uso de la información legal,
de seguridad”, que es la fundamentada conocimiento”, ya que en Chile el acceso
almacenada en esta base de datos.
expectativa que tienen los ciudadanos de al Diario Oficial es pagado, se publican
que la ley vigente se cumpla. Para cumplir las normas modificatorias en vez de los Hoy en día, este sistema tiene en promedio
con esta expectativa, podemos reconocer textos vigentes y el acceso a la normativa unas 14.000 visitas diarias, alcanzando picos
dos enfoques: el concepto de “seguridad de períodos anteriores es dificultosa. de 18.000 visitas, lo cual consideramos
jurídica” (certidumbre fundada y garantizada muy alto tomando en cuenta el tipo de
Como una forma de solucionar la “certeza
que la norma será cumplida) y el concepto contenidos y la cantidad de 7,3 millones
jurídica” para el Congreso Nacional de Chile
de “certeza jurídica” (perceptibilidad de de usuarios de Internet en Chile [2].
y también para los ciudadanos, la BCN en los
la norma jurídica y la certidumbre de su
años cincuenta inició mediante un sistema
contenido). Para satisfacer ambos enfoques,
los países ofrecen un mecanismo de
de fichas una recopilación de las referencias Detalles de la
publicidad de la ley, conocido como Diario
de las vinculaciones de las normas y clasificó implementación
las normas bajo materias.
o Gaceta Oficial.
LeyChile fue concebido con una arquitectura
En los años setenta este sistema de fichas
En el caso particular de Chile, tres artículos básica de tres capas:
fue reemplazado por un sistema STAIRS,
del Código Civil hacen referencia a este
que permitió automatizar estas fichas y sus • Datos: representación y almacenamiento
mecanismo de publicidad y de los enfoques
anotaciones. Posteriormente, a mediados xML nativo (en una base de datos híbrida)
mencionados, a saber:
de los ochenta, fue reemplazado por un para las normas y sus vinculaciones. Las
• Art. 7º. La publicación de la ley se sistema cliente-servidor basado en BASIS normas se encuentran indexadas para
hará mediante su inserción en el Diario PLUS, que permitía reconstruir en línea los responder consultas a texto completo,
Oficial, y desde la fecha de éste se textos de las normas. tanto a nivel de norma como un todo o
entenderá conocida de todos y será de sus partes. Existen servicios básicos
En el año 2008 se libera el sistema Web
obligatoria. como entrega de la norma completa
LeyChile (ver Figura 1), el cual contiene todas
para su procesamiento hacia las capas
• Art. 8º. Nadie podrá alegar ignorancia las normas a texto completo, sus versiones
superiores e imponer algunas reglas
de la ley después que ésta haya entrado (disponibles desde 1998) así como las
de negocio.
en vigencia. vinculaciones (modificaciones, reglamentos,

35
Figura 3 versión de la misma. El modelo xML de la
norma permite la modificación sólo a las
partes (encabezamiento, estructura funcional,
promulgación, anexos, ver Figura 3) que
son afectadas por la modificatoria. De esta
manera LeyChile construye dinámicamente
el texto completo de una versión (versión
vigente, intermedia u original).

Otro detalle a considerar es que en algunos


casos el Poder Ejecutivo genera una versión
oficial de la norma, denominada texto
refundido, con la finalidad de sistematizar,
coordinar y ordenar el contenido de una
norma que ha tenido una cantidad importante
de modificaciones. LeyChile modela esto
mediante un enlace (vinculación) entre
Modelo de la estructura de una norma legal. el texto refundido y la norma que le dio
origen.
• Negocios: aplica las transformaciones interactivas de la navegación de la norma Cabe hacer notar que todo el modelo
necesarias a la norma, como el cálculo son distribuidas a los clientes por medio del documento normativo es en su fase
de las partes asociadas a una versión, de código JavaScript. conclusiva (promulgado) sin ocuparse de
generando xMLs para ser procesados todo el íter legislativo.
Un concepto básico que fue tomado en
por la capa de presentación. En esta
cuenta es que se considera que la norma no En base a los detalles anteriormente expuestos,
capa el servidor de aplicaciones Web
es un objeto estático, por el contrario, durante el esquema xML de LeyChile, distingue tres
(ZOPE-Plone) arma las páginas dinámicas
su ciclo de vida desde que se publica en el capas o niveles de marcado:
del sistema y habilita el procesamiento
Diario Oficial hasta que eventualmente es
AJAx tanto para las páginas HTML como • Texto: versiones, hiper vínculos,
derogada o refundida, sufre modificaciones.
para los servicios Web. referencias, notas.
Tal como se muestra en la Figura 2, una norma
• Presentación: una parte importante del sólo puede ser modificada por otra norma • Estructura: organización jerárquica de las
procesamiento visual y las características (modificatoria), lo que genera una nueva partes de una norma (ver Figura 3).

• Metadata: conocimiento adicional


Figura 4
al documento formal, por ejemplo,
identificación de la norma, materias,
términos libres, etc.

Esta estrategia permite a diferentes actores


de la organización “enriquecer” el texto
legal, corregir y aumentar estas marcas si
es necesario. LeyChile consta de un módulo
de producción que gestiona un flujo de
trabajo de analistas especializados que van
completando el marcado de la norma.

El mecanismo de recuperación de una


norma desde la base de datos xML y su
navegación interactiva desde un browser
ha sido optimizado para reducir la carga de
procesamiento de los servidores de datos y
de aplicación, por lo que el procesamiento
principal se realiza en el browser de cada
cliente, el cual parsea la estructura xML
entregada, haciendo fuerte uso de las
capacidades asincrónicas de JavaScript.
Mecanismos para navegar en la norma en forma interactiva. La Figura 4 ilustra las interacciones que se

36 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 5 La Figura 5 muestra la definición de los


servicios SOAP. Por ejemplo, getNorma,
permite a cualquier sistema en la Web
consumir el xML de intercambio 4 de una
norma en particular.

La mayoría de los servicios son invocados


mediante un llamado HTTP y entregando un
SOAP, disponible en http://www.leychile.cl/ws/LeyChile.wsdl xML de respuesta, por ejemplo: últimas leyes
publicadas5, proyectos de ley despachados
por el Congreso hacia el Ejecutivo o hacia
desencadenan cuando el usuario selecciona Se llegó a la solución actual mediante el Tribunal Constitucional, metadatos de
una parte de la norma: procesos iterativos de optimización de una norma6 entre muchos otros.
los algoritmos básicos de procesamiento
1. Recuperación: el usuario selecciona
del xML de la norma, basados en uso de
una norma para navegar, la capa de SEMANTIZACIóN DE
capacidades asincrónicas de JavaScript y el
negocios realiza una petición a la base
de datos, la cual extrae el xML de la
desarrollo de varios servicios de caché de LOS CONTENIDOS CON
norma completa.
datos propios (normas y partes de normas RDFa
preformateadas, PDF, etc.), mantenidos en
2. Extracción versión: la capa de negocios un servidor NFS compartido. Los datos que
extrae el xML de la versión requerida se recuperan siempre están actualizados Reseñas biográicas de
de la norma. mediante mecanismos de limpieza de las parlamentarios
partes preformateadas, cada vez que se
3. Parseo: el browser del cliente parsea el
producen cambios sobre las mismas. Desde la fundación del Congreso Nacional de
xML recibido, creando una estructura
Chile en 1811, hacia 2011 han desempeñado
de datos que representa la organización Ley Chile ofrece interoperabilidad con otros
un cargo de representación ciudadana
jerárquica de la norma, la cual se muestra sistemas, tanto internos como externos,
como parlamentarios (diputado o senador)
gráficamente en forma de árbol de mediante Web Services. Los Web Services
más de 3.800 personas. La Biblioteca del
navegación. hacen uso de mensajería en lenguajes
Congreso mantiene actualizada una reseña
basados en xML. Algunos servicios utilizan
4. Despliegue: se genera en forma biográfica para cada una de ellas.
el mecanismo REST y otros el protocolo
asincrónica un HTML dinámico con el
SOAP. Utilizar este estándar de integración El trabajo de investigación, recopilación y
texto de la norma completa en conjunto
permite independizar la interacción de la confección de las reseñas se inició hacia
con elementos gráficos, como las notas
tecnología específica utilizada al interior 2001. En 2003 se logró completar una
y los metadatos asociados.
de cada aplicación de la BCN o de las breve reseña biográfica para todos los
5. Navegación: en la medida que el tecnologías utilizadas en cada institución. parlamentarios y se liberó un sistema de
usuario selecciona las distintas partes
de la norma que requiere en detalle, se Figura 6
realiza el mismo procesamiento descrito
en el punto cuatro, pero a nivel de una
parte.

La arquitectura del sistema se diseñó para


enfrentar una serie de desafíos respecto al
rendimiento y tiempo de respuesta:

• Se supuso una gran cantidad de visitas


que producirían una fuerte carga en los
servidores de datos y de aplicación.

• Se definió el hospedar el mayor tiempo


de respuesta en el navegador del cliente
debido al proceso de parseo, despliegue
y navegación interactiva de las normas,
en especial normas de gran tamaño
como los códigos legales.

Reseña Biográica Parlamentaria en portal de Historia Política.

4 Esquema aceptado como el modelo estándar de la norma chilena para intercambio, por la administradora de esquemas y metadatos (inscripción 354) http://www.aem.
gob.cl/index.html
5 http://www.leychile.cl/Consulta/obtxml?opt=3&cantidad=5
6 http://www.leychile.cl/Consulta/obtxml?opt=4546&idNorma=206396
37
Figura 7

Esquema de vocabulario asociado a la trayectoria parlamentaria.

base de datos para consultas a través del sitio Estructura de la Reseña a su respectiva reseña. En el caso de
Web de la BCN. En los años siguientes se
Biográica los parlamentarios actuales, se enlazó
profundizó este trabajo mediante la extensión la zona geográfica que representa
y completitud de las reseñas y la asociación Cada reseña está compuesta de dos partes (división político-electoral9), al Sistema de
de material referencial como fotografías, fundamentales: Información Territorial (ver Figura 7).
artículos de prensa y enlaces, entre otros.
• Un relato biográfico que recopila sus • Los antecedentes personales muestran
En 2009 se liberó una nueva versión de
orígenes familiares, estudios y trayectoria el nombre completo del parlamentario,
este sistema en plataforma wiki7.
profesional, su labor legislativa, además la fecha de nacimiento, lugar de
Con motivo del Bicentenario del Congreso de información relacionada como nacimiento, fecha de fallecimiento,
Nacional, la BCN integró el sistema de artículos de prensa, material digital y lugar de fallecimiento y profesión. En
Reseñas Biográficas Parlamentarias dentro fuentes referenciales. el caso de los parlamentarios actuales,
del portal “Historia Política Legislativa del se incluyen enlaces a páginas como
Congreso Nacional de Chile”8, el cual fue • Una ficha resumen que destaca una Facebook, Twitter, Web personal, así
liberado en julio de 2011 (Figura 6). fotografía, la trayectoria parlamentaria, como sus fichas en los portales de la
cargos públicos, antecedentes personales Cámara de Diputados y el Senado,
Este portal ofrece la opción de consultar y enlaces relacionados a sitios Web: respectivamente.
directamente por el nombre de un
parlamentario o acceder a listados alfabéticos • La trayectoria parlamentaria indica • Los cargos públicos, que indican el cargo
de todos los parlamentarios o sólo de por cada período de representación el desempeñado (generalmente ministros
aquellos que se encuentran actualmente en cargo desempeñado, el partido político de Estado), el período asignado, el
ejercicio. Asimismo, las reseñas se presentan en el cual militaba al momento de ser nombre del Presidente de la República
agrupadas en seis períodos relevantes de electo y el nombre del parlamentario para el cual desempeñó este rol y los
la historia de Chile. que lo precedía, el cual está enlazado nombres de quienes lo precedieron y
sucedieron en el cargo.

7 Reseñas parlamentarias. http://biografias.bcn.cl


8 Portal Historia Política. http://historiapolitica.bcn.cl
9 División Político-Electoral. http://siit2.bcn.cl/divisionelectoral/index.htm

38 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 8

Portal de acceso a http://datos.bcn.cl

Solución implementada por el resultado de evaluarlas. La evaluación Creemos que ofreciendo esta nueva capa de
consiste en reemplazar los valores de los servicios, todo el sistema será un modelo de
Se consideraron cinco etapas: definir una parámetros en la plantilla que corresponde referencia en términos de entidades y reglas,
ruta única para cada reseña parlamentaria; a la función, que es también una página del publicado mediante ontologías e incluyendo
investigar y seleccionar y/o construir wiki. Dado que las plantillas son también la posibilidad de ejecutar consultas complejas
vocabularios; marcar documentos con páginas wiki, en ellas se pueden llamar con información de las normas legales a
etiquetado RDFa; definir consultas y otras funciones. través de un endpoint SPARQL, permitiendo
mecanismos de recuperación de información, así acceder a resultados en variados formatos
y publicación de vocabularios en portal de Acceso y consulta de los datos de salida, tales como RDF/xML, JSON,
Linked Data BCN. HTML+RDFa o N3.
Al incorporarse el marcado en las páginas
Los vocabularios utilizados son: Dublin Web, los datos quedan automáticamente En una primera etapa se desarrolló el proceso
Core, Friend of a Friend (FOAF)10, Licencia accesibles a quien desee extraer los triples, de contextualización bajo un dominio
Creative Commons, Open Provenance procesarlos o integrarlos con otras fuentes muy puntual, el de normas en el contexto
Model Vocabulary (OPMV), Biographical de datos. Además, para facilitar el uso e legislativo de ofrecer una nueva capa de
Information (BIO)11, Simple Knowledge integración de datos publicados, la BCN servicios a LeyChile (mencionado en la
Organization System (SKOS), Time (TIME) ha puesto un SPARQL endpoint, donde sección “Estructuración de los contenidos
y Core Organization Ontology (ORG). publicará todos los triples divulgados en sus con xML: caso LeyChile” de este artículo).
sitios. Actualmente el endpoint sólo cuenta Para ello, se redactó un documento donde
Marcaje de Contenido RDFa con los datos provenientes del portal Ley se describieron los tres elementos principales
Chile, pero a medida que se consoliden, se del contexto: qué datos se van a entregar, la
El marcado de la wiki con RDFa se basó irán incorporando nuevos datasets, como el forma de entregarlos y quién va a consumirlos.
en las plantillas que ya eran utilizadas desarrollado para Reseñas Biográficas. En orden a las interrogantes anteriores y de
para generar los cuadros de datos que
manera muy sintetizada, los datos a entregar
acompañan la información narrada en las
son normas y sus relaciones, sin considerar
páginas de la wiki. Una modificación de WEB SEMÁNTICA: CASO
en esta primera etapa la estructura interna
estas plantillas permitió reutilizar los datos DATOS.BCN.CL de una norma, la forma de entregar los datos
marcados con la sintaxis de MediaWiki12,
es a través de un grafo RDF sobre HTTP y
generando xHTML+RDFa en vez de HTML Este proyecto tiene como objetivo entregar
un Endpoint SPARQL, y por último, quienes
plano como se venía haciendo. El sistema de a los ciudadanos acceso a nuestras fuentes
van a consumir los datos son aplicaciones de
plantillas de MediaWiki incluye un lenguaje de datos como Linked Open Data. Este
visualización de datos de la misma Biblioteca
funcional que permite definir funciones en proyecto está operativo desde fines de
y aplicaciones orientadas a la consulta de
páginas del wiki cuyos parámetros son los mayo de 2011 y es la primera iniciativa de
leyes que puedan ser implementadas tanto
datos a representar. Al encontrar llamadas la BCN con relación a la publicación de
por administraciones públicas como por
a estas funciones el sistema las reemplaza Linked Data (Figura 8).

10 Friend of a Friend (FOAF) foaf=”http://xmlns.com/foaf/0.1/”


11 Biographical Information: bio=”http://purl.org/vocab/bio/0.1/”

39
Figura 9

Ontología de Normas.

la comunidad. Posteriormente se definió en el RDF store para así permitir inferencias formatos de salida para los recursos. Para
una ontología (ver Figura 9) y un espacio como las ya publicadas usando archivos de este proyecto, fueron definidos RDF/xML,
de nombres para la ontología de normas textos en RDF/xML y sintaxis N3, mientras JSON, Ntriples, N3 y HTML+RDFa.
en el contexto particular de la realidad que su documentación fue publicada en
Posteriormente se generó el proceso de
nacional. castellano e inglés.
transformaciones y carga de datos. Para este
Se ha considerado una estructura extensible Una vez estructurada la ontología, se modeló fin, se construyó un servicio de actualización
de la ontología a otros dominios tales como el grafo de salida RDF. En la práctica, se en Java usando la API Kettle para el proceso
congreso, educación, salud u otros. Esta definió un esquema URI con todos los de carga, el proceso de actualización y el
ontología ha sido escrita usando RDF Schema patrones URI posibles que podrían ser proceso de transformación. Así, usando
y OWL, permitiendo así la aplicación de consultados de forma válida. La Figura 10 el diseñador ETL se implementaron las
inferencias al grafo RDF. Otra característica muestra un ejemplo de un patrón URI, diferentes transformaciones que generan
importante de esta ontología es que ha sido el cual tomó en consideración el uso del las triplas RDF en sintaxis N3, para la carga
compuesta usando ontologías previas y estándar IFLA FRBR como una URI de las inicial y para la actualización de las triplas
datasets como SKOS, Dublin Core, FOAF, normas legales. (que usualmente sólo agregará nuevas
Geonames, Organization y DBPedia. triplas). Bajo estas condiciones el servicio
En términos generales, el grafo sigue un
Usando las dos últimas mencionadas, fue de actualización ejecuta transformaciones y
esquema jerárquico en cada uno de los
posible enlazar datos del grafo de normas después carga las triplas en el RDF store.
recursos disponibles para consultas. Por
legales a conjuntos de datos externos,
otro lado, se modelaron algunas consultas En la siguiente fase, el grafo de salida RDF
específicamente respecto de tratados
(por ejemplo, obtener normas legales para sobre HTTP fue implementado de acuerdo
internacionales y países. Esta tarea no fue
fechas específicas). Así, para cada patrón al modelo diseñado para ese propósito. Para
trivial porque requirió un intenso trabajo
URI se definió una salida RDF usando su implementación se usó la herramienta
manual. Finalmente, la ontología se almacenó
sintaxis N3. Finalmente se definieron los WESO DESH, un front end de Linked Data,

40 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 10 Actualmente se está desarrollando un


proyecto para semantizar mediante RDFa
nuestro portal de Transparencia, y se está
haciendo un uso intensivo de las tecnologías
Patrón de URI.
de Web Semántica para un proyecto de
un nuevo sistema de Historia de la Ley y
que se liberará próximamente como software architecture and adoption process for Linked Labor Parlamentaria. Asimismo respecto
libre. Finalmente, esta implementación de Data technologies in Open Government de la interoperabilidad se está analizando
Linked Data fue certificada con validadores contexts – A case study for the Library of la aplicación de RIF para poder relacionar
de Linked Data como Vapour de la Fundación Congress.” distintas bases jurídicas existentes en los
CTIC y RDF/xML de W3C. diversos organismos del Estado.
El proyecto cuenta con un portal Web CONCLUSIONES La BCN también está dedicando esfuerzos
de documentación y en forma constante para fortalecer su infraestructura de
se le agrega nueva documentación en La BCN ha ido introduciendo los estándares información. En la actualidad están en
castellano e inglés acerca de cómo usar la de la Web Semántica en forma paulatina estudio los proyectos RDF Book Mashup12
infraestructura Linked Data. e iterativa mediante el desarrollo de y Open Library13.
aplicaciones prácticas. Esta estrategia ha
Cabe destacar que este proyecto fue Como indicáramos al inicio de este artículo,
permitido a la BCN recorrer los diferentes
desarrollado enteramente con software la BCN tiene en su ADN semantizar la
estados que conducen a la implementación
libre, de tal manera que un emprendimiento información de su acervo, las tecnologías
de una arquitectura semántica:
similar podría ser replicado sin pagar actuales usadas con esta perspectiva han
licencias de software. Este proyecto está • Identificación universal (URI) y un permitido un desarrollo acorde para ofrecer
finalizado y asequible bajo la URL http:// conjunto de caracteres universal nuevos productos y servicios al Congreso,
datos.bcn.cl (Unico de). Plat afor ma We b de a los ciudadanos y a todo el país. Creemos
la BCN. que esta experiencia se puede replicar en
Una particularidad de este proyecto es que
dada la naturaleza de los datos, es normal • Formatos de representación e intercambio todas las organizaciones del Estado y lograr
encontrar discrepancias en la redacción o de documentos y metadatos. así una base para un Open Government
errores de tipeo, por lo que se tomó especial - xML: Ley Chile real.
cuidado en el diseño del modelo para - RDFa: Reseñas biográficas
permitir editar manualmente los datos en
• Datos enlazados, endpoint.
el futuro. Por ejemplo, se puede mencionar
RDF, SPARQL: datos.bcn.cl
REFERENCIAS
la instancia Governmental Organization
• Modelamiento semántico [1] Open Government Data. Feasibility
definida en la ontología, debido a las
Study in Chile. Carlos Iglesias, ed., 2011,
variaciones de nombres para el mismo OWL: Ontología para Ley Chile
http://public.webfoundation.org/2011/05/
recurso, se definieron diferentes clases. Estos proyectos han entregado la experiencia OGD_Chile.pdf

Una completa descripción de la arquitectura y fundamentos para que la BCN se mueva [2] Latin america’s internet population grows 15
definida para el desarrollo de este proyecto exitosamente en el camino hacia la Web percent in past year to 112 million people,
A. Fosk, March 2011, http://www.comscore.
se encuentra en el artículo “Towards an Semántica.
com/Press_Events/Press_Releases/2011/3/
Latin_America_s_Internet_Population_
Grows_15_Percent_in_Past_Year_to_112_
Million_People
La BCN adscribe al concepto de Open Government
[3] Towards an architecture and adoption
por considerar que se trata de una ilosofía de process for Linked Data technologies in
Open Government contexts – A case
trabajo útil para empoderar a los ciudadanos y study for the Library of Congress of Chile.
Francisco Cifuentes, Christian Sifaqui
otorgarles acceso y licencia de uso a los datos and José Labra. Proceedings of the 7th
International Conference on Semantic
generados por entidades públicas, de tal manera Systems, 2011.

que los puedan usar, almacenar, redistribuir e


integrar con otras fuentes de datos.

12 RDF Book Mashup: Serving RDF descriptions of your books. http://www4.wiwiss.fu-berlin.de/bizer/bookmashup/


13 Open Library: One web page for every book. http://openlibrary.org/

41
OPEN DATA

Open Source Software: similitudes


y diferencias con Open Data

Lo primero que salta a la vista cuando se a haber una convergencia en el uso, así
considera Open Data y la corriente de como integraciones que se realizan con
Open Source Software o Software Libre facilidad al procurar utilizar estándares
(en adelante le llamaré FLOSS para no accesibles a todos.
perdernos en distinciones ético-filosóficas
El tema del acceso universal puede sonar
muy específicas), es que existe una filosofía
trivial, pero siempre existe la tentación
en común. En ambos casos se busca poder
de querer influir para bien en el mundo
reutilizar el esfuerzo para crear una obra
restringiendo el uso de software o de
intelectual, sea ésta software o datos y así
información a los fines “correctos”. Sin
lograr una mejor eficiencia en el uso de los
embargo, cualquier restricción típicamente
recursos a nivel macro. Al mismo tiempo,
afecta más a quienes honestamente quieren
se da acceso a todos, sin distinción del uso.
utilizar el software o los datos para fines
Gracias a este acceso universal y a que
generalmente considerados como correctos,
no existen restricciones al uso y la copia
y no detienen demasiado a quienes tienen
de la obra intelectual o a obras derivadas
malas intenciones.
de ella (esencialmente, modificaciones,
Jens Hardings o algún software/datos existentes a los En cuanto a diferencias entre FLOSS y
Gerente adjunto de Spitec Ltda. Open Data, podemos mencionar que en
(www.spitec.cl). Ingeniero Civil en
cuales se agregan otros), existen muchas
Computación DCC Universidad de visiones diferentes y normalmente tiende Open Data, al menos hasta el momento,
Chile; Doctor en Ciencias mención
Computación, Universidad de Chile.
Sus áreas de investigación han estado
principalmente ligadas al FLOSS (Free /
Libre / Open Source Software) o Código
Abierto / Software Libre, Tecnologías
de Información y Seguridad.
jens@hardings.cl

42 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

no existen estándares definidos, sino hay, tiende a no ser tan relevante como ROL DEL FLOSS HOY
más bien principios o buenas prácticas. se pensaría en primera instancia. Lo que
Y posiblemente no tiene demasiado es realmente una ventaja que resalta por Ya vimos que el FLOSS es un componente
sentido definir estándares muy estrictos sobre todas las demás, pero en general importante cuando una entidad busca
respecto de modelos de datos y similares, es subestimada, es tener mayor control aumentar su autonomía, y por sobre todo,
dada la diversidad de modelamientos, sobre la plataforma tecnológica. El uso es un referente en ese aspecto contra el
realidades e interpretaciones. En ese caso, de estándares preferentemente abiertos y cual poder comparar otras soluciones. Por
es útil considerar la dupla Open Data bien documentados es sólo el comienzo, lo mismo, es importante que se mantengan
+ FLOSS para poder procesar los datos porque dependiendo de la necesidad y y se nutran los proyectos, para no perder esa
provenientes de diversas fuentes de forma de la envergadura del usuario, es posible oportunidad y ese referente. Basta recordar
útil y productiva. realizar desde pequeñas adaptaciones, que la época en la cual las prácticas comerciales
se vuelven parte del proyecto original con de los dominadores del mercado obligaban
Otra diferencia sustancial es que las fuentes
lo cual la mantención futura no recae en el a actualizaciones masivas solamente para
de datos en Open Data en general son
usuario, incluso es posible desde influir en poder seguir siendo compatibles con los
gubernamentales o cuentan con algún tipo
el desarrollo futuro de un proyecto, hasta demás, y el software libre ha jugado un rol
de financiamiento público. En cambio, si
liderar ese desarrollo o uno alternativo si fundamental en cambiar esa realidad.
bien para el FLOSS esa línea se hace muy
no hay consenso.
razonable, en la práctica los proyectos Lo anterior se traduce en que el FLOSS
tienden a surgir de iniciativas privadas, A ese mayor control le llamo autonomía, y actualmente cumple, aparte de los casos
y en muchos casos personales más que es un símil al concepto de soberanía que de nichos que no detallaremos aquí, al
institucionales. existe a nivel de Estado. Mientras mayor menos tres roles fundamentales en la
autonomía o soberanía tenga un ente a industria TI:
Una característica que parece ser propia
través de tener el control de las herramientas
de FLOSS más que de Open Data es el
esenciales que requiere para funcionar,
concepto de reciprocidad, cuya instancia
menos le afectan desde decisiones externas 1. Infraestructura base y
más conocida es la cláusula de Copyleft en commodity
-pasando por crisis de proveedores o socios
la licencia GPL. Esencialmente, ésta es una
estratégicos- hasta lisa y llanamente prácticas
restricción que se impone a quien recibe una La industria TI está muy enfocada en innovar
hostiles. Por otro lado, no tiene demasiado
licencia para usar, modificar y redistribuir a un ritmo muy acelerado, tanto así que quien
sentido intentar tener una autonomía del
el software, de que no puede entregar o no innova en esta industria no puede optar
100% tal como a un país no le conviene
redistribuir ese software u obras derivadas a ingresos interesantes. Como consecuencia,
cerrar su economía para evitar incidencia
de él bajo una modalidad de licenciamiento la infraestructura base y/o commodities son
extranjera y que no le afecten potenciales
diferente a la cual él (o ella) recibió. O cada vez menos interesantes para la industria,
crisis mundiales. Un ejemplo concreto es el
sea, si se redistribuye el software o algún que debe mostrar su valor agregado para
primer acercamiento que tuvo Venezuela al
software derivado de él bajo una licencia seguir obteniendo ingresos y en algunos
Software Libre, donde más que participar
que no sea GPL, se pierde el derecho de casos mantener una infraestructura base,
de una comunidad existente parecía
uso original y con ello cualquier derecho con todos sus costos asociados, solamente
que se buscaba realizar una comunidad
de modificación, redistribución, etc. El para poder mantenerse en la pelea por las
completamente autónoma y separada al
objetivo de esta cláusula es perpetuar la innovaciones de punta. De forma natural
interior del país. Lo importante es lograr
libertad que entrega la GPL mediante el la infraestructura base y las aplicaciones
que el nivel de autonomía o dependencia
mecanismo de restringir las restricciones que realmente son commodity debieran
de una empresa, tal como lo debiera
que se pueden imponer a un tercero, o ser dominadas por soluciones FLOSS, ya
ser el nivel de soberanía o dependencia
imponer un “prohibido prohibir”. sea porque un proyecto FLOSS se impone
económica de un país, sea consecuencia de
una decisión y no un aspecto que se deje al como el dominante en ese nicho, o porque
CONCEPTO DE azar. Por lo mismo, las decisiones de qué un actor dominante en el mercado decide
AUTONOMíA software utilizar en la gestión de la cual que le conviene dejar su solución disponible
depende una organización, es una decisión bajo un modelo FLOSS, que mantener su
Si bien una de las tentaciones al considerar estratégica importante porque genera un desarrollo bajo su exclusivo alero (y centro
el uso de FLOSS es asumir una ventaja de nivel de dependencia que por lo general de costos), siendo por lo tanto candidato
precio o más bien de costo, en la práctica no es considerado y que le corresponde a natural a permanecer ahora como solución
esta ventaja, cuando efectivamente la la alta dirección definir. FLOSS liderando ese nicho.

43
2. Cumplimiento de 2) Presenta una alternativa real y usable a cambio en la forma de uso y es ahí donde
la cual acudir cuando hayan desacuerdos se concentran los principales cambios y
estándares: validación y
comerciales con proveedores TI; ya no desafíos para la industria TI y el FLOSS
“glue” es fácil para un proveedor estar en una naturalmente no escapa a ello.
posición de “mi solución es la única
Este es un aspecto particularmente interesante Posiblemente también aumenten a futuro las
alternativa existente”.
considerando la temática Open Data, ya discusiones sobre si el derecho de autor es
que el FLOSS siempre, y particularmente En base a lo anterior, queda claro que el efectivamente la mejor forma de promover
en todo el desarrollo de TCP/IP y todos rol del FLOSS es relevante y debe haber el desarrollo de las TI, desde siempre han
los protocolos relacionados a Internet, ha un interés por mantenerlo vivo. Eso no habido defensores de que un modelo más
sido muy apegado a estándares públicos necesariamente implica financiar los parecido al patentamiento sería mejor.
y abiertos. proyectos, sino simplemente evitar romper
el equilibrio del ecosistema en el cual
Las razones para que un proyecto FLOSS
funcionan los proyectos FLOSS.
Infraestructura base
opte por utilizar estándares abiertos son
bastante directas: en lugar de invertir Es importante recordar que en el FLOSS, En esto el FLOSS tiene bastante que ganar.
esfuerzo en encontrar una solución a los temas de autonomía, cumplimiento de Cuando se habla que el 50% del poder
un problema, se opta por una solución estándares e interoperatividad son inherentes computacional en el mercado es comprado
existente que cumpla con cierto nivel de y los intereses de los creadores del software por Google, Microsoft y Yahoo!, para todas
calidad y ojalá de validación, y tampoco están perfectamente alineados con los de ellas salvo una, el costo de licenciamiento
existen razones estratégicas por las cuales los usuarios, porque esencialmente tienden por copia de software se vuelve un tema que
realizar un desarrollo propio. Mucho a ser las mismas personas. En cambio, en el crece exponencialmente. Así que, contrario
menos hay justificaciones para mantener en software comercial, los proveedores siempre a lo que se podría pensar, que el FLOSS es
secreto ciertas partes, dado que se diseña tienen el incentivo perverso de intentar crear para las PYME que no tienen cómo financiar
pensando en publicar todo el código. Por diversos lock-in contra los cuales los clientes el par de licencias de software comercial
otra parte, muchos creadores de estándares deben luchar. Por lo mismo, aunque hoy en que podrían ocupar, el tema de uso de
realizan una implementación que luego día esos incentivos no se traducen en malas FLOSS es mucho más relevante para las
publican bajo alguna licencia FLOSS, y prácticas comerciales, es bastante lógico empresas que deben replicar su solución en
sirve como referencia o incluso se puede pensar que sin la existencia del FLOSS el miles o incluso millones de computadores
incorporar tal cual en el software que los escenario actual sería diferente. Por ende, que ofrecen sus servicios, en paralelo, pero
deba implementar. el FLOSS cumple un rol similar a la milicia donde necesitan una licencia por cada uno
en los tiempos de paz. de ellos. Lo mismo sucede cuando uno mira
En ambos casos, las implementaciones
qué sistemas utilizan los supercomputadores
FLOSS sirven de validación y también, al
listados en el “Top 500”, que en la mayoría
ser un código disponible y modificable, CAMBIOS Y DESAFíOS de los casos utilizan FLOSS.
sirven para adaptar un estándar a ciertas
interpretaciones o traducirlos a otro estándar, Hoy en día, sobre todo en los proyectos
actuando como el pegamento que junta dos exitosos, una preferencia por FLOSS no se Neutralidad en el
sistemas normalmente incompatibles. justifica por grandes diferencias en costos. tratamiento de datos
Los grandes cambios y desafíos tienen más
relación con el potencial cambio en la forma No me refiero a neutralidad tecnológica, que
3. Herramienta comercial en la cual la TI llega a los usuarios. Tiene es en sí mismo un oxímoron, sino neutralidad
para clientes mucho sentido que nos acerquemos cada respecto del tratamiento de información.
vez más a un cobro por servicio en lugar Hoy en día por ejemplo asumimos que existe
Incluso para quienes no utilizan FLOSS, éste de cobros de licencias que se basan en el neutralidad en la información que manejan
sigue teniendo alta relevancia como una derecho de autor que en realidad regula la y nos entregan los buscadores, aunque no
herramienta comercial en dos aspectos: copia, y sólo de forma indirecta mediante tenemos herramientas para validar que
1) Define el conjunto mínimo aceptable. construcciones legales tiene incidencia ello efectivamente ocurra. Posiblemente
Si debo pagar por una solución y sobre el uso (“si no lo usas de la forma en esa área exista la posibilidad de pensar
perder autonomía, debe haber un valor que yo digo, te quito el derecho de haber en alternativas que sigan la motivación de
agregado que justifique el sobrecosto hecho y/o utilizar la copia”). FLOSS pero en relación a los servicios, en
frente a una alternativa FLOSS (con sus Por lo mismo, todos los conceptos ligados conjunto con Open Data, posiblemente
propios costos, pero también sus propias a entregar el software como servicio, tales con limitaciones de escala al menos por
ventajas). como el cloud computing, generan un ahora. Sin embargo, ya existen ejemplos

44 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

concretos de iniciativas que van en esa


línea: Wikipedia, OpenStreetMap y algunos
proyectos de redes sociales.
Hoy en día, sobre todo en los proyectos exitosos,
FLOSS entregado como una preferencia por FLOSS no se justiica por
servicio
grandes diferencias en costos. Los grandes cambios
El caso de servicios que se basan en FLOSS,
en particular FLOSS que utiliza alguna y desafíos tienen más relación con el potencial
licencia que incorpora la retribución, así
como la GPL, se genera un fenómeno cambio en la forma en la cual la TI llega a los
interesante. En estricto rigor, el objetivo de
la reciprocidad es evitar que alguien pueda usuarios.
tomar un software que es esfuerzo de una
comunidad, hacer algunas modificaciones y
luego adueñarse y/o lucrar con el resultado
(una obra derivada en términos legales) sin Eiciencia energética del hardware. Esto puede llevar a que en
entregarle esas modificaciones a nadie. Para algunos casos una diferencia entre un
no exagerar las limitaciones, y en parte Este es uno de esos temas de fácil solución driver y otro pueda tener consecuencias
porque también hay ciertas limitaciones técnica, pero que requiere una decisión más indirectas que las obvias de correcto
prácticas, se dispuso que la reciprocidad muchas veces corporativa que puede ser funcionamiento y usabilidad.
entre en funcionamiento al momento de más esquiva de lo razonable.
entregar el software a un tercero para que
Contrario a lo que se podría pensar, la CONCLUSIONES
lo use. De esa forma no era necesario
industria TI no es tan limpia como parece.
entregar modificaciones privadas, pero se El tema del FLOSS sigue tan vigente como
Sin considerar la huella de carbono de
resguardaba el acceso al código fuente para antes, y tal como los temas relevantes y los
la fabricación de los computadores sino
toda persona que usara el software. desafíos de la industria TI van fluctuando
tan sólo el consumo eléctrico, la huella
Pero cuando para usar el software no es de carbono de la operación de las TI hoy (según muchos se van repitiendo pero con
necesario tener una copia, sino por ejemplo en día según varios especialistas supera diferentes nombres y quizás diferentes
acceder al software vía Web, cambia el la de la industria de aviación. Más aún en énfasis), así también ocurre con el FLOSS.
modelo y ahora es posible tomar un software Chile, donde la energía eléctrica hoy es Hoy en día hay menos discusión absolutista,
GPL, hacerle modificaciones y entregar un sinónimo de combustibles fósiles para su y más consideración racional y objetiva, lo
servicio mediante ese software modificado generación. cual a mi juicio es sano.
sin ninguna restricción de entregar esas
La eficiencia energética de un sistema Asimismo, existe participación por parte
modificaciones al menos a quienes utilizan
requiere una alta coordinación entre el de empresas de todo tipo y tamaño como
el software.
software y el hardware. A nivel macro parte de los ecosistemas que mantienen
Como respuesta legal a ese problema (sistema operativo) no hay demasiadas funcionando a los proyectos FLOSS, y con
surgen licencias alternativas como la diferencias, pero sí pueden haber diferencias ello aumentan las herramientas disponibles
Affero, que hace más severa la cláusula de muy notorias en el consumo que tiene un para enfrentar los problemas y desafíos que
reciprocidad de la GPL al hacerla mandatoria dispositivo, por ejemplo, una tarjeta de tendrán estos proyectos a futuro. Incluso
al momento de ofrecer un servicio basado red o una de vídeo, cuando es utilizado pienso que a futuro debiéramos ver en los
en un software bajo licencia Affero. De esta mediante un driver privativo (o propietario concursos por fondos públicos, que disponer
forma, un usuario de un software vía Web si se prefiere llamar así) o mediante un del software y/o datos generados durante
u otro mecanismo similar tiene el derecho driver Open Source creado con la poca la ejecución bajo parámetros de apertura
de obtener una copia del código fuente, información pública y obtenido mediante (FLOSS, Open Data) tenga tanto o más
montar su propio servicio y/o verificar el ingeniería reversa. connotación positiva como la actualmente
funcionamiento del software. exigida “protección de propiedad intelectual”
Independiente que lo consideremos
En este ámbito aún no se llega a un justificado o no, el hecho objetivo es que de los resultados, que en la práctica
mecanismo maduro y estable para manejar hay mucha reticencia, en particular en la significa restringir al beneficiario de los
tanto la gestión del software mismo como industria de tarjetas de vídeo, a entregar fondos la explotación comercial futura de
la disponibilidad de los datos. información detallada del funcionamiento los resultados.

45
OPEN DATA

OpenStreetMap: el mapa libre del mundo

OpenStreetMap es a la vez un proyecto entonces un estudiante de Ciencias de la


de cartografía libre y una comunidad Computación del University College of
de voluntarios que funciona con una London, decidía que las barreras de entrada
mecánica colaborativa. La calidad de que la cartografía comercial imponía a los
sus datos es supervisada por los mismos emprendedores y creadores eran demasiado
contribuyentes. altas y se debía hacer algo para cambiar eso.
Además de esta mecánica, comparte con Es así como desarrolló la idea y comenzó la
otros proyectos de tipo “wiki”, el escepticismo construcción de las herramientas necesarias
inicial de quienes no han visto cómo, en la para crear una base de datos cartográfica
práctica, el vandalismo resulta marginal y libre, paralela a la del Ordnance Survey,
tiende a volverse inocuo frente al avance institución gubernamental que por 220
de las herramientas y estructuras destinadas años había prácticamente monopolizado
a contrarrestarlo, pero principalmente el desarrollo de la gran cartografía en el
frente al fortalecimiento de comunidades Reino Unido.
comprometidas con el cuidado y mejora Si bien el nacimiento del proyecto se explica
de un sector del mapa. por múltiples causas, destacan el modelo
Julio Costa
Administrador de Negocios En 2004, cuando Wikipedia recién pasaba de negocios que el Ordnance Survey utilizó
Internacionales, Universidad de
Valparaíso, Chile. Asesor en e-learning, el millón de artículos –quince veces la durante décadas y que, empezando el
Academia Nacional de Estudios cantidad que Encarta, el barco insignia de siglo xxI, resultaba una carga demasiado
Políticos y Estratégicos, Ministerio
de Defensa Nacional, Chile. Fundador las enciclopedias electrónicas privativas pesada para los nuevos emprendedores,
de zambelliknowledge. Presidente de los años noventa, llegó a tener antes de programadores, diseñadores, y autoridades.
del Directorio, OpenStreetMap Chile;
becario OSI+OSMF, State of The Map su cierre definitivo- Steve Coast, en aquel Éste se concentraba en una estrategia de altos
2009, Amsterdam.
julio.costa@openstreetmap.cl

46 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

precios y una férrea política de aplicación


de sus “Derechos de Autor”.

Además de estas barreras legales y financieras,


la cartografía del Ordnance Survey también
adolece de un defecto común en la inmensa
mayoría de los mapas actuales: la capacidad
y velocidad en la corrección de errores
está supeditada a los ciclos de edición de
nuevos mapas.

Fueron estas características -altos precios,


licencias sumamente restrictivas, sumados a
la rigidez y lentitud de los cambios- los que
llevaron a Coast a presentar su nueva idea
en EuroFOO un 20 de agosto de 2004. Sólo CC-BY Andrew Turner.
algunas semanas antes, el 9 de agosto, había
registrado el dominio openstreetmap.org, y
un par de semanas después, a principios de ofrecen “alternativas” como Google Map del cual se pueden sacar extractos parciales,
septiembre, se publicaría el primer mensaje Maker, Waze o Wikimapia. sumado a archivos xML diferenciales
relativamente pequeños, que son publicados
en la lista de correo. No se está trabajando gratis para alimentar
en ciclos de un minuto, una hora y un día.
una Base de Datos corporativa, algo por
Estos archivos “diff” permiten mantener una
OBJETIVOS cierto legítimo en la medida que se entienda
base de datos actualizada sin necesidad de
a cabalidad lo que se está haciendo, sino
recargar la totalidad del planet.osm y la
OpenStreetMap es un proyecto destinado que se está contribuyendo a poblar y
correspondiente espera de una semana.
a generar y poner a disposición del público mejorar un repositorio de conocimiento
universalmente disponible. También se puede acceder a los datos a
datos geográficos libres.
través de la API de OpenStreetMap, pero
Aunque su gratuidad y licenciamiento Este acceso total se logra normalmente a
ésta no trabaja sobre grandes áreas, pues está
(actualmente bajo Creative Commons través de un archivo generado semanalmente
pensada para actuar como “intermediario”
BY-SA, en proceso de transición a Open llamado planet.osm, que contiene la totalidad de lectura y escritura en las operaciones
Database License-ODbL) son características de la Base de Datos de OpenStreetMap y regulares de edición.
destacables, el proyecto no se trata
únicamente de eso. Una de las ideas
fundamentales es dar acceso total a los datos Figura 1
“subyacentes”, de manera que cualquier
persona pueda hacer desarrollos innovadores
y creativos sin tener como límite el contar
con acceso sólo a datos preprocesados.
Esto, que para algunos puede sonar como
una barrera de entrada para desarrolladores
menos avezados, es en realidad una ventaja
fundamental, que permite a los creadores no
sólo controlar el estilo y tipo de renderizado
que se hace, sino también los criterios que
usaremos a la hora de generar rutas para
distintos medios de transporte, modelos
en 3D, cartografía para Dispositivos de
Navegación Personal, o el Tesauro de
términos a los cuales responderá un motor
de Geocoding.

Entonces, entendemos por Libre el acceso


total y permanente a los datos y no
simplemente la gratuidad parcial que CC-BY-SA www.itoworld.com

47
Figura 2 buenos “promedios”, los que se traducen
en vías más precisas.

COMUNIDAD
Los datos del mapa tienen poco o nulo valor
si no existiera la comunidad que está detrás
de éste. Son ellos quienes mantienen el mapa
en constante evolución, quienes “mapean”
hasta los más extraños detalles, y quienes
alertan y revierten el poco vandalismo que
efectivamente se observa.

En este momento el número de contribuyentes


inscritos se empina por sobre las 440.000
personas, de las cuales entre un 5% y 10%
colabora de forma constante. En la Figura
1 se puede apreciar el crecimiento en la
cantidad de ediciones diarias entre enero
de 2006 y enero de 2010, y la contribución
CC-BY-SA www.itoworld.com en términos de grupos de “experiencia”,
Figura 3 segmentados por semestre.

Es natural que cada grupo/semestre nuevo


aporte proporcionalmente más, pues existe
un crecimiento exponencial del universo
de usuarios.

Las herramientas de primera línea para


comunicarse y aprender sobre OpenStreetMap
son las listas de correo y el wiki, pero
también existen eventos regulares como
los Mapping Parties y la conferencia anual
de OpenStreetMap, el State of The Map,
que celebró su quinta versión este año
en Denver.

La OpenStreetMap Foundation fue creada


en agosto de 2006 con el objetivo de:
custodiar el dominio, los servidores, y
servicios necesarios para que OpenStreetMap
funcione; ofrecer un cierto nivel de “aislación
jurídica”; y proveer un “vehículo” para la
recolección de fondos para el proyecto.
Teniendo como misión genérica el apoyo
Al trabajar con receptores GPS de uso civil mostrar el transporte público en movimiento
al desarrollo de datos geográficos libres.
se tiende a pensar que la precisión no será por las calles, para uso en Dispositivos de
“razonable”, pero lo cierto es que un nivel Navegación Personal, y de muchas otras
de precisión de digamos cinco metros, formas. La recomendación general para PRO BONO PUBLICO
es mucho más útil de lo que cualquiera los contribuyentes más concienzudos es
podría pensar. Quizás no para ubicar un trazar varias veces una ruta, idealmente Toda la comunidad -desde los miembros del
misil Tomahawk en un punto preciso de en distintos horarios y días, lo que expone directorio de la OpenStreetMap Foundation
un búnker, pero sí para georreferenciar tu receptor GPS a distintos satélites y hasta los contribuyentes individuales,
direcciones, representar usos de suelo, condiciones ambientales, consiguiendo pasando por los Sysadmin que sostienen la

48 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Una de las ideas fundamentales es dar acceso total constantes actualizaciones, y con la rápida
implementación de características especiales
a los datos “subyacentes”, de manera que cualquier necesarias para ese tipo de emergencia
en particular, como la geolocalización de
persona pueda hacer desarrollos innovadores campamentos “espontáneos” (Figura 4).

y creativos sin tener como límite el contar con DESAFíOS TÉCNICOS


acceso sólo a datos preprocesados. Si bien los datos “crudos”, que son el centro
del proyecto, se pueden adaptar para
Figura 4
funcionar bajo múltiples escenarios, existen
configuraciones comunes de trabajo.

Por ejemplo, un servidor para el renderizado


de teselas (tiles), normalmente involucra una
distribución de Linux para servidores, con
PostgreSQL/PostGIS como motor de Base
de Datos, junto con Python y algunas otras
librerías necesarias para hacer funcionar
Mapnik, el software libre de renderizado
más utilizado para convertir los datos
geográficos, almacenados en Bases de
Datos o Shapefiles, a bitmaps.

Mapnik es una evolución de los motores de


renderizado libres y la diferencia de éste
con motores arcaicos como Osmarender,
aún puede apreciarse al seleccionar esta
CC-BY-SA www.itoworld.com
segunda alternativa en el menú de capas de
la página principal de OpenStreetMap.
infraestructura del proyecto, y los miembros Uno de los fenómenos humanitarios más
del Humanitarian OpenStreetMap Team- destacables es el que se dio luego del La Base de Datos PostgreSQL es poblada a
colabora de forma voluntaria. No se necesita Terremoto de enero de 2010 en Haití. partir de un archivo planet y los diferenciales
ser experto en Rails o en Organizaciones Grupos de contribuyentes se organizaron ya mencionados, o un extracto del primero,
No Gubernamentales y Cooperación para mapear de manera remota las áreas utilizando una aplicación conocida como
Internacional para participar, basta con más afectadas. Se contactó a los grandes osm2pgsql.
tener buenas intenciones y tiempo para proveedores de imágenes satelitales (GeoEye
Es común que las teselas sólo sean
contribuir. y DigitalGlobe), los cuales liberaron imágenes
renderizadas previamente en los niveles
de alta resolución tan pronto como sus
El proyecto nació con una orientación implícita menos profundos de zoom (0-11), dejando
satélites estuvieron en posición. Se generaron
a facilitar el trabajo de desarrolladores y los niveles más profundos (12-18), que
teselas a partir de esas imágenes, las que
emprendedores, pero se ha ido diversificado involucran muchísimas más imágenes para
estuvieron disponibles para ser usadas
hasta un punto tal en que personas de la misma superficie (el número aumenta por
como fondo en Potlatch y otros editores, por
todo el mundo construyen proyectos y un factor de cuatro por cada nivel de zoom
usuarios de todo el mundo. Esto llevó a que
soluciones humanitarias basadas en el que avanzamos. Ver tabla a continuación),
un mapa relativamente pobre (Figura 2), se
mapa. Sólo algunos ejemplos de esto son el para ser renderizadas bajo demanda,
convirtiera en el mapa más completo de Haití
Humanitarian OpenStreetMap Team (HOT), utilizando mod_tile, un módulo de Apache,
(Figura 3) en cuestión de días.
Map Kibera, Afghanistan Election Data, y para gestionar el caché, la expiración de los
la utilización como capa por defecto en Grupos de rescatistas, así como el sitio de archivos, y los requerimientos de nuevas
implementaciones de Ushahidi para Haiti, Ushahidi para Haití, pudieron usar estos imágenes al “back-end” (normalmente
Japón y Libia, entre otros. mapas sin problemas de licenciamiento, con renderd o tirex).

49
Si bien a nivel nacional se han hecho algunas EN CHILE
importaciones masivas de datos, el grueso del trabajo La comunidad local se ha desarrollado
paulatinamente durante los últimos cuatro
se sigue haciendo de forma manual, aportando de años, con algunos extranjeros residentes en
Chile inicialmente, pero con una creciente
esa manera a una revisión más minuciosa de los e intensiva participación de chilenos
actualmente.
datos que se almacenan y actualizan. Se han organizado múltiples eventos
pequeños del tipo Mapping Party, pero
también eventos de mayor convocatoria
como la “Mañana de Mapas Libres”.
Si todas las potenciales teselas se renderizaran de teselas, llevando este número a más de Además se participa de manera constante
previamente, y tomando en consideración mil millones en cerca de once días. Algo que en conferencias y ferias anuales como
que en promedio tienen un tamaño de 633 a la iniciativa “libre” del Ordnance Survey, el Día del Software Libre, la FLISOL y el
bytes, se necesitarían un poco más de 54.000 OS Openspace, le toma cuatro días y más Encuentro Linux, entre otros.
Gigabytes para almacenarlas. La realidad de tres años respectivamente.
es que con el esquema de almacenaje y Si bien a nivel nacional se han hecho algunas
renderizado utilizado, y a pesar de la alta Y todo este trabajo se sigue realizando importaciones masivas de datos, gracias
demanda que tienen los servidores de la sobre Hardware relativamente simple y a la colaboración de instituciones como
OpenStreetMap Foundation, sólo se utiliza financiado a través de donaciones. Por la Dirección de Vialidad del Ministerio
un poco menos de 1.000 Gigabytes, un ejemplo yevaud, el servidor que se encarga de Obras Públicas, el Gobierno Regional
1,79% del máximo potencial. del renderizado y entrega de tiles utilizando Metropolitano de Santiago, el Instituto
Mapnik, cuenta con dos procesadores Nacional de Estadística (INE), la Secretaría
Pero no debemos quedarnos sólo con de Planificación de Transporte (SECTRA), la
xeon de cuatro núcleos, 48GB de RAM, y
este dato. Cada hora los servidores de la Coordinación de Transportes de Santiago,
múltiples arreglos de discos SATA.
fundación entregan cerca de cuatro millones entre otros, el grueso del trabajo se sigue
haciendo de forma manual, aportando de
esa manera a una revisión más minuciosa de
% Renderizado/
Zoom Teselas renderizadas Maximo (4^zoom) los datos que se almacenan y actualizan.
Maximo
0 1 1 100 A diferencia del Ordnance Survey en
su momento, el Instituto Geográfico
1 4 4 100
Militar de Chile, ha tomado contacto con
2 16 16 100 OpenStreetMap en momentos en que el
3 64 64 100 concepto de OpenData está mucho más
4 256 256 100 difundido y es más apreciado, incentivando
5 1,024 1,024 100 la colaboración y anunciando la liberación
de varios conjuntos de datos en el futuro
6 4,096 4,096 100
cercano.
7 16,384 16,384 100
8 65,536 65,536 100
9 262,144 262,144 100
CóMO EMPEZAR
10 1,048,576 1,048,576 100 Normalmente comenzamos creando una
11 4,194,304 4,194,304 100 cuenta de usuario en el sitio principal de
12 13,475,072 16,777,216 80.32 OpenStreetMap y familiarizándonos con
13 35,640,512 67,108,864 53.11 el editor más simple, Potlatch. Este se
encuentra disponible a través de la pestaña
14 87,820,928 268,435,456 32.72
“Editar” en ese sitio, y sólo requiere tener
15 163,872,384 1,073,741,824 15.26
instalado el plugin de Adobe Flash en
16 287,448,064 4,294,967,296 6.69 nuestro navegador. A través de él se puede
17 429,535,936 17,179,869,184 2.50 editar sobre imágenes satelitales y aéreas
18 617,515,264 68,719,476,736 0.90
Total 1,640,900,565 91,625,968,981 1.79

50 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Francisco, pensando en aquellos lugares


donde la gente no puede pagar por un
receptor GPS y los programas GPStogo
de préstamo de equipos simplemente no
dan abasto.

Sólo se debe ingresar a http://walking-


papers.org/, seleccionar un sector del
mapa con el mayor zoom posible (en mi
experiencia, menos de 16 o 17 no resulta
útil), se selecciona una orientación, una
distribución, y un proveedor para el mapa,
y se hace clic en “Crear”. Esto generará un
archivo PDF para imprimir, el que tendrá
marcadores en sus cuatro esquinas, dos
de los cuales serán un Código QR y el
logotipo de la licencia Creative Commons.
Estos permiten que una vez que hicimos
todo tipo de anotaciones sobre el mapa,
escaneamos éste, y lo subimos al sitio de
CC-BY-SA www.itoworld.com.
Walking Papers, el sistema pueda identificar
su ubicación y escala, y lo use como fondo
en un Potlatch en el mismo sitio.

Si quieres practicar el uso del editor, no


hay problema, sólo recuerda no guardar
al terminar de hacerlo. Los datos son
transferidos a la API y a la Base de Datos,
sólo cuando presionas “Guardar”, comentas
el Changeset y aceptas.

Ante preguntas sobre cómo etiquetar nodos,


vías y áreas, o sobre cómo utilizar los editores
u otras tecnologías, no dudes en preguntar
en las listas de correo o revisar el wiki, la
fuente “inagotable” de conocimientos y
repositorio de la mayor parte de los temas
en que hay convenciones sobre cómo hacer
las cosas.

CC-BY Andrew Turner. REFERENCIAS


liberadas por distintas instituciones, así Una vez que el trazo está cargado en http://www.openstreetmap.cl/
como múltiples renders que pueden servir los servidores de OSM podemos editar
http://www.openstreetmap.org/
de referencia. Cuenta con un extenso listado sobre él, lo que en la práctica nos permite
de elementos cartográficos predefinidos: llegar a lugares en los que las imágenes http://wiki.oreillynet.com/eurofoo/index.cgi
tipos de rutas, hidrología, usos de suelo, satelitales y aéreas muchas veces no son http://lists.openstreetmap.org/listinfo
puntos de interés, etc. lo suficientemente buenas, por ejemplo, http://wiki.openstreetmap.org/wiki/Main_
senderos de parques que son tapados por Page
Una vez que estamos familiarizados con
los árboles, o calles que son tapadas por sus http://2010.afghanistanelectiondata.org/
alguno de los editores (Potlatch, JOSM,
propios edificios en las fotografías (depende
Merkaartor, Mapzen, etc.), podemos salir a http://www.osmfoundation.org
del “azimuth” de esa fuente).
terreno con nuestro GPS y generar un track
http://mapnik.org/
en formato GPx, el cual luego subiremos También existe la opción de usar Walking-
http://mike.teczno.com/notes/walking-papers
al sitio de OpenStreetMap, en la pestaña Papers, una herramienta desarrollada por
html
“Trazas GPS”. Mike Migurski de Stamen Design en San

51
OPEN DATA

Análisis de Datos Astronómicos

Karim Pichara
Profesor Asistente, DCC Pontificia
Universidad Católica de Chile.
Investigador del Centro de Astro-
Ingeniería y del grupo de Biomedicina
de la Pontificia Universidad Católica En el Centro de Astro-Ingeniería de la (“Large Synoptic Survey Telescope”1)
de Chile. Doctor en Ciencias de la
Ingeniería, Pontificia Universidad Pontificia Universidad Católica de Chile, tendrá la labor de producir durante diez
Católica de Chile (2010). Posdoctorante un grupo de científicos conformado por los años alrededor de 30 Terabytes diarios de
en el laboratorio “Time Series
Center” del Centro de Astrofísica de la profesores Márcio Catelan, Andrés Jordán información proveniente del Universo, esto
Universidad de Harvard (2011-2013). y Rodolfo Angeloni de Astronomía; Susana corresponde a varios billones de objetos,
kpb@ing.puc.cl
Eyheramendy de Estadística; Karim Pichara cada uno observado en alrededor de 1.000
Rodolfo Angeloni de Ingeniería en Ciencia de la Computación, instantes distintos de tiempo. El proyecto
Investigador posdoctoral, DAA y el alumno de Ingeniería Cristóbal Berger, “Vista Variables in the Via Lactea (VVV)
Pontificia Universidad Católica
de Chile. Doctor en Astronomía se dedican al desarrollo de herramientas ESO Public Survey”2, escaneará la Vía
(2009), Universitá di Padova, Italia . inteligentes para el análisis de Datos Láctea arrojando mediciones en la banda
Investigador Responsable del Proyecto
FONDECYT N. 3100029 “Topics in Stellar Astronómicos. Durante los últimos años, ha infrarroja de más de diez mil millones de
Variability: from VISTA to ALMA”. existido un creciente interés en aplicaciones objetos en el espacio. Estos desarrollos
rangelon@astro.puc.cl
de inteligencia artificial (Russel and Norvig impulsan nuevas necesidades científicas: a
Susana Eyheramendy (2010)) y aprendizaje de máquina (Mitchel mayor cantidad de información disponible,
Profesora asistente, Depto. de (1997)) para la investigación astronómica mayor es la necesidad de nuevas tecnologías
Estadística Facultad de Matemáticas,
Pontificia Universidad Católica de debido al gran desarrollo tecnológico de los para el análisis de estos datos.
Chile. PhD Depto. de Estadística telescopios, cada vez capaces de generar una
Universidad de Rutgers, EE.UU; posdoc Una de las tareas más importantes en el
Universidad de Oxford y Ludwig- mayor cantidad de información imposible de
análisis de datos del espacio es la clasificación
Maximilian Universitat/Instituto de ser analizada en su totalidad por humanos.
Epidemiología del Helmholtz Zentrum automática de objetos estelares. Existe hoy
Munich, Alemania. Su investigación Por ejemplo, el próximo telescopio LSST
gran interés en desarrollar modelos de
se basa en el análisis y desarrollo
de métodos en estudios genéticos
de asociación y en aplicaciones
de métodos de minería de datos a
problemas astronómicos.
susana@mat.puc.cl
1 http://www.lsst.org/lsst/
2 http://mwm.astro.puc.cl/mw/index.php/Main_Page

52 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 1 En la literatura existe una amplia gama de y frecuencias de un modelo armónico sobre
modelos de análisis de series de tiempo la forma de la curva de luz, de tal modo
(Percival et al. (2003), Mills et al. (1990), de usar los parámetros encontrados como
Bloomfield (1976), Hamilton (1994)). La descriptores de cada curva.
principal ventaja de usar modelos para
Consideremos como y(t) la intensidad de luz
analizar las series de tiempo es poder
observada en un instante t, sea (t)=a+bt una
extraer características propias de la forma de
estimación lineal de y(t) y sea r(t)=y(t)- (t).
cada curva de luz, de tal modo de obtener
Iteramos entre los siguientes pasos:
información útil para que los algoritmos de
clasificación automática puedan desempeñar 1. Realizar un análisis de Fourier para r(t)
su labor usando como principal información con el objetivo de determinar cualquier
estas características obtenidas del análisis periodicidad que podría existir usando el
de cada serie de tiempo. Existen numerosas método Lomb-Scargle(Lomb (1976), Scargle
Segundo lanzamiento de la imagen del VST, técnicas para modelar curvas de luz (Lomb (1982)). Una vez calculado el periodograma
probablemente es el mejor retrato del cúmulo (1976), Scargle (1982), Ponman (1981), Kurtz de Lomb-Scargle se selecciona el valor
globular Omega Centauri que alguna vez se haya
obtenido. Omega Centauri, en la constelación (1985)). Estos modelos estiman los parámetros máximo. La frecuencia correspondiente
de Centaurus es el cúmulo globular más grande
del cielo.
Figura 2
Cuando sea observado con el telescopio infrarrojo
VISTA, nuestro grupo logrará obtener curvas de
luz para un número importante de diferentes
tipos de estrellas variables. Estas observaciones
constituirán una fracción importante del conjunto
de entrenamiento que estamos construyendo en
el proyecto “VVV Templates”.

aprendizaje de máquina capaces de aprender


a clasificar automáticamente estos objetos
a partir de bases de datos previamente
rotuladas por astrónomos (Debosscher et
al. (2007), Dubath et al. (2011), Richards et
al. (2011), Kim et al. (2011)). Estos sistemas Curva de luz de KPD1930+2752 después de remover la señal debido a las pulsaciones de Billères
de clasificación deben considerar desde et al. (2000) con un modelo de curva de luz (línea sólida) para la variabilidad elipsoidal asumiendo
el preprocesamiento de los datos hasta la una inclinación de 90°.
generación del modelo capaz de clasificar
automáticamente los objetos.

Dado que la mayoría de los proyectos Figura 3


observacionales como LSST y VVV incluyen
observar estrellas variables (estrellas que
muestran una variación en su brillo en
función del tiempo. Ver catálogo de las
distintas clases en http://www.sai.msu.su/
gcvs/gcvs/iii/vartype.txt), es natural enfocar
los esfuerzos en el análisis de series de
tiempo o curvas de luz (gráfico que se
obtiene de la variación del brillo en función
del tiempo, Figuras 2, 3 y 5), este análisis
busca representar en forma compacta una
curva de luz de tal manera de simplificar
la información que recibe un algoritmo de Curva de luz de TT Aurigae observada por Wachmann, Popper, y Clausen (1986) y modelada por
clasificación. Terrell (1991).

53
Una de las tareas más importantes en el análisis Uno de los principales problemas de esta
representación es que los parámetros no
de datos del espacio es la clasiicación automática son invariantes a traslaciones en el tiempo.
En otras palabras, si de la misma estrella
de objetos estelares. Existe hoy gran interés en tenemos dos curvas de luz observadas
desarrollar modelos de aprendizaje de máquina para las cuales no coincide el instante
de tiempo inicial, estas dos curvas de luz
capaces de aprender a clasiicar automáticamente tendrán un conjunto distinto de parámetros
estos objetos a partir de bases de datos previamente representando la misma estrella. Para
lidiar con este problema transformamos
rotuladas por astrónomos. los coeficientes de Fourier en un conjunto
de amplitudes Aij y fases PHij como sigue:

ƒ se usa para encontrar los parámetros de nueva frecuencia en el residuo usando el


la siguiente función armónica, usando un periodograma de Lomb-Scargle, la nueva
método de mínimos cuadrados: frecuencia se usa para ajustar nuevamente
el modelo armónico. Este proceso continúa
hasta que se encuentran n frecuencias y
se estiman n modelos armónicos con m
donde:
componentes. Finalmente, las n frecuencias
2. Actualizar r(t)=r(t)- (t) se usan para realizar el mejor ajuste a la
curva de luz original:
En palabras, primero se resta la tendencia
lineal de la serie de tiempo fotométrica,
Notar que PH11 es elegido como la referencia
luego usando el periodograma de Lomb-
y es igual a cero, además PH`ij toma valores
Scargle identificamos el peak más alto
en el intervalo ]-p,p]
y usamos la frecuencia correspondiente Las frecuencias ƒi junto con los parámetros
para ajustar un modelo armónico con m de Fourier aij y bij , constituyen el conjunto Una vez que tenemos una representación
componentes. Esta nueva curva, junto de parámetros con los cuales podemos paramétrica para las curvas de luz, podemos
con la estimación lineal son restadas representar las curvas de luz. utilizar modelos de clasificación para aprender
desde la serie de tiempo y se busca una a identificar cada tipo de estrella.

Existen numerosos algoritmos de clasificación


Figura 4 automática en la literatura de Aprendizaje
de Máquina (Mitchel (1997), Bishop (2006)).
Los algoritmos de clasificación están basados
principalmente en modelos matemáticos
para encontrar espacios de separación
entre las distintas clases de objetos, entre
los algoritmos más nombrados están los
“árboles de decisión” (Quinlan (1986)),
“Support Vector Machines” (Cortes &
Vapnik 1995), el clasificador “Naive
Bayes” (Mitchel (1997)), el “clasificador
de vecinos cercanos” (Mitchel (1997)),
etc. El proceso de aprendizaje de estos
algoritmos consta en utilizar un conjunto
de instancias para entrenar (conjunto de
entrenamiento) donde el algoritmo busca
Próximas observaciones VISTA del cúmulo globular omega Cen. Panel izquierdo: un ejemplo de
distribución a lo largo del cluster: los círculos rojos marcan la posición de estrellas RR Lyrae conocidas, separar entre los elementos de distintas
los cuadrados azules marcan las posiciones de estrellas binarias eclipsantes, conocidas. Panel derecho: clases para luego probar el rendimiento
16 detectores de VIRCAM@VISTA, con omega Cen en el centro del plano focal.
del modelo de clasificación en un conjunto

54 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

de instancias que no fueron usadas en el Figura 5


proceso de entrenamiento (conjunto de
evaluación). Es importante a la hora de
iniciar el entrenamiento de un modelo de
clasificación considerar que el objetivo final
es que el modelo clasifique con un alto
rendimiento las instancias del conjunto de
evaluación, de tal modo de probar que el
modelo es capaz de clasificar correctamente
instancias nuevas, no procesadas durante
el entrenamiento, eso asegura una buena
capacidad de generalización del modelo
de aprendizaje.

Al momento de lidiar con Datos Astronómicos


aparecen muchas limitaciones que hacen
más difícil el proceso de aprendizaje de
clasificadores. Una de estas limitaciones
corresponde al gran costo de obtener datos
etiquetados para formar el conjunto de
entrenamiento. Dado que los telescopios no
arrojan información sobre el tipo de objeto
que inspeccionan, sino que sólo información
sobre algunas de sus características, es
necesario que los astrónomos manualmente La “Nebulosa del Cangrejo del Sur”, uno de los mejores ejemplos de estrella variable de tipo simbiótico
en sus últimas fases de evolución. Esta imagen fue obtenida utilizando el telescopio espacial Hubble.
se dediquen a etiquetar estos datos de tal
Autores: Romano Corradi, Mario Livio, Ulisse Munari, Hugo Schwarz y NASA.
manera que un computador pueda iniciar
el proceso de aprendizaje.

Dado también que algunos tipos de Datos


Astronómicos existen hace muchos años,
hoy gran parte de ellos se encuentran contiene varios millones de estrellas, entre del aprendizaje de máquina como “active
etiquetados y disponibles para la comunidad ellas varios cientos de estrellas variables de learning” o aprendizaje activo (Roy et al.
científica, éste es el caso de los datos ópticos. diferentes tipos y nos permitirá obtener con (2001), Cebron et al. (2008), Baram et al.
Lamentablemente existen otros tipos de datos una serie de observaciones una fracción (2004)). Los modelos de aprendizaje activo
que no están etiquetados por la comunidad importante de los datos que se necesitan van seleccionando en cada iteración la
astronómica, por ejemplo el VVV es la para construir los “templates” de curvas instancia más apropiada para el aprendizaje
primera inspección de variabilidad estelar de luz que se esperan obtener de este a partir de un conjunto de instancias
en la banda infrarroja, en este caso nuestro proyecto. candidatas, luego solicita a algún ente experto
grupo debe lidiar con la construcción de (en este caso el astrónomo) que clasifique
Con todos los recursos que se necesitan para
una base de datos etiquetada de variabilidad la instancia previamente seleccionada, para
obtener estos “templates” nace la necesidad
estelar en la banda infrarroja. Así el principal luego incluir esta información en el conjunto
de implementar modelos de clasificación
propósito del proyecto “VVV Templates”3 de entrenamiento y refinar el clasificador y
con un nivel mayor de inteligencia, capaces
se traduce en construir un conjunto de el modelo selector de instancias.
de seleccionar eficientemente sólo los
entrenamiento en la banda infrarroja para
objetos más informativos de tal modo de Más específicamente, considere un conjunto
los clasificadores automáticos, que hasta
aprender a clasificar con la menor cantidad de instancias (curvas de luz) descritas
ahora sólo han sido utilizados en datos
de información posible, de tal modo de por d parámetros X={x1,...,x n }, donde
ópticos.
ahorrar recursos valiosos como el tiempo xi Rd i [1,..,n] y un conjunto de C posibles
Parte del proyecto “VVV Templates” dedicado a las observaciones al telescopio. clases de estrellas Y={y1,...,yc }, donde cada
comprende observar el cúmulo globular Este proceso de seleccionar instancias xi pertenece a una clase yj , j [1,..,C].
Omega Cen (Figuras 1 y 4). Este cúmulo específicas es conocido en la literatura Considere el conjunto U X de curvas de

3 http://www.vvvtemplates.org/

55
luz no clasificadas y el conjunto L XxY de Principalmente la idea es seleccionar conjunto de entrenamiento D. El error
curvas previamente etiquetadas (la clase de las curvas de luz que más aportan en esperado de la clasificación es:
cada elemento en L es conocida). el entrenamiento del clasificador. Sea
P(yIx) la distribución (desconocida) que
El proceso de aprendizaje activo consiste
corresponde a la probabilidad de que
en estratégicamente seleccionar curvas
un dato x pertenezca a la clase y, sea Donde Ls es una función que mide el grado
de luz desde el conjunto U para que sean
P(x) la distribución de probabilidades de pérdida o diferencia entre la distribución
etiquetadas por un astrónomo y luego
marginal sobre las instancias. Sea D (yIx) estimada y la distribución real:
agregadas al conjunto L. Cada vez que
la distribución de probabilidades que el
L cambia se actualiza un clasificador
modelo clasificador debe aprender del
cuyo conjunto de entrenamiento es L.
Figura 6
El algoritmo de aprendizaje activo
seleccionará la instancia xi tal que al añadirla
al conjunto L el clasificador entrenado con el
conjunto resultante obtiene
el menor error comparado con todas las
otras instancias candidatas, es decir:

Lamentablemente la distribución real


P(yIx) es desconocida, por lo tanto realizamos
una estimación del error en base al valor
esperado de la clasificación de cada
instancia, usando el clasificador que se
tiene hasta el momento evaluado sobre el
conjunto de testeo, así el error estimado
se calcula como:

Donde es el número de elementos en


el conjunto de testeo.

En palabras simples, el modelo va a elegir


como siguiente instancia a la que más
disminuye la incerteza del clasificador una
vez agregada al conjunto de entrenamiento.
Notar que la incerteza se mide como la
entropía de la clasificación.

Hasta ahora se han obtenido resultados


bastante positivos, la Figura 6 muestra la
exactitud del clasificador a medida que van
agregándose instancias con el proceso de
Gráico que muestra la exactitud del clasiicador a medida que van agregándose instancias con aprendizaje activo. La línea azul corresponde
el proceso de aprendizaje activo. La línea azul corresponde a la precisión y la línea roja al recall. a la precisión1 y la línea roja al recall2. La
La línea recta bajo la línea azul corresponde a la precisión obtenida usando todo el conjunto de
línea recta bajo la línea azul corresponde a la
entrenamiento. La línea recta bajo la línea roja corresponde al recall obtenido usando todo el conjunto
de entrenamiento. Cada vez que la línea roja (azul) está por sobre su línea recta implica que el recall
(precisión) es mayor que el obtenido con el 100% del conjunto de entrenamiento.

1 Precisión: de los elementos que el clasificador dijo que eran de la clase en cuestión, cuántos realmente eran.
2 Recall: de los elementos de la clase que el clasificador tenía que identificar, cuántos identificó.

56 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

REFERENCIAS
Percival, D. and Andrew T. Walden. (1993)
Spectral Analysis for Physical Applications.
Cambridge University Press
Bishop, C. (2006) Pattern Recognition and
Machine Learning, Springer ISBN 0-387-
31073-8.
Bloomfield, P. (1976). Fourier analysis of time
series: An introduction. New York: Wiley.
Billères, M., Fontaine, G., Brassard, P.,
Charpinet, S., Liebert, J., Saffer, R. A., 2000,
ApJ, 530, 441.
Cortes, C. and Vapnik ,V. Support vector
networks. Machine Learning, 20:273–297,
1995.
Hamilton, J. (1994), Time Series Analysis,
Princeton: Princeton Univ. Press, ISBN
0-691-04289-6
Mitchell, T. (1997). Machine Learning, McGraw
Hill. ISBN 0-07-042807-7, p.2.
Mills, Terence C. (1990) Time Series Techniques
for Economists. Cambridge University Press
precisión obtenida usando todo el conjunto proceso de aprendizaje activo, es decir, en N. Roy and A. McCallum. Toward optimal
de entrenamiento. La línea recta bajo la qué momento el clasificador debe decidir active learning through sam- pling estimation
línea roja corresponde al recall obtenido que ya aprendió lo suficiente y no necesita of error reduction. In Proceedings of 18th
International Conference on Machine Learning,
usando todo el conjunto de entrenamiento. pedir la clasificación de más instancias. Para
ICML, pages 441–448, 2001.
Cada vez que la línea roja (azul) está por lograr este objetivo existen muchos desafíos
sobre su línea recta implica que el recall N. Cebron and M. Berthold. Active learning
por superar, entre ellos la inestabilidad de
for object classification: from exploration to
(precisión) es mayor que el obtenido con los resultados en algunos casos. exploitation. Data Mining and Knowledge
el 100% del conjunto de entrenamiento. Discovery, 18(2):283–299, 2008.
Existen muchas otras aristas de investigación
Se puede apreciar por ejemplo que en el
que se irán explorando con el tiempo, este Quinlan, J. R. 1986. Induction of Decision Trees.
gráfico de la clase CLCEP el clasificador Mach. Learn. 1, 1 (Mar. 1986), 81-106.
grupo científico pretende seguir creciendo
logra igualar en recall y precisión los
y desarrollando nuevas tecnologías para el Russell, S.J. and Norvig, P. Artificial intelligence:
resultados obtenidos cuando se usó el a modern approach. Prentice Hall series in
análisis de Datos Astronómicos, se espera
100% del conjunto de entrenamiento sólo artificial intelligence. 2010
usando un 30% de instancias, seleccionadas en un futuro próximo poder contar con
un número importante de estudiantes de Y, Baram, R. El-Yaniv, K. Luz. Online Choice
estratégicamente con el proceso de of Active Learning Algorithms. JMLR 5:255-
aprendizaje activo. Resultados similares posgrado realizando sus investigaciones
291, 2004.
se ven en las otras clases, excepto en la en el Centro de Astro-Ingeniería de la UC,
Terrell, D., Mukherjee, J.D., and Wilson, R.E.
clase RRAB, donde el clasificador no puede desarrollando nuevas tecnologías para la
1991. “Binary Stars: A Pictorial Atlas”, Krieger
igualar los resultados sino hasta llegar a exploración eficiente de toda la información Publ. Co. (Malabar, Florida).
seleccionar todas las instancias del conjunto que se viene en los próximos diez años con
Wachmann, A.A., Popper, D.M., and Clausen,
de entrenamiento. la instalación de los nuevos observatorios J.V. 1986, A&A, 162, 62.
en nuestro país.
Los pasos siguientes de esta investigación
comprenden desarrollar un modelo para *Rodolfo Angeloni está financiado por el
automatizar la decisión de dónde detener el Proyecto Fondecyt #3100029.

57
OPEN DATA

Entendiendo la privacidad hoy

En mi época de estudiante de computación, por el colectivo denominado “Web 2.0”,


uno de mis profesores tenía colgada en su las redes sociales y sistemas de contenido
puerta una caricatura que mostraba dos generado por usuarios. “En Internet, tus
perros hablando, uno de ellos sentado frente amigos y seguidores de Facebook, Google y
al computador: “On Internet, nobody knows Twitter saben a qué le ladras, cuándo ladras,
you are a dog” (o “En Internet, nadie sabe con quién ladras, qué comes y por dónde
que eres un perro”.) le decía un perro al paseas. Es irrelevante si eres un perro o no”.
otro [22]. Para quienes vivieron online esa Probablemente con este título la caricatura
época, el chiste era claro: en Internet era ya no sería tan graciosa.
fácil pretender que se era alguien o algo
Creemos que el anonimato es prevalente
distinto pues nuestras comunicaciones no
online, cuando de hecho no lo es, o al
tenían mecanismos de autentificación de
menos, es muy difícil ser realmente anónimo
ningún tipo: tu email o tu página Web era
para un usuario honesto promedio. Es vox
para todos los efectos prácticos indistinguible
populi que en los últimos años, grandes
de la de millones de otras personas.
bases de datos con información de cada
Hoy en día, la situación no ha cambiado uno de nosotros han sido amasadas con
demasiado y todavía no hay autentificación nuestro conocimiento e incluso con nuestro
Alejandro Hevia de ningún tipo1. Sin embargo, nadie se reiría beneplácito. Esta tendencia de hecho parte
Profesor Asistente, DCC, Universidad
de Chile; Ph.D. Computer Science, del chiste anterior. ¿Por qué? El concepto de fuera de Internet ofreciéndonos beneficios
University of California, San “quién soy” en Internet ha sido redefinido a cambio de un poco de información.
Diego (2006); Ingeniero Civil en
Computación, Universidad de
Chile (1998). Director del Grupo de
Respuesta a Incidentes de Seguridad
Computacional, CLCERT.
ahevia@dcc.uchile.cl
1 A pesar de los deseos de Google, quienes en su red social Google+ inicialmente han restringido el acceso a
quienes firmen con “nombres reales” y no seudónimos, algo que ha causado gran controversia y probablemente
será cambiado.

58 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Aceptamos la existencia de DICOM ¿QUÉ ES PRIVACIDAD? definición nos recuerda la íntima relación
como una manera de mejorar el acceso al entre privacidad e identidad. Aquí, una
crédito, o aceptamos revelar nuestra lista Entender privacidad es difícil 2. Según información es privada o sensible si “revela
de compras a cambio de un beneficio Van der Berg [24], es “probablemente algo respecto a quién soy”. Privacidad
económico (puntos del supermercado). uno de los conceptos más complicados, es algo dinámico y abierto, algo que, tal
Ya en el mundo online, por un beneficio malentendidos y altamente debatidos como nuestra identidad, puede cambiar
económico y/o de entretención por ejemplo en ciencias sociales, en ámbitos legales, en el curso de nuestra vida. Finalmente, la
cedemos gustosamente nuestros datos a filosóficos, y tecnológicos, durante las definición de Westin [29] se focaliza en un
cambio de una cuenta gratis en Facebook, últimas décadas en el mundo”. Esto quizás aspecto más preciso, el control del acceso
donde podemos ver a nuestros amigos y porque la definición de privacidad no es a la información sobre la individualidad de
dejarnos ver por ellos. Así, DICOM sabe trivial de entender. Por ello, ruego al lector una persona: “La necesidad de individuos,
quiénes somos, a quiénes no les pagamos, me permita una sección algo más teórica grupos o instituciones de determinar por
y por cuánto. La cadena de supermercados, del tema, con el compromiso de aplicarlo ellos mismos, cuándo, cómo y hasta qué
por otra parte, sabe quiénes somos, qué a temas tecnológicos más adelante. nivel de información acerca de ellos es
compramos y cuándo. Facebook, sabe algo comunicada a otros”.
más importante: qué tipo de cliente somos, Según Warren y Brandeis [27] privacidad
es “the right to be let alone” (“el derecho a Ahora bien, de las decenas de distintas
qué queremos y qué quieren nuestros amigos.
ser dejado tranquilo o solo”). Esta definición definiciones de privacidad propuestas
Y sorprendentemente, toda esta información
es notable por dos razones. Primero, por lo en las últimas décadas -muchas muy
está en manos de privados. En comparación,
adelantada a su tiempo: en ese entonces, a amplias o muy restringidas-, hay una en
el Estado pareciera saber en mucho menos:
dichos autores les preocupaba la aparición particular que sobresale en el contexto de
el Servicio de Impuestos Internos (SII),
de la fotografía y de las grabaciones como tecnologías computacionales: privacidad
uno de los mayores recolectores de datos
herramientas periodísticas. Y segundo, como “integridad de contexto”, propuesta
estatales en Chile, sabe esencialmente sólo
por tocar un nervio en casi todos los seres por Nissenbaum [15,16]. Su punto de
cuánto ganamos, aunque seguro querría
humanos: el valor de nuestra individualidad. partida es la existencia de los distintos
saber aún más. Cierto, los organismos de
Sin embargo, es una definición limitada, “mundos” o contextos donde la gente se
seguridad estatales legalmente pueden
pues no da demasiadas luces de qué mueve. “Al observar la textura de la vida
saber mucho más: nos dejamos escanear
implica, por ejemplo, cuando decidimos de las personas, vemos que ellos salen
con rayos x o registrar en los aeropuertos
dejarla de lado voluntariamente (esto es, y entran, y se mueven dentro de una
(¡y sorprendentemente aún en las calles!),
cuando a propósito buscamos “dejar de estar pluralidad de ámbitos o mundos distintos.
e incluso nos dejamos escuchar, fotografiar
solos” y nos contactamos con otros). Una Están en sus casas con sus familias, van a
y filmar en la vía pública por el beneficio
segunda definición la da Burgoon y otros trabajar, buscan atención médica, visitan
de la “seguridad” que la policía nos puede
(citado en [17]): “La habilidad para limitar amigos, consultan siquiatras, hablan con
proveer en ese ambiente. En suma, aceptamos
físicamente, vía interacción, sicológicamente abogados, van al banco, asisten a misa,
(incluso aplaudimos) las reglas del juego
e informacionalmente el acceso a mi votan, compran, y mucho más. Cada una
para obtener los supuestos beneficios. Sin
individualidad o la individualidad de un de dichas esferas, ambientes o contextos
embargo, a muchos todavía les incomoda
grupo”. Esta definición pone énfasis en involucra, o incluso es definida por, una
o incluso se quejan cuando ven reportajes
las distintas dimensiones de la privacidad: serie de normas, las cuales gobiernan sus
sobre las injusticias que datos incorrectos
existe en términos físicos (por ejemplo distintos aspectos tales como los roles,
en DICOM pueden causar, o se quejan
alguien mirando por mi ventana); existe al esperanzas, acciones y prácticas” [16].
de la pérdida de privacidad cuando en las
interactuar con gente (uno la considera al Nissenbaum argumenta que la privacidad de
noticias aparecen hackers comprometiendo
conversar con otra persona); existe en su una persona se desprende de su habilidad
sitios Web y revelando datos de millones
rol sicológico (expresada en la libertad de de compartimentalizar su vida (social), de
de clientes, o cuando se hacen públicas
tomar decisiones personales, religiosas, de manera que la información sobre ella, que
conversaciones por celular entre congresistas
orientación sexual sin presión de otros); y pudiera ser dañina o vergonzosa cuando
(y más recientemente, entre defendidos y
puede dejar de existir cuando la información es compartida fuera del contexto donde se
sus abogados), o se publican datos o fotos
acerca de una persona es transmitida a otros entregó, se mantenga protegida, circunscrita a
íntimas de personas sin su consentimiento en
sin su consentimiento o conocimiento. Una las reglas del contexto donde se entregó. Por
portales públicos online. ¿Cuánto realmente
perspectiva distinta la entrega Hildebrant ejemplo, la gente usualmente no considera
queremos tener privacidad? ¿O ya la
[10] quien la define como “la libertad o privada la información compartida con su
perdimos? ¿Vale la pena el (aparentemente
carencia de limitaciones irrazonables sobre doctor en el proceso de obtener atención
necesario) costo monetario y social de
la construcción de mi propia identidad”. Esta médica, pero pudiera molestarse si dicha
recuperarla y mantenerla?

2 La presentación de las definiciones, historia y varios ejemplos del presente artículo se basan en el excelente reporte titulado “Privacy Enabled Communities” del Primelife
Project [18] de la Comunidad Europea.

59
El problema surge cuando la información es cruzado a un contexto para el cual nunca
fueron orientadas (lo cual explica por qué
compartida fuera del contexto original, sin preservar la gente sigue tomándose este tipo de fotos,
aún cuando son aconsejados de lo contrario).
las normas (explícitas e implícitas) referentes a Dichas fotos tuvieron su contexto, íntimo
quizás, en el cual no se consideraban
cómo se comparte información en ese contexto. privadas. Y en el caso de los petabytes
de información en Facebook, la mayoría
de los usuarios implícita o explícitamente
creen que ciertas normas se respetarán
en el contexto formado por sus amigos. O
bien, no entienden cuál es ese contexto. En
muchos casos, hay una desconexión con la
realidad. Por ejemplo, aunque técnicamente
sea posible que un futuro empleador mire las
información va a parar a su empleador o a sus hijos, ni divulgar información financiera
fotos compartidas de una persona buscando
un conocido del colegio de sus hijos. Esta a un ejecutivo de cuentas para pedir un
trabajo, frecuentemente dicha persona
distinción es notable, pues en otras palabras, préstamo, o compartir con amigos cercanos
no considera como una violación de su
los datos no son privados o públicos per se, los detalles de una relación romántica. Para
privacidad el compartirlas, pues cree (sin
sino que lo son sólo respecto a un contexto. el sinnúmero de transacciones, situaciones
razón) que dichas fotos sólo permanecerán
No es el contenido de la información, sino y relaciones en las cuales la gente se aboca,
en el contexto (real o imaginado) de sus
el contexto donde fue compartido y, en hay normas -explicitas e implícitas- que
amigos. Obviamente, esa persona siente su
particular, la audiencia que tiene acceso a gobiernan cuánta información y de qué
privacidad violada cuando aparecen en el
dicha información. Esto explica la aparente tipo es apropiada para ellos. Donde dichas
computador del entrevistador o, peor aún,
contradicción vista en personas que normas son respetadas, diremos que la
ventilados en una reunión familiar.
comparen información íntima y personal integridad de contexto se mantiene. Donde
sin mucha preocupación, al tiempo que no, diremos que la integridad de contexto
se sienten profundamente perjudicados ha sido violada” [15]. PRIVACIDAD VERSUS
cuando ven compartida otra información SEGURIDAD
de ellos aún si esta última no es personal ni
sensible. Más aún, entender privacidad bajo
DE VUELTA A LA
Lamentablemente, es frecuente ver
la definición de Nissenbaum nos enseña que
PRÁCTICA discusiones donde privacidad es presentada
privacidad es una característica social y no como algo transable por seguridad pública
Entender privacidad como mantener la
sólo informacional. Compartir información o el bien común. Gobiernos de todo tipo
integridad de contexto de (por ejemplo)
per se no es el problema; muchos de nosotros frecuentemente nos quieren convencer
la información asociada a nosotros
compartimos información con otros todo el que para garantizar la seguridad pública es
mismos, puede ayudarnos a entender
tiempo sin estar necesariamente preocupados necesario recolectar datos de los ciudadanos
nuestro comportamiento ante los eventos
de las repercusiones de esta conducta en en forma de monitoreos masivos y extensa
mencionados al comienzo. Por ejemplo,
términos de privacidad. Sin embargo, el minería de datos. Se argumenta que los
respecto a los datos en DICOM, la regla
problema surge cuando la información es ciudadanos honestos no debieran temer,
implícita (supuesta) es que dichos datos serán
compartida fuera del contexto original, sin pues “quien nada hace nada teme”.
fieles representantes de nuestro crédito,
preservar las normas (explícitas e implícitas)
que serán preservados (no modificados Éste es un falso dilema (discutido por muchos,
referentes a cómo se comparte información
arbitrariamente), y que serán comunicados entre ellos Solobe [20,21]), pues presupone
en ese contexto. De hecho, Nissenbaum
apropiadamente (por ejemplo sólo a quienes que privacidad sólo existe para “esconder
lo resume en forma excelente: “Si un ítem
debieran revisar nuestro crédito y no a otras cosas malas”. El argumento es que gente
de información es considerado apropiado
entidades que aparentemente no debieran honesta y sana, no oculta nada, sólo aquellos
para una situación en particular, típicamente
necesitarla, como un futuro empleador, o en los límites de la decencia o la legalidad
es compartido sin problemas. Más aún, la
mis amigos o mi doctor). Datos incorrectos lo hacen. Con ello se justifica plenamente
información puede ser guardada o usada
en DICOM son una violación a la privacidad reducir la privacidad de todos para buscar
en una situación en particular sin gatillar
en el sentido que vulneran una parte de esta a las “manzanas podridas”. Ejemplo de ello
objeciones de ningún tipo. La gente no objeta
regla, la integridad de los datos en particular. es la instalación de cámaras en las calles
el tener que entregarle a los doctores los
En el caso de las fotos privadas reveladas de las ciudades, para detectar y perseguir
detalles de su condición médica, o discutir los
online, claramente dicha información ha delitos, o, por ejemplo, en la instalación de
problemas de sus hijos con los profesores de

60 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

escáner de cuerpo en los cruces fronterizos


del norte para detectar traslado de droga.
Sin embargo, pese a que los objetivos
puedan ser loables, esta dicotomía es falsa.
Primero, si privacidad es integridad de
contexto, todos tenemos algo que ocultar
(¿por qué no vivimos en casas de vidrio?).
No quiero que mi información médica deje
la consulta de mi doctor o que el monto de
mis ahorros lo sepa mi vecino. Como vimos,
qué es privado depende del contexto: hay
veces que información muy íntima (la última
cirugía plástica de una actriz famosa) no
es considerada privada e información muy
pública (su número de carnet) sí lo es. La
dicotomía entre privacidad e ilegalidad, por
un lado, y seguridad y legalidad, por otro,
simplemente desconoce la percepción de
la privacidad de la gente en el mundo real.
Peor aún, tal argumento (privacidad sólo descalificándome como interlocutor válido. un “dossier”- respecto a una persona era una
es para quienes quieren ocultar algo malo) El punto a recordar es que no sólo debemos labor investigativa mayor: el “investigador”
no considera aspectos más fundamentales, pedirle a entidades privadas respetar la debía visitar hospitales, escuelas, oficinas,
como la necesidad de su existencia para integridad de contexto (mi privacidad) sino municipalidades, bancos, casas, iglesias, etc.,
tener una sociedad realmente democrática también a entidades públicas. Este tema de todos aquellos lugares donde la persona
y libre. Valorar y respetar la privacidad la relación entre privacidad y libertades había estudiado, trabajado, interactuado
permite a la gente hablar libremente, sin democráticas es largo y probablemente y vivido. En cada lugar, el investigador
temor a manifestar ideas contrarias al requiera su propio artículo. debía conversar con quien estuviera en
credo imperante, y finalmente relegarse, control de los datos y convencerlo de lo
si es necesario, a un espacio que pueden apropiado de compartirlos, justificando de
PRIVACIDAD Y paso su autoridad para solicitarlos. Luego
llamar privado, donde la intervención
(estatal o privada) no es permitida. Por
TECNOLOGíAS debía hacer copias manuales (con suerte
ende, argumentar que la privacidad de los
MODERNAS: ¿QUÉ fotocopias) de los documentos con los
ciudadanos debe ser disminuida en favor de CAMBIó? datos. Hough [9] (citado en [18]) argumenta
su (supuesta) seguridad pública va en contra que “por ineficiente que pareciera, el
de valores intrínsecamente democráticos. Las tecnologías de información han almacenamiento de registros en papel, en
En palabras de Kee Hinckley, criticando la posibilitado como nunca la recolección, ubicaciones diversas, en realidad creaba
falta de seudoanonimato en la red social manipulación, distribución y mantenimiento un colchón de protección, asegurando
Google+: “El foro de discusión pública ya de información en una escala masiva. Al que los datos no fueran revelados sin
no es la plaza del pueblo, el diario ni la usar empresas como Facebook, Google o un esfuerzo considerable y sólo con una
calle. Es aquí, en Internet, y está sucediendo el Servicio de Impuestos Internos como causa justa”. No sólo servicios “gratuitos”
en comunidades como ésta, hosteadas por intermediarios en muchas de las acciones recolectan esta información, también hay
compañías del sector privado”. de nuestra vida diaria, les hemos permitido casos emblemáticos de empresas que
recolectar dicha información a escalas sin derechamente los venden. Solove en su
Por supuesto, el hecho que mis fotos íntimas precedentes. En palabras de Vint Cerf, uno libro “The digital person” [20] reporta a una
o el vídeo de la cámara de vigilancia donde de los creadores de Internet: “Nunca en compañía llamada “Regulatory DataCorp”
aparezco saliendo de una tienda de ropa la historia de la humanidad hemos tenido (RDC) la cual ha “creado una base de datos
látex para adultos aparezca publicado acceso a tanta información tan rápido y tan masiva para investigar gente que abre
en Facebook o Youtube no tiene nada fácilmente”. Tal información puede agregarse, nuevas cuentas bancarias” y que en su
que ver con la validez de mis opiniones copiarse, enlazarse, correlacionarse y base de datos la información es recolectada
políticas. Sin embargo, todos sabemos que distribuirse en forma barata y masiva. “desde más de veinte mil fuentes distintas
tal hecho ciertamente puede provocar un En comparación, antiguamente, lograr en el mundo”. Es discutible cuánto de esa
daño serio a mi reputación, indirectamente recuperar información confiable – o armar información es estrictamente necesaria para

61
evaluar el riesgo de un potencial cliente y mostraron que podían “desanonimizar” tiempo pese a ser incorrecta o, aún siendo
cuánto de ella simplemente es un “dossier” a muchos de los clientes simplemente incorrecta, perjudicar/humillar públicamente
de la persona. comparando información de rankings y a alguien. Un caso emblemático de esto, es
fechas/horas con aquellas disponibles en el llamado caso de la “the dog poop girl”
Quizás todo esto fue lo que llevó a Scott
Internet Movie Database (imdb.com), un o “niña del excremento de perro” ocurrido
McNealy, ex CEO de Sun Microsystems, a
sitio de recomendación de películas donde en Corea del Sur en 2005. Allí, una mujer
argumentar “you have zero privacy anyway.
los usuarios sí entregan sus nombres. Éste en el metro de Seúl se rehusó a recoger
Get over it” (“tienes cero privacidad de
y otros casos similares (como cuando el excremento de su perro, lo cual fue
todas maneras. Resígnate.”) ¿Es cierto que
gente fue individualizada a partir de logs fotografiado por otro pasajero. Rápidamente,
hemos perdido toda privacidad? McNealy
“anonimizados” publicados por AOL en la foto empezó a circular ampliamente por
fue altamente criticado por su postura pues
2006 [19], o experimentos que mostraron las redes sociales en el mundo. Luego,
aunque correcta en los hechos, fallaba en
que el 80% de los ciudadanos en Estados su nombre y detalles personales fueron
la reacción: resignación no es la acción
Unidos pueden ser individualizados a partir revelados por otras personas en represalia.
adecuada. Ustedes y yo podemos haber
de los datos del censo, su código de área, Al final, su reputación fue arruinada y
perdido nuestra privacidad online, pero
su género y su fecha de nacimiento [23, 8]) abandonó la universidad.
¿nuestros hijos y nietos deben también
mostraron que los mecanismos básicos para
perderla? ¿Podría haber pasado lo mismo sin el apoyo
anonimizar datos no son suficientes para
de la tecnología moderna (redes sociales,
Paradójicamente, las características que más prevenir violaciones de privacidad.
Internet)? Los rumores y habladurías han
beneficios han traído a la manera de organizar
De hecho, en el contexto de recopilación existido desde siempre, pero históricamente
la información en el mundo son aquellas
masiva de datos, hay quienes argumentan la su alcance ha sido limitado, típicamente
con el mayor riesgo de perjudicar nuestra
necesidad de recuperar nuestro “derecho a ser al grupo donde se generan. Es sólo con el
privacidad. En el proceso de combinar,
olvidado” (ver Solove [20]). Biológicamente, advenimiento de las redes sociales de gran
mover, copiar y editar información desde
nuestra memoria nos ayuda a recuperarnos escala donde este tipo de casos terminan
lugares dispares es que violaciones de
y comenzar de nuevo, luego de errores alcanzando audiencias de millones de
integridad de contexto pueden producirse.
o experiencias traumáticas simplemente personas. Se puede argumentar que el
De hecho, Nissenbaum [15] distingue
dejándonos olvidar dichos eventos. “Olvidar supuesto “anonimato” detrás de un nombre
dos niveles de problemas: (1) los tipos de
es la norma, recordar es la excepción”, pero de usuario disminuye la inhibición de
violaciones ocurridos en el proceso de
con herramientas ya disponibles podemos su dueño y lo hace menos socialmente
mover información de un contexto a otro,
perfectamente terminar en “olvidar es conciliador en sus comentarios y críticas,
y (2) aquellos ocurridos en el proceso de
la excepción y recordar es el default” pero estudios muestran que comentarios
combinar distintos trozos de información.
[12]. ¿Cuántos de nosotros podríamos negativos de este tipo aún surgen cuando
Ejemplos del primer tipo son las clásicas
vivir teniendo “un registro detallado y el autor realiza sus comentarios en forma
violaciones producidas al copiar información
públicamente consultable” [21] de nuestras pública y completamente identificado3.
médica o financiera a otros contextos donde
acciones, datos y vida desde nuestra infancia?
su uso no fue contemplado. Situaciones Concluyo esta sección poniendo énfasis
Tal como argumenta Solove [21], no conviene
del segundo tipo ocurren, por ejemplo, en cómo las redes sociales cambian el tipo
olvidarnos de las ventajas sociales de poder
cuando compañías de seguro solicitan de problemas de privacidad existentes. Por
“comenzar de nuevo” y “partir de cero” al
exámenes médicos creando perfiles sobre bastante tiempo, mucho esfuerzo técnico (y
considerar la lista de requisitos de nuestra
los clientes con información irrelevante al legal) fue puesto en desarrollar mecanismos
vida digital.
simple análisis de riesgo, pero que vulneran de control de información para limitar
su privacidad. El problema puede ocurrir la filtración de información almacenada
también por subestimar las capacidades REDES SOCIALES Y y procesada por parte de empresas y
actuales de “enlazar” datos. Es el caso de REPUTACIóN organizaciones. Sin embargo, hoy en día
Netflix, compañía que en 2007 reveló su base poco de ello es aplicable al escenario
de datos de recomendaciones de películas Un tema aparte lo constituyen los posibles social, pues en este contexto, quienes
hechas por más de 500 mil clientes, con la problemas de privacidad (y de reputación) comprometen la privacidad de un usuario
esperanza de obtener mejores sistemas de derivados del contenido generado por otros no son las empresas ni las organizaciones,
recomendación. Y aunque dijeron tomar usuarios en redes sociales. La identidad sino otros usuarios del sistema. Y aunque
especial cuidado de “anonimizar” los datos de cada usuario no está sólo definida por mecanismos técnicos que nos permitan
(eliminando datos personales y reemplazando información entregada por el mismo usuario “contar un secreto” sin temer a la falta de
nombres con identificadores al azar), (su foto, su nombre, sus gustos) sino por discreción de nuestro confidente en teoría
Narayanan y Shmatikov, dos investigadores información entregada por otros, que puede son posibles [18] (la mayoría derivados de
de la University of Texas at Austin [14], perfectamente permanecer inmutable en el “Zero Knowledge”, una técnica criptográfica

3 Quizás porque el medio desconecta al autor de su “víctima”, algo mucho menos frecuente en comentarios cara a cara.

62 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

bellísima y elegante pero poco práctica),


no es claro que sean efectivos: muchos de
Gobiernos de todo tipo frecuentemente nos quieren
estos esquemas se basan en evitar “generar convencer que para garantizar la seguridad pública
evidencia” que soporte la indiscreción (el
indiscreto no puede probar su aseveración). es necesario recolectar datos de los ciudadanos en
Es claramente cuestionable si la falta de
evidencia ha disminuido la distribución forma de monitoreos masivos y extensa minería
de información incorrecta (pero “jugosa”)
alguna vez en Internet. de datos.
BIG BROTHER, MANY
LITTLE BROTHERS
Hoy dejamos muchos rastros “sin movernos para protegerse hoy? Lamentablemente poco, sobre todo considerando los altos costos
del escritorio”. Sitios Web nos monitorean pues los incentivos económicos están en de estos sistemas [1]. Por otro lado, ni las
en forma distribuida para darnos el dudoso recolectar información. Por ejemplo, para políticas públicas ni la ley parecieran hacer
beneficio de mejores avisos (más focalizados, cada nueva técnica de limitar o borrar las mucho para disminuir el problema de los
target advertising) o productos gratis. Pero, “cookies” usadas para seguirnos, surge una miles de “little brothers” que capturan
¿es tan así? ¿Somos realmente monitoreados? nueva técnica para saltarse tal limitación nuestra imagen (física) sin pedirnos permiso.
En palabras de Andrew Lewis: “Si no estás [11]. Tímidamente, por otra parte, iniciativas El tema en particular no es simple. Nos
pagando por algo, entonces no eres el legales como “Do-Not Track List” [7,28] o gustaría que limitaran legalmente la captura
cliente; eres el producto en venta”. Dado sus mecanismos asociados (“Do-Not-Track de imágenes de nosotros en la vía pública,
lo extenso de este tema, simplemente le headers” [6,13]) han tomado fuerza, pero pero tal limitación hoy en día es difícil de
sugiero al lector testearlo por sí solo: para su efectividad está por verse. asegurar técnicamente. A nadie le gustaría,
saber quiénes lo siguen diariamente, le por ejemplo, ser demandado porque la
Otros tipos de seguimiento “offline” más
recomiendo usar un par de días el plugin cámara de seguridad de su casa tomó la
clásicos, como por ejemplo con cámaras
“collusion” para Firefox [25]. ¡Los resultados foto del vecino al pasar.
públicas en las calles, se han masificado
son sorprendentes! El nivel de colaboración
en las últimas décadas. Para que decir, el Volviendo a las redes sociales, los “little
entre sitios distintos en Internet sólo con el
sinnúmero de veces que somos captados brothers” aquí son conocidos: mis amigos
propósito de seguir usuarios es abismante.
digitalmente por turistas o cámaras privadas y familiares son posiblemente mi mayor
Aún con esa evidencia a mano, a mucha
al movernos por la ciudad. Aquí, en términos fuente de problemas de privacidad. Hoy en
gente no le importa. Quizás han comprado
de privacidad quizás el tema es algo más día, son ellos, nuestros amigos, conocidos y
la excusa de que tal comportamiento es
claro, pues la pregunta no es simplemente familiares quienes revelan la mayor cantidad
“el precio de obtener productos gratis”.
si tal desarrollo es deseable o no, sino si de información respecto a nosotros. Y
El problema más bien pareciera ser el
tal desarrollo es conveniente para nuestra aunque algunos mecanismos tecnológicos
desconocimiento o la falta de concientización
sociedad. Por un lado podríamos plantearnos (criptográficos) permiten limitar quiénes
respecto a “las posibilidades técnicas
que potencialmente el costo del tracking pueden acceder a datos sensibles (como
para recolectar, guardar y procesar datos
pudiera ser lo suficientemente bajo como el plugin Scramble! para Facebook [2]), el
acerca de esta persona” [26]. De hecho,
para justificar económica y socialmente tema está en su infancia.
estudios muestran que la mayoría de la
los beneficios (búsqueda eficiente en
gente, aunque expresa preocupación por
la Web, correo y repositorios de vídeos
su privacidad online, lo que entiende por
gratuitos con Google, o disminución del
PRIVACIDAD Y BIG DATA
“privacidad” es poco claro. Típicamente
crimen en las calles). Pero, la evidencia
se refiere “a temores diversos en la red Un aspecto interesante en la discusión
muestra lo contrario. Aunque el costo
como por ejemplo encontrarse con virus, de privacidad es cómo se inserta en la
directo es pequeño, el costo indirecto es
troyanos y programas espías, atraer spam o discusión del “Big Data”: esta plétora
alto comparado con los beneficios. Por
ser atacados por un hacker” (ver Paine [17]). de “masivas cantidades de información
ejemplo, en Inglaterra desde hace unos
Peor aún, Paine reporta que aún aquellos generadas por (y acerca de) gente, cosas y
años se cuestionan si el gasto en cámaras
con mejor entendimiento de las amenazas sus interacciones” a las cuales “computines,
es justificable económicamente en términos
carecían de las herramientas efectivas para físicos, economistas, matemáticos, cientistas
de disminución efectiva de delincuencia4,
protegerse. De hecho, ¿qué es posible hacer

4 Y no simplemente de una adaptación de la delincuencia a la ubicación y método de uso de las cámaras.

63
Estudios muestran que la mayoría de la gente, es tomado fuera de contexto y analizado
públicamente en un estudio altamente
aunque expresa preocupación por su privacidad publicitado, sin la persona saberlo? ¿Quién
es responsable de que el (o los) dueño(s) de
online, lo que entiende por “privacidad” es poco los datos no sean afectados al hacer análisis
claro. Típicamente se reiere “a temores diversos y publicar el estudio? ¿Qué significa que el
dueño de un dato dé su consentimiento,
en la red como por ejemplo encontrarse con virus, sobre todo si es para cierto contexto?
troyanos y programas espías, atraer spam o ser ¿Cambia el contexto dependiendo de los
resultados del estudio? (Tal consideración
atacados por un hacker”. me recuerda una broma televisiva en EE.UU.
en la cual se les pedía a hombres jóvenes
en la playa, dar un saludo para un vídeo
de televisión, a lo cual accedían gustosos,
políticos, bioinformáticos, y sociólogos están doesn’t make it ethical” (o “solo porque pero luego, cuando se les indicaban que
reclamando desesperadamente acceso” [3]. sea accesible no significa que sea ético debían mandar saludos al “Gay Channel”
Y aunque hoy son comunes las discusiones (accederlo)”). Los autores cuestionan la muchos de ellos huían). La alternativa de
acerca de los pros y contras de usar las libertad con que investigadores publican solicitar consentimiento a cada uno de
grandes bases de datos de Twitter, Google, análisis de datos que, aunque disponibles los dadores de los datos utilizados en un
Facebook, Wikipedia y cualquier otro online, nunca las personas a quienes estudio/análisis es obviamente impráctica. Sin
donde la gente deja rastros, para resolver se refieren accedieron a tal uso. Como embargo, no se puede legitimar éticamente
problemas relevantes a nuestra sociedad ejemplo mencionan un proyecto de 2006 su uso simplemente porque los datos son
(por ejemplo, si “¿la disponibilidad de el cual analizó 1.700 perfiles de Facebook asequibles. “No porque los datos sean
mejores técnicas de análisis permitirá dar (aparentemente públicos) recolectados públicamente asequibles significa que
acceso más eficiente a información efectiva desde una “universidad norteamericana del fueron pensados para ser consumidos por
a la gente? ¿O será usada para monitorear noreste” para hacer un seguimiento de los cualquiera” [4].
a manifestantes en las calles?” como señala estudiantes por varios años [30]. El estudio Boyd [5] sugiere a quienes deben analizar
Boyd [5]) es poca la discusión clara respecto utilizó perfiles “públicamente asequibles” datos en el ámbito de “Big Data” los siguientes
a cómo proceder como sociedad en forma de estudiantes de una universidad (luego principios: (1) “Seguridad por ‘oscuridad’
integral en este tema. Según Dana Boyd, identificada como Harvard por terceros). Sin es una estrategia razonable” (para quienes
“Big Data se ve como pura oportunidad: embargo, tales perfiles fueron recolectados generan datos), lo que significa que la gente
agencias de marketing como un medio para por asistentes de investigación (estudiantes)
comparte sus datos aún sin mecanismos
avisos focalizados más efectivos, agencias de la misma institución, lo que cuestiona
técnicos de protección efectiva bajo el
aseguradoras como una manera de optimizar su calidad de perfiles públicos. Además, el
supuesto implícito que “nadie grabará
sus ofertas, y bancos como una manera de proceso de anonimización fue cuestionado
públicamente esto y lo ventilara”. Por lo
interpretar mejor un mercado complejo”. y con ello, surgieron quejas por la violación
mismo, Boyd propone respetar tal deseo
Sin embargo, tal discusión se realiza en un a la privacidad de los participantes del
atendiendo el contexto donde fue hecho.
ambiente dinámico, donde “la cantidad de estudio5. En particular, Boyd y Crawford
El principio (2) es que “no todos los datos
almacenamiento no tiene una cota superior critican la falta de cuestionamiento de
fueron hechos públicos pensando en que
clara y donde las decisiones que se tomen investigadores respecto a la admisibilidad
serían publicitados”, lo cual debiera ser obvio;
hoy pueden impactar seriamente nuestro de usar un conjunto de datos “públicos”:
(3) “Quienes publican información PII no
futuro” y nuestra privacidad en él [3]. “¿Pueden ser simplemente usados sin pedir
necesariamente rechazan su privacidad”,
permisos? ¿Cuál debiera ser la norma ética
Boyd y Crawford [3] insisten en un punto: hoy donde PII significa “Publicly Identifiable
que rige tales estudios? Las respuestas
debemos preguntarnos qué significa tener Information” o Información que identifica
no son fáciles pues frecuentemente las
acceso a estos datos, quiénes tienen acceso, públicamente a su donante6. El principio (4)
violaciones de privacidad no pueden
cómo se establece este acceso y con qué fin. “Agregar y distribuir datos fuera de contexto
medirse en “daños” específicos al momento
Para ello proponen preguntarse en forma es una violación de privacidad” debiera ser
de publicarse los datos o incluso dentro de
crítica respecto al fenómeno “Big Data”, obvio para el lector a estas alturas, puesto que
20 años” [3]. ¿Debieran los datos de un
sus supuestos y sus potenciales “biases” o se sustenta en la justificación de privacidad
individuo ser incluidos en un conjunto de
precondicionamientos. Interesantemente, como “integridad de contexto”. Y finalmente,
datos agregados? Por ejemplo, ¿qué tal si
uno de sus cuestionamientos surge del tema (5) “Privacidad no es equivalente a control de
un comentario de un blog de una persona
privacidad: “Just because it is accesible

5 Estos datos inicialmente fueron dados en el contexto que serían asequibles sólo para miembros de la universidad.
6 Segun Boyd, “PII se revela todo el tiempo en redes sociales. Lo que si quieren evitar es ‘PEI’, ‘Personally Embarrasing Information’ o Información qué avergüenza
personalmente a su donante”.

64 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

acceso”. Nuevamente, este último principio CONCLUSIóN de genuino interés mutuo. Ello pues la
es evidente si diferenciamos la “regla” (quién definición de sus límites y consecuencias,
debe acceder a una información según el La privacidad, en particular en un mundo y qué mecanismos legales y tecnológicos
contexto) del “mecanismo” (quién puede digital, es un tema fascinante pues su mera disponibles pueden ser usados para
acceder a la información según el mecanismo definición no es trivial; sus implicaciones protegerla no pueden sustraerse de las
técnico empleado, el cual puede fallar o políticas, sociales y culturales pueden ser características de las comunidades mismas
estar mal configurado). controversiales, pero su valor es inmenso. donde se intenta preservar. He allí el desafío:
Como lo hacía notar en broma un amigo, es nuestra privacidad en el futuro no puede
Al lector interesado le recomiendo leer la
uno de los pocos temas donde abogados e construirse en privado, debemos todos
transcripción de la presentación de Dana
ingenieros pueden tener una conversación colaborar para lograrla.
Boyd [5].

REFERENCIAS En Claes, W. Devroe and B. Keirsbilck


editores. Springer, 2009.
ssrn.com/abstract=998565”, vol. 44, pp.
745-772.
[1] BBC report “1,000 cameras ‘solve one [11] Samy Kamkar, Descripcion del mecanismo [22]Peter Steiner, “On the Internet, nobody
crime’”, Disponible en: http://news. “Evercookie”, Disponible http://samy.pl/ knows you’re a dog”, New Yorker Magazine,
bbc.co.uk /2 / hi/uk _news /england / evercookie/ publicada 5/Jul/1993, Disponible en http://
london/8219022.stm, 2009. www.cartoonbank.com/invt/106197,
[12] V. Mayer-Schönberger, “Delete: The virtue
1993.
[2] F. Beato, M. Kohlweiss, K. Wouters, of forgetting in the digital age.”, Princeton
“Scramble! Your Social Network Data,” in University Press, 2009. [23] L. Sweeney, “Simple Demographics Often
Proc. of the International Symposium on Identify People Uniquely”. Carnegie Mellon
Privacy Enhancing Technologies (PETS), [13] Mozilla Do Not Track Project, Disponible
University, Data Privacy Working Paper
2011. en: http://dnt.mozilla.org/
3. Pittsburgh. Disponible desde http://
[14] A. Narayanan, V. Shmatikov. “Robust De- dataprivacylab.org/projects/identifiability/
[3] D. Boyd, K.Crawford, “Six Provocations
anonymization of Large Sparse Datasets” index.html, 2000.
for Big Data”. Disponible en: http://ssrn.
com/abstract=1926431, 2011 (How to Break Anonymity of the Netflix
[24] B.van der Berg, R. Leenes (editores), “Privacy
Prize Dataset). Security &Privacy, Oakland.
Enabled Communities”, Reporte de Privacy
[4] D. Boyd, A. Marwick, “Social Privacy Disponible en http://www.cs.utexas.
and Identity Management in Europe for
in Networked Publics: Teens’ Attitudes, edu/~shmat/shmat_oak08netflix.pdf,
Life, Disponible en: http://www.primelife.
Practices, and Strategies,” paper given at 2008
eu/images/stories/deliverables/d1.2.1-
Oxford Internet Institute Decade in Time
[15] H. Nissenbaum, “Protecting Privacy in an 10.04.23-privacy_enabled_communities-
Conference. Oxford, England. [Citado por
Information Age: The Problem of Privacy in public.pdf, 2011.
Boyd & Crawford, 2011].
Public”. Law and Philosophy vol. 17(5-6),
[25]Atul Varma, “Collusion Plugin”, v.011,
[5] D. Boyd. 2010. “Privacy and Publicity in pp.559, 596. 1998.
Disponible https://secure.toolness.com/
the Context of Big Data” (notas de charla),
[16] H. Nissenbaum, “Privacy as Contextual xpi/collusion.html
WWW 2010. Raleigh, North Carolina, abril
2010. Disponible en http://www.danah. Integrity”. Washington Law Review. Vol.
[26] A. Vedder, “Privacy, een conceptuele
org/papers/talks/2010/WWW2010.html 79 (119): pp.119-159. 2004.
articulatie”, Filosofie & Praktijk, Vol 30(5),
[17] C.Paine, U-D. Reips, S. Stieger, A.N. pp. 7-19, 2009. Citado en [17]
[6] Do Not Track Project, “Do Not Track
- Universal Web Tracking Opt Out”, Joinson, and T.Buchanan, “Internet users’
[27] S. Warren, L. Brandeis, “The Right to
Disponible en http://donottrack.us/ perceptions of ‘privacy concerns’ and
Privacy”, Harvard Law Review, vol. 4(5),
‘privacy actions’”. International Journal
1890.
[7] Federal Trade Commision, “FTC Testifies of Human-Computer Studies. Vol 65(6),
on Do Not Track Legislation”, Disponible pp. 526-536. 2007. [28]Washington Post, “Sen. Rockefeller
en: http://www.ftc.gov/opa/2010/12/ introduces ‘do not track’ bill for
dnttestimony.shtm, 2010. [18] “D2.4.1 - Final report on mechanisms”,
Internet”, Disponible en: http://www.
Primelife.eu report, Disponible en: http://
washingtonpost.com/blogs/post-tech/post/
[8] P. Golle, “Revisiting the Uniqueness www.primelife.eu/results/documents/144-
sen-rockefeller-introduces-do-not-track-bill-
of Simple Demographics in the US 241d
for-internet/2011/05/09/AF0ymjaG_blog.
Population”, In proc. of WPES 2006. En
[19] SecurityFocus, “AOL search data identified html
http://crypto.stanford.edu/~pgolle/papers/
census.pdf individuals”, http://www.securityfocus.
[29]A.F. Westin, “Privacy and Freedom”, 1st
com/brief/277, 2006
edition, New York, Atheneum, 1967.
[9] M.G. Hough. “Keeping it to ourselves:
Technology, privacy, and the loss of [20]D.J. Solove, “The digital person: Technology
[30] M. Zimmer, “On the ‘Anonymity’ of
reserve”. Technology in Society Vol. 31 and privacy in the information age”. New
the Facebook Dataset”, Disponible en:
(4): 406-413. 2009 York. New York University Press.
http://michaelzimmer.org/2008/09/30/
[21] D.J. Solove, “”I’ve got nothing to hide” and on-the-anonymity-of-the-facebook-
[10] M. Hildebrandt. “Technology and the end
other misunderstandings of privacy”. San dataset/, 2008.
of law. In Facing the limits of the law”,
Diego Law Review. Disponible en “http://

65
SURVEYS

La Web de los Datos

Gentileza: Daniel Hernández.

Desde el punto de vista de la información, abstracto de lo que se llama la “Web de


probablemente la conceptualización más Datos”. El cambio parece menor, pero sus
ingenua (pero también más entendible) de consecuencias son impredecibles. Este
la Web sea la de una biblioteca infinita. es el objeto del cual nos ocuparemos en
La idea no es nueva y en 1939 ya Borges este artículo.
la había explicitado en su cuento La
El diluvio de datos. Estudiar la Web
Biblioteca Total. “Todo estaría en sus ciegos
de Datos es un tema muy relevante.
volúmenes”, escribe. De hecho, concebir
Claudio Gutiérrez Permítannos insistir sobre este punto.
Profesor Asociado DCC Universidad un espacio universal de información como
La gran expectación existente acerca de
de Chile. Ph.D. Computer Science, una generalización de una biblioteca es muy
Wesleyan University; Magíster en los inimaginables niveles de producción,
Lógica Matemática, Pontificia útil. Incluye casi todas las facetas que uno
disponibilidad y usos de datos (sensores,
Universidad Católica de Chile; querría que tuviera tal artefacto. Pero tiene
Licenciatura en Matemáticas, experimentos, ciencias, estadísticas, redes
Universidad de Chile. Líneas de un sesgo fundamental: la biblioteca está
sociales, etc.) indican que estamos viviendo
especialización: Fundamentos de compuesta de libros, esto es, en términos
la Computación, Lógica Aplicada un cambio fundamental en las prácticas
a la Computación, Bases de Datos, de la Web, de documentos. Documentos
tradicionales de producción, intercambio y
Semántica de la Web. son artefactos producidos por humanos
cgutierr@dcc.uchile.cl procesamiento de la información. La ola de
para ser procesados (“consumidos”) por
datos fue observada ya hace algunos años
humanos. Si uno reemplaza en este modelo
por analistas de tecnologías. O’Reilly, en
Daniel Hernández el rol que juegan los libros (o documentos)
Estudiante de Magíster en Ciencias 2005, al tratar la Web 2.0 [1] indicaba que
de la Computación e Ingeniero Civil
por “datos”, lo que se tiene es un modelo
en Computación, Universidad de
Chile. Entre sus áreas de interés se
encuentran la Web, la publicación
de datos y el acceso a la información
pública.
daniel@degu.cl

66 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

“los datos son el siguiente Intel”. En un nivel Figura 1


más académico, un informe de la comunidad
internacional de Bases de Datos [2] advertía
que la ubicuidad de “Grandes Datos” iba a
remecer las bases de esta disciplina. Szalay
and Gray, basados en que la cantidad de datos
científicos se duplica cada año, hablaban
en 2006 de “un mundo exponencial” [3] y
Bell y sus colegas [4] lo llamaron “Diluvio
de Datos”. Todos se referían al fenómeno
del incremento exponencial de volúmenes
de datos comparado con el de una década
atrás, debido a los avances tecnológicos
que permiten capturarlos, transmitirlos
y almacenarlos: satélites, telescopios,
instrumentos de alto rendimiento, sensores,
redes, aceleradores, supercomputadores,
etc. Pero el fenómeno no es exclusivo de
las áreas científicas. Tendencias similares
pueden encontrarse en casi todas las áreas
de la actividad humana. Las redes sociales
están generando, no sólo grandes volúmenes
de datos, sino también redes complejas
La primera propuesta de la Web por Tim Berners-Lee. Nótese las ideas subyacentes: datos heterogéneos,
que piden nuevas técnicas y enfoques para usuarios heterogéneos, ausencia de jerarquías, redes, principalmente documentos (tomado de Tim
la gestión y procesamiento de datos. Las Berners-Lee, Information Management: A Proposal).
nuevas tecnologías también han impactado
Linked Data y Open Data. A continuación, El problema técnico que motivó el primer
las políticas gubernamentales. Leyes de
presentaremos las técnicas actuales para la diseño de la Web, fue desarrollar un espacio
transparencia e iniciativas de publicación
publicación y el acceso de datos abiertos. para la gente que trabajaba en el CERN,
y archivo de datos están imponiendo el
Finalmente, describimos algunas de las que provenía de diferentes países, con
mismo tipo de desafíos al sector público [5].
herramientas más importantes que se están diferentes costumbres, diferentes idiomas;
Administrar, curar y archivar datos digitales
usando en la Web de Datos. manejando información muy heterogénea,
se ha convertido en una disciplina per se.
como directorios de direcciones y teléfonos,
Algunos ya hablan de la “ciencia de los
notas de investigación, informes y mensajes,
datos” [6]. Este fenómeno está impactando BREVE DESARROLLO DE documentación oficial, etc., y basados en
la disciplina de la computación en todas LA WEB una infraestructura también heterogénea:
sus dimensiones, desde el nivel de sistemas,
terminales, servidores, supercomputadores,
arquitecturas, comunicaciones, bases de Tim Berners-Lee (TBL en adelante), el
diversos sistemas operativos, software y
datos, modelos de programación, ingeniería creador de la Web, la definió como “un
formatos de archivos.
de software, etc. (ver por ejemplo: [7,8,9]). En espacio de información compartida a través
todos estos desarrollos, la Web juega un rol del cual personas y máquinas se pudieran Roy Fielding [12], uno de los importantes
central como una plataforma natural donde comunicar” [10]. En otra intervención, arquitectos de los protocolos de la Web,
“viven” y se encuentran estos datos. insistía que “lo más importante de la Web resumía estos desafíos así: construir
es que ella es universal” [11]. Veremos un sistema que debiera proveer una
En este artículo exponemos sucintamente las
que esta universalidad está estrechamente interfaz universalmente consistente a esta
iniciativas y tecnologías más relevantes que
ligada al compartir. No debe ser privativa información estructurada, disponible en
se han desarrollado para abordar los desafíos
de una compañía, ni de un gobierno, ni de tantas plataformas como sea posible, y
del manejo de datos en este nuevo escenario.
una organización particular, sino que debe desplegada incrementalmente a medida que
Presentaremos primero las nociones básicas
ser compartida por toda la gente alrededor nueva gente y organizaciones se integren
de la Web. Luego, abordaremos las dos
del mundo. al proyecto.
iniciativas más relevantes en estos temas:

67
Administrar, curar y archivar datos digitales se ha la información necesaria para entender el
requerimiento, y no debiera sacar provecho
convertido en una disciplina per se. Algunos ya de ningún contexto almacenado en el
servidor. El estado de la sesión debiera ser
hablan de la “ciencia de los datos”. Este fenómeno enteramente mantenido en el cliente.

Cacheable. Esto es, que los datos de una


está impactando la disciplina de la computación respuesta puedan ser implícitamente
etiquetados como susceptibles de ser
en todas sus dimensiones. mantenidos o no el en caché. En caso de
sí, se da el derecho a reusar esa respuesta
para futuros pedidos equivalentes.

Interfaz uniforme. Una funcionalidad central


que debiera distinguir la arquitectura de la
Web de otras, es el énfasis en interfaces
En 2001 TBL [11] recordaba así los desafíos Web fue diseñada para descansar sobre una uniformes entre componentes.
técnicos de tal proyecto: especificación: los URI”. La forma particular
Sistema de niveles. Arquitectura compuesta
que tomaron el protocolo de transferencia
El concepto de Web integraba diversos y de niveles jerárquicos, donde cada
(HTTP) y el lenguaje (HTML) fueron
distintos sistemas de información, por medio componente no puede “ver” más allá del
soluciones temporales con la tecnología
de un espacio imaginario abstracto en el nivel inmediato en que está operando.
disponible en ese tiempo.
cual las diferencias entre ellos no existan.
La Web tenía que incluir toda la información
de cualquier tipo sobre cualquier sistema. PROTOCOLOS LENGUAJES
La única idea común que amarra todo era la PARA LA WEB PARA LA WEB
noción de Identificador Universal de Recursos
(URI), que identificaba un documento. Paradójicamente, una de las razones
La Web, tal como fue planteada por TBL,
A partir de allí, una serie de diseños de para el éxito de la Web fue la falta de
podría entenderse como un espacio donde
protocolos (como HTTP) y formatos de semántica y estructuración del formato de
se podría preguntar por URIs y recibir, como
documentos (como HTML), que permitían a sus documentos, el lenguaje HTML, que
respuesta, documentos. Está de algún modo
los computadores intercambiar información, surgió más orientado a los elementos visuales
implícito que se espera recibir exactamente
traduciendo sus propios formatos locales en que a la codificación de las estructuras de
aquel documento que es identificado
estándares que proveyeran interoperabilidad los documentos.
por la URI. No obstante, el protocolo es
global. lo suficientemente abierto para poder Una segunda generación, xML, permitió
Resumamos: la arquitectura de la Web se implementar otras funcionalidades, por definir la estructura de los documentos
basa en tres pilares ejemplo, recibir documentos que dependan con mayor precisión, representando los
del usuario. Roy Fielding, de quien hablamos documentos como árboles y agregando reglas
1. URI (Universal Resource Identifiers): antes, es uno de quienes más ha avanzado que permitieron establecer restricciones en
conjunto de identificadores globales en los requerimientos de protocolos Web, es la anidación de los elementos. Las distintas
que pueden ser creados y administrados decir, en la definición del comportamiento versiones del lenguaje de la Web han ido
en forma distribuida. esperado para interoperar en ella. Por razones progresivamente separando la semántica
2. HTTP (Hyper Text Transfer Protocol): de espacio, mencionemos aquí sólo las de la presentación, al crear un lenguaje
protocolo para intercambiar datos en restricciones que él sugiere en un modelo específico para definir la apariencia visual
la Web cuyas funcionalidades básicas de arquitecturas que llama REST: de los elementos, CSS, y retirar atributos
son poner datos (put) y obtener datos que anteriormente permitían definir la
Cliente-servidor. Los clientes deben
(get) desde este espacio abstracto. apariencia (como @color, @width, etc.).
estar separados de los servidores por
Siguiendo esta tendencia, en las última
3. HTML (Hyper Text Markup Language): una interfaz uniforme. Esto permite
versión, HTML5, se han incorporado
lenguaje para representar información y modularizar el desarrollo y extensibilidad
elementos como aside, article, details,
presentarla (visualmente) a humanos. de las aplicaciones.
menu, nav, header, footer, etc. cuya función
De estos tres, los identificadores globales son Ausencia de estado. Cada pedido de un es netamente identificar semánticamente
la base. TBL enfatiza esto diciendo que “la cliente a un servidor debe contener toda la estructura de los documentos.

68 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

Figura 2 sujeto y el objeto. Así, la Figura 2 describe


dos recursos que representan personas
llamadas Alicia y Juan, donde Alicia es
hija de Juan.

RDF no sólo describe una estructura de


grafos, sino que en él también se definen
los conceptos de clase e instancia. En el
ejemplo de la Figura 2, los recursos que
representan las personas son instancias de
la clase foaf:Person.

El otro componente de la WS lo forman


la capacidad de establecer reglas que
permitan modelar (y validar modelos) y
deducir afirmaciones (tripletas) a partir
de otras. Para ello se definió The Web
Ontology Language (OWL) [14], que es
una codificación de la lógica en el lenguaje
RDF, diseñado para describir ontologías y
Ejemplo de grafo RDF. El triple principal en rojo, representa la airmación “Juan es padre de Alicia”.
asociado a un semántica que define reglas
Nótese que además podemos indicar propiedades de cada una de estas personas (rectángulos grises),
por ejemplo, nombre y/o edad. Además, podemos incluir información del tipo de objeto de ambos de razonamiento para ellas.
recursos (en este caso son personas, esto es de tipo foaf:Person).
En este punto podríamos detenernos
brevemente para señalar una separación
entre los caminos del desarrollo de RDF: el
Sin embargo, a pesar del progresivo avance posibilidad de accesarlos, organizarlos y
de representar datos mediante estructuras
en la separación entre la información y administrarlos es vía automatización. b) El
de grafos y el de introducir reglas de
apariencia, para la Web de los Datos esto no problema del significado de la información:
razonamiento. El primero se enfoca en la
fue suficiente, pues el diseño del lenguaje aún ¿cuál es el significado de cada pieza de
idea de una gran base de datos y, como
tenía en mente el modelo de documento de información en la Web? Esto tiene que
consecuencia natural, requiere de lenguajes
texto diseñado para ser leído por humanos. ver fundamentalmente con la semántica y
de consulta para ella, siendo el más popular
Entonces, cabe preguntarse: ¿cuál es el el significado de los conceptos (aún en el
SPARQL (una símil de SQL para datos
“buen” lenguaje para la representación y mismo lenguaje).
RDF en la Web). El segundo, en cambio,
el intercambio global de datos? He aquí
La WS intenta resolver estos problemas visualiza la información como una base
algunos requerimientos básicos:
basada en la simple idea de organizar la de conocimiento y por ende busca definir
1. Que sea suficientemente flexible para información a nivel planetario. La WS es “la reglas para inferir conocimiento a partir de
describir la mayoría de los tipos de Web de Datos procesables por máquinas” lo ya conocido.
datos (en particular datos, metadatos escribe TBL. Y esto significa estandarizar
Enmarcados en el compromiso usual
y conocimiento). significados. Para ello la WS utiliza un
entre la expresividad y la complejidad de
modelo de datos que se conoce como
2. Que sea minimalista y eficiente en lo procesamiento, se han desarrollado varios
Resource Description Framework (RDF)
referente a las necesidades de los usuarios lenguajes para codificar vocabularios para
[13] y que está basado en la forma básica
y la complejidad de procesamiento. RDF y por ende las reglas de inferencia que
de las oraciones, compuestas de sujeto,
3. Que pueda escalar en forma distribuida ellos otorgan a los datos expresados. Estos
predicado y objeto. Estas tripletas (s,p,o)
(no centralizada). lenguajes pueden ser agrupados, en grueso
pueden ser entendidas como fórmulas
modo, en tres grupos: a) aquellos con una
lógicas binarias del tipo p(s,o).
La Web Semántica. Hay dos desafíos que mínima semántica o sin ella (esencialmente
motivan una extensión natural de las ideas Un conjunto de tripletas puede ser para definir jerarquías de tipos, clases
de la Web a un proyecto que se ha llamado interpretado como una red semántica, es y predicados) [15], b) RDF Schema más
la Web Semántica (en adelante WS): a) si decir, como un grafo dirigido con nodos algunas extensiones menores y c) OWL, el
los datos y la información escalan a niveles y arcos rotulados, donde para cada triple lenguaje para las ontologías de la Web. No
más allá de la capacidad normal de los hay un arco rotulado con el predicado y los obstante, para enlazar y describir datos, a)
humanos (como ocurre hoy día), la única nodos inicial y final son rotulados con el pareciera ser suficiente.

69
LA WEB DE DATOS: Linked Data se trata de usar la Web para 3. Use formatos no propietarios (por
conectar datos relacionados que no han sido ejemplo, CSV en vez de Excel).
LINKED DATA Y OPEN
previamente enlazados, o usar la Web para
DATA disminuir las barreras para enlazar datos que
4. Use URLs para identificar cosas, de tal
forma que la gente pueda apuntar (y
hoy usan otros métodos. Específicamente,
La Web de Datos es una colección global referenciar) a su material.
Wikipedia define Linked Data como “una
de datos producidos por la exposición y
buena práctica recomendada para exponer, 5. Enlace sus datos con los de otra gente
publicación sistemática y descentralizada
compartir, y conectar piezas de datos, para proveer contexto.
de datos (crudos), usando protocolos y
información, y conocimiento en la Web
lenguajes de la Web.
Semántica usando URIs y RDF”. Open Data
La idea es simple: gracias a las tecnologías
Sobre la infraestructura de la Web, es posible la producción,
Datos abiertos (Open Data) es un movimiento
de RDF publicación y consumo de datos (no sólo de
que apunta a facilitar la producción y
diseminación de datos e información a escala
documentos) lo que se ha hecho universal.
No es una sorpresa que la noción de la global. Debido a su relación con los temas
Sacar provecho de esto significa superar
Web de los Datos esté estrechamente que surgen de la discusión de lo “público
uno de los principales problemas hoy: el
relacionada con la WS. Aquí brevemente versus lo privado”, el movimiento ha llegado
que estos datos están desconectados unos
presentaremos las fortalezas del modelo a ser muy influyente en la administración
de otros, impidiendo su aprovechamiento
RDF y los desafíos que se enfrentan para y manejo de la información en gobiernos,
conjunto.
abordar la Web de los Datos. bibliotecas y grandes organizaciones.
TBL [18] explica como sigue las principales
RDF fue diseñado para facilitar el Podemos definir Open Data de la siguiente
ventajas de Linked Data:
procesamiento automático de la información manera: “Datos Abiertos es un movimiento
en la Web por medio de metadatos. En • Permite conectar diferentes cosas de cuyos objetivos es desarrollar y difundir
1999 la recomendación establecía con diferentes fuentes de datos. El valor estándares abiertos para los datos en la
claridad: “RDF sirve para situaciones donde agregado de poner datos en la Web Web”.
la información necesita ser procesada por estriba en que se los puede consultar en
Por supuesto la gran pregunta es qué significa
aplicaciones, en vez de sólo ser desplegada combinación con otros tipos de datos “datos abiertos”. Seguiremos aquí el enfoque
para seres humanos”. De este modo, de los cuales uno ni siquiera estaba metodológico de Jon Hoem en su estudio
el objetivo principal es la inclusión de consciente que existían. de comunicación abierta [19], adaptándolo
información accesible por máquinas en a nuestro ámbito. Hay muchas posibles
• Es descentralizado, permitiendo que cada
la Web. Pero el diseño de RDF tiene otra dimensiones desde donde acercarse a la
agencia y persona pueda crear y publicar
consecuencia, su estructura de grafo permite “apertura” de datos. Tres importantes son:
sus propios datos, sin barreras editoriales,
la representación de una amplia gama de el nivel de contenidos, el nivel lógico y el
comerciales o administrativas.
datos, abriendo la puerta a la conversión nivel físico. Para los datos, esto significa
de la Web de los documentos a la Web • Uso de estándares abiertos libre informalmente: semántica, tipos de datos
de los Datos. de licencias, significa que nadie, y formatos, y hardware.
agencias, gobiernos o personas, quedan
El poder de RDF nace de la combinación La gente ligada a datos gubernamentales
ligados permanentemente a ningún
de dos ideas: a) un modelo flexible para es quien ha elaborado más a este respecto.
proveedor.
representar tanto datos como sus metadatos Temprano, en 2007, se propusieron ocho
de una manera uniforme, en la que ambos • Un círculo virtuoso. Hay muchas principios para datos abiertos [20]. Aunque
compartirían el mismo estatus de objetos organizaciones y compañías que se se refieren a “datos públicos”, ellos ofrecen
de información. b) La estructura de grafos motivarán con la presencia de datos buenos puntos de vista genéricos:
representa naturalmente las interconexiones para desarrollar sobre ellos diversas
1. Que sean completos: todos los datos
y relaciones entre los datos. De hecho, esta aplicaciones y accesos a diferentes
deben estar disponibles.
última característica es la que sustenta el grupos de usuarios.
desarrollo de la iniciativa Linked Data. 2. Que no estén procesados: los datos se
El mismo TBL propuso un test de “cinco
publican tal como fueron recolectados
estrellas” para la publicación de datos:
en la fuente, con el máximo nivel posible
Linked Data 1. Ponga su material disponible en la Web de granularidad (sin ser agregados ni
(en cualquier formato). modificados).
Entre los proyectos más exitosos que atacan
el problema de la ubicuidad de datos en la 2. Póngalo como datos estructurados 3. Que sean actuales: exponga los datos
Web está Linked Data [16,17]. Los autores (por ejemplo, Excel en vez de imagen tan rápido como sea necesario para
del proyecto lo definen así [16]: escaneada de una tabla). preservar su valor.

70 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

4. Que sean accesibles: hacerlos disponibles independientemente de la forma en la cual satisfacer las necesidades de cada área y
para el más amplio rango de usuarios se puedan integrar. aprovechar las posibilidades que entregaba
y con los más diversos propósitos. la documentación en papel. Sin embargo,
En general las organizaciones se han visto
con la llegada de las computadoras estas
5. Que sean susceptibles de automatización: enfrentadas ante la obligación de hacer
prácticas dejaron de tener vigencia. Las
los datos razonablemente estructurados pública su información. En Estados Unidos
posibilidades de interrelacionar distintas
y marcados permiten su procesamiento esta obligación surgió de una orden emanada
fuentes de datos y de procesar de manera
automático o semiautomático. desde la Presidencia y en el caso chileno
automática los crecientes volúmenes de
comenzó con la Ley Nº 20.285, sobre el
6. Que no haya discriminación: los datos información impusieron nuevos desafíos a la
acceso a la información pública. Ante estas
debes estar disponibles para todos sin publicación de datos. En el caso particular
ordenanzas, los organismos que las tienen
necesidad de registrarse. de los datos científicos, las buenas prácticas
que cumplir se ven enfrentados ante los
que se ejemplifican en el flujo de datos que
7. Que no sean propietarios: los datos detalles técnicos y legales, sin poseer marco
resumía R. A. Baker se dejaron de lado. Los
deben estar disponibles en formatos conceptual que les permita ejecutarlas
medios actuales de comunicación de las
para los cuales ninguna entidad tenga adecuadamente. La falta de este marco para
investigaciones son los papers, pero estos
exclusivo control. organizar, preservar y hacer que los datos
rara vez van acompañados con referencias
públicos se mantengan accesibles en el largo
8. Que sean licenciados abiertamente: los a los datos. Lo que es peor, en gran parte de
plazo ha tenido como consecuencia que
datos no deben estar sujetos a ningún los casos los datos no pueden ser accedidos,
mucha información relevante desaparezca
copyright, patente, marca registrada o pues no siempre son públicos o porque se
o que transcurra tiempo valioso con ella,
regulación de secreto de negocio. han desechado.
fuera del alcance de quienes podrían
Los ocho principios anteriores definen lo que haberla utilizado. Sin duda los cambios introducidos por el
se puede considerar como Datos Abiertos, uso de los computadores requieren hacer
En los tiempos previos al advenimiento de
es decir, no implican que todos los datos un cambio de paradigma en la manera en
las computadoras plantear metodologías para
deban cumplirlos. Muchas veces pueden que tratábamos la información. Ello requiere
albergar la información resultaba una tarea
existir buenas razones para no hacerlo, detenernos a revisar y conceptualizar el
sencilla de describir. R. A. Baker resumía
como la privacidad y la seguridad. proceso de la generación, preservación
las prácticas para mantener ordenados
El impulso dado al desarrollo de modelos y uso de los datos en nuestros tiempos
los apuntes de las investigaciones en
de Datos Abiertos ha descubierto varias digitales.
laboratorios de química hacia 1933 de la
actividades que eran consideradas como siguiente manera [21]:
“dadas”, o no habían ganado la prominencia
Dado que la investigación es un esfuerzo
Datos, datasets, archivos,
que tienen hoy. Particularmente importantes bases de datos y
organizado para descubrir y una productiva
aparecen actividades como preparar datos
(para publicación), limpieza de datos,
aplicación de hechos, todos los datos distribuciones
obtenidos deben ser adecuadamente
diseño de vocabularios internacionalizados,
ordenados, correlacionados, interpretados La primera pregunta que salta frente a
infraestructura física, disponibilidad
y finalmente archivados con el fin de nosotros es qué son los datos. En general
de servicios, trazabilidad de origen, y
lograr el retorno del esfuerzo invertido. pareciera haber cierta convención tácita de
particularmente, temas de licenciamientos
Cada experimento debiera ser titulado que los datos deben ser los átomos de la
y aspectos legales.
claramente y debería limitarse a una materia información. Así, pareciera un buen acuerdo
o variaciones de un sólo factor. El título concluir que los datos son afirmaciones
PUBLICANDO Y debería aparecer al inicio de cada página instanciadas, es decir, expresiones de la forma
ACCESANDO DATOS dedicada al experimento. Luego del título a(x,y,...,z), donde a es una afirmación sobre
los objetos x,y,...,z. Esta noción de datos es
ABIERTOS inicial debería haber una descripción del
problema, seguido del procedimiento, una útil porque podemos llevarla fácilmente a
Ambos proyectos, Linked Data y Open Data, descripción de los instrumentos, los datos nuestros espacios conocidos de las bases de
son proyectos relativamente independientes. y, finalmente, las conclusiones. datos relacionales y al modelo de triples de
El primero busca entrelazar información RDF. En el modelo relacional, cada fila de
De igual manera las prácticas para mantener una tabla t puede ser entendida como una
generada y almacenada de manera
los archivos contables de una oficina, fórmula t(x,y,..., z), donde los parámetros
distribuida y de naturaleza heterogénea
los acuerdos, las leyes, los archivos son los valores de las columnas en dicha
con una tecnología apropiada, sitial que
de bienes raíces, la información del fila. De manera similar en el modelo RDF,
de momento es ocupado por RDF. El
registro civil, los registros médicos, etc. cada triple (s,p,o) puede ser entendido
segundo hace hincapié en que los datos se
se definieron meticulosamente para como una fórmula p(s,o).
encuentren disponibles para la ciudadanía,

71
Figura 3

Acciones y estados de la información.

Con este concepto de datos nos resulta distribuciones son identificadas por URIs, de botella de información se encuentra entre
sencillo definir un dataset como un conjunto que nos permiten descargar el archivo la información sin publicar y la que está
de datos que puede ser definido por correspondiente a un dataset, cuando éste disponible para el consumo, es decir, en el
extensión, enumerando todos los datos, es expresable por extensión, o acceder a proceso de publicación (ver Figura 3). Este
o por comprensión, cuando podemos una interfaz que nos permite consultar la proceso de publicación, también conocido
acotarlo de alguna manera aunque luego base de datos que lo define. como curación de datos, va desde definir
no podamos enumerar todos los datos. Por estructuras y modelos apropiados para la
ejemplo, el conjunto de datos de todos los información hasta generar identificadores
nacimientos en Chile durante 2010, es un
Actores y procesos en la para la información publicada y asegurarse
conjunto que podríamos poner por extensión,
vida de los datos de que ella quede accesible para el consumo.
mientras que el conjunto de las edades de Las tareas de depuración e integración,
En una primera aproximación al mundo de los
todos los chilenos no, pues es algo que va dibujadas como procesos independientes
datos podemos suponer dos actores: quienes
cambiando y cualquier enumeración quedará en la Figura 3, pueden también encontrarse
publican la información y quienes la usarán.
rápidamente obsoleta. En lo siguiente, a en el proceso de publicación en la medida
No obstante, los roles que encontramos
los datasets expresados por extensión los que se busca agregar valor a los datos a
en los participantes son más variados
llamaremos datos muertos, mientras que a publicar.
y muchas veces los agentes participan
los otros, datos vivos.
cumpliendo más de un rol. La Figura 3 Dado el gran volumen de la información
La clasificación entre datos vivos y muertos, grafica un modelo algo más detallado de disponible para ser publicada, el consumo
nos facilita la diferenciación entre bases los roles de los actores definidos por sus también presenta un desafío que debe ser
de datos y archivos. Un archivo es una actos (amarillos) y los estados por los que la facilitado en la publicación de los datos.
secuencia de bits que podemos guardar o información pasa (azules) como resultado De este modo, la publicación debe facilitar
enviar por la red. En particular un archivo de dichos actos. la automatización de procesos tales como:
puede codificar un conjunto de datos por encontrar fuentes de información, buscar
Actualmente tenemos una pérdida entre la
extensión, pero no uno por comprensión. información dentro de ellas, extraer partes,
digitalización y el consumo. No todos los
Por otro lado, muchos datasets definidos por integrar y visualizar.
datos generados se encuentran disponibles
comprensión corresponden a bases de datos,
para su consumo. Las preguntas son: ¿dónde
cuyos contenidos cambian constantemente.
Para interrelacionar ambos conceptos,
se están perdiendo los datos? ¿Por qué y Integración
cómo podemos evitar que esto suceda?
podemos observar que el dump de una
Refiriéndose específicamente a lo que Es uno de los mayores desafíos que impone
base de datos es siempre un archivo.
ocurre con los datos científicos, Michael la publicación de datos en la Web. La
Por último, un concepto introducido por Witt le llamó a esta pérdida “information integración de datos consiste en proveer a
ontologías para catálogos de datos como bottleneck” [22]. Como se mencionó los usuarios (o consumidores) una interfaz
DCat es el de distribución. Una distribución inicialmente, el aumento en la capacidad común para acceder transparentemente a
de datos es un medio por el cual podemos de digitalización nos llevó al fenómeno datos dispersos y de naturaleza heterogénea
acceder a un dataset. En la Web las referido como el diluvio de datos. El cuello [23]. Por ejemplo, un hipotético servicio que

72 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

recoge datos de pronósticos meteorológicos


provenientes de la Dirección Meteorológica
Sin duda los cambios introducidos por el uso de
de Chile (meteochile.cl), los contrasta con los computadores requieren hacer un cambio de
un servicio extranjero como The Weather
Channel (weather.com) y, además, entrega
paradigma en la manera en que tratábamos la
información sobre la disponibilidad hotelera información. Ello requiere detenernos a revisar
en las distintas localidades.

Además la integración, es el núcleo de los


y conceptualizar el proceso de la generación,
problemas que se busca resolver con la preservación y uso de los datos en nuestros tiempos
iniciativa Linked Data. En RDF se proponen
las URIs como elemento para identificar
digitales.
recursos y cumplen un rol fundamental en
la manera que es posible referirse a recursos
comunes desde datasets distintos.

Sin embargo, utilizar URIs no basta, obstante, el problema de la integración de grandes jerarquías ceden paso a pequeños
la integración requiere que éstas sean datos que usan distintos vocabularios en la tesauros funcionales que pueden aplicarse
compartidas entre los diferentes datasets. Web es un problema abierto. simultáneamente para describir un mismo
Esto involucra también a aquellas URIs conjunto de recursos. Siguiendo la estrategia
Otra barrera a la integración de los datos
que forman parte de los vocabularios, es de los pequeños tesauros, Simple Knowledge
es la ausencia de un modelo universal de
decir, aquellas que identifican predicados, Organization System (SKOS) es un lenguaje
la información. Antero Taivalsaari [24] lo
clases e instancias de uso común (ejemplo: que permite definir esquemas conceptuales
resume brevemente:
bio:father, foaf:Person, dbp:Chile). para ser aplicados independientemente
Un ejemplo de un concepto que es difícil unos de otros, sin requerir la construcción
En vez de definir vocabularios propios,
de definir en términos de propiedades de una jerarquía única.
comúnmente se recomienda reutilizar
compartidas es “obra de arte”. Ya que
vocabularios existentes con el fin de favorecer
nadie puede definir límites claros para
la interoperabilidad de la información
qué es arte y qué no lo es, no hay ninguna
HERRAMIENTAS PARA
publicada. No obstante, en algunos casos
clase general “obra de arte”, que comparta
PUBLICAR
no resulta posible encontrar vocabularios
propiedades comunes. La definición es
existentes que se adapten a los datos, ya Diversas herramientas han surgido a la par con
subjetiva y depende en gran medida de
sea por la inexistencia de vocabularios para las necesidades identificadas en la práctica
la situación o del punto de vista.
describir un área demasiado específica o de la publicación de datos. La mayoría de
porque nuestros datos poseen localismos Algunas personas viviendo cerca del Ecuador los organismos públicos que tomaron el
que difieren de los modelos conceptuales no pueden distinguir entre hielo y nieve, desafío de hacer accesible la información
que, en su mayoría, son diseñados para mientras los esquimales tienen numerosas pública a la ciudadanía comenzaron con
culturas que difieren de la nuestra. Aún en palabras para distinguir entre distintos tipos catálogos de datos, donde los datasets, al
estos casos suele ser preferible extender de nieve. Los Dani, de Nueva Guinea, tienen igual que los catálogos de documentos,
vocabularios existentes a crear vocabularios sólo dos términos de colores básicos: mili eran tratados como objetos opacos, en los
desde cero. (oscuro / frío) y mola (luminoso / cálido) que cuales sólo es posible acceder de manera
cubre el espectro completo, y tienen gran uniforme a ciertos metadatos comunes. Los
Las recomendaciones anteriores, se deben
dificultad para diferenciar entre colores catálogos cumplen con el objetivo básico
en gran medida a que aún no está resuelto
con mayor detalle. de hacer accesibles y referenciables a los
el problema de cómo integrar datos
expresados con distintos vocabularios. Los lenguajes para definir vocabularios datasets, pero aún presentan una deuda:
Algunas estrategias para enfrentar este RDF Schema y OWL se fundamentan en la integración de datos. Es allí donde el
problema son: a) traducir los datos de un la definición de clases y subclases, lo que modelo RDF entra en juego, proveyendo
vocabulario a otro antes de consultarlos, b) implica establecer jerarquías entre ellas. Las de herramientas para integrar lógicamente
aplicar reglas de deducción al momento de observaciones de Taivalsaari ponen en duda los datos y para consultarlos. Aunque aún
realizar la consulta y c) modificar la consulta que tal construcción pueda extenderse a quedan temas abiertos, como el balance
de modo que permita trabajar con datos nivel planetario. Un fenómeno similar puede entre la centralización y la distribución.
expresados en más de un vocabulario. No visualizarse en bibliotecología, donde las

73
Catálogos Información Territorial (SNIT). No obstante, es su modelo flexible para representar tanto
cuando se habla de catálogos de Datos datos como sus metadatos de una manera
La creciente publicación de datos por Abiertos lo esperable es que éstos sean uniforme, en la que ambos comparten el
gobiernos y organismos públicos se ha accesibles a través de la Web, ya sea mismo estatus de objetos de información.
realizado mayoritariamente en la forma mediante documentos descargables (datos Así pues, la siguiente herramienta que
de catálogos de datos. La publicación de muertos) o servicios que permiten consultar describiremos, los SPARQL stores, se
catálogos nacionales de datos fue impulsada por datos en línea (datos vivos). enfrentará directamente con el problema
con el precedente establecido por los de la integración.
La gran aceptación que ha ganado el
Gobiernos de Estados Unidos y Reino Unido, proyecto Linked Data, ha influido en que
con sus catálogos lanzados en mayo de algunos catálogos modelen y publiquen SPARQL stores
2009 y en enero de 2010, respectivamente. la información de los datasets con RDF.
En un corto período de dos años ya han Un ejemplo de ello es el catálogo de En general hablamos de RDF stores o
surgido numerosos catálogos de gobiernos Australia, donde las páginas del catálogo se triplestores para referirnos a bases de datos
locales, regionales y nacionales, así como encuentran en formato RDFa, una extensión orientadas a almacenar y consultar datos en
también de organizaciones internacionales de xHTML que permite marcar datos usando forma de triples RDF. En particular, hablamos
como el Banco Mundial y numerosas ONG. el modelo RDF. Para el catálogo de datos de SPARQL stores cuando el lenguaje de
Existen varias organizaciones preocupadas públicos del Gobierno australiano se creó consulta es SPARQL.
de hacer una suerte de metacatálogo, es un vocabulario RDF específico para expresar
SPARQL es un lenguaje de consulta basado
decir, listar y describir todos los catálogos sus metadatos, el AGLS, aunque también
en patrones, es decir, para obtener un
de datos existentes, entre ellos destacan los existen vocabularios de uso general para
conjunto de recursos que satisfacen ciertas
de la fundación CTIC, la Open Knowledge catálogos como DCat y VoID. El primero
propiedades debemos establecer un patrón
Foundation (OKF) y el Resselaer Polytechnic de ellos es aplicable para catálogos donde
por medio del cual estos recursos se
Institute (RPI). En el más reciente recuento, los datos pueden ser publicados en
encontrarán en el espacio de información
la OKF contabiliza la existencia de 139 cualquier medio, mientras que el segundo,
sobre el cual queremos buscar. Como el
catálogos de datos. es específico para interrelacionar datasets
espacio de RDF corresponde a grafos, los
En Chile, si bien existen varios organismos publicados en el modelo RDF, ya sea a
patrones serán definidos con grafos. Por
públicos que están dejando disponible la través de archivos o servicios de consulta
ejemplo:
información, aún no se ha logrado lanzar (SPARQL endpoints).
un portal que permita un acceso común a El uso de catálogos para dataset responde
todas las fuentes de datos nacionales, por SELECT ?a, ?b
principalmente a la necesidad de encontrar
lo que muchas de ellas son desconocidas FROM <http://x/grafo>
fuentes, mencionada al inicio de la sección
para la población. Junto con las dificultades WHERE {
“Actores y procesos en la vida de los datos”
de encontrar, la información publicada ?a rdf:type foaf:Person .
de este artículo, y entregarles identificadores
por la mayoría de los organismos públicos ?b rdf:type foaf:Person .
que permitan agregar metadatos a los
chilenos suele encontrarse en formatos que ?c rdf:type foaf:Person .
dataset. Así por ejemplo, el problema de
dificultan su procesamiento automatizado e ?a bio:father ?c ;
los identificadores de datasets publicados
integración con otras fuentes de datos. ?c bio:father ?b ;
de manera distribuida es resuelto por el
}
Un catálogo puede entenderse como proyecto Dataverse, utilizando el Universal
una colección de entradas describiendo Numeric Fingerprint (UNF), un identificador
conjuntos de datos, también conocidos como generado aplicando una función sobre el
Busca a todos los pares de nodos (?a,?b)
datasets. La descripción de los datasets suele dataset con una muy baja probabilidad
dónde ?b es el abuelo paterno de ?a. Los
incluir metadatos tales como el nombre, la de colisionar. No obstante lo anterior,
elementos ?a, ?b y ?c son las variables
descripción, las materias tratadas, el origen, el problema de integrar los datos no es
dentro del patrón que corresponde a lo
la fecha de publicación, las licencias de abordado en los catálogos, pues ellos se
que se encuentra entre los paréntesis que
uso, etc. Entre estos metadatos resultan sitúan en un nivel en el cual los datos son
acompaña al WHERE. Las variables deben
fundamentales las referencias para poder visualizados como objetos oscuros de los
ser instanciadas para entregar la respuesta
acceder a los datos. En algunos casos estas que sólo se puede agregar información por
que se pide en el SELECT. Por último, FROM
referencias son teléfonos o direcciones medio de metadata.
especifica el grafo desde donde deben
para consultar por ellos, como en el caso Como comentamos anteriormente, una de tomarse los triples que se usarán para hacer
del catálogo de datos geográficos de Chile, las cualidades que hacen relevante a RDF calzar el patrón.
mantenido por el Servicio Nacional de

74 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

La noción de grafo, identificable mediante de realizar búsquedas federadas. De este como archivos aparte de los diseñados
URIs, permite agregar metadatos a estos modo, el uso de SPARQL sobre todos los para la visualización humana y b) usar las
grafos, visualizándolos como datasets. Esto datos enlazados distribuidos suena como mismas páginas Web como soporte para
es especialmente relevante para manejar la si necesitáramos un triplestore central la publicación de datos.
proveniencia (linaje) de los datos, porque que contenga todo lo que querríamos En la primera variante nos encontramos
en muchos casos éstos podrían provenir de consultar. con las diversas serializaciones (sintaxis) de
diversas fuentes, con distintas calidades,
RDF como RDF/xML, N3, Turtle, TriG, Trix,
temática y usos de vocabularios.
Publicación de RDF etc. En la segunda variante consideramos
A pesar de que los SPARQL endpoints en la Web lenguajes de marcado como RDFa, eRDF y
satisfacen la necesidad de consultar e Microdata, que resultan interesantes, pues
integrar datos, actualmente no eliminan Cuando hablamos de publicación de RDF en permiten publicar datos haciendo pequeñas
la tensión entre concentrar información la Web podemos diferenciar principalmente modificaciones en las plantillas, que generan
localmente para consultarla y publicar entre dos estrategias: proveer un servicio las visualizaciones de los contenidos.
distribuidamente. Jeni Tennison explica de consulta para acceder a los datos Por último, los desafíos de almacenar e
esta situación [25]: directamente, como resulta mediante un intercambiar grandes volúmenes de datos
Lo que no me queda muy claro es cómo RDF store y publicar los datos tal cual, en llevan a plantear formatos de archivos
esta publicación distribuida de datos puede archivos que sea posible descargar. compactos y que sean capaces de resumir
conciliarse con el uso de SPARQL para de manera autocontenida lo que contienen,
La publicación de datos como archivos en
consultar. Después de todo, SPARQL no como es el caso de HTC [25].
la Web tiene dos variantes: a) publicarlos
soporta (en la actualidad) la capacidad

REFERENCIAS [11] T. Berners-Lee. Commemorative Lecture


The World Wide Web - Past Present and
de julio de 2006.http://firstmonday.org/
htbin/cgiwrap/bin/ojs/index.php/fm/article/
Future. Exploring Universality. Japan Prize viewArticle/1367/1286
[1] T. O’Reilly, What Is Web 2.0, 2005.http://
Commemorative Lecture, 2002 http://www.
oreilly.com/web2/archive/what-is-web-20. [20]Seminar on Open Government Data
w3.org/2002/04/Japan/Lecture.html
html. (Open Government Working Group), 7 y
[12] R. T. Fielding, Architectural Styles and 8 de diciembre de 2007. http://resource.
[2] R. Agrawal et al., The Claremont Report
the Design of Network-based Software org/8_principles.html
on Database Research, 2008. http://db.cs.
Architectures. Doctoral dissertation,
berkeley.edu/claremont/. [21] Baker, R. A. In the research laboratory.
University of California, Irvine, 2000.
Journal of Chemical Education, Vol. 10,
[3] A. Szalay, J. Gray, Science in an Exponential http://www.ics.uci.edu/~fielding/pubs/
1933, pp. 408–411.
World, Nature, Vol. 440, marzo de 2006, dissertation/top.htm
pp. 413–414. [22]M. Witt, Institutional Repositories and
[13] G. Klyne, J. Carroll, Resource Description
Research Data Curation in a Distributed
[4] G. Bell, T. Hey, A. Szalay, Beyond the Framework (RDF) Concepts and Abstract
Environment, Library Trends, 57(2),
Data Deluge, Science, Vol. 323, marzo Syntax, W3C Recommendation, 2004.
2009. http://docs.lib.purdue.edu/lib_
de 2009, pp. 1297–1298. http://www.w3.org/TR/2004/REC-rdf-
research/104/
concepts-20040210/
[5] DATA.gov, proyecto de publicación de
[23] T. Lee, Attribution Principles for Data
datos del gobierno de Estados Unidos. [14] D.L. McGuinness, F. van Harmelen, OWL
Integration: Policy Perspectives, febrero
http://www.data.gov/ Web Ontology Language Overview, W3C
de 2002.
Recommendation, 10 de febrero de 2004,
[6] Mike Loukides, What is data science?, http://www.w3.org/TR/owl-features/ [24] A. Taivalsaari, Classes vs. Prototypes - Some
2010. http://radar.oreilly.com/2010/06/
Philosophical and Historical Observations,
what-is-data-science.html [15] S. Muñoz, J. Pérez, C. Gutiérrez, Simple
Journal of Object-Oriented Programming,
and Efficient Minimal RDFS. J. Web Sem.
[7] G. Bell, J. Gray, A. Szalay, Petascale 1996.
7(3), 2009.
Computational Systems: Balanced
[25]Jeni Tennison, Distributed Publication
CyberInfrastructure in a Data-Centric [16] LinkedData Project, http://www.linkeddata.
and Querying, blog personal. http://www.
World, Computer, Vol. 39, Issue 1, enero org
jenitennison.com/blog/node/143
de 2006, pp. 110–112.
[17] Ch. Bizer, T. Heath, T. Berners-Lee, Linked
[26] J. Fernández, C. Gutiérrez, M. Martínez-
[8] M. Stonebraker, S. Madden, D. J. Abadi, S. Data - The Story So Far, International
Prieto, Compact Representation of Large
Harizopoulos, N. Hachem, and P. Helland, Journal on Semantic Web and Information
RDF Data Sets for Publishing and Exchange,
The end of an architectural era: (it’s time Systems, Vol. 3, 2009, pp. 1-22.
ISWC 2010. LNCS 6496, pp. 193–208.
for a complete rewrite), Proc. VLDB ‘07,
[18] T. Berners-Lee, Linked Open Data. What is Shanghai, China, 7–11 November 2010.
2007. pp. 1150–1160.
the idea?, http://www.thenationaldialogue.
[9] No SQL, http://nosql-database.org/ org/ideas/linked-open-data
[10] T. Berners-Lee. WWW: Past, present, and [19] J. Hoem, Openness in Communicaton,
future. IEEE Computer, 29(10), octubre de First Monday, Volume 11, Number 7, 3
1996, pp. 69–77.

75
conversaciones

Entrevista
Héctor García Molina
Por Claudio Gutiérrez

Héctor García Molina es uno de los cientíicos de la computación más importantes.


Nacido en México, hoy mexicano-estadounidense, es actualmente profesor de
la Universidad de Stanford. Fue director del Departamento de Ciencias de la
Computación de la Universidad de Stanford, institución en la que fue profesor
de Larry Page y Sergey Brin, creadores y fundadores de Google. Su área de
especialización son las Bases de Datos Distribuidas. Y es uno de los autores con
mayor impacto en Ciencia de la Computación.

Durante el Workshop sobre Fundamentos de Bases de Datos 2011, en Santiago,


que lleva el nombre de Alberto Mendelzon en homenaje a uno de los teóricos
más importantes de las Bases de Datos a nivel mundial, y gran amigo de la
comunidad Latinoamericana del área, tuvimos oportunidad de conversar con
Héctor sobre su trabajo y nuestra disciplina.

I. Los inicios en la disciplina eléctrica pero al primer año me di cuenta


que lo que me interesaba más era el área
¿Cómo llegaste a la computación?
de computación.
Desde que estaba estudiando mi carrera
en México me empezaron a interesar
las computadoras, aunque estudié ¿Qué cosas te entusiasmaron para cambiarte
ingeniería eléctrica originalmente, ya había al área de computación?
computadoras y siempre me fascinaron.
Pues el hecho de que era un poco más
Terminé la carrera de ingeniería eléctrica matemático, podía chequear las ideas un
en México en el Instituto Tecnológico de poco más fácilmente, ver que funcionaban
Monterrey, en la ciudad de Monterrey que y la verdad es que nunca tuve mucha suerte
ahora tiene diferentes campus en México. con los circuitos eléctricos. Construí algún
Después me fui a estudiar a Stanford en 1974 circuito y no funcionaba, pero le movía los
una maestría, inicialmente en ingeniería alambres y sí funcionaba, y luego tenía más

76 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

fuerte con los programas que escribía, que interesante y tenía algo práctico pero con hecho han empezado ya sea cuando uno
eran más sólidos y funcionaban mejor que buena teoría detrás. Me interesó esa área de mis alumnos -de los cuales aprendo
lo que hacía en electrónica, así que pensé y ahí trabajé inicialmente. mucho siempre- o alguna visita viene. Por
“mejor me voy por la computación”. ejemplo teníamos un programa sobre Data
Terminé mi tesis en 1979. Y aún cuando
Warehousing (almacenes de datos) hace
empecé a trabajar en el área de Integración
muchos años y eso empezó cuando Dan
de Información, pues no existía la Web (fue
¿Cómo elegiste el área particular en que Fishman que trabajaba en Hewlet Packard
hasta los noventa cuando empezó), o sea
trabajas (Bases de Datos) dentro de la Labs pasó a visitarnos, no me acuerdo en qué
había muchas de las ideas pero no tenían
Ciencia de la Computación? contexto fue (quizás en una Conferencia),
la importancia de la Web.
y nos empezó a conversar sobre su interés
Cómo soy de México originalmente y todavía
Cuando terminé el Doctorado me fui a en el ramo industrial de Data Warehousing.
no había decidido dónde me iba a quedar
trabajar de profesor en la Universidad de Entonces con mi colega Jennifer Widom nos
en el largo plazo, quería estudiar algo que
Princeton, donde estuve desde el ’79 hasta sentamos y dijimos “no hay nada ahí, pues
además creía que era un poco más práctico
finales del ’91, doce años dando clases. debiéramos hacer una copia, pero vamos
y que podía tener potencial más práctico,
Luego tuve la oportunidad de regresar a pensarlo un poquito más, a lo mejor a
y en aquel entonces el área de Bases de
a Stanford como profesor y empecé en hay algo más de lo que está hablando la
Datos me pareció un área que tiene más
enero de 1992. gente y por eso las compañías dicen que
aplicaciones que algunas de las otras áreas de
hay problemas, veamos cuáles son los
Computación y entonces pensé que tendría
problemas que tienen”. Entonces comencé
la puerta abierta para regresar a México o
II. La investigación a leer, a estudiar y sí descubrimos que había
para trabajar en compañías, porque todavía
algunos aspectos interesantes en los cuales
no había decidido qué quería hacer. Esa fue En tu larga experiencia como investigador,
podíamos contribuir como académicos.
una de las razones. eres una de las personas que tiene uno de
Empezamos el proyecto y fue bien recibido,
los altos índices de citación en el área, ¿qué
tuvo alto impacto. Ese es un ejemplo de una
desafíos actuales hay para los investigadores
¿Y luego de eso, te entusiasmaste y seguiste idea que empezó a partir del contacto con
de Ciencia de la Computación? ¿Qué has
un Doctorado? alguien de una compañía. Un problema
hecho como investigador para mantenerte
real. Pensamos si la gente está empezando
Sí, después de un año me gustó Stanford. en las grandes ligas?
a hablar de esto, vamos a ver si podemos
Durante mi carrera no sabía bien de qué se
Uno de los factores -no sé si desafíos, hacer algo o no.
trataba un Doctorado, cuando estudié en el
retos o factores- importantes es estar
Tecnológico de Monterrey había muy poca
bien conectado con los problemas de la
gente con Doctorado no se hacía mucha o
actualidad: qué está haciendo la industria, ¿Qué áreas dentro del mundo de los Sistemas
nada de investigación en aquel entonces.
de qué problemas está hablando la gente, de Información y de las Bases de Datos,
No entendía bien en qué consistía hacer
porque es una buena fuente de problemas piensas que son las de más perspectivas
un Doctorado, hasta que llegué a Standford
y de ideas, y el trabajo que haces entonces hoy, desde el punto de vista técnico?
y empecé a entender de qué se trataba la
es más relevante, le va a interesar más a la
investigación, qué hacía un investigador, Es mucha la cantidad de datos que se está
gente si estás trabajando problemas que les
qué futuro había allí y eso me empezó a generando. Es un problema muy interesante,
interesan a las compañías. Creo que esa es
entusiasmar y decidí que me quedaba en hay muchas fuentes de información
una forma de tener éxito en el campo, estar
el Programa de Doctorado. a través de los sistemas sociales, por
pendientes, estar yendo a conferencias, de
ejemplo, instrumentos científicos están
visita a compañías, tener interacciones con
generando una infinidad de datos, los
otros investigadores para estar al tanto de
¿Con quién hiciste la tesis, quién fue tu cuales no sólo se tienen que almacenar
lo que está pasando.
advisor y qué temas trabajaste? y hacer búsqueda de ellos, sino también
explotar, hacer data mining y analizarlos.
Mi asesor fue Gio Wiederhold -quien está
Hay muchos problemas interesantes para
jubilado pero todavía está ahí y participa Trabajaste en Princeton y ahora en Stanford,
poder canalizar efectivamente todos
en las juntas de nuestro grupo- y fue en el donde el ambiente intelectual y cientíico
estos datos, entonces es un área muy
área de Bases de Datos Distribuidas. En es de primer nivel, ¿cuánto incide eso?
interesante. Estamos entendiendo más
aquel entonces me impresionó mucho uno
Para mí es sumamente importante estar así, cómo los humanos -porque estos datos son
de los trabajos de Jim Gray sobre control
en un ambiente de muchas ideas. Tú sabes generados por seres humanos- interactúan,
de concurrencia y bloqueo; me pareció
que muchos de los proyectos que hemos se comunican; estamos aprendiendo mucho

77
sobre la sicología de los humanos y cómo Hace años la gente nos decía “es que la han surgido mejores departamentos de
operamos, cómo evaluamos a otros, cómo gente de la comunidad de Bases de Datos computación es donde hay administradores
se propaga la información a través de las se quedó atrás con lo de la Web ¿verdad?” que aprecian, entienden el campo y saben
redes, que es un área muy importante y No nos quedamos atrás, es que hay otras evaluar las contribuciones e interpretarlas.
muy interesante. disciplinas que están tomando esos trabajos. Por ejemplo en Stanford para promover a
Pero un poco para presumir ¿de dónde alguien el factor más importante son las
Otra área que está empezando a interesarnos
salió Google? La compañía Google salió de cartas de evaluación, se piden como a
a nosotros y a otros grupos es sobre el
un grupo de Base de Datos, por ejemplo. quince personas, especialistas del campo,
uso de seres humanos en la computación,
Así que no nos quedamos tan atrás como que evalúen el candidato y eso cuenta
inspirados por “mechanical turk” y otros,
comunidad. más que el número de publicaciones. Sí
donde uno puede dar trabajos pequeños a
vemos el número de publicaciones y en
gente que por un pago pequeño contesta
qué sitio son, pero es más importante ese
las preguntas o hace los trabajos. Estamos III. Políticas cientíicas
otro tipo de evaluación. Creo que el resto
viendo cómo se organiza un sistema de
Vamos a hablar de políticas cientíicas. Me de las universidades está cambiando,
cómputo o un sistema de bases de datos, por
gustaría conocer tu opinión, lo pregunto tendiendo a evaluar la computación en
ejemplo, donde parte del trabajo y parte de
particularmente sobre la computación forma diferente.
la información esté en las personas, cómo
chilena, sobre esta relación entre la ciencia
se puede construir un sistema de ese tipo,
y la computación como disciplina nueva,
híbrido entre computación y humanos,
y el respeto -o la falta de respeto- con que Hay otro tema que empieza a aparecer en
y es ahí donde estamos empezando a
otras disciplinas la miran en términos de la academia y es esta relación en que el
investigar.
evaluación, publicaciones científicas y cientíico más independiente, más puro, se
estas cosas. ¿Sientes que la Ciencia de la está mezclando mucho con la aplicación y
Computación se ha ganado el respeto dentro de alguna manera hay un tema económico
El tema de este diluvio de datos que hablaba
de las otras ciencias clásicas? que tiene que ver con la innovación, con
Jim Gray, es un tema que parece que está
la ligazón con la empresa; aquí alguna
envolviendo a toda la disciplina de la Ciencia Pues poco a poco. Pero ese problema
gente reclama que esto le hace perder el
de la Computación… no es exclusivamente chileno. Fue un
rol al académico clásico, ¿qué piensas de
Y más. Todas las disciplinas en general: problema en Estados Unidos por muchos
ese fenómeno?
medicina, economía… todos están queriendo años, en universidades batallaba la gente
en computación para salir adelante en las Me parece que es bueno, como dije
analizar datos.
promociones, porque ocurría el mismo inicialmente, tener nexos con el mundo
problema: los que estaban tomando las real porque los problemas que generan
decisiones, los decanos, los rectores de son interesantes y es la clave para tener
De repente ¿no te queda la impresión de
universidades veían por ejemplo el número impacto, que es una palabra que se usa
que la comunidad de Bases de Datos se ha
de publicaciones en journals o revistas y mucho en las evaluaciones en Stanford
quedado un poquito atrás en eso?
en computación no existe esa tradición y otras universidades. Entonces es más
No, pues es difícil distinguir entre las porque estamos en conferencias, en sitios fácil tener impacto si uno está trabajando
diferentes comunidades, muy diversas, que “más informales” según ellos. en problemas reales, donde hay gente
hacen Bases de Datos: machine learning, esperando la solución. Ahora no es bueno
data mining, databases (clásicas), Web, etc. Si irse al extremo y estar trabajando demasiado
vas por ejemplo a una conferencia de KDD ¿Cómo ganaron esa pelea en lugares como solamente en problemas que van a servirle
(Knowledge and Data Discovery) que es una Stanford, porque esa pelea aquí en Chile a la industria, porque ésta muchas veces
de las principales en esa área, hay gente de todavía la tenemos? quiere soluciones inmediatas, problemas
Base de Datos y de Inteligencia Artificial a corto plazo. Lo que tienen que hacer
que están trabajando ahí. Entonces no creo No sé cuál es el secreto, pero en algunas
los académicos es tener los problemas,
que nos estemos quedando atrás. universidades se empezaron a tomar más
escoger cuáles son los a más largo plazo
factores, por ejemplo, la opinión de la
A veces es difícil identif icar cuál en qué pueden contribuir los académicos
gente importante, de los que han tenido
es la comunidad de Bases de Datos, y no preocuparse tanto por los a corto
más influencia en el campo, más que el
porque está desperdigada en diferentes plazo, porque muchas veces las compañías
número de publicaciones o dónde han
subdisciplinas. quieren software, quieren algo inmediato
publicado. Creo que las universidades donde

78 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista / Bits de Ciencia

y muchas veces hay que decirles que no, Parte del problema creo que es que en que ustedes pueden buscar en Chile son los
esa es la clave para poder identificar los México, o en parte de Latinoamérica, no mismos que puedo buscar yo en la Web,
problemas que vale la pena atacar. hay una cultura de apreciar los estudios de así que se ha emparejado mucho más el
graduados y las ciencias. En México hay campo, es igual de difícil o fácil trabajar
mucho más énfasis en tener un trabajo y ganar aquí que en otras partes. Ese es un punto
Y por otro lado, ¿qué opinas de esta dinero, más que en tener una trayectoria de importante.
competencia casi demencial por el paper investigador, de científico. Por ejemplo, veo
Como sugerencia, tratar de buscar problemas
que existe hoy? ¿A lo largo de tu carrera en Stanford que nos llegan solicitudes para
interesantes; ir a conferencias en otras
notas que ha cambiado, que hay más énfasis el Programa de Doctorado de todas partes
partes del mundo; ir de visita a otras
en la publicación? del mundo y son los mejores estudiantes
universidades; si tienen oportunidad pasar
del mundo que están solicitando, pero hay
Sí, ha cambiado bastante en los ramos de tiempo en Europa o en Estados Unidos; no
patrones muy marcados: de ciertos países
computación la presión por publicar más preocuparse nada más por publicar muchos
nos llegan muchas solicitudes y de otros
y más artículos. Lo veo, por ejemplo, en artículos sino tratar de tomarlo un poquito
muy pocas, en general de Latinoamérica
el número de publicaciones de los que más lento y desarrollar las ideas que van a
llegan muy pocas y he chequeado con mi
están solicitando empleo. Hace años tener gran impacto, porque antes de lanzarse
colegas en otras universidades similares
los currículums llegaban con dos o tres a escribir un artículo les digo a los alumnos
y también hay muy pocos solicitantes ¿y
publicaciones y era alguien muy bueno, que vamos desarrollar tres o cuatro ideas
por qué?, cada vez que voy a México o a
ahora si no tiene diez o veinte publicaciones de posibles artículos, explorarlas y de esas
otro país de Latinoamérica trato de hablar
alguien que se está recibiendo entonces no cuatro escoger cuál suena más interesante,
con los estudiantes de por qué no quieren
es tan bueno. pero no irse nada más con la primera que
estudiar un Doctorado y me preguntan
se les ocurra.
“para qué, para qué voy a estudiar un
Doctorado si no me voy a hacer rico, si En cuanto a trabajar solo o no, depende
¿Es parte del fenómeno que estamos viviendo
luego regreso a mí país y no hay puestos mucho del área y del estilo de cada quien,
o ves alguna salida a esto?
de trabajo en el área”, así es que no tienen pero aún si uno trabaja solo es bueno tener
La verdad no sé cuál es la solución, porque interés. Por otro lado mis colegas en la colegas con los que se pueda conversar,
sí hay demasiada presión, demasiadas Escuela de Negocios de Stanford tienen aunque estén trabajando cosas diferentes,
publicaciones. A mis alumnos trato de muchas solicitudes de Latinoamericanos. pero con mis alumnos aprendemos mucho
decirles que lo importante no es el número Todos los latinoamericanos aparentemente cuando tratamos de explicar una idea, el
de publicaciones que deben tener si no que quieren sacar un máster en administración de sólo hecho de explicarla y tratar de contestar
la gente lea, que tengan impacto, no nada negocios, no quieren estudiar computación las preguntas muchas veces le hace ver a
más tratar de sacar un montón de artículos, o ciencias. Estoy exagerando, pero sí es uno que a lo mejor esto ya no es tan bueno
mejor ir más lento pero tratar de sacar algo una tendencia. o hay un problema que aún no se había
que valga la pena. Pero es difícil para ellos visto. Creo que es muy importante estar
aceptar mis sugerencias porque ven que Tengo la impresión de que aquí en Chile
constantemente intercambiando ideas con
todo el mundo está publicando muchas hay un poco más de aprecio a la academia
otros aunque el trabajo sea de uno y los
cosas, entonces a veces les tengo que decir que en otras partes de Latinoamérica, así
otros estén nada más dando opiniones. O
que no manden ese artículo, que no está es que están mejor que en otras partes. Es
aunque no hagan nada los otros son como
listo, va a ser contraproducente, que si se lo lo que he visto.
el siquiatra: se sienta ahí y deja al paciente
publican es peor porque no va a ser bueno hablar. La ventaja es que uno al hablar y
y a lo mejor van a agarrar mala fama. explicar entiende mejor las cosas, por eso
¿Qué mensaje le darías a los profesores
es muy importante tener colegas que lo
y a los investigadores en Ciencia de la
escuchen.
¿Cómo ves desde Estados Unidos cómo Computación en Chile, en dos temas: en el
ha evolucionado la computación en desarrollo de área y en cómo contribuir a la
Latinoamérica? computación desde Latinoamérica?
¿Qué consejo darías a los estudiantes que
Mis comentarios son más sobre México Hoy en día hay muchas oportunidades de están iniciándose en la computación?
porque conozco más, no es tanto de contribuir fuera de los centros principales,
Que busquen problemas que los apasionen.
Chile en particular, y creo que se aplica a porque a través de las redes y de la Web,
Trabajar en un problema que los apasione,
Latinoamérica, pero no estoy seguro. la información está accesible, los artículos
que les interese, es lo más importante.

79
conferencias:
Latin American Theoretical INformatics
(LATIN 2012)
La parte principal de la conferencia consta de las • A. Richa, Arizona State U.
presentaciones de las publicaciones aceptadas,
• J. Sakarovitch, CNRS/ENST
complementadas por un grupo de charlista
invitados, que en la próxima versión de LATIN • G. Salazar, U. San Luis Potosí
se compone de los profesores Scott Aaronson
• N. Schabanel, LIAFA U. París
(Massachusetts Institute of Technology), Martin
Davis (New York University), Luc Devroye • R. I. Silveira, UPC Barcelona
(McGill University), Marcos Kiwi (Universidad
• M. Singh, Princeton U.
de Chile), Kirk Pruhs (University of Pittsburgh) y
Dana Randall (Georgia Institute of Technology). • M. Strauss, U. Michigan
En particular, Scott Aaronson y Martin Davis
celebrarán con sus charlas el “Alan Turing year” • W. Szpankowski, Purdue U.
y Luc Devroye las contribuciones científicas de • J. Urrutia, UNAM
Philipe Flajolet.
• E. Vigoda, Georgia Tech
La selección de los trabajos a ser presentados
en LATIN’2012 estará a cargo del siguiente • A. Viola, U. de la República
comité de programa, que reúne a destacados Las fechas importantes para el envío de
expertos del área: trabajos son:

• R. Baeza Yates, Yahoo! Fecha límite de envío:


Abril 16-20, 2012, Arequipa, Perú. 23 de septiembre de 2011
• N. Bansal, IBM
http://latin2012.cs.iastate.edu
Notificación de aceptación: 25 de noviembre
• J. Barbay, U. de Chile
de 2011
Esta conferencia internacional, usualmente de • M. Bender, Stony Brook U.
cinco días, ocurre cada dos años, en marzo Versión final:
o abril. En la actualidad se realiza cada dos • J. R. Correa, U. de Chile 16 de diciembre de 2011
años. Sus versiones previas han tenido lugar • P. Crescenzi, U. Firenze Los trabajos deben estar escritos en LaTex, en
en Sao Paulo, Brasil (1992), Valparaíso, Chile estilo LNCS y en inglés. Deben tener una extensión
(1995), Campinas, Brasil (1998), Punta del • M. Farach-Colton, Rutgers U.
máxima de doce páginas y ser sometidos a
Este, Uruguay (2000), Cancún, México (2002), • C. G. Fernandes, U. Sao Paulo través de EasyChair (http://www.easychair.org/
Buenos Aires, Argentina (2004), Valdivia, Chile conferences/?conf=latin2012).
(2006), Buzios, Brasil (2008), y Oaxaca, México • D. Fernandez-Baca (Chair), Iowa State U.
(2010). Su temática principal es la Teoría de la En particular, se buscan artículos originales
• G. Fonseca, Unirio en teoría de la computación, incluyendo las
Computación (“Theoretical Computer Science”).
La conferencia se ha constituido en el evento • J. von zur Gathen, U. Bonn siguientes áreas (entre otras): algoritmos (de
científico Latinoamericano más importante en aproximación, en línea, aleatorizados, teoría de
• J. Koebler, Humboldt U. juegos algorítmica), teoría de autómatas, teoría
la referida temática y ha alcanzado un meritorio
reconocimiento internacional. • Y. Kohayakawa, U. Sao Paulo de códigos y compresión de datos, combinatoria
y teoría de grafos, complejidad computacional,
La próxima versión de LATIN tendrá lugar en la • S. R. Kosaraju, Johns Hopkins U. álgebra computacional, biología computacional,
Universidad Católica San Pablo, en Arequipa, geometría computacional, teoría de números
• R. Kumar, Yahoo!
Perú. Habrá una sesión especial dedicada a la computacional, bases de datos, recuperación de
celebración de los cien años del natalicio de • G. Manzini, U. Piemonte Orientale la información, estructuras de datos, Internet y
Alan Turing (reconocido como uno de los padres la Web, lógica en Ciencias de la Computación,
• A. Marchetti-Spaccamela, U. Roma
de la computación) y otra sesión en honor al programación matemática, teoría del aprendizaje
recientemente fallecido Philippe Flajolet (uno de • C. Martínez, UPC Barcelona computacional, reconocimiento de patrones,
los fundadores del área de análisis de algoritmos). computación cuántica, estructuras aleatorias,
• E. Mayordomo, U. Zaragoza
Junto con la conferencia se realizará la 1st Latin computación científica.
American Theoretical Informatics School, dirigida • L. Moura, U. Ottawa
a estudiantes de posgrado y alumnos avanzados Los artículos serán publicados en formato
• J. I. Munro, U. Waterloo electrónico en la serie Lecture Notes in Computer
de pregrado. Además, durante el próximo LATIN,
se entregará por primera vez el premio “Imre Science (LNCS) de Springer-Verlag. Habrá
• A. Oliveira, U. Tecnica Lisboa
Simon Test-of-Time award” que reconoce las un volumen especial en alguna revista de
publicaciones más influyentes aparecidas hace • L. Rademacher, Ohio State U. corriente principal donde aparecerán artículos
al menos diez años en LATIN. seleccionados.
• I. Rapaport, U. de Chile

80 DEPARTAMENTO฀DE฀CIENCIAS฀DE฀LA฀COMPUTACIÓN
Revista

BITS
DEPARTAMENTO฀DE฀C I ENC IAS฀DE฀LA฀COMPUTAC IÓN
de Ciencia

UNIVERSIDAD DE CHILE

www.dcc.uchile.cl/revista
revista@dcc.uchile.cl

También podría gustarte