Está en la página 1de 24

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

EL SISTEMA DE INFORMACIN ESTADSTICA DE ANDALUCA.


Juan A. de Mula Durn. Antonio Molina Gonzlez. Servicio de Informtica del Instituto de Estadstica de Andaluca.

Introduccin. El Instituto de Estadstica de Andaluca (IEA) tiene encomendadas por Ley las funciones de Gestor del Sistema Estadstico Andaluz, elabora y coordina los Planes Estadsticos cuatrianuales que a su vez se desarrollan en Programas Anuales y estos en Operaciones Estadsticas concretas, cuya ejecucin asume por s mismo o en coordinacin con otras Entidades Pblicas (Consejeras, OO.AA., etc.). El Sistema de Informacin Estadstica de Andaluca permite producir y difundir informacin estadstica de una forma distribuida, homogenea, intuitiva y asistida, sin necesidad de conocer herramientas especficas, lo que redunda por un lado en un incremento de la cantidad y calidad de la informacin con independencia del Departamento u Organismo que ejecute la operacin, y por otro en agilizar la planificacin de los Departamentos u Organismos Gestores. En lo que se refiere a la difusin hoy en da es obligada la referencia a Internet. Nos ocuparemos en este documento del impacto que este nuevo medio tendr en las oficinas estadsticas, y ms concretamente las implicaciones que tiene en el diseo de los sistemas de informacin estadsticos. Concepto de Sistema de Informacin. Toda organizacin y en particular la Administracin Pblica, necesita para su funcionamiento un conjunto de informaciones que se transmitan entre sus distintos elementos y, generalmente, tambin desde o hacia el exterior del sistema. Una parte de esta comunicacin se realiza a travs de contactos interpersonales entre los empleados (sistema de informacin informal). Este flujo de informacin resulta hoy en da insuficiente, complejo y costoso, es preciso disponer de un sistema de informacin formal que aporte a la organizacin la informacin necesaria de forma eficaz y eficiente (grado de cumplimiento de los objetivos del sistema, grado de optimizacin del uso de los recursos disponibles,...). La Real Academia de la Lengua define a un Sistema de Informacin (SI) como un conjunto de elementos ordenadamente relacionados entre si que aporta al sistema objeto -es decir- a la organizacin a la cual sirve y le marca las directrices de funcionamiento, la informacin necesaria para el cumplimiento de sus fines, para lo cual tendr que recoger, procesar y almacenar la informacin, facilitando la recuperacin de la misma. Sistema Estadstico (SE) y Sistema de Informacin Estadstica (SIE). De forma concisa, un sistema estadstico es un conjunto de elementos interactivos cuyo objetivo bsico es la produccin de estadsticas, mientras que un sistema de informacin estadstica es la parte del anterior que aporta la informacin necesaria para la consecucin de su fin.

826

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Como se deduce del prrafo anterior, existe una clara diferencia entre los conceptos de Sistema Estadstico y Sistema de Informacin Estadstica en cuanto al mbito al que se circunscriben. Del mismo modo que una organizacin necesita un sistema de informacin formal que le aporte el conjunto de informaciones imprescindibles para su funcionamiento, la sociedad, como cualquier otra organizacin precisa de disponer de sus sistemas de informacin. Y as como en las organizaciones se distingue el sistema de informacin propiamente dicho y el sistema objeto (al cual ha de servir el sistema de informacin y que al mismo tiempo marca sus directrices de funcionamiento), no confundindose el SI con la organizacin, en el rea estadstica, se debe hacer la misma distincin, de modo que, el Sistema Estadstico engloba, adems del Sistema de Informacin Estadstica, el correspondiente sistema objeto, que es toda la sociedad, ya que est constituido por los usuarios de la informacin estadstica, por los suministradores de datos y por los directivos que toman decisiones sobre las funciones y organizacin del Sistema de Informacin Estadstica. Conceptos esenciales. Para entender los principios de diseo de un SIE es necesario conocer los siguientes conceptos elementales: Metainformacin estadstica o metadato: es la informacin descriptiva o la documentacin acerca de datos estadsticos, es decir, microdatos o macrodatos. La metainformacin facilita la comparticin, consulta y el entendimiento del dato estadstico a lo largo del tiempo de vida del dato. Existen varios tipos de datos estadsticos: Microdatos: datos sobre caractersticas de las unidades de una poblacin, tal como un individuo, hogares o establecimientos, recopilados por operaciones censales, encuestas u otro tipo de experimento. Macrodatos: datos derivados de los microdatos por aplicacin de estadsticos sobre grupos o agregaciones, tal como totales, medias o frecuencias. Sistema de Informacin Estadstica. Definicin. Hoy en da es generalmente aceptado que un sistema de informacin estadstico es un sistema on-line que permite las siguientes funciones: Consulta y recuperacin de datos estadsticos. Consultas de metainformacin estadstica. Anlisis matemtico y grfico de los datos. Navegacin a travs de conceptos (temticos, temporales, territoriales,...) para la localizacin de informacin. Acceso asistido a travs de un interface grfico de usuario., Acceso a documentacin sobre el diseo de la operacin estadstica. Y que sus principales caractersticas son: La base-de-datos de datos estadsticos. El diccionario de metainformacin. La Biblioteca de documentacin sobre operaciones estadsticas. La interface de usuario.

827

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

El conjunto de herramientas de gestin de datos y anlisis. Las herramientas de creacin y modificacin de metainformacin/documentacin. La infraestructura de interconexin. La interface para acceder a otros sistemas de informacin. La matriz de seguridad para proteger la informacin confidencial. La base-de-datos de datos estadsticos soporta los microdatos y macrodatos producidos por las operaciones estadsticas (censos, encuestas, etc.) como ncleo del SIE. Esta base de datos ser relacional o probablemente orientada a objetos, distribuida, soportar SQL y estar optimizada para procesar consultas. Un datawarehouse (tecnologa de almacenamiento y recuperacin rpida de grandes volmenes de informacin agregada), especialmente optimizado para la resolucin de consultas, podra dar un buen servicio aqu, siempre y cuando exista un alto nivel de estadarizacin de los elementos que interviene en el sistema, cuestin esta que est todava por resolver en las oficinas estadsticas. El diccionario de metainformacin y la biblioteca de documentacin ofrece a los usuarios de la informacin el conocimiento de los datos. Un diccionario de metainformacin estar basado en un metamodelo que describa las fases de diseo de cuestionarios, el tratamiento y anlisis de la informacin y los ficheros de datos. La ampliacin de los estandares de metainformacin es una manera de asegurar que toda la informacin y sus interrelaciones puedan ser aprovechada por el usuario. La interface de usuario, las herramientas de gestin y anlisis de datos y las herramientas de creacin y modificacin de meta-documentacin ofrecen al usuario el acceso a los datos, a la metainformacin y a la documentacin. Es importante la operatividad del software para asegurar que todas las funcionalidades son cubiertas, por ejemplo: SQL y herramientas de query/reporting a la base de datos. SAS y otros paquetes estadsticos para la gestin y anlisis de datos. Hojas de clculo por su versatilidad en la preparacin de datos a medida. Procesadores de textos y plantillas para la creacin y modificacin de documentos. Herramientas de navegacin asistidas (interfaces tipo windows) para usuarios que quieran acceder al sistema de informacin. Herramientas de uso en Internet para acceder al Sistema y descargar informacin en el PC. Un efectivo SIE estar dirigido por la metainformacin y ofrecer ayuda sensible al contexto. Si un usuario necesita la definicin de una variable, esta debera estar disponible con slo hacer click sobre un botn. Finalmente, a travs de palabras clave o hipertexto se podr acceder a los documentos de las operaciones estadsticas en la biblioteca de documentacin. La caracterstica de la infraestructura de interconexin es el soporte de red de conexiones e interfaces que hacen que el sistema funcione. El interface de usuario debe poder llamar a todas las herramientas que acceden a la metainformacin, los datos u otra documentacin. Las consultas (Queries) contra la base de datos o el repositorio de metainformacin deben ser rpidos y precisos para que el sistema trabaje correctamente. Con el fin de que el SIE se comunique con otros SI de la oficina estadstica debe preveerse un mecanismo de interconexin entre sistemas, pero minimizando el nmero de interfaces. Es importante que se considere esta cuestin dentro del diseo del sistema.
828

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

El concepto de matriz de seguridad es importante para ofrecer acceso a muchas clases de usuarios a la vez que se mantienen protegidos datos u otra informacin confidencial, pues el Sistema debe dar servicio a diseadores de encuestas y analistas de la oficina estadstica y a usuarios externos. Algunos microdatos no pueden ser puestos al pblico aunque deben estar disponibles para diseadores y analistas de una operacin estadstica concreta. As pues los algoritmos que dan paso a informacin confidencial deben formar parte de la metainformacin de acceso limitado. El Sistema de Informacin Estadstica de Andaluca (SIEA). La organizacin estadstica de la Comunidad Autnoma Andaluza est constituida por el Instituto de Estadstica de Andaluca, las Unidades Estadsticas que puedan existir en las Consejeras, Organismos Autnomos o Entidades pblicas adscritas a las mismas y el Consejo Andaluz de Estadstica. A esta organizacin administrativa se la ha denominado Sistema Estadstico Andaluz, si bien en una acepcin ms amplia del termino habra que incluir en l los ciudadanos informantes y usuarios de la estadstica que son en definitiva los destinatarios del servicio pblico que se presta. El Sistema Estadstico Andaluz y en particular sus oficinas productoras (IEA, Unidades Estadsticas en Consejerias, etc.) necesitan de un Sistema de Informacin Estadstica capaz de gestionar un modelo de planificacin por objetivos y actividades estadsticas, con una produccin homogenea y distribuida y una estrategia de difusin conjunta. El Sistema de Informacin Estadstica de Andaluca (SIEA), teniendo como marco de referencia la definicin y caractersticas mencionadas de los sistemas de informacin estadsticos, ha sido diseado para cubrir esta necesidad y est basado en la siguientes premisas o principiosde diseo: La diversa casustica de las diferentes reas de la estadstica (demogrficas, sociales y econmicas) hace inevitable el que un Sistema de Informacin Estadstica integrado, un solo sistema de informacin, deba disponer de herramientas que permitan a los tcnicos estadsticos disear todas las fases de una operacin estadstica: encuesta, tabulacin y difusin, cada una con las particularidades inherentes al rea que corresponda, aunque imponiendo paulatinamente la normalizacin/estandarizacin que supone contar con un conjunto de clasificaciones que posibilite, por ejemplo, la construccin de series temporales homogneas dentro del mismo rea e incluso la conexin de estadsticas de diferentes reas. Estas herramientas de diseo deben disponer de un interface de usuario grfico, amigable y que de una forma asistida permita definir conceptualmente la estructura de la informacin, y ms concretamente en lo que a la macroinformacin se refiere, sin que el tcnico tenga que construir procedimientos de agregacin y/o anlisis estadstico con lenguajes de programacin o software especficos (SQL, SAS, EXCEL, etc.). Justamente este interface debe servir de traductor y constituirse en generador automtico de estos procedimientos que produzcan la informacin agregada. Este concepto de autmata introduce la necesidad de un metamodelo que recoja las definiciones conceptuales de la micro y macroinformacin. Esto quiere decir que adems de la visin esttica de las estructuras, dominios e interrelaciones, el metamodelo debe recoger tambin la visin dinmica que constituye las reglas de construccin de la macroinformacin a partir de la microinformacin. Es sobradamente conocida la funcionalidad aportada por los gestores de bases de datos relacionales -aunque seria mejor si fueran orientados a objetos-, en cuanto al lgebra y clculo relacional, clculo de dominios y mantenimiento de la integridad referencial. Si a ello aadimos la fcil transformacin de una tabla estadstica en una tabla relacional, parecen ser stos un adecuado soporte tanto de la informacin estadstica como del metamodelo descrito en el punto anterior.

829

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

La metainformacin estadstica quedara incompleta si no se recogiera toda la documentacin textual adicional sobre , entre otras cosas, metodologas empleadas en las diferentes fases de la operacin estadstica. As pues el interface de usuario del sistema soportar acceso transparente e interactivo, por una lado, con herramientas de edicin, y por otro, con el gestor de la base de datos para salvaguardar la informacin textual generada por las anteriores. En general cuando se habla de informacin estadstica se diferencia entre la desagregada o microinformacin y la agregada o macroinformacin. Sin embargo la informacin meramente agregada es difcil de analizar y comparar, es por ello por lo que se suele definir adems del estadstico principal de agregacin (frecuencias o magnitudes) toda una serie de estadsticos adicionales como medias, varianzas, indicadores, tasas, etc. que suponen un ms alto grado de extraccin de conocimiento que la informacin agregada y que incluso en multitud de ocasiones la sustituye a efectos de difusin. El sistema debe tambin dar soporte a este otro subestado de la macroinformacin que damos en llamar tablas o vistas. Tanto el proceso de agregacin, por el que la microinformacin se transforma en macroinformacin, como el proceso de anlisis, por el que la macroinformacin se transforma en tablas, deben ser ejecutados en entornos especficos que, por un lado, comuniquen de forma transparente con la interface de usuario y, por otro, puedan acceder al gestor de base de datos de la informacin estadstica. Es innegable la existencia de paquetes de software estadstico que disponen de sus propios modelos de datos y procesos con algoritmos muy especficos, por ejemplo tablas de esperanza de vida, desestacionalizacin de series temporales, etc., cuyo soporte en el sistema de informacin integrado puede, cuanto menos, requerir unos elevados recursos de personas, tiempo y dinero. Bajo esta premisa el sistema dispondr de una serie de interfaces con sistemas de produccin externos, que incorporen a la macrobase las tabulaciones por ellos realizadas, con el evidente beneficio que supone el que los datos estn disponibles para todo el que lo necesite y no slo para el que lo produce, y el hecho de poder utilizar sobre ellas el resto de funcionalidad aportada por el sistema de informacin. De otro lado, est el objetivo primordial de facilitar la difusin de informacin estadstica para un amplio espectro de usuarios. Disponer de informacin estadstica heterognea en la misma base de datos integrada a travs de un nico metamodelo, facilita esta labor con independencia del soporte o medio utilizado en la difusin (off/on-line), pues las interfaces necesarias para disponer los datos estadsticos de dichos soportes accedern a un nico entorno de datos. Cuando se integra informacin estadstica heterognea -por su rea o fuente de procedencia- en la misma base de datos, es necesario dotar al sistema de funciones que asistan y ayuden a los usuarios a localizar la informacin y que posibilite su acceso on-line usando una interface amigable, como pueden ser por ejemplo maquinas de bsqueda de palabras en los nombres de las tablas, navegacin a travs de las obras de difusin y la clasificacin en una serie de mbitos como pueden ser el temtico, geogrfico, temporal, etc. Esta interface ha sido desarrollada inicialmente sobre un entorno visual basado en ventanas pero con la incorporacin de nuestra red informtica a Internet, debemos dar un paso ms e incorporar el acceso a travs de pginas Web dinmicas con las consideraciones hecha a lo largo de este documento. Orgnicamente: El Sistema de Informacin Estadstica de Andaluca (SIEA) es el conjunto de recursos software y hardware que da soporte informtico al Sistema Estadstico de Andaluca, entendiendo por ste el conjunto ordenado y armnico de mtodos, procedimientos y resultados de los diferentes agentes institucionales del mismo.

830

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Figura 1 El Sistema de Informacin Estadstica de Andaluca. As el SIEA tiene como objetivo fundamental el suministro de informacin estadstica necesaria para la ejecucin de la actividad estadstica andaluza , por un lado, y de la producida por la misma por otro. Para el cumplimiento de este fin ltimo, el SIEA permite: Planificar: los objetivos a largo, medio y corto plazo de la actividad estadstica andaluza, traducidos en los Planes y Programas Estadsticos. Producir: la informacin estadstica agregada para la consecucin de los objetivos planificados. Difundir: la informacin producida. Funcionalmente: El SIEA es un sistema informtico que produce informacin estadstica agregada, susceptible de ser difundida, para la consecucin de los objetivos planificados. Resumidamente es el responsable, entre otras, del diseo de Operaciones Estadsticas, y de las funciones de recogida, tratamiento y difusin de la informacin. El SIEA constituye en realidad un Plan de Sistemas que integra una serie de sistemas que dan soporte a las funcionalidades descritas, de los cuales aqu, slo enumeraremos los tres ms importantes: Planificacin, Produccin y Difusin.

831

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Project Name: Project Path: Chart File: Chart Name: Created On: Created By: Modified On: Modified By:

Sis. de Inf. Estadistica de w:\desarro\$jam\siea96\ dc.dfd Diagrama de Contexto Jun-03-1996 Juan A. de Mula Jun-04-1996 Juan A. de Mula

peticiones fuentes

0 a Personas y Organismos productos de difusion Sis. de Inf. Estadistica de And

macrotablas

consultas on-line

Figura 2: Diagrama de Contexto del SIEA El SIEA est concebido con una arquitectura cliente/servidor con la siguiente plataforma: servidor HP 9000 870s/200 con S.O.HP-UX y SGBD ORACLE; clientes 486/Pentium (16/32 MB de RAM y 75/90 Mhz) con Microsoft Windows 3.11/ 95. Los distintos sistemas estn en diferentes situaciones, as el Sistema de Planificacin se encuentra terminado en su versin 1, y prototipado su versin 2. los Subsistemas de Recepcin/Atencin, Distribucin e Histricos y Datos Auxiliares del Sistema de Difusin estn terminados y en explotacin en su versin 2, mientras que se ha prototipado la versin 1 del Subsistema de Productos de Difusin, y finalmente el Subsistema de Diseo del Sistema de Produccin tambin est terminado en su versin 1, mientras que ya se dispone de los prototipos de la misma versin de los Subsistemas de Tratamiento y Creacin de Vistas. Por todo ello y basndose en que la prctica totalidad de los sistemas estn analizados a nivel de funcin, permitirn que en adelante se utilice el tiempo presente para referirse a ellos. Los sistemas mencionados interactan de la forma en que se observa en la Figura 4, que representa el Diagrama de Flujo de Datos de Nivel 1, y que a continuacin se comenta brevemente.

832

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI


Project Name: Project Path: Chart File: Chart Name: Created On: Created By: Modified On: Modified By: Sis. de Inf. Estadistica de And w:\desarro\$jam\siea96\ sistemas.dfd Sis. de Inf. Estadistica de And Jun-03-1996 Juan A. de Mula Jun-25-1996 Juan A. de Mula

PONENCIA

productos de difusion

a Personas y Organismos

b Servicios Productores proyectos Tecnicos

c Unidades Estadisticas proyectos Tecnicos

peticiones

fuentes

peticiones informacion vistas D1 Actividades 1 Sistema de Planificacion D2 Codif./Clasif.

4 Sis. Peticiones Fuentes

consultas on-line

macrotablas peticiones especiales

peticiones

fuentes actividades 3 Sistema de Difusion D10 Vistas D4 Macrotablas 2 Sistema de Produccion catalogo de fuentes

b Servicios Productores

b Servicios Productores

def. macrotablas def. microtablas

soportes Informaticos D5 Peticiones Especiales

cuestionarios electronicos 5 Sis. Gest. Soportes Informaticos Catalogo D3 de Fuentes

d Encuestadores

Figura 3 Los sistemas del SIEA El Sistema de Planificacin tiene como misiones principales, y en relacin a los dems sistemas, la definicin y gestin de los objetivos a medio y corto plazo plazo (Actividades de los Programas Estadsticos) , por un lado, y por otro la normalizacin o estandarizacin de las clasificaciones y codificaciones empleadas en las funciones de recogida, tratamiento y difusin de las operaciones estadsticas. El Sistema de Produccin: es el responsable del diseo y produccin de la informacin estadstica necesaria para la consecucin de los objetivos planificados. Por ltimo el Sistema de Difusin tiene la importante misin de suministrar las funciones que hagan que la difusin de la informacin estadstica sea lo ms amplia posible. Para ello se encarga de la gestin, seguimiento y atencin de las peticiones que se reciben en el conjunto del Sistema Estadstico (IEA, Unidades Estadsticas y Puntos de Informacin Estadstica -PIESA-), as como de la produccin y distribucin de las publicaciones realizadas por el IEA. Est ms all de la intencin de este documento una explicacin detallada de todas y cada una de las funcionalidades soportadas por los sistemas enumerados, pero an con el riesgo de transmitir una visin equivocada de la magnitud de cada uno de ellos, e incluso de muchas de sus funciones que ni siquiera se mencionarn, se tratar de hacer una breve exposicin de los mismos. Sistema de Planificacin El Sistema de Planificacin define y gestiona los Planes y Programas, incluyendo los objetivos a largo plazo para los primeros (Metas) y los de medio y corto plazo para los ltimos (Actividades y Tareas).

833

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI


Project Name: Sis. de Inf. Estadistica de And Project Path: w:\desarro\$jam\siea96\ plani.dfd Chart File: Chart Name: Sistema de Planificacion Created On: Sep-18-1996 Created By: Juan A. de Mula Modified On: Sep-19-1996 Modified By: Juan A. de Mula

PONENCIA

1.5 codif./clasif. Codificaciones y Clasificaciones codif./clasif. Codificaciones D19y Clasificaciones

h Usuarios Planificacion

h Usuarios Planificacion

codif./clasif.

planes programas 1.1 Planes y Programas programas plan programa areas 1.3 objetivos Objetivos Actividades 1.2 actividades 1.8 Areas y Subareas subareas planes D17Planes clases equiv. 1.6 Clases de Equivalencia clases equiv. Clases D20de Equivalencia

D24Programas

Areas D23y Subareas

h Usuarios Planificacion

h Usuarios Planificacion

h Usuarios Planificacion

areas

subaeas

D25Subareas

D16Objetivos

actividades objetivos

D1 Actividades cualif. obj. act. de org. Actividades D18 de los Organismos 1.9 Cualificadores de Objetivos grados cualif. Proyectos D21 Tecnicos Cualificadores D26de Objetivos

actividad

actividad

h Usuarios Planificacion

cualif. obj.

grados cualif. proyectos tecnicos

Grados D27de los Cualificadores

1.7 tareas Tareas D22Tareas

1.4 Actividades de Organismos oganismos documentos proy.tec. D28Organismos organismos Organismos oganismos 1.10

tareas

proyectos tecnicos

proyectos tecnicos

objetos proy.tec.

organismos h Usuarios Planificacion h Usuarios Planificacion

h Usuarios Planificacion

b Servicios Productores

c Unidades Estadisticas

i Microsoft Word

Figura 4 Diagrama de Flujo de Datos del Sistema de Planificacin Adems, en cuanto a la planificacin y a grandes rasgos,el sistema permite: La definicin de las Areas y Secciones, en las que se clasifica la actividad estadstica, y adscripcin a las mismas de las Metas. El enlace, a travs de las tecnologas OLE2 y OLE Automation, de los proyectos tcnicos (documentos Microsoft Word) donde se describen las actividades estadsticas a ejecutar anualmente por los servicios productores del IEA y las unidades estadsticas de las diferentes consejeras, con sus correspondientes datos estructurados en la base de datos. La impresin automtica del borrrador del Programa Estadstico Anual. La autoexplotacin estadstica a travs del Sistema de Produccin del propio SIEA. De otro lado el sistema es el responsable de la normalizacin o estandarizacin de las clasificaciones y codificaciones empleadas en la recogida, tratamiento y difusin de las operaciones estadsticas. Esto por un lado confiere homogeneidad a la publicaciones y por otro garantizan la definicin de series temporales, espaciales, etc.

Figura 5 Sistema de Planificacin. Versin 1.


834

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Figura 6 Sistema de Planificacin. Prototipo Versin 2. Sistema de Produccin El Sistema de Produccin contiene los subsistemas de Diseo, Encuestas, Alimentacin, Tratamiento, Produccin Externa y Creacin de Vistas.
Project Name: Project Path: Chart File: Chart Name: Created On: Created By: Modified On: Modified By: Sis. de Inf. Estadistica de And w:\desarro\$jam\siea96\ sp.dfd Sistema de Produccion Jun-04-1996 Juan A. de Mula Jun-25-1996 Juan A. de Mula

D1 Actividades actividades codif./clasif. D2 Codif./Clasif. 2.1 peticiones especiales Subsistema de Diseno D5 Peticiones Especiales catalogo de fuentes b Servicios Productores

def. microtablas def. macrotablas especificaciones cuestionarios

Catalogo D3 de Fuentes

2.4 Def. Microtablas Def. Macrotablas

cuestionarios impresos Subsistema de Encuestas

D7

D8

D6 Cuestionarios

b Servicios Productores

cuestionarios electronicos

2.2 2.6 Subsistema de Alimentacion D9 Microtablas Subsistema Produccion Externa f datos macrotablas Software Estadistico Especifico

d Encuestadores

cuestionarios electronicos

2.3

2.5 datos macrotablas Subsistema de Tratamiento D4 Macrotablas Subsistema Creacion Vistas e Microsoft Excel

objetos vistas

def. microtablas codif./clasif. b Servicios Productores def. macrotablas

D10 Vistas

Figura 7 Diagrama de Flujo de Datos del Sistema de Produccin.

835

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

El primero de ellos, el Subsistema de Diseo, tiene como misin principal la de disear la Operacin Estadstica en sus fases de recogida y tratamiento de la informacin, es decir definir la estructura (Metabase) de lo que posteriormente se va a producir: encuestas, microtablas, macrotablas y vistas. Con l los tcnicos estadsticos podrn disear interactivamente los cuestionarios especificando, entre otras, las siguientes cuestiones: Definicin de los nombres y tipo (nmero, texto, fecha, etc.) de las variables. Textos de las preguntas. Tipo de respuesta (opciones exclusivas o no exclusivas, formato libre, etc.) . Dominio o campo de existencia mediante la seleccin de una de las Codificaciones/Clasificaciones aportadas por el Sistema de Planificacin. Reglas de validacin simples (entre campos) o complejas (entre registros). A partir de estas especificaciones el sistema generar automticamente la estructura de datos de la microbase. En el caso de que la informacin fuente no sea de produccin propia el usuario puede definir la estructura de la microbase, incluyendo el dominio de las variables y las reglas de validacin, interactivamente. Cuando de una forma u otra el sistema conozca la estructura de la microbase los usuarios podrn definir las tabulaciones que deseen (Plan de Tabulacin) pudindose indicar para cada una de ellas: El/los criterio/s de seleccin que reduzcan el conjunto de microdatos a tratar, estableciendo operaciones de comparacin sobre la/s variable/s (Ej: Edad >= 16). La variable de anlisis: columna de microtabla (variable cuantitativa) que se calcula para cada una de las celdillas (hipercuboides) de una macrotabla. Si se define una variable de anlisis en una macrotabla se trata de una tabla de magnitudes, por el contrario cuando no se define es una tabla de frecuencias. Su espacio de clasificacin: espacio euclideo n-dimensional, representado bi-mensionalmente, definido por el producto cartesiano de las categoras de las variables de la distribucin, en palabras llanas: las variables de la microbase que intervienen y con qu clasificacin se van a agregar los microdatos.

Figura 8 Subsistema de Diseo. Espacio de Clasificacin. Versin 1.

836

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

El Subsistema de Encuestas toma como entrada la definicin de los cuestionarios realizada con el de Diseo y proporciona como salida un fichero susceptible de ser modificado, impreso, etc. por el usuario con Microsoft Word, o bien un sistema CAPI (Computer Asisted Personal Interviewing) susceptible de ser instalado en un porttil y ser utilizado por los encuestadores en su trabajo de campo o ser utilizado en la grabacin de los cuestionarios impresos. El Subsistema de Alimentacin es el responsable de la incorporacin de los microdatos al entorno del SIEA. Si la microinformacin es de produccin propia, se habr utilizado para su obtencin el sistema CAPI mencionado y por consiguiente los datos estarn codificados y depurados. En esta situacin el subsistema slo deber soportar la importacin de la misma a un entorno Oracle, gestor de base de datos relacional utilizado por el SIEA. Para el caso de que los microdatos sean de produccin externa este subsistema est dotado de funciones, adems de la de importacin mencionada, que permitan disponer de los datos, en el caso de que no lo estuvieran, codificados, depurados, imputados y desidentificados. El Subsistema de Tratamiento es el encargado de producir la informacin agregada, macrobase o macrotablas, a partir de los datos de la microbase, lo que de hecho constituye una macrobase multidimensional. Soporta dos formas de ejecucin: Con la primera de ellas, utilizada generalmente para grandes microbases, se genera la totalidad de la tabulaciones especificadas con el Subsistema de Diseo, es decir el Plan de Tabulacin, sin intervencin del usuario u operador. Con la segunda el tcnico estadstico puede producir una macrotabla, sencillamente seleccionando la microtabla. En este caso la primera es el producto de la agregacion de todas las variables de la ltima.

Figura 9 Subsistema de Tratamiento. Prototipo Versin 1. Es innegable la existencia de paquetes de software estadstico que disponen de sus propios modelos de datos y procesos con algoritmos muy especficos, por ejemplo tablas de esperanza de vida, cuyo soporte en el SIEA puede, cuanto menos, requerir unos elevados recursos de personas, tiempo y dinero. Bajo esta premisa el SIEA proporciona su Subsistema de Produccin Externa. Este no es mas que una serie de controladores especficos de cada uno de los paquetes mencionados, que incorporan a la macrobase las tabulaciones por ellos realizadas, con el evidente beneficio que supone el que los datos estn disponibles para todo el que lo necesite y no slo para el que lo produce, y el hecho de poder utilizar sobre ellas el resto de funcionalidad aportada por el sistema de informacin. El Subsistema de Creacin de Vistas est concebido para que, una vez que se dispone de la informacin agregada, el tcnico estadstico disponga de la posibilidad de definir sobre la misma el nmero de vistas que desee con el aspecto tabular tradicional conferido a la informacin estadstica agregada.

837

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Figura 10 Subsistema de Produccin de Vistas. Prototipo Versin 1. Este subsistema interacta con Microsoft Excel poniendo a disposicin del mismo la macrobase va OLE Automation. De esta forma se consigue el doble objetivo de, por un lado, disponer de un entorno ampliamente difundido, y por otro el que la funcionalidad total del subsistema est acotada exclusivamente por las limitaciones de la herramienta. De otro lado, y de nuevo en aras de la mxima disponibilidad de los datos, una vez producida la vista con Microsoft Excel, generalmente con su utilidad de Tablas Dinmicas, ser expuesta la misma al gestor de base de datos para que, tambin va OLE Automation, quede almacenada en tablas Oracle. Adicionalmente se le ha dotado de funcionalidad tal que permite producir un documento HTML a partir de la Hoja Excel de la vista, lo que supone poder disponer de una forma inmediata, con un simple drag and drop del documento HTML en cuestin a cualquier web browser, de la informacin estadstica en un servidor web. Sistema de Difusin El Sistema de Difusin contiene los subsistemas de Recepcin/Atencin, Distribucin, Productos de Difusin, Consulta asistida on-line e Histricos y Datos Auxiliares.
Project Name: Project Path: Chart File: Chart Name: Created On: Created By: Modified On: Modified By: Sis. de Inf. Estadistica de And w:\desarro\$jam\siea96\ sd.dfd Sistema de Difusion Jun-04-1996 Juan A. de Mula Sep-19-1996 Juan A. de Mula

D5

Peticiones Especiales

peticiones informacion

productos de difusion

3.1

Subsistema de Recepcion/Atencion

D2 Codif./Clasif.

D4 Macrotablas Envios de D14 Inf. Est.

D10 Vistas

D1 Actividades

Peticiones D11 de Informacion

3.4 Subsistema de Consultas on-line

consultas on-line macrotablas vistas

3.5 a Personas y Organismos g Archivos Historicos datos historicos Sub. de Historicos y Datos Aux. Datos D13 Auxiliares Productos D12 de Difusion

3.3 Subsistema Productos de Difusion

macrotablas

vistas D15 Distribuciones

e Microsoft Excel

3.2

productos de difusion

Subsistema de Distribucion

Figura 11 Diagrama de Flujo de Datos del Sistema de Difusin.


838

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

El Subsistema de Recepcin/Atencin, bsicamente, es el encargado de la gestin, control y seguimiento de las peticiones de informacin estadstica que realiza el conjunto de la sociedad al SIE y de los envos que atienden a las mismas.

Figura 12 Subsistema de Recepcin/Atencin. Versin 2. Peticiones de informacin. Las peticiones se clasifican temticamente lo que posibilita su tratamiento con el Subsistema de Produccin y la obtencin de estadsticas que ofrezcan una visin del tipo de estadstica demandado por la sociedad. La informacin as obtenida sirve para ir ajustando paulatinamente la produccin a la demanda y constituye el autentico circuito de retroalimentacin del SIEA.

Figura 13 Subsistema de Recepcin/Atencin. Versin 2. Envos. Las peticiones son atendidas, generalmente, con las publicaciones estadsticas andaluzas. Sin embargo el subsistema contempla la realidad de que frecuentemente dichas peticiones suponen una explotacin no prevista de la microbase, en este caso el subsistema registra dichas peticiones (Peticiones Especiales) y las deriva para su ejecucin a los servicios productores. Igual de frecuentes son las peticiones puntuales o de estadsticas de sntesis que no justifican el envo de una publicacin para el primer caso o de varias

839

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

para el segundo, de forma que son igualmente registradas y derivadas al Subsistema de Consulta asistida on-line. El Subsistema de Distribucin tiene como finalidad la difusin de las publicaciones estadsticas de produccin propia. Para ello gestiona, adems de las mencionadas publicaciones (Productos de Difusin), toda una serie de grupos de distribucin, cuyos componentes, es decir los destinatarios finales, son personas o instituciones (Datos Auxiliares). Para soporte de lo mencionado el subsistema cuenta con una serie de funciones que permiten evaluar el coste de la distribucin, imprimir las cartas de presentacin de las publicaciones, imprimir las etiquetas con los datos postales de los destinatarios, etc.

Figura 14 Subsistema de Distribucin. Versin 2. El Subsistema de Productos de Difusin define cuales son las vistas que componen los productos de difusin, entendiendo por tales cualquier medio (papel, magntico, ptico, etc.) que sirva como soporte de informacin estadstica agregada. De esta forma se posibilita, si se dispone de las interfaces (editores/maquetadores electrnicos, controladores de perifricos especficos, etc.) y hardware adecuado (sistemas de impresin de alta calidad, grabadores/replicadores de diskettes y cd-rom, etc.) la generacin automtica de dichos soportes. Se parte de la concepcin lgica de que una obra de difusin est formada por una serie de captulos, los cuales a su vez, pueden incluir subcaptulos, apartados, subapartados, etc. en una dependencia jerrquica sin limitacin en cuanto a la profundidad. Son los ltimos elementos de esta estructura lgica jerarquizada, las hojas del rbol, los que contienen la informacin estadstica, tablas o vistas anteriormente producidas, que como ya se ha mencionado son objetos de la clase Hojas Excel (Ver Figura 15). Bsicamente, el subsistema permite: Definir la estructura jerrquica de captulos, apartados, etc. de las obras de difusin. Definir la informacin estadstica de la que constan los anteriores, con un simple drag and drop desde Produccin hasta Difusin (Ver Figura 15). Visualizar los objetos tablas o vistas desde ambos entornos, Produccin y Difusin.

840

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Figura 15 Subsistema de Productos de Difusin. Prototipo Versin 1. Con el Susbsistema de Consulta asistida on-line los usuarios pueden acceder al: catlogo de macrotablas y vistas con una mquina de bsqueda o a travs la especificacin de un conjunto de parmetros, que cualifican a la informacin estadstica y son utilizados para su localizacin. catlogo de vistas, exclusivamente, a travs de los ndices de las publicaciones. La mquina de bsqueda presenta la lista de las macrotablas cuyos nombres verifican los criterios, simples o complejos, de bsqueda introducidos por el usuario, y a partir de aqu se puede acceder a las vistas producidas para cada una de ellas. La bsqueda por parmetros, similarmente a la mquina de bsqueda, presenta una lista de macrotablas, igualmente con la posibilidad de acceder a la vistas. Sin embargo la forma de acceso es, en este caso, la seleccin por parte del usuario, desde una serie de clasificaciones y clases de equivalencia, de un conjunto de mbitos tales como el geogrfico o espacial, temporal, temtico, etc. De otro lado el acceso a las vistas a travs de los ndices de las publicaciones se realiza con una interface similar al Subsistema de Productos de Difusin, ya mencionado. Adicionalmente a lo expuesto se dota al subsistema con una interface con Microsoft Excel que posibilita la produccin de informacin agregada externa al SIEA a partir de los datos institucionales del mismo, susceptible de ser difundida. Esta opcin ser la utilizada para producir informacin estadstica de sntesis, como se ha mencionado anteriormente.

841

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Figura 16 Subsistema de Consulta asistida on-line. Busqueda por palabras. Prototipo Versin 1.

Figura 17 Consulta asistida on-line. Navegacion por obras de difusin. Prototipo Versin 1. Por ltimo el Subsistema de Histricos y Datos Auxiliares contiene las funciones que soportan la necesidad de archivar histricamente las peticiones, envos, distribuciones, etc. de ejercicios anteriores y de mantener una serie de datos auxiliares, algunos de los cuales ya se han mencionado anteriormente, necesarios para la difusin de la estadstica como son las tablas de municipios, provincias, pases, etc.

842

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Figura 18 Subsistema de Histricos y Datos Auxiliares. Paso a Histrico. Versin 2.

Figura 19 Subsistema de Histricos y Datos Auxiliares. Provincias y Municipios. Versin 2 Hoy en da, cuando se habla de difusin, hay que referirse de forma obligada a Internet, lo que dada su importancia haremos algo ms extensamente. La difusin y publicacin electrnica de informacin estadstica en Internet. Hablar de Internet, hoy en da, supone traspasar la frontera de la ciencia y de los computadores para mezclarse con la realidad de la calle. Poca gente en los pases de nuestro entorno no ha odo hablar de la Red de Redes. El concepto de Red Global, que est siendo empleado profusamente, empieza a quedarse pequeo. Internet es ya un fenmeno social que tiende a modificar en parte muchos de los conceptos que afectan a la colectividad, no solo en materia de comunicacin, sino tambin en las relaciones entre individuos, comunicaciones, empresas, etc. Actualmente muchas oficinas estadsticas ofrecen informacin estadstica agregada en diversos soportes de entre los que todava predomina el papel. No obstante en el empeo de mejorar la eficiencia de su servicio pblico se ha estado experimentando con diferentes mtodos de difusin electrnica de la informacin y ahora Internet se presenta como una nueva alternativa.
843

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Hasta hoy nuestra publicaciones tienen diferentes aspectos: papel, diskettes, CD-ROMs, faxes, artculos de prensa, videotex, etc. Detrs de todos estos medios hay informacin estadstica (agregada), a menudo en formato legible por un PC. A lo largo de estos ltimos aos hemos trabajado en el IEA en procedimientos que generaban automticamente la informacin desde el sistema en que se procesaba la encuesta, al soporte de difusin oportuno (fichero PostScript, fichero TXT, maquetacin MAC,...) y sistemas de distribucin (mailing) para conseguir buenos tiempos de edicin y distribucin. Sin embargo la idea de que el usuario externo pudiera acceder on-line directamente a los datos de una encuesta se ha estrellado muchas veces con la falta de una tecnologa a la que tuvieran acceso tantos usuarios como al papel, a un medio magntico legible por un PC o al videotex, etc. En este aspecto es en donde Internet puede jugar un papel importante. Con la irrupcin de los browsers grficos tipo Mosaic, Explore o Netscape en Internet, la red ha crecido inmensamente durante los ltimos aos. Cualquier empresa u organismo que se precie tiene su servidor Word Wide Web (WWW). La red ofrece un infraestructura internacional que conecta a decenas de millones de personas en el mundo. Problemas de infraestructura de comunicaciones aparte, este medio puede ser utilizado por las oficinas estadsticas en la difusin de datos estadsticos agregados con coste cero en la reproduccin y distribucin de soportes. Son ya numerosos los Institutos de Estadstica que publican informacin sobre la red. Cualquier persona con una conexin a Internet y un browser decente puede visitar los servidores desde cualquier parte del mundo. Mucho de este material publicado sobre esas Webs, sin embargo, no es realmente informacin estadstica sino ms bien listas de publicaciones, artculos de prensa e informacin general para el pblico. Los pocos objetos estadsticos (tablas, grficos, etc.) depositados se presentan a menudo como copias electrnicas de la informacin en papel de las publicaciones tradicionales. Esta forma de disear la informacin estadstica sobre la red, denominada "de pgina Web esttica", hace difcil la manipulacin de objetos estadsticos como informacin estructurada puesto que el formato es puramente documental. El usuario de la informacin estadstica (analista, investigador, estudiante,...) no se va a conformar con esta presentacin esttica sino que demanda un tipo de informacin estructurada de tal forma que pueda bajrsela a su ordenador para procesarla a medida con alguna herramienta de anlisis estadstico, hoja de clculo, etc. Inmediatamente surge la idea de permitir acceder realmente a las bases de datos de informacin agregada desde las que se han generado las pginas Web y en riguroso acceso on-line permitir la consulta a medida y la extraccin de informacin que posteriormente se descargue sobre el PC, en una o varias pginas Web adhoc, en lo que se denomina "pgina Web dinmica". Las ventajas de este procedimiento para ofrecer datos on-line son varias: primero, no tenemos que construir nuestra propia herramienta de acceso. Segundo cualquiera con cualquier web-browser puede disponer de la base de datos desde cualquier plataforma (Windows, Mac, Unix) en cualquier parte del mundo. Tercero, los usuarios no tienen que aprender una nuevo interface si ya conocen su browser. Una solucin intermedia es utilizar otros servicios de la red como el FTP (protocolo de transferencia de ficheros) de tal forma que un vez visualizada y solicitada de la pgina Web esttica la informacin requerida -conducida a travs de mens-, se activa una orden al servidor de ficheros ftp que enva al PC origen de la consulta el fichero con datos estructurados (txt con separadores), listos para ser cargados en el software que se desee. Naturalmente aqu las consultas (o los ficheros) estn previamente fabricados y por tanto estticos en cuanto a su contenido (simulando el servicio Gopher de Internet tradicional).

844

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Implicaciones de Internet en el diseo de los S.I.E. Adems de la dimensin tecnolgica, el principal problema para ofrecer un buen servicio a travs de la red es de tipo conceptual, es decir, aquel que tiene que ver con la estructuracin, la coordinacin y la integracin de la informacin estadstica. Aquellas oficinas estadsticas que no dispongan de sistemas de informacin integrados bajo un nico modelo de datos y metadatos, tendrn que hacer un esfuerzo normalizador para unificar el acceso de los usuarios a la informacin, facilitar su localizacin y su interpretacin. Todos nuestros Organismos ofrecen cientos de publicaciones diferentes generadas desde otras tantas operaciones estadsticas. En todas ellas hay miles de tabulaciones y muchas fuentes de informacin diferentes. Cada publicacin adems trata un tema muy especfico de forma que obtener datos de un concepto para varios mbitos temticos (econmicos, demogrficos, sociales, medio-ambientales,...), mbitos territoriales o series temporales puede ser una labor problemtica, especialmente si han sido procesados por distintos equipos de trabajo. Por regla general, para cada operacin estadstica el equipo de tcnicos responsable de la misma desarrolla un sistema de informacin a medida para el cual se define una estructura de base de datos, los formatos y las variables estadsticas objeto del estudio y los procedimientos de gestin de la informacin fuente y de clculo de resultados. Estos resultados posteriormente se publicaban en el soporte oportuno con un diseo especfico. Esta forma de trabajo tan autnoma e independiente provoca problemas de coordinacin metodolgica y de estandarizacin de nuestras bases de datos, como por ejemplo: La ausencia de interfaces de usuario comunes complica la accesibilidad a la informacin. La interoperatividad entre sistemas es muy pobre, lo que supone redundancias de informacin. Existen funciones poco consistentes o funciones similares que trabajan de forma inconsistente. Es imposible enlazar ficheros de diferentes fuentes, lo que dificulta la sntesis. Se constata la poca comparabilidad de resultados por la ausencia de una metodologa/terminologa/referencia temporal comn o por la imposibilidad de enlazar conceptos comunes. Las estrategias de difusin diferentes y la ausencia de un diseo de identidad visual nico dificulta la localizacin y en definitiva el acceso de los usuarios a la informacin. Pero adems, si analizamos las demandas de nuestros usuarios podemos concluir, entre otras cosas, que los usuarios de la informacin estadstica estn ms interesados en datos sobre determinadas variables y el mbito territorial de referencia que en la fuente de los datos o la operacin estadstica en s que los ha generado. Observando estos nuevos requisitos de distribucin y de acceso a la informacin, surge con fuerza la necesidad de coordinar los esfuerzos en el desarrollo de los SIEs. La idea de un Sistema de Informacin Estadstica integrado para toda la organizacin tiene ahora si cabe ms sentido. Sin embargo, nuestras instituciones deben amortizar al mximo sus inversiones por lo que en algunas organizaciones que disponen de sistemas ya muy consolidados puede ser complicado y costoso emigrar a un nuevo sistema, en cualquier caso, ser a travs de la coordinacin entre productores, la utilizacin de estndares de metadatos, el uso de herramientas comunes de software, etc., la mejor manera de ofrecer un look and feel nico y un acceso homogneo para todos los datos y metadatos del Sistema, es decir, un sistema de informacin estadstica unificado.

845

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Sistema unificado Para el caso de oficinas estadsticas que ya tienen una gran tradicin y por tanto sistemas de informacin a medida para cada encuesta, rea de estadsticas, etc., necesariamente se requiere un esfuerzo normalizador de la informacin y de los interfaces de usuario en los diferentes sistemas a fin de que el acceso desde Web posibilite llegar a los datos deseados, facilite su interpretacin y comparacin y suponga las menos redundancias de informacin posibles. Es el caso del BOC -la oficina de Censos del gobierno de los EE.UU-, en donde se dispone de un sistema de informacin estadstica para cada gran rea del programa y en una estructura de ficheros no relacional, por lo que la descripcin de los ficheros utilizados debe ir implementada en paralelo como metainformacin. Las limitaciones de estos sistemas de informacin viene dada porque si no hay un acuerdo previo sobre el conjunto de metadatos, los metamodelos utilizados para construir los repositorios de cada SIE sern tambin diferentes, lo que dificultara a los usuarios la bsqueda de datos a travs de los SIEs. Esto conlleva la necesidad de unificar los diferentes SIEs que se creen a travs de una metainformacin estandarizada. Asi, los sistemas de informacion estadisticos unificados basan sus principios de diseo en tres pilares fundamentales: El software de Internet, en particular la Web, tan conocido y extendido que lo hacen el candidato principal para desarrollar sobre l el interface de conexin al SIE. Fundamentalmente utilizando el lenguaje HTML (Hyper-Text Markup Language), las capacidades de bsqueda por hipertexto y el WAIS (Wide rea Information Search) para bsquedas documentales. La conexin con el gestor de bases de datos se hara a travs de CGI (Common Gateway Interface) que aporta un API (Application Program Interface) para la interconexin con otros programas. Un software comn y estandarizado, que adherido a normativas nacionales e internacionales de normalizacin incremente la flexibilidad en el desarrollo de un SIE y facilite su uso. Por ejemplo el lenguaje de interrogacin SQL, productos ampliamente difundidos tipo SAS, EXCEL y ArcInfo, y normativas para la organizacin y el mantenimiento de metainformacin como la IRDS (Information Resource Dictionary System) del BOC. Estndares de metainformacin. Para el diseo de un SIE es fundamental el componente de metadatos. Los Metadatos son necesarios para los usuarios que quieran poder localizar, conocer y utilizar el dato estadstico. Los estndares promueven tambin la comunicacin entre sistemas garantizando la compatibilidad de la informacin. Con este objetivo el BOC est actualmente desarrollando un estndar para la metainformacin estadstica: el Standard for Survey Desing and Statistical Methodology Metadata (SDSM). Las capacidades ms importantes que debera aportar el sistema unificado son: Manejar ficheros originados desde varias fuentes. Bsqueda de informacin a travs de grandes reas temticas Diseos de encuestas comparables provenientes de diversas reas temticas. Implementar elementos de datos estandarizados de las reas temticas. Racionalizacin de encuestas al identificar colecciones de datos duplicadas, que reduzcan las solicitudes de informacin sobre los encuestados.

846

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Su arquitectura lgica con un acceso dinmico desde web sera la siguiente:

REPOSITORIO METADATOS S e r v i d o r I n t e r n e t I n t e r f a c e d e U s u a r i o CENTRAL

B r o w s e r s C l i e n t e s

TABLAS DE CONTENIDO INTERFACES

W e b

SIEA 1 SIEA 2 SIEA N

La parte central del sistema unificado es el repositorio central de metainformacin. Cada SIE tiene un componente de metadatos que contiene la descripcin de sus ficheros. Sin embargo el repositorio central tendr informacin acerca de todos los datos de la oficina estadstica. Las actividades estadsticas (diseo de encuestas, tabulaciones, etc.), de un rea temtica concreta se realizarn por el personal tcnico en su SIE correspondiente y modificarn a su vez el repositorio de metadatos del mismo. Cuando los datos se den por buenos la nueva metainformacin ser automticamente replicada en el repositorio central y desde ese momento estar disponible para cualquier usuario. Esto har decrecer la demanda sobre cualquier metadato de un sistema particular: el repositorio central maneja las peticiones de informacin de aquellos usuarios que no les interese conocer las fuentes de los datos, en tanto que los repositorios de los SIE's particulares manejarn las peticiones de los usuarios que deseen trabajar con una informacin fuente concreta. Las Tablas de contenidos para cada repositorio de datos (una especie de resumen estructurado del modelo de metainformacin que se est utilizando). sern el interface de comunicacin entre sistemas. Ellas incluyen una estructura resumida de los repositorios particulares. El repositorio central duplica la informacin de cada SIE y contiene alguna informacin adicional. Su metamodelo es completo. Los metamodelos de cada SIE sern un subconjunto del metamodelo central. De esta forma toda la comunicacin pueden ser filtrada a travs del sistema central. Por ltimo, hay punteros que identifican items de metadatos individuales en los repositorios y que pueden ser fcilmente asociados con entradas en las tablas de contenidos. Los punteros estn definidos en el estandard SDSM. As pues, los requerimientos de informacin pueden ser fcilmente transferidos a travs de los sistemas. nicamente el metadato ser replicado en el repositorio central. Cada SIE tendr control sobre los ficheros y la documentacin de las encuestas. La documentacin residir en servidores de ficheros individualizados. El metadato ser probablemente pequeo comparado con el tamao de todos los datos y la documentacin. Los punteros, URLs (Uniform Resource Locators), a los ficheros y la documentacin sern almacenados en los repositorios de metadatos. Sistema integrado Para el caso de que la oficina estadstica disponga ya de un sistema de informacin estadstica integrado, hay ya un buen trecho andado pues las consideraciones de estandarizacin a travs de la metainformacin estaran resueltas y por tanto la Web aporta bsicamente un front-end del Sistema de Informacin Estadstica, que atender dinmicamente las peticiones de los browsers clientes

847

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Este es el caso de la Oficina Estadstica de Holanda la cual dispone ya de un Sistema de Informacin Estadstica, denominado Statline, y para el cual han creado un interface al que han llamado WITCH y que traduce las peticiones hechas por los usuarios desde un browser (p.e. netscape) al formato que entiende Statline y genera una pgina Web sobre-la-marcha que presenta los resultados de la consulta dados por Staline al usuario. Este es tambien, como se desprende de todo lo anteriormente expuesto, el caso del SIEA y as su arquitectura logica de acceso sera:

B r o w s e r s

C l i e n t e s

I n t e r n e t

S e r v i d o r

I n t e r f a c e

Gestor de Base de Datos

Metamodelo

d e Macroinformacion U s u a r i o Tablas

W e b

La difusin y la publicacin electrnica en Internet. Conclusiones. Parece evidente que el salto hacia la difusin de informacin estadstica agregada en Internet traer importantes novedades en la forma en que se desarrolla la actividad estadstica y la organizacin de la informacin en las oficinas estadsticas. Al menos dos grandes retos se otean en el horizonte, por un lado la implementacin de estndares en la definicin de variables, datos y procedimientos que ayuden a los usuarios de la informacin estadstica a su localizacin, conocimiento y acceso on-line. Para ello el uso de la metainformacin ser el vehculo necesario que nos conducir a sistemas ms coordinados e integrados. Por otro lado debemos de adoptar la tecnologa necesaria para que nuestros sistemas de informacin puedan dar servicio a peticiones de usuarios provenientes de Internet, no solo en software estandarizado sino en el propio diseo de los mismos. Finalmente, los Institutos de Estadstica del entorno europeo tienen una buena presencia sobre la WWW, pero su diseo en la actualidad es muy convencional. No hay una coordinacin entre los organismos por lo que la multiplicidad de estilos y de material disponible hacen difcil la comparacin entre datos de diferentes reas geogrficas. La Unin Europea est financiando en la actualidad algunos proyectos sobre estndares de datos y metainformacin y otros sobre acceso a datos y metadatos a travs de servidores Web. Bibliografa. Ley 4/1989 de Estadstica de la Comunidad Autnoma de Andaluca. Ley 6/1993 del Plan Estadstico de Andaluca 1993-1996. Propuesta de Anteproyecto de Ley del Plan Estadstico de Andaluca 1997-2000. Antonia Bezenchek, Maurizio Rafanelli, Leonardo Tininini. A Data Structure for Representing Aggregate Data. Eighth International Conference on Scientific and Statistical Database Management. Proceedings. (8SSDM).

848

I Congreso de Ciencia Regional de Andaluca: Andaluca en el umbral del siglo XXI

PONENCIA

Daniel W. Gillman, Martn V. Appel, William P. LaPlant, Jr. Design Principles for a Unified Statistical Data/Metadata System. 8SSDM. Wounter J. Keller, Erwin M. Kalvelagen, Jelke G. Bethlehem. Statistics on the Internet. 1995 Seminar on "New Techniques and Technologies for Statistics". Preproceedings (NTTS95). Joanne Lamb, David Bell, Fionn Murtagh, Peter Burnill, Mikalis Hatzopoulos, Hans Rutjes. Using the Internet to Analyse Statistical Data in a Distributed Environment. NTTS95. Jozef Olenski, Practical Problems of Implementing Metadata Standards in Official Statistics. 8SSDM. J Michael Thomson. From Raw Data to Survey Show: How Integrative Software Packages Are Changing Survey Presentation Techniques. Survey And Statistical Computing 1996 (SSC96). Ray Pointer. Open the Box or Take the Money? (SCC96). Joanne Lamb. Harnessing the internet: Issues for the Dissemination of Statistical Data (SCC96). Adoracin de Miguel Castao. Derecho a la informacin frente al derecho a la intimidad.

849

También podría gustarte