Está en la página 1de 15

Proyecto: Migración de base de datos a un sistema

web para publicar observaciones o reportes de


especies en el Perú

INFORME FINAL

Octubre 2008 – Abril 2009

Centro de Datos para la Conservación


Universidad Nacional Agraria La Molina

Abril, 2009
RESUMEN

Al término del proyecto, se ha logrado cumplir con los objetivos trazados en la


propuesta enviada a Inter American Biodiversity Information Network (IABIN).
Actualmente tenemos la base de datos implementada en servidor del CDC –
UNALM accesible en línea desde la siguiente URL:
(http://cdc.lamolina.edu.pe:8080/). Asimismo, se ha configurado y mapeado el
TapirLink con los campos necesarios para publicar información de
observaciones de especies.
Ver http://cdc.lamolina.edu.pe/tapirlink/admin/configurator.php.

A la fecha, se han migrado todas las tablas a la nueva base de datos diseñada
en PostgresSQL + PostGIS. También se ha implementado un sistema web
para el manejo y consulta de la información.

ABSTRACT

At the end of the Project we have achieved the objectives outlined in the
proposal sent to Inter American Biodiversity Information Network (IABIN). By
now, the data base has been implemented and is working on the server of the
CDC – UNALM, accessible on line from this URL:
http://cdc.lamolina.edu.pe:8080/. Also, TapirLink has been configured and
mapped with the necessary fields for publish information about observations of
the species. (see http://cdc.lamolina.edu.pe/tapirlink/admin/configurator.php).

To date, all tables have been migrated to the new data base designed in
PostgresSQL + Postgis. It has also been implemented a web system for
managing and consulting information.

OBJETIVOS DEL PROYECTO

• Incorporar información almacenada en la base de datos de


observaciones de especies y de colectas del CDC-UNALM en el
territorio nacional a un sistema de intercambio de información que
favorezca al estudio y análisis de la biodiversidad.

• Mejorar las condiciones para mantener actualizada la base de datos,


garantizando un flujo de información nueva, provista tanto por la propia
actividad del CDC-UNALM como por otros investigadores y centros de
investigación.

PRODUCTOS Y RESULTADOS ESPERADOS

• Base de datos implementada que permita responder a los estándares


ABCD Schema o DarwinCore, empleando PyWrapper o algún otro
software que permita publicar bases de datos en PostgreSQL siguiendo
el estándar TAPIR.
• Formularios para el mantenimiento de la información, así como para
hacer algunos reportes y consultas para buscar información y para
evaluar el desempeño de la misma.

• Información de observaciones de especies disponible por Internet


siguiendo el estándar de IABIN, junto con información complementaria.
La información de observaciones contiene datos de: descripción
taxonómica (reino, clase, orden, familia, género, especie y, de ser
preciso, subespecie o variedad), ubicación espacial (incluyendo
precisión), fecha de registro, fuente bibliográfica, entre otros.

METODOLOGÍA EMPLEADA Y ACTIVIDADES REALIZADAS

El manejo y desarrollo de una base de datos de especies a nivel nacional es


parte de los quehaceres propios del CDC-UNALM. Por ello, era importante
realizar una revisión al diseño de la base de datos anterior e identificar las
mejoras para el nuevo diseño. Para tal fin, se desarrolló un taller interno con el
equipo del CDC-UNALM donde se presentó la propuesta de reforma de la base
de datos y a su vez recoger sugerencias. Este taller también sirvió para y
evaluar diferentes temas, entre ellas, los mecanismos para el control de la
calidad del ingreso de datos ingresados. Las sugerencias también ayudaron a
terminar de perfilar el diseño de la base de datos.

Para cumplir con los objetivos del proyecto enviada en la propuesta, se


constituyó un equipo técnico de trabajo donde se incluyeron dos practicantes
de ingeniería informática que han colaborado en el desarrollo del sistema web,
configuraciones del servidor y en el diseño de la base de datos. En este
informe se explicarán los objetivos logrados durante los seis meses de trabajo
en el proyecto.

RESULTADOS

La base de datos ya se encuentra diseñada e implementada en el servidor del


CDC-UNALM utilizando el manejador de base de datos PostgreSQL. Para
acceder a ella deberá ingresar a la siguiente URL:
http://cdc.lamolina.edu.pe:8080/.

El diseño de la base de datos se hizo teniendo en consideración las exigencias


de DarwinCore de una manera tal que permita proveer información sobre
observaciones de especies y especímenes en el Perú.

Este modelo de la base de datos es un diseño totalmente escalable, es decir,


que permite incorporar nuevos módulos de información en el futuro tales como
un módulo de áreas naturales protegidas, monitoreo de biodiversidad y otros
tipos de datos relevantes para el manejo de la biodiversidad y conservación.
La nueva base de datos del CDC-UNALM cuenta con un diseño de más de 70
tablas relacionadas, en las cuales se puede almacenar diferentes tipos de
información como las de localizaciones de especies del Perú, taxonomía,
fuentes bibliográficas, tipos de evidencia, nombres de sitios, especímenes,
datos básicos de las áreas naturales protegidas, entre otros.

El protocolo para el intercambio de información que hemos escogido para el


proyecto es el TapirLink, que se encuentra instalado y configurado en el
servidor del CDC – UNALM. Para la salida de información del TapirLink se han
mapeado los siguientes campos: GlobalUniqueIdentifier, DateLastModified,
BasisOfRecord, InstituonCode, CollectionCode, CatalogNumber,Scientificname,
HigherTaxon, Kingdom, Phyllum, Class, Order, Family, Genus,
DecimalLatitude, DecimalLongitude y GeodeticDatum.
Ver. http://cdc.lamolina.edu.pe/tapirlink/admin/configurator.php.

Actualmente, el sistema web para el manejo de la información de la base de


datos se encuentra disponible en línea. Este sistema permite dar
mantenimiento a la información de los doce módulos diseñados en la base de
datos así como también la visualización de los datos de cada tabla.

El sistema maneja un nivel de seguridad para proteger la calidad de la


información almacenada en la base de datos, es por ello que el acceso a los
datos desde el sistema web dependerá del nivel de acceso con el que cuenta el
usuario. Los niveles que se manejan son: Administrador, Invitado, Lectura,
Escritura e Investigador, y se asignan para cada módulo.

El sistema ha sido desarrollado utilizando los siguientes lenguiajes de


programación: php, javascrip y ajax. Además del html, adobe flash, y las
siguientes librerías:

Tabber.js v 1.9
De Patrick Fitzgerald pat@barelyfitz.com
URL: http://www.barelyfitz.com/projects/tabber/

openWYSIWYG v 1.01
De openWebWare
URL: http://www.openwebware.com/products/openwysiwyg/

Autossugest v 2.0
De: Timothy Groves
URL: http://www.brandspankingnew.net

HttpClient.class.php v 0.9
De Simon Willison
URL: http://scripts.incutio.com/httpclient/

The Coolest DHTML Calendar


De dynarch.com
URL: http://www.dynarch.com/projects/calendar/
Cool DHTML tooltip
Dynamic Drive
URL: http://www.dynamicdrive.com/ for full source code

Por otro lado, todos los programas necesarios para el funcionamiento del
sistema web, se encuentran instalados, configurados y en funcionamiento en el
servidor del CDC-UNALM.

Para acceder al sistema web del CDC - UNALM debe ingresar a la siguiente
URL: http://cdc.lamolina.edu.pe/syscdc. Se han realizado pruebas desde
diferentes puntos de conexión a la base de datos para garantizar su
funcionamiento, con resultados favorables.

Para el primer trimestre, según el cuadro de indicadores de cumplimiento


enviado en nuestra propuesta, una de las actividades a cumplir fue la
incorporación de más de 30 000 registros a la nueva base de datos donde se
migraron las siguientes tablas: (ver cuadro Nro. 1).

Cuadro Nro. 1 Registros migrados por tablas para el


primer trimestre del proyecto.

Tablas Nro. de Registros


Temas 24
Subtemas 115
Editorial 701
Tipos de fuentes 27
Colecciones 27
Usuarios 44
Fuentes bibliográficas 5117
Taxones 27808
Total 33863

Donde:

Temas: Almacena los diferentes temas de las fuentes bibliográficas. (Por


ejemplo: Biodiversidad, Ecología, Conservación, Fauna, Flora, entre
otros.)

Subtemas: Almacena los diferentes subtemas de las fuentes bibliográficas.


(Por ejemplo: Agricultura, Ganadería, Monitoreo, Censos, entre otros)

Editorial: Contiene los nombres de la editorial de la fuente bibliográfica.

Tipo de Fuentes: Contiene los diferentes tipos de fuentes bibliográficas.

Colecciones: Almacena los datos de la colecciones bibliográficas.

Usuarios: Contiene la información de los usuarios del sistema.


Fuentes Bibliográficas: Almacena toda la información referente a las fuentes
bibliográficas, como autor, título, número de páginas, año de
publicación, entre otros.

Taxones: Contiene información de la toda la taxonomía desde reino hasta


subespecie.

Y para la última etapa del proyecto, se ha cumplido con migrar al 100% toda la
información de la base de datos del CDC - UNALM que incluyen las siguientes
tablas: (ver cuadro Nro. 2).

Cuadro Nro. 2 Registros migrados por tablas al final del proyecto.

Tablas Nro. de Registros


Áreas Naturales Protegidas 80
Autores 4141
Categorías ANP 14
Categorías de Protección 32
Confiabilidad 3
Autores por Fuente Bibliográfica 8453
Palabras Claves por Fuente Bibliográfica 24519
Nombres de Sitios por Localización del Elemento 31592
Tipos de Evidencias por Localización del Elemento 2405
Variables por Localización del Elemento 552
Categorías de Protección por Taxón 3758
Nombres Comunes por Taxón 6729
Sinónimos por Taxón 16969
Especímenes 8991
Idiomas 8
Localización del Elemento 41617
Leyes 6
Museos 47
Nombres Comunes 6120
Nombres de Sitio 2891
Palabras Claves 3274
Procedencia 15
Propietarios 92
Sinónimos 16705
Tipos de Evidencias 14
Unidad de Medida 20
Usuarios 129
TOTAL 179176
Donde:

Áreas Naturales Protegidas: Almacena toda la información básica de las


áreas naturales protegidas del Perú. (Nombre, categoría, ubicación,
fecha de creación, hectáreas, base legal, entre otros).

Autores: Contiene el nombre de los autores de las fuentes bibliográficas.

Categorías ANP: Almacena las diferentes categorías para las áreas naturales
protegidas del Perú. (Parque Nacional, Reserva Nacional, Zona
Reservada, Santuario Histórico, entre otros).

Categorías de Protección: Contiene las diferentes categorías de protección


de los taxones.

Confiabilidad: Almacena el grado de confiabilidad de una localización del


elemento.

Autores por Fuente Bibliográfica: Almacena la relación que existe entre las
fuentes bibliográficas y los autores.

Palabras Claves por Fuente Bibliográfica: Almacena la relación que existe


entre las fuentes bibliográficas y las palabras claves.

Nombres de Sitios por Localización del Elemento: Almacena la relación que


existe entre las Localizaciones de los elementos y los nombres de
sitios.

Tipos de Evidencias por Localización del Elemento: Almacena la relación


que existe entre los tipos de evidencias y las localizaciones de los
elementos.

Variables por Localización del Elemento: Almacena la relación que existe


entre las variables y las localizaciones de los elementos.

Categorías de Protección por Taxón: Almacena la relación que existe entre


las categorías de protección y los taxones.

Nombres Comunes por Taxón: Almacena la relación que existe entre los
nombres comunes y los taxones.

Sinónimos por Taxón: Almacena la relación que existe entre los sinónimos y
los taxones.

Especímenes: Contiene la lista de especímenes.

Idiomas: Contiene los diferentes idiomas que están vinculado a los nombres
comunes.
Localización del Elemento: Almacena información de las localizaciones de los
taxones registrados en el Perú.

Leyes: Contiene las tipos de categorías de protección de los taxones. (UICN,


CITES, Protección Nacional y CMS).

Museos: Contiene los nombres de los museos de la lista de especímenes.

Nombres Comunes: Almacena los nombres comunes de los taxones.

Nombres de Sitio: Almacena los nombres de sitio de las localizaciones de los


elementos.

Palabras Claves: Contiene las palabras claves de las fuentes bibliográficas.

Procedencia: Almacena el nombre del proyecto que está vinculado al


procedencia de las localizaciones de los elementos.

Propietarios: Almacena información de las personas o instituciones que son


propietarios del lugar donde se registró una localización del elemento.

Sinónimos: Contiene los sinónimos de los taxones.

Tipos de Evidencias: Contiene los diferentes tipos de evidencias de las


localizaciones de los elementos. (Huella, madriguera, heces, entre
otros).

Unidad de Medida: Contiene las unidades de medidas de las variables.

Usuarios: Almacena la lista de personas que tienen acceso al sistema.

APORTE DE NUEVOS REGISTROS Y DE INFORMACIÓN

Como parte del proceso de validación de la base de datos, se incorporó


información de la base de datos de ITIS. Esta información se empleó para
corroborar la propia información de la base de datos como para incorporar
algunos datos faltantes en nuestro sistema.

Como parte del trabajo institucional, se están ingresando actualmente nuevas


ocurrencias, particularmente del sector correspondiente a la Zona Reservada
Sierra del Divisor y de los corredores de conservación Vilcabamba Amboró,
Cóndor Kutukú y Valle del Río Pichis. Adicionalmente, se ha contactado con
varios investigadores para incentivarlos a que incluyan la información colectada
por ellos en el sistema. Actualmente, el equipo de CIMA – Cordillera Azul ya
nos ha alcanzado su información (20 000 registros, aún por filtrar y ordenar),
referida fundamentalmente a avistamientos de mamíferos mayores y aves en la
zona del Parque Nacional Cordillera Azul. También se han iniciado
conversaciones con una consultora ambiental y con otras instituciones.
LECCIONES APRENDIDAS, PROBLEMAS Y POSIBLES SOLUCIONES

Uno de los procesos más difíciles es conseguir que las instituciones provean de
la información que tienen almacenada, no publicada, y que no necesariamente
la emplean. En ese sentido, se han iniciado conversaciones con varios tipos de
actores, como ONGs, investigadores personales, y empresas consultoras
ambientales. Hemos podido cumplir con los resultados previstos en el proyecto,
pero sería muy interesante si, por ejemplo, se pudiera dar alguna norma para
que los datos de los EIA tengan como condición obligatoria su publicación por
web.

Por otro lado, otra dificultad actual es el propio proceso de adecuación interna
del personal de la oficina a la nueva herramienta, y desarrollar herramientas
para que pueda ser útil para el quehacer diario de los investigadores. Para esto
último, se espera desarrollar alianzas estratégicas con otras instituciones de
investigación que permita potenciar el desarrollo de estas herramientas y su
aplicación a otras instituciones.

Durante el transcurso del proyecto, se ha logrado avanzar con las tareas


establecidas sin mayores contratiempos. En este campo, el principal problema
encontrado fue la forma de publicar la información bibliográfica y la información
taxonómica, puesto que el TapirLink no reconoce los esquemas DublinCore ni
PlinianCore. Siguiendo la recomendación alcanzada por Jaime Gutiérrez, del
INBIO, la información bibliográfica se incluyó finalmente en el campo
RelatedInformation.
CONTRIBUCIÓN EN ESPECIES

Fondos de contrapartida
Información de la institución (FUENTE)
Beneficiario de Agencias Agencias
Academia √ ONG Otros
fondos IABIN √ gubernamentales multilaterales
Nombre de la
Fundación para el Desarrollo Agrario
institución
Departamento/ Centro de Datos para la Conservación de la Universidad Nacional
oficina/otros Agraria La Molina (CDC-UNALM)
Nombre de la
Edith Melgar Romo
persona autorizada
País Perú
Período 22-09-2008 al 22-03-2009
Fecha 22-12-2008
Favor seleccionar el componente al que su institución contribuye a los objetivos de IABIN
(favor no incluir fondos contribuidos por IABIN)
02 – Creación del contenido de datos
Costo del semestre
Unidades Descripción
(US$)
Coordinación, personal ingresando
Personal técnico 2200
información al sistema
Personal Apoyo de secretaría y oficina, y costos
942
administrativo administrativos
Servidor en línea (funcionando en este
período y en futuro para proveer los datos),
Equipo y suministros 3400 cuatro computadoras empleadas para el
desarrollo del sistema, tres computadoras
empleadas para actualizar la información
Infraestructura física
Documentos
Asistencia de
personal en talleres
Otros
REPORTE FINACIERO

También podría gustarte