Está en la página 1de 21

GRID

GRIDS

ING. DE INFORMACION II Ing. Alfredo Ramos

Uso de Bases de Datos en Grid

Introduccin
Qu es una base de datos?
Un conjunto de datos no redundantes, almacenados en un soporte informtico, organizados de forma independiente de su utilizacin y accesibles simultneamente por distintos usuarios y aplicaciones. Un conjunto de datos relacionados almacenados de forma persistente.

Las bases de datos son necesarias cuando el volumen o la organizacin de los datos hace imposible un seguimiento a mano de los mismos por el usuario. Si bien hay aplicaciones grid que tienen poca o ninguna necesidad de acceso a base de datos, el uso de aplicaciones cada vez ms complejas ha hecho que cada vez estn ms presentes en este entorno.

Ventajas del uso de bases de datos


Globalizacin de la informacin. Eliminacin de informacin redundante. Eliminacin de informacin inconsistente. Si el sistema esta desarrollado a travs de archivos convencionales, esta es una operacin costosa y potencialmente peligrosa. Permite compartir informacin. Varios sistemas o usuarios pueden utilizar una misma entidad. Permite mantener la integridad en la informacin. Solo se almacena la informacin correcta. Independencia de datos. La independencia de datos implica un divorcio entre programas y datos; es decir, se pueden hacer cambios a la informacin que contiene la base de datos o tener acceso a la base de datos de diferente manera, sin hacer cambios en las aplicaciones o en los programas.

SGBD: Sistema Gestor de Bases de Datos


Es el conjunto de programas que permiten:
definir, manipular y utilizar la informacin que contienen las bases de datos, realizar todas las tareas de administracin necesarias para mantenerlas operativas, mantener su integridad, confidencialidad y seguridad.

Una BD nunca se accede o manipula directamente sino a travs del SGBD. Se puede considerar al SGBD como el interfaz entre el usuario y la BD. Se pueden considerar tres niveles:
Externo. Lgico. Interno.

Algunos de los ms conocidos son:


Relacionales: IBM DB2, Informix, Oracle, MySQL, PostGreSQL, SQL Server XML: Tamino, Xindice

Tipos de Bases de datos


Jerrquica.
Estructura en rbol (padre/hijo).
Relaciones uno-a-uno o uno-a-muchos. Pero no muchos-a-muchos.

Problemas:
Redundancia de la informacin. Borrado en cascada.

Red.
Evita el problema de redundancia con conectores.

Relacionales (objeto-relacionales) Orientadas a objeto.


Acceso directo a objetos desde programas OO. Tipos de datos flexibles, abstraccin, etc.

Propiedades ACID
Las bases de datos con transacciones deben implementar estas de tal manera que se cumplan las siguientes propiedades: Atomicity (atomicidad): las operaciones de una transaccin
son o bien completadas con xito o bien abortadas (la base de datos queda en su estado anterior).

Consistency (consistencia): una transaccin lleva la base de


datos de un estado consistente a otro.

Isolation (aislado): los efectos de la transaccin no son


visibles para otras transacciones (u otras operaciones de la base de datos) hasta que se ha completado.

Durability (durabilidad): los cambios realizados en una


transaccin que finaliza correctamente son permanentes, y deben ser inmunes a un fallo del sistema.

El modelo relacional
Desarrollado por E. F. Codd a finales de los sesenta. Es el ms extendido hoy en da. Motivos de su xito:
ofrecen sistemas simples y eficaces para representar y manipular los datos se basan en un modelo, el relacional, con slidas bases tericas (matemticas): lgebra y teora de conjuntos.

La estructura fundamental es la relacin o tabla. SQL es el lenguaje que se utiliza para manejar este tipo de bases de datos.
Estndar ANSI (1986), ISO (1987). Versin actual SQL92. Aunque la mayora de las bases de datos solo implementan el entry level. Sirve para realizar tanto operaciones en los datos (DML) como en su estructura (DDL).

El modelo objeto-relacional que hoy implementan las compaas ms importantes (IBM, Microsoft y Oracle) es una extensin del mismo.
Debe ser estandarizado en parte con la adopcin especificacin SQL3 (SQL1999).

El modelo relacional (2)


La estructura fundamental del modelo relacional es precisamente esa, "relacin", es decir una tabla bidimensional constituida por lneas (tuplas) y columnas (atributos). Las relaciones representan las entidades que se consideran interesantes en la base de datos. Cada instancia de la entidad encontrar sitio en una tupla de la relacin, mientras que los atributos de la relacin representarn las propiedades de la entidad. En realidad, siendo rigurosos, una relacin es slo la definicin de la estructura de la tabla, es decir su nombre y la lista de los atributos que la componen. Cuando se puebla con las tuplas, se habla de "instancia de relacin". Las tuplas en una relacin son un conjunto en el sentido matemtico del trmino, es decir una coleccin no ordenada de elementos diferentes.

El modelo relacional (3)


Para distinguir una tupla de otra, se recurre al concepto de "llave primaria", o sea a un conjunto de atributos que permiten identificar unvocamente una tupla en una relacin. Naturalmente, en una relacin puede haber ms combinaciones de atributos que permitan identificar unvocamente una tupla ("llaves candidatas"), pero entre stas se elegir una sola para utilizar como llave primaria. Los atributos de la llave primaria no pueden asumir el valor nulo (que significa un valor no determinado), en tanto que ya no permitiran identificar una tupla concreta en una relacin. Esta propiedad de las relaciones y de sus llaves primarias est bajo el nombre de integridad de las entidades (entity integrity).

Normalizacin
El proceso de normalizacin es un estndar que consiste, bsicamente, en un proceso de conversin de las relaciones entre las entidades, evitando:
La redundancia de los datos: repeticin de datos en un sistema. Anomalas de actualizacin: inconsistencias de los datos como resultado de datos redundantes y actualizaciones parciales. Anomalas de borrado: prdidas no intencionadas de datos debido a que se han borrado otros datos. Anomalas de insercin: imposibilidad de adicionar datos en la base de datos debido a la ausencia de otros datos.

Existen 4 formas normales bsicas.


Existen algunas ms menos extendidas y prcticas.

Las TRES formas normales


Se dice que una tabla se encuentra en primera forma normal (1NF) si y solo si cada uno de los campos contiene un nico valor para un registro determinado. La segunda forma normal compara todos y cada uno de los campos de la tabla con la clave definida. Si todos los campos dependen directamente de la clave se dice que la tabla est es segunda forma normal (2NF). Se dice que una tabla est en tercera forma normal si y solo si los campos de la tabla dependen nicamente de la clave, dicho en otras palabras los campos de las tablas no dependen unos de otros. .

Extensiones Objeto Relacionales


Nuevos tipos de datos:
BLOB CLOB Arrays Estructuras

Tipos de datos definidos por el usuario. Jerarquas de tablas. Funciones sobrecargadas. Implementaciones comerciales:
IBM DB2 Informix Universal Server (IDS 9.x) Oracle 8i, muchas nuevas caractersticas en 9i.

Open Source:
PostgresSQL

Data Grid vs. Computational Grid


Primero surgi el concepto de Computational Grid:
Compartir recursos de clculo a gran escala. Transparente para el usuario. Flexible, seguro.......

El Data Grid extiende los recursos a compartir a los datos:


Compartir servidores: cinta, disco.... Grandes bases de datos distribuidas. Data mining sobre bases de datos inhomogneas. "Access to distributed data is typically as important as access to distributed computational resources."

Hoy en da los proyectos Grid tambin contemplan compartir otros recursos como instrumentos de medida.

Bases de datos en el Grid


La ausencia de un modelo unificado de almacenamiento de datos es un problema potencial. El middleware debe proporcionar mtodos de acceso transparente para consultar los distintos tipos de bases de datos presentes. Nuestro grupo ha propuesto el uso de XML como lenguaje comn de intercambio de datos. Las bases de datos relacionales no tuvieron en un principio muy buena acogida en grid pero:
Se fueron introduciendo en el campo del metadata, por ejemplo, Spitfire del WP2 de EU DataGrid. El paso al modelo tipo web services facilitar su integracin ya que es un campo ms conocido para el desarrollo de aplicaciones que usan bases de datos. Las grandes empresas de software (de bases de datos) estn dando pasos para adaptarse al grid. Oracle ha denominado a la ltima versin de su SGBD Oracle 10g.

Usos de Bases de Datos en Grid


Datos de las aplicaciones
Por ahora no son muy usadas para los datos en si. Generalmente se usan ficheros planos.

Metadata de las aplicaciones


Catlogos de ficheros de datos. Sirven para seleccionar los ficheros de datos que se quieren usar.

Metadata del middleware


Monitorizacin Replicas

Acceso a bases de datos en Grid


Un acceso grid a bases de datos debera ser posible usando la Grid Security Infrastructure (GSI).
GSI est basado en el uso de claves pblicas encriptadas, certificados X.509, SSL... Por ahora las bases de datos no admiten el acceso directo a las mismas usando tecnologas grid (autentificacin con certificados, etc.) Oracle 10g?

Autentificacin GSI mediante middleware:


Spitfire (webservice front end):
Mapeado de certificados de usuarios a roles en la base de datos.

SRB (Storage Resource Broker):


Admite la autentificacin GSI de clientes ante servidores.

Tipos de metadata
Tcnico
Localizacin, esquema fsico, caractersticas de los datos, propietario, versin, mtodos de acceso. Capacidades de las bases de datos.

Contextual
Esquema lgico, clasificaciones, terminologas, ontologas, datos derivados.

Mapeo de esquema
Evolucin y conversin del esquema

Proyectos:
MCAT (SRB) Spitfire (EDG)

TOPOLOGIA
Registry GDSR

Factory GDSF Analyst


Factory creates GridDataService

Grid Data Service GDS Consumer


GDS interacts with database

Database
(Xindice, MySQL Oracle, DB2)

Futuro
Migracin a web/grid services Nuevos casos de uso:
Queries distribuidas en grid

Aplicaciones grid que accedan directamente a bases de datos Adaptacin a grid de bases de datos existentes:
Oracle 10g IBM DB2 v8.1 MySQL (open source) (autentificacin GSI en 4.1) Ser posible mantener una infraestructura estndar?