Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REPLICACION Y FRAGMENTACION
DE BASES DE DATOS DISTRIBUIDAS
MONOGRAFA
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Agosto 2010
UNIVERSIDAD VERACRUZANA
REPLICACION Y FRAGMENTACION
DE BASES DE DATOS DISTRIBUIDAS
MONOGRAFA
Licenciado en Sistemas
Computacionales Administrativos
Presenta:
Agosto 2010
AGRADECIMIENTOS
Primero que nada quiero dedicar mi monografas a mis padres que son las
personas que ms amo, porque gracias a ellos he podido llegar a donde e stoy
r mi
por que sin su apoyo no hubiera podido lograr este gran sueo termina
carrera profesional.
Gracias por todo su apoyo incondicional, comprensin y por estar siempre a mi
lado los amooo mucho.
Tambin quiero agradecer a mis compaeros que durante estos cuatro aos
siempre me brindaron su amistad: Luisito, perrota, tachi, Jorge, Juan Ramn,
increble, etc. Los quiero mucho y los voy a extraar demasiado.
Por ltimo tambin quiero agradecer a mis amigas que siempre han estado
conmigo marinita, andri, mafer, talis las quiero mucho
INDICE
Pg.
Resumen...............................................................................................................1
Introduccin..........................................................................................................2
Contenido:
Capitulo 1: Base de datos.....................................................................................5
1.1.- Antecedentes de las bases de datos.................................................6
1.2.- Bases de datos..................................................................................6
1.3.- Diseo de Bases de datos................................................................ 9
1.4.-Usuarios finales................................................................................ 10
1.5 -Control de redundancia.....................................................................11
1.6.- Suministros de copias de seguridad y recuperacin......................12
1.7.-Lenguaje de SGBD...........................................................................14
1.7.1.- Componentes del SGBD................................................... 17
1.8.- Utilidades del Sistema de Base de Datos....................................18
III
IV
RESUMEN
INTRODUCCION
cualquier
compaa por pequea que sea tiene que manejar grandes cantidades de
informacin, para poder tener control sobre todas las reas de su empresa, es por
ello que surge la necesidad de emplear bases de datos dentro de las
organizaciones, no importando el giro de las empresas.
ya que las
de
informacin,
guarda
informacin
sobres
sus
clientes,
etc.
Si
La
gran
cantidad
de
informacin
que
producen
grandes
empresas
concurrente
de
mltiples usuarios. Una de las tecnologas que se propone alcanzar este tipo de
objetivos son las bases de datos distribuidas
redes
computadoras,
conectados
estas
pueden
tener
cientos
de
usuarios
de
corto
Las bases de datos, hoy en da, ocupan un lugar determinante en cualquier rea
ya que se emplea en diversas empresas no importando el giro de esta, es por ello
que deben de tener los conocimientos necesarios para poder utilizar las bases de
datos .En este captulo se hablar de las bases de datos, algunas de sus ventajas,
caractersticas, adems de cuales son algunas de sus principales caractersticas,
componentes, su diseo, etc.
para
las
decisiones de la gerencia.
un
Una base de datos puede tener cualquier tamao y complejidad. Por ejemplo, la
lista de nombres y direcciones mencionada, puede constar de unos pocos cientos
de registros, cada uno con una estructura sencilla.
Una base de datos puede crearse manualmente o puede estar informatizada.
que
se
muchos casos los diseadores forman parte del personal de ABD (Administrador
de bases de datos) y tal vez asuman otras responsabilidades una vez terminado el
diseo de la base de datos. Casi siempre, los diseadores interactan con cada
uno de los grupos de usuarios potenciales y desarrollan una vista de la base de
datos que satisfaga los requerimientos de datos y de procesamiento de cada
grupo, despus, se analizan las vistas y se integran con las de otros grupos de
usuarios. El diseo final debe ser capaz de satisfacer las necesidades de todos los
grupos.
ellos
la
utilicen.
Los cajeros de los bancos revisan los saldos y realizan los reintegros y depsitos
de dinero.
10
de
un
paquete fiscal que almacena diversos datos financieros personales para fines
fiscales
Normalmente los SGBD proporcionan mltiples recursos para acceder a la base
de datos. Los usuarios finales simples necesitan aprender pocas cosas sobre los
recursos proporcionados por el SGBD; solo necesitan entender los tipos de
transacciones estndar diseadas e implementadas para que ellos las usen los
usuarios ocasionales aprender nicamente unos pocos recursos que
pueden
de
que los ficheros que representan los mismos datos, se vuelvan inconsistentes.
Esto puede suceder porque una actualizacin se haya aplicado a ciertos ficheros
pero no a otros.
Restriccin de los accesos no autorizados
Cuando muchos usuarios comprante una misma base de datos, es probable que
no todos tengan la autorizacin para acceder a toda la informacin que contiene.
Por ejemplo es habitual considerar que los datos financieros son confidenciales y
que solo ciertas personas pueden tener autorizacin para acceder a lo mismo.
Adems, es posible que solo algunos usuarios tengan permiso para
recuperar
datos, mientras que a otros se les permita obtenerlos y actualizarlos por tanto,
tambin es preciso controlar los tipos de acceso( recuperacin o actualizacin).
Normalmente a los usuarios o grupos de usuarios se le asigna nmeros de cuenta
protegidos, con contraseas que sirven para detener accesos a la base de datos.
EL SGBD (Sistema de gestin de base de datos), debe contar con un sistema de
seguridad y autorizacin que le permita al ABD crear cuentas y especificar
restricciones para ellas. El SGBD deber entonces garantizar automticamente el
cumplimiento de dichas restricciones. Cabe sealar que el mismo tipo de controles
se puede aplicar al software que SGBD por ejemplo, solo el personal del ABD
tendr autorizacin para utilizar ciertos software privilegiados como el que sirve
para crear cuentas nuevas. De manera similar podemos hacer que los usuarios
paramtricos solo puedan tener acceso a la base de datos a travs de las
transacciones programadas que expresamente fueron creadas para ellos.
dicho
un
SGBD
incluyen detalles del nivel fsico en el esquema conceptual. En casi todos los
SGBD se manejan vistas de usuarios, los esquemas externos se especifican en
el
mismo modelos de datos que describe la informacin del nivel conceptual. Con
algunos SGBD es posible utilizar diferentes modelos de datos en los niveles
conceptual y externo.
Cabe sealar que los tres esquemas son ms que descripciones de los datos; los
ltimos datos que existen realmente estn en el nivel fsico. En un SGBD basado
en la base de arquitectura de tres esquemas cada grupo de usuarios hace
referencia exclusivamente su propio esquema externo, por lo tanto, el SGBD debe
transformar una solicitud expresada en trminos de un esquema externo en una
solicitud expresada en trminos del esquema conceptual y luego de una solicitud
en el esquema interno que se procesara sobre la base de datos almacenada. Si la
solicitud es una obtencin de datos ser preciso modificar el formato de
informacin extrada de la base de datos almacenada para que coincida con la
vista externa del usuario. El proceso de transformar solicitudes y resultados de un
nivel a otro se denomina correspondencia o transformacin. Esta correspondencia
puede requerir bastante tiempo por lo que algunos SGBD no soportan vistas
externas. Sin embargo, incluso de tales sistemas es preciso realizar algunas
correspondencias para transformar solicitudes entre los niveles conceptual
interno
ofrece
un
vistas,
manipular
los
SQL
pueden especificar y recuperar muchos registros con una sola instruccin de LMD
por eso se le llama LMD conjunto por conjunto u orientado a conjuntos. Las
consultad de los LMD de alto nivel suelen especificar que datos ah que obtener y
como obtenerlos por ello tales lenguajes se denominan tambin declarativos.
Siempre que las instrucciones de un LMD sean de alto o de bajo nivel, estn
embebidas en un lenguaje de programacin de propsito general, a ese nivel se le
denomina lenguaje anfitrin al MLD sub lenguaje de datos. Por otro lado los LMD
de alto nivel utilizados en forma interactiva e independiente se
denominan
los
se
incluyen interfaces amigables con el usuario que permiten interactuar con la base
de datos; estos tambin pueden aprovechar los usuarios ocasionales que no
deseen aprender los detalles de un lenguaje de consulta de alto nivel.
el
la
memoria
de
programa
de
aplicacin
con
las
cinta. La copia de seguridad puede servir para restaurar la base de datos en caso
de un fallo catastrfico. Tambin se suelen usar copias de seguridad en niveles,
donde solo se registran los cambios habidos desde la anterior copia de seguridad.
La copia de seguridad ahora es ms compleja, pero se ahorra espacio.
3.- Reorganizacin de ficheros: esta utilidad puede servir para pasar de una
organizacin de los ficheros de la base de datos a otra con el fin de mejorar el
rendimiento
4.- Control de rendimiento: las utilidades de este tipo supervisan la utilizacin de la
base de datos y proporcionan datos estadsticos al ABD, el cual los utilizan para
decidir, por ejemplo, si conviene reorganizar los ficheros con el fin de mejorar el
rendimiento
En este primer captulo se explico que son las bases de datos, cmo funcionan y
la importancia de contar con una base de datos dentro de una
organizacin.
Existen diversos tipos de bases de datos pero las bases de datos que actualmente
mas se demandan gracias a sus grandes ventajas competitivas son las bases de
datos distribuidas las cuales abordaremos en el siguiente captulo.
20
estn
llegando a ser cada vez ms importantes, as como algunos de los problemas que
se generan. Las bases de datos distribuidas son una coleccin de sitios,
conectados por medio de una red de comunicacin, los sitios trabajan juntos, a fin
de que un usuario de cualquier sitio puede acceder a los datos desde cualquier
logar de la red, exactamente como si los datos estuvieran guardados en el propio
sitio del usuario, es por ello que cada da ms empresas estn implementando
bases de datos distribuidas para tener acceso a su base de datos desde cualquier
sitio que desee.
Un
2.-Definir una base de dato distribuida BDD como una coleccin de mltiples
bases de datos interrelacionadas lgicamente, distribuidas por una red de
computadores y un sistema de gestin de bases de datos distribuido ( SGBD)
como un sistema software que maneja una base de datos distribuida haciendo la
distribucin transparente para el usuario. Una coleccin de ficheros almacenados
en diferentes nodos de una red y el mantenimiento de interrelaciones entre ellos
por medio de hipervnculos se ha convertido en una organizacin comn en
internet, con los ficheros de la pgina web. Las funciones usuales de la gestin de
bases de datos, incluyendo el procesamiento uniforme de consultas y el
procedimiento de transacciones, no se aplican todava a este entorno. Las
tecnologa, sin embargo se est moviendo en una direccin tal que las bases de
datos Word Wide Web (www) distribuidas se harn realizad en un futuro cercano
procesamiento
transparencia:
el usuario
la
interconsulta,
puede
en
paralelo.
Esto
se proporciona
los
servicios
requeridos
en
operaciones
apropiadas. Adems
la
de
las
costosas
mainframe
para
tareas
de
procesamiento
mas
especializadas.
6. Facilidad de crecimiento, ya que se pueden agregar sitios nuevos a la red sin
afectar las operaciones de otros sitios, tal flexibilidad permite que la compaa se
expanda con relativa facilidad y rapidez.
7. Interface de usuario fcil de usar, las computadoras personales y las estaciones de
trabajo en general, vienen equipadas con una interfaz de usuario grafica, esto
simplifica el uso y el entrenamiento de usuarios finales.
8.- Independencia del procesador: el usuario final es capaz de accesar cualquier
copia disponible de los datos, y la solicitud de un usuario es procesada por
cualquier procesador disponible en la ubicacin de los datos. En otras palabras,
las solicitudes no dependen de un procesador especifico; cualquier procesador
disponible puede manejar dicha solicitud.
de
del
un
Los ambientes en los que se encuentra con mayor frecuencia el uso de las bases
de datos distribuidas son:
Cadenas hoteleras.
las
siguientes
el
ejecutar
Gestin
del
directorio
(catalogo)
distribuido:
un
directorio
contiene
de
la
dentro
del
Las redes podran tener diferentes topologas, que definen los caminos de
comunicacin directos entre sitios. Los sitios de topologas de las redes utilizadas
no
importa el tipo de red utiliza, lo nico importante es que cada sitio puede
comunicarse directa o indirectamente con todos los dems sitios
.
2.6.-
Tcnicas
de
fragmentacin,
replicacin
tomar
decisiones
las
unidades
es
una
un
el
fragmento
de
informacin personal
la
replicacin
trabajadores
que
se
puede
describir
tiene
autonoma local. Por otro lado, si se permiten las transacciones locales acceso
directo a un servidor, el sistema tendr cierto grado de autonoma local.
En un estreno de la gana de autonoma, tenemos un SGBDD que da al usuario la
impresin de ser un SGBD centralizado. Solo hay un esquema conceptual y todo
acceso al sistema se hace a travs de un sitio que es parte del SGBDD de modo
que no hay autonoma local. En el otro extremo nos encontramos con un SGBDD
denominado SGBDD federado (o sistema de mltiples bases de datos). En un
sistema as, cada servidor es un SGBD centralizado independiente y autnomo,
que tiene sus propios usuarios locales, transaccionales locales y ABD,
por los
el
atributo,
varan
de
un
sistema
a otro.
Existen
caractersticas
se
deben
utilizar
disparadores
para
implementar
ciertas
Heterogeneidad semntica
La heterogeneidad semntica se da cuando hay diferencias en el significado,
interpretacin y el uso propuesto de los mismos datos y de datos relacionados. La
heterogeneidad semntica entre los sistemas de bases de datos (SGBD) de
componentes crea el obstculo ms grande en el diseo de esquemas globales de
bases de datos heterogenias. La autonoma de diseo de los SBD
de
se
guarda una condicin, a veces llamada de guarda, para cada fragmento, esta es
bsicamente una condicin de seleccin que especifica que tuplas estn en el
fragmento. Esta es bsicamente una condicin de seleccin que especifica que
tuplas estn en el fragmento; se le llama guarda porque solo las tuplas que
satisfacen esta condicin pueden estar almacenadas en el fragmento. En el caso
de fragmentos mixtos, tanto la lista de atributos como la condicin de guarda se
mantienen en el catalogo.
varios
paraliza
el
datos
copias
primarias
residan en ese sitio, pero las dems transacciones no resultan afectadas. Este
mtodo tambin puede usar sitios de respaldo para elevar la fiabilidad y la
disponibilidad
Eleccin de un nuevo sitio coordinador en caso de fallo
Siempre que un sitio coordinador falle en cualquiera de las tcnicas, los sitio que
siguen activos debern elegir un nuevo coordinador. En el caso del enfoque de
sitio primario sin sitio de respaldo, ser preciso abortar y reiniciar todas las
transacciones en ejecucin, y el proceso recuperacin ser bastante tedioso .
Parte de dicho proceso implica elegir un nuevo sitio primario y crear un proceso
gestor de bloqueos y un registro de toda la informacin de bloqueos en ese sitio.
En los mtodos que usan sitios se respaldo, el procesamiento de transacciones se
suspende mientras el sitio de respaldo se desina como nuevo sitio primario, se
escoge un nuevo sitio de respaldo y se enva a l copias de roda la informacin de
bloqueo del nuevo sitio primario.
Si el sitio de respaldo X est a punto de convertirse en el nuevo sitio primario, x
puede escoger el nuevo sitio de respaldo entre los sitios del sistema. Sin embrago
si no hay sitios de respaldo, o si estn cados tanto el sitio primario como el de
es
bastante
complicado. Aqu daremos solo una idea de algunos de sus aspectos. En ciertos
casos incluso es bastante difcil determinar si un sito esta cado intercambiar un
gran nmero de mensajes con otros sitios. Por ejemplo si un sitios a enva un
mensaje al sitio b y espera una respuesta el b pero no la recibe. Hay varias
explicaciones posibles
1.- El mensaje no llego a b debido a un fallo en la comunicacin
2.- El sitio b esta cado y no puede responder
3.- El sitio b esta activo y envi una respuesta, pero esta no llego
Es difcil determinar que sucedi realmente.
Otro problema con la recuperacin distribuida es la configuracin distribuida,
cuando una transaccin est actualizando datos en varios sitios, no puede
conformarse hasta asegurarse de que el efecto de la transaccin no puede
perderse en ningn sitio. Esto significa que cada sitio debe haber
guardado
las
el
especificarla
el
dividir
los
sistema
recuperacin
es
46
3.1- Replicacin
Segn Coronel, Carlos. (2004), la replicacin de datos se refiere
al
existencia
de
La base de datos A esta dividida en dos fragmentos: A1 y A2. Dentro de una base
de datos distribuida replicada, es posible el escenario ilustrado en la figura 3. 1se
guarda en los sitios S1 y S2, mientras que el A2 se guarda en los sitios S2 y S3.
que
copia
acezar
de
cada
Procesamiento de
Consultas
Manejo de
Directorios
Control de
Concurrencia
Confiabilidad
Realidad
Replicacin
Completa
Fcil
Replicacin
Parcial
Moderado
No replicada
Fcil o no
existente
Moderado
Moderado
Moderado
Difcil
Fcil
Muy alto
Aplicacin
posible
Alto
Realista
Bajo
Aplicacin posible
Lento
Frecuencia de uso
el
50
pueden
los
clculos adicionales son una forma de tiempo extra que no existe en los
sistemas centralizados.
La decisin del tipo de replica es muy importante ya que proporciona ventajas y
desventajas como se muestra en la figura 3.2 que compara una base da datos
unificada y una base de datos distribuida.
si
fuera
XYZ
Company
requiere
informacin sobre sus clientes en los tres estados, pero las ubicaciones de la
compaa en cada estado ( TN, FL, GA) solamente requieren datos con respecto
a clientes locales. Con base en esos requerimientos, se decide distribuir los datos
por estado . por consiguiente, se definen los fragmentos horizontales de acurdo
con la estructura mostrada en la tabla 3.1.
Cada fragmento horizontal puede tener un numero diferente de filas pero casa uno
de ellos debe, tener los atributos. Los fragmentos resultantes producen las tres
tablas ilustradas
diferentes
por
unos
fragmentados
verticalmente
para
la
Segn Coronel, Carlos. (2004), La distribucin de los datos a travs de una red de
computadora, se logra mediante la particin de los datos, replicacin de los datos
o mediante una combinacin de ambas. La colocacin de los datos est
estrechamente relacionada con la manera en que una base de datos se divide o
fragmenta. La mayora de los estudios de colocacin de los datos se enfocan en
un tema: que datos localizar y en donde los algoritmos de colocacin de los datos
consideran varios factores, incluidos:
60
de
Uso del sistema: debe tomarse en consideracin cual ser el tipo principal
de uso del sistema de BDD. Factores como la importancia en
la
3.5- Transparencia
No se debe exigir a los usuarios de los sistemas distribuidos de bases de datos
que conozcan la ubicacin fsica de los datos ni en el modo que se puede tener
acceso a ellos en un sitio local concreto. Esta caracterstica denominada
transparencia de los datos, puede adoptar varias formas:
Los elementos de datos (como de las relacin, los fragmentos y las replicas)
deben tener nombre nicos. Esta propiedad es decir de asegurar de una base de
datos centralizada. En las bases de datos distribuidas hay que tener cuidado para
asegurase de que dos sitios no utilicen el mismo nombre para elementos de datos
diferentes.
Una solucin a este problema es exigir que todos los nombres se registren en un
servidor de nombres central. El servidor de nombres ayuda a asegurar que le
mismo nombre no se utilice para elementos de datos diferentes.
Tambin
se
puede utilizar el servidor de nombre para ubicar un elemento de dato, dado que el
nombre del elemento. Este enfoque sin embrago presenta dos inconvenientes
principales en primer lugar, puede que el servidor de nombres se transforme en un
cuello de botella para el rendimiento cuando los elementos de datos, se ubican por
sus nombre, lo que da lugar a un bajo rendimiento. En segundo lugar,
si
el
servidor de nombres queda fuera de servicio puede que no sea posible que siga
funcionando ningn otro sito del sistema distribuido. Un enfoque alternativo ms
utilizado, exige que cada sitio anteponga su propio identificador
de
sitio
cualquier nombre que generen. Este enfoque asegura que dos sitos no generan
nunca el mismo nombre (dado que cada sitio tiene un identificar nico)
ademan
CONCLUSION
65
cualquier
compaa por pequea que sea tiene que manejar grandes cantidades de
informacin, para poder tener control sobre todas las reas de su empresa, es por
ello que surge la necesidad de emplear bases de datos dentro de las
organizaciones, no importando el giro de las empresas.
ya que las
de
informacin,
proveedores,
informacin
guarda
financiera,
informacin
inventarios,
sobres
sus
clientes,
La
gran
cantidad
de
informacin
que
producen
grandes
empresas
concurrente
de
mltiples usuarios. Una de las tecnologas que se propone alcanzar este tipo de
objetivos son las bases de datos distribuidas
Las bases de datos, hoy en da, ocupan un lugar determinante en cualquier rea
ya que se emplea en diversas empresas no importando el giro de esta, es por ello
que deben de tener los conocimientos necesarios para poder utilizar las bases de
datos.
redes
computadoras,
conectados
estas
pueden
tener
cientos
de
usuarios
de
por
corto
Para contar con una buena dase de datos distribuida esta debe de ser replicada y
fragmentada. La replicacin y fragmentacin permite tener disponible la
informacin, reduce costos, mejora el rendimiento de las operacin leer, aumenta
la flexibilidad, se obtiene la informacin de una manera ms fcil y rpida teniendo
un mejor procesamiento de las consultas.
Mediante la replicacin de informacin, las bases de datos distribuidas pueden
presentar cierto grado de tolerancia a fallos haciendo que el funcionamiento del
sistema no dependa de un solo lugar como en el caso de las bases de datos
centralizadas.
FUENTES DE INFORMACION
C, Date. (2010). Sistemas de Bases de Datos. Sptima edicin. Mxico: Pearson
educacin.
Unidos
70
INDICE DE TABLAS
Nmero de Pgina
Tabla 3.1. Comparacin de las estrategias de replicacin de fragmentos.51
Tabla 3.2 Fragmentacin Vertical de la Tabla Clientes.........................................55
Tabla 3.3 Fragmentacin de la tabla en tres lugares............................................56
Tabla 3.4 Fragmentacin Vertical de la tabla Clientes...........................................57
Tabla 3.5 Fragmentacin Mixta de la tabla clientes..............................................59
INDICE DE FIGURAS
Nmero de Pgina
Figura 1.1 Comparacin de una base de datos y un sistema archivos....................7
Figura 1.2 Muestra un entorno de sistema de base de datos simplificado, que
ilustra los conceptos y terminologa de un Sistema de Base de datos......................9
Figura 2.1 Replicacin y distribucin de datos en bases de datos distribuidas..30
Figura 2.2 Ejemplo de una Base de datos Distribuida.............................................33
Figura 3.1 Replicacin de Datos..............................................................................49
Figura 3.2 ventajas y desventajas de las formas de replicacin..............................53
Figura 3.3 Fragmentacin Vertical del contenido de la tabla.................................57
Figura 3.4 Contenido de una tabla despus del proceso de fragmentacin
mezclada.................................................................................................................. 60
73