Está en la página 1de 205

Modalidad Abierta y a Distancia

Administración de Base de Datos


Guía Didáctica

CARRERA CICLO

Tecnologías de la Información 5

ÁREA
TÉCNICA
Departamento de Ciencias de la Computación y Electrónica

Sección Tecnologías Avanzadas de la Web y SBC

Administración de Base de Datos

Guía Didáctica
Autores:
Morocho Juan Carlos
Encalada Eduardo
Romero Audrey

Asesoría virtual
www.utpl.edu.ec
ADMINISTRACIÓN DE BASE DE DATOS
Guía didáctica
Juan Carlos Morocho
Eduardo Encalada
Audrey Romero

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

4.0, CC BY-NY-SA

Diagramación y diseño digital:


EDILOJA Cía. Ltda.
Telefax: 593-7-2611418.
San Cayetano Alto s/n.
www.ediloja.com.ec
edilojainfo@ediloja.com.ec
Loja-Ecuador.

Primera edición.
ISBN digital - 978-9942-25-587-7

La versión digital ha sido acreditada bajo la licencia Creative Commons 4.0, CC BY-NY-SA:
Reconocimiento-No comercial-Compartir igual; la cual permite: copiar, distribuir y comunicar
públicamente la obra, mientras se reconozca la autoría original, no se utilice con fines comerciales
y se permiten obras derivadas, siempre que mantenga la misma licencia al ser divulgada. https://
creativecommons.org/licenses/by-nc-sa/4.0/deed.es

20 de marzo, 2020
2. Índice

2. Índice 4

3. Introducción 7

4. Bibliografía 9

4.1. Básica 9

4.2. Complementaria 9

5. Orientaciones generales para el estudio 11

6. Proceso de enseñanza-aprendizaje para el logro de competencias 16

PRIMER BIMESTRE

UNIDAD 1. ADMINISTRACIÓN DE DATOS 17

1.1. Panorámica del desarrollo de una base de datos 18

1.2. Ciclo de vida de una base de datos 20

1.3. Niveles de abstracción 22

1.4. Metodología de diseño de una base de datos 24

Autoevaluación 1 29

UNIDAD 2. ADMINISTRACIÓN DE BASES DE DATOS 32

2.1. Traducción del diseño lógico al lenguaje de base de datos 32

2.2. Concurrencia en los SGBD 34

2.3. Seguridad en los SGBD 55

2.4. Respaldos y recuperación 63

Autoevaluación 2 66

UNIDAD 3. ARQUITECTURAS DE BASES DE DATOS 70

3.1. Arquitectura centralizada 70

3.2. Arquitecturas Cliente/Servidor básicas 72

3.3. Arquitecturas cliente/servidor de dos capas para SGBD 73

3.4. Arquitecturas tres capas y n-capas para aplicaciones web 75

Autoevaluación 3 80
SEGUNDO BIMESTRE

UNIDAD 4. BASE DE DATOS DISTRIBUIDAS 83

4.1. Panorámica de un sistema de bases de datos distribuidas 83

4.2. Transparencia en un SGBDD 86

4.3. Ventajas y desventajas de los sistemas distribuidos 88

4.4. Patrones de Distribución 92

4.5. Replicación de datos 92

4.6. Fragmentación de datos 93

Autoevaluación 4 98

UNIDAD 5. BASES DE DATOS DE PROPÓSITOS ESPECIALES 102

5.1. Introducción a las bases de datos de propósito especial 102

5.2. Bases de datos de texto 103

5.3. Bases de datos multimedia 104

5.4. Bases de datos de espaciales 105

5.5. Bases de datos de científicas 107

Autoevaluación 5 109

UNIDAD 6. SISTEMAS DE APOYO A LAS DECISIONES 112

6.1. Introducción a la inteligencia de negocios 112

6.2. Inteligencia de negocios 119

6.3. Beneficios de la inteligencia de negocios 121

6.4. Técnicas y herramientas de inteligencia de negocios 122

6.5. Procesamiento Analítico en Línea 124

6.6. Minería de datos 127

Autoevaluación 6 130
UNIDAD 7. GESTIÓN DEL CONOCIMIENTO 133

7.1. Introducción 133

7.2. Representación del conocimiento 134

7.3. Recuperación de información 150

7.4. Librerías digitales 153

Autoevaluación 7 159

7. Solucionario 162

8. Glosario 184

9. Referencias bibliográficas 186

10. Anexos 188


Guía Didáctica: Administración de Base de Datos

3. Introducción

Los datos no son información, la información no es conocimiento.


Clifford Stoll

Estimado estudiante, reciba un cordial saludo de bienvenida a este nuevo periodo


académico. Nuestro sincero deseo de que este ciclo esté lleno de aprendizajes,
experiencias enriquecedoras y resultados positivos en su rendimiento académico.
Es muy grato acompañarlo en este trayecto hacia su formación profesional de
Ingeniero en Tecnologías de la Información en la Modalidad Abierta y a Distancia
de la UTPL.

Administración de Bases de Datos es una asignatura de vital importancia en la


consolidación del perfil profesional del Ingeniero en Tecnologías de la Información
(TI), contribuye a desarrollar las capacidades necesarias para desenvolverse en
los campos relacionados con el diseño, implementación y administración de las
bases de datos. La asignatura requiere una dedicación de 160 horas, que debe
distribuirse entre: las actividades compartidas por el docente (32h), prácticas de
aplicación y experimentación de los aprendizajes (32h), y aprendizaje autónomo
(96h).

Los contenidos temáticos de la asignatura contribuyen al propósito de desarrollar


capacidades que le permitan a más de diseñar y utilizar una base de datos a nivel
lógico, también implementarla de manera que se garantice niveles de rendimiento,
seguridad y productividad adecuados. Los contenidos se han organizado de
manera que se da continuidad al proceso de construcción, implementación
y optimización de la base de datos y además se trabajan otras tecnologías
emergentes que se encuentran en auge actualmente. Se han generado dos
temáticas agrupadas en Parte I: Administración de bases de batos y Parte II:
Fundamentos de bases de datos de propósito especial.

7 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

Durante el primer bimestre, la unidad 1 permite comprender la importancia la


administración de datos que realiza una panorámica del desarrollo y diseño de
una base de datos. La unidad 2 examina la administración de base de datos
donde se estudian aspectos clave que un DBA debe conocer. Finalmente,
la unidad 3 presenta las arquitecturas de bases de datos con el fin de
implementarlos en los sistemas de información.

Para el segundo bimestre, la unidad 4, examina las bases de datos distribuidas.


A continuación, se inicia la Parte II, la unidad 5 enfoca en las bases de datos
de propósito especial. La unidad 6 comprende los sistemas de apoyo a la toma
de decisiones con el fin de examinar soluciones en el marco de soluciones
de inteligencia de negocios. Finalmente, la unidad 7 aborda la gestión del
conocimiento con los temas clave de representación del conocimiento y
recuperación de la información.

Los conocimientos y experiencias que logre acumular durante el desarrollo de la


asignatura permitirán fortalecer su formación profesional, y despertarán en usted
el interés de profundizar en el estudio, experimentación, aplicación e investigación
de los sistemas de bases de datos y de la ciencia de datos en su globalidad.
Anímese a recorrer este camino con una visión abierta que lo llevará no solo a
aprobar una asignatura, sino a descubrir nuevas oportunidades de especialización
e innovación.

Le invitamos a llevar juntos el estudio de la asignatura “Administración de Bases


de Datos”, recordándole que le estaremos guiando y apoyando en su proceso
aprendizaje. ¡Bienvenido, le deseamos el mejor de los éxitos en su estudio!

Los autores.

8 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

4. Bibliografía

4.1. Básica

Coronel, C., y Morris, S. (2011). Bases de datos. Diseño, implementación y


gestión (Novena Edi). México: Cengage Learning Editores.

Este texto ofrece temas relacionados con los fundamentos de base de datos,
como el lenguaje SQL, el proceso de normalización y temas relacionados
con el diseño de bases de datos relacionales. Propone ejemplos que ayudan
a un mejor entendimiento de las bases teóricas.

Morocho, J.C., Encalada, E. y Romero, A. (2020). Administración de Bases de


datos. Guía Didáctica (1ª. ed.) Loja, Ecuador: UTPL.

La guía didáctica es un material educativo que ha sido elaborado con la


finalidad de apoyar el proceso de aprendizaje del estudiante a través de
diversas actividades que orienten, motiven, retroalimenten y evalúen los
conocimientos que el estudiante irá adquiriendo en el transcurso de su
formación académica.

4.2. Complementaria

Silberschatz, A., Korth, H., y Sudarshan, S. (2014). Fundamentos de bases de


datos. Madrid, España: McGraw-Hill Interamericana de España.

Este texto abarca gran parte de los temas que se proponen en la asignatura
de Administración de Bases de Datos. Es un material de actualidad que
parte de un conocimiento elemental para luego ir profundizando en los
temas, apoyándose en ejemplos explicativos y gráficas. Este texto contiene
resúmenes de los temas más relevantes y, además, contiene ejercicios que
le ayudarán a aplicar los temas de estudio.

9 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

Elmasri Ramez, N. S. (2016). Fundamentals of Database Systems (Séptima Ed).


Boston, Estados Unidos: Pearson.

Este texto presenta los conceptos fundamentales necesarios para el diseño,


el uso y la implementación de sistemas de bases de datos y aplicaciones
de bases de datos. Hace hincapié en los fundamentos de modelado de
base de datos y el diseño, los lenguajes y los modelos proporcionados por
los sistemas de gestión de base de datos y técnicas de implementación
del sistema de base de datos. Además, contiene tópicos emergentes como
bases de datos noSQL. Proporciona un análisis exhaustivo de los aspectos
más importantes de los sistemas de bases de datos y sus aplicaciones.

Encalada, E. (2017). Base de datos Avanzadas. Guía Didáctica. Loja, Ecuador:


UTPL.

Guía didáctica diseñada para el estudio de Administración de Bases de


Datos en la carrera de Ingeniería en Informática de la Modalidad Abierta y
a Distancia de la UTPL. En este material encontrará breves explicaciones,
comentarios, de cada uno de los temas. Además, incluye autoevaluaciones,
que le ayudarán como un indicador del logro de las competencias
propuestas.

Connolly, T., y Begg, C. (2005). Sistemas de bases de datos: un enfoque práctico


para diseño, implementación y gestión. Madrid, España: Pearson Educación.

Este texto propone los temas relevantes de los Sistemas de Base de Datos.
Su contenido es bastante didáctico, ofrece recursos para que el estudiante
pueda autoevaluarse al final de cada unidad, dispone de casos de estudio
sobre los cuales se puede ir desarrollando la parte práctica de la asignatura.
También ofrece recursos adicionales en la Web que ayudan al estudiante a
complementar los contenidos del texto.

10 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

5. Orientaciones generales para el estudio

El estudio a distancia es un reto que requiere esfuerzo, dedicación y planificación,


por ello, debe hacer de esta actividad un trabajo continuo y sistemático, organizar
su tiempo con el fin de aprovecharlo efectivamente en el desarrollo de contenidos.

Para el desarrollo de las competencias de la asignatura es necesario que siga


algunas orientaciones sobre cómo aprovechar al máximo las diversas ayudas que
se incluyen en recursos didácticos. Se detalla el material de estudio y los recursos
utilizados:

▪ El plan docente proporciona una planificación semanal a detalle, con las


actividades a desarrollar durante un ciclo académico. Es importante que se
utilice este recurso como una herramienta que permite organizar el tiempo
de dedicación que requiere la asignatura.

▪ La guía didáctica marca la hoja de ruta a seguir. Es el instrumento principal


que le encamina en la organización, el desarrollo y enfoque de su estudio. La
guía redirecciona a los contenidos que debe revisar y brinda: orientaciones,
recursos y actividades, para aclarar, profundizar y aplicar lo aprendido.

▪ El texto básico abarca la mayor parte de los contenidos fundamentales que


va a estudiar. Es importante aclarar que, no necesariamente la organización
y secuencia de contenidos del texto básico se corresponden estrictamente
con la planificación de la asignatura, en la cual, la organización de la
temática está orientada a la consecución de las competencias y resultados
de aprendizaje establecidos.

▪ Los recursos web permiten completar los contenidos fundamentales


a estudiar. Son materiales educativos de acceso abierto, debidamente
estructurados, didácticos y pertinentes para comprender los temas tratados.

11 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

Se incluyen: Recursos Educativos Abiertos (REA-OCW1), video tutoriales,


cuestionarios y otros que el profesor tutor le facilitará a través de la
plataforma virtual de aprendizaje.

▪ El entorno virtual de aprendizaje (EVA) que es el medio de interacción


interactuar con el docente y compañeros. En este entorno se encuentran
las orientaciones académicas de cada unidad por semana, además de las
actividades síncronas y asíncronas planificadas. El EVA también está a
su disposición para resolver inquietudes mediante el uso de la mensajería
instantánea, foros, chats, entre otros.

▪ La tutoría personal donde el profesor tutor de la asignatura dedicará un


horario de tutoría y lo publicará en EVA. La tutoría es el tiempo de dedicación
exclusivo para atender las inquietudes con relación a los contenidos, el
desarrollo de las tareas, actividades recomendadas, entre otras. Recuerde
que puede aprovechar de forma efectiva este espacio y sus inquietudes
serán atendidas con gusto.

▪ La evaluación presencial que se realiza al término de cada bimestre, y


usted debe presentarse a esta evaluación en su centro universitario.

Antes de iniciar el estudio de esta asignatura, se tienen las siguientes


sugerencias:

▪ Lea detenidamente la introducción de la guía didáctica que resume el


propósito de la asignatura y su importancia en el contexto de la titulación y
el área de conocimiento.

▪ Revise la planificación del bimestre contenida en el plan de docente, con


el fin de planificar su tiempo semana a semana y conocer los resultados de
aprendizaje esperados.

1
OCW OpenCourseWare – Cursos Abiertos

12 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

▪ Siga las indicaciones de la guía didáctica. Por cada unidad, al inicio


encontrará una breve presentación y objetivos del contenido a estudiar, y las
orientaciones puntuales de cada tema. En el desarrollo de cada apartado,
la guía direcciona su atención a los contenidos. Adicionalmente encontrará:
aclaraciones, figuras, actividades propuestas, ideas clave, recursos
complementarios, entre otros para comprender y enfocar su estudio.

Para finalizar esta sección revise las siguientes recomendaciones generales:

▪ Estudie en un ambiente ordenado, con poco ruido, buena iluminación y


temperatura. Con esto, garantiza que en sus momentos de estudio no pierda
la concentración con facilidad.

▪ Utilice técnicas de lectura comprensiva, como una lectura general para


revisar las temáticas de cada unidad, y lecturas analíticas para identificar los
aspectos relevantes.

▪ Mantenga un aprendizaje activo, utilizando técnicas de estudio como:


elaboración de resúmenes, esquemas, mapas conceptuales, subrayado u
otra estrategia de aprendizaje.

▪ Organice su tiempo para desarrollar a tiempo sus actividades de estudio.


Se le sugiere dedicar al menos 8 horas semanales para el estudio de esta
asignatura. Para la planificación considere sus ocupaciones, habilidades y
dedicación realistas.

▪ Estudie las temáticas planteadas de forma secuencial y asegúrese de ir


despejando sus dudas. Para esto, el plan docente y los recursos de apoyo
son de mucha utilidad.

▪ Tenga una dedicación periódica y sostenida para la revisión del texto


básico, guía didáctica, así como los anuncios, directrices y recursos que se
encuentran en EVA.

13 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

▪ Es conveniente, que realice las actividades recomendadas,


autoevaluaciones, solucionarios, todo esto le permitirá reforzar el proceso de
aprendizaje.

Realice todas las actividades síncronas y asíncronas planificadas, las mismas que
le permitirán fortalecer el conocimiento adquirido y obtener un puntaje.

Revise los símbolos que se utilizan en la guía didáctica para que se familiarice
con estos.

Símbolo Propósito
Enfatiza el capítulo del libro que se requiere en la unidad de
estudio.

Hace referencia a contenido del texto básico. Le redirige a un


apartado específico del texto.

Propone actividades recomendadas para aplicar, reforzar y


asimilar los temas estudiados.

Remarca y/o enfatiza algunas ideas o conceptos.

Destaca alguna reflexión.

Redirecciona a un recurso de aprendizaje publicado en el EVA.


Que corresponde a un contenido fundamental de la asignatura.

Referencia a contenido de un recurso o herramienta disponible


en la Web que complementa el tema abordado.

14 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

Estimado estudiante, recuerde que su constancia y esfuerzo son fundamentales


para lograr las metas que se ha planteado para el presente ciclo de estudios y que
con mucho gusto se atenderán todas sus inquietudes y de esta manera se busca
apoyarle en su aprendizaje.

15 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

6. Proceso de enseñanza-aprendizaje para el logro de competencias

PRIMER BIMESTRE

PARTE I: ADMINISTRACIÓN DEL ENTORNO DE BASE DE DATOS

Estimado estudiante, se inicia el estudio de la asignatura “Administración de


bases de datos”. Confiamos que el camino que inicia aquí́, represente para usted
la acumulación de nuevas experiencias y descubrimientos que alienten e inspiren
su formación personal y profesional.

Esta primera parte se centra en aportar con una panorámica de la actividad


de administración de una base de datos y todos los aspectos involucrados.
También se revisa la concurrencia en una base de datos, que es el principal
problema de las bases de datos debido a que deben atender a varios o miles
de usuarios al mismo tiempo. Se hace énfasis en la seguridad de una base de
datos y los respaldos como método para salvaguardar la información en ella
contenida. Además, se reforzará la comprensión de los sistemas de base de datos
distribuidos así como las arquitecturas de n-capas. Es muy importante conocer las
temáticas antes mencionadas ya que ello le aportará con una vista global sobre la
administración de bases de datos.

¡Vamos a iniciar!

16 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

UNIDAD 1. ADMINISTRACIÓN DE DATOS

Esta unidad está basada en el capítulo “Sistemas de Base de


Datos” de su texto básico, sin embargo, es posible que además se
lo dirija a uno o dos apartados de otros capítulos del mismo texto.
Para completar satisfactoriamente esta unidad se requiere
que vaya utilizando la guía didáctica y el texto básico
simultáneamente.

Hoy en día, es innegable que los datos que se almacenan en una base de datos
constituyen uno de los activos más importantes de las empresas, por lo tanto, la
administración de datos merece una especial preocupación en las organizaciones,
debido a la diversidad de datos almacenados que van desde temas financieros,
académicos, de manufactura o gubernamentales hasta datos vinculados con la
salud pública, entre otros.

Las empresas están continuamente innovando, y gracias a los avances


tecnológicos es posible almacenar grandes volúmenes de datos que provienen de
todo tipo de dispositivos, un ejemplo son los sensores que están constantemente
monitoreando aspectos susceptibles de medir, por ejemplo: la temperatura,
la velocidad del viento, la contaminación del aire, la iluminación, el ruido, la
humedad, etc. El objetivo es obtener el máximo beneficio de los datos mediante
procesos informáticos para generar información relevante que no es posible
observar a simple vista.

Con toda esta cantidad de información es imprescindible una correcta


administración de los datos siguiendo procedimientos que guíen el buen diseño, la
implementación y el correcto mantenimiento de un sistema de bases de datos.

Esta primera unidad se centra en presentar una panorámica de la actividad de


administración de datos y los conceptos implicados.

17 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

1.1. Panorámica del desarrollo de una base de datos

Antes es necesario recordar el propósito de los sistemas de bases de datos.

En su texto básico, revise los apartados: “Por qué bases de datos”


y “Datos vs. Información”, que se explican las motivaciones que
permitieron surgir a las bases de datos.

Es muy importante que tenga presente los problemas que sucedían en los
sistemas de información antes de las bases de datos y que han podido
solucionarse con el surgimiento de estas, de allí que se puede destacar la
importancia que tienen las bases de datos en las organizaciones y la necesidad
de que su implementación siga un proceso adecuado.

Las etapas iniciales del proceso de diseño de bases de datos han sido revisadas
en la asignatura de Fundamentos de Base de Datos y ahora se completará el
proceso.

Entonces, ¿qué entiende por proceso de desarrollo de bases de datos?

El proceso de desarrollo de bases de datos establece los pasos que a seguir


cuando se tiene una necesidad organizacional de contar con una solución
tecnológica para organizar, almacenar y gestionar adecuadamente la información2.
Permite diseñar e implementar dicha solución a través de los sistemas de bases
de datos.

Es un proceso que marca el camino a recorrer para llegar a la implementación


de una base de datos, que inicia cuando se “concibe” la necesidad de una
base de datos, y luego va tomando forma durante su diseño, ve la luz cuando
se la implementa, madura cuando se la afina, tiene vida plena cuando entra en

2
expresada en un conjunto de requerimientos de datos

18 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

producción, y permanece en un estado de mejora constante. Es decir, es un


camino que marca el ciclo de vida de una base de datos (DBLC3).

Es importante resaltar que, normalmente la implementación de una base de datos


forma parte de la implementación de un sistema de información, por esta razón
existe una estrecha vinculación entre ambos.

Coronel y Morris (2011) definen que el ciclo de vida del desarrollo de sistemas
(SDLC4) en las cinco fases tradicionales: planeación (o investigación preliminar),
análisis, diseño, implementación y mantenimiento (Figura 1).

Figura 1. Ciclo de vida del desarrollo de sistemas (SDLC)


Fuente: Coronel et al., 2011, p.375
Elaborado: Encalada, E.

En su texto básico revise el apartado “El ciclo de vida de para


el desarrollo de sistemas” donde detalla la Figura 1 con las
principales tareas en cada fase.

3
del inglés Database Life Cycle del inglés Database Life Cycle
4
del inglés Systems Development Life Cycle

19 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

1.2. Ciclo de vida de una base de datos

El DBLC5 define las fases que marcan la evolución del desarrollo de un sistema
de bases de datos.

En su texto básico revise el apartado “Ciclo vital de una base de


datos de sistemas” donde detallan las seis fases del ciclo de una
base de datos.

En Coronel y Morris (2011) se plantea un DBLC dividido en 6 fases que se


presenta en la Figura 2. Como puede observar, las fases guardan mucha relación
con las fases del SDLC6.

Figura 2. Ciclo de vida de la base de datos (DBLC)


Fuente: Coronel et al., 2011
Elaborado: Encalada, E.

5
Ciclo de vida de una base de datos
6
Ciclo de vida del desarrollo de sistemas

20 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Algunas consideraciones y referencias adicionales, para complementar lo descrito


en la Figura 2, son las siguientes:

1. Según Connolly y Begg (2005), la fase estudio inicial comprendería a su vez


tres etapas:

a. Planificación de la base de datos. Define el marco general de trabajo,


las estrategias y metodologías a aplicar durante todo el proceso de
diseño e implementación.
b. Definición del sistema. Establece el ámbito de aplicación de la base
de datos y las vistas de usuario7.
c. Recopilación y análisis de requisitos. Levanta los requisitos de datos
y las transacciones de datos8 específicos por cada vista de usuario.

2. El estudio inicial del DBLC se realiza conjuntamente con la planeación del


SDLC.

3. En la fase de diseño, se toma como base los requisitos de datos de cada


vista de usuario que se identificaron en la fase estudio inicial y a partir de
allí se construye un modelo de datos, definiendo todas las especificaciones
lógicas y físicas necesarias para realizar la implementación de la base de
datos. Se ejecuta en paralelo con la fase de diseño del sistema.

4. El diseño viene a ser el plano de la construcción y es materializado durante


la fase de implementación.

5. La carga de datos debe realizarse como parte de la implementación. Que


podría ir desde simplemente cargar ciertos parámetros y catálogos iniciales,

7
Una vista de usuario define qué es lo que se requiere de un sistema de base de datos desde
la perspectiva de un determinado rol de la organización o de un área de aplicación empresarial
(Connolly y Begg, 2005, p.262)
8
Secuencia de operaciones que se ejecutan como una sola unidad lógica de trabajo. Ejemplo:
registrar venta, agregar cliente, agendar cita, etc.

21 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

hasta migrar todos los datos existentes en sistemas antiguos u otras fuentes
de datos, como hojas electrónicas.

6. Durante las pruebas se valida toda la implementación de la base de datos


tanto de forma aislada, como en conjunto con el sistema de información.

7. Si las pruebas se superaron al 100%, entonces la base de datos entrará


formalmente en operación (pasa a producción), donde ya en condiciones de
carga real, podrían surgir nuevos problemas de rendimiento que no se hayan
detectado antes, por lo que puede requerir un afinamiento adicional.

8. El sistema en producción requiere un monitoreo constante y un


mantenimiento que garantice su operación, evolución y mejora permanentes.

Como usted ha podido corroborar tanto el DBLC como el SDLC son


procesos vinculados que se van ejecutando paralelamente, son co-
dependientes e integrados. Y aquí se vislumbra que a nivel de bases de
datos la fase de diseño es la más crítica, porque de esta surgen todas las
especificaciones que se implementan al instalar y crear la base de datos. Si
el diseño no es correcto, las pruebas no podrían ser superadas y se tiene
que volver a revisarlo y corregirlo, con el consiguiente esfuerzo y demora
que ello implica.

1.3. Niveles de abstracción

Es importante considerar los tres niveles de abstracción de los datos debido a que
están presentes en todo sistema de bases de datos.

En su texto básico, revise el apartado “Grados de Abstracción”


del capítulo “Modelos de datos” donde se describen los niveles o
grados de abstracción de datos

22 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Si se asoma a la ventana de estos tres niveles ¿qué se observa?

• A nivel físico (interno): La base de datos en disco, los archivos de


datos, su ubicación, su tamaño, y otros archivos, muy en dependencia
del SGBD utilizado.
• A nivel lógico (conceptual): Las estructuras lógicas de
almacenamiento y organización de los datos, que en bases de datos
relacionales son las relaciones o tablas, con todos sus elementos
y asociaciones (campos, tipos de datos, claves primarias, claves
foráneas, y demás restricciones de integridad).
• A nivel de vistas (externo): El usuario final vería a través de las
herramientas o aplicaciones que utiliza para acceder a los datos,
el usuario final no ve tablas o relaciones, ve a través de reportes,
formularios, gráficas y otros, solo la información que necesita y a la que
tiene acceso.
La Figura 3 muestra en un esquema los niveles de abstracción, para que usted
relacione esta explicación.

Figura 3. Diferencias entre los niveles de abstracción


Fuente: Connolly, T. y Begg, C. (2005)
Elaborado por: Morocho, J. Y Romero, A. (2017)

23 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

1.4. Metodología de diseño de una base de datos

Como ya se preveía, la fase de diseño es clave dentro del DBLC. Puesto que,
es donde los requerimientos de datos y las transacciones de datos identificadas
por cada vista de usuario son convertidas en especificaciones lógicas y físicas
implementables a través de un SGBD.

Entonces, queda claro que la fase de diseño de una base de datos se divide en
tres etapas o subfases. La Figura 4 ilustra y describe esas etapas.

Figura 4. Etapas del diseño de una base de datos


Fuente: Encalada, 2017

El orden de esas tres etapas a su vez determina su criticidad (de mayor a menor),
pues cada etapa depende de la anterior, y como se recalca en Silberschatz, Korth
y Sudarshan (2014), una vez en producción el esquema físico se puede cambiar
sin afectar a las aplicaciones, pero un cambio a nivel conceptual y/o lógico implica
que también será necesario corregir las aplicaciones que acceden a la base de
datos.

La metodología que se recomienda seguir para llevar a cabo el diseño toma en


consideración varios aspectos críticos que no deben perderse de vista al diseñar
la base de datos. En Connolly y Begg (2005) se exponen claramente estos
factores que se muestra en la Figura 5.

24 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 5. Factores críticos en el diseño de una base de datos


Fuente: Connolly, T. y Begg, C. (2005), p.401
Elaborado por: Encalada, E.

A continuación, la descripción de la metodología utilizada para cada etapa del


diseño.

1.4.1. Diseño conceptual

Proceso de obtener un modelo de datos independiente del modelo de base de


datos a utilizar y de todas las consideraciones físicas. El modelo más utilizado
es el Modelo E-R que se basa en la identificación de entidades y sus relaciones.
La Figura 6 ilustra las actividades del diseño conceptual desde la perspectiva del
modelo entidad-relación.

25 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 6. Metodología del diseño conceptual


Fuente: Encalada, 2017

1.4.2. Diseño lógico

El diseño lógico corresponde al proceso de obtener un modelo de datos de


una empresa, apegado a un esquema de representación específico (relacional,
orientado a objetos, NoSQL, orientado a grafos, etc.). Pero aún es independiente
de un SGBD específico y otras consideraciones de implementación. La Figura 7
ilustra las actividades que conlleva el diseño lógico aplicado a un modelo de base
de datos relacional.

Figura 7. Metodología del diseño lógico


Fuente: Encalada, 2017

26 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Recuerde:
Un modelo de datos no es solo un diagrama, debe incluir también
un diccionario de datos donde consten todas las especificaciones
que no se puedan representar en el diagrama.

El Anexo 1 presenta un caso de estudio que incluye el desarrollo del diseño


conceptual y diseño lógico.

Actividad propuesta:

Aplique lo aprendido hasta ahora para realizar el diseño


conceptual y diseño lógico para el ejercicio 7.1 propuesto en su
texto básico.

1.4.3. Diseño físico

El diseño físico es el proceso donde se definen las especificaciones de


implementación de la base de datos en un entorno específico, que garantice
eficiencia, seguridad y productividad. Para esta etapa es necesario seleccionar
el SGBD a utilizar. La Figura 8 ilustra las actividades que implica el diseño físico
tomando como ejemplo a Oracle como SGBD.

Figura 8. Metodología del diseño físico


Fuente: Encalada, 2017

27 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

1.4.4. Roles técnicos en proceso de diseño e implementación de la base de


datos

Durante este proceso, a nivel técnico, aparecen dos roles que asumen las
personas que realizan el diseño:

• Administrador de los datos: son quienes desarrollan el diseño


conceptual y el lógico. En su perfil no se requiere que sean expertos en
el SGBD elegido para implementar la base de datos.

• Administrador de la base de datos: conocido como DBA9, es quien


se encarga de realizar el diseño físico y luego implementar y optimizar
la base de datos. Se requiere que sea experto en la administración del
SGBD elegido.

Una misma persona o equipo podría asumir ambos roles y ejecutar todo el
proceso.

Durante la asignatura anterior, Fundamentos de Bases de Datos, aprendió


las fases de diseño conceptual y de diseño lógico, es decir, asumió el rol de
Administrador de los datos. En esta asignatura, en la unidad 2 corresponde
asumir el rol de DBA para construir el diseño físico.

9
del inglés DataBase Administrator

28 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Autoevaluación 1

Una vez concluido el estudio de la presente unidad, desarrolle un cuestionario de


autoevaluación, que le servirá para verificar su asimilación respecto al tema.

Seleccione la opción correcta

1. La etapa de diseño más crítica es:

a. Diseño físico.
b. Diseño conceptual.
c. Diseño de pruebas.

2. Cuál es el nivel más elevado de abstracción de los datos?

a. Nivel de vistas.
b. Nivel físico.
c. Nivel lógico.

3. ¿Cuál es la etapa del diseño en la que no interesa aun saber si se va a


trabajar con una base de datos relacional o una base de datos orientada a
objetos u otra?

a. Diseño conceptual.
b. Diseño lógico.
c. Diseño físico

4. ¿Cuál es el modelo de datos en el que se representan tablas, columnas,


llaves primarias y llaves foráneas?

a. Modelo entidad-relación.
b. Modelo relacional.
c. Modelo orientado a objetos.

29 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

5. El encargado de levantar los requerimientos y construir el modelo conceptual


de datos cumple el rol de:

a. Administrador de los datos.


b. Administrador de la base de datos.
c. Analista de base de datos.

6. Cuál de las siguientes afirmaciones es cierta respecto al DBLC?

a. El proceso de desarrollo de una base de datos es ajeno al proceso de


desarrollo de sistemas.
b. Una base de datos luego de su implementación permanece en un
estado de mejora constante.
c. El ciclo de vida de una base de datos, da inicio con el diseño
conceptual.
d. El ciclo de vida de una base de datos, termina cuando se implementa la
base de datos.

7. Al construir una base de datos, la identificación de las vistas de usuario se


realiza en la fase de:

a. Diseño.
b. Estudio inicial.
c. Implementación.

8. Una vez en producción la base de datos. ¿Cuál de los siguientes tipos de


cambios afecta en menor medida a las aplicaciones de usuario final?

a. Cambios en especificaciones de diseño conceptual.


b. Cambios en especificaciones de diseño lógico.
c. Cambios en especificaciones de diseño físico.

30 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

9. En la construcción de una base de datos, el diseño físico se ocupa del:

a. “qué hacer”.
b. “cómo hacerlo”.
c. “para qué hacerlo”.

10. El diccionario de datos en un modelo:

a. reemplaza al diagrama de datos.


b. describe el diagrama de datos.
c. complementa al diagrama de datos.

Recuerde que al final de la guía puede revisar el solucionario para validar sus
aciertos. Si hay aspectos en los aún tiene dificultad, revise nuevamente esos
temas y apóyese en la asesoría que le brinda su tutor.

Ir al solucionario

31 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

UNIDAD 2. ADMINISTRACIÓN DE BASES DE DATOS

Esta unidad está basada en los capítulos “Administración de


Transacciones y Control de Concurrencia” y “Administración
seguridad de la base de datos” de su texto básico, sin embargo,
en apartados específicos se direccionará a apartados de otros
capítulos.
Para completar satisfactoriamente la unidad se requiere que vaya
utilizando la guía didáctica y el texto básico.

Estimado estudiante, es necesario iniciar el estudio de esta unidad revisando


el apartado Traducción del diseño lógico al lenguaje de bases de datos, que
es la traducción del diseño lógico a una estructura física de base de datos que,
posteriormente, será administrada desde el Sistema de Gestión de Base de Datos
(SGBD).

2.1. Traducción del diseño lógico al lenguaje de base de datos

La traducción del diseño lógico implica tomar el modelo de datos resultante del
diseño lógico, y convertirlo en lenguaje que entienda el SGBD seleccionado, en
nuestro caso se convierte en sentencias SQL que es el lenguaje manejado por las
bases de datos relacionales. Esta tarea de traducción o conversión a lenguaje de
base de datos se conoce también como materialización de la base de datos.

Si necesita recordar los comandos y sintaxis del lenguaje


SQL, revise el capítulo “Introducción al lenguaje de consulta
estructurado (SQL)” de su texto básico. Específicamente, en los
apartados “Comandos para definición de datos” y “Comandos
adicionales para definición de datos”.
Además, se recomienda el Tutorial SQL que es un recurso online
muy práctico para aprender el lenguaje SQL.

32 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

La materialización de la base de datos relacional implica que se apliquen algunas


reglas que permiten llegar a un modelo de datos óptimo.

En EVA dentro del recurso “Diseño físico de una base de datos


Oracle” revise el apartado “Traducción del modelo lógico”. En
el cuál se explica y desarrolla la traducción del modelo lógico a
lenguaje SQL de Oracle.

Debe tener clara la importancia de conocer sobre las prestaciones del motor
de base de datos (SGBD) elegido y sobre todo de sus limitantes. También es
importante destacar que, todo lo que consta en el modelo lógico no siempre
puede implementarse con el lenguaje de definición de datos (DDL), por lo tanto,
debe estar en la capacidad de solucionarlo adecuadamente. Por ejemplo: cuando
se tienen campos derivados, normalmente, se soluciona creando un trigger10
(disparador) que recalcule el valor y lo actualice cada vez que modifique alguno
de los datos vinculados al cálculo.

Aquellas restricciones que no pueden implementarse a través del SGBD deben


quedar documentadas y comunicadas para que en el desarrollo de la aplicación
se implementen.

Recuerde:
Todas las restricciones de integridad deben implementarse. Puede
ser mediante DDL utilizando triggers o en la aplicación.

En la administración de bases de datos existen conceptos que son intrínsecos


al sistema de gestión de base de datos (SGBD). Entre los conceptos más
importantes se encuentran los temas de concurrencia, seguridad y respaldos y
recuperación de la base de datos.

10
Un trigger es una rutina de código de programación escrito en el lenguaje que provee el
SGBD, que está asociado a una tabla y se ejecuta ante la ocurrencia de algún evento de
acceso a los datos (SELECT, INSERT, UPDATE o DELETE)

33 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

2.2. Concurrencia en los SGBD

Un SGBD debe garantizar que las operaciones correspondientes a una


determinada transacción se lleven a cabo todas correctamente o se restauren y
además que la base de datos se actualice correctamente cuando haya múltiples
usuarios trabajando de manera concurrente.

Para abordar este tema es necesario trabajar dos temas esenciales:


Transacciones y Control de Concurrencia.

2.2.1. Panorámica del procesamiento de transacciones

El término “transacción” ya debe ser familiar para usted, es muy utilizado en el


ámbito de las bases de datos. De hecho, cuando se inicia a construir una base de
datos durante el estudio preliminar se identificaron tanto requerimientos de datos
como transacciones de datos.

Desde el punto de vista del usuario, una transacción es una acción específica
que se realiza a través de una aplicación, por ejemplo: registrar una venta,
registrar un préstamo, comprar un boleto de avión, reservar una habitación de
hotel, etc. Estas acciones a nivel de base de datos implicaría varias operaciones
de consulta y actualización de datos.

En su texto básico revise el capítulo “Sistemas de Bases de


Datos” en los apartados:
• Evolución del procesamiento de datos de un sistema de
archivos
• Problemas con el procesamiento de datos del sistema de
archivos
• Sistemas de base de datos
Donde se ofrece una descripción del propósito de los sistemas
de bases de datos y una visión general de la gestión de
transacciones. Le ayudará a comprender mejor la importancia de

34 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

la gestión de transacciones de cara a garantizar la calidad de los


datos.

Para comprender el tema, considere el caso de estudio PEDIDOS del Anexo 2,


y pregúntese ¿qué sucede en la base de datos cuando se registra un pedido?
Sucede que al procesar la transacción “Registrar pedido” en la base de datos
ocurren una serie de actualizaciones:

1. Agrega un nuevo pedido a la tabla PEDIDOS.


2. Agrega los ítems solicitados a la tabla ITEMS
3. Actualiza las existencias de los productos ordenados en la tabla
PRODUCTOS (control de stock).
4. Actualiza el monto de ventas para el vendedor que receptó el pedido.
5. Actualiza el monto de ventas para la oficina del vendedor.

Para asegurar el éxito de la transacción, esas cinco operaciones deben ejecutarse


TODAS de manera sucesiva. De otra forma, se producirían graves errores de
inconsistencia en los datos. Por lo tanto el SGBD debe deshacer todas las
operaciones para garantizar que la base de datos quede en un estado coherente.

EJEMPLO: ¿qué sucedería si por algún evento no


previsto (corte de suministro de energía, o falla en
el hardware o error del software, etc.) el proceso se
interrumpiera entre la 4ta y 5ta actualización?
En ese caso: el pedido quedará registrado en la base de
datos e incluso las existencias de los productos y el monto
de ventas del vendedor se actualizarán correctamente, pero
no sucedería lo mismo con las ventas de la oficina debido a
que conservaría el mismo valor que tenía antes del inicio de
la transacción, aún cuando el pedido si fue registrado.
Esto obviamente provocaría una grave inconsistencia en los
datos, ya que no se cumpliría la premisa de que “las ventas
de una oficina deben ser iguales a la suma de las ventas de
los empleados de esa oficina”.

35 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

La función de asegurar que durante el procesamiento de una transacción no se


produzcan inconsistencias en los datos es responsabilidad del SGBD a través del
componente gestor de transacciones.

En su texto básico revise el apartado “Qué es una transacción”


Aprenderá lo que es una transacción de base de datos y sus
propiedades.

Como se expone en Silberschatz et al. (2014), una transacción es una secuencia


de una o más sentencias que juntas forman una unidad de trabajo o de ejecución.
En este punto, es importante remarcar el término unidad que significa que una
transacción constituye una tarea que debe ejecutarse en su totalidad o en su
defecto no ejecutarse, pero jamás ejecutarse de manera parcial, como lo puede
observar en la Figura 9.

Figura 9. Ilustración del concepto de transacción


Fuente: Encalada, 2017

36 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

▪ Estados y propiedades de las transacciones

Céntrese ahora en comprender lo que es una transacción, sus propiedades y los


estados que la definen, desde una perspectiva más orientada al SGBD.

Cada operación de una transacción realiza una parte de la tarea, y todas son
necesarias para completarla exitosamente. Por ello, el agrupar un conjunto de
operaciones dentro de una transacción le indica al SGBD que se trata de una
tarea que debe ejecutarse atómicamente para que la base de datos permanezca
en un estado consistente (o todas se efectúan o ninguna). El SGBD es
responsable de mantener este compromiso, incluso si el programa de aplicación
aborta o si se produce un fallo en el hardware a mitad de la transacción. Analice la
Figura 8 donde se ilustra lo antes expuesto.

Tenga en cuenta que, hablar de operaciones de una transacción hace referencia


a operaciones del lenguaje del SGBD (SQL en bases de datos relacionales), y
específicamente operaciones de consulta y actualización. A estas operaciones
se las llama simplemente leer y escribir (read y write) a efectos de simplificar
las explicaciones sobre el procesamiento de transacciones. Leer para hacer
referencia a la consulta de un elemento de dato, y escribir para referirnos a su
actualización.

Una vez claro el concepto de transacción, corresponde identificar las propiedades.


Recuerde que toda transacción debe cumplir cuatro propiedades, llamadas
propiedades ACID:

• Atomicidad (Atomicity): Una transacción es una unidad de trabajo


indivisible, que exige se ejecuten o todas sus operaciones o ninguna,
pero jamás solo una parte de ellas.
• Consistencia (Consistency): Una transacción es una unidad de
integridad, por lo que su ejecución debe preservar la consistencia de
los datos.

37 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

• Aislamiento (Isolation): Una transacción es una unidad de aislamiento.


Implica que la ejecución de una transacción no debe afectar la
ejecución de otras.
• Durabilidad (Durability): Una transacción es una unidad de
recuperación. Si la transacción se finalizó con éxito, los cambios en la
base de datos deben ser permanentes.

El SGBD siempre debe garantizar el cumplimiento de las propiedades ACID. Se


aborda cada una de ellas con más detalle. Las primeras propiedades en analizar
son:

▪ La durabilidad implica que los datos una vez ingresados en la base de datos,
serán guardados en almacenamiento secundario con tolerancia a fallos
(RAID11 1 en adelante). Este tipo de almacenamiento es necesario para
garantizar la durabilidad de los datos.
▪ La atomicidad indica los posibles estados de una transacción. La Figura
10 complementa la explicación de dichos estados y el flujo que entre ellos
puede ocurrir; como se ve, una transacción termina cuando llega a un estado
o bien confirmada12 o bien abortada.

Figura 10. Estados de una transacción


Fuente: Encalada, 2017

11
RAID (del inglés Redundant Array of Independent Disk), tecnología de virtualización de
almacenamiento de datos que combina múltiples componentes de discos físicos en una o más
unidades lógicas para fines de redundancia de datos.
12
En bases de datos los términos “confirmada” y “comprometida” son similares.

38 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Cuando ocurre un fallo y la transacción pasa a estado fallida, el SGBD debe


deshacer (hacer ROLLBACK) de todos los cambios efectuados hasta ese punto.
¿Cómo lo hace? normalmente guarda un registro (un log) de los cambios hechos,
que le sirve para regresar atrás. Solo pasará a estado abortada cuando se haya
retrocedido en todos los cambios, con ello se habrá garantizado la atomicidad de
la transacción, “o todo o nada”. Y si una transacción ha pasado a estado abortada,
entonces se puede optar por reiniciarla o cancelarla. Se optaría por lo primero
siempre que el problema no haya correspondido a errores de la aplicación o por
incompatibilidad de datos.

Recuerde:
• En una relación ningún atributo de una clave principal puede
ser nulo.
• Es importante que se tome en cuenta que, si la clave
primaria es compuesta esta regla debe aplicarse a todos los
campos.

Otra propiedad muy importante de las transacciones es el aislamiento, que tiene


incidencia cuando el SGBD recibe varias transacciones a la vez y las organiza
para que se ejecuten concurrentemente. En ese caso surge la pregunta ¿cómo
evitar que la ejecución de una transacción afecte a otra?, ¿cómo garantizar
el aislamiento? ... esta interrogantes al estudiar se responden en el control de
concurrencia en bases de datos.

2.2.2. Manejo de transacciones con SQL

El Instituto Americano de Estándares Nacionales (ANSI) ha definido estándares


para el manejo de transacciones en lenguaje SQL que se implementan a través
de las sentencias COMMIT y ROLLBACK.

Una transacción puede ser iniciada por un usuario o un programa de aplicación


y continúa con las siguientes sentencias SQL hasta que ocurra cualquiera de los
siguientes eventos:

39 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

• Se alcance una sentencia COMMIT y los cambios se guarden de forma


permanente en la base de datos, con lo cual la transacción termina.
• Se alcance una sentencia ROLLBACK, en cuyo caso los cambios se
abortan y la base de datos regresa al estado consistente previo.
• Se alcance de forma satisfactoria el fin del programa y los cambios se
almacenen permanentemente en la base de datos. Esto equivale a un
COMMIT.
• El programa termine de forma anormal y los cambios sean abortados
y la base de datos regresa a su estado consistente anterior. Esto
equivale a un ROLLBACK.

Adicionalmente, se puede utilizar SAVEPOINT para controlar las transacciones,


permitiendo separar en bloques más pequeños de sentencias para su ejecución.
De esta forma, algunos cambios se pueden confirmar pero otros se pueden
revertir.

A continuación, se muestra un ejemplo, en el que se han definido tres


SAVEPOINTS:

BEGIN
INSERT INTO clientes --1er INSERT
(cedula, apellido, nombre, direccion, telefono)
VALUES ('1111111111','CORDOVA','MARCELO','El Valle','1111111');
SAVEPOINT A;
INSERT INTO clientes --2do INSERT
(cedula, apellido, nombre, direccion, telefono)
VALUES ( '2222222222', 'BANDA', 'RENAN','San Sebastián', '2222222');
SAVEPOINT B;
INSERT INTO clientes --3er INSERT
(cedula, apellido, nombre, direccion, telefono)
VALUES ( '3333333333','MACAS','FANNY','La Pradera', '3333333');
SAVEPOINT C;
ROLLBACK TO B;
END;

40 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

La transacción del ejemplo anterior se describe de la siguiente manera:

• Luego de ejecutarse el primer INSERT se ejecuta SAVEPOINT A, para


salvaguardar los cambios hechos.
• A continuación se ejecuta el segundo INSERT y luego el SAVEPOINT B
para salvaguardar los datos insertados.
• Y finalmente, se ejecuta el tercer INSERT y luego el SAVEPOINT C
para salvaguardar los datos insertados.
• Luego, al ejecutar el ROLLBACK TO B se deshace el tercer INSERT
hasta el SAVEPOINT B.
• Aún la transacción no termina ya que existen sentencias SQL
pendientes y el SAVEPOINT sigue activo hasta que se emita un
COMMIT o ROLLBACK completo.

En el texto básico revise el apartado “Administración de


Transacciones con SQL” en donde se explica el manejo de
transacciones mediante sentencias SQL.

Actividad propuesta:

Consulte y construya una tabla acerca de las instrucciones para


iniciar transacciones en los motores de bases de datos:
Oracle
• MySQL
• Postgres
• DB2
Por ejemplo, en SQL Server se utiliza BEGIN TRANSACTION

2.2.3. Bitácora de Transacciones

La bitácora de transacciones de una base de datos es una especie de registro que


va almacenando la ejecución de las transacciones de una base de datos. Estos
registros se emplean en procesos de recuperación de la base de datos, ante un
fallo cualquiera, mediante la ejecución de una instrucción ROLLBACK.

41 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Si bien es cierto, este registro ralentiza un poco el rendimiento de la base de datos


es preferible en lugar de perder la información ante un fallo.

En algunos SGBD, la bitácora de transacciones se conoce como Registros de


log. Generalmente están ubicados en locaciones distintas a los archivos de la
base de datos, incluso con varias copias en distintos discos para preservarlos
debido a la importancia que representan en caso de una recuperación de la base
de datos ante un fallo.

La Figura 11 muestra la configuración de una base de datos Oracle, donde tiene


configurados tres grupos de redo logs13 en el Disco A y una copia de cada grupo
en el disco B, precisamente para preservar su integridad. En el caso de darse un
fallo en los archivos del disco A, se dispone de una copia exactamente igual de
dichos archivos en el disco B.

Figura 11. Configuración de Redo Logs en una base de datos Oracle


Fuente: Encalada, 2017

13
Registros de log

42 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

2.2.4. Control de concurrencia

La ejecución concurrente de transacciones es un tema crítico que merece mucha


atención. En sistemas multiusuario, varios clientes acceden simultáneamente
a la base de datos y por lo tanto muchas transacciones pueden requerir ser
ejecutadas por el SGBD de forma simultánea.

En su texto básico revise el apartado “Control de Concurrencia”


donde se explica por qué es necesario permitir la ejecución
concurrente de transacciones.

Lo más sencillo sería que el SGBD no admita la concurrencia y en el caso de que


varias transacciones lleguen al mismo tiempo, las ponga en cola, y ejecute solo
una transacción a la vez. Esto sin duda garantiza la consistencia de los datos,
pero no sería eficiente, porque si la ejecución es secuencial, la dispersión en los
tiempos de respuesta a los usuarios podría ser muy alta. Lo más adecuado en
este caso, entonces, es que varias transacciones se ejecuten concurrentemente
(alternando operaciones de distintas transacciones).

Figura 12. El riesgo en la ejecución concurrente de transacciones


Fuente: Encalada, 2017

43 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

El problema de la concurrencia radica en que si no se la administra


adecuadamente puede provocar inconsistencias en la base de datos. La Figura 12
demuestra el riesgo que se corre cuando el SGBD ejecuta concurrentemente dos
transacciones que acceden y modifican la tabla PRODUCTOS del caso de estudio
PEDIDOS (Anexo 2).

Para este caso ejemplo, la ejecución de las transacciones se explica de la


siguiente manera:

▪ En un inicio ambas transacciones asumen que hay en


existencias 200 unidades del producto 3-8.
▪ La transacción A recepta un pedido por 100 unidades de ese
producto,
▪ Mientras que la transacción B acepta en cambio uno por 150
unidades,
▪ En las dos transacciones se supone que hay suficiente stock,
aun cuando se sabe que esto no es cierto ya que ambos
pedidos suman 250 unidades.

Esto en primera instancia ya es un problema, en vista que se está


violando una regla del negocio que dice que “no se puede aceptar
pedidos más allá del stock existente”. El mayor problema radica
en el estado de inconsistencia en que queda la base de datos
al final de la ejecución de ambas transacciones. Si se aceptan
pedidos por 250 unidades y en stock habían 200 el saldo al final
debería ser –50 y no 50 como se ha dado en este caso. Aún
cuando se haya violado la regla del negocio ya mencionada, no se
puede aceptar tal estado de inconsistencia en la base de datos.

Sin embargo, como ya se dijo las ejecuciones concurrentes son necesarias y es


tarea del SGBD controlar dicha concurrencia para evitar que viole el aislamiento
y se destruya la consistencia de los datos. Para ello debe evaluar y elegir un
esquema de ejecución que asegure el aislamiento.

44 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

La secuencia en la que se programa la ejecución de las operaciones de distintas


transacciones se denomina planificación. Por ejemplo: para el caso expuesto en
la Figura 12, la planificación debería ser la que se muestra en la Figura 13.

Figura 13. Ejemplo planificación


Fuente: Encalada, 2017

Un tipo de planificación es la llamada planificación secuencial que es similar a


ejecutar una transacción a la vez (sin concurrencia). Para el caso de análisis, una
posibilidad de planificación secuencial es <Transacción A> luego <Transacción
B>, como se muestra en la Figura 14.

 
Figura 14. Ejemplo planificación secuencial
Fuente: Encalada, 2017

La planificación secuencial garantiza la consistencia de los datos, pero no


constituye una ejecución concurrente. Lo que se necesita es una planificación que
permita la ejecución concurrente y que obtenga los mismos resultados que una
planificación secuencial.

Es importante aclarar que, para efectos de evaluar una planificación concurrente,


las operaciones que interesan realmente son leer (consulta) y escribir (agregación,
modificación o eliminación). Esto porque durante el acceso a la base de datos
(consultar o actualizar) pueden presentarse conflictos entre transacciones que
estén operando sobre un mismo elemento. En SQL estándar la operación leer

45 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

está asociada a la sentencia de consulta SELECT, y la operación de escribir está


asociada en cambio a las operaciones INSERT, DELETE y UPDATE.

Secuencialidad

La secuencialidad es la propiedad que una planificación concurrente debe


cumplir con el fin de asegurar la consistencia de los datos, debiendo para ello ser
equivalente a una planificación secuencial. Lo que se conoce como planificación
secuenciable.

Para elaborar una planificación concurrente secuenciable se debe partir de


una planificación secuencial, a partir de la cual se va intercalando el orden de
ejecución de las instrucciones de una y otra transacción conservando siempre la
propiedad de secuencialidad de la planificación resultante.

Pero, ¿cómo saber si se conserva la secuencialidad? La respuesta está


en el estudio de las formas de secuencialidad existente, a través de normas
a considerar al momento de intercalar las operaciones. Las formas de
secuencialidad o serializabilidad existentes son: secuencialidad en cuanto a
conflictos y secuencialidad en cuanto a vistas.

Secuencialidad en cuanto a conflictos

En la secuencialidad en términos de conflictos dos instrucciones consecutivas de


diferentes transacciones se pueden intercalar si no existe conflicto entre ellas. Y
existe conflicto sólo cuando ambas operan sobre el mismo elemento de dato y al
menos una de ellas lo escribe. Para ejemplificar lo explicado se presentan dos
ejemplos más.

46 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

EJEMPLO 1: Considere dos transacciones A y B dentro de


nuestro caso de estudio "PEDIDOS"; las cuales actualizan los
montos de ventas (en OFICINAS y en EMPLEADOS), una vez
receptados dos pedidos del mismo vendedor por un importe
de 2000 y 5000 dólares respectivamente. Se asume que son
transacciones que se ejecutan de forma simultánea.

La Figura 15 muestra una planificación secuencial para la ejecución concurrente


de estas dos transacciones asumiendo que la transacción A se ejecuta primero.

Figura 15. Planificación secuencial para ejemplo 1


Fuente: Encalada, 2017

Antes se aclaró que, lo que interesa para efectos de planificación son solo
las operaciones de leer y escribir, el resto de operaciones deben ejecutarse
indistintamente dentro de la ejecución concurrente, pero conservando la misma
posición dentro de la transacción a la que pertenecen. La planificación P1 de la
Figura 16 muestra la misma planificación, pero excluyendo las operaciones de
cálculo.

47 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 16. Planificación secuencial para ejemplo 1


Fuente: Encalada, 2017

Es momento de analizar a detalle las instrucciones de las planificaciones P1-4 de


la Figura 16.

▪ Para lograr una planificación concurrente necesita intercalar


instrucciones consecutivas de las transacciones A y B de P1.
▪ En este caso las instrucciones 4 y 5 son consecutivas y están
en distintas transacciones debido a que acceden a distintos
elementos de datos, aún cuando una de ellas es una operación
escribir no presentan conflicto, por lo tanto, puede intercambiar
su orden de ejecución y la planificación quedaría como lo
refleja la planificación P2.
▪ Puede hacer un intercambio similar entre las instrucciones 3 y 4
y entre las instrucciones 5 y 6 de P2; y posteriormente entre las
instrucciones 4 y 5 de P3.
▪ La planificación concurrente al final quedaría como la mostrada
en P4.

48 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

▪ No se puede realizar ningún otro intercambio puesto que


para todas las posibilidades existe conflicto. Por ejemplo:
las instrucciones 2 y 3 acceden al mismo elemento de datos
(OFICINAS.VENTAS) y la primera es una operación de
escritura por lo tanto existe conflicto entre ellas. La planificación
resultante (P4) se dice que es secuenciable en cuanto a
conflictos.

Nótese que, lo que cambia es el orden de ejecución de las operaciones, pero


cada operación se mantiene en la transacción a la que pertenece conservando su
posición.

EJEMPLO 2: Observe ahora la comprobación de la secuencialidad en términos


de conflictos. La Figura 17 presenta las transacciones del ejemplo:

T1 T2 T3
escribir(X) leer(X) leer(X)
leer(Y) escribir(X) escribir(Y)
escribir(Y) escribir(Y)

Figura 17. Transacciones del Ejemplo 2


Fuente: Encalada, 2017

La Figura 18 muestra tres posibles ejecuciones concurrentes de esas tres


transacciones. Y, es necesario saber si esas planificaciones son secuenciables en
cuanto a conflictos.

Figura 18. Planificaciones concurrentes ejemplo 2


Fuente: Encalada, 2017

49 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Por cada planificación se elabora un grafo de precedencia de acuerdo al


procedimiento explicado en el texto básico (Figura 19), si el grafo contiene algún
ciclo no es secuenciable.

Figura 19. Grafos de precedencia planificaciones ejemplo 2


Fuente: Encalada, 2017

En este ejemplo:

• la planificación (a) no es secuenciable, (b) y (c) si lo son;


• la planificación (b) es secuenciable en términos de conflictos respecto a
T1 -> T2 -> T3
• mientras que la planificación (c) es secuenciable respecto a T2 -> T1 ->
T3.

Actividad propuesta:

Dadas las siguientes transacciones:

T1 T2 T3 T4
escribir (A) escribir(C) leer(B) escribir (B)

escribir(D) leer(A) leer(C) escribir(D)


leer(F) leer(D) escribir(D)
escribir(F) escribir(C)
escribir(D) escribir(D)

Partiendo de la planificación secuencial T1 -> T2 -> T3 ->


T4. Construya una planificación secuenciable en términos de
conflictos.

50 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Utilizando grafos de precedencia valide la planificación resultante


del punto anterior para verificar que en efecto es secuenciable en
cuanto a conflictos

2.2.5. Recuperabilidad de la base de datos

La recuperabilidad es la propiedad que debe cumplir cualquier ejecución


concurrente de manera que asegure la atomicidad de las transacciones en caso
de fallo.

La Figura 20 muestra otro caso ejemplo que permite evidenciar el problema de


planificaciones no recuperables.

Figura 20. Ejemplo planificación no recuperable y recuperable


Elaborado: Encalada, 2017

Analizando la planificación (a), se tiene:

• T2 lee el valor de A que escribió T1, por lo tanto, T2 depende de T1, y


por razón similar T3 depende de T2.
• Si la transacción T1 falla justo antes de la última operación, por la
propiedad de atomicidad, T1 debe deshacerse totalmente; y al hacerlo,
quedaría sin efecto la escritura de A que realizó T1, por lo tanto, la

51 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

lectura de A que hizo T2 ya no sería consistente, y se debe abortar T2


(no hay problema porque T2 aún no ha finalizado).
• El problema es T3, ya que al abortar T2 la lectura de A que hizo T3
tampoco es consistente, se debería abortar T3 también, pero no es
posible ya que, en el momento del fallo T3 ya había finalizado. Esto sin
duda provoca una grave inconsistencia.

Toda planificación debe ser recuperable, y para que esto se cumpla, las
transacciones dependientes deben confirmarse después de las transacciones de
las que dependen. Tal como se muestra en la planificación (b) de la Figura 20.

Para asegurar la consistencia y atomicidad en una ejecución concurrente no


solo es necesaria una planificación secuenciable sino también recuperable.

Revise también el apartado “El planificador” del texto básico


para que pueda comprender como en la práctica el SGBD logra
asegurar la atomicidad de las transacciones.

Actividad propuesta:

Considere las transacciones A, B y C:

Transacción A Transacción B Transacción C


leer(A) leer(C) leer(B)
C=A A=B A=B
escribir(C) escribir(A) escribir(A)
leer(B) B=B+C leer(C)
A=A+B escribir(B) C=A-B
escribir(A) escribir(C)

Suponga que estas tres transacciones se ejecutan


concurrentemente y necesita establecer una planificación para su
ejecución. Realice entonces lo siguiente:

52 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

• Elija a su criterio una planificación secuencial para la


ejecución de estas tres transacciones.
• Tomando como punto de partida la planificación secuencial
del punto anterior, aplique los conceptos de secuencialidad
y recuperabilidad y construya una planificación concurrente
que garantice la secuencialidad y recuperabilidad.
Nota: No interesa un tipo de secuencialidad específico puede ser
cualquiera de los estudiados e incluso ambos. Recuerde hacer
constar cuál fue la planificación secuencial que le sirvió como
punto de partida.

Se ha mencionado al inicio de esta unidad, que el tema de concurrencia en una


base de datos es un tema crucial para el acceso multiusuario, considerando
que en algún momento varios usuarios afectarán los mismos datos por lo que
se pueden producir problemas de integridad e inconsistencia de datos. Los
problemas principales que se pueden producir son:

• Actualización perdida: ocurre cuando se pierde la actualización hecha


por una transacción T1 debido a la acción de otra transacción T2 sobre
el mismo ítem.
• Datos no registrados: este problema puede ocurrir cuando una
transacción actualiza un elemento de la base de datos y luego
la transacción falla por algún motivo. Mientras tanto, el elemento
actualizado es accedido (leído) por otra transacción antes de ser
cambiado (o deshacer) a su valor original (Elmasri,2016).

Recuperación inconsistente: puede ocurrir si una transacción está calculando


una función de agregación sobre una serie de elementos de la base de datos,
mientras que otras transacciones están actualizando algunos de estos elementos,
la función de agregación puede calcular algunos valores antes de que se
actualicen y otros después de que se actualicen (Elmasri y Shamkant, 2016).

53 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

2.2.6. Métodos de bloqueo

Los bloqueos son mecanismos que evitan la interacción destructiva entre


transacciones que acceden al mismo recurso, otorgando un privilegio a
la transacción únicamente en el momento que va a modificar el recurso e
inmediatamente liberándose para que las demás transacciones puedan utilizar el
recurso nuevamente.

La Figura 21 muestra un resumen de los tipos de bloqueo de acuerdo a la


granularidad.

Figura 21. Métodos de bloqueo


Elaborado: Encalada, 2017

Hasta es este apartado se ha cubierto con los temas relevantes para la


concurrencia en los SGBD.

54 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

2.3. Seguridad en los SGBD

En este apartado se analiza los mecanismos para proteger a la base de datos


frente amenazas intencionales o accidentales.

2.3.1. Panorámica de la seguridad en sistemas de bases de datos

Es necesario definir todas las medidas que hagan falta para asegurar que la base
de datos no se vea afectada ni en su contenido, ni en su accesibilidad. Por ello,
es importante que se implementen mecanismos que permitan evitar ataques
externos (acciones preventivas), y si ocurrieran poder identificar el origen y sus
responsables (acciones correctivas).

La seguridad de los datos implica garantizar que la información almacenada en


una base datos, que se registra, actualiza y explora por canales autorizados (por
ejemplo: a través de los sistemas de información institucionales), no sufra pérdida
ni alteraciones fraudulentas, y que pueda ser accedida y extraída en cualquier
momento sin inconvenientes.

Los sistemas de bases de datos, al igual que muchos sistemas computacionales,


están expuestos a muchas amenazas que podrían vulnerar ese estado deseado
de los datos. Es decir, podrían existir vías por las cuales agentes externos no
deseados pueden atacar y afectar la operación normal de una base de datos.
Debe tener claro las potenciales amenazas y a su vez las herramientas que
dispone para prevenirlas.

La operación de la base de datos podría alterarse, sea por una afectación directa
sobre el servidor donde se ha implementado el SGBD, o indirectamente a través
las aplicaciones que acceden a los datos. Por lo tanto, la seguridad de los datos
debe analizarse principalmente desde dos perspectivas: seguridad de la base de
datos y seguridad de las aplicaciones.

En la seguridad de la base de datos, que es inherente al servidor de bases de


datos, incluye el motor de base de datos y su plataforma de implementación. Por

55 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

otra parte, la seguridad de las aplicaciones se analiza bajo la perspectiva de


que una aplicación podría ser un punto de acceso indirecto a la base de datos.
Entonces, un agente mal intencionado podría atacar la base de datos, accediendo
directamente al servidor, o, indirectamente a través de las aplicaciones que
gestionan la información. Otra vía de ataque puede ser por intercepción a nivel de
la red de datos.

2.3.2. Seguridad de la base de datos

La seguridad en base de datos comprende tres aspectos principales:


confidencialidad, integridad y disponibilidad

Confidencialidad

La confidencialidad se refiere a la necesidad que el acceso a la información se


realice solo por vías autorizadas. Es decir, se debe evitar que personas o agentes
no autorizados puedan visualizar y/o alterar los datos.

Implica, impedir el acceso a los datos a personal o agentes no autorizados. Pues


no toda la información que una empresa almacena en sus bases de datos es
pública; hay mucha información reservada. Incluso internamente dentro de la
propia organización, sus funcionarios dependiendo de su rol, perfil y cargo podrán
o no acceder a cierta información. Existen varios mecanismos que se pueden
implementar:

1. Acceso físico
2. Acceso lógico (autenticación y asignación de privilegios)
3. Vistas en base de datos
4. Vistas de usuario en aplicaciones
5. Cifrado
6. Otros

56 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

▪ Acceso físico: A nivel físico se debe restringir el acceso al servidor de base


de datos solo a personal autorizado, que normalmente es el DBA. Para ello
es necesario que el equipo servidor esté ubicado en un lugar seguro, y que
existan adecuados mecanismos de control de acceso físico a ese sitio.

▪ Acceso lógico: A nivel lógico se requiere controlar el acceso a la base


de datos a través de mecanismos de autenticación provistos por el propio
SGBD, o a través de otros servicios de directorio basados en el Protocolo
Ligero de Acceso a Directorios (LDAP14). Normalmente todo SGBD permite
la asignación de credenciales (usuario y contraseña) para permitir el
acceso de una persona o sistema. La autenticación abre la puerta principal,
es decir permite establecer una conexión con la base de datos, pero no
necesariamente permite acceder a los objetos de esta.

Adicionalmente, se requiere que el usuario tenga privilegios, que son los permisos
que se asignan a un usuario internamente dentro del SGBD, y que permiten
establecer a cuáles objetos puede acceder y las operaciones que puede ejecutar
sobre esos objetos. Por ejemplo, la aplicación web de consulta de notas de la
UTPL, tiene acceso a la base de datos del Sistema Académico, únicamente a
ciertas tablas relacionadas a las notas, pero únicamente con permisos de lectura.

Para facilitar esta tarea los SGBD soportan, por ejemplo, la creación de perfiles de
usuario y/o roles, que permiten agrupar usuarios bajo una misma categoría y con
los mismos privilegios.

Es momento que revise todo el apartado ”Seguridad” de su texto


básico donde se explica el tema de seguridad, algunas políticas
que se pueden adoptar frente a las vulnerabilidades y también
como se puede asegurar una base de datos aprovechando las
opciones del SGBD.

14
Del inglés Little Directory Access Protocol

57 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Es necesario revisar ejemplos de creación de roles, asignación y eliminación de


privilegios.

▪ Vistas en base de datos

Se puede crear vistas a nivel de base de datos que permitan acceder solo a
una porción de los datos. Y asignar privilegios para que ciertos usuarios puedan
acceder solo a la vista y no a las tablas origen.

Revise el apartado “Tablas virtuales: creación de una vista” de su


texto básico donde se explican los usos de las VISTAS en bases
de datos.

▪ Vistas de usuario en aplicaciones

Las aplicaciones de usuario final también conllevan el control de confidencialidad.


De hecho, son las que implementan las vistas de usuario. De manera que, al
autorizar al usuario de la aplicación a acceder solo a ciertas funcionalidades,
indirectamente le están restringiendo el acceso solo a ciertos datos.

Integridad

La integridad implica asegurar que la información almacenada en la base de


datos, sea completa, consistente y de calidad.

La integridad de la base de datos debe estar asegurada, es decir, hay que


garantizar la calidad de los datos. Implica que la información debe ser completa,
correcta y consistente. Por ejemplo, en el caso de una tabla PERSONAS, no
debería ocurrir que:

▪ Dos personas tengan el mismo número de identificación.


▪ Exista una persona de la que no se conozca su nombre.
▪ Existen personas asociadas a un código de nacionalidad que no exista en el
catálogo NACIONALIDADES.

58 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

▪ Se produzcan alteraciones fraudulentas de los datos (desde orígenes


desconocidos, en horarios no previstos y/o por agentes no autorizados).

Para evitar problemas de integridad de esta índole, hay dos mecanismos que
implementados en los SGBD: el control de restricciones de integridad y la gestión
de transacciones.

▪ Control de restricciones de integridad

Es necesario que, al construir la base de datos, y específicamente al traducir


el modelo lógico al SGBD, todas las restricciones de integridad que impone el
negocio, sean implementadas; sea a nivel del SGBD (mediante DDL o triggers15) o
a nivel de las aplicaciones.

Como sabe, mediante DDL se pueden implementar tres tipos de restricciones de


integridad:

▪ Integridad de dominio: tipos de datos, campos obligatorios, lista de valores.


▪ Integridad de entidades: llaves primarias.
▪ Integridad referencial: llaves foráneas.

Otras restricciones se pueden implementar utilizando Triggers, por ejemplo:

▪ La empresa solicita que ningún usuario ni aplicación pueda registrar


transacciones pasadas las 21h00.
▪ Actualización automática de campos derivados.
▪ Control de cardinalidades máximas distintas a n o *.

15
Denominado también disparador es un bloque de código que se ejecuta automáticamente
cuando ocurre algún evento (como inserción, actualización o borrado) sobre una determinada
tabla (o vista); es decir, cuando se intenta modificar los datos de una tabla (o vista) asociada al
disparador

59 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Y el resto de las restricciones que no se puedan implementar mediante el SGBD,


se implementan en la aplicación.

▪ Gestión de transacciones

Otra vía por la que pueden generarse inconsistencias en la base datos es cuando
se registran transacciones (e.g. una factura de venta), que involucran a dos o
más tablas. Si no se gestionan correctamente podría ocurrir que ante un fallo del
sistema la transacción quede parcialmente registrada (solo se registra la cabecera
de la factura y no los ítems), lo que sería una grave inconsistencia.

Así mismo se podrían producir inconsistencias durante la ejecución concurrente


de transacciones. Es decir, cuando muchos usuarios acceden y actualizan la base
de datos simultáneamente (e.g. varias cajas de un supermercado registrando
facturas al mismo tiempo). Sin el adecuado control, ello podría conllevar a
modificaciones erróneas o sobre escrituras de los datos.

Afortunadamente, los SGBD incorporan un componente para realizar este tipo de


control y garantizar la integridad de los datos luego de ejecutarse una transacción
o varias transacciones simultáneamente. La Figura 22 muestra la arquitectura
del sistema de base de datos dentro del gestor de almacenamiento existe un
componente llamado gestor de transacciones que es el encargado de planificar la
ejecución de transacciones de manera que nunca afecte a la consistencia de los
datos.

60 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 22. Arquitectura del sistema de Base de Datos


Fuente: Silverschatz, 2014

Disponibilidad

La disponibilidad refiere a garantizar el acceso a la base de datos, en todo


momento que lo requiera la organización.

La disponibilidad implica asegurar que la base de datos esté disponible de forma


permanente y con un adecuado desempeño. Es una parte importante de la
seguridad, busca evitar al máximo Downtimes16 de la base de datos. Para lo que
es necesario considerar medidas como:

16
Tiempo de inactividad o de avería por el cual un sistema no está disponible.

61 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

1. Definir políticas de respaldo y recuperación.


2. Definir protocolos de recuperación ante desastres.
3. Implementar redundancia a nivel de almacenamiento (RAID).
4. Implementar redundancia a nivel eléctrico.
5. Implementar replicación.
6. Mantener servidores de respaldo.

Seguridad de las aplicaciones

Las aplicaciones al ser el intermediario entre los usuarios finales y la base de


datos, constituyen un punto crítico para la seguridad de los datos. Si no están
debidamente validadas, podrían terminar siendo la puerta de “entrada trasera” a la
base de datos. Puede producirse accesos indebidos por causas tan simples como
que a un usuario le roben o adivinen sus credenciales, hasta algo más complejo
como es la inyección de SQL a través de los formularios de las aplicaciones.

Revise el apartado “Seguridad” que le permitirá conocer aspectos


en cuanto a seguridad de una base de datos.

Como se aprecia, muchos son los riesgos a los que está expuesta una base
de datos e igualmente muchos los mecanismos para combatirlos. El cifrado de
datos merece especial atención, que como ha podido comprobar, tiene muchas
aplicaciones en la actualidad, en especial para asegurar la información que viaja a
través de internet.

Revise con atención la tabla “Muestra de vulnerabilidades de


seguridad y medidas relacionadas” del capítulo “Administración y
seguridad de la base de datos” en su texto básico. En esta tabla
se detalla los componentes del sistema que interviene en una
vulnerabilidad y las medidas de seguridad a tomar.

Es muy importante que, usted en su rol de DB, sepa evaluar y tener presente los
posibles riesgos que puede enfrentar y de acuerdo al contexto de implementación

62 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

donde esté participando sepa proponer medidas que reduzcan la probabilidad de


ocurrencia.

Es responsabilidad del DBA implementar todas las medidas para garantizar la:

• disponibilidad de la base de datos (en tiempo y en rendimiento).


• integridad de los datos.
• integridad de los equipos.
• no alteración indebida de los datos.
• no fuga de información.

• Realice un mapa mental donde se sinteticen los aspectos de


seguridad, las amenazas y los mecanismos de prevención.
• Asuma que usted es el DBA en una institución bancaria;
que acciones y mecanismos implementaría para asegurar
la disponibilidad de la base de datos. Un banco exige una
disponibilidad 24x7.

2.4. Respaldos y recuperación

Un aspecto importante que debe ofrecer todo SGBD son los mecanismos para
generar copias de seguridad que sirvan en la recuperación de la base de datos en
el caso de que sufra algún daño. Se recomienda la generación de respaldos de la
base de datos y del archivo de registro17 de forma periódica, garantizando que se
almacenen en un sitio seguro y de preferencia en almacenamiento secundario y
fuera del espacio físico donde se encuentra la sala de servidores.

Recuerde:
Una copia de seguridad es el proceso de realizar periódicamente
una copia de la base de datos del archivo de registro (y
posiblemente de los programas), almacenando la copia en un
medio de almacenamiento fuera de línea (Connolly y Begg, 2005).

17
También se denomina log de la base de datos

63 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

En caso de la base de datos que llega a fallar y no puede recuperarse, se debe


poner en marcha procedimientos para su recuperación. Generalmente se utiliza la
última copia de seguridad y los datos del archivo de registro para restaurar la base
de datos al último estado consistente antes de producirse el fallo.

Recuerde:
El registro es el proceso de mantener y almacenar un archivo de
registro (o diario) de todos los cambios realizados en la base de
datos, con el fin de poder llevar a cabo una recuperación en caso
de que se produzca un fallo.

El administrador de recuperación de un SGBD también debe estar equipado para


manejar fallas más catastróficas como fallas de disco. Es importante destacar
la importancia del archivo de registro, debido a que, si no se dispone de este
registro, la recuperación se la debe hacer desde la última copia de seguridad de
la base de datos y los cambios que se hayan efectuado después de esa última
copia de seguridad se perderán. Para revertir estos efectos se debe respaldar
con mayor frecuencia el archivo de registro (por ser mucho más pequeño que la
base de datos en sí misma) y almacenarlo en algún dispositivo como una cinta
magnética18; con estas acciones se asegura que en un proceso de recuperación
se pueden rehacer las transacciones confirmadas sobre la base de datos hasta
llegar a un estado consistente anterior al fallo.

Los datos de aplicaciones críticas tales como bancos, seguros, bolsa de valores y
otras bases de datos se respaldan periódicamente en su totalidad y se trasladan
a ubicaciones seguras físicamente separadas. Las bóvedas de almacenamiento
subterráneas se han utilizado para proteger tales datos de inundaciones,
tormentas, terremotos o daños por fuego. Eventos como el ataque terrorista del 11

18
Los discos son dispositivos de almacenamiento secundario de acceso aleatorio porque se
puede acceder a un bloque de disco arbitrario una vez que especificamos su dirección. Las
cintas magnéticas son dispositivos de acceso secuencial, lo que quiere decir que para acceder
al enésimo bloque en ua cinta, primero debemos escanear los bloques n-1 anteriores. Los
datos se almacenan en carretes de cinta magnética de alta capacidad, algo similar a las cintas
de audio o video.

64 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

de septiembre en Nueva York (en 2001) y el desastre provocado por el huracán


Katrina en Nueva Orleans (en 2005) han creado una mayor conciencia sobre la
recuperación ante desastres de bases de datos críticas (Elmasri y Shamkant,
2016).

Ha llegado al final con el estudio de la segunda unidad, las actividades sugeridas


a lo largo de la unidad apoyarán su estudio. Ahora, es momento de validar sus
avances desarrollando la autoevaluación 2.

65 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Autoevaluación 2

Una vez concluido el estudio de la presente unidad, desarrolle un cuestionario de


autoevaluación que le servirá para verificar la asimilación de lo aprendido.

Seleccione la opción correcta

1. En sistemas de base de datos, cuando se habla de TRANSACCIÓN hace


referencia a:

a. Un programa que corre en el servidor de base de datos.


b. Una unidad física de trabajo.
c. Una unidad lógica de trabajo

2. En el procesamiento de transacciones, la propiedad del aislamiento podría


verse comprometida sobre todo cuando el SGBD ejecuta a la vez.

a. solo una transacción.


b. varias transacciones que acceden a distintos elementos de datos.
c. varias transacciones que acceden a un mismo elemento de datos.

3. Si en una planificación concurrente falla una transacción de la que dependen


otras:

a. deben deshacerse la transacción que falló y todas las que dependan de


ella.
b. deben deshacerse todas las transacciones de la planificación
concurrente.
c. solo debe deshacerse la transacción que falló.
d. solo deben deshacerse las transacciones dependientes de la que ha
fallado.
e. no debe deshacerse ninguna transacción.

66 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

4. Todas las actividades de actualización de datos durante el procesamiento


de una transacción se guardan en un log o registro histórico, que luego sirve
para poder:

a. deshacer la transacción.
b. guardar la transacción.
c. confirmar la transacción.

5. Una transacción siempre debe:

a. Acceder a todos los registros de una tabla.


b. Realizar modificaciones en la base de datos.
c. Llevar a la base de datos de un estado consistente a otro.

6. Dadas las siguientes transacciones:

T1: leer(X), escribir(X), escribir(Z)


T2: leer(Y), escribir(X)
¿Cuál de las siguientes planificaciones es secuenciable respecto a T1->T2?

Opciones:
a. Planificación 1
b. Planificación 2
c. Planificación 3

67 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre
7. Suponga que usted es un DBA a cargo de la administración de la base
de datos de un Hospital. ¿Qué contramedidas serían más apropiadas
recomendar en este caso ante la amenaza de “Entrada ilegal por parte de un
hacker”?

a. Acceso a la base de datos solo desde servidor de aplicaciones /


Tecnología RAID / Cifrado de datos / Implementación de un firewall.
b. Acceso a la base de datos solo desde servidor de aplicaciones / Cifrado
de datos / Tecnología RAID.
c. Acceso a la base de datos solo desde servidor de aplicaciones / Uso de
Vistas / Cifrado de datos / Implementación de un firewall.
d. Tecnología RAID / Uso de Vistas / Implementación de un firewall /
Cifrado de datos.

8. El componente de seguridad que busca asegurar la validez y completitud de


la información almacenada en la base de datos se llama:

a. Seguridad de acceso.
b. Integridad de los datos.
c. Disponibilidad.
d. Confidencialidad de la información.

9. Hablando de seguridad de una base de datos, la confidencialidad de la


información se refiere a la necesidad de:

a. mantener en secreto las claves de acceso a la base de datos.


b. restringir el acceso a los datos solo a usuarios autorizados.
c. impedir el acceso a los datos desde fuera de la organización.

68 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

10. El responsable de asegurar la disponibilidad de una BD es:

a. El administrador de los datos


b. El administrador del datacenter
c. El DBA
d. El fabricante del SGBD
e. El administrador de las aplicaciones

Recuerde que al final de la guía puede revisar el solucionario para validar sus
respuestas. Si hay aspectos en los aún tiene dificultad, revise nuevamente esos
temas y apóyese en la asesoría que le brinda su tutor.

Ir al solucionario

69 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

UNIDAD 3. ARQUITECTURAS DE BASES DE DATOS

Esta unidad está basada en el texto complementario


Fundamentals of database systems del autor Elmasri, Ramez.
(2016).
Para completar satisfactoriamente esta unidad sólo se requiere
que utilice esta guía didáctica.

Estimado estudiante, es momento de abordar el estudio de las arquitecturas


que se utilizan comúnmente para implementar SGBD. Usted aprenderá sobre el
funcionamiento de las arquitecturas y llegará a reconocer las arquitecturas que se
utilizan con más frecuencia en la actualidad. Ahora, es momento de dar inicio a
este importante tema.

3.1. Arquitectura centralizada

Las arquitecturas para un SGBD han seguido tendencias similares a las


arquitecturas de sistemas informáticos en general. Anteriormente, estas
arquitecturas utilizaban mainframes que eran los encargados de soportar
el procesamiento principal de todas las funciones del sistema, incluidos los
programas de aplicación y los programas de interfaz de usuario, así como toda
la funcionalidad del SGBD. Bajo esta configuración generalmente se accedía al
SGBD a través de terminales de computadora cuya potencia de procesamiento
era muy débil. Todo el procesamiento se realiza de forma remota en el sistema
informático que aloja el SGBD y desde aquí solo se envía información a los
terminales de visualización, que se conectaron a la computadora central a través
de las redes de comunicaciones.

La reducción de precios del hardware permitió que la mayoría de los usuarios


reemplacen sus terminales con computadores personales y estaciones de trabajo
y más recientemente con dispositivos móviles. Al principio, los sistemas de bases
de datos utilizaban estas computadoras de forma similar a los terminales de
visualización, lo que convertía al SGBD en centralizado.

70 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

En esta arquitectura de SGBD se llevaban a cabo:

• Todas las funcionalidades del SGBD.


• La ejecución de programas de aplicación.
• El procesamiento de la interfaz de usuario.

La Figura 23 ilustra los componentes físicos en una arquitectura centralizada.


Pero poco a poco los sistemas de bases de datos han comenzado a explotar la
potencia de procesamiento disponible en el lado del usuario, dando origen a las
arquitecturas SGBD cliente/servidor.

Figura 23. Componentes físicos en una arquitectura centralizada


Fuente: Elmasri, 2016, p. 47
Adaptado: Morocho, Encalada y Romero, 2020

En este apartado debe haberse comprendido el funcionamiento de la arquitectura


centralizada y la interrelación entre los diferentes componentes.

71 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

3.2. Arquitecturas Cliente/Servidor básicas

La arquitectura cliente/servidor fue desarrollada para tratar entornos de


computación donde una gran cantidad de computadores personales se conectan
a través de una red de comunicaciones a servidores que prestan servicios
especializados, como base de datos, impresión, almacenamiento de archivos,
servidor web, correo electrónico entre otros servicios.

Las máquinas cliente proporcionan al usuario las interfaces adecuadas para


utilizar estos servidores, así como también la capacidad de procesamiento local
para ejecutar aplicaciones locales. La Figura 24 ilustra la arquitectura cliente/
servidor en el nivel lógico.

Figura 24. Arquitectura lógica cliente/servidor dos capas


Fuente: Elmasri, 2016, p. 48
Adaptado: Morocho, Encalada y Romero, 2020

La Figura 25 es un diagrama simplificado que muestra la arquitectura física.


Algunas máquinas sólo serían sitios cliente (por ejemplo, dispositivos móviles
o estaciones de trabajo/computadores personales que solo tengan instalado el
software del cliente). Otras máquinas serían servidores dedicados y otras tendrían
funcionalidad de cliente y servidor.

72 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 25. Arquitectura física cliente/servidor dos capas


Fuente: Elmasri, 2016, p. 48
Adaptado: Morocho, Encalada y Romero, 2020

El concepto de arquitectura cliente/servidor supone un marco subyacente que


consta de muchas estaciones de trabajo/computadores personales y dispositivos
móviles, así como un número menor de servidores, conectadas a través de redes
inalámbricas o LAN y otros tipos de redes informáticas.

Bajo esta configuración un cliente es una máquina que proporciona capacidades


de interfaz de usuario y procesamiento local y si requiere acceso a una
funcionalidad adicional, como acceso a la base de datos, que no existe en el
cliente, se conecta a un servidor que proporciona la funcionalidad necesaria.
Un servidor es un sistema que contiene hardware y software que puede
proporcionar servicios a las máquinas cliente, como acceso a archivos, impresión,
almacenamiento o acceso a la base de datos. A partir de esta configuración, se
identifican dos tipos principales de arquitecturas SGBD básicas en este marco
cliente/servidor: dos capas y tres capas.

3.3. Arquitecturas cliente/servidor de dos capas para SGBD

En los Sistemas de Gestión de Bases de Datos Relacionales (SGBDR), muchos


de los cuales comenzaron como sistemas centralizados, los componentes del
sistema que se trasladaron primero al lado del cliente fueron la interfaz de usuario

73 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

y los programas de aplicación. Debido a que SQL proporcionaba un lenguaje


estándar para SGBDR, esto creó un punto de división lógico entre el cliente y el
servidor. Por lo tanto, la funcionalidad de consulta y transacción relacionada con
el procesamiento de SQL permanecía en el lado del servidor. En una arquitectura
de este tipo, el servidor a menudo se denomina servidor de consultas o servidor
de transacciones porque proporciona estas dos funcionalidades. En un SGBDR,
el servidor también se denomina servidor de SQL.

Los programas de interfaz de usuario y los programas de aplicación se pueden


ejecutar en el lado del cliente. Cuando se requiere acceso a SGBD, el programa
establece una conexión con el SGBD (que está en el lado del servidor); una
vez que se crea la conexión, el programa del cliente puede comunicarse con el
SGBDR.

Un estándar llamado ODBC19 proporciona una interfaz de programación de


aplicaciones (API20), que permite a los programas del lado del cliente llamar al
SGBD, siempre que las máquinas cliente y servidor tengan instalado el software
necesario. La mayoría de los proveedores de SGBD proporcionan controladores
ODBC para sus sistemas. Un programa cliente puede conectarse a varios SGBDR
y enviar consultas y solicitudes de transacción utilizando la API ODBC, que luego
se procesan en los sitios del servidor. Todos los resultados de la consulta se
envían nuevamente al programa del cliente, que puede procesar y mostrar los
resultados según sea necesario. También se ha definido un estándar relacionado
para el lenguaje de programación Java, llamado JDBC21. Esto permite que los
programas cliente de Java accedan a uno o más SGBD a través de una interfaz
estándar.

Las arquitecturas descritas aquí se denominan arquitecturas de dos capas porque


los componentes del software se distribuyen en dos sistemas: cliente y servidor.
Las ventajas de esta arquitectura son su simplicidad y su perfecta compatibilidad

19
Del inglés Open Database Connectivity
20
Del inglés Applications Programming Interface
21
Del inglés Java Database Connectivity

74 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

con los sistemas existentes. El surgimiento de la Web cambió los roles de los
clientes y servidores y dio lugar a la arquitectura de tres capas.

3.4. Arquitecturas tres capas y n-capas para aplicaciones web

Muchas aplicaciones web utilizan una arquitectura llamada arquitectura de tres


capas, que agrega una capa intermedia entre el cliente y el servidor de la base de
datos, la Figura 26 en (a) ilustra la arquitectura mencionada.

Esta capa intermedia o nivel intermedio se denomina servidor de aplicaciones


o servidor web, según la aplicación. Este servidor desempeña un papel de
intermediario ejecutando programas de aplicación y almacenando reglas
comerciales (procedimientos o restricciones) que se utilizan para acceder a los
datos del servidor de base de datos. También puede mejorar la seguridad de la
base de datos al verificar las credenciales de un cliente antes de reenviar una
solicitud al servidor de base de datos. Los clientes contienen interfaces de usuario
y navegadores web. El servidor intermedio acepta solicitudes del cliente, procesa
la solicitud y envía consultas de base de datos y comandos al servidor de base
de datos, y entonces actúa como un conducto para pasar datos (parcialmente)
procesados desde el servidor de base de datos a los clientes, donde se les puede
dar un procesamiento adicional y filtrarse para ser presentados a los usuarios. Por
lo tanto, la interfaz de usuario, la lógica de la aplicación y el acceso a los datos
conforman una arquitectura de tres capas.

75 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 26. Arquitectura lógica cliente/servidor tres capas, con nomenclaturas de


uso común
Fuente: Elmasri, 2016, p. 50
Adaptado: Morocho, Encalada y Romero, 2020

La Figura 26 en (b) muestra otra vista de la arquitectura de tres capas


utilizada por la base de datos y otros proveedores de aplicaciones. La capa
de presentación muestra información al usuario y permite la entrada de datos.
La capa de lógica de negocio maneja las reglas y restricciones antes de que
los datos pasen al usuario o bajen al SGBD. La capa inferior incluye todos los
servicios de gestión de datos. La capa intermedia también puede actuar como
un servidor web, que recupera los resultados de la consulta desde el servidor de
base de datos y los formatea en páginas web dinámicas que el navegador web
visualiza en el lado del cliente. La máquina cliente es típicamente un computador
personal o dispositivo móvil conectado a la web.

También es posible dividir las capas entre el usuario y los datos almacenados en
componentes más finos, dando lugar a arquitecturas de n capas, donde n puede
ser cuatro o cinco capas. Normalmente, la capa de lógica de negocios se divide
en varias capas. Además de distribuir programación y datos a través de una
red, las aplicaciones de n capas ofrecen la ventaja de que cualquier nivel puede
ejecutarse en un procesador o plataforma de sistema operativo apropiado y puede
manejarse de manera independiente.

76 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Los avances en la tecnología de cifrado y descifrado hacen que sea más seguro
transferir datos sensibles desde el servidor al cliente en forma cifrada, donde
finalmente se descifraran. Lo último puede ser hecho por hardware o por software
avanzado. Esta tecnología brinda niveles más altos de seguridad a los datos,
pero los problemas de seguridad de la red siguen siendo una preocupación
importante. Varias tecnologías para la compresión de datos ayudan a transferir
grandes cantidades de datos desde los servidores a los clientes a través de redes
cableadas e inalámbricas.

La Figura 27 muestra una arquitectura cliente/servidor básico, tome como ejemplo


la instalación de una base de datos Oracle Express Edition, que está instalada
en una máquina que cumple el rol de servidor y desde algún otro equipo de
cómputo permite conexión a través red de comunicación. En este caso, desde la
máquina cliente a través una consola de SQL o del SQL Developer, se envían las
sentencias SQL y el servidor de base de datos es el que las resuelve y envía los
datos solicitados de regreso a los clientes.

Figura 27. Arquitectura cliente/servidor básico


Elaborado: Morocho, Encalada y Romero, 2020

77 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Figura 28. Arquitectura cliente/servidor dos capas


Elaborado: Morocho, Encalada y Romero, 2020

El servicio de correo institucional es un buen ejemplo, en donde los clientes se


conectan al servidor de correo y requieren ingresar sus credenciales. En este
punto, en los clientes se ejecuta un pequeño proceso de validación de los datos
que se envían al servidor como validación del formato de la dirección de email o
de la clave del usuario, asegurando que al menos las credenciales del usuario
están en un formato correcto. Luego, las credenciales son enviadas al servidor
para que las valide contra la base de datos determinando su autenticidad y se
proceda a atender las demás peticiones. A continuación, el servidor responde
las peticiones de los clientes y devuelve los datos requeridos para que sean
presentadas en las máquinas cliente.

La Figura 29 muestra una arquitectura cliente/servidor de tres capas, tome como


ejemplo la aplicación QlikView que sirve para crear aplicaciones de análisis de
datos.

Figura 29. Arquitectura cliente/servidor tres capas


Elaborado: Morocho, Encalada y Romero, 2020

78 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Ahora, debe tener claro el funcionamiento de las diferentes arquitecturas de base


de datos y sobre todo las que están utilizándose más en la actualidad.

Ha llegado al final con el estudio de la tercera unidad, recuerde que las


actividades sugeridas a lo largo de la unidad apoyarán su estudio. Ahora, es
momento de validar sus avances desarrollando la autoevaluación 3.

79 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

Autoevaluación 3

Una vez concluido el estudio de la presente unidad, Ahora, es momento de


desarrollar el siguiente cuestionario, que le servirá para verificar su asimilación
respecto al tema.

Seleccione la opción correcta

1. La arquitectura de sistemas de bases de datos en la cual un equipo actúa


como servidor de base de datos y otro equipo como servidor de aplicaciones
se denomina:

a. Centralizada.
b. Distribuida.
c. Cliente-Servidor.

2. ¿Cuáles de los siguientes son los componentes de un sistema cliente


servidor?

La red
a. El back-end o servidor web.
b. La interfaz gráfica de usuario.
c. El protocolo de comunicación.

3. ¿Cuál de las siguientes afirmaciones es correcta respecto a sistema de


arquitectura centralizada?

a. Una parte del procesamiento de datos se realiza en los terminales de


usuario final.
b. Se utilizan en la implementación de aplicaciones web.
c. Suelen requerir contar con una gran computadora central.

80 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

4. En un sistema cliente servidor la consultas que escribe un usuario se


procesan:

a. en el cliente.
b. en el servidor de aplicaciones.
c. en el servidor de bases de datos.

5. Los problemas de congestión en la red afectan en menor medida a:

a. Un sistema centralizado.
b. Un sistema cliente servidor.
c. Un sistema distribuido.

6. En arquitecturas cliente/servidor de dos capas la aplicación de usuario final


se ejecuta en el:

a. Cliente.
b. Servidor de aplicaciones.
c. Servidor de bases de datos.

7. Cuando se habla de back-end se hace referencia a:

a. La red de datos que soporta la comunicación entre el cliente y el


servidor.
b. Al sistema operativo sobre el que se ejecuta el SGBD.
c. El servidor de base de datos.

8. Un sistema centralizado multiusuario

a. Es similar a un sistema cliente/servidor ya que el usuario accede desde


un terminal distinto.
b. Es diferente a un sistema cliente/servidor porque el usuario accede
desde un terminal “tonto”.
c. En un sistema centralizado no es posible un acceso multiusuario.

81 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Primer bimestre

9. En una arquitectura de tres capas, en la capa intermedia normalmente se


ejecuta:

a. La interfaz de usuario.
b. El sistema de gestión de bases de datos.
c. Las reglas y la lógica del negocio.

10. En un sistema cliente/servidor de dos capas:

a. Las consultas se ejecutan en el lado del cliente.


b. Las consultas se ejecutan en el lado del servidor.
c. La ejecución de una consulta se realiza una parte en el cliente y otra
parte en el servidor.

Recuerde que al final de la guía puede revisar el solucionario para validar


sus aciertos y sus errores. Si hay aspectos en los aún tiene dificultad, revise
nuevamente esos temas y apóyese en la asesoría que le brinda su tutor.

Ir al solucionario

82 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

SEGUNDO BIMESTRE

UNIDAD 4. BASE DE DATOS DISTRIBUIDAS

Esta unidad está basada en el capítulo “Bases de datos


distribuidas” de su texto básico, sin embargo, es posible que
además se lo dirija a uno o dos apartados de otros capítulos.
Para completar satisfactoriamente se requiere que vaya utilizando
la guía didáctica y el texto básico.

Estimado estudiante, en la presente unidad se estudian las bases de datos


distribuidas que combinan la tecnología de bases de datos con el procesamiento
distribuido, permitiendo cambiar el modo de trabajo que pasa de un modo
centralizado a otro no centralizado. Ahora, es momento de avanzar con este
nuevo tema.

4.1. Panorámica de un sistema de bases de datos distribuidas

Primero es importante que usted tenga claro la diferencia entre las diversas
arquitecturas de los sistemas de base de datos, las cuales denotan distintas
maneras de acceder, procesar y almacenar los datos. Son cuatro arquitecturas
que, de alguna manera, han marcado la evolución de los sistemas de bases de
datos:

• Arquitectura centralizada: es aquella donde en un solo servidor


funciona tanto la base de datos como las aplicaciones, no interactúan
con servidores externos. Todo el procesamiento relacionado a los datos
se realiza en ese servidor central.

• Arquitectura cliente-servidor: en este caso ciertas tareas relativas


al procesamiento de los datos se realizan en equipos diferentes al
servidor de base de datos. En lo que respecta a la base de datos en

83 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

sí, sigue siendo centralizada, pues existe un solo servidor donde opera
el SGBD, pero las aplicaciones, pueden correr directamente en los
equipos de usuario final (arquitectura de 2 capas) o en servidores de
aplicaciones (arquitectura de 3 capas).

• Arquitectura paralela: el multiprocesamiento ha permitido que


actualmente se cuenten con implementaciones hardware con
disponibilidad de muchos procesadores, lo que implica que un servidor
sea capaz de ejecutar varios procesos paralelamente. Ello permite que
un SGBD sea capaz de atender y despachar más peticiones de acceso
a los datos en un menor tiempo. Aunque desde el punto de vista lógico
la base de datos seguiría centralizada en una sola ubicación.

• Arquitectura distribuida: Los datos en este caso físicamente se


encuentran diseminados en distintos servidores dentro de una misma
sede o en lugares geográficamente distantes, pero integrados en un
mismo sistema de gestión de bases de datos.

Nuestro estudio se centrará justamente en los sistemas de base de datos de


arquitectura distribuida.

En su texto básico revise el apartado “La evolución de los


sistemas de administración de una BD distribuida” que presenta
una visión general de los sistemas de bases de datos distribuidas.

Para reforzar la definición que plantea el texto, considere una más, Connolly
y Begg (2005) definen a una base de datos distribuida como “Una colección
lógicamente interrelacionada de datos compartidos (junto con una descripción de
estos datos) físicamente distribuidos por una red informática”, y a un Sistema de
Gestión de Bases de Datos Distribuidas (SGBDD) lo definen como “el sistema
software que permite gestionar la base de datos distribuida y hace que dicha
distribución sea transparente para los usuarios” (p.626).

84 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Complementariamente a lo explicado en el texto básico, otra de las razones para


implementar una base de datos distribuida es la escalabilidad, ya que, en un
entorno distribuido es mucho más fácil manejar la expansión, se pueden añadir
nuevas localizaciones (nodos) a la red sin afectar las operaciones de las otras.

La Figura 30 ilustra la topología de un SGBDD. Donde cada nodo es un servidor


físicamente alojado en una determinada ubicación, que tiene un SGBD corriendo
localmente y opcionalmente un conjunto de datos almacenados localmente (e.g.
en el nodo3 estaría corriendo el SGBD, pero sin datos en su almacenamiento
secundario). La base de datos global la componen la suma de las bases de datos
locales.

Figura 30. Sistema de gestión de bases de datos distribuidas


Fuente: Connolly y Begg, 2005, p.627
Adaptado por: Encalada, E., 2017

Además, no necesariamente en todos los nodos debe estar instalado el mismo


motor, aunque es deseable para que se pueda garantizar en mayor grado la
consistencia de los datos.

Para distinguir entre sistemas homogéneos y heterogéneos,


revise en su texto básico el apartado “Procesamiento en múltiples
sitios, datos en sitios múltiples (MPMD)”.

85 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Elmasri y Navathe (2016) presentan algunas consideraciones al plantear las


condiciones mínimas que debe cumplir una base de datos distribuida para ser
considerada como tal:

• Conexión de nodos de bases de datos a través de una red


informática. Hay múltiples ordenadores, llamados sitios o nodos. Estos
sitios deben estar conectados por una red subyacente para transmitir
datos y comandos entre los sitios.

• Interrelación lógica de las bases de datos conectadas. Es esencial


que la información en los distintos nodos de la base de datos esté
lógicamente relacionada.

• Posible ausencia de homogeneidad entre los nodos conectados.


No es necesario que todos los nodos sean idénticos en términos de
datos, hardware y software.

Desde el punto de vista de las aplicaciones de usuario final, al margen de la


distribución y almacenamiento físico de los datos, un SGBDD se comporta de la
misma forma que uno centralizado, es lo que se denomina transparencia.

Consulte las ventajas y desventajas de un sistema de base de


datos distribuida e identifique en qué escenarios sería propicio
este tipo de implementaciones.

4.2. Transparencia en un SGBDD

La transparencia se refiere a que, desde el punto de vista del usuario final, a nivel
lógico un sistema distribuido deberá ser idéntico a un sistema no distribuido. Es
decir, los usuarios de un sistema distribuido deberán comportarse exactamente
como si fuera un sistema centralizado.

86 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Diríjase a su texto básico y estudie el apartado “Características


de la transparencia” para comprender los distintos niveles de
transparencia en bases de datos distribuidas.

Se propone un ejemplo para mejor comprensión. Para el caso de estudio


PEDIDOS descrito en el Anexo 2, suponga que la empresa implementa una base
de datos distribuida de manera que se instala un nodo (un servidor local) en cada
ciudad donde opera. En este caso el criterio de distribución es la CIUDAD y a
partir de allí́ se planifica la distribución.

En este caso, para poder fragmentar la tabla debería contener la columna que
corresponda al criterio de distribución (fragmentación horizontal directa) o estar
asociada por llave foránea (FK) a una tabla ya fragmentada con base en ese
criterio. En nuestro caso OFICINAS es la tabla que contiene el atributo CIUDAD,
por lo tanto, se haría una fragmentación horizontal. EMPLEADOS en cambio
no tiene el atributo CIUDAD, sin embargo, está relacionada a OFICINAS (cada
empleado pertenece a una oficina), por lo que se haría una fragmentación
horizontal derivada, y así́ sucesivamente. Cada tabla fragmentada debería tener
tantos fragmentos como valores distintos tenga el atributo con base en el cual se
realiza la distribución. En nuestro caso se asume que solo son dos las ciudades
donde opera la empresa (Quito y Guayaquil).

Como resultado se tienen algunos fragmentos llamados “oficinas_UIO”, “oficinas_


GYE”, “empleados_UIO”, “empleados_GYE”, lo que no significa que a la vista
del usuario final aparezcan tablas con esos nombres, para el usuario siguen
existiendo las tablas OFICINAS y EMPLEADOS, y nada más. Quiere decir, que
aquella complejidad de la distribución es interna dentro del SGBDD y no es visible
para los usuarios o aplicaciones que acceden a manipular los datos. Dicho de
otro modo, en términos de SQL, la lógica de las operaciones SELECT, INSERT,
UPDATE y DELETE no deberá sufrir cambios.

87 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Revise ahora lo que se expone en la Figura 31 corresponde a las 12 reglas


propuestas por Christopher J. Date22, que debe cumplir todo SGBD distribuido
(SGBDD).

Figura 31. Las doce reglas de Date para un SGBDD


Fuente: Connolly y Begg, 2005, p.661
Adaptado por: Encalada, E., 2017

4.3. Ventajas y desventajas de los sistemas distribuidos

4.3.1. VENTAJAS:

Existen varias razones que justifican la construcción de sistemas distribuidos de


bases de datos:

22
Christopher J. Date ha sido uno de los más prominentes investigadores del modelo relacional
de bases de datos.

88 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

• Refleja la estructura organizativa: Generalmente las organizaciones


están distribuidas de forma natural en diversas ubicaciones y en cada
ubicación utilizan su base de datos, por lo que reflejan la estructura de
la compañía, y es factible que desde las sucursales se hagan consultas
locales a los datos pero también desde las oficinas centrales accedan a
información global de todas las ubicaciones.

• Mejora la compartición de los datos y la autonomía local: los


usuarios de una ubicación pueden ser capaces de acceder a los
datos que residen en otras ubicaciones. Aún así se diferencia entre
un administrador global que es responsable del sistema completo y el
administrador local que administra el SGBD local.

• Mayor disponibilidad: en un sistema centralizado una falla en el


servidor de base de datos hace que se detengan las operaciones del
SGBD. Pero en un sistema distribuido una falla de un nodo no paraliza
todo el sistema, sino que seguirá funcionando y las tareas asignadas al
nodo fallido son redirigidas hacia otro nodo.

• Mayor fiabilidad: debido a que los datos se pueden replicar podrán


estar disponibles en más de un nodo por lo que un fallo en un nodo o
en el enlace de comunicaciones no hace que los datos dejen de estar
disponibles.

• Mayores prestaciones: Debido a que los datos están localizados junto


al nodo de mayor demanda los tiempos de acceso a estos datos son
más rápidos que en una base de datos centralizada. Además, ya que
cada nodo gestiona una parte de los datos existe menor contienda
por los recursos (procesador, E/S de disco) que en una base de datos
centralizada.

• Economía: en este punto se considera que el mantener una red de


pequeñas computadoras que iguala en procesamiento a un mainframe,
por ejemplo, resulta mucho más económico y fácil de agregar más

89 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

equipos a la red. Así mismo la distribución de los datos resulta mucho


más económica ejecutando un procesamiento local en lugar de los
altos costos que representa la transmisión de datos.

• Crecimiento modular: ya que es mucho más fácil añadir nodos a la


red sin afectar el funcionamiento del sistema distribuido y expandir
los recursos para lograr mayores capacidades de procesamiento
y almacenamiento, a diferencia de una base de datos centralizada
en donde se debe repotenciar o reemplazar un servidor con los
consiguientes costos que representa.

• Integración: es una gran ventaja de los SGBD distribuidos pues


muchas organizaciones tienen que continuar con sus antiguas
aplicaciones y para que estas puedan trabajar con las nuevas y
más modernas deben integrarse y de esta forma están haciendo un
procesamiento distribuido.

• Capacidad de competir: muchas organizaciones han tenido que


reorganizar sus operaciones y utilizar tecnología de bases de datos
distribuidas para seguir siendo competitivas.

4.3.2. DESVENTAJAS:

El principal inconveniente de los sistemas distribuidos de bases de datos es la


complejidad añadida que es necesaria para garantizar la coordinación apropiada
entre los emplazamientos. Esta creciente complejidad tiene varias facetas:

• Complejidad: al ofrecer mayor disponibilidad, un nivel aceptable de


rendimiento, mayor fiabilidad y la replicación de datos, todo esto de
forma transparente al usuario, provoca que la complejidad del SGBD
distribuido aumente.

• Costo: el costo de operación y mantenimiento de un sistema distribuido


es superior a un centralizado ya que se debe considerar los costos de

90 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

mantener una red de comunicaciones y los equipos que ello involucra,


además en cada nodo se requiere de personal para administrar los
datos locales.

• Seguridad: en un sistema centralizado existe de cierta forma un solo


punto de vulnerabilidad, pero en un entorno distribuido se requiere
seguridad en todos los nodos en donde se repliquen los datos.

• Control de integridad más complicado: por la propia naturaleza de


la distribución de datos y la replicación en algunos nodos, el control
de integridad se vuelve más complicado que si se tiene un sistema
centralizado.

• Carencia de estándares: no se visualiza estándares que gobiernen


por ejemplo las comunicaciones y acceso a datos en un entorno
distribuido. Tampoco se cuenta con herramientas o metodologías que
ayuden a convertir un SGBD centralizado en un SGBD distribuido.

• Falta de experiencia: todavía no se ha alcanzado el mismo nivel de


experiencia que se ha logrado con los SGBD centralizados lo que
puede convertirse en un obstáculo para la adopción de este tipo de
tecnología.

• Diseño de la base de datos más complejo: si ya en algunos casos


es diseño de una base de datos centralizada es complicado una base
de datos distribuida debe contemplar la fragmentación de los datos, la
asignación de fragmentos en los nodos y las cuestiones de replicación
de los datos.

Diríjase a su texto básico y estudie el apartado “Ventajas y


desventajas de un SGBDD”, para completar el estudio de las
ventajas y desventajas en bases de datos distribuidas.

91 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

4.4. Patrones de Distribución

Tenga en cuenta que en una implementación distribuida las estructuras lógicas de


almacenamiento no cambian ni desaparecen. En bases de datos relacionales, se
manejan las conocidas tablas o relaciones; solo que en este caso su contenido
(los datos) estaría distribuido en distintos servidores. Esto supone la introducción
de nuevos conceptos: fragmentación y replicación de datos.

En su texto básico revise el apartado “Diseño de una base de


datos distribuida” que explica las dos técnicas para distribuir los
datos: fragmentación y replicación

4.5. Replicación de datos

La forma más sencilla de distribuir una relación es mediante replicación, es decir


mantener una copia íntegra de la tabla en todos los nodos del sistema distribuido,
de manera que cuando una aplicación requiera acceder a los datos de esa
tabla lo hará siempre de forma local. Esta técnica implica mayor disponibilidad y
mejor rendimiento en consultas; pero vuelve más complejas las operaciones de
actualización, dado que la actualización de un dato deberá realizarse en todos
los nodos del sistema distribuido, y en consecuencia se incrementan los tiempos
de respuesta y el nivel de concurrencia en el procesamiento de transacciones.
Por lo tanto, solo se deberían replicar aquellas tablas que no son actualizadas
con frecuencia y su contenido en su totalidad es susceptible de ser accedido
desde todos los nodos; por ejemplo, tablas de catálogos (países, tipos de cuenta,
categorías de empleados, marcas de productos, etc.).

La replicación completa (aquella de toda la base de datos) merece especial


atención, ya que en algunos casos si suele ser muy útil para asegurar la
disponibilidad de la base de datos. Por ejemplo, una empresa en la que realmente
no existan nodos geográficamente distantes, sino simplemente un esquema
de dos servidores alternativos, replicados y ubicados en el mismo sitio, con el
propósito de realizar un balanceo de carga, y que a la vez constituya un esquema

92 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

de backup, de modo que, si falla uno de los servidores, el sistema seguirá


funcionando con el otro sin necesidad de detener servicios.

4.6. Fragmentación de datos

La fragmentación en cambio implica particionar la tabla de manera que en


cada nodo exista una porción de los datos. Lo más común es la fragmentación
horizontal, en la cual se divide la tabla en subconjuntos de tuplas, y cada
subconjunto se almacena en un nodo distinto de acuerdo al criterio de distribución
que se haya elegido. Los fragmentos horizontales se definen aplicando la
operación de selección del álgebra relacional. En este punto, es importante acotar
que hay un tipo especial de fragmentación horizontal llamada fragmentación
horizontal derivada, que se da cuando se divide las tuplas de una tabla en
función de la fragmentación de otra tabla. La fragmentación vertical, agrupa
atributos que son utilizados de manera conjunta por las transacciones de
mayor importancia y se define aplicando la operación de proyección del álgebra
relacional. La Figura 32 ejemplifica de mejor forma los dos tipos de fragmentación:
horizontal y vertical.

Figura 32. a) Fragmentación horizontal. b) Fragmentación vertical


Fuente: Connolly y Begg, 2005, p.646

Se debe destacar que también se tiene la fragmentación mixta, que es una


combinación entre la fragmentación horizontal y vertical. Se la emplea cuando
estas últimas son insuficientes para distribuir los datos adecuadamente y se

93 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

define mediante las operaciones de selección y proyección del álgebra relacional.


La Figura 33 muestra gráficamente cómo sería una fragmentación mixta.

Figura 33. Fragmentación mixta: a)fragmentos verticales fragmentados


horizontalmente; b) Fragmentación horizontales fragmentados
verticalmente
Fuente: Connolly y Begg, 2005, p.647

Tenga presente que el hecho de que en un nodo solo exista una parte de una
tabla, no significa que quien se conecta a ese nodo sólo puede acceder a esa
porción de datos; puede acceder a todos los datos de la tabla, si la tupla que
busca no está en ese nodo, el SGBDD accede al nodo donde esté y la obtiene, la
diferencia en ese caso es que la respuesta es un poco más demorada.

También tenga en cuenta que se pueden combinar ambas técnicas, unas tablas
se replican y otras se fragmentan, que de hecho es lo más idóneo. Se debería
fragmentar tablas en las cuales desde cada nodo se accede frecuentemente a
una porción de sus filas. Los metadatos sobre la distribución de los datos en los
diferentes nodos (réplicas y fragmentos) se guarda en un catálogo global que lo
gestiona el SGBDD.

Ahora se tiene un ejemplo que complementa lo explicado. Para el caso de estudio


PEDIDOS descrito en el Anexo 2, suponga que la empresa implementa una base
de datos distribuida de manera que se instala un nodo (un servidor local) en cada
ciudad donde opera. En este caso el criterio de distribución es la CIUDAD y a
partir de allí se planifica la distribución.

94 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Para poder fragmentar en este caso, la tabla debería contener la columna que
corresponda al criterio de distribución (fragmentación horizontal directa) o estar
asociada por llave foránea (FK) a una tabla ya fragmentada con base en ese
criterio. En nuestro caso OFICINAS es la tabla que contiene el atributo CIUDAD
por lo tanto se haría una fragmentación horizontal. EMPLEADOS en cambio
no tiene el atributo CIUDAD, sin embargo, está relacionada a OFICINAS (cada
empleado pertenece a una oficina), por lo que se haría una fragmentación
horizontal derivada, y así sucesivamente. A continuación, se muestra la
especificación de cada fragmento para esas dos tablas:

oficinas_UIO =

oficinas_GYE =

empleados_UIO =

empleados_GYE =

Cada tabla fragmentada debería tener tantos fragmentos como valores distintos
tenga el atributo con base en el cual se realiza la distribución. En nuestro caso,
se asume que solo son dos las ciudades donde opera la empresa (Quito y
Guayaquil). A continuación, se muestra el tipo de distribución que corresponde
realizar a cada tabla:

Tabla 1. Ejemplos de fragmentación

Tabla Tipo de distribución Motivación


OFICINAS Fragmentación Contiene el atributo CIUDAD, con base en el
horizontal cual se realiza la distribución.
EMPLEADOS Fragmentación Derivada a partir de la fragmentación de
horizontal derivada oficinas.
PEDIDOS Fragmentación Derivada a partir de la fragmentación de
horizontal derivada empleados.

95 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Tabla Tipo de distribución Motivación


ITEMS Fragmentación Derivada a partir de la fragmentación de
horizontal derivada pedidos.
CLIENTES Fragmentación Derivada a partir de la fragmentación de
horizontal derivada empleados. Se entiende que los clientes
normalmente están asociados a ciudad del
vendedor asignado.
PRODUCTOS Replicación Se asume que en todas las ciudades se
oferta la misma lista de productos.
FABRICANTES Replicación Si productos se replica entonces fabricantes
también ya que están asociados. Además,
porque se trata de un catálogo.

Aquí hay que tomar en cuenta que, si ese habla de que hay sucursales en cada
ciudad que tienen su propia bodega y stock de productos, haría falta en el modelo
de datos PEDIDOS asociar las sucursales con los productos para poder llevar el
inventario en cada localidad.

Es necesario aclarar por último que, no se debe confundir FRAGMENTOS con


VISTAS. Un fragmento no es una vista de datos. Como se sabe, en bases de
datos, las vistas no son estructuras de almacenamiento, son relaciones virtuales
que ejecutan la consulta SQL subyacente para obtener una porción de los datos.
Los fragmentos en cambio son estructuras de almacenamiento que corresponden
a partes de una tabla (subconjuntos de tuplas y/o columnas de una relación).

Para que complemente lo estudiado, realice la siguiente actividad que le permitirá


aplicar su conocimiento.

96 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Actividad Recomendada:

1. Suponga las tablas de una base de datos de una empresa de


servicios:

clientes (cedula, apellidos, nombres, telefono, direccion,


sucursal, tipo_cliente, id_nacionalidad)
sucursales (sucursal, nombre, provincia, ciudad, direccion,
telefono)
tipos_cliente (tipo_cliente, descripcion, descuento)
nacionalidades (id_nacionalidad, nombre)
vehiculos (id_vehiculo, placa, chasis, marca, modelo, año,
color, sucursal)

Se decide implementar un sistema SGBD distribuido y se


establece que se hará una distribución geográfica de los
datos, basados en la provincia. Es decir, se tiene un nodo
en cada provincia donde opere la empresa. Con base en lo
anterior, analice y explique: en este caso ¿se debería aplicar
fragmentación, replicación, ambas? ¿Cuáles tablas se deberían
fragmentar y cuáles replicar?
2. Plantee un ejemplo de organización o negocio cuya naturaleza de
operación sería idónea para implementar un sistema de base de
datos distribuida. Indique las razones.

97 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Autoevaluación 4

Una vez concluido el estudio de la presente unidad, ahora es momento que


desarrolle el siguiente cuestionario que le servirá para verificar la asimilación de lo
aprendido.

Seleccione la opción correcta

1. En un sistema de base de datos distribuidas, cuando los usuarios no son


conscientes de en cuál servidor están almacenados físicamente los datos se
habla de:

a. Transparencia de la ubicación
b. Transparencia del SGBD
c. Transparencia de la fragmentación

2. En sistemas de bases de datos distribuidas, la replicación consiste en:

a. Implementar dos o más nodos del sistema distribuido con la misma


configuración hardware y software.
b. Crear vistas en cada uno de los nodos del sistema distribuido, las
mismas que acceden a una base de datos principal.
c. Mantener una copia íntegra de una o más tablas en múltiples bases de
datos que forman un sistema de base de datos distribuidos.

3. La heterogeneidad en bases de datos distribuidas se da cuando no todos los


nodos

a. Difieren en el hardware.
b. Poseen SGBD distintos.
c. Almacenan distintos datos.

98 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

4. En una base de datos distribuida

a. pueden haber nodos que no almacenen datos localmente.


b. deben haber nodos que no almacenen datos localmente.
c. todos los nodos deben almacenar datos localmente.

5. ¿Cuál de las siguientes afirmaciones respecto a bases de datos distribuida


es cierta?

a. Para el almacenamiento de los datos se puede aplicar fragmentación,


replicación o ambos
b. Si se cae uno de los nodos, se cae todo el sistema.
c. Una consulta solo puede acceder a los datos de una localidad.

6. En una base de datos distribuida, cuando un usuario consulta los datos


de una tabla fragmentada, debe especificar en la cláusula FROM de la
sentencia SELECT:

a. Simplemente el nombre de la tabla, tal como lo haría en una base de


datos no distribuida.
b. El nombre de la tabla y el nombre del fragmento donde están las tuplas
que busca.
c. El nombre de la tabla, el nombre del fragmento donde están las tuplas
que busca, y el nodo donde reside ese fragmento.

7. En un esquema de base de datos distribuida, aquellas tablas que


corresponden a catálogos, tal como PAISES, ESTADOS_CIVILES, TIPOS_
CLIENTE, etc., se las debería

a. fragmentar horizontalmente
b. fragmentar verticalmente
c. replicar

99 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

8. ¿Cuál de las siguientes afirmaciones NO es cierta respecto a los sistemas


de bases de datos distribuidas?

a. En un entorno distribuido, es mucho más fácil manejar la escalabilidad


b. Al procesar transacciones se utilizan protocolos de confirmación en dos
fases
c. No existe autonomía local de los nodos

9. Suponga las siguientes tablas:

BODEGAS (id_bodega, administrador, ciudad, direccion, telefono)


ARTICULOS (id_articulo, nombre, peso, precio, cantidad, id_bodega)

En un entorno de base de datos distribuida se decide que la distribución


(fragmentación) geográfica de los datos se hará de acuerdo a la CIUDAD.
En este caso, ¿que tipo de fragmentación es la que se deberá aplicar a la
tabla ARTICULOS?

a. Fragmentación horizontal
b. Fragmentación vertical
c. Fragmentación horizontal derivada
d. Fragmentación mixta

10. Para la tabla STAFF, cuál sería la forma correcta de aplicar una
fragmentación horizontal, basada en el atributo Position (recuerde las
operaciones de algebra relacional: π->Proyección, σ -> Selección)

100 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Respuesta:
a. Opción 1
b. Opción 2
c. Opción 3

Recuerde que al final de la guía puede revisar el solucionario para validar sus
respuestas. Si hay aspectos en los que aún tiene dificultad, revise nuevamente
esos temas y apóyese de la asesoría que le brinda su tutor.

Ir al solucionario

101 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

PARTE II: FUNDAMENTOS DE BASE DE DATOS DE PROPÓSITO ESPECIAL

UNIDAD 5. BASES DE DATOS DE PROPÓSITOS ESPECIALES

Esta unidad está basada en documentos, referencias de internet


y el texto del autor (Elmasri, 2016), por esta razón para completar
satisfactoriamente se requiere que utilice la guía didáctica.

Estimado estudiante, ahora corresponde revisar algunos aspectos básicos de las


bases de datos de propósito especial, debido a la gran cantidad de información
que actualmente se maneja en las organizaciones y a través de internet.

¡Iniciamos!

5.1. Introducción a las bases de datos de propósito especial

La evolución de las tecnologías de información y comunicación (TIC) ha


provocado que se necesiten nuevos enfoques para el manejo de la información.
Hoy en día, se tienen una vasta cantidad de bases de transaccionales en las
organizaciones y empresas y además se cuenta con información que crece
exponencialmente y que provienen de redes de sensores, redes sociales,
aplicaciones y servicios ofrecidos mediante internet, datos de corte social/
científico, entre otros.

Cuando se piensa en bases de datos inmediatamente se visualizan las bases


de datos transaccionales tradicionales como bases de datos de facturación,
inventario, gestión financiera, etc. Sin embargo, también se requiere consultar
en tipos de datos como: texto libre, imágenes, video y audio, documentos, etc. y
esto ha originado la generación de bases de datos con propósitos específicos. Por
ejemplo: se cuenta con una base de datos de podcasts de programas de radio,
charlas, tutoriales o música un caso puede ser la base de datos de podcast de la
Corporación de Radio y Televisión Española (RTVE).

102 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

En función de los diferentes propósitos que se da a la información se han


seleccionado algunos tipos de bases de propósito específico:

• Base de datos textuales


• Bases de datos multimedia
• Bases de datos temporales
• Bases de datos espaciales

5.2. Bases de datos de texto

Una base de datos textual realiza la manipulación de datos textuales. Fuentes de


texto o documentos son básicamente textos completos de algunos artículos, libros
o revistas. Estas fuentes son típicamente indexadas mediante la identificación
de palabras clave que aparecen en el texto y su frecuencia relativa con la que
aparecen en estos documentos.

Para el proceso de indexación, las palabras de relleno o palabras comunes


denominadas en inglés stopwords deben eliminarse del proceso. Estas palabras
pueden ser muchas palabras cuando se está intentando indexar una colección
de documentos, estas técnicas han sido desarrolladas para reducir el número de
palabras clave y dejar aquellas que son más relevantes para una colección de
documentos.

Estos conceptos están asociados a técnicas avanzadas de recuperación de


información, que no son parte de esta asignatura. Sin embargo, es necesario
analizar algunas bases de datos de este tipo para que se familiarice con su
funcionamiento.

En el enlace Bibliotecas de la Universidad de Salamanca


encontrará un ejemplo de una base de datos textual perteneciente
a la Universidad de Salamanca. Familiarícese con esta
utilizándola para búsquedas.

103 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

¿Qué le ha parecido esta base de datos? Cree que podría identificar otras bases
de datos? ¡Seguro que sí!

5.3. Bases de datos multimedia

Las bases de datos multimedia proveen funciones que permiten a los usuarios
almacenar y consultar diferentes tipos de información multimedia, que incluye
imágenes (fotos o dibujos), videoclips (películas, videos), clips de audio,
(canciones, mensajes de voz, conferencias, entre otros) y documentos (libros o
artículos).

Para las bases de datos multimedia entre los tipos de consultas se incluyen
aquellas que requieren la localización de fuentes multimedia que contienen ciertos
objetos de interés. Se citan los siguientes ejemplos:

▪ Es posible que desee ubicar todos los videoclips en una base de datos de
video que incluya cierta persona, e.g. Papa Francisco.

▪ También, es posible que desee recuperar videoclips basados en ciertas


actividades incluidas en ellos, como videoclips en los que un determinado
jugador o equipo anota un gol de fútbol.

Las consultas anteriores se basan en recuperación basada en el contenido,


porque la fuente multimedia se recupera en función de que contiene ciertos
objetos o actividades. Por esta razón, una base de datos multimedia debe usar
algún modelo para organizar e indexar las fuentes multimedia en función de sus
contenidos.

Youtube es una base de datos multimedia examine su


funcionamiento como una base de datos.

¿Cómo le ha parecido esto que ha descubierto? ¡qué interesante! ¡Siga


explorando!

104 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

La identificación de los contenidos de las fuentes multimedia es una tarea difícil


y que requiere mucho tiempo. Hay dos enfoques principales que se pueden
emplear:

1. El primer enfoque se basa en el análisis automático de las fuentes


multimedia para identificar ciertas características matemáticas de sus
contenidos. Este enfoque utiliza diferentes técnicas según el tipo de fuente
multimedia (imagen, vídeo, audio o texto).

2. El segundo enfoque depende de la identificación manual de los objetos


y actividades de interés en cada fuente multimedia y del uso de esta
información para indexar las fuentes. Este enfoque se puede aplicar a todas
las fuentes multimedia, pero requiere una fase de pre-proceso manual,
donde un debe escanear cada fuente multimedia para identificar y catalogar
los objetos y actividades que contiene, de modo que puedan usarse para
indexar las fuentes.

Realice una búsqueda en internet para ubicar más ejemplos


concretos de bases de datos multimedia.

5.4. Bases de datos de espaciales

Las bases de datos espaciales incorporan funcionalidades que brindan soporte


para bases de datos que realizan un seguimiento de los objetos en un espacio
multidimensional. Por ejemplo, las bases de datos cartográficas que almacenan
mapas incluyen descripciones espaciales bidimensionales de sus objetos, desde
países y estados hasta ríos, ciudades, carreteras, mares, etc.

Los sistemas que manejan datos geográficos y aplicaciones relacionadas se


conocen como Sistemas de Información Geográfica (GIS23) y se usan en áreas
tales como aplicaciones medioambientales, sistemas de transporte, sistemas
de respuesta de emergencia y gestión de batalla. Otras bases de datos,

23
del inglés Geographic Information Systems

105 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

como las bases de datos meteorológicos para información meteorológica, son


tridimensionales, ya que las temperaturas y otra información meteorológica están
relacionadas con puntos espaciales tridimensionales.

En general, una base de datos espacial almacena objetos que tienen


características espaciales que los describen y que tienen relaciones espaciales
entre ellos. Las relaciones espaciales entre los objetos son importantes, y a
menudo se necesitan cuando se consulta la base de datos. Aunque una base de
datos espacial puede referirse a un espacio n-dimensional para cualquier n, se
trabaja en dos dimensiones como la ilustración.

Una base de datos espacial está optimizada para almacenar y consultar datos
relacionados con objetos en el espacio, incluidos puntos, líneas y polígonos.
Las imágenes de satélite son un ejemplo destacado de datos espaciales. Las
consultas planteadas en estos datos espaciales, donde los predicados para la
selección tratan con parámetros espaciales, se denominan consultas espaciales.
Por ejemplo, ‘¿Cuáles son los nombres de todas las bibliotecas dentro de las
cinco millas del edificio de la Facultad de Informática en Georgia Tech?’ Es una
consulta espacial.

Mientras que las bases de datos típicas procesan datos numéricos y de


caracteres, se necesita agregar funcionalidad adicional para que las bases de
datos procesen los tipos de datos espaciales.

Una consulta como: ‘Enumerar todos los clientes ubicados dentro de las veinte
millas de la sede de la compañía’ requerirá el procesamiento de tipos de datos
espaciales normalmente fuera del alcance del álgebra relacional estándar y
puede implicar consultar una base de datos geográfica externa que mapee la
sede de la compañía y cada cliente a un mapa en 2D basado en su dirección.
Efectivamente, cada cliente estará asociado a una posición de <latitud, longitud>.
No se puede utilizar un índice tradicional basado en los códigos postales de
los clientes u otros atributos no espaciales para procesar esta consulta, ya que
los índices tradicionales no son capaces de ordenar datos de coordenadas

106 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

multidimensionales. Por lo tanto, existe una necesidad especial de bases de datos


adaptadas para el manejo de datos espaciales y consultas espaciales.

Google Maps es un ejemplo de una base de datos SIG analice la


estructura de este tipo de base de datos.
Realice una búsqueda en internet para ubicar más ejemplos
concretos de bases de datos multimedia.

5.5. Bases de datos de científicas

Las bases de datos bibliográficas son recopilaciones de publicaciones de


contenido científico-técnico, como artículos de revistas, libros, tesis, congresos,
etc, de contenido temático, que tienen como objetivo reunir toda la producción
bibliográfica posible sobre un área de conocimiento.

Las bases de datos documentales o bibliográficas contienen información sobre


documentos, es decir, referencias a documentos, pero también muchas de ellas
contienen los textos completos de esos documentos, generalmenten en formato
pdf. Por ejemplo Medline, es una base de datos que recopila todo lo que se
publica a nivel mundial sobre Medicina.

Si un investigador necesita saber qué se ha publicado sobre un tema de su interés


puede localizar esta información buscando en la base de datos que exista sobre
su área de investigación o en alguna multidisciplinar.

Las bases de datos contienen información relevante, actualizada, precisa,


contrastada y de calidad. Para todas las áreas científicas existe alguna base de
datos especifica o al menos alguna multidisciplinar

Las bases de datos bibliográficas facilitan mucho la tarea de estar informado


sobre todo lo que se ha publicado sobre un campo de investigación.

107 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Búsquedas típicas en una base de datos:

▪ Conocer sobre las publicaciones de un tema determinado.


▪ Estar al día sobre lo nuevo que va apareciendo sobre un campo de
investigación.
▪ Saber qué ha publicado un autor determinado.
▪ Identificar instituciones en dónde se está investigando sobre un tema.
▪ Conocer las revistas que publican más sobre una determinada área de
estudio.

Redalyc un ejemplo de una base de datos científica es un ejemplo


de una base de datos SIG analice la estructura de este tipo de
base de datos.
Realice una búsqueda en internet para ubicar más ejemplos
concretos de bases de datos científicas

108 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Autoevaluación 5

Es momento de validar la asimilación de los contenidos de la unidad, desarrolle la


autoevaluación propuesta. Aunque es opcional, se le recomienda resolverlas. Si
tiene alguna duda consulte con su profesor tutor.

Responda a las siguientes interrogantes:

1. Una base de datos textual se aplica sobre documentos de tipo:

a. pdf
b. jpg
c. bib

2. En una base de datos textual el proceso de análisis elimina

a. stopwords
b. palabras clave
c. temas

3. En una base de datos multimedia, a parte del título que otra información
puede ser relevante para la búsqueda:

a. descripción
b. identificador
c. url

4. En una base de datos multimedia se puede encontrar un objeto específico


gracias a su

a. identificación
b. indexación
c. especificación

109 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

5. En una base de datos SIG se maneja también una

a. base de datos relacional


b. base de datos textual
c. base de datos de grafos

6. Una base de datos SIG contiene

a. una capa de datos


b. una capa de negocio
c. una capa de ubicación

7. Una base de datos científica contiene:

a. información de un documento científico


b. documento científico
c. la información y el documento científico

8. En una base de datos científica una de las funcionalidades más potentes es:

a. la base de datos
b. la búsqueda avanzada
c. el acceso a la base de datos

9. Una base de datos científica es muy útil cuando:

a. Conocer sobre los científicos más destacados en un campo de


investigación.
b. Descargar artículos científicos de forma gratuita.
c. Informarse sobre todo lo que se ha publicado sobre un campo de
investigación.

110 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

10. Al conjunto de estrategias y herramientas enfocadas a la administración y


creación de conocimiento mediante el análisis de datos en una organización
o empresa se denomina:

a. Inteligencia de negocios
b. Inteligencia artificial
c. Minería de datos
d. Inteligencia colectiva

¿Cómo estuvo su autoevaluación? ¡Seguro que muy bien! y si no es así, revise


los apartados correspondientes y su guía didáctica a fin de aclarar las dudas que
tenga. Recuerde que cuenta con el apoyo de su tutor.

111 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

UNIDAD 6. SISTEMAS DE APOYO A LAS DECISIONES

Esta unidad está basada en el capítulo “Inteligencia de negocios


y almacenes de datos” de su texto básico. Para completar
satisfactoriamente esta unidad se requiere que vaya utilizando la
guía didáctica y el texto básico.

¿Dónde está la vida que hemos perdido viviendo?


¿Dónde está la sabiduría que hemos perdido en
conocimiento?
¿Dónde está el conocimiento que hemos perdido
en la información?
T.S. Eliot, “The Rock”, Faber & Faber 1934.
6.1. Introducción a la inteligencia de negocios

En el contexto de la sociedad de la información se ha propiciado la necesidad de


tener mejores, más rápidos y más eficientes métodos para extraer y transformar
los datos de una organización en información y distribuirla a lo largo de la cadena
de valor empresarial24. La inteligencia de negocios o Business Intelligence (BI)
responde a dicha necesidad.

Se entiende por inteligencia de negocios al conjunto de metodologías,


aplicaciones, prácticas y capacidades enfocadas a la creación y administración
de información que permite a los usuarios de una organización tomar mejores
decisiones.

Importante:
Aunque el término inteligencia de negocios incluye una variedad
de componentes y herramientas, esta sección se concentra en
almacenes de datos.

24
Cadena de valor empresarial, según Michael Porter en su obra Competitive Advantage, es un
modelo teórico que permite describir las actividades que generan valor en la organización.

112 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Antes de revisar el tema de inteligencia de negocios, primero se debe comprender


el concepto de almacenes de datos.

Diríjase a su texto básico y revise la introducción del capítulo y


los apartados “Necesidad del análisis de datos” e “Inteligencia
de Negocios”. Comprenderá el contexto en el cuál surgen lo
almacenes de datos.

El texto indica dos tipos de sistemas de información:

▪ Sistemas de procesamiento de transacciones, también conocidos como


Sistemas operacionales, Sistema transaccionales (TPS25)

▪ Sistemas de ayuda a la toma de decisiones, también conocidos como


Sistemas de apoyo a la toma de decisiones, Sistemas de soporte a las
decisiones (DSS26).

Esta es una clasificación de los sistemas de información en función de su


finalidad dentro de la empresa. Y aunque realmente desde ese punto de vista no
son los únicos tipos de sistemas, como muestra la Figura 34, estos dos son los
principales para el propósito de comprender los almacenes de datos.

25
del inglés Transaction Processing System
26
del inglés Decision Support System

113 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Figura 34. Tipos de Sistemas de Información


Fuente: Sitio web Mejorar Información

Los Sistemas de Procesamiento de Transacciones (TPS) aparecieron primero y


se orientan a automatizar procesos operativos de carácter repetitivo dentro de la
empresa, cuya finalidad primaria es el registro de las transacciones del negocio.
Son sistemas muy críticos que requieren una alta disponibilidad; puesto que, si
dejan de operar u operan con mucha lentitud, ello puede significar demoras y
hasta suspensión de actividades, lo cual a su vez se traduce en pérdidas, que
no es deseable bajo ningún punto de vista. Detrás de un TPS existe una base de
datos llamada “Base de datos transaccional” o “Base de datos operacional”.

Los DSS en cambio se nutren de los datos captados principalmente a través de


los TPS para generar nueva información que es muy útil para los directivos de
la empresa, ya que les sirve de base para la toma de decisiones. Detrás de un
DSS comúnmente existe una base de datos conocida como “Data Warehouse” o
“Almacén de datos”.

Diríjase nuevamente a su texto básico y revise la introducción del


apartado “Almacenes de datos” para comprender lo que es un
almacén de datos.

114 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Al respecto, uno de los conceptos más extendidos es el propuesto por Bill Inmon
(padre del Data Warehouse) quién define a un almacén de datos como “una
colección de datos integrados, temáticos, historiados y no volátiles, organizados
para apoyar el proceso de toma de decisiones”.

• Integrado, porque integra fuentes de datos heterogéneas, en una sola


estructura consistente.
• Temático, porque los datos se organizan por temas (hechos) a
analizar.
• Historiado, (o variable en el tiempo), porque los hechos normalmente
tienen asociada una dimensión temporal, que indica cuando ocurrieron.
• No volátil, porque la información permanece, no se elimina, “no se
modifica”27, es de solo lectura.

Aquí es muy importante que usted tenga claro la diferencia entre una base de
datos transaccional y un almacén de datos. Por un lado, la base de datos
transaccional al ser el repositorio de datos de los TPS donde los datos se
actualizan permanentemente y necesita un afinamiento orientado a optimizar el
rendimiento de las operaciones de actualización (INSERT, UPDATE y DELETE,
en SQL), por lo tanto, se requiere un diseño altamente normalizado, e indexado lo
menos posible.

Por otro lado, el almacén de datos siendo la fuente de datos de los DSS donde
los datos cambian con menos frecuencia y su uso está centrado en la generación
de informes para los directivos, requiere en cambio estar optimizado para que
las operaciones de consulta (SELECT en SQL) sean muy rápidas, por lo tanto,
es permisible en este caso introducir ciertos niveles de redundancia y agregar
tantos índices como hagan falta. En la Tabla 2 puede ver una lista detallada de
las características que diferencian a un almacén de datos de una base de datos
transaccional.

27
La característica de que un Data Warehouse “no se modifica” es relativa. En realidad, el
contenido de un almacén de datos si se actualiza, pero periódicamente, no con la misma
frecuencia que en una base de datos transaccional.

115 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Tabla 2. Comparación entre una Base de datos transaccional y un Almacén de


datos

Base de datos transaccional Almacén de datos


Datos operacionales Datos consolidados e integrados
Cambia continuamente Estable (se actualiza periódicamente)
Diseño normalizado Diseño desnormalizado
Predomina la actualización Predomina la consulta
Pocos índices Muchos índices
La actividad más importante es de tipo La actividad más importante es el
operativo análisis y la decisión estratégica
Diseñado para ser eficiente (tiempos de Diseñado para ser efectivo (Información
respuesta) deseada)
Orientado a la aplicación (a usuarios Orientado al sujeto (a directivos)
operativos)
Modela el negocio (cambia si cambia el Se adapta al negocio (responde nuevas
negocio) preguntas)
Reacciona a eventos Se anticipa a eventos
Consultas simples y estandarizadas Consultas complejas que consolidan
datos
Actual (Importancia del dato actual) Actual + Histórico (Importancia del dato
histórico)
Detallada (Datos en general Detallada + Resumida (Datos en
desagregados) distintos niveles de agregación)
Predomina el proceso puntual Predomina el proceso masivo
Cientos de usuarios (por ejemplo, los Decenas de usuarios (por ejemplo, los
usuarios de una organización) gerentes, los analistas)
Muchas pequeñas transacciones Las consultas son largas y complejas
MB - GB de datos GB - TB de datos
Soporta decisiones operativas Soporta decisiones estratégicas
Su finalidad es el procesamiento de Su finalidad es el análisis de los datos
transacciones
Fuente: Encalada (2017)

Tenga muy presente el factor integrador, que es un muy importante. Una base de
datos transaccional normalmente se focaliza en una parte del negocio (ventas,

116 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

contabilidad, recursos humanos, etc.). Un almacén de datos en cambio integra


toda la información del negocio.

Otra forma de contrastar estos dos enfoques se según el tipo de procesamiento


que se realiza sobre los datos, desde esa perspectiva existen dos tipos de
sistemas:

▪ Procesamiento de Transacciones en Línea (OLTP28): es la tecnología


asociada al conjunto TPS + base de datos transaccional, donde el
procesamiento se centra en el registro de transacciones, por ello el SGBD
debe contar con un gestor de transacciones que garantice las propiedades
ACID29.

▪ Procesamiento Analítico en Línea (OLAP30): es la principal tecnología


asociada al conjunto DSS + almacén de datos, donde el procesamiento está
orientado a la exploración y análisis de los datos. Y, tanto la aplicación como
el SGBD subyacente deben garantizar una extracción rápida de los datos.
Observe la Figura 35, en ella se ilustra la relación entre los dos enfoques
OLTP y OLAP.

Figura 35. De OLTP a OLAP


Fuente: SlideShare.net

28
del inglés Online Transactional Processing
29
Atomicidad, Consistencia, aIslameinto, Durabilidad
30
del inglés Online Analitycal Processing

117 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Cuando una empresa se constituye lo primero que implementará son sistemas


transaccionales, para automatizar la operación del negocio. Cuando los datos
recopilados a través de los TPS crezcan a un volumen importante, probablemente
será cuando se plantee la necesidad de implementar un almacén de datos que
le permita integrar todos los datos y sacar un mejor provecho a la información
acumulada. Hasta tanto, los reportes gerenciales se obtendrán directamente de
las bases de datos transaccionales.

¿Cuándo implementar un almacén de datos?

Cuando se:

▪ Tienen tasas de consulta y explotación de datos muy alta, que están


afectando al rendimiento de los sistemas transaccionales.
▪ Incrementan los reportes para los niveles gerenciales.
▪ Desea consolidar información de distintas fuentes.
▪ Desea aprovechar la información acumulada para análisis de tendencias.
▪ Presentan preguntas que no se resuelven con una simple consulta de datos,
y se requiere aplicar técnicas avanzadas de análisis.
▪ Necesita integrar la información, con el objetivo de analizarla, para poder
tomar mejores decisiones.

Ponga atención en los sistemas de soporte a las decisiones


(DSS). Sin embargo, como se vio en la Figura 34, existen
otros tipos de sistemas no transaccionales (KWS, MIS y ESS).
Investigue el propósito de cada uno y establezca la diferencia
entre todos ellos (DSS, KWS, MIS y ESS).

Los almacenes de datos se integran a un concepto superior llamado Inteligencia


de negocios.

118 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

6.2. Inteligencia de negocios

Hasta ahora se ha hablado de los almacenes de datos asumiéndolos como


aquella base de datos que permite reunir la información de múltiples fuentes en
un solo repositorio, que luego se lo utiliza estrictamente para realizar consultas y
generar informes que sirvan de apoyo a la toma de decisiones.

Con el tiempo, esta solución técnica que buscaba integrar toda la información de
la empresa y alivianar la carga de los sistemas transaccionales fue evolucionando
y adquirió cada vez mayor importancia por el gran beneficio estratégico que
representa para las empresas el aprovechar sus datos históricos para generar
información que les permita por ejemplo conocer mejor a sus clientes, entender
mejor el mercado, optimizar costos, focalizar mejor su publicidad, etc., es decir ser
más competitivos. Al punto que actualmente la información ha pasado a ser un
activo y un recurso estratégico para las organizaciones.

Y esa necesidad latente de aprovechar al máximo los datos, ha llevado a


desarrollar nuevas soluciones cada vez más avanzadas que permiten explotar
de forma muy eficiente la información que se guarda en un almacén de datos.
Actualmente, los directivos de una empresa ya cuentan con herramientas que les
permite por sí mismos extraer y visualizar la información que necesitan.

A todo ese conjunto de datos, estrategias y herramientas que permiten integrar,


organizar, explorar, generar, analizar y visualizar información útil para mejorar
el negocio, es lo que se conoce como Inteligencia de Negocios (BI31), también
conocida como inteligencia empresarial.

Aquí algunas otras definiciones de BI de autores reconocidos:

▪ “Es convertir la información de la empresa en un arma estratégica” (Teddy


Dale).

31
del inglés Business Intelligence

119 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

▪ “Se refiere al proceso de convertir datos en conocimiento y conocimiento en


acciones para crear la ventaja competitiva del negocio” (Data Warehouse
Institute).
▪ “Conjunto de estrategias, acciones y herramientas enfocadas a la
administración y creación de conocimiento mediante el análisis de datos
existentes en una organización o empresa” (Ahumada-Tello et al., 2012).
▪ “Es el proceso de analizar y transformar los datos operacionales de una
organización en un repositorio accesible con información de mucho valor, y
una adecuada distribución de la información en la manera más conveniente
a las personas correctas, en el momento preciso y en forma oportuna para
tomar mejores decisiones” (Pratte, 2005).
▪ “Es un término que describe un conjunto integral, coherente e integrado
de herramientas y procesos utilizados para capturar, recopilar, integrar,
almacenar y analizar datos con el propósito de generar y presentar
información para apoyar la toma de decisiones empresariales” (Coronel et
al., 2011).

En la Figura 36 como puede observar, el término “conocimiento” es recurrente,


y es que, ese es realmente el objetivo final de la inteligencia de negocios, utilizar
la experiencia histórica de la empresa − reflejada en los datos acumulados en
sus bases de datos transaccionales − para aprender de ella y generar nuevo
conocimiento que pueda ser aprovechado para crecer y mejorar. A ese proceso
de transformar los datos en conocimiento se lo suele conocer como pirámide
del conocimiento.

120 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Figura 36. Pirámide del conocimiento


Fuente: Blog Wordpress

6.3. Beneficios de la inteligencia de negocios

Son muchas las ventajas de BI en las empresas, y muchas las maneras de


enfocar y describir sus beneficios. Aquí se destacan algunos de los más
importantes:

▪ Capacidad de aprender de su propia experiencia con base en los datos del


pasado y de predecir situaciones futuras en diversos escenarios.
▪ Suficiencia para entender mejor a los clientes o usuarios de sus servicios,
identificando sus gustos, sus patrones de consumo, su nivel de satisfacción,
etc. De manera que se puedan diseñar y aplicar estrategias orientadas a
mejorar la calidad de los servicios para retener y atraer más clientes.
▪ Disponer de indicadores de gestión de una forma oportuna, rápida y en un
formato adecuado, que les permita a los directivos en cualquier momento
monitorear y evaluar el desempeño de empresa y el cumplimiento de los
objetivos estratégicos.

121 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

▪ Optimización de recursos, que se logra cuando se cuenta con indicadores de


eficiencia precisos, objetivos y detallados por cada persona, área, producto/
servicio, etc.; lo que permite focalizar los esfuerzos para corregir de forma
puntual lo que está mal.
▪ Reducción de los costos operativos, ya que la obtención de la información
se realiza de una forma más eficiente, con lo que se reducen los tiempos de
extracción y aumenta el tiempo disponible para el análisis y evaluación de
los resultados.

6.4. Técnicas y herramientas de inteligencia de negocios

En inteligencia de negocios la exploración y análisis de los datos se puede hacer


principalmente mediante:

• Consultas simples, utilizando por ejemplo el SQL estándar en bases


de datos relacionales.
• Análisis OLAP, utilizando operaciones OLAP (que corresponden a
características extendidas de SQL), o con el uso de herramientas
OLAP. Permite el análisis de las métricas del negocio, con datos
resumidos almacenados y pre-procesados a nivel de cubos (se los
estudia más adelante).
• Minería de datos32, aplicando técnicas estadísticas y de inteligencia
artificial (redes neuronales, redes bayesianas, etc.) para descubrir
patrones ocultos en los datos.

En cuanto a soluciones tecnológicas para inteligencia de negocios, en el mercado


existen muchas herramientas especializadas en la exploración, análisis y
visualización de datos. Comúnmente conocidas como plataformas BI, soluciones
de inteligencia de negocios o soluciones de inteligencia empresarial. La Tabla 3
muestra algunas de las herramientas más conocidas.

32
En inglés Data Mining

122 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Tabla 3. Algunas de las herramientas BI disponibles en el mercado

Herramientas comerciales Herramientas OpenSource


IBM Cognos Analytics Pentaho

SAP Business Objects SpagoBI

Yellowfin OpenI

Sisense RapidMiner

Oracle BI LogiReport

Microstrategy JasperReports

Power BI

Qlikview
Fuente: Encalada (2017)

La mayoría de estas son consideradas herramientas OLAP, es decir, realizan la


exploración y análisis de los datos utilizando principalmente operaciones OLAP,
complementadas con análisis estadístico. Sin embargo, actualmente se avanza
notablemente en el desarrollo e implementación de herramientas de minería de
datos para extraer información no obvia en los datos; RapidMiner es un ejemplo
de ese tipo de herramientas.

Para complementar la comprensión de este tema, consulte en


internet más información acerca de la Inteligencia de negocios,
específicamente:
• Conceptos de otros autores.
• Otros beneficios que conlleva.
• Retos en su implementación (problemas comunes que
conlleva el implementar soluciones de este tipo).
• Herramientas disponibles y utilizadas en la actualidad.
Con base en ello, elabore un mapa conceptual que resuma lo
asimilado en el tema.

123 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

6.5. Procesamiento Analítico en Línea

La necesidad de un soporte a la toma de decisiones provocó que surjan nuevas


herramientas de consulta más avanzadas denominadas Procesamiento Analítico
en Línea (OLAP). Las aplicaciones OLAP tienen utilidad en diversas operaciones
de una organización, por ejemplo, el cálculo de presupuestos, análisis de ventas,
predicción de stock de inventarios, segmentación de mercados y/o clientes, entre
otras.

Los sistemas OLAP comparten cuatro características principales:

• Utilizan técnicas de análisis de datos multidimensionales


• Establecen soporte avanzado de bases de datos
• Establecen interfaces fáciles de utilizar para el usuario final
• Soportan la arquitectura cliente/servidor

6.5.1. Técnicas multidimensionales para análisis de datos

El análisis moderno de datos se hace desde varias perspectivas (dimensiones).


Por ejemplo: un importador de artículos de primera necesidad requiere conocer
qué productos son los más solicitados, en qué periodo del año, qué cliente solicita
los productos, qué cliente tiene más o menos crédito, entre otras. El importador
está relacionando datos del negocio que se deben integrar en un solo análisis y
es ahí donde el análisis multidimensional cubre estas necesidades.

Diríjase nuevamente a su texto básico y revise el apartado


“Técnicas multidimensionales para análisis de datos” que le
ayudará a entender mejor esta característica.

6.5.2. Soporte avanzado para una base de datos

El análisis datos muchas veces requiere integrar información desde varias fuentes
de datos. Las herramientas OLAP deben proveer varias funcionalidades, que

124 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

brinden soporte, por ejemplo la capacidad de conectividad a varios productos de


base de datos, el manejo de metadatos, entre otras.

Diríjase nuevamente a su texto básico y revise el apartado


“Soporte avanzado para una base de datos” que le ayudará a
entender mejor esta característica.

6.5.3. Interfaz fácil de usar para usuario final

Sin enfocarnos solamente en las herramientas OLAP, la usabilidad en una


herramienta de software es un factor clave. Entendido esto, los productos de
software para extracción y análisis de datos han implementado la sencillez de uso,
promoviendo de esta manera que los usuarios puedan adoptar las herramientas
sin dificultad.

6.5.4. Arquitectura cliente/servidor

La arquitectura cliente/servidor hace posible que el sistema OLAP se divida en


varios componentes que pueden ser instalados en la misma computadora o en
varias. Dependiendo de la carga de trabajo que tenga el sistema OLAP se puede
configurar para que el rendimiento sea el más óptimo y que permita hacerlo
escalable.

6.5.5. Arquitectura OLAP

Para hablar de la arquitectura OLAP, en primer lugar se debe aclarar que estos
sistemas están diseñados para trabajar con datos de un almacén de datos y con
datos operacionales.

Revise en su texto básico el apartado “Arquitectura OLAP” donde


se explica la arquitectura cliente/servidor de un OLAP. Póngale
especial atención en comprender las figuras “Arquitectura cliente/
servidor de OLAP” y “Arreglo de servidor OLAP”.

125 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

A continuación, se resume la explicación de la Figura 37. Arquitectura cliente/


servidor de un OLAP, que es necesario que usted se asegure la haya
comprendido en la lectura comprensiva de su texto básico.

Figura 37. Arquitectura cliente/servidor de un OLAP


Fuente: Coronel y Morris (2011)

OLAP es un ambiente para análisis de datos avanzados que toma como insumo el
contenido del almacén de datos y proporciona soporte para la toma de decisiones.
La configuración de un OLAP generalmente es cliente-servidor. En la parte cliente
se ejecuta en la Interfaz Gráfica de Usuario (GUI33) de OLAP, que puede ser un
programa personalizado o un módulo de conexión integrada a una hoja de cálculo
o una herramienta externa de análisis y consulta de datos. En el servidor se
ejecuta la analítica de procesamiento y la lógica de OLAP para el procesamiento
de datos. En la mayoría de las implementaciones el almacén de datos y el sistema
OLAP son ambientes complementarios.

33
Del inglés Graphic

126 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

6.6. Minería de datos

Se ha mencionado antes a la minería de datos como uno de los métodos para


explorar los datos con el objetivo de descubrir patrones no evidentes.

En su texto básico revise el apartado “Minería de datos” que


explica lo que es la minería de datos, su diferencia con el
aprendizaje automático, y sus aplicaciones.

Así como la minería tradicional es la acción de excavar en la tierra para


encontrar y extraer minerales, la minería de datos lo que hace es excavar en los
datos buscando información o conocimiento oculto que le pueda servir a una
organización para orientar mejor sus decisiones y sus acciones. La idea es que,
aplicando diferentes tipos de algoritmos sobre un conjunto de datos, se puedan
descubrir estructuras o patrones útiles. Por ejemplo, es común escuchar que
detrás de las operaciones financieras de ciertas personas u organizaciones,
podrían ocultarse delitos financieros como el lavado de dinero, en este caso
la minería de datos puede ayudar en mucho a encontrar y contrastar patrones
que alerten sobre estos hechos. Si una persona que normalmente se maneja
en un cierto rango de actividad financiera, y de pronto esa actividad aumenta
considerablemente (tanto en montos como en frecuencia), podría significar una
alerta que se requiere investigar.

El poder predecir un hecho antes de que ocurra, es información de alto valor


estratégico para cualquier organización. Por ejemplo, para una empresa comercial
el poder predecir el volumen de ventas en función de distintas estrategias
publicitarias, sería información invaluable. Y a lograr obtener ese tipo de
conocimiento es donde punta la minería de datos.

Revise ahora los diferentes tipos de aplicación de la minería de datos.

Ahora, es importante que revise el Anexo 3 “Técnicas de Minería


de Datos” que presenta un resumen sobre “Clasificación”,
“Predicción”, “Reglas de asociación” y “Agrupamiento” que son

127 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

las técnicas que se aplican para las diferentes aplicaciones de


minería de datos. Céntrese en comprender el alcance y beneficio
de cada tipo de aplicación.

Complementariamente, revise la Tabla 4 donde se resumen las técnicas para la


aplicación de minería de datos.

Tabla 4. Técnicas para la aplicación de minería de datos

Tipos de Técnicas Descripción Ejemplos

Clasificación Examinar las características de Clasificar los estudiantes en


un nuevo objeto y asignarle una categorías según su rendimiento:
clase o categoría de acuerdo bajo, medio y alto.
a un conjunto de tales objetos
previamente clasificados. Detectar los estados
operacionales de un sistema con
falla, seguro, inactivo.

Pronóstico Predecir un valor futuro con Predecir cuanto efectivo


base a valores pasados. requerirá un cajero automático
(Predicción) en un fin de semana.

Asociación Determinar cosas u objetos que Determinar que productos se


van juntos. adquieren conjuntamente en un
(reglas) supermercado.
Es el descubrimiento
de relaciones entre las
características (atributos) que
conforman la base de datos.

128 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Tipos de Técnicas Descripción Ejemplos

Agrupación o Dividir una población en Dividir la base de clientes de


segmentación un número de grupos más acuerdo con los hábitos de
homogéneos. consumo.
(Clustering)
Establecer los grupos de
estudiante según sus estilos de
aprendizaje.
Fuente: Aguilar, s.f
Elaborado: Encalada, E.

La minería de datos en sí es un campo de estudio muy amplio que está en pleno


desarrollo, y que actualmente se basa en el uso de técnicas estadísticas y de

inteligencia artificial.

1. Investigue casos de éxito acerca de la aplicación de minería de


datos para generar conocimiento en las organizaciones. Busque
en internet ejemplos de conocimiento que se puede llegar a
descubrir aplicando esta técnica. Elabore un resumen y organice
los casos encontrados en función de impacto y utilidad.
2. Consulte las principales técnicas de inteligencia artificial aplicadas
a la minería de datos.
3. Consulte herramientas para minería de datos disponibles
actualmente en el mercado, y elabore un cuadro comparativo,
donde contraste costo, tipo de licencia, plataforma, características
funcionales y otros aspectos convenientes.

129 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Autoevaluación 6

Es momento de validar la asimilación de los contenidos de la unidad, desarrolle la


autoevaluación propuesta a continuación. Aunque el desarrollo de estas preguntas
es opcional, se le recomienda resolverlas. Si tiene alguna duda consulte con su
profesor tutor.

Seleccione la opción correcta

1. En un almacén de datos la extracción de los datos desde las fuentes origen,


su transformación y limpieza, están a cargo del:

a. gestor de carga
b. gestor de almacenamiento
c. gestor de consulta

2. Los sistemas a través de los cuales se registran las operaciones diarias de


una organización se denominan:

a. Sistemas transaccionales
b. Sistemas de soporte a las decisiones
c. Sistemas de información ejecutiva

3. La exploración de los datos históricos en búsqueda de patrones ocultos se


logra mediante:

a. Consultas SQL
b. Operaciones OLAP
c. Minería de datos

130 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

4. Al tipo de aplicación de la minería de datos en el cuál se exploran los


datos buscando identificar entidades vinculadas entre sí con base en el
descubrimiento de relaciones entre sus atributos, se denomina:

a. Asociación
b. Predicción
c. Clasificación

5. OLTP se refiere a los tipos de sistemas en los cuales la operación principal


es la:

a. consulta de datos
b. actualización de datos
c. replicación de datos

6. En un modelo multidimensional tipo estrella a las perspectivas desde las


cuales se pueden analizar ciertos indicadores, se las denomina:

a. Hechos
b. Medidas
c. Parámetros
d. Dimensiones

7. Al diseñar un Data Warehouse bajo un esquema estrella (cubo) el tipo de


relación existente entre una tabla de dimensión y la tabla de hechos es:

a. 1:1
b. 1:N
c. N:M

131 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

8. En materia de diseño de bases de datos se habla de modelo


multidimensional y modelo entidad-relación, estos dos modelos se utilizan:

a. El modelo multidimensional para bases de datos transaccionales y el


modelo entidad-relación para almacenes de datos.
b. El modelo multidimensional para almacenes de datos y el modelo
entidad-relación para bases de datos transaccionales.
c. Se pueden utilizar indistintamente en bases de datos transaccionales y
almacenes de datos.
d. No existe un modelo multidimensional, para cualquier diseño de base
de datos se parte de un modelo entidad-relación.

9. Un Data Warehouse puede permitir integrar datos provenientes de:

a. una única fuente de datos


b. múltiples fuentes de datos homogéneas
c. múltiples fuentes de datos heterogéneas

10. Al conjunto de estrategias y herramientas enfocadas a la administración y


creación de conocimiento mediante el análisis de datos en una organización
o empresa se denomina:

a. Inteligencia de negocios
b. Inteligencia artificial
c. Minería de datos
d. Inteligencia colectiva

¿Cómo le fue en su autoevaluación? ¡Seguro le fue muy bien! y si no es así revise


los apartados correspondientes y su guía didáctica a fin de aclarar las dudas que
tenga. Recuerde que cuenta con el apoyo de su tutor.

132 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

UNIDAD 7. GESTIÓN DEL CONOCIMIENTO

Esta unidad está basada en documentos, referencias de internet


y el texto, por esta razón para completar satisfactoriamente se
requiere que utilice sólo la guía didáctica.

7.1. Introducción

Primero que nada hay que aclarar que, conocimiento no debe ser confundido
con datos o información, sino que el conocimiento incluye y requiere el uso de
datos e información (Torres-Soler, n/d). Posee ciertas propiedades: voluminoso,
difícil de caracterizarlo, dinámico, con incertidumbres y debe estructurarse de la
manera como se va a utilizar.

Para representar “algo” del mundo real, se necesitan ciertos datos como: conocer
su forma o estructura, qué uso se le da en el entorno, cómo se adquiere el
conocimiento acerca de ese algo y cómo almacenar y manipular esos datos
recolectados. Para esta última actividad que involucra los datos, se puede utilizar
un esquema de representación que es un instrumento para codificar la realidad
en un computador. Es importante distinguir entre el mundo real considerado el
dominio (lo que se quiere representar) y su representación, utilizando para ello
uno o más esquemas de representación.

Desde un punto de vista informático un esquema de representación puede ser


descrito como una combinación de estructuras de datos que codifican el problema
que se desea representar (Torres-Soler, n.d.) y vendría a ser la parte estática,
si se hace una analogía sería como el modelo de tablas de una base de datos
relacional, que se considera la parte estática, pues la estructura de tablas rara vez
cambia.

Por otro lado, los procedimientos que manipulan las estructuras de datos que
almacenan el conocimiento referente al entorno en el que se desarrolla el
problema se considera la parte dinámica, si se hace nuevamente una analogía

133 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

con las bases de datos relacionales, se puede decir que es el lenguaje de


manipulación de datos de SQL, pues mediante estas instrucciones se puede
manipular el contenido de la base de datos que está en constante cambio.

El conocimiento puede ser de tipo procedimental, declarativo o heurístico. La


Figura 38 detalla esta clasificación.

Figura 38. Tipos de conocimiento

A continuación, revise algunas formas de representar el conocimiento y que


pueden resultar útiles en determinadas circunstancias.

7.2. Representación del conocimiento

Se explica brevemente algunas formas de representación del conocimiento que


se acostumbran utilizar en determinadas circunstancias.

7.2.1. Tripleta Objeto-Atributo-Valor

Es una forma común de representación y se puede representar objetos físicos o


conceptuales. Gráficamente se suele representar como un grafo, compuesto por
nodos (objetos y valores) y arcos (atributos) entre los nodos. Sus componentes
son:

• Objeto puede tener varios atributos.


• Atributos son características que definen el objeto.
• Valores son la medida de los atributos en un instante determinado.

134 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Dentro de este modelo de representación se encuentra el Marco de Descripción


de Recursos (RDF34). Es un modelo estándar para el intercambio de datos en la
Web que se emplea para describir recursos. Su estructura se basa en tripletas,
cuyos componentes se denominan Sujeto-Predicado-Objeto, esta forma de
representación puede ser leída por máquinas y por personas. La Figura 39
muestra gráficamente una tripleta.

Figura 39. Tripleta RDF con dos nodos (Sujeto y Objeto) conectados por un arco
(Predicado)

RDF ha sido creado para situaciones en las que la información no solamente tiene
que ser presentada a personas sino que necesita ser procesada por aplicaciones
informáticas, este formato común permite a su vez que la información se pueda
intercambiar entre aplicaciones sin perder su semántica. La idea de RDF es
identificar cosas usando identificadores Web, mediante Identificador Uniforme
de Recursos (URI35), estos permiten describir recursos en términos de simples
propiedades y sus valores.

A continuación, tiene un ejemplo de esta representación mediante RDF para


entender mejor lo que ha aprendido hasta ahora. La Figura 40 muestra mediante
un grafo RDF la descripción de una persona que se identifica por su http:// www.
w3.org/People/EM/contact#me, URI cuyo nombre es Eric Miller, su dirección de
correo electrónico es em@w3.org y su título es Dr.

En la Figura 40 se identifica el uso de URIs en los siguientes elementos:

• Para identificar individuos: Eric Miller, identificado por http://www.


w3.org/People/EM/contact#me

34
del inglés Resource Description Framework
35
del inglés Uniform Resource Identifier

135 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

• Para identificar tipos de cosas o recursos: Person, identificada por


http://www.w3.org/2000/10/swap/pim/contact#Person
• Para identificar propiedades de las cosas o recursos: mailbox
identificado por http://www.w3.org/2000/10/swap/pim/contact#mailbox
• Para representar valores de las propiedades: mailto:em@w3.org es
el valor de la propiedad mailbox. Es importante mencionar que RDF
también utiliza cadenas de caracteres como “Eric Miller” y valores
de otros tipos de datos como enteros y fechas para los valores de las
propiedades.

Figura 40. Grafo RDF describiendo a Eric Miller


Fuente: (Manola, 2004)

RDF también provee una sintaxis basada en XML llamada RDF/XML para
almacenar e intercambiar los grafos. A continuación, se muestra una pequeño
fragmento de RDF/XML que corresponde al grafo de la Figura 40.

136 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

<?xml version="1.0"?>
<rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#">
<contact:Person rdf:about="http://www.w3.org/Peoplwe/EM/contact#me">
<contact:fullName>Eric Miller</contact:fullName>4
<contact:mailbox rdf:resource="mailto:em@w3.org"/>
<contact:personalTitle>Dr.</contact:personalTitle>
</contact:Person>
</rdf:RDF>
Como sucede con HTML, RDF/XML es procesable por máquinas, utilizando URIs
puede relacionar piezas de información en la Web. Sin embargo, a diferencia
del hipertexto convencional, los URI de RDF pueden referirse a cualquier cosa
identificable, incluso cosas que pueden no ser recuperables directamente en la
Web (como la persona Eric Miller). El resultado es que, además de describir
cosas como páginas web, RDF también puede describir automóviles, negocios,
personas, eventos de noticias, etc. Además, las propiedades RDF tienen URI,
para identificar con precisión las relaciones que existen entre los elementos
vinculados (Manola, Miller, & McBride, 2004).

Consulte en internet u otro recurso de consulta, ejemplos acerca


de ontologías en cualquier dominio.

7.2.2. Redes Semánticas

El concepto de red semántica fue introducido en 1968 por Ross Quilliam. Fue
diseñada como un modelo psicológico de la memoria humana asociativa. Las
redes semánticas fueron desarrollándose por quienes trabajaban en el área
de inteligencia artificial (IA). El objetivo de estas redes es la organización y
representación del conocimiento general acerca del mundo. El objetivo inicial
para el desarrollo de las redes semánticas fue entender el lenguaje natural, más
que la clasificación de los datos (Torres-Soler, n/d).

También conocidas como Semantic Networks se componen de nodos y


enlaces que muestran relaciones entre objetos para representar conocimiento.

137 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Consideradas como un conjunto de Objeto-Atributo-Valor, donde los objetos


pueden ser físicos o abstractos y los atributos son características como tamaño,
color, clase, entre otras.

Un aspecto importante es que las redes semánticas ayudan a ver las


características que algunos nodos heredan de otros.

Características

a. Diferencian entre tipos de objetos de los objetos. Por tanto, al proceso


de ir desde ejemplos de objetos a tipos de objetos se denomina
clasificación.
b. Se introduce el concepto de distancia semántica, que se define como
la cantidad de enlaces que separan un nodo de otro. El concepto de
distancia toma importancia en las redes semánticas, ya que mediante
esta propiedad se puede determinar la localización de objetos poco o
muy relacionados y por lo tanto en algunos casos se puede disminuir la
distancia eliminando enlaces.
c. También se tiene el concepto de partición, que se define como una
subred dentro de la red semántica.
d. Se identifican además jerarquías en las redes semánticas, las
principales son parte_de y es_un, estas facilitan la herencia
permitiendo que un objeto que pertenece a una clase herede todas las
propiedades de otra clase.

Para comprender mejor lo explicado hasta aquí sobre las redes semánticas
a continuación la Figura 41 muestra un ejemplo de una red semántica con
diferentes relaciones.

138 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Figura 41. Red semántica con diferentes relaciones


Fuente: (Torres-Soler, n/d).

7.2.3. Tablas de decisión

Este método organiza el conocimiento en un formato que utiliza filas y columnas.


La Figura 42 muestra un ejemplo de este esquema.

Figura 42. Tabla de metas contra problemas


Fuente: (Torres-Soler, n/d).

139 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

La tabla contiene tres elementos:

1. Atributos
2. Valores o elementos
3. Lista de conclusiones

Una vez esté construida la tabla, el conocimiento en ella puede utilizarse como
entrada a otras representaciones de conocimiento.

7.2.4. Árboles de decisión

Los árboles de decisión tienen una relación muy estrecha con las tablas de
decisión y se usan frecuentemente para análisis de sistemas. Un árbol de decisión
puede verse como una red semántica jerárquica limitada por una serie de reglas,
que se acoplan para la búsqueda estratégica con las relaciones de conocimiento.

Los árboles están compuestos de nodos que son metas y tienen la forma de
un árbol invertido donde la raíz es el primer elemento en la parte superior y los
demás niveles están hacia abajo. Todos los nodos terminales, excepto el nodo
raíz, son ejemplos de posibles metas.

La Figura 43 muestra un ejemplo de un árbol de decisión.

Figura 43. Red semántica con diferentes relaciones


Fuente: (Torres-Soler, n/d).

140 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

7.2.5. Vocabularios controlados y clasificaciones

En el siglo XIX la sistematización del conocimiento asume nuevos retos, como la


organización de un amplio conjunto de entidades con miras a una recuperación
precisa, cambios que se producen por la introducción de la Web y la avalancha de
información en volumen, variedad, formato, naturaleza y complejidad de recursos
de información electrónicos.

Debido a la rápida evolución en la organización de la información especialmente


por la introducción de tecnologías, los recursos digitales, el internet y la búsqueda
en línea, es que aparecen nuevas herramientas como las folksonomías, las
taxonomías digitales y las ontologías.

Debido a la introducción de tecnologías, los recursos digitales, el internet


y la búsqueda en línea, se requiere una evolución en la representación del
conocimiento (KR36), término que a más de encontrarlo en el modelado de datos
conceptual se halla en la literatura de la inteligencia artificial.

El objetivo de las técnicas de KR es desarrollar conceptos para modelar


con precisión algún dominio de conocimiento mediante la creación de una
ontología que describa los conceptos del dominio y cómo estos conceptos están
interrelacionados (Elmasri, 2016).

La ontología se usa para almacenar y manipular el conocimiento para diseñar


inferencias, tomar decisiones o responder preguntas. Los objetivos de KR y de
los modelos de datos semánticos son similares, pero hay algunas similitudes y
diferencias importantes entre las dos disciplinas:

▪ Ambas disciplinas emplean un proceso de abstracción para identificar


características comunes y aspectos importantes del dominio del discurso,
dejando de lado diferencias que no son significativas y detalles sin
importancia.

36
del inglés Knowledge Representation

141 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

▪ Proveen conceptos, relaciones, restricciones, operaciones y lenguajes para


definir datos y representar el conocimiento.
▪ KR generalmente es más amplio en alcance que los modelos de datos
semánticos. Diferentes formas de conocimiento como reglas (usadas en
inferencia, deducción y búsqueda), conocimiento incompleto y por defecto y
conocimiento temporal y espacial son representados en esquemas KR. Los
modelos de base de datos se han ampliado para incluir algunos de estos
conceptos.
▪ Los esquemas de KR incluyen mecanismos de razonamiento que deducen
hechos adicionales de los hechos almacenados en una base de datos. Por
lo tanto, mientras la mayoría de los sistemas de base de datos actuales
se limitan a responder consultas directas, los sistemas basados en el
conocimiento que usan esquemas KR pueden responder consultas que
implican inferencias sobre los datos almacenados. La tecnología de bases
de datos se está extendiendo con mecanismos de inferencia.
▪ Mientras que la mayoría de los modelos de datos se concentran en la
representación de esquemas de base de datos o meta-conocimiento,
los esquemas KR a menudo combinan esquemas con instancias en sí
mismo para proveer flexibilidad en la representación de excepciones.
Esto a menudo resulta en ineficiencias cuando estos esquemas KR se
implementan, especialmente cuando se comparan con bases de datos y
cuando se requiere almacenar una gran cantidad de datos estructurados
(hechos).

Debido a que tanto en los esquemas de bases de datos como en los esquemas
KR se aplican conceptos de abstracción, resulta conveniente hacer una
comparativa para analizar cómo se aplican dentro de estos enfoques.

Los conceptos de abstracción que se revisarán son:

7.2.6. Clasificación e instanciación

El proceso de clasificación implica la asignación sistemática de objetos/entidades


similares a tipos de objetos clases/entidad.

142 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Ahora se puede describir (en base de datos), o razonar (mediante


representación del conocimiento) sobre las clases en lugar de los objetos
individuales. Las colecciones de objetos que comparten los mismos tipos de
atributos, relaciones y restricciones se clasifican en clases para simplificar el
proceso de descubrimiento de sus propiedades. La instanciación es la inversa
de la clasificación y se refiere a la generación y el análisis específico de distintos
objetos de una clase. Aunque los diagramas entidad-relación (ER) no muestran
instancias, los diagramas UML permiten una forma de creación de instancias al
permitir la visualización de objetos individuales.

En un modelo ER, las entidades se clasifican en tipos de entidad de acuerdo


a sus atributos y relaciones. Las instancias de relación se clasifican en tipos
de relación. Por lo tanto, los tipos de entidad, subclases, categorías y tipos de
relación son conceptos diferentes que se usan para clasificación en el modelo
ER. El modelo ER no provee explícitamente propiedades de clase, pero puede
extenderse para hacerlo. En UML, los objetos se clasifican en clases y es posible
mostrar tanto propiedades de clase como objetos individuales.

Los modelos de representación del conocimiento permiten múltiples esquemas de


clasificación donde una clase es una instancia de otra clase (llamada meta-clase).
Esto no puede representarse directamente en el modelo ER debido a que se
tienen sólo dos niveles: clases e instancias. La única relación a través de clases
en el modelo ER es la relación superclase/subclase, mientras que en algunos
esquemas KR una relación clase/instancia puede ser representada directamente
en una jerarquía de clases. Una instancia puede ser en sí misma otra clase,
permitiendo esquemas de clasificación de múltiples niveles.

7.2.7. Identificación

Es el proceso de abstracción mediante el cual se identifican clases y objetos


de forma única mediante algún identificador. Por ejemplo, un nombre de clase
identifica de forma única una clase completa dentro de un esquema. Se requiere
un mecanismo adicional para distinguir las distintas instancias de objetos por
medio de identificadores de objetos.

143 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Además, se identifican detalles en la base de datos del mismo objeto del mundo
real. Por ejemplo se puede tener una tupla <’Mario Cañar’ ,’603917’, ’584627’>
en una relación PERSONA y otra tupla <’301-54-0836’, ’CS’, 3.8> en una
relación ESTUDIANTE que representan la misma entidad del mundo real. No
hay forma de identificar el hecho de que estos dos objetos de base de datos
(tuplas) representan la misma entidad del mundo real a menos que se haga una
provisión en el momento del diseño para que las referencias cruzadas apropiadas
proporcionen esta identificación.

Por lo tanto, la identificación es necesaria en dos niveles para:

▪ Distinguir entre clases y objetos de base de datos.


▪ Identificar objetos de base de datos y relacionarlos con su contraparte del
mundo real.

En un esquema ER cada componente, sea del tipo que sea, se identifica por un
nombre único. De la misma forma los atributos de una clase particular deben tener
nombres únicos. También se requiere reglas para identificar inequívocamente
referencias a nombres de atributos cuando se presentan escenarios de
especialización o generalización.

7.2.8. Especialización y generalización.

▪ Especialización es el proceso de clasificar una clase de objetos en


subclases más especializadas.
▪ Generalización es el proceso inverso, es decir generalizar varias clases en
una clase abstracta de nivel superior.

Las subclases son utilizadas en el modelo ER para representar especialización y


generalización. La relación entre una subclase y su superclase es una relación IS-
A-SUBCLASS-OF o simplemente una relación IS-A.

144 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Figura 44. Ejemplo de especialización/generalización


Fuente: (Torres-Soler, n/d).

La Figura 44 muestra un ejemplo de una parte de un modelo ER que representa


una especialización desde PERSONA hacia las subclases PILOTO y EMPLEADO.
Y al contrario se representa una generalización desde PILOTO y EMPLEADO
hacia PERSONA.

7.2.9. Agregación y asociación

▪ La agregación es un concepto de abstracción para construir objetos


compuestos a partir de componentes. Existen tres casos en donde este
concepto puede relacionarse al modelo ER.
▪ El primer caso es la situación en la que se agrega valores de atributo de un
objeto para formar el objeto completo.
▪ El segundo caso es cuando se representa una relación de agregación como
una relación ordinaria.

El tercer caso, que el modelo ER no proporciona explícitamente, implica la


posibilidad de combinar objetos que están relacionados por una instancia de
relación particular en un objeto agregado de nivel superior. Esto a veces es útil
cuando el objeto agregado de nivel superior se debe relacionar con otro objeto. Se

145 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

llama a la relación entre los objetos primitivos y su objeto agregado IS-A-PART-


OF; el inverso se llama IS-A-COMPONENT-OF.

La abstracción de asociación se usa para asociar objetos de varias clases


independientes. Por lo tanto, es algo similar al segundo uso de agregación. Se
representa en el modelo ER por tipos de relación. Esta relación abstracta se llama
IS-ASSOCIATED-WITH.

Para entender mejor los diferentes usos de agregación, considere el esquema


ER mostrado en la Figura 45(a), que almacena información acerca de entrevistas
para aplicantes a puestos de trabajo para varias empresas.

La clase COMPANY (Compañía) es una agregación de los atributos (objetos


componentes) Cname (nombre de la compañía) y Caddress (dirección de la
compañía), donde JOB_APPLICANT es un agregado de Ssn (número seguridad
social), Name (nombre), Address (dirección) y Phone (teléfono). Los atributos
de relación Contact_name y Contact_phone representan el nombre y número de
teléfono de la persona en la compañía responsable de la entrevista. Suponga
que algunas entrevistas resultan en entrevistas de trabajo y otras no, tratar a
INTERVIEW como una clase para asociarlo con JOB_OFFER.

El esquema mostrado en la Figura 45(b) es incorrecto debido a que requiere que


cada instancia de relación INTERVIEW (entrevista) tenga una oferta de trabajo.

El esquema mostrado en la Figura 45(c) no es permitido debido a que el modelo


ER no permite relaciones entre relaciones.

Una manera para representar esta situación es crear una clase agregada de alto
nivel compuesta de COMPANY, JOB_APPLICANT e INTERVIEW y relacionar esta
clase a JOB_OFFER como se muestra en la Figura 45(d).

Aunque el modelo ER tal como se describe no tiene esta facilidad, algunos


modelos de datos semánticos lo permiten y llaman al objeto resultante un objeto
compuesto o molecular. Otros modelos tratan los tipos de entidades y tipos de

146 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

relaciones de manera uniforme y, por lo tanto, permiten las relaciones entre las
relaciones, como se ilustra en la Figura 45(c).

Figura 45. Ejemplo de agregación.


Fuente: Elmasri, 2016

Para representar esta situación correctamente en el modelo ER como se describe


aquí, necesita crear un nuevo tipo de entidad débil INTERVIEW (entrevista),

147 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

como se muestra en la Figura 45(e), y relacionarlo con JOB_OFFER. Por lo tanto,


siempre se puede representar estas situaciones correctamente en el modelo ER
creando tipos de entidad adicionales, aunque puede ser conceptualmente más
deseable permitir la representación directa de la agregación, como en la Figura
45(d), o permitir relaciones entre relaciones, como en Figura 45(c).

La principal distinción estructural entre agregación y asociación es que cuando se


elimina una instancia de asociación, los objetos participantes pueden continuar
existiendo. Sin embargo, si apoya la noción de un objeto agregado, por ejemplo,
un CAR (auto) compuesto de objetos ENGINE (motor), CHASSIS (chasis) y
TIRES (neumáticos), entonces eliminar el objeto CAR agregado equivale a
eliminar todos sus objetos componentes.

a. El tipo de relación INTERVIEW


b. Se incluye JOB_OFFER en tipo de relación ternaria
c. Se incluye el tipo relación RESULTS_IN pero en ER no se permite a un
tipo de entidad participar en otras relaciones.
d. Uso de agregación y un objeto compuesto (molecular) (generalmente
no permitido en ER pero permitido por algunas herramientas de
modelado).
e. Representación correcta en ER.

7.2.10. Ontologías y Web Semántica

En los últimos años, la cantidad de datos computarizados e información disponible


en la Web ha tenido un crecimiento vertiginoso. Esta información generalmente se
almacena en forma de documentos, que son menos estructurados que una base
de datos.

El propósito de la Web Semántica es facilitar el intercambio y búsqueda de


información en la Web, con este fin utiliza modelos de representación de
conocimiento generales y consensuados por una comunidad de expertos. Estos
modelos de KR se denominan Ontologías.

148 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Las ontologías intentan describir los conceptos y las relaciones entre estos
conceptos que son posibles en la realidad a través de un vocabulario común; por
lo tanto, se puede considerar como una forma de describir el conocimiento de una
cierta comunidad sobre la realidad de un área de conocimiento específica.

Por lo general, los conceptos utilizados para describir ontologías son similares
a los conceptos que se manejan en el modelado conceptual, como entidades,
atributos, relaciones, especializaciones, etc. La principal diferencia entre una
ontología y, por ejemplo, un esquema de base de datos, es que el esquema
generalmente se limita a describir un pequeño subconjunto de la realidad para
almacenar y administrar datos. Una ontología generalmente se considera más
general ya que intenta describir una parte de la realidad o un dominio de interés
(por ejemplo, bibliotecas, familias de plantas, deportes, etc.) de la manera más
completa posible.

La Figura 46 muestra, a manera de ejemplo, en la parte izquierda una


representación de la Web actual que se basa en enlaces HTML y a la derecha
una representación semántica basada en ontologías.

Figura 46. Ejemplo de ontología


Fuente: infotecarios.com

149 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

7.3. Recuperación de información

En este apartado se realiza una breve introducción a la recuperación de


información para luego explicar la temática y las actividades que involucra.

El concepto de recuperación de información (IR37) fue introducido por primera vez


por Mooers en 1950. Aunque fue solo en la década de 1970 cuando el análisis
de texto completo y la indexación de documentos se hizo común. Antes de eso,
la mayoría de las búsquedas se podían considerar búsquedas de metadatos,
preguntando por campos bien definidos como título, autores o palabras clave. El
objetivo final de un usuario de un sistema IR es acceder contenido, que puede
estar en la forma de una biblioteca digital. Para que ese contenido pueda ser
accesible, debe describirse con metadatos.

La investigación relacionada con los sistemas IR tuvo un evento inicial importante


en 1951, cuando IBM hizo una primera presentación en una máquina de
búsqueda de información electrónica basada en un equipo de tarjeta perforada
para codificar y clasificar tarjetas que permitía una tasa de búsqueda de 1000
tarjetas por minuto. Este sistema se presentó entonces al Comité de la Sociedad
Química Estadounidense sobre Ayudas Científicas a la Literatura. Sanderson
y Croft proporcionaron una breve descripción histórica de los sistemas de IR,
y también introdujeron dispositivos mecánicos y electromecánicos para buscar
entradas en catálogos y sistemas de recuperación basados en computadoras.

El significado del término recuperación de información puede ser muy amplio.


Sólo obtener una tarjeta de crédito de su billetera para que pueda ingresar el
número de tarjeta es una forma de recuperar información, pero también los
algoritmos de recuperación de información se ejecutan a gran escala en servicios
basados en la nube y en sitios de redes sociales como Facebook y Twitter.

La recuperación de información podría definirse como:

37
Information Retrieval por sus siglas en inglés

150 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

• La búsqueda de material que satisface una demanda específica,


conocida también como necesidad de información del usuario, que
se encuentra generalmente en grandes colecciones de documentos
(Krallinger, Rabal, Lourenco, Oyarzabal, & Valencia, 2017).
• Recuperación de información es el proceso de recuperar documentos
desde una colección en respuesta a una consulta (o una solicitud de
búsqueda) hecha por un usuario (Elmasri, 2016).

Efectúe una búsqueda en internet y recopile más conceptos


acerca de Recuperación de Información. Luego trate de hacer un
solo concepto con todo lo recopilado.

Tal como se define de esta manera la recuperación de información solía ser una
actividad en la que participaban pocas personas. Ahora el mundo ha cambiado,
y cientos de millones de personas se dedican a la recuperación de información
todos los días cuando usan un buscador web o buscan leer su correo electrónico.
Recuperación de la información se está convirtiendo en la forma dominante de
acceso a la información, superando la tradicional búsqueda de estilo base de
datos.

El campo de recuperación de información también cubre el apoyo a los usuarios


en la exploración o filtrado de colecciones de documentos o en el procesamiento
posterior de una serie de documentos recuperados.

Los sistemas IR van más allá de los sistemas de bases de datos ya que no limitan
al usuario a un lenguaje de consulta específico, ni esperan que el usuario conozca
la estructura (esquema) o el contenido de una base de datos en particular. Los
sistemas de IR utilizan la necesidad de información de un usuario expresada
como una solicitud de búsqueda de forma libre (a veces llamada consulta de
búsqueda por palabra clave, o simplemente consulta) para su interpretación por
parte del sistema. Mientras que el campo de IR históricamente se ocupó de la
catalogación, el procesamiento y el acceso al texto en forma de documentos
durante décadas, en el mundo de hoy el uso de los motores de búsqueda en
Internet se está convirtiendo en la forma dominante de encontrar información. Los

151 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

problemas tradicionales de la indexación de textos y la creación de colecciones


de documentos con capacidad de búsqueda se han transformado convirtiendo a
la Web en un repositorio de conocimiento humano rápidamente accesible como si
fuese una biblioteca digital virtual (Elmasri, 2016).

Los sistemas IR están diseñados para abordar problemas específicos que


requieren una combinación de diferentes características. Estas características se
pueden describir brevemente de la siguiente manera:

▪ Tipos de usuarios, debido a la variedad de usuarios que van desde los más
expertos con una formación tecnológica hasta usuarios que simplemente
hacen una consulta en busca de alguna información para una tarea
escolar por ejemplo, esas diferencias en habilidades hace que también sus
necesidades de recuperar información sean distintas por lo que los sistemas
de IR deben ser diseñados adecuadamente.
▪ Tipos de datos, los sistemas de búsqueda se pueden adaptar a tipos
específicos de datos haciendo más eficiente la recopilación y recuperación
de dicha información. Eso difiere si por ejemplo se quiere consultar en la
WWW en donde se encuentra cualquier tipo de información.
▪ Tipos de necesidades de información, en el contexto de la búsqueda
web, las necesidades de información de los usuarios pueden definirse como
de navegación cuando necesita encontrar algo rápidamente, informativas
cuando el usuario requiere información actual sobre algún tema y
transaccionales cuando busca sitios en donde pueda interactuar y además
dé lugar a algún evento transaccional como unirse a un red social, comprar
productos, realizar una reserva de aerolínea, entre otras.

Esta sobreabundancia de fuentes de información provoca que las interfaces IR


se construyan con algoritmos escalables eficientes para búsqueda distribuida,
indexación, almacenamiento en caché, fusión y tolerancia a fallas. Los motores
de búsqueda IR pueden limitarse en nivel a colecciones más específicas de
documentos. Los sistemas de búsqueda empresarial ofrecen soluciones de IR
para buscar diferentes entidades en la intranet de una empresa, que consiste
en la red de computadoras dentro de esa empresa. Las entidades de búsqueda

152 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

incluyen correos electrónicos, documentos corporativos, manuales, gráficos y


presentaciones, así como también informes relacionados con personas, reuniones
y proyectos.

Los sistemas de búsqueda empresarial todavía suelen tratar con cientos de


millones de entidades en grandes empresas globales. En una escala más
pequeña, existen sistemas de información personal, como computadoras de
escritorio y portátiles, llamados motores de búsqueda de escritorio (e.g. Google
Desktop, OS X Spotlight), para recuperar archivos, carpetas y diferentes tipos
de entidades almacenadas en la computadora. Existen otros sistemas que
utilizan tecnología peer-to-peer, como el protocolo BitTorrent, que permite
compartir música en forma de archivos de audio, así como motores de búsqueda
especializados para audio, como Lycos y Yahoo!.

El apartado 7.3 está basada principalmente en el libro


Fundamentals of Database Systems, edición 2016, ISBN 978-0-
13-397077-7.

7.4. Librerías digitales

Revise lo concerniente a las librerías digitales que también suelen denominarse


bibliotecas digitales. Encontrará una relación con las bases de datos ya que
ambos conceptos se refieren al manejo de información.

Las bibliotecas digitales38 se definen como colecciones de información electrónica,


que contienen repositorios grandes y diversos de objetos digitales, a los que
puede acceder un gran número de usuarios distribuidos geográficamente.
Dichos repositorios se encuentran en ubicaciones físicamente cercanas o
remotas a los usuarios. Entre los objetos digitales se pueden mencionar: texto,
imágenes, mapas, sonido, videos, catálogos, conjuntos de datos científicos y
gubernamentales, entre otros.

38
Del inglés Digital Libraries

153 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Las bibliotecas digitales requieren bibliotecarios digitales, ya que están obligados


a seleccionar, adquirir, organizar, hacer accesibles y conservar colecciones
digitales, así como a planificar, implementar y dar soporte a servicios digitales. La
misión de la biblioteca digital es proporcionar a los usuarios una gran cantidad de
recursos informativos y un acceso eficiente a ellos.

La discusión de los sistemas de IR hasta ahora se ha centrado en la provisión


de mecanismos de recuperación para acceder al contenido en línea. Incluso
con la amplia cobertura de algunos sistemas IR, como los motores de búsqueda
web, a menudo forman parte de una gran colección de servicios o actividades.
Una perspectiva alternativa, especialmente cuando se trata de comunidades y/o
colecciones propietarias, es la biblioteca digital.

Es de conocimiento común que la biblioteca tradicional se define como:

• Una colección de libros, publicaciones periódicas, estándares,


patentes, etc.
• Una institución que recolecta libros, publicaciones periódicas, etc. y los
pone a disposición de los lectores de forma organizada;
• Una colección de documentos guardados para referencias o
préstamos;
• Un repositorio de documentos para leer o estudiar;
• Un edificio, que alberga una colección de documentos.

La biblioteca digital se puede comparar a una colección de recursos digitales


donde el procesamiento de recursos digitales es similar al de una biblioteca
tradicional, es decir, adquisición, catalogación, indexación, almacenamiento y
recuperación, con el objetivo de facilitar a los usuarios el acceso a la recolección
de recursos. La Tabla 5 presenta una comparación entre las características de las
bibliotecas tradicionales y digitales.

Tabla 5. Comparación entre bibliotecas tradicionales y digitales (Lovasz, Lovasz,


& Gruescu, 2014)

154 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Tipo de biblioteca Biblioteca Tradicional Biblioteca digital


Recursos de información físico virtual
Tipo de almacenamiento impreso electrónico
Adquisición tradicional on-line
Catalogación tradicional no disponible
Indexación tradicional automatizada
Almacenamiento repositorios tradicionales repositorios digitales
Acceso ísico/automatizado on-line
Preservación tradicional electrónico

Es momento de hacer un alto en la revisión de contenidos en la guía didáctica y el


texto básico. Realice la siguiente actividad:

Consulte en internet u otro recurso de consulta, bibliotecas


digitales de relevancia mundial, como PubMed, y realice una
comparación entre las facilidades que brindan para los usuarios.

Ahora que ha explorado algunas bibliotecas digitales, siga descubriendo otras de


sus características.

Según Jones (2007), las bibliotecas digitales deben cumplir con algunos principios
dentro de los cuales se nombran los siguientes:

Acceso. Probablemente, todos los usuarios de la Web estén familiarizados con


hacer clic en un enlace web y recibir el mensaje de error: HTTP 404 - Archivo
no encontrado. Las bibliotecas digitales necesitan mecanismos para garantizar
que los documentos tengan identificadores persistentes de modo que cuando el
documento en sí se mueva físicamente, aún pueda obtenerse.

Interoperabilidad. Como se señaló en el apartado 7.3, los metadatos son un


componente clave para acceder al contenido en los sistemas IR. Adquiere un
valor adicional en la biblioteca digital, donde existe el deseo de permitir el acceso
a recursos diversos pero no necesariamente exhaustivos, esto se conoce como
interoperabilidad.

155 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Preservación. Otra preocupación para las bibliotecas digitales es la preservación


del contenido, especialmente con la tendencia creciente hacia las suscripciones
electrónicas a revistas que producen menos copias físicas (electrónicas o
impresas) que se producen. También preocupa la longevidad de los materiales
digitales (Lesk, 1997). De todos los medios, la longevidad es la menor para los
materiales magnéticos, con la vida útil esperada de la cinta magnética de 5 a 10
años. El almacenamiento óptico tiene una longevidad algo mejor, con una vida
útil esperada de 30 a 100 años, dependiendo del tipo específico. Irónicamente, el
papel tiene una esperanza de vida muy superior a todos estos medios digitales.
Una preocupación creciente es que con el ascendente movimiento hacia la
publicación electrónica, hay menos copias de material de revista producido
utilizando medios que tienen menor longevidad.

Como tal, es imprescindible preservar documentos de muchos tipos, cualquiera


que sea su medio (Tibbo, 2001). Para la sociedad en general, sin duda hay ímpetu
para preservar documentos históricos en forma inalterada. Se han emprendido
una serie de iniciativas para asegurar la preservación de la información digital,
ejemplos de estas iniciativas son: el Programa Nacional de Preservación de
Infraestructura de Información Digital (NDIIPP) de la Biblioteca del Congreso de
EE. UU. y la Coalición de Preservación Digital en el Reino Unido (Beagrie, 2002)”.

Biblioteca digital de mecanismos

La biblioteca digital puede considerarse como un sistema que gestiona una


colección de recursos de información digital. Su objetivo es preservar la
información a largo plazo y ponerla a disposición de los usuarios a través de
mecanismos específicos que faciliten la recuperación, exploración y acceso. El
término biblioteca digital apareció a principios de los 90. Más exactamente, en
1993 el término se registra en el título de un informe para la National Science
Foundation: “Libro fuente sobre bibliotecas digitales”. La biblioteca digital no es
más que una biblioteca tradicional actualizada para adaptarse a la era digital.

Ahora bien, ante la tendencia de las bibliotecas digitales aparece otro concepto, el
repositorio digital institucional que no es más que el resultado de la digitalización

156 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

de documentos tradicionales con el objetivo de conservar y preservar los


documentos. La conversión digital implica el desmantelamiento de documentos
para transformar la información en un repositorio digital por medio de una línea
de digitalización. Las acciones asumidas por la digitalización pueden conducir
a la degradación física de los documentos. Para preservar la integridad de los
documentos, es necesario capturar imágenes del texto y pasar las páginas
una por una, de forma manual o automática. La digitalización es un problema
global que actualmente atrae a más y más investigadores, especialistas en
computadoras, ciencias de la información y comunicación.

Los servicios y beneficios de un repositorio institucional digital son:

▪ Permiso para publicar información científica de los autores.


▪ Acceso rápido a información científica para usuarios.
▪ Promoción de la información científica más reciente.
▪ Visibilidad de la información científica dentro de la comunidad.
▪ Aumento del número de miembros del repositorio digital institucional.
▪ Incremento de la producción científica.
▪ Información científica gratuita dentro de la comunidad académica.

El repositorio digital institucional cumple las siguientes funciones:

▪ Recoge recursos de información.


▪ Obtiene recursos de información.
▪ Apertura de acceso ilimitado a recursos de información.
▪ Visibilidad de los recursos de información.

En conclusión, se puede decir que el repositorio digital institucional es una


biblioteca digital, un producto de información tecnológica, con la función de
gestión y difusión de los materiales digitales creados por sus miembros, lo que da
visibilidad nacional e internacional a la producción científica.

157 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Como se ha venido indicando una biblioteca digital proporciona material digital


y este material primeramente tiene que digitalizarse. Según (Lovasz, Lovasz, &
Gruescu, 2014), el proceso de digitalización implica los siguientes pasos:

▪ Identificación de recursos de información.


▪ Escaneo de la información.
▪ Procesamiento digital de información escaneada.
▪ Obtención de información gráfica;
▪ Procesamiento de imágenes;
▪ Obtención de metadatos.

Muy bien, ha culminado con el desarrollo de las unidades planificadas, de seguro


que su esfuerzo ha valido la pena, le auguramos muchos éxitos en las siguientes
asignaturas.

158 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

Autoevaluación 7

Es momento de validar la asimilación de los contenidos de la unidad, desarrolle la


autoevaluación propuesta. Aunque el desarrollo de estas preguntas es opcional,
se le recomienda resolverlas. Si tiene alguna duda consulte con su profesor tutor.

1. Conocimiento es sinónimo de:

a. Datos.
b. Información.
c. Ninguna de las anteriores, pues el conocimiento incluye datos e
información.

2. ¿Cuál de los siguientes ejemplos no se considera un esquema de


representación?

a. Un mapa mental.
b. Las tablas de una base de datos relacional.
c. Las operaciones CRUD sobre una base de datos relacional.

3. Un modo de representación del conocimiento es:

a. Las tuplas de una tabla de base de datos.


b. Las tripletas compuestas por Objeto-Atributo-Valor.
c. Las variables definidas en un código de programación.

4. Una URI es:

a. La clave principal en una tabla de base de datos.


b. Es el identificador de las páginas Web.
c. Es un identificador único para recursos en la Web.

159 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

5. Las redes semánticas se componen de los siguientes elementos para


representar el conocimiento:

a. URIs y direcciones HTTP.


b. Nodos y enlaces que muestran relaciones entre objetos.
c. Tripletas RDF/XML y taxonomías.

6. Dos métodos para la representación del conocimiento son:

a. Especialización y generalización.
b. El modelo ER y la normalización.
c. Diseño físico y métodos de almacenamiento.

7. Una ontología es:

a. Un vocabulario controlado y consensuado.


b. Un diagrama de flujo mejorado.
c. Un mapa conceptual que se puede transformar al modelo ER.

8. La recuperación de información se podría definir como:

a. Recuperar la base de datos ante un fallo inesperado.


b. Recuperar información que ha sido violentada de alguna forma
generalmente por hackers.
c. Satisfacer las necesidades de información de usuarios desde grandes
cantidades de información.

9. Una librería digital se define como:

a. El servicio de préstamos de libros electrónicos/digitales a bajo costo.


b. El servicio de eBooks que presta Amazon.
c. Colecciones de información a los que se puede acceder desde
cualquier ubicación geográfica.

160 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Segundo bimestre

10. Una biblioteca digital difiere de una biblioteca tradicional en:

a. Los recursos de información que proporcionan (físicos y/o digitales).


b. El tipo de almacenamiento (impreso/electrónico).
c. La preservación (tradicional/electrónica).
d. Todas las anteriores.

¿Cómo le fue en su autoevaluación? ¡Esperamos que muy bien! y si no es así


revise los apartados correspondientes y su guía didáctica a fin de aclarar las
dudas que tenga. Recuerde que cuenta con el apoyo de su tutor.

Ha concluido con el estudio de la asignatura Administración de Base de


Datos, esperamos que los conocimientos adquiridos le permitan ir avanzando
exitosamente. Estamos seguros que los temas abordados en la asignatura le
serán de mucha utilidad en su actividad laboral. ¡Felicitaciones por las metas
alcanzadas!

161 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

7. Solucionario

PRIMER BIMESTRE

Autoevaluación 1
Pregunta Respuesta Retroalimentación
1 d La etapa de diseño más crítica es:

R.La selección del DBMS se convierte en crítica debido a


que sirve para determinar el tipo de diseño lógico y físico
a ejecutar. Una vez determinado el DBMS se pueden
diseñar algunas restricciones en la etapa de diseño lógico
y posteriormente serán implementadas en el diseño
físico. De esta forma se evita el peligro de que algunas
decisiones de diseño no se puedan implementar debido a
que el DBMS elegido no lo soporta
2 a ¿Cuál es el nivel más alto de abstracción de los datos?

R.El modelo externo tiene un alto grado de abstracción


ya que generalmente es la vista que tienen los usuarios
finales acerca del ambiente de datos y por lo tanto no
necesitan muchos detalles.
3 a ¿Cuál es la etapa más temprana del diseño de bases de
datos en la que no interesa aun saber si se va a trabajar
con una base de datos relacional o una base de datos
orientada a objetos u otra?

R.El diseño conceptual. En esta etapa lo único que


interesa es conocer a detalle qué elementos de
datos se requiere almacenar en la base de datos
independientemente de los detalles físicos como el DBMS,
plataforma y/o infraestructura.

162 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 1
Pregunta Respuesta Retroalimentación
4 b ¿Cuál es el modelo de datos en el que representamos
tablas, columnas, llaves primarias y llaves foráneas?.

R. El modelo relacional recoge las tablas, atributos, claves


primarias y es en donde aparecen las claves foráneas. El
modelo entidad-relación no representa claves foráneas.
El modelo orientado a objetos representa las clases,
propiedades y métodos.
5 b El encargado de imponer políticas, procedimientos y
normas de programación cumple el rol de:

R. El administrador de base de datos (DBA) se encarga


de definir e imponer los procedimientos y normas a usar
por programadores y usuarios finales durante su trabajo
con el DBMS. El trabajo del DA es más estratégico y por
lo tanto genérico y amplio. Un gerente de sistemas debe
planear, dirigir, supervisar y revisar los proyectos del área
de sistemas de la organización.
6 b ¿Cuál de las siguientes afirmaciones es cierta respecto al
DBLC?

R. Una base de datos después de implementada debe ser


monitoreada para encontrar posibles cuellos de botella y
eliminarlos. Por lo tanto, el ciclo de vida de una base de
datos no termina con la implementación de la base de
datos.

163 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 1
Pregunta Respuesta Retroalimentación
7 a Al construir una base de datos, la identificación de las
vistas de usuario se realiza en la fase de:

R. Se realiza en la fase de diseño en la cual se


esquematizan los requerimientos de datos de la
organización. En la fase de estudio inicial solamente
se identifican los requerimientos de datos que pueden
provenir de distintas fuentes. En la fase de implementación
con las especificaciones de diseño se materializa la base
de datos físicamente.
8 c Una vez en producción la base de datos. ¿Cuál de los
siguientes tipos de cambios afecta en menor medida a las
aplicaciones de usuario final?

Una vez en la base de datos entra en un ambiente de


producción, los cambios en las especificaciones de diseño
físico afectan en menor medida. Por ejemplo, un cambio
de plataforma, puede ser servidores de base de datos
o sistemas operativos entre otros, podría ser menos
traumático que agregar algún atributo en el modelo ER
o agregar alguna restricción en el diseño lógico lo que
provocaría ir aplicando cambios hasta verlos reflejados en
las aplicaciones de los usuarios.
9 b En la construcción de una base de datos, el diseño físico
se ocupa del:

R. Mientras que el diseño lógico se preocupa del “qué” el


diseño físico se encarga del “cómo”. Esto sucede porque
el diseño físico recoge las especificaciones de diseño
y las materializa físicamente en un servidor de base de
datos, con un sistema operativo específico y con un SGBD
definido.

164 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 1
Pregunta Respuesta Retroalimentación
10 b El diccionario de datos en un modelo:

R.El diccionario de datos es una descripción de los datos


almacenados en la base de datos, por ello se suele decir
que son “datos” acerca de los “datos”. Por ejemplo cuando
creamos una tabla, en el diccionario se almacena la
descripción de cada atributo, de qué tipo de dato es, qué
longitud tiene, si acepta nulos o no, si es clave primaria o
forma parte de ella, si es clave foránea, si tiene algún valor
por defecto entre otras características.

165 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 2
Pregunta Respuesta Retroalimentación
1 c En sistemas de base de datos, cuando hablamos de
TRANSACCIÓN se hace referencia a:

R. Una transacción es una unidad lógica de trabajo


que engloba una serie de operaciones como inserción,
actualización, borrado de datos entre otras.
2 c En el procesamiento de transacciones, la propiedad del
aislamiento podría verse comprometida sobre todo cuando
el SGBD ejecuta a la vez

R. Varias transacciones que acceden a un mismo


elemento de datos. Esto debido a que los cambios sobre
un elemento de datos pueden servir como entrada para
otra operación en la base de datos.
3 b Si en una planificación concurrente falla una transacción
de la cual dependen otras,

R. Deben deshacerse las transacciones de la planificación


concurrente hasta un estado consistente anterior al fallo
debido a que cualquier transacción que se ejecute debe
llevar a la base de datos de un estado consistente a otro.
4 b Todas las actividades de actualización de datos durante el
procesamiento de una transacción se guardan en un log o
registro histórico, que luego sirve para poder:

R. Dar seguimiento a todas las transacciones que


actualizan la base de datos manteniendo una especie de
bitácora de transacciones que permiten entre otras cosas
ejecutar operaciones de recuperación de la base de datos.
5 c Una transacción siempre debe:

R. Llevar a la base de datos de un estado consistente a


otro. No puede suceder que al aplicar alguna transacción
la base de datos quede en un estado inconsistente.

166 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 2
Pregunta Respuesta Retroalimentación
6 a Dadas las siguientes transacciones:

T1: leer(X), escribir(X), escribir(Z)

T2: leer(Y), escribir(X)

¿Cuál de las siguientes planificaciones es secuenciable


respecto a T1->T2?

R. La planificación 1. La planificación 2 es la planificación


secuencial desde donde se parte para realizar los
movimientos de las operaciones de las transacciones
respetando las reglas de secuencialidad. La planificación 3
tienen un conflicto debido a que se ha cambiado el orden
de las operaciones de escritura sobre (X).
7 f Suponga que usted es un DBA a cargo de la
administración de la base de datos de un Hospital. ¿Qué
contramedidas serían más apropiadas recomendar en este
caso ante la amenaza de “Entrada ilegal por parte de un
hacker”?

R. La opción f es la correcta debido a que todas los


literales desde a-e son importantes cuando tenemos
amenazas en contra de la seguridad de la base de
datos tales como: falsificación de datos IP, detectores de
paquetes, ataques de hackers o borrado de contraseñas
en red.

167 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 2
Pregunta Respuesta Retroalimentación
8 b El componente de seguridad que busca asegurar la validez
y completitud de la información almacenada en la base de
datos se llama:

R. La integridad de los datos tiene que ver con que estos


datos sean veraces y estén completos. Si al ejecutar una
transacción los datos quedaran incompletos la base de
datos quedaría en un estado inconsistente y perdería su
integridad.
9 b Hablando de seguridad de una base de datos, la
confidencialidad de la información se refiere a la necesidad
de:

R. Restringir el acceso a los datos solo a usuarios


autorizados y para un propósito autorizado evitando que
se violen los derechos de privacidad de una persona u
organización.
10 c El responsable de asegurar la disponibilidad de una BD es

: R. El DBA en su rol técnico es el encargado de mantener


funcional a la base de datos lo que se traduce en tener el
recurso disponible 24 horas al día 7 días a la semana para
que los usuarios puedan hacer uso de la base de datos en
cualquier momento.

168 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 3
Pregunta Respuesta Retroalimentación
1 c La arquitectura de sistemas de bases de datos en la cual un
equipo actúa como servidor de base de datos y otro equipo
como servidor de aplicaciones se denomina:

R. Se denomina cliente-servidor en donde la máquina servidor


ofrece servicios de consultas o transacciones y del otro lado en
otro servidor se aloja la interfaz de usuario y los programas de
aplicación que acceden al servidor de base de datos.
2 b ¿Cuál de los siguientes es un componente de un sistema cliente
servidor?

R. La interfaz gráfica de usuario representaría la capa del cliente


que forma parte de una arquitectura cliente-servidor. El back-
end no es lo mismo que un servidor web así que descartamos
esa alternativa. El protocolo de comunicación no es un
componente de un sistema cliente-servidor pero sí lo es la red
de comunicaciones.
3 c Cuál de las siguientes afirmaciones es correcta respecto a
sistema de arquitectura centralizada?

R. Suelen requerir contar con una gran computadora central


debido a que todo el procesamiento se concentra en el
servidor central. Las máquinas clientes por lo general no tienen
capacidades de procesamiento.
4 c En un sistema cliente servidor la consultas que escribe un
usuario se procesan:en el cliente

R. En el servidor de bases de datos ya que mediante el SGBD


atiende las consultas y envía los resultados a los clientes que lo
solicitan. En el cliente no debido a que generalmente no tienen
capacidad de procesamiento. En el servidor de aplicación no
porque ahí reposa los programas de aplicación.

169 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 3
Pregunta Respuesta Retroalimentación
5 b Los problemas de congestión en la red afectan en menor
medida a:

R. Un sistema cliente servidor puesto que no sobrecarga la


red al tener capacidad de procesar algo del lado del cliente
y por lo tanto viajan menos paquetes de datos a través de
la red. En contraste un sistema centralizado enviará todo
a través de la red ya que no tiene capacidad de procesar
nada del lado del cliente.
6 a En arquitecturas cliente/servidor de dos capas la aplicación
de usuario final se ejecuta en el:

R. Lado del cliente y solamente cuando requiere acceso al


SGBD establece una conexión con la base de datos que
está en el lado del servidor.
7 c Cuando hablamos de back-end se hace referencia a:

R. El servidor de base de datos. El término back-end


generalmente se refiere a aquello que no puede ver el
usuario final como por ejemplo el servidor de base de
datos.
8 b Un sistema centralizado multiusuario:

R. Es diferente a un sistema cliente/servidor porque el


usuario accede desde un terminal que no tiene capacidad
de procesamiento, lo que no sucede en un entorno
cliente servidor en donde el terminal del usuario tiene
capacidades de procesamiento aunque sea limitadas.
9 c En una arquitectura de tres capas, en la capa intermedia
normalmente se ejecuta:

R. Las reglas y la lógica del negocio que actúa como


intermediario entre el usuario final y el acceso a los datos
almacenados en el servidor de base de datos.

170 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 3
Pregunta Respuesta Retroalimentación
10 b En un sistema cliente/servidor de dos capas:

R. Las consultas se ejecutan en el lado del servidor. El


cliente cuando lo requiere establece una conexión con el
SGBD y envía la solicitud de datos. El servidor procesa la
petición y devuelve el resultado al cliente y el cliente puede
procesarlos para presentar los datos de una manera más
refinada.

171 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

SEGUNDO BIMESTRE

Autoevaluación 4
Pregunta Respuesta Retroalimentación
1 a En un sistema de base de datos distribuidas, cuando los
usuarios no son conscientes de la ubicación del servidor
donde están almacenados físicamente los datos estamos
hablando de:

R. Transparencia de la ubicación, debido a que los


usuarios no tienen por qué saber en dónde se encuentra
ubicado el servidor al que se están conectando.
2 c En sistemas de bases de datos distribuidas, la replicación
consiste en:Implementar dos o más nodos del sistema
distribuido con la misma configuración hardware y
software.

R. Mantener una copia íntegra de una o más tablas en


múltiples bases de datos que forman un sistema de base
de datos distribuidos. De esa forma tenemos réplicas de
datos que pueden servir en caso de caída de uno de los
nodos o en caso de problemas de la red de comunicación
que impidan que los nodos se comuniquen.
3 b La heterogeneidad en bases de datos distribuidas se da
cuando todos los nodos:

R. Poseen SGBD distintos en cada nodo de una base de


datos distribuida. Aún así deben trabajar y responder a los
usuarios como si fueran una sola base de datos.
4 a En una base de datos distribuida:

R. La arquitectura de bases de datos distribuida permite


existan algunos nodos que no almacenan información.

172 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 4
Pregunta Respuesta Retroalimentación
5 a ¿Cuál de las siguientes afirmaciones respecto a bases de
datos distribuida es cierta?

R. Para el almacenamiento de los datos se puede aplicar


fragmentación, replicación o ambos. Cuando un nodo
sufre algún daño por el mismo concepto de replicación se
puede acceder a la información en las réplicas que hay
en otros nodos. Una consulta puede acceder a datos de
varios nodos ya que esa es una de las características de
transparencia, la de ubicación.
6 a En una base de datos distribuida, cuando un usuario
consulta los datos de una tabla fragmentada, debe
especificar en la cláusula FROM de la sentencia SELECT:

R. Simplemente el nombre de la tabla, tal como lo haría


en una base de datos no distribuida. Recuerde que debe
cumplirse la transparencia de ubicación, es decir que ante
el usuario la base de datos parece ser una sola aunque
por detrás esté geográficamente dispersa pero eso no es
de interés del usuario.
7 c En un esquema de base de datos distribuida, aquellas
tablas que corresponden a catálogos, tal como PAISES,
ESTADOS_CIVILES, TIPOS_CLIENTE, etc., se las
debería:

R. Se las debería replicar debido a que es información que


se requiere en todos los nodos por ser catálogos de datos
y eso evitaría sobrecarga de la red de datos.
8 c Cuál de las siguientes afirmaciones NO es cierta respecto
a los sistemas de bases de datos distribuidas?

R. Autonomía local ya que los nodos o localidades deben


ser independientes entre sí en el mayor grado posible.

173 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 4
Pregunta Respuesta Retroalimentación
9 a Suponga las siguientes tablas:

BODEGAS (id_bodega, administrador, ciudad, direccion,


telefono)ARTICULOS (id_articulo, nombre, peso, precio,
cantidad, id_bodega)En un entorno de base de datos
distribuida se decide que la distribución (fragmentación)
geográfica de los datos se hará́ de acuerdo a la CIUDAD.
En este caso, ¿que tipo de fragmentación es la que se
deberá́ aplicar a la tabla ARTICULOS?

R. Se debe aplicar fragmentación horizontal, debido a que


se separan las filas de datos de acuerdo a la ciudad a la
que pertenezca la bodega en la cual están los artículos.
10 c Para la tabla STAFF, cuál sería la forma correcta de
aplicar una fragmentación horizontal, basada en el atributo
Position (recuerde las operaciones de algebra relacional:
π->Proyección, σ -> Selección)

R. La opción 3 es la válida. La opción 1 se descarta


por cuanto la operación de Proyección no incluye un
predicado (condición) pero en el ejemplo está incluyendo
position=’Manager’. La opción dos no es válida puesto que
en ningún momento está estableciendo un criterio para
seleccionar las tuplas.

174 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 5
Pregunta Respuesta Retroalimentación
1 a Una base de datos textual se aplica sobre documentos de
tipo:

R. Sobre documentos de tipo .pdf. Archivos de tipo .jpg son


de imágenes y los archivos de tipo .bib son archivos que
contienen texto en un formato específico para ser leídos
por aplicaciones específicas.
2 a En una base de datos textual el proceso de indexación
elimina

R. Palabras comunes denominadas stopwords. Este


tipo de palabras se eliminan para reducir el número de
palabras clave y solamente dejar aquellas más relevantes
para una colección de documentos.
3 a En una base de datos multimedia, a parte del título qué
otra información puede ser relevante para la búsqueda:

R. La descripción debido a que en ella encontrará palabras


clave que le servirán para hacer una búsqueda más
precisa. El identificador es un dato que generalmente no
se muestra y la url es lo que se busca para acceder al
recurso multimedia.
4 b En una base de datos multimedia se puede encontrar un
objeto específico gracias a su:

R. La indexación permite ubicar a un objeto de una forma


más dinámica. Los índices funcionan de forma similar a
un índice de un libro en donde para ubicar un tema voy
directamente al índice a buscar la ubicación dentro de las
páginas del libro.

175 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 5
Pregunta Respuesta Retroalimentación
5 a En una base de datos SIG se maneja también una:

R. Una base de datos relacional debido a que se requiere


almacenar datos tabulares que representan características
del elemento gráficamente representado.
6 a Una base de datos SIG contiene:

R. Una capa de datos que sirve para almacenar los datos


acerca de las representaciones gráficas de elementos que
son de interés del usuario. Una capa de negocio tiene más
sentido en un sistema de base de datos transaccional y
una capa de ubicación no tiene sentido en el contexto de
las bases de datos SIG
7 c Una base de datos científica contiene:

R. Muchas de las bases de datos científicas contienen a


más de la información de los documentos el texto completo
en formato PDF.
8 b En una base de datos científica una de las funcionalidades
más potentes es:

R. La búsqueda avanzada que permite explotar todo el


contenido de la base de datos. La base de datos en sí no
sería de mucha utilidad si no permitiera el acceso total a
los datos contenidos en ella.

176 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 5
Pregunta Respuesta Retroalimentación
9 c Una base de datos científica es muy útil cuando se desea:

R. Se desea informarse sobre todo lo que se ha publicado


sobre un campo de investigación debido a que el
contenido de este tipo de base de datos está relacionado
a documentación científica. No debe entenderse a una
base de datos científica como una fuente de información
biográfica de los científicos. Tampoco se debe confundir
con un sitio de descarga de documentos científicos de
forma gratuita.
10 e Las bases de datos multimedia permiten a los usuarios
almacenar y consultar diferentes tipos de información
multimedia, tales como:

R. Todas las anteriores debido a que una base de datos


multimedia permite almacenar imágenes, videoclips, clips
de audio y documentos.

177 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 6
Pregunta Respuesta Retroalimentación
1 b En un almacén de datos la extracción de los datos desde
las fuentes origen, su transformación y limpieza, están a
cargo:

R. Está a cargo de las herramientas ETL quienes se


encargan entre otras actividades de captar, filtrar, integrar
y agregar datos operacionales que reposan en el almacén
de datos para apoyar la toma de decisiones.
2 a Los sistemas a través de los cuales se registran las
operaciones diarias de una organización se denominan:

R. Los sistemas transaccionales son aquellos que apoyan


la gestión diaria de la organización a través de las
transacciones que se ejecutan en el día a día.
3 c La exploración de los datos históricos en búsqueda de
patrones ocultos se logra mediante:

R. La minería de datos, pues emplea técnicas estadísticas


y de inteligencia artificial para lograr la identificación de
patrones en una gran cantidad de datos.
4 a Al tipo de aplicación de la minería de datos en el cuál
exploramos los datos buscando identificar entidades
vinculadas entre sí con base en el descubrimiento de
relaciones entre sus atributos, se denomina:

R. Asociación que determina cosas u objetos que van


juntos. La predicción predice un valor futuro en base
a valores pasados. La clasificación asigna una clase o
categoría en base a las características de un nuevo objeto.

178 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 6
Pregunta Respuesta Retroalimentación
5 b OLTP se refiere a los tipos de sistemas en los cuales la
operación principal es:

R. Los sistemas OLTP se centran en el registro de


transacciones que soportan las operaciones diarias de una
organización.
6 d En un modelo multidimensional tipo estrella a las
perspectivas desde las cuales se pueden analizar ciertos
indicadores, se las denomina:

R. Se las llama dimensiones y proporcionan descripciones


a los hechos de forma que adquieran un contexto.
Ejemplos de dimensiones pueden ser la fecha, sucursal,
marca de un producto, etc.
7 b Al diseñar un Data Warehouse bajo un esquema estrella
(cubo) el tipo de relación existente entre una tabla de
dimensión y la tabla de hechos es:

R. De uno a muchos (1:N) debido a que una dimensión se


relaciona con muchos hechos.
8 b En materia de diseño de bases de datos hablamos de
modelo multidimensional y modelo entidad- relación, estos
dos modelos se utilizan:

R. El modelo multidimensional para almacenes de datos


en donde se requiere analizar la información desde
distintas dimensiones y el modelo entidad-relación para
bases de datos transaccionales en donde se requiere
agilidad para las actualizaciones en base de datos.

179 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 6
Pregunta Respuesta Retroalimentación
9 c Un Data Warehouse puede permitir integrar datos
provenientes de:

R. Múltiples fuentes de datos heterogéneas desde donde


se integran los datos que servirán para el apoyo a la toma
de decisiones. La heterogeneidad debe ser transparente
para el usuario.
10 a Al conjunto de estrategias y herramientas enfocadas a
la administración y creación de conocimiento mediante
el análisis de datos en una organización o empresa se
denomina:

R. La inteligencia de negocios combina herramientas,


procesos y tecnología para estudiar los datos de una
organización con el objetivo de encontrar información
relevante que se la pueda convertir en conocimiento la
cual sirva para apoyar la toma de decisiones.

180 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 7
Pregunta Respuesta Retroalimentación
1 c Conocimiento es sinónimo de:

R. El conocimiento incluye y requiere de datos e


información.
2 c ¿Cuál de los siguientes ejemplos NO se considera un
esquema de representación:

R. Las operaciones CRUD sobre una base de datos


relacional ya que son operaciones que consultan,
actualizan, insertan o borran datos. Un mapa mental al
igual que una base de datos relacional constituyen una
representación de un tema en particular lo más cercano al
mundo real.
3 b Un modo de representación del conocimiento es:

R. Las tripletas compuestas por Objeto-Atributo-Valor


representan objetos ya sea físicos o conceptuales y
gráficamente se representan como un grafo.
4 c Una URI es:

R. Es un identificador único para recursos en la Web


entendiéndose como recurso por ejemplo a una persona,
un libro, un país, etc.
5 b Las redes semánticas se componen de los siguientes
elementos para representar el conocimiento:

R. Nodos y enlaces que muestran relaciones entre objetos


y de esa forma representar el conocimiento.

181 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 7
Pregunta Respuesta Retroalimentación
6 a Dos métodos para la representación del conocimiento son:

R. La especialización entendida como el proceso


de clasificar una clase de objetos en subclases más
especializadas y la generalización se convierte en el
proceso inverso, es decir generalizar varias clases en una
clase abstracta de nivel superior.
7 a Una ontología es:

R. Un vocabulario controlado y consensuado para


representar el conocimiento en donde se usan términos
que han sido previamente definidos por una comunidad
de expertos en un dominio. Los diagramas de flujo se
emplean para describir un proceso siguiendo un cierto
orden. Un mapa conceptual describe ideas o conceptos
físicos o abstractos en un ámbito más específico.
8 c La recuperación de información se podría definir como:

R. Satisfacer las necesidades de información de usuarios


desde grandes cantidades de datos mediante la aplicación
de ciertos métodos o técnicas. Las opciones a y b son
métodos netamente técnicos para recuperación de
información ante un fallo ya sea de software o hardware.
9 c Una librería digital se define como:

R. Colecciones de información a los que se puede acceder


desde cualquier ubicación geográfica. Las opciones a y b
son modelos de negocio online.

182 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Solucionario

Autoevaluación 7
Pregunta Respuesta Retroalimentación
10 d Una biblioteca digital difiere de una biblioteca tradicional
en:

R. Todas las anteriores, debido a que la biblioteca digital


maneja sus recursos en formato electrónico/digital y la
biblioteca tradicional mantiene sus recursos en formato
físico/impreso.

183 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

8. Glosario

AR: Álgebra Relacional

CR: Cálculo Relacional

DA: Administrador de Datos (del inglés Data Administrator)

DBA: Administrador de Bases de Datos (del inglés Database Administrator)

DBLC: Ciclo de Vida de Bases de Datos (del inglés Database Life Cycle)

DNI: Documento de Identificación Nacional

E-R: Modelo Entidad-Relación

ETL: Extracción, Transformación, Carga (del inglés Extract, Transform and Load)

FN: Forma Normal

DDL: Lenguaje de Definición de Datos (del inglés Data Definition Language)

DML: Lenguaje de Manipulación de Datos (del inglés Data Manipulation


Language)

OLAP: Procesamiento Analítico en Línea (del inglés OnLine Analytical


Processing)

OLTP: Procesamiento de Transacciones en Línea (del inglés OnLine Transaction


Processing)

184 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Glosario

SDLC: Ciclo de vida del Desarrollo de Sistemas (del inglés Software Development
Life Cycle)

SGBD (DBMS): Sistema de Gestión de Base de Datos (del inglés Database


Management System)

SGBDD (DDBMS): Sistema de Gestión de Bases de Datos Distribuidas (del inglés


Distributed Database Management System)

SQL: Lenguaje Estructurado de Consulta (del inglés Structured Query Language)

TPS: Sistemas de procesamiento de transacciones (del inglés Transaction


Processing System), Sistemas operacionales, Sistemas transaccionales

UNF: Forma no normalizada

185 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

9. Referencias bibliográficas

Aguilar, J. (n.d.). Inteligencia de Negocios, Sistemas de Gestión de Conocimiento


en Organizaciones, Datawarehousing.

Beagrie, N. (2002, April). An update on the Digital Preservation Coalition. D-Lib


Magazine, Vol. 8.

Connolly, T., & Begg, C. (2005). Sistemas de bases de datos: un enfoque práctico
para diseño, implementación y gestión. Recuperado desde: https://books.
google.com.ec/books?id=FQXVAAAACAAJ

Coronel, C., & Morris, S. (2011). Bases de datos. Diseño, implementación y


gestión (Novena Edi). México: Cengage Learning Editores.

Elmasri, R., & Shamkant, N. (2016). Fundamentals of Database Systems (Séptima


Ed). Boston, Estados Unidos: Pearson.

Jones, K. S. (2007). Information retrieval and digital libraries. Proceedings of


the 2006 International Workshop on Research Issues in Digital Libraries -
IWRIDL ’06, 1–7. https://doi.org/10.1145/1364742.1364743

Krallinger, M., Rabal, O., Lourenco, A., Oyarzabal, J., & Valencia, A. (2017).
Information retrieval and text mining technologies for chemistry. Chemical
Reviews, 117(12), 7673–7761.

Lesk, M. (1997). Practical digital libraries: Books, bytes, and bucks. Morgan
Kaufmann.

Lovasz, A. E., Lovasz, E.-C., & Gruescu, C. M. (2014). Digital Library of


Mechanisms. Procedia - Social and Behavioral Sciences, 163, 85–91. https://
doi.org/10.1016/j.sbspro.2014.12.290

186 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Referencias bibliográficas

Manola, F., Miller, E., & McBride, B. (2004). RDF primer. W3C Recommendation,
10(1–107), 6.

Silberschatz, A., Korth, H., & Sudarshan, S. (2014). Fundamentos de bases de


datos. Madrid, España: McGraw-Hill Interamericana de España.

Tibbo, H. R. (2001). Archival perspectives on the emerging digital


library. Communications of the ACM, 44(5), 69–70. https://doi.
org/10.1145/374308.374345

Torres-Soler, L. C. (n.d.). Representación del conocimiento (p. 34). p. 34.

187 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos

10. Anexos

Anexo 1: Caso de estudio “Alquiler de videos”

CASO DE ESTUDIO ALQUILER DE VIDEOS

Diseño de base de datos

Descripción del problema

Una empresa de alquiler de videos desea informatizar la gestión de los préstamos


que realiza día a día a sus clientes, con ello busca llevar un adecuado control de
la información de videos y préstamos realizados, ofrecer un mejor servicio a sus
clientes, y contar con una base de datos que le permita conocer el estado de su
negocio.

Se ha planteado entonces la necesidad de construir un sistema para el alquiler de


videos y con ello construir una base de datos para almacenar toda la información
generada por este proceso.

Requisitos de datos

▪ Gestión de información de videos disponibles incluidos su género, por cada


video además del nombre debe guardarse la foto de su portada.
▪ Gestión de los préstamos realizados, llevando el control de a quien se
realiza el préstamo, la fecha de alquiler y la fecha de devolución. Por cada
video alquilado se registra un préstamo, es decir si un mismo cliente solicita
2 videos se registrarían dos préstamos.
▪ Cada cliente puede alquilar varios videos y un video puede ser alquilado a
varios clientes en fechas distintas.
▪ Cuando el cliente devuelve un video debe registrarse la fecha de devolución
y actualizar su estado de “Alquilado” a “Devuelto”.

188 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

▪ Por cada cliente se requiere conocer sus datos personales y de contacto.


▪ En todo momento se debe poder conocer los videos que están disponibles
para alquilar.

Transacciones de datos

Transacción Tipo
1 Administrar clientes Actualización
2 Administrar Videos Actualización
3 Registrar alquiler de video Actualización
4 Registrar devolución de video Actualización

5 Reporte de alquiler de videos por cada mes, ordenados por


Consulta
fecha de alquiler
6 Listar información de videos disponibles incluido del género Consulta

Diseño conceptual

Diagrama Entidad/Relación

189 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Diccionario de datos

Tipo Entedidad Restricción de


Atributo Obligatorio Tipo
Relación Dominio Adicional
cliente apellido x
cliente nombre x
video género x
video nombre x

Tres posibles valores


"D" (disponible)
video estado x "D"
"N" (no disponible)
"B" (dado de baja)

Fecha actual
Debe ser mayor a
alquila fechapre x al momento
1970
del registro
alquila días_plazo x

Tres posibles valores


"A" (alquilado)
alquila estado x "A"
"V" (vencido)
"D" (devuelto)

Debe ser mayor


alquila fechadev o igual a fecha de
préstamo

190 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Diseño lógico

Diagrama relacional

Diccionario de datos

191 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Anexo 2: Caso de estudio “Pedidos”

CASO DE ESTUDIO PEDIDOS

Descripción del problema

Imagine en una empresa de distribución que desea informatizar el procesamiento


de pedidos. Las consideraciones básicas a tomar en cuenta en un principio son
las siguientes:

▪ La empresa tiene varias oficinas o localidades donde recepta los pedidos.


▪ Cada oficina cuenta con un equipo de vendedores y empleados quienes se
encargan de procesar los pedidos de cada cliente.
▪ A su vez cada vendedor tiene un supervisor, que a su vez tiene bajo su
control a varios vendedores.
▪ Un cliente puede solicitar uno o más productos en un solo pedido.
▪ Cada producto se codifica con base al fabricante y a un número interno.

Esquema relacional

192 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Restricciones de integridad para campos derivados

▪ La suma del importe de los pedidos receptados por un vendedor debe


corresponder a valor de ventas para ese vendedor (empleados.ventas).
▪ La suma de las ventas de los vendedores de una misma oficina debe
corresponder al total de ventas de esa oficina (oficinas.ventas).
▪ El importe total de cada pedido (pedidos.importe) es igual a la suma del
importe de cada ítem correspondiente a ese pedido.

193 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Anexo 3: Recurso - Técnicas para la aplicación de Minería de Datos

Técnicas para la aplicación de Minería de Datos

Introducción

La minería de datos es un mecanismo de explotación de datos que consiste en la


búsqueda de información valiosa en grandes volúmenes de datos.

La minería de datos tiene como propósito la identificación de un conocimiento


obtenido a partir de las bases de datos que aporten hacia la toma de decisión.

La Ilustración 1 muestra una visión genérica de ver la minería de datos donde


el producto de la minería de datos es un modelo que apoya en el soporte a las
decisiones.

Gráfico 1. Visión simplificada de la minería de datos

Minería de datos es la exploración y análisis de grandes cantidades de datos con


el objeto de encontrar patrones y reglas significativas (conocimiento). Muchas
veces está ligada a los almacenes de datos (información histórica) con la cual los
algoritmos de minería de datos obtienen información necesaria para la toma de
decisiones. Además, hoy en día se obtienen una gran cantidad de datos desde
fuentes heterogéneas y no estructuradas provenientes de gran variedad de

194 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

fuentes como redes sociales39, sensores entre otros dispositivos de internet de las
cosas (IoT40).

Ahora, se presentan otras definiciones de minería de datos, también conocida


como Data Mining:

▪ Proceso de extraer conocimiento útil y comprensible, previamente


desconocido, desde grandes cantidades de datos almacenados en ‫‏‬distintos
formatos −Witten y Frank
▪ Extracción de patrones y modelos interesantes, potencialmente útiles y datos
almacenados en base de datos de gran tamaño. −Hand
▪ Análisis de grandes volúmenes de datos para encontrar relaciones no
triviales, y para resumirlos de manera que sean entendibles y útiles. − Hand,
Mannila y Smyth
▪ La minería de datos trata de la búsqueda de conocimiento en las bases de
datos. − Silberschatz, Korth y SudarShan

Características de la Minería de datos

▪ Es el proceso de utilizar datos “crudos” para inferir importantes relaciones


entre ellos.
▪ Es una colección de técnicas poderosas para analizar grandes volúmenes
de datos.
▪ No existe un solo enfoque para minería de datos sino un conjunto de
técnicas que se pueden utilizar de manera independiente o en combinación.

Lo que NO es la minería de datos:

▪ Una búsqueda de un número de teléfono en el directorio telefónico.

39
Redes sociales e.g.Twitter, Facebook, entre otras
40
Del inglés Internet of Things

195 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

▪ Utilizar un motor de búsqueda en Internet para obtener información acerca


del Coronavirus.
▪ La presentación de los datos en diferentes formatos.
▪ Una tarea intensiva de base de datos.

La minería de datos SI es:

▪ Una palabra de moda para una clase de técnicas que encuentran patrones
en los datos.
▪ Un conjunto de técnicas que se encuentran las relaciones que anteriormente
no han sido descubiertos.

La minería de datos es un campo multidisciplinario. La Ilustración 2 muestra un


resumen de las disciplinas relacionadas con la minería de datos.

Gráfico 2. Disciplinas de la minería de datos


Fuente: (Aguilar, J., sf)

Según Silberschatz et al. (2014), algunos tipos de conocimiento descubiertos a


partir de una base de datos pueden representarse por un conjunto de reglas. Un

196 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

ejemplo de una regla, formulada de manera informal puede ser: “Las mujeres
jóvenes con ingresos anuales superiores a 50.000 dólares son las personas
que con mayor probabilidad compran autos deportivos de tamaño pequeño”.
Indudablemente, estas reglas no son verdaderas de modo universal, y tienen
grados de “soporte” y de “confianza”. Otros tipos de conocimiento se representan
mediante ecuaciones que relacionan entre sí diferentes variables, o mediante
otros mecanismos de predicción de resultados cuando se conocen los valores de
algunas variables.

Hay una variedad de tipos posibles de “estructuras” que pueden resultar útiles,
y se emplean diversas técnicas para hallar tipos diferentes de estructuras. Y en
este documento se encuentran algunas de estas estrategias a las que se ha
denominado Técnicas para la aplicación de minería de datos.

En la minería de datos suele haber una parte manual, que consiste en el


preprocesamiento de los datos hasta llegar a un conjunto de datos aceptable para
los algoritmos, y en el posprocesamiento de las estructuras descubiertas para
hallar otras nuevas que puedan resultar útiles. También puede haber más de un
tipo de estructura que se pueda descubrir a partir de una base de datos dada, y
puede que se necesite la interacción manual para escoger los tipos de estructuras
útiles. Por este motivo, en la vida real la minería de datos es realmente un
proceso semiautomático. No obstante, en este documento se centrará la atención
en el aspecto automático de la minería.

Por otro lado, la minería de datos se puede clasificar en:

▪ Minería de datos predictiva: que utiliza primordialmente técnicas


estadísticas.
▪ Minería de datos para descubrimiento de conocimiento: que utiliza
principalmente técnicas de inteligencia artificial.

197 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Técnicas para aplicar minería de datos

En este documento se han identificado cuatro tipos de técnicas para la aplicación


de minería de datos:

• Clasificación (predictivo)
• Predicción (predictivo)
• Asociación (descriptivo)
• Agrupación, segmentación o clustering (descriptivo)

Clasificación

Consiste en examinar las características de un nuevo objeto y asignarle una clase


o categoría de acuerdo a un conjunto de tales objetos previamente definidos. Por
ejemplo:

▪ Clasificar aplicaciones a crédito como bajo, medio y alto riesgo.


▪ Detectar reclamos fraudulentos de seguros.

En Silberschatz et al. (2014) se considera de manera abstracta, que el problema


de la clasificación es que dados elementos que pertenecen a una o varias clases,
y dados los casos pasados (denominados ejemplares o datos de entrenamiento)
de los elementos junto a las clases a las que pertenecen, el problema es predecir
la clase a la que pertenece un elemento nuevo. La clase del caso nuevo no se
conoce, por lo que hay que utilizar los demás atributos del caso para predecir la
clase.

La clasificación se puede llevar a cabo hallando reglas que dividan los datos
dados en grupos disjuntos. Por ejemplo: En el caso de la compañía de tarjetas
de crédito quiera decidir si debe conceder una tarjeta de crédito a un solicitante.
La compañía tiene amplia información sobre esa persona, como su edad, nivel
educativo, ingresos mensuales y deudas actuales; la cual puede utilizar para
tomar un decisión.

198 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Parte de esa información puede ser importante para el riesgo crediticio del
solicitante, mientras que otra parte pueda que no lo sea. Para adoptar una
decisión, la compañía asigna un valor de crédito de excelente, bueno, mediano o
malo a cada solicitante de un conjunto de muestra de clientes actuales según su
historial de pagos. Luego la compañía intenta hallar las reglas que clasifiquen a
sus clientes actuales como excelentes, buenos, medianos o malos con base a la
información sobre estas personas diferente a la de su historial de pagos actual41.

Considere solo dos atributos: el nivel educativo42 y los ingresos. Las reglas
pueden ser de la siguiente manera:

and

or

and

También aparecen las reglas correspondientes a los demás niveles de riesgo


crediticio (mediano y malo).

El proceso de creación de clasificadores comienza con una muestra de los


datos, denominada conjunto de entrenamiento. Para cada tupla del conjunto de
entrenamiento ya se conoce la clase a la que pertenece. Por ejemplo el conjunto
de entrenamiento de las solicitudes de tarjetas de crédito pueden ser los clientes
ya existentes, con su riesgo crediticio determinado a partir de su historial de
pagos. Los datos actuales, o población, pueden consistir en toda la gente incluida

41
Que no está disponible para los clientes nuevos

42
La titulación más alta conseguida

199 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

la que no es todavía cliente. Hay varias maneras de crear clasificadores, como por
ejemplo los clasificadores de árboles de decisión, entre otros.

Predicción

Predecir un valor futuro con base a valores pasados (Aguilar, n.d.). El


conocimiento descubierto tiene numerosas aplicaciones. Las aplicaciones más
utilizadas son aquellas que requieren algún tipo de predicción (Silberschatz et al.,
2014). Por ejemplo:

▪ Cuando una persona solicita una tarjeta de crédito, la compañía emisora


quiere saber si la persona tiene un buen riesgo crediticio. La predicción se
realiza sobre los atributos de la persona como la edad, ingresos deudas e
historia de pagos de deudas anteriores. Las reglas para realizar la predicción
se derivan de los mismos atributos pasados y actuales de los poseedores de
las tarjetas de crédito, junto con su comportamiento observado, tal como si
dejan de pagar los cargos de las tarjetas.
▪ Predecir cuánto efectivo requerirá́ un cajero automático en un fin de semana.
▪ Predecir qué clientes podrían cambiarse a la competencia con el fin de
ofrecerles beneficios para fidelizar al cliente.
▪ Predecir qué personas podrían responder a un correo promocional.
▪ Predecir qué tipos de uso de tarjetas de teléfono prepago probablemente
sean fraudulentas.

Asociación

Determinar cosas u objetos que van juntos (Aguilar, n.d.). Los comercios
minoristas suelen estar interesados en las asociaciones entre los diferentes
artículos que compra la gente.

Por ejemplo:

▪ Determinar que productos se adquieren conjuntamente en un supermercado.


Alguien que compra pan es muy probable que compre también leche.

200 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

▪ Una persona que compró el libro de Fundamentos de Bases de Datos es


bastante probable que compre también el libro de Fundamentos de Sistemas
Operativos.

La información de asociación puede utilizarse de varias maneras. Cuando un


cliente compra un libro determinado pueda que la librería en línea le sugiera
los libros asociados. Puede que el supermercado decida colocar el pan cerca
de la leche, ya que suelen comprarse juntos, para ayudar a los clientes a hacer
la compra rápidamente. O puede que el supermercado decida colocar estos
productos en extremos opuestos y coloque otros artículos asociados de por medio
para inducir a la gente a comprar también esos artículos, mientras los clientes van
de un extremo al otro. Puede que una tienda que ofrece descuento en un artículo
asociado no lo ofrezca en el otro, ya que de todos modos el cliente comprará el
segundo artículo (Silberschatz et al., 2014). Un ejemplo de la regla de asociación
es:

En el contexto de las compras de supermercado, la regla dice que los clientes


que compran pan también tienden a comprar leche con una probabilidad alta. Una
regla de asociación debe tener una población asociada: la población consiste en
un conjunto de casos.

▪ En el caso de un supermercado, la población puede consistir en todas las


compras del mismo. Cada compra es un caso.
▪ En el caso de una librería, la población puede consistir en todas las
personas que realizan compra, de forma independiente del momento en el
que lo realizan. Cada consumidor es un caso.

En el ejemplo de la librería, el analista ha decidido que el momento de la compra


no es significativo, mientras que, para el ejemplo del supermercado, puede
ser que el analista haya decidido concentrarse en cada compra, ignorando las
diferentes visitas de un mismo cliente.

201 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Las reglas tienen un soporte, así como una confianza asociados, que son
definidos en el contexto de la población.

El soporte es una medida de la fracción de la población que satisface tanto el


antecedente como el consecuente de la regla. Por ejemplo, suponga que sólo el
0,001% de todas las compras incluyen leche y destornilladores. El soporte de la
regla:

Es bajo. Puede que la regla ni siquiera sea estadísticamente significativa, quizá


solo hubiera una compra que incluyera leche y destornilladores. Las empresas no
suelen estar interesadas en las reglas que tienen soporte bajo, ya que afectan a
pocos clientes y no merece la pena prestarles atención.

Por otro lado, si el 50% de las compras implican leche y pan, el soporte de las
reglas que afecten al pan y a la leche (y a ningún otro artículo) es relativamente
elevado, y puede que merezca la pena prestarles atención. El grado mínimo de
soporte que se considera deseable exactamente depende de la aplicación.

La confianza es una medida de la frecuencia con la que el consecuente es cierto


cuando lo es el antecedente. Por ejemplo, la regla:

Tiene una confianza del 80%, si el 80% de las compras que incluyen pan incluyen
también leche. Las reglas con una confianza baja no son significativas. En
las aplicaciones comerciales, las reglas suelen tener confianzas significativas
menores del 100%, mientras que en otros campos, como la física, las reglas
pueden tener confianzas elevadas. Hay que tener en cuenta que la confianza de
puede ser muy diferente de la confianza aunque las dos
tienen el mismo soporte.

202 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

Es importante mencionar que dentro de la asociación pueden emplearse algunas


estrategias como la técnica a priori, entre otras.

Agrupación, segmentación o clustering

Dividir una población en un número de grupos más homogéneos. La clasificación


no depende de clases pre-definidas a diferencia de clasificación (Aguilar, n.d.).
Por ejemplo:

▪ Dividir la base de clientes de acuerdo con los hábitos de consumo.

De manera intuitiva, el agrupamiento hace referencia al problema de hallar


agrupaciones de puntos en los datos dados. Según (Silberschatz et al., 2014),
el problema del agrupamiento puede formalizarse de varias maneras a partir de
las métricas de las distancias. Una manera es formularlo como el problema de
agrupar los puntos en k conjuntos (para un k dado) de modo que la distancia
media de los puntos al centroide43 de su agrupación asignada sea mínima.

Otro tipo de agrupamiento aparece en los sistemas de clasificaciones de la


biología (estos sistemas de clasificación no intentan predecir las clases, sino
agrupar los elementos relacionados. Por ejemplo, los leopardos y los seres
humanos se agrupan bajo la clase mamíferos, mientras que los cocodrilos y las
serpientes se agrupan bajo la clase reptiles. Tanto los mamíferos como los reptiles
están bajo la clase común de los cordados. La agrupación de los mamíferos
tiene subagrupaciones, como los carnívoros y los primates. Por tanto, se tiene un
agrupamiento jerárquico. Dadas las características de las diferentes especies
relacionadas en diferentes niveles de la jerarquía.

El agrupamiento jerárquico también resulta útil en otros dominios; para agrupar


documentos, por ejemplo. Los sistemas de directorio de internet (como el

43
El centroide de un conjunto de puntos se define como un punto cuyas coordenadas de cada
dimensión son el promedio de las coordenadas de todos los puntos de ese conjunto en esa
dimensión.

203 Modalidad Abierta y a Distancia


Guía Didáctica: Administración de Base de Datos
Anexos

sistema de Yahoo!) agrupan los documentos relacionados de manera jerárquica.


Los sistemas de agrupamiento jerárquico a su vez puede clasificarse en como
algoritmos de agrupamiento.

Otras formas de minería

Es importante mencionar también que existen otros tipos de minería como:


minería de textos y la visualización de datos. La minería de textos aplica las
técnicas de minería de datos en documentos de texto. Y los sistemas de
visualización de datos ayudan a los usuarios a examinar grandes volúmenes
de datos y a detectar visualmente las estructuras. Las visualizaciones de datos,
como mapas, gráficos y otras representaciones gráficas, permiten que los datos
se presenten a los usuarios de manera compacta (Silberschatz et al., 2014).

204 Modalidad Abierta y a Distancia


www.utpl.edu.ec

ÁREA
sociohumanística

205

También podría gustarte