Capítulo 13

Capítulo 13:
Diseñando
bases de datos
Antonio Maldonado Pinzón

Contenido
* Conceptos de base de datos
* Normalización
• Directrices para el diseño de la relación
de archivo maestro / base de datos
• Desnormalizacion
• Almacenes de datos
• Inteligencia empresarial, análisis de
negocios y análisis de texto
Conceptos de base de datos
Se le llama bases de datos a los bancos de información que
contienen datos relativos a diversas temáticas y categorizados
de distinta manera, pero que comparten entre sí algún tipo de
vínculo o relación que busca ordenarlos y clasificarlos en
conjunto.
El corazón de una base de datos es el
sistema de gestión de bases de datos
(DBMS), que permite la creación,
modificación y actualización de la
base de datos; la recuperación de
datos; y la generación de informes y
visualizaciones. Una persona que se
asegura de que una base de datos
cumpla con sus objetivos se
denomina administrador de base de
datos.
Conceptos de datos
Entidad: Cualquier objeto o evento
sobre el que alguien elija recopilar
datos es una entidad. Una entidad
puede ser una persona, un lugar o
una cosa (por ejemplo, un vendedor,
una ciudad o un producto).
Relaciones: Las relaciones son
asociaciones entre entidades (a
veces denominadas asociaciones de
datos).
Registros(records): Un registro es una colección de elementos de datos
que tienen algo en común con la entidad descrita.
Llaves(keys): Una clave es uno de los elementos de datos de un
registro que se utiliza para identificar un registro. Cuando una clave
identifica de forma única un registro, se denomina clave primaria. Una
clave se denomina clave secundaria si no puede identificar un registro
de forma única. Las claves secundarias pueden ser únicas o pueden
identificar varios registros en una base de datos.
Metadatos: Los metadatos son datos sobre los datos en un archivo o
base de datos. Los metadatos describen el nombre dado y la longitud
asignada a cada elemento de datos. Los metadatos también describen
la longitud y composición de cada uno de los registros.
Archivos: Un archivo contiene grupos de registros que se utilizan para
proporcionar información para operaciones, planificación, gestión y toma de
decisiones.
Tipos de archivo: Los archivos se pueden usar para almacenar datos por un
período de tiempo indefinido, o se pueden usar para almacenar datos
temporalmente para un propósito específico. Los archivos maestros y los
archivos de tabla se utilizan para almacenar datos durante un período prolongado.
Los archivos temporales generalmente se denominan archivos de transacciones,
archivos de trabajo o archivos de informes.
Archivos maestros: Los archivos maestros contienen registros para un
grupo de entidades. Los atributos pueden actualizarse con frecuencia,
pero los registros en sí son relativamente permanentes. Estos archivos
tienden a tener registros grandes que contienen toda la información
sobre una entidad de datos. Cada registro generalmente contiene una
clave principal y varias claves secundarias.
Archivos de tabla: Un archivo de tabla contiene datos que se utilizan

para calcular más datos o medidas de rendimiento. Un ejemplo es una
tabla de tarifas de envío que se utiliza para determinar los costos de
envío de un paquete.
Archivos de transacciones: Un archivo de transacciones contiene
datos temporales que se utilizarán para actualizar el archivo maestro.
Una biblioteca mantiene un archivo maestro de todos los usuarios y
libros, y un archivo de transacciones con información sobre cada libro
u otro artículos prestados
Normalización
La normalización es la transformación de almacenes de datos y vistas de
usuario complejas en un conjunto de estructuras de datos más pequeñas
y estables. Además de ser más simples y estables, las estructuras de
datos normalizadas se mantienen más fácilmente que otras estructuras
de datos.
Los tres pasos de la
normalización
Ejemplo
SALES-REPORT
Primera forma normal (1NF):
El primer paso para normalizar
una relación es eliminar los
grupos repetidos.
Segunda forma normal (2NF): En
la segunda forma normal, todos
los atributos dependerán
funcionalmente de la clave
primaria.
TERCERA FORMA NORMAL
(3NF). Una relación normalizada
está en la tercera forma normal si
todos los atributos que no son de
clave son funcionalmente
dependientes de la clave primaria
y no hay dependencias transitivas
(no clave).
Directrices para el diseño de la relación de archivo
maestro / base de datos
Se deben tener en cuenta las siguientes pautas al diseñar archivos maestros o

relaciones de bases de datos:
1. Cada entidad de datos separada debe crear una tabla de base de datos
maestra. No combine dos entidades distintas en un archivo. Por ejemplo, los
artículos se compran a proveedores. La tabla ARTÍCULO MAESTRO debe
contener solo información del artículo, y la tabla VENDOR MAESTRO debe
contener solo información del proveedor.
2. Un campo de datos específico debe existir solo en una tabla maestra. Por
ejemplo, NOMBRE DE CLIENTE debe existir solo en la tabla MAESTRO DE
CLIENTES, no en la tabla PEDIDO ni en ninguna otra tabla maestra. Las
excepciones a esta guía son los campos clave o de índice, que pueden estar en
tantas tablas como sea necesario. Si un informe o pantalla necesita información
de muchas tablas, los índices deben proporcionar el enlace para obtener los
registros requeridos.
3. Cada tabla maestra o relación de base de datos debe tener programas para crear,
leer, actualizar y eliminar (abreviado CRUD) los registros. Idealmente, solo un
programa debe agregar nuevos registros y solo un programa debe eliminar los
registros especificados. Sin embargo, muchos programas pueden ser responsables
de cambiar los campos de datos en el curso de las actividades comerciales
normales. Por ejemplo, un archivo MAESTRO DE CLIENTES puede tener un
campo SALDO ACTUAL que se incrementa en el TOTAL DEL PEDIDO en el
programa de procesamiento de pedidos y se reduce en una CANTIDAD DE PAGO
o una CANTIDAD DEVUELTA de dos programas adicionales.
Restricciones de integridad
Las restricciones de integridad son reglas que rigen el cambio y la
eliminación de registros, y que ayudan a mantener la precisión de los
datos en la base de datos.
Se aplican tres tipos de restricciones de integridad a una base de datos:
1. Integridad de la entidad
2. Integridad referencial
3. Integridad del dominio
Las restricciones de integridad de la entidad son reglas que gobiernan la
composición de las claves primarias. La clave principal no puede tener un valor
nulo y, si la clave principal es una clave compuesta, ninguno de los campos de
componentes de la clave puede contener un valor nulo.
La integridad referencial significa que todas las claves externas en la tabla de
muchos (la tabla secundaria) deben tener un registro coincidente en la tabla
principal. Por lo tanto, no puede agregar un registro en la tabla secundaria
(muchos) sin un registro coincidente en la tabla principal.
Las reglas de integridad del dominio se utilizan para validar los datos, como la
tabla, el límite, el rango y otras comprobaciones de validación.
Anomalías
1. Redundancia de datos
2. Insertar anomalía
3. Anomalía de eliminación
4. Actualizar anomalía
La redundancia de datos ocurre cuando los mismos datos se

almacenan en más de un lugar en la base de datos (excepto las claves
primarias almacenadas como claves externas). Este problema se
resuelve creando tablas que están en 3NF.
Anomalía de inserción: si se inserta una tupla en la
relación de referencia y el valor del atributo de referencia
no está presente en el atributo referenciado, no permitirá la
inserción en la relación de referencia. Por ejemplo, si
intentamos insertar un registro en STUDENT_COURSE
con STUD_NO = 7, no lo permitirá.
Anomalía de eliminación y actualización: si una tupla se
elimina o actualiza de la relación referenciada y el valor del
atributo referenciado se usa mediante el atributo de
referencia en la relación de referencia, no permitirá
eliminar la tupla de la relación referenciada. Por ejemplo, si
intentamos eliminar un registro de STUDENT con
STUD_NO = 1, no lo permitirá. Para evitar esto, se puede
utilizar estos comandos:
ON DELETE/UPDATE SET NULL, ON DELETE/UPDATE
CASCADE:
Pasos para recuperar y presentar datos
Hay ocho pasos en la recuperación y presentación de datos:
1. Elija una relación de la base de datos.
2. Reúna las relaciones.
3. Proyecte columnas de la relación.
4. Seleccione filas de la relación.
5. Derivar nuevos atributos.
6. Indexe u ordene filas.
7. Calcule totales y medidas de desempeño.
8. Presentar los datos
Denormalizacion
La desnormalización es una técnica de optimización de bases de datos en la que agregamos
deliberadamente datos redundantes a una o más tablas. Este proceso le ayudará a evitar múltiples
combinaciones de tablas. En cualquier motor de consulta, las uniones son operaciones costosas,
debe usarlas solo cuando sea absolutamente necesario.
Métodos de desnormalización
* Agregar columnas redundantes
* Agregar columnas derivadas
* Colapsar las tablas
* Instantáneas
* VARRAYS
* Vistas materializadas
Ventajas
• La recuperación de datos será más rápida
• Evita múltiples combinaciones de tablas
• La consulta será fácil de leer ya que hará referencia a menos tablas
Desventajas
• Espacio de almacenamiento adicional
• Las operaciones de actualización e inserción son más costosas
• Redundancia de datos
• Posibles anomalías en los datos
Almacenes de datos
Los almacenes de datos se diferencian de las
bases de datos tradicionales. El propósito de
un almacén de datos es organizar la
información para consultas rápidas y
efectivas. De hecho, almacenan datos
desnormalizados, pero van un paso más allá.
Organizan los datos en torno a temas. Los
datos almacenados en los almacenes de datos
provienen de diferentes fuentes, generalmente
bases de datos que se configuraron para
diferentes propósitos. Almacenan datos
actuales e históricos en un solo lugar que se
utilizan para crear informes analíticos para los
trabajadores de toda la empresa.
Ventajas
• Los almacenes de datos ofrecen soporte adicional para los datos, ya que están diseñados para
rastrear, administrar y analizar información, proporcionando un excelente entorno diseñado para
soporte de decisiones, informes analíticos y minería de datos.
• Un almacén de datos unificado trabaja de la mano con otros programas de análisis para promover
el crecimiento de la empresa.
• Todos los datos de la empresa están constantemente disponibles para fines de análisis y
planificación.
• Los usuarios pueden almacenar grandes cantidades de datos con una gran variedad de parámetros.
Esos datos pueden obtenerse de múltiples fuentes, generalmente no relacionadas.
• Un almacén de datos unificado tiene la capacidad de refinar los datos, eliminando información
redundante, mientras aumenta la calidad general de los datos.
• Mantiene la manipulación de datos al mínimo y la integridad al más alto nivel. Proporciona
información mejorada y actualizada
Online Analytical Processing (OLAP)
El procesamiento analítico en línea (OLAP) es una
categoría de software que permite a los usuarios analizar
información de múltiples sistemas de bases de datos al
mismo tiempo. Es una tecnología que permite a los
analistas extraer y ver datos comerciales desde
diferentes puntos de vista. OLAP es un brazo importante
de Business Intelligence, con bases de datos
relacionales, redacción de informes y minería de datos,
bajo su paraguas. OLAP realiza análisis
multidimensionales de datos comerciales y proporciona
la capacidad para cálculos complejos, análisis de
tendencias y modelado de datos sofisticado.
Minería de datos
La minería de datos es el proceso de encontrar anomalías, patrones y
correlaciones dentro de grandes conjuntos de datos para predecir resultados.
Usando una amplia gama de técnicas, puede utilizar esta información para
aumentar los ingresos, reducir los costos, mejorar las relaciones con los clientes,
reducir los riesgos y más.
Inteligencia Empresarial (Business Intelligence
(BI))
BI (Business Intelligence) es un conjunto de procesos, arquitecturas y tecnologías que
convierten datos sin procesar en información significativa que impulsa acciones comerciales
rentables. Es un conjunto de software y servicios para transformar datos en inteligencia y
conocimiento procesables.
La inteligencia empresarial se basa en la idea de procesar grandes volúmenes de datos. Como
analista de sistemas, es posible que se le solicite que cree sistemas que admitan BI, como un
almacén de datos que se considera como la entrada a la analítica. O puede estar involucrado en
la creación de gráficos o incluso hojas de cálculo que transmiten BI a los usuarios.
Las herramientas de inteligencia empresarial son fundamentales para una
medición eficaz mediante el uso de indicadores y métricas clave de
rendimiento en todos los niveles de una organización, en todas las industrias.
Las herramientas de inteligencia empresarial permiten a las empresas ver datos
históricos y actuales en contexto, lo que permite una mejor toma de decisiones
y / o desarrollo de predicciones en función de sus objetivos comerciales.
Pasos
• Análisis del comportamiento de los clientes
• patrones de compra y tendencias de ventas
• Medición, seguimiento y predicción del rendimiento financiero y de ventas
• Planificación y previsión presupuestaria y financiera
• Seguimiento del rendimiento de campañas de marketing
• Optimización de procesos y rendimiento operativo
• Mejora de la eficacia de la cadena de suministro y la entrega
• Análisis de datos de comercio electrónico y web
• Relación con el cliente
• Gestión Análisis de riesgos
• Análisis de impulsores de valor estratégico
Business analytics (BA) es un término que cubre las ideas del uso de big data
junto con una variedad de herramientas analíticas de base cuantitativa (como
estadísticas y modelos predictivos) para responder preguntas de administración
sobre tendencias y preguntas hipotéticas. Su salida puede utilizarse como entrada
para los tomadores de decisiones o como entrada para sistemas computarizados.
Business Analytics se enfoca al futuro, es decir, facilita la creación de una visión
futurible basado en modelos predictivos que influyen en la toma de nuevos
caminos y estrategias. El BA no estudia estadísticas internas como el BI, sino
que se sirve de diferentes fuentes: tendencias o indicadores macroeconómicos.
Text Analytics
El análisis de texto es el proceso de transformar documentos de texto
no estructurados en datos estructurados utilizables. El análisis de texto
funciona dividiendo oraciones y frases en sus componentes y luego
evaluando el papel y el significado de cada parte mediante el uso de
complejas reglas de software y algoritmos de aprendizaje automático.
Los analistas de datos y otros profesionales utilizan herramientas de minería de
texto para obtener información útil y conocimientos ricos en contexto a partir de
grandes volúmenes de texto sin procesar, como comentarios en redes sociales,
reseñas en línea y artículos de noticias. De esta manera, el software de análisis de
texto forma la columna vertebral de los programas de inteligencia empresarial,
incluida la voz del cliente.
El análisis de texto proporciona
información para los miembros de
la organización que desean tener un
enfoque rápido y visual, pero
decididamente cualitativo, para
analizar los datos de texto. Una
poderosa herramienta de software
de análisis de texto llamada
Leximancer ofrece un enfoque muy
sencillo, ya que básicamente no se
requiere configuración.

Capítulo 13

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capítulo 13

Cargado por

Copyright:

Formatos disponibles

Capítulo 13:

Antonio Maldonado Pinzón

Archivos de tabla: Un archivo de tabla contiene datos que se utilizan

Se deben tener en cuenta las siguientes pautas al diseñar archivos maestros o

La redundancia de datos ocurre cuando los mismos datos se

También podría gustarte