Está en la página 1de 56

CAPÍTULO

Bases de datos y almacenes


de datos

Objetivos de aprendizaje
Explicar la naturaleza de los recursos de información en términos de estructura y calidad, y muestran cómo
los metadatos se pueden utilizar para describir estos recursos.

Comparación de los sistemas de procesamiento de archivos de la base de datos, lo que explica las ventajas
de la base de datos.

Describir cómo se planifica una base de datos relacional, accesible, y logró, y cómo funciona el proceso de
normalización.

Explicar por qué surgen múltiples bases de datos, y cómo la gestión de datos maestros ayuda a abordar el reto
de la integración.

Describir cómo se crea un almacén de datos, y explicar los desafíos y valor de los datos
grandes.

Explican cómo las cuestiones de propiedad y de elementos humanos afectan a la gestión


de información.

Una simulación de toma de decisiones en línea,


interactivo que refuerza los contenidos del capítulo y
utiliza términos clave en contexto se pueden
encontrar en MiMALLaboratorio™.

Introducción
Cada organización está inundado de INFORMACIÓN refugios, hospitales y servicios de rescate de animales.
recursos de todo tipo, y se necesita un esfuerzo Ellos han estado manteniendo un registro de todos sus
considerable para reunir a las personas, la tecnología y datos utilizando ERS bind- de tres anillos y notas post-it,
los procesos necesarios para gestionar los recursos de pero los errores son comunes. Uno en volumen de unteer
manera eficaz. En este capítulo se explora la estructura que se inscribieron para trabajar en un comedor de
y calidad de la información, y cómo la gente organizar, beneficencia se le dio la dirección equivocada, y terminó
almacenar, manipular y recuperar la misma. vagando por perdido en un almacén abandonado. Lo
En la simulación en línea llamado “Voluntario Ahora!” Voluntarios Ahora! necesita es una base de datos que se
Va a ayudar a un grupo de estudiantes universitarios que ajuste a su misión, que el personal y los vo- luntarios
han sido prueba- ing para que coincida con las personas pueden acceder desde sus ordenadores portátiles y
que quieren ofrecer su tiempo a organizaciones que teléfonos inteligentes en cualquier momento del día.
necesitan sus habilidades, como personas sin hogar Usted va a aprender mucho acerca de las bases de datos
a medida que ayudarles a diseñar él.
Capítulo 4 Bases de datos y almacenes de datos 95

MiMALLaboratorio Simulación en
línea
Voluntarios
Ahora!
Un juego de simulación en el diseño de la base de datos para un servicio de búsqueda
de Voluntarios

nformación recursos son fundamentales para el éxito La información en pantalla de algún tipo son escasos,
de cualquier organización. Y estos recursos están quizá la taza de café o grapadora (Figura 4-1).
creciendo a un ritmo ing astound-. Los datos La gente entiende que alguna información es
almacenados en formato digital se multiplican por todas poderosa y valiosa, pero es mucho más basura inútil que
partes en una amplia gama de medios físicos, que van debe ser lanzado. Necesitamos una estrategia para
desde los ordenadores propios de la organización a los gestionar los recursos de información de manera que lo
hosts que pueden estar ubicados en cualquier parte del que importa es seguro, organizado y de fácil acceso para
planeta. Los datos también residen en los DVD, CD-ROM los administradores, empleados, clientes, proveedores y
y cintas, y las cámaras digitales de las personas en el otras partes interesadas. Este enorme desafío es el tema
interior, teléfonos celulares, iPods, unidades flash y en un de este capítulo.
llavero. En su propio espacio de trabajo, por ejemplo,
objetos queno almacene ni
96 Introducción a los
Sistemas de
Información

FIGURA 4-1
El espacio de trabajo
moderno: Un almacén de
información.

Explicar la naturaleza de los recursos


de información en términos de
estructura y calidad, y muestran cómo
los metadatos se pueden utilizar para
describir estos recursos.

Fuente: Kathy Burns-Millyard / Shutterstock.

La naturaleza de los recursos de información


Estructurada, no estructurada, y la información semi-estructurada
Cada organización se basa en información estructurada, Del tipo que generalmente se considera que
los hechos y los datos (Figura 4-2). Se ordenó razonable, ya que puede ser dividido en partes
componentes y organizados en jerarquías. Su compañía de tarjeta de crédito, por ejemplo, mantiene
su registro de cliente en un formato estructurado. Contiene su apellido, nombre, dirección, número
de teléfono, dirección de correo electrónico y otros datos. También mantendría sus compras, cada
uno con una fecha de la operación, descripción, de débito o de crédito cantidad, y los números de
referencia.
relaciones directas entre los elementos de datos son también relativamente fáciles de identificar.
pedido de un cliente estaría relacionado con el registro del cliente, y los artículos PUR perseguido
como parte de la orden estaría relacionado con la propia orden. Este tipo de información es el
corazón de los sistemas de información operativos de una organización, con registros almacenados
electrónicamente de clientes, pedidos, facturas, transacciones, registros de empleados, mesas de

FIGURA 4-2 Tipo de información Ejemplo de Recursos


Tipos de recursos de La información Una transacción de venta con campos claramente definidos para
información. estructurada la fecha, número de cliente, número de artículo y la cantidad
La información no Manila carpeta que contiene artículos variados sobre una
estructurada demanda, tales como fotos, notas escritas a mano, artículos de
periódico, o declaraciones juradas
información semi- Una página web con un título, subtítulo, el contenido y unas
estructurada cuantas imágenes
envío, y tipos similares de información. Es el tipo que las bases de datos están diseñados para
almacenar y recuperar.
A diferencia de, la información no estructurada no tiene una estructura inherente o el orden, y las
partes no se pueden vincular fácilmente juntos, a no ser de relleno en una carpeta de manila o caja.
Es más difícil de romper, clasificar, organizar y consulta. Considere un com- pañía involucrado en
un pleito delicado. La información relacionada con ese podría incluir cartas, correos electrónicos,
feeds de Twitter, notas post-it, mensajes de texto, minutos, llamadas telefónicas, videos, mensajes
de Facebook, hojas de vida, o fotos de reuniones.
Capítulo 4 Bases de datos y almacenes de datos 97

Dibujo información fuera de temporada donde no estructurados también presenta desafíos. Una
empresa de catering podría tener un cuarto trasero apilada con cajas que contienen información no
estructurada en cientos de contratos. Si el propietario quiere saber qué contratos fueron por encima
del presupuesto, y luego ver que se encargó de los, cada caja tendría que ser abierto. Debido a que
las colecciones no estructurados no tienen medios para hacer cumplir las normas sobre lo que deben
ser incluidos tipos de información, el propietario puede encontrar poco para seguir adelante.
Existe una vasta área gris entre los extremos de informa- ción estructurada y no estructurada;
este es el área dentro de la cualinformación semiestructurada caídas. Este tipo incluye información
que muestra al menos algún tipo de estructura, tales como páginas web que tienen fechas, títulos y
autores. Las hojas de cálculo también pueden ser semi-estructuradas, especialmente cuando son
creados por diferentes personas para realizar un seguimiento de la misma clase de información. Un
vendedor, por ejemplo, podría poner el teléfono del trabajo de un contacto y un teléfono móvil en
diferentes columnas identificadas como “teléfono del trabajo” y “móvil”, pero otro podría
mantenerlos en el mismo UMN COL- bajo el título “Móviles”. Recursos como éstos Don 't tienen
la estructura fuerte, forzada por la planificación anticipada, para definir claramente las entidades y
sus relaciones, y que carecen de controles sobre la integridad y el formato. Sin embargo, estos datos
son más fáciles de consultar y combinar que la variedad no estructurada.

metadato
s datos acerca de los datos, y se aclara la naturaleza de la información. Para obtener
metadatos son
información estructurada, metadatos describen las definiciones de cada uno de los campos, tablas y
sus relaciones. Para obtener información semi-estructurada y no estructurada, los metadatos se
utilizan para describir las propiedades de un documento u otro recurso, y son especialmente útiles
porque capa alguna estructura en la información que es menos fácilmente categorizado y clasificado.
base de datos de YouTube, por ejemplo, contiene metadatos acerca de cada uno de sus videos que
se pueden buscar y ordenar. catálogo de fichas de una biblioteca proporciona metadatos sobre los
libros, tales como donde son archivados físicamente. documentos de procesador de palabras son
más fáciles de organizar si se incluye el título, autor y asunto en sus propiedades.
El popular sitio web para compartir fotos Flickr se basa en los metadatos para buscar su enorme
colección de fotos. fotos de la escena de playa de un padre, con nombres tales como “image011.jpg”,
se vuelven más accesibles, significativa,F así compartible para amigos y familiares cuando se añaden
metadatos a sus propiedades, tales como la TIPubicación, tema, fecha de captura, y fotógrafo ( Figura
PRODUCTIVIDAD
4-3). Adición de metadatos a las propiedades de sus documentos, fotos, vídeos y hace
que sean más fáciles de buscar y localizar más tarde. Haga clic en el nombre del
archivo por lo general lleva a un menú que incluye Propiedades. También puede
eliminar la información de propiedades de un archivo para que otros usuarios no lo
verán.
V

La calidad de la información
No toda la información tiene una alta calidad, como cualquier persona que se encuentre
navegando por la red sabe. Estas son las características más importantes que afectan a la calidad:
► Exactitud. Los errores en las fechas de nacimiento, ortografía, o el precio de reducir la
calidad de la infor- mación.
► Precisión.Redondeo a la milla más cercana podría no reducir la calidad tanto cuando se
estima el coche al centro comercial. Sin embargo, para las encuestas de propiedad, “cerca de
2 millas” es inaceptable.

información estructurada información semiestructurada categoría de metadatos


Hechos y datos que son razonablemente información que se halle entre la información Los datos acerca de los datos que aclara la
ordenados, o que se pueden dividir en partes estructurada y no estructurada. Incluye naturaleza de la información.
componentes y organizados en jerarquías. hechos y datos que muestran al menos
alguna estructura, como las páginas web y
la información no estructurada documentos, que llevan fechas de creación,
Información que no tiene una estructura títulos y autores.
inherente o el orden, y las partes no se pueden
vincular fácilmente juntos.
98 Introducción a los Sistemas de Información

FIGURA 4-3
Los metadatos para una foto foto de metadatos Descripción
escena de la playa. título de la foto escena de la playa del océano
Fecha que se tendrá 12/15/2011

Tipo de licencia Reino libre


Fotógrafo Felipe DiMarco
Clave wordsOcean, olas, al aire libre, sol, playa, vacaciones,
natación, nadadores, pesquera, de surf

Fuente: Rigucci / Shutterstock.

► Lo completo.Omitiendo el código postal en el registro de dirección del cliente podría no ser


un problema, ya que la cremallera se puede determinar por la dirección. Pero dejando fuera de
la casa número retrasaría la orden.
► Consistencia.Los informes que muestran “ventas totales por región” pueden entrar en conflicto
debido a que las per- sonas que generan los informes están utilizando definiciones ligeramente
diferentes. Cuando los resultados son inconsistentes, la calidad de ambos informes es que se
trate.
► Oportunidad.información obsoleta tiene menos valor que la información puesta al día y por lo
tanto es de menor calidad a menos que busca las tendencias históricas. A la definición real de
lo que es hasta a la fecha varía. En el comercio de acciones, la puntualidad se mide en ciones
fracciones de un segundo.
► Parcialidad.información sesgada carece de objetividad, y que reduce su valor y calidad. Para
hacer las ventas parecen más altos, un administrador puede optar por incluir los pedidos
cancelados, aunque el CEO podría no ser satisfechos.
► Duplicación.La información puede ser redundante, lo que resulta en resúmenes engañosas y
exageradas. En los registros de clientes, la gente puede fácilmente aparecer más de una vez si
sus cambios de dirección.
Los datos recogidos por las encuestas en línea ilustran muchos de los problemas relacionados
con la calidad de la información.1La muestra de personas que realmente respondan es parcial, y la
gente puede salir antes de completar o dar vuelta en más de una encuesta. Las encuestas virtuales
Ltd., una compañía que se especializa en la investigación basada en web, descubrió que una persona
ha completado una encuesta en línea 750 veces porque un boleto para el sorteo se ofrece como un
incentivo.2 Para evitar depender de datos de mala calidad por el estilo, los gerentes deben definir lo
que constituye la calidad de la información que necesitan.
Capítulo 4 Bases de datos y almacenes de datos 99

Comparación de los sistemas de


Gestión de la información: a partir de procesamiento de archivos de la
archivadores Para la base de datos base de datos, lo que explica las
ventajas de la base de datos.
El ingenio humano se aplicó a los desafíos de la gestión de la información mucho antes de la era
digital. Antes de Edwin Siebels inventó el archivador lateral en 1898, las empresas suelen organizar
documentos, poniéndolos en sobres, en filas de pequeños casilleros que se alineaban en las paredes
enteras de arriba a abajo. El cambio a las carpetas de manila verticales, bien ordenados en cajones
del gabinete, era bastante una mejora para el mantenimiento de registros, y muy apreciada por los
empleados de archivo (Figura 4-4). La verdadera revolución, sin embargo, se produjo en la década
de 1960 cuando los equipos entraron en la imagen. Estos se basaron en una estrategia de
organización en torno al concepto del registro.

Tablas, registros y campos


UNA mesa es un grupo de registros para la misma entidad, como los empleados, productos, libros,
videos o alguna otra “cosa” que tiene significado para las personas. losgrabar es una fila de la tabla,
y que representa una instancia de la entidad de una sola persona, por ejemplo. El registro se compone
de atributos de esa cosa, y cada uno de los atributos se llama campo. Los campos son las columnas
de la tabla. Los campos que normalmente contienen datos numéricos o de texto, o una combinación
de los dos. Cada campo debe tener una definición de datos que especifica propie- dades del campo,
tales como el tipo de datos que llevará a cabo (por ejemplo, alfabético, alfanumérico, o numérico),
y el número máximo de caracteres que puede contener. También incluye reglas que pudieran
restringir lo que pasa en el campo, o hacer que el campo sea necesario. FIGURA 4-4
gestión de la información
acerca temprana.

Fuente: Edwin Verin / Shutterstock y deepspacedave / Shutterstock.

mesa campo definición de datos


Un grupo de registros para la misma entidad, Un atributo de una entidad. Un campo puede Especifica las características de un campo, tales
como los empleados. Cada fila es un registro, y contener datos numéricos o de texto, o una como el tipo de datos que llevará a cabo o el
los campos de cada registro están dispuestos en combinación de los dos. número máximo de caracteres que puede
columnas de la tabla. contener.
grabar
Un medio para representar una entidad, lo que
podría ser una persona, un producto, una orden
de compra, un evento, un edificio, un vendedor,
un libro, un vídeo, o alguna otra “cosa” que tiene
significado para las personas. El registro se
compone de atributos de esa cosa.
100 Introducción a los Sistemas de Información

FIGURA 4-5
definición de datos para el campo “fecha de nacimiento” en MS Access.

Consideremos, por ejemplo, una tabla que contendrá los registros de empleados, creado usando
MS Access (Figura 4-5). Los nombres de campo pueden incluir identificación de empleado,
apellido, nombre, fecha de nacimiento, sexo, correo electrónico y teléfono, y el tipo de datos aparece
al lado de cada nombre de campo. Las propiedades para BirthDate aparecen en la mitad inferior de
la figura. El diseñador decidió hacer que el campo es necesario, asegurarse de que los usuarios entran
en ella como MM / DD / AAAA, y sólo permiten fechas que son menos de la fecha de hoy.

La subida y la caída de los sistemas de archivos de procesamiento


Inicialmente, los registros electrónicos fueron creados y almacenados como archivos de
computadora, y los programadores escribieron los programas de ordenador para agregar, eliminar o
editar los registros. Cada departamento mantiene sus propios registros con sus propios ficheros
informáticos, cada uno que contiene la información que se requiere para las operaciones. Por
ejemplo, la oficina de nómina mantenido registros de personal y tenía sus propios programas de
computadora para mantener y gestionar su conjunto de archivos. Al final del mes, cuando llegó el
momento de generar los cheques de nómina, los programas informáticos del sistema de nómina
leerían cada registro en el archivo e imprimir cheques y comprobantes de pago para cada persona,
utilizando la infor- mación contenida en los archivos de ese departamento . Este tipo de actividad se
denominaprocesamiento por lotes. El programa está realizando secuencialmente las operaciones en
cada registro de un gran lote.
Cuentas por cobrar y pagar, de personal, nómina, inventario y fueron los primeros eficiaries Ben
de la era digital. En comparación con el método manual de generar una nómina, en la que las
deducciones y los impuestos se calculan a mano y cada cheque se escriben de forma individual, el
procesamiento por lotes mensual de cheques generados por ordenador fue revolucionario. Sin
embargo, no pasó mucho tiempo para los problemas salgan a la superficie como otras oficinas
comenzaron a desarrollar sus propios sistemas de procesamiento de archivos. La comprensión de lo
que salió mal es crucial para comprender por qué la base de datos ofrece muchos beneficios.
La redundancia de datos y la inconsistencia Debido a que cada conjunto de programas de ordenador
operado en sus propios registros, mucha información era redundante e inconsistente (Figura 4-6). El
registro de la oficina de nómina podría incluir su nombre como Annamarie, pero la oficina de
personal que se encarga de beneficios que muestra como ANNMARIE. Además, la carga de trabajo
Capítulo 4 Bases de datos y almacenes de datos 101

adicional implicado en los registros redundantes ING resolv- no era trivial, ya menudo nunca se
realiza.
Capítulo 4 Bases de datos y almacenes de datos 8

FIGURA 4-6
problemas de redundancia de
datos. sistemas de procesamiento
Nombre del empleado: de archivos separados a menudo
Smith, Annmarie V. contienen datos redundantes e
inconsistentes.
Nombre de empleado:
Annamarie Vorgas-Smith

Nombre de empleado:
Smith, Annmarie Vorgas

Nómina Contabilidad Ventas Humano


de recursos
sueldos

La falta de integración de datos La integración de los datos de los sistemas separados fue una lucha
(Figura 4-7). Por ejemplo, el sistema de nómina podría mantener información sobre el nombre, la
dirección y el pago de la historia, pero el género y el origen étnico se encuentran en los registros de
personal. Si un director quería comparar las tasas de pago por el origen étnico, nuevos programas
fueron escritos para hacer coincidir los registros. Esta integración torpe afecta a los clientes, además,
que de humos cuando no pueden resolver las inconsistencias en sus cuentas (Figura 4-8).
Las definiciones de datos incoherentes Cuando los programadores escriben código para manejar
archivos, las diferencias en formato de fluencia en. Los números de teléfono pueden incluir los
guiones y tener el formato de un campo de texto en un solo sistema, pero ser tratados como números
en otra. Un problema más sutil implica la forma en que la gente realmente optan por utilizar el
sistema. Las definiciones de datos pueden parecer similares en todos los sistemas, pero se utilizan
de manera diferente y resúmenes convertido engañosa. Por ejemplo, los empleados en el
departamento de personal a un menor compras de software categorizar la cadena como
“ordenadores”. Sus compañeros de trabajo en las ventas de software prefieren agrupar con lápices,
grapadoras, y los relojes como “sumi- nistros,” porque se necesita menos papeleo para justificar la
compra. El director general ha lamentado que no había manera de que alguien podría saber cuánto
esta cadena estaba gastando en tecnologıa debido al elemento humano en sistemas de información
(Figura 4-9).
La dependencia de datos Estos primeros sistemas se convirtieron en pesadillas de mantenimiento
debido a que los pro- gramas y sus archivos eran tan interconectados y dependientes uno del otro.
Los programas de todos definidos los campos y sus formatos y reglas de negocio fueron codificados
de forma rígida o incrustados en los programas. Incluso un pequeño cambio para adaptarse a una
nueva estrategia de negocios tomó mucho trabajo. El personal de TI estaban constantemente
ocupado, pero se caía detrás de todos modos.
Entre los inconvenientes para el enfoque de procesamiento de archivos condujeron a una mejor
manera de organizar los datos estructurados, uno que se basa en la base de datos.
FIGURA 4-7
Información en los sistemas de
procesamiento de archivos
separados es difícil de integrar. Por
Nombre de empleado: ejemplo, un informe que enumera
Guarino, Theodore (Doug) las tarifas por hora por género
necesitaría programa- adicional
Genero M
ming esfuerzo en este negocio.

Nómina Humano
de recursos
sueldos

procesamiento por lotes


El proceso de ejecución de operaciones de
forma secuencial en cada registro en un gran
lote.
102 Introducción a los Sistemas de Información

FIGURA 4-8
sistemas de procesamiento de Nombre del cliente:
archivos independientes conducen Jarrod, Roberto
a una interfaz de clientes
fragmentada, frustrando a los
clientes que tienen que ponerse en
contacto con varias oficinas para
enderezar inconsistencias. Nombre del cliente:
Jarrod, Robert

Nombre del cliente:


Jarrod, Robert &
Jarrod, Stephanie

Nombre del cliente:


Jarrod, Robert

Fuente: Foto: William Casey / Shutterstock.

FIGURA 4-9
Cuando las definiciones de datos son Código de objeto Cantidad Categoría Descripción
inconsistentes, el significado de los Computadores de
Ventas 4211 1888.25 Ordenadores escritorio
distintos campos variará entre los Suministros para software de edición de
Ventas 4300 249.95
departamentos y summa- Ries van a computadora imágenes
ser engañosa. Observe cómo los tres
Ventas 4100 29.99 Material de oficina Unidad flash
departamentos utilizan categorías de
diferentes maneras. Personal 4211 59.00 Ordenadores software Stastical
Suministros para
Personal 4300 14.95 computadora Unidad flash
Personal 4211 2500.21 Ordenadores Computadoras portatiles
Almacén 4211 59.500,00 Ordenadores Servidor web
Impresora / copiadora /
Almacén 4211 2500.00 Ordenadores escáner / fax

Bases de datos y software de Base de Datos


La base de la gestión de la información actual se basa en la base de datos y el software que lo
gestiona. losbase de datos es una colección integrada de la información que se relaciona
lógicamente y se almacena de una manera tal como para minimizar la duplicación y facilitar la
recuperación rápida. Sus principales ventajas sobre los sistemas de procesamiento de archivos
incluyen:
► Menor redundancia e inconsistencia
► Mejora de la integridad de la información y la precisión
► Mejora de la capacidad de adaptarse a los cambios
► Mejora del rendimiento y la escalabilidad
► Seguridad incrementada
software de gestión de base de datos (DBMS) se utiliza para crear y gestionar la base de
datos. Este software proporciona herramientas para garantizar la seguridad, la replicación,
recuperación y otras tareas rias y limpieza y administrativas. El DBMS sirve como una especie
de puerta de entrada a la base de datos
Capítulo 4 Bases de datos y almacenes de datos 103

Uno a uno (1: 1) FIGURA 4-10


Los tipos de
relaciones.

Uno-a-muchos (1:
N)

Muchos-a-muchos (M:
N)

en sí, y como gerente para la creación de la manipulación, la optimización del rendimiento, la


transacción Processing, mantenimiento general, los derechos de acceso, cancelación, y las
copias de seguridad.
Arquitectura de base de datos Para ser más útil, una base de datos debe manejar tres tipos de
buques PARENTESCO con un mínimo de redundancia (Figura 4-10):
► Doce y cincuenta y nueve de la noche
► Uno a muchos
► Muchos a muchos
La relación uno-a-uno es relativamente fácil de acomodar, e incluso los sistemas de archivos
ING proceso- pueden manejar. Por ejemplo, cada persona tiene una y sólo una fecha de nacimiento.
La relación de uno a varios entre registros es un poco más difícil. Una persona puede tener uno o
más dependientes, por ejemplo, o una o más personas a cargo de él o ella. La relación de muchos a
muchos también es más complicado para apoyar. Esto podría implicar una situación en la que una
persona podría estar trabajando en cualquier número de proyectos, cada uno de los cuales pueden
tener cualquier número de empleados asignados a la misma.
Anteriores arquitecturas de bases de datos ofrecen diferentes estrategias para organizar y
registros de enlace (Figura 4-11). Por ejemplo, de una manera intuitiva para organizar la información
es seguir el organigrama, y la base de datos jerárquica fue lo que hizo (Figura 4-12). Este enfoque
ha funcionado bien para las relaciones de uno a muchos, pero tropezó cuando muchos-a-muchos
enlaces complicado la carta, por ejemplo cuando una persona trabajó durante dos jefes. La base de
datos de trabajo NET (Figura 4-13) tuvo una mayor flexibilidad para vincular las entidades que no
se ajustaba a lo largo de una jerarquía ordenada, y podían manejar las relaciones muchos-a-muchos.
Pero enfoque de la otra inventiva modelo relacional-pronto ganó.
la base de datos relacional EFCodd, un matemático británico que trabajaba en IBM, inventó el base
de datos relacional, Que organiza la información en tablas de registros que están relacionados
base de datos software de gestión de base de datos (DBMS) base de datos relacional
Una colección integrada de información que se Software utilizado para crear y gestionar una El modelo de base de datos ampliamente
relaciona lógicamente y se almacena de tal base de datos; También proporciona utilizado que organiza la información en tablas
manera que se minimice la duplicación y facilitar herramientas para garantizar la seguridad, la de registros que están relacionados entre sí
la recuperación rápida. replicación, recuperación y otras tareas mediante la vinculación de un campo en una
administrativas y de mantenimiento. tabla a un campo de otra tabla con datos
coincidentes.
104 Introducción a los Sistemas de Información

FIGURA 4-11 Las arquitecturas de bases de


Tipos de arquitecturas de datos tempranos
bases de datos. Jerárquico Se asemeja a un organigrama o un árbol al revés (figura 4-12).
Red Se asemeja a una celosía o web y no el árbol al revés. Los registros pueden ser
vinculados de diversas maneras, apoyando muchos-a-muchos relaciones (Figura 4-13).

Las arquitecturas de bases de datos


modernas
Relacional Mantiene registros en filas dentro de las tablas, y los enlaces entre las tablas se crean
mediante la vinculación de un campo en una tabla a un campo de otra tabla con datos que
coinciden (figura 4-14). La base de datos relacional es el más utilizado.
Orientado a Representa la información en la forma de los objetos, y utiliza los lenguajes de
objetos programación orientados a objetos para acceder a ellos; se utiliza sobre todo para la
organización de los tipos de datos complejos, tales como gráficos y multimedia.
XML Organiza los datos utilizando etiquetas XML; utilizado especialmente para la gestión de
contenidos web y recursos basados en la web.

FIGURA 4-12
base de datos Hospital
jerárquica.

Medicina Pediatría Patología


Interna

FIGURA 4-13
base de datos de
Medicina
Pediatría Patología
la red. Interna

el uno al otro mediante la vinculación de un campo en una tabla a un campo de otra tabla con datos
que coinciden (figura 4-14). El enfoque separa los datos de los caminos para recuperarlos, con lo que
la base de datos de menos dependientes del hardware y su sistema operativo en particular. Su ción
inventores finalmente llegó a dominar el campo, a pesar de que no fue bien recibido en un principio,
sobre todo por sus jefes en IBM. Esa empresa había invertido tanto en la venta y el apoyo a su mayor
base de datos jerárquica y los ordenadores centrales que siguió corriendo, y ejecutivos de IBM fueron
bastante críticos del enfoque de Codd. Sin embargo, la base de datos relacional sobrevivió y floreció,
y ahora es un estándar en la mayoría de las organizaciones. 3
Para ver cómo funciona la base de datos relacional, consideran los cuadros sobre los estudiantes
en la figura 4-14. La primera tabla muestra la identificación de estudiante, apellido, nombre y fecha
de nacimiento. La segunda tabla muestra registros de estudiantes con los campos que muestran el
número de registro, identificación de estudiante, código de clase y grado. Debido identificación del
Capítulo 4 Bases de datos y almacenes de datos 105

estudiante es en ambas tablas, pueden ser unidos entre sí.


106 Introducción a los Sistemas de Información

estudiante FIGURA 4-14


s
Identificació Fecha de Base de datos
n del Apellido Nombre de pila nacimiento relacional.
Estudiante Kevin
54001 Chong 01/12/1987

65222 Danelli Douglas 05/01/1986

54555 Aparejo Stephanie 12/11/1978

25553 Washington Nikia 10/02/1981


Louis
96887 Pérez 07/25/1982

Las
inscripciones
Número de registro Identificació Código de clase Grado
n del
10011 20083BMGT300A UNA
Estudiante
54001
10012 20083HIST450B do
54001
10013 20083ECON200F segund
54001
o
10014 20083ECON200F UNA
54555
10015 20083HIST410B yo
96887

Si tiene Microsoft Access en su ordenador personal, tiene un descendiente del ingenioso enfoque
de Codd. Otros DBMS relacionales comunes incluyen Microsoft SQL Server, Oracle y MySQL.
Estas bases de datos relacionales continúan mejorando, añadiendo soporte para archivos de gran
tamaño que contienen imágenes, vídeo o audio. Los sistemas relacionales ahora también son
compatibles con los tipos de datos XML, así como la información espacial y coordenadas de
mapeado.

Describir cómo se planifica una base


desarrollo y gestión de datos relacional, accesible, y logró,
Una base de datos relacional y cómo funciona el proceso de
normalización.
La base de datos es el repositorio central de información, un activo de misión crítica de cualquier
premio enter-. Para ver cómo una base de datos está diseñado y creado, vamos a ayudar a Devon
Degosta y sus colegas a construir la base de datos para apoyar DD-Designs, una pequeña empresa
que ofrece servicios de diseño web.

La planificación del Modelo de Datos


El primer paso es sentarse con Devon y su equipo para desarrollar el modelo de datos, Que
identifique los valores que tipo de información que desean realizar un seguimiento y cómo se
relaciona. El proceso se inicia mediante la definición de todas las entidades que se incluirán, sus
atributos y sus relaciones. Un proceso difícil, incluso para una pequeña empresa, este paso de
construcción de modelos es fundamental porque la base de datos será la columna vertebral de la
empresa. Además, la planificación pasado tiempo recoge benefi- cios en tiempo guardados hacer
cambios más adelante.
entidades y atributos ¿A qué entidades deben estar representados en este pequeño negocio?
Empleados, clientes, proyectos, facturas, eventos y transacciones son todos los candidatos, y
muchos más pueden venir a la mente a medida que trabajamos con Devon y su equipo para entender
el negocio y sus estrategias. Cada una de las entidades en el modelo se convertirá en una tabla,
llamada con un sustantivo que describe los datos contenidos en la entidad. Se tendrá atributos, o
campos, que describen

modelo de datos
Un modelo utilizado para la planificación de la
base de datos de la organización que identifica lo
que se necesita tipo de información, lo que las
entidades se creará, y cómo se relacionan entre
sí.
Capítulo 4 Bases de datos y almacenes de datos 107

la entidad. “Empleados”, por ejemplo, es una entidad relativamente sencillo con atributos como el
número de identificación del empleado, apellido, nombre, fecha de nacimiento, dirección de correo
electrónico y número de teléfono. La entidad “Cliente” podría incluir atributos tales como el nombre
de la empresa, número de identificación de cliente, persona de contacto, número de teléfono de la
compañía y la dirección de la empresa. Una sola instancia de cada entidad será un registro. Términos
tales como “filas” y “columnas” también se utilizan para describir los componentes de una mesa,
pero los registros y campos son
“l
ampliamente conocidos.
TIP PRODUCTIVIDAD
Las claves primarias y la singularidad
Cuando le das nombres a tablas y campos, utilizar una convención de nomenclatura
coherente para que sea más fácil de recordar los nombres y para que otros puedan Cada registro de una tabla debe tener
entender su significado. Una convención común es "CamelCase", que combina las letras una Clave primaria, Que es un campo o
mayúsculas y minúsculas para aclarar palabras compuestas, tales como Apellido o un grupo de campos, que hace que el
SalesRegion. jorobas del camello son las letras mayúsculas en la cadena. Otra registro único de esa tabla. Devon
convención separa palabras con un guión.
jl sugiere usar el apellido de cada per-
sona como la clave principal ya que es
único. Pero a medida que la organización crece, puede haber dos personas con el mismo apellido.
Devon asiente con la cabeza, pensando que podría invitar a su hermano a unirse a la compañía.
Algunas organizaciones han utilizado números de Seguro Social (SSN) para identificar de forma
única los empleados, pero que no tiene inconvenientes serios. Los ciudadanos no estadounidenses
podrían no tienen uno, y ese número es confidencial y no deben ser puestos en libertad.
los desarrolladores de bases de datos evitan información significativa para las claves primarias,
como un SSN o nombre. Si la tecla está mal escrita o cambia, fijándola en toda la base de datos es
un asunto com- plicado. Muchos de los sistemas que simplemente usan numeración automática para
asignar claves primarias, en las que el DBMS asigna números incrementales a los registros a medida
que se crean. Este enfoque garantiza que cada registro tiene una clave principal única y que nadie
accidentalmente da el mismo número de identificación a dos personas diferentes (Figura 4-15).
Debido a que el autonumber no tiene otro sentido, no habría ninguna razón para cambiar cada vez
que.
normalizar el modelo de datos A continuación, trabajamos con Devon para perfeccionar las
entidades y sus relaciones. Este proceso de múltiples pasos se llama normalizaciónY que minimiza la
duplicación de la información en las tablas-una condición que puede causar muchos tipos de
problemas que disminuyen la integridad de la base de datos. También ayuda a evitar inconsistencias
que pueden ocurrir cuando los usuarios intentan insertar, modificar o eliminar datos.
En la tabla empleados, por ejemplo, un objetivo de la normalización es hacer que cada atri- buir
funcionalmente dependientes sobre el número de identificación de empleado, que identifica de forma
única cada empleado. dependencia funcional significa que para cada valor de identificación de
empleado, no es exactamente
FIGURA 4-15
claves primarias y externas en las
tablas Empleados y
departamentos.

DepartmentID DepartmentName DepartmentPhone


108 Introducción a los Sistemas de Información
Capítulo 4 Bases de datos y almacenes de datos 14

un valor para cada uno de los atributos incluidos en el registro, y que la identificación del empleado determina ese valor. Para DD-Designs,
Devon está de acuerdo en que no habrá un solo empleado dirección de correo electrónico, una fecha de nacimiento, un apellido, un nombre,
y un departamento. En otra empresa, como el teatro, que podría no funcionar. Actores trabajan bajo varios nombres artísticos.
Devon también quiere añadir el número de teléfono del departamento, y consideramos en primer add-ing como un campo a la tabla
empleados. Pensándolo bien, sin embargo, DepartmentPhone no depende funcionalmente de identificación de empleado, pero en el
departamento. Si lo ponemos en la tabla empleados, puede que no sea demasiado engorroso con pocos empleados. Con cientos, sin
embargo, crearíamos una redundancia considerable. En su lugar, vamos a normalizar cruzando DepartmentPhone de la tabla empleados,
y la adición de un campo de Empleados llamada DepartmentID. Entonces se crea una nueva tabla llamada Departamentos, con
DepartmentID como la clave principal. DepartmentPhone es funcionalmente dependiente DepartmentID, junto con atributos tales como
el nombre del departamento, número de oficina del departamento, y edificio de oficinas departamento (Figura 4-16).

FIGURA 4-16
La normalización de la tabla
empleados mediante la eliminación
Departamento Teléfono (A) y la
colocación de este campo en la
tabla Departamentos de nueva
creación (B).

Clave primaria normalización funcionalmente dependientes


Un campo, o un grupo de campos, que hace que Un proceso que refina entidades y sus Para cada valor de la clave primaria de la tabla,
cada registro único en una tabla. relaciones para ayudar a minimizar la debe haber un solo valor para cada uno de los
duplicación de la información en tablas. atributos en el registro, y la clave primaria debe
numeración automática determinar ese valor; el atributo debe ser
Proceso que asigna números incrementales a funcionalmente dependiente del valor de la clave
los registros a medida que se crean para primaria.
asegurar que cada registro tiene una clave
principal única.
15 Introducción a los Sistemas de Información
Las relaciones y las claves externas la elegancia del modelo relacional realmente brilla cuando las
entidades están conectadas entre sí de manera significativa, basándose en llaves extranjeras. Observe
que el campo “DepartmentID” es un atributo en la tabla empleados, y una clave primaria en la tabla
Departamentos (Figura 4-17). Cuando una clave principal aparece como un atributo en una tabla
diferente, como lo hace DepartmentID, se llama una clave externa. Puede ser utilizado para enlazar
los registros en las dos tablas juntas. En DD-Designs hasta el momento, tenemos dos tablas,
empleados y departamentos, unidas por DepartmentID, que es la clave principal de Departamentos
y la clave externa de los empleados. Esta relación nos permite entrar en la información sobre los
empleados y la información acerca de los departamentos, y vincular los dos juntos con un mínimo
de redundancia. Sería fácil, por ejemplo, para encontrar la lista de los empleados que trabajaban en
un edificio en particular, tal vez para hacer anuncios sobre una tubería de agua rota.
el manejo de las relaciones complejas La normalización destapa las relaciones muchos-a-muchos
así. El modelo relacional no puede manejar esto directamente, sino que utiliza una especie de mesa
de “puente” para hacer los enlaces. Por ejemplo, Devon considera la gestión de proyectos a ser
extremadamente crucial para el éxito de la compañía, y quiere realizar un seguimiento de muchos
detalles sobre el proyecto específico de diseño web cada empleado está actualmente involucrado en.
Podríamos optar por crear un proyecto Los tabla para gestionar esos atributos, y a continuación,
añadir Proyectólo como una clave externa en la tabla empleados, similar a lo que hicimos por
Departamentos. Pero lo primero que preguntamos si los miembros del equipo de Devon podrían
estar involucrados en más de un proyecto a la vez, lo que haría que una relación de uno a muchos.
Ella asiente con entusiasmo, pensando que ya está sucediendo. Ella planea llevar en un artista
gráfico que probablemente va a pasar el tiempo en todos los proyectos. Ese comentario también deja
claro que no se trata sólo de una relación de uno a muchos de un empleado a muchos proyectos. Es
de muchos a muchos. Cada empleado puede ser asignado a más de un proyecto, y cada proyecto
puede tener más de un empleado asignado. Y, por supuesto, el personal de ventas puede tener ningún
proyecto, y algunos proyectos puede no tener ningún empleados asignados (todavía).
Un enfoque desordenado sería la creación de dos o más registros para el empleado, cada uno de
los cuales enumera un proyecto diferente. Sin embargo, esto crearía la redundancia porque los otros
atributos son todas dependientes funcionalmente al de empleado y simplemente se pueden repetir.
Cuando una entidad se repite en la tabla, actualizaciones y supresiones son difíciles. Por ejemplo,
FIGURA 4-17 en caso de cambio de dirección de Raul, tendría que ser editado en todos los registros duplicados de
DepartmentID es la clave principal sus proyectos para mantener la coherencia de la nueva dirección.
para los departamentos, pero Otra solución desafortunado, que es por desgracia bastante común en las bases de datos
aparece como una clave externa en
diseñadas de manera descuidada, es incluir varios campos para proyectos en el registro, como
la tabla empleados por lo que las
dos tablas pueden ser unidos entre Proyecto1, Project2
sí.
DepartmentID es
una clave externa
de los empleados, y
la clave principal de
Departamentos
Capítulo 4 Bases de datos y almacenes de datos 109

Proyecto 3, y así sucesivamente. Esto introduce otros problemas, especialmente en la recuperación


de datos. Si estamos tratando de encontrar todas las personas asignadas al proyecto de alunizaje,
¿dónde estaríamos mirar? Podría parecer como Proyecto1 para algunos, pero en el campo Project2
o proyecto3 para otra persona. Necesitaríamos consultas complejas en lugar de ir a través de cada
uno de los campos, y nos gustaría perder una gran cantidad de espacio de almacenamiento con
muchos campos vacíos.
Un enfoque más eficiente es crear una tabla de puenteo entre los empleados y Proyectos (figura
4-18). Los proyectos harán uso Proyectólo como su clave principal y atri- buye incluirán Devon que
quiere seguir-Nombre proyecto, ProjectStartDate y ClientID. Entonces, para apoyar la relación de
muchos a muchos entre los empleados y los proyectos, creamos una tercera tabla,
EmployeesProjects, para contener los dos atributos que se unen a los empleados con sus proyectos:
de empleado y Proyectólo. Esta nueva tabla es muy flexible. Thomas Jackson (EmployeeID 1011)
está trabajando en tres proyectos, pero ninguno trabaja en Devon. Además, un solo proyecto, como
Recetas (Proyectólo 11) puede implicar más de un empleado. oline gas (Proyectólo 14) no tiene
empleados asignados. La adición de la EmployeeProjectStartDate a EmployeesProject permite pista
Devon cuando cada empleado realmente se unió a un proyecto en particular. DD-Designs estarán
preparados para un rápido crecimiento.
Acceso a la base de datos y recuperación de
información
La mayoría de las personas acceden a la base de datos a través de una interfaz de aplicación con las
formas basadas en la Web fácil de usar que pueden utilizar para introducir de forma segura, editar,
borrar y recuperar datos. Los formularios basados en la Web hacen que sea fácil para que los clientes
y los proveedores de acceso a la base de datos junto con el personal, con controles de seguridad
apropiados. Los registros de la cuenta del cliente y el catálogo de productos en eBay, por ejemplo,
se han extraído de la base de datos relacional, y los compradores y vendedores tienen acceso a ciertas
tablas y campos para actualizar sus cuentas, añadir las compras, o cargar sus propias fotografías de
los artículos.
El software de aplicación se puede crear en muchos entornos de desarrollo y lenguajes de
programación diferentes, y los proveedores de software DBMS incluyen sus propias herramientas
FIGURA 4-18
para crear aplicaciones. En MS Access, por ejemplo, la forma de generación y de redacción de La gestión de las
informes herramientas ayudan a entrar y recuperar los datos. Oracle y otros proporcionan relaciones muchos-a-
herramientas desa- rrollo de aplicaciones también. muchos.

llaves extranjeras
Las claves principales que aparecen como un
atributo en una tabla diferente son una clave
externa en esa tabla. Pueden ser utilizados para
vincular los registros en dos tablas juntas.
110 Introducción a los Sistemas de Información

EL FACTOR ÉTICA Cuestiones éticas en Diseño de base de


datos: el caso de Identificaron étnico
Cuando una base de datos incluye el origen étnico, si los diseñadores crear una relación Sólo una categoría puede representar a cada individuo en los archivos de Medicare,
uno a uno con cada persona? O debe ser uno-a-muchos? Durante décadas, la mayoría pero el origen étnico no es clara por lo clasifica fácilmente para muchas personas de
de las bases de datos construidos esto como una relación de uno a uno con el individuo, origen mixto. Los estudios de codificación de Medicare, por ejemplo, muestran que las
al igual que la fecha de nacimiento o el género. En el sistema de Medicare, por ejemplo, personas de ascendencia india hispanos, asiáticos, y americanos son a menudo mal
esta variable puede tomar uno de los seis valores diferentes: codificados. Cuando se utilizan los datos de Medicare para estudiar las diferencias
étnicas en los resultados de salud, los resultados pueden ser engañosos y sesgada. La
► Blanco confusión también puede afectar a las conclusiones acerca de la discriminación étnica
► Negro en el lugar de trabajo, becas, o cualquier otro programa que tienen en cuenta los
► asiático subgrupos étnicos.
► Norte de nativos americanos La conversión de la etnia a una relación de uno a muchos puede ser factible en
► Hispano algunos lugares, pero ¿cómo podría afectar de que las decisiones sobre la elegibilidad
► Otro del programa o conclusiones acerca de las necesidades de atención de salud? La
comprensión de las consecuencias humanas de las opciones de diseño de bases de
datos lleva a una considerable habilidad.4

A medida que el extremo frontal o puerta de enlace, el software de aplicación realiza una serie
de funciones, además de que permite a los usuarios introducir, modificar o recuperar información.
Puede tener módulos para control de acceso, para determinar qué usuarios pueden acceder a qué
partes de la base de datos, y cuáles son sus derechos con respecto a la visualización o manipulación
de los datos. Esta interfaz también puede ayudar a garantizar la integridad de la base de datos
mediante la aplicación de las normas sobre integridad, validez, o formato. Por ejemplo, es posible
que los usuarios deban introducir un código postal válido para la dirección y el estado.
Aunque el software de aplicación puede desarrollarse en cualquier número de lenguajes de
programación, la principal forma en que interactúan con una base de datos relacional es a través de
un lenguaje de consulta, y SQL es el más popular.
SQL: Structured Query Language Pronunciado ya sea como cartas, o como “secuela” Structured
Query Language (SQL) es un lenguaje de consulta estándar, ampliamente utilizado para manipular la
información en bases de datos relacionales. Sin mucho entrenamiento, los usuarios finales pueden
crear consultas simples, como éste:
SELECT Apellido, Nombre, de empleado de los empleados
DONDE Apellido = “Park”
Más consultas complejas pueden insertar y editar datos, o borrar registros. Para enlazar tablas
entre sí, SQL se basa en sus claves primarias y externas. Por ejemplo, para recuperar el número de
teléfono de Devon, que es un campo de la tabla Departamentos, que se uniría a los empleados y las
tablas Departamentos en DepartmentID-la clave principal de Departamentos y clave externa de los
empleados.
Acceso al otro y herramientas de recuperación A pesar de que la web es una plataforma común para
el software de aplica- ción, otras plataformas son ampliamente utilizados también. Por ejemplo,de
respuesta de voz interactiva (IVR) se aprovecha de las señales transmitidas a través del teléfono para
acceder a la base de datos, recuperar información de la cuenta, e introducir datos. Las personas que
llaman pueden hacer selecciones de menús anidados mediante la introducción de números. Muchos
sistemas también reconocen un número limitado de palabras habladas. A pesar de que puede ser
frustrante para los clientes, estos sistemas son a menudo la única manera de Han- volúmenes de
llamadas masivas dle.
¿Falta una devolución de impuestos porque se le olvidó dejar una dirección? El IRS
Avis instalado un sistema IVR que “aprende”;
mantiene una base de datos se puede buscar (www.ntu.org)en caso de que no se
esto ayuda a reducir la frustración del cliente. El
entregó el sobre. Otra base de datos para comprobar eswww.unclaimed.org,mantenida sistema recibe a la persona que llama por su
por la organización no lucrativa Asociación Nacional de Administradores de Fincas no nombre (basado en ber teléfono nú-), y en lugar de
reclamados. Este servicio funciona con los estados para ayudar a encontrar a los recitar una larga
legítimos propietarios de los cheques no reclamados de nóminas, certificados de
acciones, dinero en efectivo y otros objetos de valor.
Capítulo 4 Bases de datos y almacenes de datos 111

menú, selecciona las opciones más relevantes. Por ejemplo, un cliente cuyo coche se espera volver
mañana podrían ser preguntado, “¿Le gustaría ampliar su tiempo de alquiler para el Ford SUV?”
CIO de Avis insiste en que IVR no es sólo una medida de reducción de costos. Si se hace bien,
puede mejorar la experiencia del cliente0.5
Los teléfonos móviles también ofrecen interfaces para bases de datos, a través de IVR, mensajes
de texto, aplicaciones especiales, o el Fnavegador web del teléfono inteligente. La posibilidad de
TIP PRODUCTIVIDAD
acceder a una base de datos en cualquier lugar, en cualquier momento, es una ventaja convincente
Poll Everywhere (Www.polleverywhere.com)ayuda a los usuarios crear sus propias
para todo, desde la gestión de los pedidos al cliente central a votar por su favorito de American Idol.
encuestas en línea, y el público puede votar mediante un mensaje de texto, Twitter, o un
navegador web. Las respuestas se insertan en una base de datos y el sitio web muestra
graficaron los resultados en tiempo real. Si el público se compone de 40 miembros o
menos, el sondeo es gratis. Puede utilizar este servicio para hacer sus presentaciones
en clase más interactiva.

Interfaces de lenguaje natural Para muchos, el santo grial de los lenguajes de consulta es la capaci-
dad de entender y responder a las preguntas en lenguaje natural, ya sea verbalmente o por escrito
correctamente. A pesar de que los vendedores han tratado de hacer consultas de los usuarios finales
más fácil de hacer, la capacidad de interpretar correcta- mente la pregunta de una persona es todavía
limitada, aunque muchas aplicaciones prometedoras están en marcha. 6Siri de Apple, por ejemplo,
puede interpretar una serie de preguntas habladas y buscar en sus bases de datos. “¿Cuál es la mejor
pizzería cerca de aquí?” Siri es algo pudiera responder, en parte porque se conoce su ubicación a
través de GPS, y se puede consultar la base de datos de reseñas de restaurantes de
Yelp(Www.yelp.com). Pero no puede responder fácilmente a preguntas altamente estructurados, o
preguntas que se basan en bases de datos Siri no puede acceder.
Para consultas de negocio, los sistemas de consulta en lenguaje natural funcionan bien cuando
las preguntas utilizan un vocabulario limitado. Por
de ejemplo, “¿Quéelhacen
IBM “Watson”, nombrelosdel
empleados
fundadorde
demás de
la compañía, es el superordenador que
$ 100.000 por año?” Podría traducirse en SQLderrotó con una precisión razonable. Sin embargo, los
a los dos mejores jugadores humanos en el programa de televisión Peligro. Su
problemas surgen cuando el vocabulario es capacidad
vaga, los para
nombres de los atributos pueden ser
comprender consultas en lenguaje humano complejos es asombrosa.
confundidos, o el propio ción cues- no está claro. Incluso la pregunta sobre los empleados de alto
Para ayudar a interpretar Watson discurso más informal, los investigadores alimentaron
de ingresos podría ser interpretado más de una forma. Por ejemplo, el usuario no tiene la intención
TI repositorios argot como el Urban Dictionary, pero se olvidaron de enseñar buenos
de incluir los beneficios y opciones de acciones? En caso de “empleados” incluir a las personas a
modales. Cuando Watson a partir de juramento, tuvieron que limpiar esas memorias
tiempo parcial? sistemas de consulta en lenguaje natural están mejorando muy rápidamente, sin
embargo, como Siri y Watson de IBM demuestran. limpio.7

Administración y mantenimiento de la Base de Datos


El trabajo del administrador de la base (DBA) es una de las carreras de más rápido crecimiento en
los Estados Unidos (Figura 4-19). Los analistas, arquitectos y desarrolladores que trabajan con el
DBA para vincular las necesidades de negocio y soluciones de TI también tienen perspectivas de
trabajo muy atractivas. Figura 4-20 muestra algunos ejemplos.

Los solicitantes busco: Database Administrator FIGURA 4-19


oferta de trabajo: administrador de
El DBA es responsable de la operación eficiente de las bases de datos de la compañía: el seguimiento y la
optimización del rendimiento, solución de problemas de cuellos de botella, la creación de nuevas bases de la base (DBA).
datos, mejorar la seguridad, planificación de capacidad, el diseño de planes de copia de seguridad y
recuperación de desastres, y el trabajo con los jefes de departamento y al equipo de TI resolver problemas
y construir aplicaciones innovadoras. salario inicial: $ 65K en adelante.

Structured Query Language (SQL) Un lenguaje


de consulta estándar, ampliamente utilizado para
manipular la información en bases de datos
relacionales. de respuesta de voz interactiva (IVR) Una tecnología que facilita el acceso a la base de datos de
las señales transmitidas por teléfono para recuperar información e introducir datos.
112 Introducción a los Sistemas de Información

FIGURA 4-20
Las carreras de administración de bases de datos y áreas relacionadas.
Proyectado de 10 años
Ocupación Crecimiento laboral Salario medio Sugeridas Educación y capacitación Requisitos

administradores de bases 31% $ 87.200 BS en MIS, la informática o ciencias de la información; formación en


software de DBMS

Arquitecto de software 25% $ 119.000 BS o MS en MIS, la informática o campo relacionado

Desarrollador de software 25% $ 84.200 BS en MIS, la informática o campo relacionado


consultor de tecnología de la 22% $ 96.400 BS o MS en MIS, la informática, o un campo relacionado; experiencia en
información una especialidad de TI, tales como hardware, software, diseño web, etc.

analista de negocios de TI 22% $ 76.200 BS en negocios con enfoque de MIS; la experiencia de trabajar con él para
crear software de negocios
Fuentes: Lista CNNMoney / de PayScale.com de grandes carreras: Mejores empleos en Estados Unidos (29 de octubre de 2012), http://money.cnn.com/pf/best-
jobs/, consultado el 19 de enero de 2013.

El DBA debe estar muy familiarizado con el software DBMS utiliza la organización. Este
software ofrecerá muchas diferentes herramientas administrativas para ayudar a mantener las bases
de datos funcionando sin problemas.
El ajuste del rendimiento y escalabilidad La base de datos necesita sintonía para un rendimiento
óptimo, y el proceso de ajuste tiene en cuenta la forma en que los usuarios finales acceden a los
datos. Por ejemplo, los campos que utilizan para buscar registros deben ser indexados para un
máximo rendimiento. A pesar de que un cliente tiene un número de identificación, es probable que
él o ella no pueden recordar que, por lo que la base de datos debe indexar otros campos que le
ayudará a encontrar el representante del registro de forma rápida, tales como número de teléfono o
dirección de correo electrónico.
A pesar de que el DBA puede verse tentado a índice de todo, eso sería más lento el sis- tema
hacia abajo cuando se agregan registros, por lo que es necesario un balance. Los diseñadores siempre
se esfuerzan para mantener el equilibrio. DBA hacen compensaciones para añadir velocidad a ciertas
actividades a cambio de ralentizar los demás, pero siempre se mantienen atentos a las necesidades
de los empleados, clientes y otras partes interesadas. Optimización del rendimiento para la
recuperación rápida de la información, por ejemplo, puede requerir ralentizar otras tareas, como la
entrada de datos o edición. Aunque los gerentes que consultan la base de datos con frecuencia se
desee optimizar la velocidad de recuperación, los que están entrando los datos tendrían una
preferencia diferente.
escalabilidad se refiere a la capacidad de un sistema para manejar rápidamente creciente
demanda; este es otro problema de rendimiento. YouTube se enfrentó a esto en sus primeros meses
cuando un goteo inicial de res visi- se convirtió en un tsunami. los servidores más grandes habrían
ayudado, pero el equipo de YouTube hizo lo que algu- escalar aún más. Se separaron la base de
datos en “fragmentos”, o secciones que podrían ser almacenados por separado y acceder en equipos
diferentes para mejorar el rendimiento. Fragmentos también rompió con la tradición al
almacenamiento de datos no normalizados, en el que la información que los usuarios suelen
recuperar en su conjunto se almacena en el mismo lugar, en lugar de por separado, normal- tablas
zado. Cuando el crecimiento es tan rápido, el DBA debe resolver uno tras otro cuello de botella.
Integridad, seguridad y recuperación El DBA gestiona las reglas que ayudan a asegurar la integri-
dad de los datos. Por ejemplo, una regla de negocio puede requerir que algunos campos no pueden
estar vacías, o la entrada debe adherirse a un formato particular. El software puede cumplir muchas
normas dife- rentes, como elintegridad referencial restricción, lo que asegura que cada entrada clave
externa existe realmente como una entrada de clave principal en la tabla principal. Por ejemplo,
cuando Devon añade un nuevo empleado a la tabla de empleados y los intentos de introducir un ID
de departamento que no existe en la tabla Departamentos, sin embargo, la restricción de integridad
DBMS le impide añadir el registro. Se debe crear un registro para el nuevo departamento antes de
asignar personas a la misma. La restricción también se detendría Devon de suprimir un departamento
si los empleados están asignados a la misma, aunque dejaron la compañía.
Un DBMS también proporcionará herramientas para manejar el control de acceso y seguridad,
tales como la protección de Transmisión palabra, autenticación de usuarios y control de acceso.
Capítulo 4 Bases de datos y almacenes de datos 113

Aunque el software de aplicación a menudo comparte la responsabilidad de garantizar la integridad


y la seguridad, o incluso maneja la mayor parte de los puestos de trabajo, el software de gestión de
base de datos puede realizar algunas de ellas.
114 Introducción a los Sistemas de Información

FIGURA 4-21
esquema de la base de la
muestra.

Cuando las cerraduras de base de datos o falla, el DBMS ofrece herramientas para recuperarlo
y escorrentías Ning rápidamente o para recargar todos los datos de medios de copia de seguridad.
Algunos sistemas utilizan reflejo, de manera que los usuarios se dirigen a una copia de la base de
datos cuando el principal falla.
Documentación Incluso una pequeña puesta en marcha como DD-Designs necesitará una base de
datos con los de las tablas y muchas relaciones complejas docenas. El modelo de datos puede
documentarse utilizando unaesquema de Base de datos se, Que muestra gráficamente las tablas,
atributos, llaves, y relaciones lógicas (figura 4-21). losDiccionario de datos debe contener los detalles
de cada campo, incluyendo las descripciones escritas en lenguaje usuarios pueden entender
fácilmente en el contexto de la empresa. Estos detalles se omiten a veces cuando los desarrolladores
se apresuran a poner en práctica un proyecto, pero el esfuerzo vale la pena después. Los usuarios
finales comenzarán a desarrollar sus propias consultas y se sienten frustrados cuando el significado
exacto de los campos no está claro. ¿Qué significa un campo denominado
“CustomerTerminationFlag”? El DBA puede recordar el pensamiento que entró en ella, pero los
Explicar por qué surgen múltiples
bases deserá
usuarios finales datos múltiples y el reto de
confundido. bases de datos, y cómo la gestión
de datos maestros ayuda a
la integración abordar el reto de la integración.
La base de datos se pretende poner fin a las frustraciones de aquellos primeros silos de información
departamentales, y tuvo éxito. Sin embargo, como las organizaciones crecen, algunas de las mismas
desventajas reaparecer lentamente en la mezcla debido a que el número de bases de datos se
multiplica. Esto sucede cuando las empresas con diferentes maneras de hacer las cosas y los
diferentes sistemas de información se fusionan, y los registros no pueden combinarse con facilidad.
Cuando Delta adquirió Northwest Airlines, por ejemplo, CIO de Delta dijo que necesitaba para
combinar los sistemas informáticos 1.199 hasta aproximadamente 600. pasaje- ros estaban molestos
por los inconvenientes frecuentes, y durante la transición Delta ocupa el peor de quejas de los
clientes acerca de maletas perdidas, llegadas tardías , servicio de vuelo pobres, y otras
frustraciones.8
A veces múltiples bases de datos surgir en una organización sólo por una empresa de rápido
movimiento necesita el apoyo de una idea innovadora de inmediato. Los administradores pueden
optar por comprar un sistema separado de ella en lugar de tomar el tiempo para construir el soporte
en la base de datos de la empresa e integrarla plenamente. Los servicios basados en la nube se
suman a esta tendencia, ya que pueden ser implementados de manera rápida.
escalabilidad esquema de base Diccionario de datos
La capacidad de un sistema para manejar rápido Un gráfico que documenta el modelo de datos Documentación que contiene los detalles de
aumento de la demanda. y muestra las tablas, atributos, llaves, y las cada campo en cada mesa, incluyendo el
relaciones lógicas de una base de datos. usuario descripciones de amistad y sentido del
integridad referencial campo.
Una regla impuesta por el sistema de gestión de
base de datos que asegura que cada entrada
clave externa existe realmente como una entrada
de clave principal en la tabla principal.
Capítulo 4 Bases de datos y almacenes de datos 115

Sistemas de sombra
Aunque la base de datos integrada de la empresa es un recurso crítico, los cambios de apoyo a nuevas
características pueden ser dolorosamente lento. La gente quiere hacer su trabajo tan eficientemente
como sea po- sible, y algunas veces la solución rápida es crear una sistema en la sombra. Estas son
las bases de datos más pequeñas desarrolladas por personas o departamentos que se centran en las
necesidades de información específicas de su creador. Ellos no son manejados por el personal de TI
central, que ni siquiera conozca su existencia. sistemas de sombra son fáciles de crear con
herramientas como Access y Excel, pero la información de que pueden no ser consistentes con lo
que está en la Base de datos se corporativo. Otro peligro es que el departamento puede quedar
suspendida cuando el creador deja porque nadie más lo sabe muy bien lo que hace el sistema en la
sombra.
Estos problemas conducen a serios dolores de cabeza para los administradores que necesitan
resúmenes de toda la empresa para tomar decisiones. Reciben muchas “versiones de la verdad” de
diferentes fuentes ya que la información esté almacenada en cada uno no es consistente. Las
empresas deben tratar de reducir los sistemas de sombra e integrar sistemas tanto como sea posible,
tan importantes informes necesarios para la planificación o el cumplimiento no mezclar manzanas y
naranjas.

Estrategias de integración y gestión de datos maestros


Para hacer frente a la integración, algunas organizaciones a construir interfaces, o puentes, entre
bases de datos dife- rentes; éstos se utilizan para vincular los campos comunes. Con este enfoque,
un campo que se actualiza en una base de datos, tal como una dirección de correo electrónico, a
continuación, se copia a los mismos campos en otras bases de datos que mantienen esa información.
En las bases de datos “aguas abajo”, la dirección de correo electrónico estaría en formato de sólo
lectura, por lo que los usuarios finales no podrían actualizarla allí.
Una estrategia más amplia para eliminar las diferencias subyacentes en la forma de utilizar los
datos es gestión de datos maestros. Este esfuerzo intentos de lograr definiciones uniformes para las
entidades y sus atributos a través de todas las unidades de negocio, y es especialmente importante
para las fusiones. Las unidades deben ponerse de acuerdo sobre cómo todo el mundo va a definir
términos como empleado, venta, o estudiante. Por ejem- plo, en caso de “empleados” incluyen
contratistas o trabajadores temporales para estudiantes?
Los esfuerzos más exitosos de gestión de datos maestros se centran principalmente en un área
clave, tales como clientes, o en un número limitado de entidades que son más importantes. Los
equipos de toda la compañía se reúnen para identificar las diferencias y encontrar formas de
resolverlos.Los administradores de datos puede entonces ser asignada como organismos de control y
los constructores de puentes para recordar a uno every- acerca de cómo deben definirse los datos.
gestión de datos maestros tiene menos que ver con la tecnología que con la gente, los procesos
y la gobernabilidad. Seguro a nivel nacional puso en marcha una iniciativa de gestión de datos
maestros para resolver su entorno fragmentado, con 14 plataformas diferentes del libro mayor. Los
resultados se hicieron esperar, pero al final fueron dramáticos. Se tomó una vez la empresa 30 días
para cerrar los libros, con mucho pelo tirando de reconciliar informes. Dentro de un año, a nivel
nacional cortar ese tiempo a la mitad.
Describir cómo se crea un almacén de Otra estrategia de integración, que es aún más eficaz cuando los datos maestros-hombre
datos, y explicar los desafíos y valor esfuerzos agement conciliar contradicciones entre los datos y mejorar la calidad de los datos
de los datos grandes. de múltiples fuentes, es el almacén de datos.

DATOS almacenes y grandes volúmenes de datos


los almacén de datos es un repositorio central de datos que contiene información extraída de múltiples
fuentes que se pueden utilizar para el análisis, la recogida de información y la planificación
estratégica. Figura 4-22 muestra ejemplos de las muchas fuentes que podrían contribuir a la bodega.
Una fuente interna crítica de datos para el almacén de datos operativos es de los propios sistemas
del Pany com-. Eso incluiría registros de clientes, transacciones de inventario, activos y pasivos,
información de recursos humanos, y mucho más, que se remonta muchos años. Por ejemplo, un
centro médico en Nueva Jersey construyó un almacén de datos en base a los registros electrónicos
116 Introducción a los Sistemas de Información

de salud de sus pacientes ciru- gía a partir de 2004, incluyendo datos demográficos, resultados de
pruebas de laboratorio, medicamentos y datos de la encuesta de los propios pacientes. El objetivo
era explorar las tendencias a largo plazo que no serían evidentes sin mirar a un gran número de
pacientes durante un período de años.9
Capítulo 4 Bases de datos y almacenes de datos 22

FIGURA 4-22
El almacén de
datos.

Ejemplos
ofInternalData
Fuentes

Ejemplos
ofExternalData
Fuentes

Fuentes externas de información pueden añadir al valor del almacén. Por ejemplo, una empresa
que vende joyería de gama alta puede ser que desee descargar una tabla de la Cen- estadounidense
SUS Mesa de que las listas de códigos cada US zip junto con el ingreso medio por hogar para sus
residentes, y añade que al almacén. La tabla de direcciones cliente tendrá códigos postales en él para
residentes de Estados Unidos, de modo que el atributo se convertiría en una clave externa que puede
estar vinculado a la clave principal en la tabla descargado. La figura 4-23 muestra cómo se podría
hacer el enlace entre las dos tablas. Al añadir esta fuente externa de información, los administradores
pueden aprender mucho acerca de las preferencias y el comportamiento de los clientes de la joyería
que viven en los códigos postales con diferentes niveles de ingreso:
► ¿Los clientes de los barrios altos ingresos tienden a darse en la noche?
► Cómo responden más a las promociones de radio o anuncios de televisión?
► En los últimos cinco años, tiene el perfil de ingreso del cliente tenido una tendencia hacia
arriba o hacia abajo?
La posibilidad de recurrir a información de alta calidad de los sistemas de información de una
organización y fuentes externas para detectar tendencias, identificar patrones históricos, generar
informes para fines de cumplimiento, llevar a cabo la investigación, y la estrategia del plan es una
gran ventaja. Aunque las bases de datos que soportan el negocio del día a día contienen mucha
información que entra en un almacén, los datos no se encuentran normalmente en un formato que
funciona bien para los análisis generales. Y como hemos visto anteriormente, las organizaciones a
menudo tienen más de una base de datos.
Una segunda razón de la base de datos operativa no es un buen candidato para la presentación
de informes agement hombre- alto nivel es que el DBA tiene que optimizar su rendimiento para las
operaciones. Rápida respuesta de los clientes y la entrada de datos son lo primero, no consultas
complejas que responden a las preguntas estratégicas, más grandes. Esas consultas podrían abarcar
años de datos. Serán procesos del CPU que todos los demás lenta hacia abajo, por lo que tiene
sentido para ejecutarlos en un almacén de datos independiente, no la base de datos operativa.
sistema en la sombra administrador de datos almacén de datos
pequeñas bases de datos desarrolladas por las Una combinación de vigilancia y constructor de Un repositorio de datos central que contiene
personas fuera del departamento de TI que se puentes, una persona que asegura que las información extraída de múltiples fuentes que
centran en las necesidades de información personas se adhieren a las definiciones de los se pueden utilizar para el análisis, la recogida
específicas de su creador. datos maestros en sus unidades organizativas. de información y la planificación estratégica.

gestión de datos maestros


Un enfoque que aborda las inconsistencias que
subyacen en la forma empleados utilizan los
datos, tratando de lograr definiciones
consistentes y uniformes para las entidades y
sus atributos a través de todas las unidades de
negocio.
116 Introducción a los Sistemas de Información

FIGURA 4-23
fuentes externas de datos se pueden
agregar al almacén para aumentar
su valor. A continuación, una tabla
de la oficina de censo de Estados
Unidos que contiene los ingresos de
retención House- la mediana para
cada código postal se puede vincular
a los clientes por medio del campo
de código postal.

La construcción del almacén de datos


¿Cómo podemos crear un almacén de datos? Una estrategia común para la elaboración de
información de múltiples fuentes esextraer, transformación y carga (ETL) (Figura 4-22). El primer paso
es extraer datos de su base de datos en casa, y luego transformar y limpiarla para que se adhiera a
las definiciones de datos com- mon. Como ya comentamos, esto no es un reto menor, y pro- gramas
de ordenador rara vez se puede manejar solo. Datos obtenidos de múltiples fuentes en todas las
organizaciones, o incluso dentro de la misma organización, podrían definirse o formato diferente.
Si la organización ya ha avanzado con la gestión de datos maestros, este proceso de trans- formación
es más suave. De hecho, los intentos de construir un almacén de datos a menudo exponer una gran
cantidad de “datos sucios” ortografías de los nombres -inconsistent, por ejemplo. Esto nos lleva a
un mayor interés en la gestión de datos ter Mas-, que es lo que ocurrió en el Rensselaer Polytechnic
Institute (RPI).
El presidente de RPI, Shirley Ann Jackson, sabía que el Instituto necesita mejores datos para la
planificación de estrate- GIC, y su equipo ejecutivo fue frustrado por los informes contradictorios.
esfuerzo almacén de datos del instituto puso de manifiesto muchos problemas que necesitan equipos
multi-funcionales para resolver antes de que los datos podrían ser cargados en el almacén. Una vez
que estuvieron de acuerdo en las definiciones, los administradores de datos fueron designados para
vigilar cómo se utilizaron los campos.10
El proceso de transformación se aplica a los recursos externos que enriquezcan el valor del
almacén de datos para la recolección y la comercialización de inteligencia. Por ejemplo, el Cen-
estadounidense SUS registros de la Oficina deben estar preparados antes de que puedan ser cargados
en el almacén, para asegurar que los campos del código postal son el mismo tipo de datos cuando
están vinculadas. Algunas esteras restación podría ser necesaria siempre que la empresa añade datos
externos a su almacén.
Después de la transformación, los datos se carga en el almacén de datos, típicamente otra base
Data-. A intervalos frecuentes, el proceso de carga se repite para mantenerla al día. El DBA optimiza
el deposito para la presentación de informes y consultas complejas, sin tener que preocuparse de
ralentizar los clientes y el personal. Muchos almacenes de datos se aprovechan de las arquitecturas
de bases de datos relacionales estándar, y la mayoría de los productos DBMS pueden ser
optimizados para su uso como almacén. Algunos incluyen herramientas para ayudar con la
extracción, transformación y carga, también.
Las organizaciones también utilizan arquitecturas de almacenamiento de datos alternativos,
tales como los descritos en la figura 4-24, especialmente cuando se trata verdaderamente inmensos
conjuntos de datos, conocidos como grandes volúmenes de datos.

El desafío de Big Data


La construcción de un almacén de datos de bases de datos operacionales y añadiendo algunas fuentes
externas son manejables para la mayoría de las organizaciones, y extremadamente útil. Pero ¿qué
Capítulo 4 Bases de datos y almacenes de datos 117

pasa con todas las otras fuentes de datos, especialmente de Internet? Piense por un momento en la
página web del Pany com-. Incluso una empresa de tamaño medio podría tener miles de visitas por
día y, cada visitante puede hacer clic docenas de veces. Tenga en cuenta también la cantidad de
información semi-estructurada y no estructurada fluye a través de Twitter, YouTube, Facebook e
Instagram, algunos de los cuales podrían dar a la empresa una ventaja competitiva si se analizan
rápidamente.
118 Introducción a los Sistemas de Información

FIGURA 4-24
Las arquitecturas de almacenamiento de datos
arquitecturas de
Base de datos relacional Las empresas suelen utilizar las mismas DBMS relacional para su almacén de
almacenamiento de datos.
datos, ya que utilizan para su base de datos operativa, pero cargan en un
servidor separado y sintonizados para una rápida recuperación y presentación
de informes.
cubos de datos
Esta arquitectura crea cubos multidimensionales que se adaptan a los datos
complejos, agrupados dispuestos en jerarquías. La recuperación es muy rápida
porque los datos ya se agrupan en dimensiones lógicas, tales como ventas por
producto, ciudad, región y país.
almacén virtual federados
Este enfoque se basa en una colección cooperante de bases de datos
existentes; extractos de software y transforma los datos en tiempo real en lugar
de tomar instantáneas a intervalos periódicos.
dispositivo de almacenamiento El aparato es una solución de almacenamiento de datos preenvasados
de datos ofrecidos por los proveedores que incluye el hardware y software,
mantenimiento y soporte.
NoSQL sistemas de gestión de bases de datos adecuadas para almacenar y analizar
grandes volúmenes de datos. NoSQL significa “no sólo SQL.”
Se basa en la memoria principal para almacenar la base de datos, en lugar de
Base de datos en memoria dispositivos de almacenamiento secundario, lo que aumenta enormemente la
velocidad de acceso.
Colapso 4 «Responder TI Retweet ★ Favorito ••• Más

StarlaInBostin
FIGURA 4-25
Mensajes de Twitter pueden ser
HM está fuera de sombreros y guantes .. Idiotas se podría
parte de los grandes datos de
pensar que recibirían más al considerar el clima
una empresa puede analizar.
58
retweets

Un aluvión de tweets como el de la figura 4-25, sin duda, llamar la atención de Los directivos en las tiendas de ropa como H & M, si
sus sistemas podrían detectar la tendencia suficientemente rápido.
La cantidad de datos disponibles también está explotando porque gran parte se recoge automática- sensores camente por, cámaras,
lectores RFID y dispositivos móviles. En la electrónica de consumo, por ejemplo, los dispositivos diseñados para monitorear sus
lecturas personales de salud pueden transmitir informa- ción a una aplicación de teléfono inteligente para que pueda ver las pantallas
en tiempo real. Este “Internet de las cosas”, en la que tantos dispositivos están recogiendo y transmitir datos entre sí, significa que los
datos se están acumulando a un ritmo impresionante, mucho más rápido que incluso la Ley de Moore podría predecir. 11 ¿Qué es el Big
Data? big Data se refiere a las colecciones de datos que son tan grandes en tamaño, tan variada en su contenido, y tan rápido a
acumularse que son difíciles de almacenar y analizar el uso de los enfoques tradicionales. Los tres “Vs” son las características que
definen de datos grandes (figura 4-26):
► Volumen. colecciones de datos pueden tardar hasta petabytes de almacenamiento, y están en continuo crecimiento.
► Velocidad. Muchas fuentes de datos cambian y crecen a velocidades muy rápidas. El proceso de ETL las noches de
uso frecuente para los almacenes de datos no es adecuada para muchas demandas en tiempo real.
► Variedad. bases de datos relacionales son muy eficientes para la información estructurada almacenada en tablas,
pero las empresas pueden beneficiarse de análisis de datos semi-estructurados y no estructurados, así.
tecnologías Big Data bases de datos relacionales pueden ser parte de cualquier esfuerzo para analizar grandes volúmenes de datos,
pero una serie de nuevas tecnologías están en desarrollo para manejar mejor los tres Por ejemplo, están surgiendo plataformas de base
de datos que no se basan en estructuras relacionales, bases de datos NoSQL llamados “Vs.” , para “no sólo SQL.” Estos no requieren
esquemas fijos con definiciones de datos claros para cada atributo. También por lo general no hacen cumplir las estrictas reglas de la
forma en que una base de datos relacional hace. Además, algunas compañías ofrecen bases de datos en memoria, donde la propia base
de datos se almacena en la memoria principal y no en un disco duro independiente. Esta tecnología emergente aumenta enormemente
la velocidad de acceso y está ganando popularidad para aplicaciones que necesitan tiempos de respuesta muy rápidos.

extraer, transformación y carga (ETL) Una


estrategia común para la elaboración de
información de múltiples fuentes mediante la
extracción de los datos de su base de datos el
hogar, la transformación y la limpieza que se
adhiera a las definiciones de datos comunes, y
luego cargarlo en el almacén de datos.
big Data
Colecciones de datos que son tan grandes en
tamaño, tan variados en su contenido, y tan
rápido que se acumulan que son difíciles de
almacenar y analizar el uso de los enfoques
tradicionales.
Capítulo 4 Bases de
datos y almacenes
de datos 119

FIGURA 4-26 Las


características de
grandes volúmenes de
datos.

Otra tecnología útil para grandes volúmenes de datos es Hadoop, que es un software de código
abierto que soporta el procesamiento distribuido de grandes conjuntos de datos en varios equipos.
El software gestiona el almacenamiento de archivos y el procesamiento local, y se puede escalar
hasta miles de res computa- en la nube. servicio de radio por Internet Pandora utiliza Hadoop para
analizar algunos 20 mil millones pulgar hacia arriba y hacia abajo valoraciones que 150 millones de
usuarios hacen clic en que cada canción se reproduce. El Pany com- puede predecir con exactitud
las preferencias del cliente y crear listas de reproducción a medida. 12 Un estudio de caso en el
capítulo 6 describe la tecnología de Pandora con más detalle.
sitio de juegos en King.com también utiliza Hadoop para ayudar a explorar grandes volúmenes
de datos de la compañía, que incluye las actividades de más de 60 millones de usuarios registrados
que juegan miles de juegos cada mes. Los juegos son gratis, pero la compañía obtiene ingresos
mediante la venta de productos en el juego para los jugadores, tales como vidas extra. Mientras que
su base de datos relacional MySQL funcionó bien durante un tiempo, el aumento de volumen fue
muy difícil de controlar. Con Hadoop y tecnologías relacionadas grandes volúmenes de datos, la
empresa puede mirar en las tendencias y patrones que descubren patrones de comportamiento que
sería fácil pasar por alto en muestras más pequeñas, pero que puede ayudar a mejorar los juegos. Se
jugadores quedarse atascado demasiado en ciertos niveles? ¿Es que abandonan juegos con ciertas
características? El director de almacenamiento de datos dice: “Tenemos que saber todo lo que pueda.
Sin eso . . . estaríamos ciegos “.13
La Agencia Nacional de Seguridad de Estados Unidos se basa en tecnologías de datos grandes
para rastrear la actividad terrorista con registros de Internet y del teléfono. El debate sobre el trabajo
de la agencia calienta en 2013, ya que el público llegó a entender cómo pueden ser poderosos muy
grandes de datos.14 El factor ético en el capítulo 3 explora las implicaciones éticas que rodean los
grandes datos, especialmente para los derechos de privacidad.

Planificación Estratégica, Business Intelligence y Data Mining


Los almacenes de datos y los esfuerzos de grandes volúmenes de datos deben hacer contribuciones
importantes a la planificación estratégica. Junto con las herramientas y los enfoques descritos en el
capítulo 7, el acceso a todos estos datos abre un mundo de oportunidades para los gerentes que
buscan ideas acerca de sus mercados, clientes, la industria, y mucho más. Se convierten en la
principal fuente de inteligencia de negocios que los administradores de toque para entender a sus
clientes y mercados, así como para hacer planes estratégicos.
Por ejemplo, minería de datos es un tipo de recopilación de información que utiliza técnicas
estadísticas para explorar grandes conjuntos de datos, en busca de patrones ocultos y relaciones que
120 Introducción a los Sistemas de Información

son indetectables en los informes de rutina. En el mercado de valores, el volumen y la velocidad de


trans- acciones podrían enmascarar los patrones inusuales en las acciones individuales, pero la
minería de datos se pueden utilizar para
Capítulo 4 Bases de datos y almacenes de datos 26

destapar esfuerzos para manipular los precios.15 Los hallazgos son especialmente valiosos cuando
se puede predecir con exactitud los acontecimientos futuros.
El trabajo de “científico de datos” está surgiendo en las empresas de todo el mundo, y las
personas que pueden llenar ese trabajo están en demanda muy alta. Las empresas necesitan personas
que tienen las habilidades para identificar las fuentes de datos más prometedores, construir
colecciones de datos, y luego hacer erie descu- significativas. Necesita saber la diferencia entre la
minería de datos, lo que conduce a importantes hallazgos, y “drudging de datos”, que olfatea
relaciones que sólo podría ocurrir por accidente y que tienen poco valor. También deben ser capaces
de hacer un caso convincente cuando encuentran tendencias que podrían agregar ventaja
competitiva. Un éxito científico de datos es una combinación de hacker, analista, comunicador,
asesor de confianza, y, sobre todo, una persona curiosa.dieciséis

Los desafíos de la gestión de la información: 6 Explican cómo las cuestiones de propiedad y


de elementos humanos afectan a la
EL FACTOR HUMANO gestión de información.
Al igual que con todas las actividades relacionadas con la tecnología, la gestión de los recursos de
información, no se trata sólo de la tecnología de gestión, bases de datos, y los datos grandes.
También se trata de personas y pro- cesos. La comprensión de cómo la gente ve, guardia, y compartir
los recursos de información que necesitan es un ingrediente crítico para cualquier estrategia exitosa.

Cuestiones de propiedad
En el lugar de trabajo, los recursos de información se encuentran en casi todas partes, desde los
archivadores y cajones de escritorio a los archivos electrónicos en los medios de comunicación
portátiles y discos duros de ordenador. A pesar de que una empresa puede establecer la política de
que todos los recursos de información son propiedad de la compañía, en la práctica, las personas
suelen considerar que estos recursos de forma más protectora, aun cuando el cumplimiento y la
seguridad no exigen controles de difícil acceso. Normas sobre cómo se utilizan los registros surgen
con el tiempo, y aunque muchos son no escrita, que sin duda puede afectar el comportamiento de
los empleados.
Los vendedores pueden querer proteger el acceso a sus propias oportunidades de ventas, o
departamentos enteros puede ser que desee controlar quién tiene acceso a los registros que
mantienen. Es posible que prefieran que los empleados fuera del departamento tienen el derecho de
ver a uno de “sus” registros, pero no cambiarlo.
Los propios clientes plantean cuestiones de propiedad, también. Por ejemplo, un cliente sin
apellido (Madonna, por ejemplo) podría solicitar que el DBA cambiar el último campo de nombre
a “opcional” en lugar de “necesario.” Temas de propiedad tienen que ser negociados entre muchos
grupos de interés.
Otro reto es simplemente el tiempo que puede tomar para realizar cambios en una base de datos
integrada de la empresa cuando tantas personas pueden verse afectadas y querrá entrada. Este
proceso lleva tiempo, no sólo para el personal de TI para analizar el impacto, sino para todas las
partes interesadas para discutir él también. Los cambios en los antiguos sistemas de procesamiento
de archivos eran mucho tiempo para el personal de TI debido a la forma en que el código fue escrito.
Los cambios en la base de datos integrada toman menos tiempo de él, pero más de los usuarios
finales.

Bases de datos sin límites


Otro ejemplo de cómo el elemento humano interactúa con el manejo de información consiste en
bases de datos sin límites, en los que las personas fuera de la empresa Entre y maneje la mayor parte
de los registros. Estos contribuyentes sienten una fuerte propiedad sobre sus registros. Instagram,
por ejemplo, oído gritos de protesta cuando la compañía cambió sus términos de servicio para que
se pueda vender las fotos a la gente subir sin su permiso, y sin ningún tipo de compensación. El sitio
para compartir fotos propiedad de Facebook dio marcha atrás rápidamente y cambió la política de
devolución, especialmente después de los competidores comenzaron haciendo alarde de la forma en
minería de datos
que nunca se venderían fotos privadas0.17
Un tipo de recopilación de información que utiliza
técnicas estadísticas para explorar los registros
en un almacén de datos, en busca de patrones
ocultos y relaciones que son indetectables en los
informes de rutina.
120 Introducción a los Sistemas de Información

Craigslist.com ilustra otras formas en las que el elemento humano afecta a la gestión de la
información. Fundador Craig Newmark inicialmente trató de ayudar a la gente en San Francisco a
encontrar apartamentos y puestos de trabajo. El sitio de pronto se convirtió en la base de datos más
grande del mundo de los anuncios clasificados, y esta fuente de ingresos para los periódicos
impresos se secó. preocupaciones de Newmark son menos acerca de la tecnología de bases de datos
que por la salud de la comunidad y las amenazas incesantes de los spammers y estafadores que
pueden destruir la confianza en el sitio.
Bases de datos sin límites también son parte de las operaciones de socorro de emergencia. bases
Data- en línea pueden ayudar a las víctimas a encontrar familiares desaparecidos, organizar a los
voluntarios, o enlazar personas que pueden proporcionar refugio a aquellos que lo necesitan. Por
ejemplo, Google puso en marcha una base de datos “Buscador de Personas”, después de bombas
explotaron en el maratón de Boston, para ayudar a la gente a encontrar el uno al otro0.18 Una lección
valiosa de los esfuerzos para construir bases de datos sin límites es simplemente la necesidad de
planificar para alto volumen y rápido crecimiento. Las capacidades crecientes de bases de datos
relacionales, junto con las tecnologías de grandes datos y computación en la nube, son esenciales
para apo- puerto de estos repositorios de todo el mundo.

Equilibrio entre las necesidades de información de las partes interesadas


¿Cómo deben los administradores de equilibrar las necesidades de información de tantas partes
interesadas? gestión de alto nivel las necesidades de información estratégica y puntos de vista de
los grandes datos, junto con los informes precisos, en toda la empresa. Las unidades operativas
deben tener informes sobre transacciones que coinciden con sus operaciones, y que necesitan
sistemas de información que se cambian fácilmente para soportar los requerimientos del negocio de
movimiento rápido. Los clientes quieren interfaces de usuario más simples que funcionan de forma
rápida y fiable, y no quieren que se les diga que “acabamos de fusionamos y nuestros siste- mas
informáticos no trabajamos juntos todavía.” Las agencias gubernamentales quieren que las empresas
a que presenten informes El cumplimiento mediante el gobierno de definiciones, porque tienen sus
propios resúmenes que hacer.
Satisfacer todas estas necesidades es un acto de equilibrio que requiere liderazgo, el
compromiso, la negociación y las bases de datos bien diseñadas. Como fuente de información
compartida, la base de datos cumple con su papel excepcionalmente bien para proporcionar una

Voluntarios Ahora!
Un juego de simulación en el diseño de la base de datos para un
servicio de búsqueda de Voluntarios

Los refugios para animales, museos de arte, comedores,


una estación de rescate de vida silvestre, un hospital de
niños, y muchas otras valiosas organizaciones se
benefician de las personas entusiastas que se inscriban, y
los estudiantes a menudo se ganan puntos de servicio a la
comunidad por participar.
El Voluntario Ahora! cuaderno de hojas sueltas es ing
rebosan y los errores siguen ocurriendo. La semana
pasada un voluntario llamada desde su teléfono celular a
quejarse de que la dirección que se le dio para el comedor
era un alma- cén desierta, y la estrella tuvo que recogerlo
en lugar de dejarlo pasear a pie. Necesitan un sistema de
informa- ción fiable con una base de datos back-end para
alquitrán y Khaled comenzaron su servicio de búsqueda organizar los registros.
de voluntarios hace un año, haciendo listas de Como voluntario frecuentes que tienen algún
organizaciones locales que necesitaban asistencia y conocimiento de las bases de datos, que le han pedido a
luego enviar las llamadas de ayuda en tablones de ofrecer a su entrada. Acceda a cumplir con este bien
anuncios en el campus y en las tiendas locales. intencionados y enérgico equipo, lo que puede ayudar a
organizarse. . . .
121 Introducción a los Sistemas de Información

sólida columna vertebral para toda la organización y todos sus grupos de interés.

MiMALLaboratorio Simulación en línea


CAPÍTU
LO
Resumen del
capítulo
Objetivos de aprendizaje
información de una organización es un recurso crítico y estrategias para gestionar que son esenciales. recursos
de información pueden ser descritos como estructurados, no estructurados o semi-estructurados, dependiendo
de sus características. La información estructurada es más fácilmente capturado por los sistemas de gestión
de bases de datos, ya que puede ser dividido en partes componentes y organizada de forma lógica. Los
metadatos, o datos sobre datos, describe la naturaleza de la información y proporciona detalles acerca de su
estructura y propiedades. La calidad de la información está afectada por varias características, tales como la
exactitud, precisión, integridad, consistencia y puntualidad.
La gestión de la información con la ayuda de computadoras se basa en el uso de tablas, registros y campos, y
cada campo debe tener una definición de datos. Los primeros intentos de gestionar los recursos de
información digital utilizados sistemas de procesamiento de archivos, en el que cada departamento mantiene
sus propios registros. A pesar de que eran muy valiosas, sistemas de procesamiento de archivos tenían varias
desventajas, incluyendo la duplicación de datos, la falta de integración entre los sistemas departamentales,
definiciones de datos inconsistentes a través de los departamentos, y la dependencia de datos. El enfoque de
base de datos, que utiliza un sistema de gestión de base de datos, se ocupa de estas desventajas y crea un
recurso compartido con redundancia mínima. Varios diferentes arquitecturas de bases de datos se han
desarrollado, y la base de datos relacional se usa ahora el más ampliamente. La información está organizada
en tablas en la que cada fila representa un registro.
El desarrollo de una base de datos relacional comienza con la fase de planificación, para identificar las
entidades, sus atributos y sus relaciones. El proceso consiste en la normalización, en el que se crean tablas de
una manera tal como para eliminar la redundancia tanto como sea posible y garantizar que las tablas pueden
estar relacionados entre sí de una manera que refleje sus relaciones reales. Las claves principales aseguran
que cada registro de una tabla es única, y las claves externas ayudan a establecer relaciones entre tablas. La
mayoría de las bases de datos se accede a través de software de aplicación, que sirve como puerta de entrada
fácil de usar para las tablas subyacentes. El sistema de gestión de base de datos (DBMS) proporciona
herramientas para el seguimiento y el mantenimiento de la base de datos en áreas tales como la
documentación, la optimización del rendimiento, recuperación de desastres y la seguridad.

A medida que las organizaciones crecen y se expanden, o cuando dos empresas se fusionan, a menudo
terminan con muchas bases de datos en lugar de uno solo integrado. Los empleados también poner en
marcha sus propios sistemas de sombra para administrar sólo la información que necesitan, sin la ayuda o
supervisión de personal de TI central. Las estrategias de integración, como la gestión de datos maestros,
son necesarios para coordinar cómo se introducen los datos y proporcionar resúmenes de toda la empresa
para la planificación estratégica. Un administrador de datos ayuda a mantener la consistencia de los datos
en toda la organización.
El almacén de datos extrae la información de múltiples fuentes para crear un almacén de información que
puede ser utilizado para información, el análisis y la investigación. Las fuentes pueden ser tanto internos
como externos. De extracción, transformación y carga son los tres pasos que se utilizan para crear el
almacén, que se actualiza con información actualizada diariamente o con más frecuencia. datos grande se
refiere a colecciones de datos inmensas que ofrezcan los tres “Vs” (alto volumen, la velocidad, y la
variedad). bases de datos relacionales y almacenes de datos pueden ser utilizados para analizar estas
colecciones y llevar a cabo la extracción de datos, junto con las nuevas tecnologías, tales como bases de
datos NoSQL y software que soporta el procesamiento distribuido a través de miles de ordenadores.
gestión de información empresarial no es sólo acerca de la tecnología. Se trata de una variedad de desafíos
que tocan en el elemento humano. surgen problemas de propiedad de datos, por ejemplo, ya que los datos
tienen que ser compartidos por todas las partes interesadas en la organización. ediciones de la propiedad
también juegan un papel importante para bases de datos sin límites, tales como Craigslist, en la que la
mayoría de los registros se introducen por personas fuera de la empresa. El liderazgo, la cooperación, la
negociación y una base de datos bien diseñado son todos necesarios para equilibrar todos los requisitos de
las partes interesadas.
121
122 Introducción a los Sistemas de Información

términos y conceptos
claveestructurada la
información base de datos llaves extranjeras sombra gestión de datos
información no estructurada software de gestión de Structured Query Language maestros del sistema de
(SQL)
semi-estructurada registro de la base de datos (DBMS) almacenamiento de datos
de respuesta de voz interactiva
tabla de información de Modelo de Datos (IVR) administrador de datos
metadatos de procesamiento Relacional base de datos escalabilidad extraer, transformación y carga
por lotes de definición de datos primaria normalización diccionario de datos de (ETL)
numeración automática minería de datos grandes datos
de campo esquema de base de la
clave funcionalmente integridad referencial
dependientes

Repaso Capítulo Preguntas


4-1. ¿Cuáles son las tres categorías que describen la naturaleza de 4-11. ¿Qué es SQL? ¿Cómo se utiliza para consultar una base de
los recursos de información? Dé un ejemplo de cada uno. datos?
¿Cómo caracteriza las relaciones dentro de cada categoría de 4-12. ¿Qué es IVR? ¿Cómo se utiliza para consultar una base de
información? datos?
4-2. Qué son los metadatos? ¿Qué describe los metadatos de 4-13. ¿Qué es un sistema de sombra? ¿Por qué son los sistemas de
información estructurada? Para informa- ción estructurada? sombra a veces se utilizan en las organizaciones? ¿Cómo son
Dé un ejemplo de cada tipo de metadatos. causados por el hombre de edad? ¿Cuáles son las ventajas
4-3. ¿Cuáles son las características de la información que afectan de los sistemas de sombra? ¿Cuales son las desventajas?
la calidad? ¿Cuáles son ejemplos de cada uno? 4-14. ¿Qué es la gestión de datos maestros? ¿Qué es un
4-4. ¿Cuáles fueron los primeros enfoques de diseño para la administrador de datos? ¿Cuál es el papel de la gestión de
gestión de los recursos de información? datos maestros en la estrategia de integración de una
4-5. ¿Cuáles son los principales inconvenientes de los sistemas de organización?
procesamiento de archivos? ¿Cuáles son los cuatro 4-15. ¿Qué es un almacén de datos? ¿Cuáles son los tres pasos en
problemas específicos asociados con los sistemas de la construcción de un almacén de datos?
procesamiento de archivos? 4-16. ¿Cuáles son ejemplos de fuentes internas de los datos de un
4-6. Siguiendo el modelo de procesamiento de archivos de datos almacénson
4-17. ¿Cuáles de datos?
cuatro¿Cuáles sonde
ejemplos ejemplos de fuentesde
almacenamiento externas
datos
de Ment manage-, lo que emergieron tres arquitecturas de de datos para un almacén de datos?
arquitecturas? ¿Qué enfoque es adecuado para satisfacer la
bases de datos integradas? ¿Cuáles son las ventajas de cada creciente demanda actual de información en tiempo real?
uno? ¿Hay desventajas? 4-18. Lo que es grandes datos? ¿Cuáles son las características que
4-7. ¿Cuáles son los pasos en la planificación de un modelo de definen a los grandes datos?
datos relacional? ¿Hay beneficios para la etapa de 4-19. ¿Qué es la minería de datos? ¿Cuál es la diferencia entre la
planificación? minería de datos y el dragado de datos? ¿Cuál es el objetivo
4-8. ¿Cuáles son las claves principales y claves externas? ¿Cómo de la minería de datos?
se utilizan para crear enlaces entre las tablas de una base de 4-20. ¿Cuáles son ejemplos de bases de datos sin límites?
datos relacional? 4-21. ¿Cómo afectan a cuestiones de propiedad de la información
4-9. ¿Cuál es la estrategia típica para acceder a una base de datos? manage- ment? ¿De qué manera las necesidades de gestión
¿De qué manera los usuarios acceden a una base de datos? de información difieren entre los grupos de interés?
¿Hay otras estrategias para acceder a sistemas de bases de
datos?
-10. ¿Cuál es el papel del administrador de la base en la gestión de
la base de datos? Cuáles son las perspectivas de carrera para
este trabajo?

Proyectos y preguntas de discusión


4-22. ¿Por qué metadatos cada vez más importante en esta era de do. archivo MP3
la información digital? ¿Qué tipos de datos meta- se puede re. Zappos.com página Web para los zapatos atléticos de
esperar a ver adjunto a estos recursos de información los hombres
establecidos? 4-23. El concepto de las relaciones es fundamental para el diseño
a. Libro de bases de datos rela- cional. Describe brevemente tres naves
segundo. fotografía digital PARENTESCO que explican cómo los registros en una base de
datos podrían estar lógicamente relacionados entre sí. ¿Cuáles son
ejemplos de
Capítulo 4 Bases de datos y almacenes de datos 123

cada tipo de relación? En la universidad, ¿cuál es la relación para ver qué hechos están disponibles para su estado de
entre los estudiantes y los cursos? ¿Cuál es la relación entre origen. Prepare una lista de cinco hechos interesantes acerca
los asesores y estudiantes? de su estado de origen para compartir con sus compañeros
4-24. marketing de destino utiliza bases de datos y los datos alma- de clase.
cenes casas para identificar clientes potenciales que un Busi- 4-27. Lisa Noriega tiene un problema con los datos no
ness quiere llegar a la base de factores que describen a un estructurados. A medida que su negocio de catering crece,
grupo específico de personas. Por ejemplo, los mercados de Lisa quiere analizar con- tratos para saber si los proyectos de
destino pueden ser identificados por área geográfica, por más de presupuesto son el resultado de usar gestores de
grupos de edad, por género, o por los tres factores a la vez. proyectos sin experiencia. Lisa quiere establecer una base de
Uno de los principales proveedores de información datos y quiere que le permite identificar los registros que
empresarial y de los consumidores es infoUSA.com. Visite necesitará. Trabajar en un pequeño grupo con sus
el sitio webwww.infousa.comaprender cómo se recopilan compañeros a adoptar la definición de tres entidades que
datos de múltiples fuentes. (En línea en tienen significado para su negocio de catering. ¿Cuáles son
//www.infousa.com/Preguntas más frecuentes/.) ¿Cómo se los atributos de estas entidades? ¿Cuáles son las definiciones
compara su proceso para extraer, transformar y cargar de datos probables de los atributos? ¿Cuál es la relación
(ETL)? Preparar un breve resumen de sus hallazgos que entre los registros y tablas? ¿Cuál es la relación entre los
describe el infoUSA proceso de cinco pasos de la campos y atributos? Preparar una presentación de 5 minutos
construcción de una base de datos de calidad. de sus hallazgos.
4-25. Visita YouTube.com y busque “R. Edward Freeman partes 4-28. El Teatro de Drexel es una pequeña sala de cine, de propiedad
interesadas Theory”para aprender más acerca de los grupos familiar que proyecta películas independientes y clásicos. El
de interesados. ¿Es usted una de las partes interesadas en vestíbulo está decorado con recuerdos de películas de época
cualquiera de las siguientes organizaciones? Enumerar INCLUYENDO un cartel original de Arnold
varios grupos de interés en cada una de estas organizaciones Schwarzenegger, el Terminator, y su famosa frase,
y describir el tipo de información que necesita cada grupo de “Vuelvo”. El teatro tiene una colección de 5.000 películas
interés. en DVD. Se contrata a los trabajadores a tiempo parcial para
a. Una universidad la venta de entradas y concesiones, así como los servicios de
segundo. Un banco regional limpieza y de proyección. Se muestra una de sus películas
do. Toyota Motor Corporation cada noche a las 7:00 pm El propietario de la Drexel planea
4-26. La idea de almacenamiento de datos se remonta a la década implementar una base de datos cional relación de manejar
de 1980. Hoy en día, el almacenamiento de datos es un operaciones. Se le ha pedido que desarrollar el modelo de
mercado global por valor de mil millones de dólares. ¿Cuál datos para gestionar el inventario película. Quiere realizar un
es la relación entre las bases de datos operacionales y seguimiento de las películas, géneros (catego- rías), actores
almacenes de datos? ¿Por qué los almacenes de datos y lenguajes. Quiere una descripción de los atributos de cada
creados, y cómo las organizaciones utilizan? ¿Qué tipo de entidad, y él quiere una explicación de cómo usar las claves
decisiones no alma- cenes de datos de soporte casas? principales y claves externas para vincular las entidades
¿Alguna vez ha buscado un alma- cén de datos? Visita juntos. Trabajar en un grupo pequeño con compañeros de
FedStats. gov y buscar “MapStats” clase para planificar el modelo de datos. Preparar una
presentación de 5 minutos que incluye una explicación de
ejercicios appiication las claves principales y claves externas.

4-29. De Excel:La gestión de provisiones de a bordo ► Crear una columna que enumera Precio de venta por paquete.
Lisa Noriega desarrolló la hoja de cálculo se muestra en la Figura Utilice una fórmula para calcular un margen de beneficio del
4-27 para que pueda manejar mejor su inventario de provisiones de 25%. Configurar una célula suposición para introducir el
a bordo capaces desechables. Descargar la hoja de cálculo llamado marcado de porcentaje en lugar de incluir el valor de marcado
Ch04Ex01 para que pueda ayudarla con el análisis de inventario. en la fórmula.
Lisa aparece sus artículos de inventario en cantidades “caso”, ► Dar formato a la hoja de cálculo para que sea fácil de leer y
pero que ahora quiere analizar elementos de acuerdo a las cantidades visualmente atractivo.
“pack” y crear una lista de precios para mostrar a sus clientes. Por
ejem- plo, un caso de servicio pesado de lujo desechables cuchillos 1. ¿Cuál es la inversión total de Lisa en Artículos
de plástico tiene 12 paquetes de 24 cuchillos de cada uno. Ella quiere desechables para catering?
calcular un “precio de venta por paquete” sobre la base de su valor 2. ¿Cuál es el valor total de las ventas de su inventario?
de costo más un margen de beneficio del 25%. 3. La cantidad de beneficios que va a hacer si se vende la
Lisa le pide que complete las siguientes operaciones y contestar totalidad de su inventario en un margen de beneficio del
las siguientes preguntas. 25%?
4. La cantidad de beneficios que va a hacer si se utiliza un
► Crear columnas que enumeran paquete por caja, margen de beneficio del 35% en su lugar?
paquetes en la mano, y el costo por paquete por caja
para cada elemento. Utilizar una fórmula para calcular
el costo por paquete por caja.
31 Introducción a los Sistemas de Información
FIGURA 4-27
provisiones de a bordo hoja
de cálculo.

4-30. Acceso a aplicación:DD-Designs atributos y relaciones, como se ilustra en la figura 4-28. Descargar
Devon Degosta creó una base de datos para gestionar su negocio de y utilizar la información en la hoja de cálculo Ch04Ex02 a llenar las
diseño web. Se le ha pedido que crear un informe que summa- Rizes tablas. Crear un informe que enumera cada proyecto por su nombre
e identifica los proyectos que se asignan a más de un empleado. y los nombres de los empleados asignados a la misma. Devon quiere
Volver a crear la base de datos de acceso con los nombres de las que el informe para incluir el nombre del cliente y el presupuesto
tablas, del proyecto. ¿Qué otros informes sería útil encontrar Devon?

FIGURA 4-28
esquema de base de
DD_Designs.
UNA
Caso de
Capítulo 4 Bases de datos y almacenes de datos 125

Estudio # 1
Reino Unido la policía a rastrear vehículos sospechosos en tiempo
real con las cámaras y la base de datos de la matrícula
C asi todas las calles de la ciudad de Londres se encuentra
muestran que es registrada a alguien que debe multas de
bajo vigilancia constante de video, en parte como reacción a los
aparcamiento, o que no tiene seguro. Los datos también podrían
ataques terroristas. Estas cámaras de circuito cerrado crean
demostrar que la placa de matrícula está unido al vehículo
inicialmente cintas que podrían ser vistos más tarde, pero la
equivocado, que apunta a placas robados.
tecnología ahora es mucho más capaz. Las cámaras están
Los datos se mantienen durante 5 años, la creación de un
equipadas con capacidades de reconocimiento automático de
repositorio rico para la minería de datos. Un estudio encontró que
matrículas, que utilizan el reconocimiento óptico de caracteres
ciertos coches desencadenan ninguna bandera, pero parecían
para descifrar los números de placas y letras en tiempo casi real
estar haciendo viajes imposiblemente rápidos desde un extremo
(figura 4-29).
de la ciudad a la otra. La policía descubrió que los ladrones de
los datos de la cámara se envía al Centro Nacional de Datos
coches estaban tratando de burlar a ANPR por “clonación auto”,
ANPR en el norte de Londres, que también alberga la Policía
en el que los autores duplican una placa cense verdadera li- y
Nacional de Informática. Las cámaras están muy extendidas por
adjuntarlo a un coche robado de la misma marca y modelo.
toda la ciudad, y muchos están montados en vehículos de la
Las fuerzas del orden ver la base de datos de matrícula, las
policía. Cada cámara puede realizar 100 millones placa lee por
cámaras que lo alimentan, y su integración con datos de la policía
día. número de matrícula de cada vehículo se combina con la
como un avance re- volucionario, a pesar de que todavía hay
ubicación GPS de la era cam- y una marca de tiempo, por lo que
lagunas en la cobertura y la tecnología en sí no es perfecto. Por
la base de datos Oracle en el Centro de Datos contiene
ejemplo, la lluvia, la niebla y la nieve puede interferir, y la placa
información detallada sobre el paradero de casi todos los
en sí podría ser borrado por el lodo. Las placas de sí mismos
vehículos.
varían un poco, con diferentes colores, fuentes, y edades fondo
Desde la base de datos está vinculada a la National
im-. A pesar de los inconvenientes, los departamentos de policía
ordenador de la policía, la policía de ronda se pueden consultar
en los Estados Unidos y otros países están adoptando
para ver si un vehículo cercano se encuentra en posición alguna
rápidamente el sistema, la compra de coches CAMERA
razón. El contraste de la información de la placa contra la base
equipada, y el desarrollo del acceso a bases de datos de
de datos delito puede subir los vehículos involucrados en
teléfonos inteligentes.
crímenes o registrados a criminales buscados. En un caso, un
defensores de la privacidad, sin embargo, están
agente de policía murió durante un robo, y la policía fueron
preocupados por el creciente poder de las bases de datos
capaces de realizar un seguimiento del coche de la partida
integradas y tecnologías de vigilancia para scru- tinize
debido a que su matrícula fue leído por las cámaras. Para
comportamiento humano. Uno de los jueces comentó: “Una
cámaras montadas en vehículos, el oficial no necesita ni siquiera
persona que conoce todos los viajes de otros puede deducir si
FIGURA
para enviar una consulta. Una4-29
alerta de audio se apaga cuando
La captura de números de matrícula para la está a la iglesia semanalmente, un bebedor empedernido, un
la imagen de la cámaraaplicación de la ley. con el número de placa
coincide
habitual en el gimnasio, un marido infiel, un paciente ambulatorio
marcado, lo que llevó a la policía a investigar.
que recibe tratamiento médico, o un asociado de una persona en
Más allá de la actividad delictiva, la base de datos de la
particular o grupo político.”el Reino Unido está endureciendo la
policía contiene amplia información vinculada a los datos de la
normativa para proporcionar una mejor protección para los
placa de licencia. Por ejemplo, un coche puede
ciudadanos en un intento de equilibrar las preocupaciones de
privacidad contra el enorme valor de estas bases de datos
ofrecen a la policía.

Fuente: Ann Cantelow / Shutterstock.


W
126 Introducción a los Sistemas de Información
preguntas de discusión
4-31. Describen la manera en la que los elementos de datos Fuentes:Crump, C. (19 de marzo, 2013). ACLU hoy en el tribunal argumentando que el seguimiento
GPS requiere una orden judicial. ACLU.org, http://www.aclu.org/blog/technology-and-liberty/aclu-
están vinculadas a través de bases de datos.
court- hoy en día, argumentando-gps-seguimiento-requiere-orden, Consultado el 24 de de marzo de
4-32. ¿Qué desafíos técnicos y físicos hace esta cara 2013.
sistema de informa- ción? Du, S., Ibrahim, M., Shehata, M., y Badawy, W. (2013). el reconocimiento automático de matrículas
(APLR): Un estado de la revisión técnica. IEEE Transactions on Circuits y Sistemas de Video
4-33. ¿Qué capacidades de capital humano para la
Technology (Feb. 2013), 23 (2), 311-325. Obtenido de Business Source 4 de abril de 2013.
aplicación de la ley son necesarios para hacer la base Mathieson, SA, y Evans, R. (27 de agosto de 2012). cámaras de carretera sufren de grandes vacíos
de datos más eficaz? en la cobertura, administrador de la policía. El guardián,

4-34. ¿Cuáles son las consideraciones pertinentes para http://www.guardian.co.uk/uk/2012/aug/27/police- número de placa cámaras-red-irregular,
Consultado el 24 de de marzo de 2013.
equilibrar la capacidad de la policía para investigar
Base de Datos de Seguimiento Nacional de Vehículos,
frente a la necesidad de los ciudadanos a la http://wiki.openrightsgroup.org/wiki/National_Vehicle_ Tracking_Database, Consultado el 24 de de
privacidad? marzo de 2013.
La policía de Jackson, MS, utilizan la tecnología de reconocimiento de matrículas Genetec. (14 de
marzo de 2013). Noticias de seguridad del
gobierno,http://www.gsnmagazine.com/node/28730?c=law_ enforcement_first_responders,
Consultado el 24 de de marzo de 2013.

Caso de
Estudio # 2 extrae de su propia base de datos global para evaluar estrategias de
Colgate-Palmolive
marketing
ITH más de $ 17 mil millones en ventas anuales, las
sistemas separados. Las controversias acerca de que es la
operaciones globales de Colgate-Palmolive abarcan ens doz- de
“versión de la verdad” correcta desaparecen.
los países. El gigante de productos de consumo hace que las
Greene se basa en esta base de datos back-end consistente
marcas icónicas como pasta de dientes Colgate, jabón Irish
para la iniciativa Colgate Planificación de Negocios (CBP), que
Spring, detergente para lavar platos Palmolive, y gel de ducha
guía las decisiones de inversión de Colgate en todo el mundo.
Softsoap y los vende en todo el mundo. Además de tomar un
directores de marketing de productos de consumo se enfrentan
“bocado de la suciedad”, con sus jabones y productos de higiene
a una desconcertante variedad de opciones para promover los
personal, la compañía también hace que los alimentos para
productos, de las campañas de publicidad y anuncios de
mascotas Science Diet.
televisión para descontar cupones, descuentos, y muestra en la
Fundada por William Colgate en 1806, la com- pañía con
tienda. La mayoría de las empresas de juzgar el éxito de este tipo
sede en Manhattan especializada en jabón, velas, y almidón. La
de las inversiones mediante la medición de “elevación”, la
marca “Palmolive”, con jabones perfumados a base de aceites de
diferencia entre las ventas reales con la promoción y una
palma y aceite de oliva en lugar de mal olor grasas animales, se
proyección de lo que las ventas podrían haber sido sin la
añadió a mediados de siglo a través de una fusión. La empresa
promoción. Pero CBP, en combinación con la base de datos
comenzó a expandirse en el extranjero mediante la compra de
maestra integrado, permite la gestión de Colgate para cavar
empresas de jabón y pasta de dientes locales en la década de
mucho más profundo, la medición real de beneficio, pérdida y
1930, por primera vez en Europa, y más tarde en las economías
recuperación de la inversión.
emergentes de Asia y América Latina. En América Latina, por
Las métricas detalladas se pueden desglosar para los
ejemplo, Colgate-Palmolive capturó el 79% del mercado de los
productos individuales, regiones y minoristas, proporcionando
productos de cuidado oral, tras adquirir empresas en Brasil y
una ventana muy clara de la cantidad de cualquier inversión
Argentina. Más del 80% de sus ventas netas provienen ahora de
contribuyó al beneficio de la empresa. de Sede corporativa grifos
muchos otros países, en América Latina.
estos resultados finamente sintonizados para planificar nuevas
La gestión de este extenso imperio global requiere una
inversiones. Sin embargo, no es un enfoque cortador de galletas,.
dedicación a la coherencia, no sólo en los productos en sí, sino
Guiados por su conocimiento de los mercados locales, directores
en los datos que rastrea todos los aspectos de las operaciones y
de filiales pueden ajustar los planes a las condiciones locales
el rendimiento de la empresa. la base de datos back-end y la
mejor ajuste. Dado que los resultados están todos contados
empresa de software integrado de Colgate, suministrado por
constantemente, a partir de la base de datos, los gerentes saben
SAP, apoya un enfoque coherente de gestión de datos maestros.
lo que funciona y lo que no.
CIO Tom Greene dice, “Con SAP, las maestras tros productos y
Los márgenes son críticos en productos de consumo, por lo
los grupos de clientes están impulsados por los mismos datos
que esta visión más profunda vale la pena. Gracias a la CBP,
Mas- ter.” Con todo el mundo utilizando el mismo sistema
Colgate reinvertido $ 100 millones en promociones que se
integrado, Greene evita el problema de los datos redundantes e
encuentran para ser más rentable, y su objetivo a largo plazo es
inconsistentes entrado en
de $ 300 millones de una suma que podría ser reinvertido en
promociones, o se añade a la línea final de la com- pañía. Como
Greene dice, “Hay que entender la tecnología, pero lo más
importante. . . es entender la Busi- ness para que pueda casarse
con los dos juntos “.
Capítulo 4 Bases de datos y almacenes de datos 127

preguntas de discusión
4-35. ¿Qué tipo de datos hace uso Colgate-Palmolive, y qué Fuentes:Colgate-Palmolive Company. (24 de marzo de 2013). de Hoover registros de la
compañía. Consultado el 24 de de marzo de 2013 desde línea de Hoover.
tipo de decisiones toma Colgate-Palmolive tome
Colgate Mundial de la Atención Sitio Web, www.colgatepalmolive.com, consultado el 26 de
basadas en los datos? agosto de 2013.
4-36. ¿Por qué es importante para Colgate-Palmolive para los Henschen, D. (13 de septiembre, 2010). Datos impulsa las decisiones de inversión de Colgate.
Information Week, 1278, 38-39.
datos que se integrarán a través de sistemas? Maxfield, J. (27 de febrero, 2013). Lo que hace que Colgate-Palmolive una de las mejores
4-37. ¿Qué beneficios negocio no lograr Colgate-Palmolive a empresas de Estados Unidos. Motley Fool, http://www.fool.com/investing/general/2013/02/27/
lo-hace-Colgate-Palmolive-uno-de-Américas-best.aspx, Consultado el 24 de de marzo de 2013.
través del uso de estos datos?
4-38. ¿Qué tipos de conocimiento del negocio que sería
necesario para un administrador de Colgate-Palmolive
para analizar los datos?

e-proyecto 1 Identificar a los sospechosos con una base de datos de


la matrícula: la construcción de consultas con Acceso

Una base de datos a partir de una hipotética nación pequeña isla un Toyota negro o azul oscuro. ¿Qué coche es el mejor
contiene información de matrículas y registros violación candidato, y quién es el propietario?
RELAClONADAS simular, y se ilustrará cómo la policía son la 4-43. Cartas tales como G y C se confunden a menudo por testigos.
identificación de los coches implicados en delitos o infracciones de Algunos testigos de un accidente de golpe y fuga informaron
tráfico. Descargar el archivo de Access llamada Ch04_Police para que la placa de matrícula comenzó con LGR, pero dijeron
contestar las siguientes preguntas. que no estaban seguros. Construir una consulta para
4-39. ¿Cuáles son las tres tablas en la base de datos? Por recuperar registros que puedan coincidir con cualquiera LGR
simplicidad, la tabla LicensePlates en este correo proyecto o LCR y la lista de los candidatos.
utiliza LicensePlateNumber por su clave primaria. ¿Por qué 4-44. La división de homicidios supo que un vehículo con un número
puede que el trabajo para una pequeña nación de la isla, DYV4437 matrícula se observó cerca de una escena del
pero no para los Estados Unidos? crimen, y que le gustaría hablar con el dueño, que podría ser
4-40. ¿Por qué se PlateImagesID la clave principal de la tabla capaz de arrojar luz sobre el caso. Si las cámaras han
PlateImages, en lugar de LicensePlateNumber? recogido el número de placa en algún momento, que debe
4-41. Un oficial de policía ve a un coche aparcado ilegalmente en estar en la mesa PlateImages. Construir una consulta para
una calle oscura, con LCN5339 matrícula. Consultar la base recuperar la latitud y longitud de la ubicación más reciente
de datos y la lista de delitos u otras violaciónes que están del coche.
vinculados a esta placa de matrícula.
4-42. Un ciudadano reporta un robo a la policía, pero ella sólo puede
recordar las tres primeras letras de la matrícula del coche
(JKR). Ella cree que fue
128 Introducción a los Sistemas de Información

e-proyecto 2 La construcción de una base de datos de


registros de clientes
En este e-proyecto, se construirá una base de datos de compras de PurchaseNumber campos como la clave principal de
los clientes para un pequeño puesto de comida cerca “Four Corners”, compras, en lugar de dejar que Access cree sus propias
el punto en los Estados Unidos en la que el estado de Utah, Colorado, claves primarias.
Arizona, y las líneas de estado de Nuevo México se encuentran. Gran
a. Qué campos están contenidos en la tabla de clientes?
parte de los datos se importan de archivos de Excel.
Generar una lista de todos sus clientes, ordenados por
4-45. Open Access y crear una nueva base de datos llamada CustomerID.
Fruitstand. segundo. Qué campos están contenidos en la tabla de
4-46 Crear una tabla llamada los productos con los siguientes compras? ¿Cuáles son la clave externa (s) en la tabla de
campos: compras, y qué tabla (s) no hacen referencia?
ProductID (el primer defecto de campo a la ID de nombre, como 4-49 Uso de acceso para crear consultas (Diseño de consulta), se
la clave primaria de la tabla. Cambiar el nombre de ProductID. unen a los clientes a las compras (en CustomerID) y compras
Dejar como autonumber y como la clave principal.) de productos (en ProductID), y contestar las siguientes
ProductName (tipo de datos de texto, el tamaño del campo 25 preguntas:
caracteres) a. Crear una consulta que devuelve todas las compras de los
Precio (tipo de datos Moneda) clientes desde Nevada (NV). ¿Qué fruta hace la gente de
4-47 Introduzca los registros en la tabla siguiente. Tenga en cuenta ese estado parecen preferir?
Identificación de producto Nombre del producto
que no se introduce el ProductID; sePrecio
trata de un campo de segundo. ¿Cuántas peras se han vendido? (Haga clic en
1 numeración automática
manzana que genera el siguiente valor.
$ 0,45 Totales en la cinta de di- seño para abrir opciones para
2 Guarda tu trabajo.
Pera $ 0,70 informar de los totales agrupados. Su consulta debe
3 sandía $ 2.75
Agrupar por ProductName. Incluir el campo Cantidad, y
en la fila Total, seleccione Suma por la cantidad.)
4 pomelo $ 1.50
do. ¿Cuántas sandías se han vendido?
5 aguacate $ 1.25
re. Una lista de todos los estados de sus clientes vienen, y
el número de clientes de cada uno. (Número de usos bajo
4-48 Descargar el archivo de Excel Ch04_FruitStand, e importar las el campo adaptado para el cliente ERID de los clientes.)
dos hojas de trabajo, con la etiqueta clientes y compras. Identificar Desde que establecen qué la mayoría de sus clientes
el identificador de cliente como la clave principal para los clientes, y vienen?
4-50 Lista de los países vienen sus clientes, ordenar los datos por
CountryName. ¿Qué problema se encuentra con? ¿Qué
haría usted a la base de datos para mejorar su capacidad
para analizar los datos por país?
Capítulo 4 Bases de datos y almacenes de datos 129

notas de
capítulo
1. Sauermann, H., & Roach, M. (2013). El aumento de las tasas de 10. Los administradores de datos y expertos en datos: roles y
respuesta encuesta web en la investigación de la innovación: responsabilidades. (Dakota del Norte). Rensselaer de
Un estudio experimental de las características de diseño de almacenamiento de datos, http: // www .rpi.edu / en almacén de
contacto estático y dinámico. Política de Investigación, 42 (1), datos / docs / Data-Stewards-Roles- Responsibilities.pdf,
273-286. doi: 10.1016 / j.respol.2012.05.003 consultado el 19 de junio de 2013.
2. Ilieva, J., Baron, S., y Healey, Nuevo México (2002). Veys 11. Bajarin, B. (21 de enero de 2013). La Internet de las cosas:
línea cies en la investigación de mercados: pros y contras. Hardware con un lado de software. Hora, http: //
Revista Internacional de Investigación de Mercado, 44 (3), techland.time.com/2013/01/21/the-internet-of- cosas en
361-376. hardware-con-un software de lado de /, consultado el 19 de
3. Consejo nacional de investigación. (1999). Financiar una junio de 2013.
revolución: El apoyo del gobierno para el cálculo de la 12. Mone, G. (2013). Más allá de Hadoop. Comunicaciones de la
investigación. Washington, DC: National Academy Press. ACM, 56 (1), 22-24. doi: 10.1145 / 2.398.356,2398364
www.nap.edu/readingroom/ libros / ahora / notice.html, 13. McKenna, B. (9 de enero de 2013). sitio de juegos en King.com
alcanzado el 7 de mayo, 2008. desbloquea grandes volúmenes de datos con Hadoop.
4. Waldo, DR (2005). La precisión y el sesgo de los códigos de ComputerWeekly.com,http://www.computerweekly.com/new
raza / origen étnico en la base de datos de inscripción de s/2240175747/ Kingcom-juego-site-desbloqueos-big-datos-
Medicare. Health Care Financing Review, 26 (2), 61-72. con-Hadoop, consultado el 21 de enero de 2013.
www.cms.gov/ HealthCareFinancingReview / descargas / 04- 14. Walsh, B. (24 de junio de 2013). gran problema de datos de la
05 winterpg61.pdf, consultado el 19 de febrero, 2011. NSA, Tiempo, 181 (24), 24.
5. Nash, KS (2012). Impulsado por aprender. CIO, 26 (4), 10-11. 15. Punniyamoorthy, M., y José, JT (2013). modelo basado ANN-
6. Andrews, W., y Koehler-Kruener, H. (18 de octubre de 2012). GA para la vigilancia del mercado de valores. Diario de la
Siri y Watson impulsarán deseo de más y más inteligente de delincuencia financiera, 20 (1), 52-66. doi:http: //dx.doi .org /
búsqueda. Gartner Research, doi: G00237619. 10.1108 / 13590791311287355
7. Madrigal, CA (2013). Watson de IBM memorizado todo el 16. Davenport, TH, y Patil, DJ (2012). científico de datos: El
'Urban Dictionary', entonces sus señores tenían que eliminarlo. trabajo más sexy del siglo 21. Harvard Business Review, 90
El Atlántico,http://www.theatlantic.com/ tecnología / Archivo (10), 70-76.
/ 2013/01 / IBMS-Watson-memorized- la-toda-urbana- 17. McCullagh, D., y Tam, D. (18 de diciembre de 2012).
diccionario-entonces-su-señores-tenido-a delete-it / 267047 /, Instagram se disculpa con los usuarios: No vamos a vender sus
consultado el 19 de enero de 2013. fotos. c | Net News, http://news.cnet.com/8301-1023_ 3-
8. Mouawad, J. (18 de mayo, 2011). largo y complejo camino de 57559890-93 / instagram-disculpa a los usuarios-que-wont-
Delta-Northwest fusión. New York vender-su-fotos /, acceder las 24 enero de 2013.
Times,http://www.nytimes.com/2011/05/19/business/19air 18. Ngak, C. (15 de abril, 2013). Google lanza buscador persona
.html? pagewanted = all y _r = 0, consultado el 20 de enero de maratón de Boston. CBSNews, http: // www .cbsnews.com /
2013. 8301-205_162-57579704 / Google- lanza-Boston-maratón de
9. trastornos de alimentación y la nutrición; investigación de persona / buscador, consultado el 19 de junio de 2013.
centro médico St. Francis en la zona de la obesidad describe.
(2013). Telemedicina Business Week, 508. Obtenido
dehttp://search.proquest.com/docview/1266208957? accountid
= 11.752, consultado el 19 de junio de 2013.
Capítulo 4 Bases de datos y almacenes de datos 130

También podría gustarte