Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos de aprendizaje
Explicar la naturaleza de los recursos de información en términos de estructura y calidad, y muestran cómo
los metadatos se pueden utilizar para describir estos recursos.
Comparación de los sistemas de procesamiento de archivos de la base de datos, lo que explica las ventajas
de la base de datos.
Describir cómo se planifica una base de datos relacional, accesible, y logró, y cómo funciona el proceso de
normalización.
Explicar por qué surgen múltiples bases de datos, y cómo la gestión de datos maestros ayuda a abordar el reto
de la integración.
Describir cómo se crea un almacén de datos, y explicar los desafíos y valor de los datos
grandes.
Introducción
Cada organización está inundado de INFORMACIÓN refugios, hospitales y servicios de rescate de animales.
recursos de todo tipo, y se necesita un esfuerzo Ellos han estado manteniendo un registro de todos sus
considerable para reunir a las personas, la tecnología y datos utilizando ERS bind- de tres anillos y notas post-it,
los procesos necesarios para gestionar los recursos de pero los errores son comunes. Uno en volumen de unteer
manera eficaz. En este capítulo se explora la estructura que se inscribieron para trabajar en un comedor de
y calidad de la información, y cómo la gente organizar, beneficencia se le dio la dirección equivocada, y terminó
almacenar, manipular y recuperar la misma. vagando por perdido en un almacén abandonado. Lo
En la simulación en línea llamado “Voluntario Ahora!” Voluntarios Ahora! necesita es una base de datos que se
Va a ayudar a un grupo de estudiantes universitarios que ajuste a su misión, que el personal y los vo- luntarios
han sido prueba- ing para que coincida con las personas pueden acceder desde sus ordenadores portátiles y
que quieren ofrecer su tiempo a organizaciones que teléfonos inteligentes en cualquier momento del día.
necesitan sus habilidades, como personas sin hogar Usted va a aprender mucho acerca de las bases de datos
a medida que ayudarles a diseñar él.
Capítulo 4 Bases de datos y almacenes de datos 95
MiMALLaboratorio Simulación en
línea
Voluntarios
Ahora!
Un juego de simulación en el diseño de la base de datos para un servicio de búsqueda
de Voluntarios
nformación recursos son fundamentales para el éxito La información en pantalla de algún tipo son escasos,
de cualquier organización. Y estos recursos están quizá la taza de café o grapadora (Figura 4-1).
creciendo a un ritmo ing astound-. Los datos La gente entiende que alguna información es
almacenados en formato digital se multiplican por todas poderosa y valiosa, pero es mucho más basura inútil que
partes en una amplia gama de medios físicos, que van debe ser lanzado. Necesitamos una estrategia para
desde los ordenadores propios de la organización a los gestionar los recursos de información de manera que lo
hosts que pueden estar ubicados en cualquier parte del que importa es seguro, organizado y de fácil acceso para
planeta. Los datos también residen en los DVD, CD-ROM los administradores, empleados, clientes, proveedores y
y cintas, y las cámaras digitales de las personas en el otras partes interesadas. Este enorme desafío es el tema
interior, teléfonos celulares, iPods, unidades flash y en un de este capítulo.
llavero. En su propio espacio de trabajo, por ejemplo,
objetos queno almacene ni
96 Introducción a los
Sistemas de
Información
FIGURA 4-1
El espacio de trabajo
moderno: Un almacén de
información.
Dibujo información fuera de temporada donde no estructurados también presenta desafíos. Una
empresa de catering podría tener un cuarto trasero apilada con cajas que contienen información no
estructurada en cientos de contratos. Si el propietario quiere saber qué contratos fueron por encima
del presupuesto, y luego ver que se encargó de los, cada caja tendría que ser abierto. Debido a que
las colecciones no estructurados no tienen medios para hacer cumplir las normas sobre lo que deben
ser incluidos tipos de información, el propietario puede encontrar poco para seguir adelante.
Existe una vasta área gris entre los extremos de informa- ción estructurada y no estructurada;
este es el área dentro de la cualinformación semiestructurada caídas. Este tipo incluye información
que muestra al menos algún tipo de estructura, tales como páginas web que tienen fechas, títulos y
autores. Las hojas de cálculo también pueden ser semi-estructuradas, especialmente cuando son
creados por diferentes personas para realizar un seguimiento de la misma clase de información. Un
vendedor, por ejemplo, podría poner el teléfono del trabajo de un contacto y un teléfono móvil en
diferentes columnas identificadas como “teléfono del trabajo” y “móvil”, pero otro podría
mantenerlos en el mismo UMN COL- bajo el título “Móviles”. Recursos como éstos Don 't tienen
la estructura fuerte, forzada por la planificación anticipada, para definir claramente las entidades y
sus relaciones, y que carecen de controles sobre la integridad y el formato. Sin embargo, estos datos
son más fáciles de consultar y combinar que la variedad no estructurada.
metadato
s datos acerca de los datos, y se aclara la naturaleza de la información. Para obtener
metadatos son
información estructurada, metadatos describen las definiciones de cada uno de los campos, tablas y
sus relaciones. Para obtener información semi-estructurada y no estructurada, los metadatos se
utilizan para describir las propiedades de un documento u otro recurso, y son especialmente útiles
porque capa alguna estructura en la información que es menos fácilmente categorizado y clasificado.
base de datos de YouTube, por ejemplo, contiene metadatos acerca de cada uno de sus videos que
se pueden buscar y ordenar. catálogo de fichas de una biblioteca proporciona metadatos sobre los
libros, tales como donde son archivados físicamente. documentos de procesador de palabras son
más fáciles de organizar si se incluye el título, autor y asunto en sus propiedades.
El popular sitio web para compartir fotos Flickr se basa en los metadatos para buscar su enorme
colección de fotos. fotos de la escena de playa de un padre, con nombres tales como “image011.jpg”,
se vuelven más accesibles, significativa,F así compartible para amigos y familiares cuando se añaden
metadatos a sus propiedades, tales como la TIPubicación, tema, fecha de captura, y fotógrafo ( Figura
PRODUCTIVIDAD
4-3). Adición de metadatos a las propiedades de sus documentos, fotos, vídeos y hace
que sean más fáciles de buscar y localizar más tarde. Haga clic en el nombre del
archivo por lo general lleva a un menú que incluye Propiedades. También puede
eliminar la información de propiedades de un archivo para que otros usuarios no lo
verán.
V
La calidad de la información
No toda la información tiene una alta calidad, como cualquier persona que se encuentre
navegando por la red sabe. Estas son las características más importantes que afectan a la calidad:
► Exactitud. Los errores en las fechas de nacimiento, ortografía, o el precio de reducir la
calidad de la infor- mación.
► Precisión.Redondeo a la milla más cercana podría no reducir la calidad tanto cuando se
estima el coche al centro comercial. Sin embargo, para las encuestas de propiedad, “cerca de
2 millas” es inaceptable.
FIGURA 4-3
Los metadatos para una foto foto de metadatos Descripción
escena de la playa. título de la foto escena de la playa del océano
Fecha que se tendrá 12/15/2011
FIGURA 4-5
definición de datos para el campo “fecha de nacimiento” en MS Access.
Consideremos, por ejemplo, una tabla que contendrá los registros de empleados, creado usando
MS Access (Figura 4-5). Los nombres de campo pueden incluir identificación de empleado,
apellido, nombre, fecha de nacimiento, sexo, correo electrónico y teléfono, y el tipo de datos aparece
al lado de cada nombre de campo. Las propiedades para BirthDate aparecen en la mitad inferior de
la figura. El diseñador decidió hacer que el campo es necesario, asegurarse de que los usuarios entran
en ella como MM / DD / AAAA, y sólo permiten fechas que son menos de la fecha de hoy.
adicional implicado en los registros redundantes ING resolv- no era trivial, ya menudo nunca se
realiza.
Capítulo 4 Bases de datos y almacenes de datos 8
FIGURA 4-6
problemas de redundancia de
datos. sistemas de procesamiento
Nombre del empleado: de archivos separados a menudo
Smith, Annmarie V. contienen datos redundantes e
inconsistentes.
Nombre de empleado:
Annamarie Vorgas-Smith
Nombre de empleado:
Smith, Annmarie Vorgas
La falta de integración de datos La integración de los datos de los sistemas separados fue una lucha
(Figura 4-7). Por ejemplo, el sistema de nómina podría mantener información sobre el nombre, la
dirección y el pago de la historia, pero el género y el origen étnico se encuentran en los registros de
personal. Si un director quería comparar las tasas de pago por el origen étnico, nuevos programas
fueron escritos para hacer coincidir los registros. Esta integración torpe afecta a los clientes, además,
que de humos cuando no pueden resolver las inconsistencias en sus cuentas (Figura 4-8).
Las definiciones de datos incoherentes Cuando los programadores escriben código para manejar
archivos, las diferencias en formato de fluencia en. Los números de teléfono pueden incluir los
guiones y tener el formato de un campo de texto en un solo sistema, pero ser tratados como números
en otra. Un problema más sutil implica la forma en que la gente realmente optan por utilizar el
sistema. Las definiciones de datos pueden parecer similares en todos los sistemas, pero se utilizan
de manera diferente y resúmenes convertido engañosa. Por ejemplo, los empleados en el
departamento de personal a un menor compras de software categorizar la cadena como
“ordenadores”. Sus compañeros de trabajo en las ventas de software prefieren agrupar con lápices,
grapadoras, y los relojes como “sumi- nistros,” porque se necesita menos papeleo para justificar la
compra. El director general ha lamentado que no había manera de que alguien podría saber cuánto
esta cadena estaba gastando en tecnologıa debido al elemento humano en sistemas de información
(Figura 4-9).
La dependencia de datos Estos primeros sistemas se convirtieron en pesadillas de mantenimiento
debido a que los pro- gramas y sus archivos eran tan interconectados y dependientes uno del otro.
Los programas de todos definidos los campos y sus formatos y reglas de negocio fueron codificados
de forma rígida o incrustados en los programas. Incluso un pequeño cambio para adaptarse a una
nueva estrategia de negocios tomó mucho trabajo. El personal de TI estaban constantemente
ocupado, pero se caía detrás de todos modos.
Entre los inconvenientes para el enfoque de procesamiento de archivos condujeron a una mejor
manera de organizar los datos estructurados, uno que se basa en la base de datos.
FIGURA 4-7
Información en los sistemas de
procesamiento de archivos
separados es difícil de integrar. Por
Nombre de empleado: ejemplo, un informe que enumera
Guarino, Theodore (Doug) las tarifas por hora por género
necesitaría programa- adicional
Genero M
ming esfuerzo en este negocio.
Nómina Humano
de recursos
sueldos
FIGURA 4-8
sistemas de procesamiento de Nombre del cliente:
archivos independientes conducen Jarrod, Roberto
a una interfaz de clientes
fragmentada, frustrando a los
clientes que tienen que ponerse en
contacto con varias oficinas para
enderezar inconsistencias. Nombre del cliente:
Jarrod, Robert
FIGURA 4-9
Cuando las definiciones de datos son Código de objeto Cantidad Categoría Descripción
inconsistentes, el significado de los Computadores de
Ventas 4211 1888.25 Ordenadores escritorio
distintos campos variará entre los Suministros para software de edición de
Ventas 4300 249.95
departamentos y summa- Ries van a computadora imágenes
ser engañosa. Observe cómo los tres
Ventas 4100 29.99 Material de oficina Unidad flash
departamentos utilizan categorías de
diferentes maneras. Personal 4211 59.00 Ordenadores software Stastical
Suministros para
Personal 4300 14.95 computadora Unidad flash
Personal 4211 2500.21 Ordenadores Computadoras portatiles
Almacén 4211 59.500,00 Ordenadores Servidor web
Impresora / copiadora /
Almacén 4211 2500.00 Ordenadores escáner / fax
Uno-a-muchos (1:
N)
Muchos-a-muchos (M:
N)
FIGURA 4-12
base de datos Hospital
jerárquica.
FIGURA 4-13
base de datos de
Medicina
Pediatría Patología
la red. Interna
el uno al otro mediante la vinculación de un campo en una tabla a un campo de otra tabla con datos
que coinciden (figura 4-14). El enfoque separa los datos de los caminos para recuperarlos, con lo que
la base de datos de menos dependientes del hardware y su sistema operativo en particular. Su ción
inventores finalmente llegó a dominar el campo, a pesar de que no fue bien recibido en un principio,
sobre todo por sus jefes en IBM. Esa empresa había invertido tanto en la venta y el apoyo a su mayor
base de datos jerárquica y los ordenadores centrales que siguió corriendo, y ejecutivos de IBM fueron
bastante críticos del enfoque de Codd. Sin embargo, la base de datos relacional sobrevivió y floreció,
y ahora es un estándar en la mayoría de las organizaciones. 3
Para ver cómo funciona la base de datos relacional, consideran los cuadros sobre los estudiantes
en la figura 4-14. La primera tabla muestra la identificación de estudiante, apellido, nombre y fecha
de nacimiento. La segunda tabla muestra registros de estudiantes con los campos que muestran el
número de registro, identificación de estudiante, código de clase y grado. Debido identificación del
Capítulo 4 Bases de datos y almacenes de datos 105
Las
inscripciones
Número de registro Identificació Código de clase Grado
n del
10011 20083BMGT300A UNA
Estudiante
54001
10012 20083HIST450B do
54001
10013 20083ECON200F segund
54001
o
10014 20083ECON200F UNA
54555
10015 20083HIST410B yo
96887
Si tiene Microsoft Access en su ordenador personal, tiene un descendiente del ingenioso enfoque
de Codd. Otros DBMS relacionales comunes incluyen Microsoft SQL Server, Oracle y MySQL.
Estas bases de datos relacionales continúan mejorando, añadiendo soporte para archivos de gran
tamaño que contienen imágenes, vídeo o audio. Los sistemas relacionales ahora también son
compatibles con los tipos de datos XML, así como la información espacial y coordenadas de
mapeado.
modelo de datos
Un modelo utilizado para la planificación de la
base de datos de la organización que identifica lo
que se necesita tipo de información, lo que las
entidades se creará, y cómo se relacionan entre
sí.
Capítulo 4 Bases de datos y almacenes de datos 107
la entidad. “Empleados”, por ejemplo, es una entidad relativamente sencillo con atributos como el
número de identificación del empleado, apellido, nombre, fecha de nacimiento, dirección de correo
electrónico y número de teléfono. La entidad “Cliente” podría incluir atributos tales como el nombre
de la empresa, número de identificación de cliente, persona de contacto, número de teléfono de la
compañía y la dirección de la empresa. Una sola instancia de cada entidad será un registro. Términos
tales como “filas” y “columnas” también se utilizan para describir los componentes de una mesa,
pero los registros y campos son
“l
ampliamente conocidos.
TIP PRODUCTIVIDAD
Las claves primarias y la singularidad
Cuando le das nombres a tablas y campos, utilizar una convención de nomenclatura
coherente para que sea más fácil de recordar los nombres y para que otros puedan Cada registro de una tabla debe tener
entender su significado. Una convención común es "CamelCase", que combina las letras una Clave primaria, Que es un campo o
mayúsculas y minúsculas para aclarar palabras compuestas, tales como Apellido o un grupo de campos, que hace que el
SalesRegion. jorobas del camello son las letras mayúsculas en la cadena. Otra registro único de esa tabla. Devon
convención separa palabras con un guión.
jl sugiere usar el apellido de cada per-
sona como la clave principal ya que es
único. Pero a medida que la organización crece, puede haber dos personas con el mismo apellido.
Devon asiente con la cabeza, pensando que podría invitar a su hermano a unirse a la compañía.
Algunas organizaciones han utilizado números de Seguro Social (SSN) para identificar de forma
única los empleados, pero que no tiene inconvenientes serios. Los ciudadanos no estadounidenses
podrían no tienen uno, y ese número es confidencial y no deben ser puestos en libertad.
los desarrolladores de bases de datos evitan información significativa para las claves primarias,
como un SSN o nombre. Si la tecla está mal escrita o cambia, fijándola en toda la base de datos es
un asunto com- plicado. Muchos de los sistemas que simplemente usan numeración automática para
asignar claves primarias, en las que el DBMS asigna números incrementales a los registros a medida
que se crean. Este enfoque garantiza que cada registro tiene una clave principal única y que nadie
accidentalmente da el mismo número de identificación a dos personas diferentes (Figura 4-15).
Debido a que el autonumber no tiene otro sentido, no habría ninguna razón para cambiar cada vez
que.
normalizar el modelo de datos A continuación, trabajamos con Devon para perfeccionar las
entidades y sus relaciones. Este proceso de múltiples pasos se llama normalizaciónY que minimiza la
duplicación de la información en las tablas-una condición que puede causar muchos tipos de
problemas que disminuyen la integridad de la base de datos. También ayuda a evitar inconsistencias
que pueden ocurrir cuando los usuarios intentan insertar, modificar o eliminar datos.
En la tabla empleados, por ejemplo, un objetivo de la normalización es hacer que cada atri- buir
funcionalmente dependientes sobre el número de identificación de empleado, que identifica de forma
única cada empleado. dependencia funcional significa que para cada valor de identificación de
empleado, no es exactamente
FIGURA 4-15
claves primarias y externas en las
tablas Empleados y
departamentos.
un valor para cada uno de los atributos incluidos en el registro, y que la identificación del empleado determina ese valor. Para DD-Designs,
Devon está de acuerdo en que no habrá un solo empleado dirección de correo electrónico, una fecha de nacimiento, un apellido, un nombre,
y un departamento. En otra empresa, como el teatro, que podría no funcionar. Actores trabajan bajo varios nombres artísticos.
Devon también quiere añadir el número de teléfono del departamento, y consideramos en primer add-ing como un campo a la tabla
empleados. Pensándolo bien, sin embargo, DepartmentPhone no depende funcionalmente de identificación de empleado, pero en el
departamento. Si lo ponemos en la tabla empleados, puede que no sea demasiado engorroso con pocos empleados. Con cientos, sin
embargo, crearíamos una redundancia considerable. En su lugar, vamos a normalizar cruzando DepartmentPhone de la tabla empleados,
y la adición de un campo de Empleados llamada DepartmentID. Entonces se crea una nueva tabla llamada Departamentos, con
DepartmentID como la clave principal. DepartmentPhone es funcionalmente dependiente DepartmentID, junto con atributos tales como
el nombre del departamento, número de oficina del departamento, y edificio de oficinas departamento (Figura 4-16).
FIGURA 4-16
La normalización de la tabla
empleados mediante la eliminación
Departamento Teléfono (A) y la
colocación de este campo en la
tabla Departamentos de nueva
creación (B).
llaves extranjeras
Las claves principales que aparecen como un
atributo en una tabla diferente son una clave
externa en esa tabla. Pueden ser utilizados para
vincular los registros en dos tablas juntas.
110 Introducción a los Sistemas de Información
A medida que el extremo frontal o puerta de enlace, el software de aplicación realiza una serie
de funciones, además de que permite a los usuarios introducir, modificar o recuperar información.
Puede tener módulos para control de acceso, para determinar qué usuarios pueden acceder a qué
partes de la base de datos, y cuáles son sus derechos con respecto a la visualización o manipulación
de los datos. Esta interfaz también puede ayudar a garantizar la integridad de la base de datos
mediante la aplicación de las normas sobre integridad, validez, o formato. Por ejemplo, es posible
que los usuarios deban introducir un código postal válido para la dirección y el estado.
Aunque el software de aplicación puede desarrollarse en cualquier número de lenguajes de
programación, la principal forma en que interactúan con una base de datos relacional es a través de
un lenguaje de consulta, y SQL es el más popular.
SQL: Structured Query Language Pronunciado ya sea como cartas, o como “secuela” Structured
Query Language (SQL) es un lenguaje de consulta estándar, ampliamente utilizado para manipular la
información en bases de datos relacionales. Sin mucho entrenamiento, los usuarios finales pueden
crear consultas simples, como éste:
SELECT Apellido, Nombre, de empleado de los empleados
DONDE Apellido = “Park”
Más consultas complejas pueden insertar y editar datos, o borrar registros. Para enlazar tablas
entre sí, SQL se basa en sus claves primarias y externas. Por ejemplo, para recuperar el número de
teléfono de Devon, que es un campo de la tabla Departamentos, que se uniría a los empleados y las
tablas Departamentos en DepartmentID-la clave principal de Departamentos y clave externa de los
empleados.
Acceso al otro y herramientas de recuperación A pesar de que la web es una plataforma común para
el software de aplica- ción, otras plataformas son ampliamente utilizados también. Por ejemplo,de
respuesta de voz interactiva (IVR) se aprovecha de las señales transmitidas a través del teléfono para
acceder a la base de datos, recuperar información de la cuenta, e introducir datos. Las personas que
llaman pueden hacer selecciones de menús anidados mediante la introducción de números. Muchos
sistemas también reconocen un número limitado de palabras habladas. A pesar de que puede ser
frustrante para los clientes, estos sistemas son a menudo la única manera de Han- volúmenes de
llamadas masivas dle.
¿Falta una devolución de impuestos porque se le olvidó dejar una dirección? El IRS
Avis instalado un sistema IVR que “aprende”;
mantiene una base de datos se puede buscar (www.ntu.org)en caso de que no se
esto ayuda a reducir la frustración del cliente. El
entregó el sobre. Otra base de datos para comprobar eswww.unclaimed.org,mantenida sistema recibe a la persona que llama por su
por la organización no lucrativa Asociación Nacional de Administradores de Fincas no nombre (basado en ber teléfono nú-), y en lugar de
reclamados. Este servicio funciona con los estados para ayudar a encontrar a los recitar una larga
legítimos propietarios de los cheques no reclamados de nóminas, certificados de
acciones, dinero en efectivo y otros objetos de valor.
Capítulo 4 Bases de datos y almacenes de datos 111
menú, selecciona las opciones más relevantes. Por ejemplo, un cliente cuyo coche se espera volver
mañana podrían ser preguntado, “¿Le gustaría ampliar su tiempo de alquiler para el Ford SUV?”
CIO de Avis insiste en que IVR no es sólo una medida de reducción de costos. Si se hace bien,
puede mejorar la experiencia del cliente0.5
Los teléfonos móviles también ofrecen interfaces para bases de datos, a través de IVR, mensajes
de texto, aplicaciones especiales, o el Fnavegador web del teléfono inteligente. La posibilidad de
TIP PRODUCTIVIDAD
acceder a una base de datos en cualquier lugar, en cualquier momento, es una ventaja convincente
Poll Everywhere (Www.polleverywhere.com)ayuda a los usuarios crear sus propias
para todo, desde la gestión de los pedidos al cliente central a votar por su favorito de American Idol.
encuestas en línea, y el público puede votar mediante un mensaje de texto, Twitter, o un
navegador web. Las respuestas se insertan en una base de datos y el sitio web muestra
graficaron los resultados en tiempo real. Si el público se compone de 40 miembros o
menos, el sondeo es gratis. Puede utilizar este servicio para hacer sus presentaciones
en clase más interactiva.
Interfaces de lenguaje natural Para muchos, el santo grial de los lenguajes de consulta es la capaci-
dad de entender y responder a las preguntas en lenguaje natural, ya sea verbalmente o por escrito
correctamente. A pesar de que los vendedores han tratado de hacer consultas de los usuarios finales
más fácil de hacer, la capacidad de interpretar correcta- mente la pregunta de una persona es todavía
limitada, aunque muchas aplicaciones prometedoras están en marcha. 6Siri de Apple, por ejemplo,
puede interpretar una serie de preguntas habladas y buscar en sus bases de datos. “¿Cuál es la mejor
pizzería cerca de aquí?” Siri es algo pudiera responder, en parte porque se conoce su ubicación a
través de GPS, y se puede consultar la base de datos de reseñas de restaurantes de
Yelp(Www.yelp.com). Pero no puede responder fácilmente a preguntas altamente estructurados, o
preguntas que se basan en bases de datos Siri no puede acceder.
Para consultas de negocio, los sistemas de consulta en lenguaje natural funcionan bien cuando
las preguntas utilizan un vocabulario limitado. Por
de ejemplo, “¿Quéelhacen
IBM “Watson”, nombrelosdel
empleados
fundadorde
demás de
la compañía, es el superordenador que
$ 100.000 por año?” Podría traducirse en SQLderrotó con una precisión razonable. Sin embargo, los
a los dos mejores jugadores humanos en el programa de televisión Peligro. Su
problemas surgen cuando el vocabulario es capacidad
vaga, los para
nombres de los atributos pueden ser
comprender consultas en lenguaje humano complejos es asombrosa.
confundidos, o el propio ción cues- no está claro. Incluso la pregunta sobre los empleados de alto
Para ayudar a interpretar Watson discurso más informal, los investigadores alimentaron
de ingresos podría ser interpretado más de una forma. Por ejemplo, el usuario no tiene la intención
TI repositorios argot como el Urban Dictionary, pero se olvidaron de enseñar buenos
de incluir los beneficios y opciones de acciones? En caso de “empleados” incluir a las personas a
modales. Cuando Watson a partir de juramento, tuvieron que limpiar esas memorias
tiempo parcial? sistemas de consulta en lenguaje natural están mejorando muy rápidamente, sin
embargo, como Siri y Watson de IBM demuestran. limpio.7
FIGURA 4-20
Las carreras de administración de bases de datos y áreas relacionadas.
Proyectado de 10 años
Ocupación Crecimiento laboral Salario medio Sugeridas Educación y capacitación Requisitos
analista de negocios de TI 22% $ 76.200 BS en negocios con enfoque de MIS; la experiencia de trabajar con él para
crear software de negocios
Fuentes: Lista CNNMoney / de PayScale.com de grandes carreras: Mejores empleos en Estados Unidos (29 de octubre de 2012), http://money.cnn.com/pf/best-
jobs/, consultado el 19 de enero de 2013.
El DBA debe estar muy familiarizado con el software DBMS utiliza la organización. Este
software ofrecerá muchas diferentes herramientas administrativas para ayudar a mantener las bases
de datos funcionando sin problemas.
El ajuste del rendimiento y escalabilidad La base de datos necesita sintonía para un rendimiento
óptimo, y el proceso de ajuste tiene en cuenta la forma en que los usuarios finales acceden a los
datos. Por ejemplo, los campos que utilizan para buscar registros deben ser indexados para un
máximo rendimiento. A pesar de que un cliente tiene un número de identificación, es probable que
él o ella no pueden recordar que, por lo que la base de datos debe indexar otros campos que le
ayudará a encontrar el representante del registro de forma rápida, tales como número de teléfono o
dirección de correo electrónico.
A pesar de que el DBA puede verse tentado a índice de todo, eso sería más lento el sis- tema
hacia abajo cuando se agregan registros, por lo que es necesario un balance. Los diseñadores siempre
se esfuerzan para mantener el equilibrio. DBA hacen compensaciones para añadir velocidad a ciertas
actividades a cambio de ralentizar los demás, pero siempre se mantienen atentos a las necesidades
de los empleados, clientes y otras partes interesadas. Optimización del rendimiento para la
recuperación rápida de la información, por ejemplo, puede requerir ralentizar otras tareas, como la
entrada de datos o edición. Aunque los gerentes que consultan la base de datos con frecuencia se
desee optimizar la velocidad de recuperación, los que están entrando los datos tendrían una
preferencia diferente.
escalabilidad se refiere a la capacidad de un sistema para manejar rápidamente creciente
demanda; este es otro problema de rendimiento. YouTube se enfrentó a esto en sus primeros meses
cuando un goteo inicial de res visi- se convirtió en un tsunami. los servidores más grandes habrían
ayudado, pero el equipo de YouTube hizo lo que algu- escalar aún más. Se separaron la base de
datos en “fragmentos”, o secciones que podrían ser almacenados por separado y acceder en equipos
diferentes para mejorar el rendimiento. Fragmentos también rompió con la tradición al
almacenamiento de datos no normalizados, en el que la información que los usuarios suelen
recuperar en su conjunto se almacena en el mismo lugar, en lugar de por separado, normal- tablas
zado. Cuando el crecimiento es tan rápido, el DBA debe resolver uno tras otro cuello de botella.
Integridad, seguridad y recuperación El DBA gestiona las reglas que ayudan a asegurar la integri-
dad de los datos. Por ejemplo, una regla de negocio puede requerir que algunos campos no pueden
estar vacías, o la entrada debe adherirse a un formato particular. El software puede cumplir muchas
normas dife- rentes, como elintegridad referencial restricción, lo que asegura que cada entrada clave
externa existe realmente como una entrada de clave principal en la tabla principal. Por ejemplo,
cuando Devon añade un nuevo empleado a la tabla de empleados y los intentos de introducir un ID
de departamento que no existe en la tabla Departamentos, sin embargo, la restricción de integridad
DBMS le impide añadir el registro. Se debe crear un registro para el nuevo departamento antes de
asignar personas a la misma. La restricción también se detendría Devon de suprimir un departamento
si los empleados están asignados a la misma, aunque dejaron la compañía.
Un DBMS también proporcionará herramientas para manejar el control de acceso y seguridad,
tales como la protección de Transmisión palabra, autenticación de usuarios y control de acceso.
Capítulo 4 Bases de datos y almacenes de datos 113
FIGURA 4-21
esquema de la base de la
muestra.
Cuando las cerraduras de base de datos o falla, el DBMS ofrece herramientas para recuperarlo
y escorrentías Ning rápidamente o para recargar todos los datos de medios de copia de seguridad.
Algunos sistemas utilizan reflejo, de manera que los usuarios se dirigen a una copia de la base de
datos cuando el principal falla.
Documentación Incluso una pequeña puesta en marcha como DD-Designs necesitará una base de
datos con los de las tablas y muchas relaciones complejas docenas. El modelo de datos puede
documentarse utilizando unaesquema de Base de datos se, Que muestra gráficamente las tablas,
atributos, llaves, y relaciones lógicas (figura 4-21). losDiccionario de datos debe contener los detalles
de cada campo, incluyendo las descripciones escritas en lenguaje usuarios pueden entender
fácilmente en el contexto de la empresa. Estos detalles se omiten a veces cuando los desarrolladores
se apresuran a poner en práctica un proyecto, pero el esfuerzo vale la pena después. Los usuarios
finales comenzarán a desarrollar sus propias consultas y se sienten frustrados cuando el significado
exacto de los campos no está claro. ¿Qué significa un campo denominado
“CustomerTerminationFlag”? El DBA puede recordar el pensamiento que entró en ella, pero los
Explicar por qué surgen múltiples
bases deserá
usuarios finales datos múltiples y el reto de
confundido. bases de datos, y cómo la gestión
de datos maestros ayuda a
la integración abordar el reto de la integración.
La base de datos se pretende poner fin a las frustraciones de aquellos primeros silos de información
departamentales, y tuvo éxito. Sin embargo, como las organizaciones crecen, algunas de las mismas
desventajas reaparecer lentamente en la mezcla debido a que el número de bases de datos se
multiplica. Esto sucede cuando las empresas con diferentes maneras de hacer las cosas y los
diferentes sistemas de información se fusionan, y los registros no pueden combinarse con facilidad.
Cuando Delta adquirió Northwest Airlines, por ejemplo, CIO de Delta dijo que necesitaba para
combinar los sistemas informáticos 1.199 hasta aproximadamente 600. pasaje- ros estaban molestos
por los inconvenientes frecuentes, y durante la transición Delta ocupa el peor de quejas de los
clientes acerca de maletas perdidas, llegadas tardías , servicio de vuelo pobres, y otras
frustraciones.8
A veces múltiples bases de datos surgir en una organización sólo por una empresa de rápido
movimiento necesita el apoyo de una idea innovadora de inmediato. Los administradores pueden
optar por comprar un sistema separado de ella en lugar de tomar el tiempo para construir el soporte
en la base de datos de la empresa e integrarla plenamente. Los servicios basados en la nube se
suman a esta tendencia, ya que pueden ser implementados de manera rápida.
escalabilidad esquema de base Diccionario de datos
La capacidad de un sistema para manejar rápido Un gráfico que documenta el modelo de datos Documentación que contiene los detalles de
aumento de la demanda. y muestra las tablas, atributos, llaves, y las cada campo en cada mesa, incluyendo el
relaciones lógicas de una base de datos. usuario descripciones de amistad y sentido del
integridad referencial campo.
Una regla impuesta por el sistema de gestión de
base de datos que asegura que cada entrada
clave externa existe realmente como una entrada
de clave principal en la tabla principal.
Capítulo 4 Bases de datos y almacenes de datos 115
Sistemas de sombra
Aunque la base de datos integrada de la empresa es un recurso crítico, los cambios de apoyo a nuevas
características pueden ser dolorosamente lento. La gente quiere hacer su trabajo tan eficientemente
como sea po- sible, y algunas veces la solución rápida es crear una sistema en la sombra. Estas son
las bases de datos más pequeñas desarrolladas por personas o departamentos que se centran en las
necesidades de información específicas de su creador. Ellos no son manejados por el personal de TI
central, que ni siquiera conozca su existencia. sistemas de sombra son fáciles de crear con
herramientas como Access y Excel, pero la información de que pueden no ser consistentes con lo
que está en la Base de datos se corporativo. Otro peligro es que el departamento puede quedar
suspendida cuando el creador deja porque nadie más lo sabe muy bien lo que hace el sistema en la
sombra.
Estos problemas conducen a serios dolores de cabeza para los administradores que necesitan
resúmenes de toda la empresa para tomar decisiones. Reciben muchas “versiones de la verdad” de
diferentes fuentes ya que la información esté almacenada en cada uno no es consistente. Las
empresas deben tratar de reducir los sistemas de sombra e integrar sistemas tanto como sea posible,
tan importantes informes necesarios para la planificación o el cumplimiento no mezclar manzanas y
naranjas.
de salud de sus pacientes ciru- gía a partir de 2004, incluyendo datos demográficos, resultados de
pruebas de laboratorio, medicamentos y datos de la encuesta de los propios pacientes. El objetivo
era explorar las tendencias a largo plazo que no serían evidentes sin mirar a un gran número de
pacientes durante un período de años.9
Capítulo 4 Bases de datos y almacenes de datos 22
FIGURA 4-22
El almacén de
datos.
Ejemplos
ofInternalData
Fuentes
Ejemplos
ofExternalData
Fuentes
Fuentes externas de información pueden añadir al valor del almacén. Por ejemplo, una empresa
que vende joyería de gama alta puede ser que desee descargar una tabla de la Cen- estadounidense
SUS Mesa de que las listas de códigos cada US zip junto con el ingreso medio por hogar para sus
residentes, y añade que al almacén. La tabla de direcciones cliente tendrá códigos postales en él para
residentes de Estados Unidos, de modo que el atributo se convertiría en una clave externa que puede
estar vinculado a la clave principal en la tabla descargado. La figura 4-23 muestra cómo se podría
hacer el enlace entre las dos tablas. Al añadir esta fuente externa de información, los administradores
pueden aprender mucho acerca de las preferencias y el comportamiento de los clientes de la joyería
que viven en los códigos postales con diferentes niveles de ingreso:
► ¿Los clientes de los barrios altos ingresos tienden a darse en la noche?
► Cómo responden más a las promociones de radio o anuncios de televisión?
► En los últimos cinco años, tiene el perfil de ingreso del cliente tenido una tendencia hacia
arriba o hacia abajo?
La posibilidad de recurrir a información de alta calidad de los sistemas de información de una
organización y fuentes externas para detectar tendencias, identificar patrones históricos, generar
informes para fines de cumplimiento, llevar a cabo la investigación, y la estrategia del plan es una
gran ventaja. Aunque las bases de datos que soportan el negocio del día a día contienen mucha
información que entra en un almacén, los datos no se encuentran normalmente en un formato que
funciona bien para los análisis generales. Y como hemos visto anteriormente, las organizaciones a
menudo tienen más de una base de datos.
Una segunda razón de la base de datos operativa no es un buen candidato para la presentación
de informes agement hombre- alto nivel es que el DBA tiene que optimizar su rendimiento para las
operaciones. Rápida respuesta de los clientes y la entrada de datos son lo primero, no consultas
complejas que responden a las preguntas estratégicas, más grandes. Esas consultas podrían abarcar
años de datos. Serán procesos del CPU que todos los demás lenta hacia abajo, por lo que tiene
sentido para ejecutarlos en un almacén de datos independiente, no la base de datos operativa.
sistema en la sombra administrador de datos almacén de datos
pequeñas bases de datos desarrolladas por las Una combinación de vigilancia y constructor de Un repositorio de datos central que contiene
personas fuera del departamento de TI que se puentes, una persona que asegura que las información extraída de múltiples fuentes que
centran en las necesidades de información personas se adhieren a las definiciones de los se pueden utilizar para el análisis, la recogida
específicas de su creador. datos maestros en sus unidades organizativas. de información y la planificación estratégica.
FIGURA 4-23
fuentes externas de datos se pueden
agregar al almacén para aumentar
su valor. A continuación, una tabla
de la oficina de censo de Estados
Unidos que contiene los ingresos de
retención House- la mediana para
cada código postal se puede vincular
a los clientes por medio del campo
de código postal.
pasa con todas las otras fuentes de datos, especialmente de Internet? Piense por un momento en la
página web del Pany com-. Incluso una empresa de tamaño medio podría tener miles de visitas por
día y, cada visitante puede hacer clic docenas de veces. Tenga en cuenta también la cantidad de
información semi-estructurada y no estructurada fluye a través de Twitter, YouTube, Facebook e
Instagram, algunos de los cuales podrían dar a la empresa una ventaja competitiva si se analizan
rápidamente.
118 Introducción a los Sistemas de Información
FIGURA 4-24
Las arquitecturas de almacenamiento de datos
arquitecturas de
Base de datos relacional Las empresas suelen utilizar las mismas DBMS relacional para su almacén de
almacenamiento de datos.
datos, ya que utilizan para su base de datos operativa, pero cargan en un
servidor separado y sintonizados para una rápida recuperación y presentación
de informes.
cubos de datos
Esta arquitectura crea cubos multidimensionales que se adaptan a los datos
complejos, agrupados dispuestos en jerarquías. La recuperación es muy rápida
porque los datos ya se agrupan en dimensiones lógicas, tales como ventas por
producto, ciudad, región y país.
almacén virtual federados
Este enfoque se basa en una colección cooperante de bases de datos
existentes; extractos de software y transforma los datos en tiempo real en lugar
de tomar instantáneas a intervalos periódicos.
dispositivo de almacenamiento El aparato es una solución de almacenamiento de datos preenvasados
de datos ofrecidos por los proveedores que incluye el hardware y software,
mantenimiento y soporte.
NoSQL sistemas de gestión de bases de datos adecuadas para almacenar y analizar
grandes volúmenes de datos. NoSQL significa “no sólo SQL.”
Se basa en la memoria principal para almacenar la base de datos, en lugar de
Base de datos en memoria dispositivos de almacenamiento secundario, lo que aumenta enormemente la
velocidad de acceso.
Colapso 4 «Responder TI Retweet ★ Favorito ••• Más
StarlaInBostin
FIGURA 4-25
Mensajes de Twitter pueden ser
HM está fuera de sombreros y guantes .. Idiotas se podría
parte de los grandes datos de
pensar que recibirían más al considerar el clima
una empresa puede analizar.
58
retweets
Un aluvión de tweets como el de la figura 4-25, sin duda, llamar la atención de Los directivos en las tiendas de ropa como H & M, si
sus sistemas podrían detectar la tendencia suficientemente rápido.
La cantidad de datos disponibles también está explotando porque gran parte se recoge automática- sensores camente por, cámaras,
lectores RFID y dispositivos móviles. En la electrónica de consumo, por ejemplo, los dispositivos diseñados para monitorear sus
lecturas personales de salud pueden transmitir informa- ción a una aplicación de teléfono inteligente para que pueda ver las pantallas
en tiempo real. Este “Internet de las cosas”, en la que tantos dispositivos están recogiendo y transmitir datos entre sí, significa que los
datos se están acumulando a un ritmo impresionante, mucho más rápido que incluso la Ley de Moore podría predecir. 11 ¿Qué es el Big
Data? big Data se refiere a las colecciones de datos que son tan grandes en tamaño, tan variada en su contenido, y tan rápido a
acumularse que son difíciles de almacenar y analizar el uso de los enfoques tradicionales. Los tres “Vs” son las características que
definen de datos grandes (figura 4-26):
► Volumen. colecciones de datos pueden tardar hasta petabytes de almacenamiento, y están en continuo crecimiento.
► Velocidad. Muchas fuentes de datos cambian y crecen a velocidades muy rápidas. El proceso de ETL las noches de
uso frecuente para los almacenes de datos no es adecuada para muchas demandas en tiempo real.
► Variedad. bases de datos relacionales son muy eficientes para la información estructurada almacenada en tablas,
pero las empresas pueden beneficiarse de análisis de datos semi-estructurados y no estructurados, así.
tecnologías Big Data bases de datos relacionales pueden ser parte de cualquier esfuerzo para analizar grandes volúmenes de datos,
pero una serie de nuevas tecnologías están en desarrollo para manejar mejor los tres Por ejemplo, están surgiendo plataformas de base
de datos que no se basan en estructuras relacionales, bases de datos NoSQL llamados “Vs.” , para “no sólo SQL.” Estos no requieren
esquemas fijos con definiciones de datos claros para cada atributo. También por lo general no hacen cumplir las estrictas reglas de la
forma en que una base de datos relacional hace. Además, algunas compañías ofrecen bases de datos en memoria, donde la propia base
de datos se almacena en la memoria principal y no en un disco duro independiente. Esta tecnología emergente aumenta enormemente
la velocidad de acceso y está ganando popularidad para aplicaciones que necesitan tiempos de respuesta muy rápidos.
Otra tecnología útil para grandes volúmenes de datos es Hadoop, que es un software de código
abierto que soporta el procesamiento distribuido de grandes conjuntos de datos en varios equipos.
El software gestiona el almacenamiento de archivos y el procesamiento local, y se puede escalar
hasta miles de res computa- en la nube. servicio de radio por Internet Pandora utiliza Hadoop para
analizar algunos 20 mil millones pulgar hacia arriba y hacia abajo valoraciones que 150 millones de
usuarios hacen clic en que cada canción se reproduce. El Pany com- puede predecir con exactitud
las preferencias del cliente y crear listas de reproducción a medida. 12 Un estudio de caso en el
capítulo 6 describe la tecnología de Pandora con más detalle.
sitio de juegos en King.com también utiliza Hadoop para ayudar a explorar grandes volúmenes
de datos de la compañía, que incluye las actividades de más de 60 millones de usuarios registrados
que juegan miles de juegos cada mes. Los juegos son gratis, pero la compañía obtiene ingresos
mediante la venta de productos en el juego para los jugadores, tales como vidas extra. Mientras que
su base de datos relacional MySQL funcionó bien durante un tiempo, el aumento de volumen fue
muy difícil de controlar. Con Hadoop y tecnologías relacionadas grandes volúmenes de datos, la
empresa puede mirar en las tendencias y patrones que descubren patrones de comportamiento que
sería fácil pasar por alto en muestras más pequeñas, pero que puede ayudar a mejorar los juegos. Se
jugadores quedarse atascado demasiado en ciertos niveles? ¿Es que abandonan juegos con ciertas
características? El director de almacenamiento de datos dice: “Tenemos que saber todo lo que pueda.
Sin eso . . . estaríamos ciegos “.13
La Agencia Nacional de Seguridad de Estados Unidos se basa en tecnologías de datos grandes
para rastrear la actividad terrorista con registros de Internet y del teléfono. El debate sobre el trabajo
de la agencia calienta en 2013, ya que el público llegó a entender cómo pueden ser poderosos muy
grandes de datos.14 El factor ético en el capítulo 3 explora las implicaciones éticas que rodean los
grandes datos, especialmente para los derechos de privacidad.
destapar esfuerzos para manipular los precios.15 Los hallazgos son especialmente valiosos cuando
se puede predecir con exactitud los acontecimientos futuros.
El trabajo de “científico de datos” está surgiendo en las empresas de todo el mundo, y las
personas que pueden llenar ese trabajo están en demanda muy alta. Las empresas necesitan personas
que tienen las habilidades para identificar las fuentes de datos más prometedores, construir
colecciones de datos, y luego hacer erie descu- significativas. Necesita saber la diferencia entre la
minería de datos, lo que conduce a importantes hallazgos, y “drudging de datos”, que olfatea
relaciones que sólo podría ocurrir por accidente y que tienen poco valor. También deben ser capaces
de hacer un caso convincente cuando encuentran tendencias que podrían agregar ventaja
competitiva. Un éxito científico de datos es una combinación de hacker, analista, comunicador,
asesor de confianza, y, sobre todo, una persona curiosa.dieciséis
Cuestiones de propiedad
En el lugar de trabajo, los recursos de información se encuentran en casi todas partes, desde los
archivadores y cajones de escritorio a los archivos electrónicos en los medios de comunicación
portátiles y discos duros de ordenador. A pesar de que una empresa puede establecer la política de
que todos los recursos de información son propiedad de la compañía, en la práctica, las personas
suelen considerar que estos recursos de forma más protectora, aun cuando el cumplimiento y la
seguridad no exigen controles de difícil acceso. Normas sobre cómo se utilizan los registros surgen
con el tiempo, y aunque muchos son no escrita, que sin duda puede afectar el comportamiento de
los empleados.
Los vendedores pueden querer proteger el acceso a sus propias oportunidades de ventas, o
departamentos enteros puede ser que desee controlar quién tiene acceso a los registros que
mantienen. Es posible que prefieran que los empleados fuera del departamento tienen el derecho de
ver a uno de “sus” registros, pero no cambiarlo.
Los propios clientes plantean cuestiones de propiedad, también. Por ejemplo, un cliente sin
apellido (Madonna, por ejemplo) podría solicitar que el DBA cambiar el último campo de nombre
a “opcional” en lugar de “necesario.” Temas de propiedad tienen que ser negociados entre muchos
grupos de interés.
Otro reto es simplemente el tiempo que puede tomar para realizar cambios en una base de datos
integrada de la empresa cuando tantas personas pueden verse afectadas y querrá entrada. Este
proceso lleva tiempo, no sólo para el personal de TI para analizar el impacto, sino para todas las
partes interesadas para discutir él también. Los cambios en los antiguos sistemas de procesamiento
de archivos eran mucho tiempo para el personal de TI debido a la forma en que el código fue escrito.
Los cambios en la base de datos integrada toman menos tiempo de él, pero más de los usuarios
finales.
Craigslist.com ilustra otras formas en las que el elemento humano afecta a la gestión de la
información. Fundador Craig Newmark inicialmente trató de ayudar a la gente en San Francisco a
encontrar apartamentos y puestos de trabajo. El sitio de pronto se convirtió en la base de datos más
grande del mundo de los anuncios clasificados, y esta fuente de ingresos para los periódicos
impresos se secó. preocupaciones de Newmark son menos acerca de la tecnología de bases de datos
que por la salud de la comunidad y las amenazas incesantes de los spammers y estafadores que
pueden destruir la confianza en el sitio.
Bases de datos sin límites también son parte de las operaciones de socorro de emergencia. bases
Data- en línea pueden ayudar a las víctimas a encontrar familiares desaparecidos, organizar a los
voluntarios, o enlazar personas que pueden proporcionar refugio a aquellos que lo necesitan. Por
ejemplo, Google puso en marcha una base de datos “Buscador de Personas”, después de bombas
explotaron en el maratón de Boston, para ayudar a la gente a encontrar el uno al otro0.18 Una lección
valiosa de los esfuerzos para construir bases de datos sin límites es simplemente la necesidad de
planificar para alto volumen y rápido crecimiento. Las capacidades crecientes de bases de datos
relacionales, junto con las tecnologías de grandes datos y computación en la nube, son esenciales
para apo- puerto de estos repositorios de todo el mundo.
Voluntarios Ahora!
Un juego de simulación en el diseño de la base de datos para un
servicio de búsqueda de Voluntarios
sólida columna vertebral para toda la organización y todos sus grupos de interés.
A medida que las organizaciones crecen y se expanden, o cuando dos empresas se fusionan, a menudo
terminan con muchas bases de datos en lugar de uno solo integrado. Los empleados también poner en
marcha sus propios sistemas de sombra para administrar sólo la información que necesitan, sin la ayuda o
supervisión de personal de TI central. Las estrategias de integración, como la gestión de datos maestros,
son necesarios para coordinar cómo se introducen los datos y proporcionar resúmenes de toda la empresa
para la planificación estratégica. Un administrador de datos ayuda a mantener la consistencia de los datos
en toda la organización.
El almacén de datos extrae la información de múltiples fuentes para crear un almacén de información que
puede ser utilizado para información, el análisis y la investigación. Las fuentes pueden ser tanto internos
como externos. De extracción, transformación y carga son los tres pasos que se utilizan para crear el
almacén, que se actualiza con información actualizada diariamente o con más frecuencia. datos grande se
refiere a colecciones de datos inmensas que ofrezcan los tres “Vs” (alto volumen, la velocidad, y la
variedad). bases de datos relacionales y almacenes de datos pueden ser utilizados para analizar estas
colecciones y llevar a cabo la extracción de datos, junto con las nuevas tecnologías, tales como bases de
datos NoSQL y software que soporta el procesamiento distribuido a través de miles de ordenadores.
gestión de información empresarial no es sólo acerca de la tecnología. Se trata de una variedad de desafíos
que tocan en el elemento humano. surgen problemas de propiedad de datos, por ejemplo, ya que los datos
tienen que ser compartidos por todas las partes interesadas en la organización. ediciones de la propiedad
también juegan un papel importante para bases de datos sin límites, tales como Craigslist, en la que la
mayoría de los registros se introducen por personas fuera de la empresa. El liderazgo, la cooperación, la
negociación y una base de datos bien diseñado son todos necesarios para equilibrar todos los requisitos de
las partes interesadas.
121
122 Introducción a los Sistemas de Información
términos y conceptos
claveestructurada la
información base de datos llaves extranjeras sombra gestión de datos
información no estructurada software de gestión de Structured Query Language maestros del sistema de
(SQL)
semi-estructurada registro de la base de datos (DBMS) almacenamiento de datos
de respuesta de voz interactiva
tabla de información de Modelo de Datos (IVR) administrador de datos
metadatos de procesamiento Relacional base de datos escalabilidad extraer, transformación y carga
por lotes de definición de datos primaria normalización diccionario de datos de (ETL)
numeración automática minería de datos grandes datos
de campo esquema de base de la
clave funcionalmente integridad referencial
dependientes
cada tipo de relación? En la universidad, ¿cuál es la relación para ver qué hechos están disponibles para su estado de
entre los estudiantes y los cursos? ¿Cuál es la relación entre origen. Prepare una lista de cinco hechos interesantes acerca
los asesores y estudiantes? de su estado de origen para compartir con sus compañeros
4-24. marketing de destino utiliza bases de datos y los datos alma- de clase.
cenes casas para identificar clientes potenciales que un Busi- 4-27. Lisa Noriega tiene un problema con los datos no
ness quiere llegar a la base de factores que describen a un estructurados. A medida que su negocio de catering crece,
grupo específico de personas. Por ejemplo, los mercados de Lisa quiere analizar con- tratos para saber si los proyectos de
destino pueden ser identificados por área geográfica, por más de presupuesto son el resultado de usar gestores de
grupos de edad, por género, o por los tres factores a la vez. proyectos sin experiencia. Lisa quiere establecer una base de
Uno de los principales proveedores de información datos y quiere que le permite identificar los registros que
empresarial y de los consumidores es infoUSA.com. Visite necesitará. Trabajar en un pequeño grupo con sus
el sitio webwww.infousa.comaprender cómo se recopilan compañeros a adoptar la definición de tres entidades que
datos de múltiples fuentes. (En línea en tienen significado para su negocio de catering. ¿Cuáles son
//www.infousa.com/Preguntas más frecuentes/.) ¿Cómo se los atributos de estas entidades? ¿Cuáles son las definiciones
compara su proceso para extraer, transformar y cargar de datos probables de los atributos? ¿Cuál es la relación
(ETL)? Preparar un breve resumen de sus hallazgos que entre los registros y tablas? ¿Cuál es la relación entre los
describe el infoUSA proceso de cinco pasos de la campos y atributos? Preparar una presentación de 5 minutos
construcción de una base de datos de calidad. de sus hallazgos.
4-25. Visita YouTube.com y busque “R. Edward Freeman partes 4-28. El Teatro de Drexel es una pequeña sala de cine, de propiedad
interesadas Theory”para aprender más acerca de los grupos familiar que proyecta películas independientes y clásicos. El
de interesados. ¿Es usted una de las partes interesadas en vestíbulo está decorado con recuerdos de películas de época
cualquiera de las siguientes organizaciones? Enumerar INCLUYENDO un cartel original de Arnold
varios grupos de interés en cada una de estas organizaciones Schwarzenegger, el Terminator, y su famosa frase,
y describir el tipo de información que necesita cada grupo de “Vuelvo”. El teatro tiene una colección de 5.000 películas
interés. en DVD. Se contrata a los trabajadores a tiempo parcial para
a. Una universidad la venta de entradas y concesiones, así como los servicios de
segundo. Un banco regional limpieza y de proyección. Se muestra una de sus películas
do. Toyota Motor Corporation cada noche a las 7:00 pm El propietario de la Drexel planea
4-26. La idea de almacenamiento de datos se remonta a la década implementar una base de datos cional relación de manejar
de 1980. Hoy en día, el almacenamiento de datos es un operaciones. Se le ha pedido que desarrollar el modelo de
mercado global por valor de mil millones de dólares. ¿Cuál datos para gestionar el inventario película. Quiere realizar un
es la relación entre las bases de datos operacionales y seguimiento de las películas, géneros (catego- rías), actores
almacenes de datos? ¿Por qué los almacenes de datos y lenguajes. Quiere una descripción de los atributos de cada
creados, y cómo las organizaciones utilizan? ¿Qué tipo de entidad, y él quiere una explicación de cómo usar las claves
decisiones no alma- cenes de datos de soporte casas? principales y claves externas para vincular las entidades
¿Alguna vez ha buscado un alma- cén de datos? Visita juntos. Trabajar en un grupo pequeño con compañeros de
FedStats. gov y buscar “MapStats” clase para planificar el modelo de datos. Preparar una
presentación de 5 minutos que incluye una explicación de
ejercicios appiication las claves principales y claves externas.
4-29. De Excel:La gestión de provisiones de a bordo ► Crear una columna que enumera Precio de venta por paquete.
Lisa Noriega desarrolló la hoja de cálculo se muestra en la Figura Utilice una fórmula para calcular un margen de beneficio del
4-27 para que pueda manejar mejor su inventario de provisiones de 25%. Configurar una célula suposición para introducir el
a bordo capaces desechables. Descargar la hoja de cálculo llamado marcado de porcentaje en lugar de incluir el valor de marcado
Ch04Ex01 para que pueda ayudarla con el análisis de inventario. en la fórmula.
Lisa aparece sus artículos de inventario en cantidades “caso”, ► Dar formato a la hoja de cálculo para que sea fácil de leer y
pero que ahora quiere analizar elementos de acuerdo a las cantidades visualmente atractivo.
“pack” y crear una lista de precios para mostrar a sus clientes. Por
ejem- plo, un caso de servicio pesado de lujo desechables cuchillos 1. ¿Cuál es la inversión total de Lisa en Artículos
de plástico tiene 12 paquetes de 24 cuchillos de cada uno. Ella quiere desechables para catering?
calcular un “precio de venta por paquete” sobre la base de su valor 2. ¿Cuál es el valor total de las ventas de su inventario?
de costo más un margen de beneficio del 25%. 3. La cantidad de beneficios que va a hacer si se vende la
Lisa le pide que complete las siguientes operaciones y contestar totalidad de su inventario en un margen de beneficio del
las siguientes preguntas. 25%?
4. La cantidad de beneficios que va a hacer si se utiliza un
► Crear columnas que enumeran paquete por caja, margen de beneficio del 35% en su lugar?
paquetes en la mano, y el costo por paquete por caja
para cada elemento. Utilizar una fórmula para calcular
el costo por paquete por caja.
31 Introducción a los Sistemas de Información
FIGURA 4-27
provisiones de a bordo hoja
de cálculo.
4-30. Acceso a aplicación:DD-Designs atributos y relaciones, como se ilustra en la figura 4-28. Descargar
Devon Degosta creó una base de datos para gestionar su negocio de y utilizar la información en la hoja de cálculo Ch04Ex02 a llenar las
diseño web. Se le ha pedido que crear un informe que summa- Rizes tablas. Crear un informe que enumera cada proyecto por su nombre
e identifica los proyectos que se asignan a más de un empleado. y los nombres de los empleados asignados a la misma. Devon quiere
Volver a crear la base de datos de acceso con los nombres de las que el informe para incluir el nombre del cliente y el presupuesto
tablas, del proyecto. ¿Qué otros informes sería útil encontrar Devon?
FIGURA 4-28
esquema de base de
DD_Designs.
UNA
Caso de
Capítulo 4 Bases de datos y almacenes de datos 125
Estudio # 1
Reino Unido la policía a rastrear vehículos sospechosos en tiempo
real con las cámaras y la base de datos de la matrícula
C asi todas las calles de la ciudad de Londres se encuentra
muestran que es registrada a alguien que debe multas de
bajo vigilancia constante de video, en parte como reacción a los
aparcamiento, o que no tiene seguro. Los datos también podrían
ataques terroristas. Estas cámaras de circuito cerrado crean
demostrar que la placa de matrícula está unido al vehículo
inicialmente cintas que podrían ser vistos más tarde, pero la
equivocado, que apunta a placas robados.
tecnología ahora es mucho más capaz. Las cámaras están
Los datos se mantienen durante 5 años, la creación de un
equipadas con capacidades de reconocimiento automático de
repositorio rico para la minería de datos. Un estudio encontró que
matrículas, que utilizan el reconocimiento óptico de caracteres
ciertos coches desencadenan ninguna bandera, pero parecían
para descifrar los números de placas y letras en tiempo casi real
estar haciendo viajes imposiblemente rápidos desde un extremo
(figura 4-29).
de la ciudad a la otra. La policía descubrió que los ladrones de
los datos de la cámara se envía al Centro Nacional de Datos
coches estaban tratando de burlar a ANPR por “clonación auto”,
ANPR en el norte de Londres, que también alberga la Policía
en el que los autores duplican una placa cense verdadera li- y
Nacional de Informática. Las cámaras están muy extendidas por
adjuntarlo a un coche robado de la misma marca y modelo.
toda la ciudad, y muchos están montados en vehículos de la
Las fuerzas del orden ver la base de datos de matrícula, las
policía. Cada cámara puede realizar 100 millones placa lee por
cámaras que lo alimentan, y su integración con datos de la policía
día. número de matrícula de cada vehículo se combina con la
como un avance re- volucionario, a pesar de que todavía hay
ubicación GPS de la era cam- y una marca de tiempo, por lo que
lagunas en la cobertura y la tecnología en sí no es perfecto. Por
la base de datos Oracle en el Centro de Datos contiene
ejemplo, la lluvia, la niebla y la nieve puede interferir, y la placa
información detallada sobre el paradero de casi todos los
en sí podría ser borrado por el lodo. Las placas de sí mismos
vehículos.
varían un poco, con diferentes colores, fuentes, y edades fondo
Desde la base de datos está vinculada a la National
im-. A pesar de los inconvenientes, los departamentos de policía
ordenador de la policía, la policía de ronda se pueden consultar
en los Estados Unidos y otros países están adoptando
para ver si un vehículo cercano se encuentra en posición alguna
rápidamente el sistema, la compra de coches CAMERA
razón. El contraste de la información de la placa contra la base
equipada, y el desarrollo del acceso a bases de datos de
de datos delito puede subir los vehículos involucrados en
teléfonos inteligentes.
crímenes o registrados a criminales buscados. En un caso, un
defensores de la privacidad, sin embargo, están
agente de policía murió durante un robo, y la policía fueron
preocupados por el creciente poder de las bases de datos
capaces de realizar un seguimiento del coche de la partida
integradas y tecnologías de vigilancia para scru- tinize
debido a que su matrícula fue leído por las cámaras. Para
comportamiento humano. Uno de los jueces comentó: “Una
cámaras montadas en vehículos, el oficial no necesita ni siquiera
persona que conoce todos los viajes de otros puede deducir si
FIGURA
para enviar una consulta. Una4-29
alerta de audio se apaga cuando
La captura de números de matrícula para la está a la iglesia semanalmente, un bebedor empedernido, un
la imagen de la cámaraaplicación de la ley. con el número de placa
coincide
habitual en el gimnasio, un marido infiel, un paciente ambulatorio
marcado, lo que llevó a la policía a investigar.
que recibe tratamiento médico, o un asociado de una persona en
Más allá de la actividad delictiva, la base de datos de la
particular o grupo político.”el Reino Unido está endureciendo la
policía contiene amplia información vinculada a los datos de la
normativa para proporcionar una mejor protección para los
placa de licencia. Por ejemplo, un coche puede
ciudadanos en un intento de equilibrar las preocupaciones de
privacidad contra el enorme valor de estas bases de datos
ofrecen a la policía.
4-34. ¿Cuáles son las consideraciones pertinentes para http://www.guardian.co.uk/uk/2012/aug/27/police- número de placa cámaras-red-irregular,
Consultado el 24 de de marzo de 2013.
equilibrar la capacidad de la policía para investigar
Base de Datos de Seguimiento Nacional de Vehículos,
frente a la necesidad de los ciudadanos a la http://wiki.openrightsgroup.org/wiki/National_Vehicle_ Tracking_Database, Consultado el 24 de de
privacidad? marzo de 2013.
La policía de Jackson, MS, utilizan la tecnología de reconocimiento de matrículas Genetec. (14 de
marzo de 2013). Noticias de seguridad del
gobierno,http://www.gsnmagazine.com/node/28730?c=law_ enforcement_first_responders,
Consultado el 24 de de marzo de 2013.
Caso de
Estudio # 2 extrae de su propia base de datos global para evaluar estrategias de
Colgate-Palmolive
marketing
ITH más de $ 17 mil millones en ventas anuales, las
sistemas separados. Las controversias acerca de que es la
operaciones globales de Colgate-Palmolive abarcan ens doz- de
“versión de la verdad” correcta desaparecen.
los países. El gigante de productos de consumo hace que las
Greene se basa en esta base de datos back-end consistente
marcas icónicas como pasta de dientes Colgate, jabón Irish
para la iniciativa Colgate Planificación de Negocios (CBP), que
Spring, detergente para lavar platos Palmolive, y gel de ducha
guía las decisiones de inversión de Colgate en todo el mundo.
Softsoap y los vende en todo el mundo. Además de tomar un
directores de marketing de productos de consumo se enfrentan
“bocado de la suciedad”, con sus jabones y productos de higiene
a una desconcertante variedad de opciones para promover los
personal, la compañía también hace que los alimentos para
productos, de las campañas de publicidad y anuncios de
mascotas Science Diet.
televisión para descontar cupones, descuentos, y muestra en la
Fundada por William Colgate en 1806, la com- pañía con
tienda. La mayoría de las empresas de juzgar el éxito de este tipo
sede en Manhattan especializada en jabón, velas, y almidón. La
de las inversiones mediante la medición de “elevación”, la
marca “Palmolive”, con jabones perfumados a base de aceites de
diferencia entre las ventas reales con la promoción y una
palma y aceite de oliva en lugar de mal olor grasas animales, se
proyección de lo que las ventas podrían haber sido sin la
añadió a mediados de siglo a través de una fusión. La empresa
promoción. Pero CBP, en combinación con la base de datos
comenzó a expandirse en el extranjero mediante la compra de
maestra integrado, permite la gestión de Colgate para cavar
empresas de jabón y pasta de dientes locales en la década de
mucho más profundo, la medición real de beneficio, pérdida y
1930, por primera vez en Europa, y más tarde en las economías
recuperación de la inversión.
emergentes de Asia y América Latina. En América Latina, por
Las métricas detalladas se pueden desglosar para los
ejemplo, Colgate-Palmolive capturó el 79% del mercado de los
productos individuales, regiones y minoristas, proporcionando
productos de cuidado oral, tras adquirir empresas en Brasil y
una ventana muy clara de la cantidad de cualquier inversión
Argentina. Más del 80% de sus ventas netas provienen ahora de
contribuyó al beneficio de la empresa. de Sede corporativa grifos
muchos otros países, en América Latina.
estos resultados finamente sintonizados para planificar nuevas
La gestión de este extenso imperio global requiere una
inversiones. Sin embargo, no es un enfoque cortador de galletas,.
dedicación a la coherencia, no sólo en los productos en sí, sino
Guiados por su conocimiento de los mercados locales, directores
en los datos que rastrea todos los aspectos de las operaciones y
de filiales pueden ajustar los planes a las condiciones locales
el rendimiento de la empresa. la base de datos back-end y la
mejor ajuste. Dado que los resultados están todos contados
empresa de software integrado de Colgate, suministrado por
constantemente, a partir de la base de datos, los gerentes saben
SAP, apoya un enfoque coherente de gestión de datos maestros.
lo que funciona y lo que no.
CIO Tom Greene dice, “Con SAP, las maestras tros productos y
Los márgenes son críticos en productos de consumo, por lo
los grupos de clientes están impulsados por los mismos datos
que esta visión más profunda vale la pena. Gracias a la CBP,
Mas- ter.” Con todo el mundo utilizando el mismo sistema
Colgate reinvertido $ 100 millones en promociones que se
integrado, Greene evita el problema de los datos redundantes e
encuentran para ser más rentable, y su objetivo a largo plazo es
inconsistentes entrado en
de $ 300 millones de una suma que podría ser reinvertido en
promociones, o se añade a la línea final de la com- pañía. Como
Greene dice, “Hay que entender la tecnología, pero lo más
importante. . . es entender la Busi- ness para que pueda casarse
con los dos juntos “.
Capítulo 4 Bases de datos y almacenes de datos 127
preguntas de discusión
4-35. ¿Qué tipo de datos hace uso Colgate-Palmolive, y qué Fuentes:Colgate-Palmolive Company. (24 de marzo de 2013). de Hoover registros de la
compañía. Consultado el 24 de de marzo de 2013 desde línea de Hoover.
tipo de decisiones toma Colgate-Palmolive tome
Colgate Mundial de la Atención Sitio Web, www.colgatepalmolive.com, consultado el 26 de
basadas en los datos? agosto de 2013.
4-36. ¿Por qué es importante para Colgate-Palmolive para los Henschen, D. (13 de septiembre, 2010). Datos impulsa las decisiones de inversión de Colgate.
Information Week, 1278, 38-39.
datos que se integrarán a través de sistemas? Maxfield, J. (27 de febrero, 2013). Lo que hace que Colgate-Palmolive una de las mejores
4-37. ¿Qué beneficios negocio no lograr Colgate-Palmolive a empresas de Estados Unidos. Motley Fool, http://www.fool.com/investing/general/2013/02/27/
lo-hace-Colgate-Palmolive-uno-de-Américas-best.aspx, Consultado el 24 de de marzo de 2013.
través del uso de estos datos?
4-38. ¿Qué tipos de conocimiento del negocio que sería
necesario para un administrador de Colgate-Palmolive
para analizar los datos?
Una base de datos a partir de una hipotética nación pequeña isla un Toyota negro o azul oscuro. ¿Qué coche es el mejor
contiene información de matrículas y registros violación candidato, y quién es el propietario?
RELAClONADAS simular, y se ilustrará cómo la policía son la 4-43. Cartas tales como G y C se confunden a menudo por testigos.
identificación de los coches implicados en delitos o infracciones de Algunos testigos de un accidente de golpe y fuga informaron
tráfico. Descargar el archivo de Access llamada Ch04_Police para que la placa de matrícula comenzó con LGR, pero dijeron
contestar las siguientes preguntas. que no estaban seguros. Construir una consulta para
4-39. ¿Cuáles son las tres tablas en la base de datos? Por recuperar registros que puedan coincidir con cualquiera LGR
simplicidad, la tabla LicensePlates en este correo proyecto o LCR y la lista de los candidatos.
utiliza LicensePlateNumber por su clave primaria. ¿Por qué 4-44. La división de homicidios supo que un vehículo con un número
puede que el trabajo para una pequeña nación de la isla, DYV4437 matrícula se observó cerca de una escena del
pero no para los Estados Unidos? crimen, y que le gustaría hablar con el dueño, que podría ser
4-40. ¿Por qué se PlateImagesID la clave principal de la tabla capaz de arrojar luz sobre el caso. Si las cámaras han
PlateImages, en lugar de LicensePlateNumber? recogido el número de placa en algún momento, que debe
4-41. Un oficial de policía ve a un coche aparcado ilegalmente en estar en la mesa PlateImages. Construir una consulta para
una calle oscura, con LCN5339 matrícula. Consultar la base recuperar la latitud y longitud de la ubicación más reciente
de datos y la lista de delitos u otras violaciónes que están del coche.
vinculados a esta placa de matrícula.
4-42. Un ciudadano reporta un robo a la policía, pero ella sólo puede
recordar las tres primeras letras de la matrícula del coche
(JKR). Ella cree que fue
128 Introducción a los Sistemas de Información
notas de
capítulo
1. Sauermann, H., & Roach, M. (2013). El aumento de las tasas de 10. Los administradores de datos y expertos en datos: roles y
respuesta encuesta web en la investigación de la innovación: responsabilidades. (Dakota del Norte). Rensselaer de
Un estudio experimental de las características de diseño de almacenamiento de datos, http: // www .rpi.edu / en almacén de
contacto estático y dinámico. Política de Investigación, 42 (1), datos / docs / Data-Stewards-Roles- Responsibilities.pdf,
273-286. doi: 10.1016 / j.respol.2012.05.003 consultado el 19 de junio de 2013.
2. Ilieva, J., Baron, S., y Healey, Nuevo México (2002). Veys 11. Bajarin, B. (21 de enero de 2013). La Internet de las cosas:
línea cies en la investigación de mercados: pros y contras. Hardware con un lado de software. Hora, http: //
Revista Internacional de Investigación de Mercado, 44 (3), techland.time.com/2013/01/21/the-internet-of- cosas en
361-376. hardware-con-un software de lado de /, consultado el 19 de
3. Consejo nacional de investigación. (1999). Financiar una junio de 2013.
revolución: El apoyo del gobierno para el cálculo de la 12. Mone, G. (2013). Más allá de Hadoop. Comunicaciones de la
investigación. Washington, DC: National Academy Press. ACM, 56 (1), 22-24. doi: 10.1145 / 2.398.356,2398364
www.nap.edu/readingroom/ libros / ahora / notice.html, 13. McKenna, B. (9 de enero de 2013). sitio de juegos en King.com
alcanzado el 7 de mayo, 2008. desbloquea grandes volúmenes de datos con Hadoop.
4. Waldo, DR (2005). La precisión y el sesgo de los códigos de ComputerWeekly.com,http://www.computerweekly.com/new
raza / origen étnico en la base de datos de inscripción de s/2240175747/ Kingcom-juego-site-desbloqueos-big-datos-
Medicare. Health Care Financing Review, 26 (2), 61-72. con-Hadoop, consultado el 21 de enero de 2013.
www.cms.gov/ HealthCareFinancingReview / descargas / 04- 14. Walsh, B. (24 de junio de 2013). gran problema de datos de la
05 winterpg61.pdf, consultado el 19 de febrero, 2011. NSA, Tiempo, 181 (24), 24.
5. Nash, KS (2012). Impulsado por aprender. CIO, 26 (4), 10-11. 15. Punniyamoorthy, M., y José, JT (2013). modelo basado ANN-
6. Andrews, W., y Koehler-Kruener, H. (18 de octubre de 2012). GA para la vigilancia del mercado de valores. Diario de la
Siri y Watson impulsarán deseo de más y más inteligente de delincuencia financiera, 20 (1), 52-66. doi:http: //dx.doi .org /
búsqueda. Gartner Research, doi: G00237619. 10.1108 / 13590791311287355
7. Madrigal, CA (2013). Watson de IBM memorizado todo el 16. Davenport, TH, y Patil, DJ (2012). científico de datos: El
'Urban Dictionary', entonces sus señores tenían que eliminarlo. trabajo más sexy del siglo 21. Harvard Business Review, 90
El Atlántico,http://www.theatlantic.com/ tecnología / Archivo (10), 70-76.
/ 2013/01 / IBMS-Watson-memorized- la-toda-urbana- 17. McCullagh, D., y Tam, D. (18 de diciembre de 2012).
diccionario-entonces-su-señores-tenido-a delete-it / 267047 /, Instagram se disculpa con los usuarios: No vamos a vender sus
consultado el 19 de enero de 2013. fotos. c | Net News, http://news.cnet.com/8301-1023_ 3-
8. Mouawad, J. (18 de mayo, 2011). largo y complejo camino de 57559890-93 / instagram-disculpa a los usuarios-que-wont-
Delta-Northwest fusión. New York vender-su-fotos /, acceder las 24 enero de 2013.
Times,http://www.nytimes.com/2011/05/19/business/19air 18. Ngak, C. (15 de abril, 2013). Google lanza buscador persona
.html? pagewanted = all y _r = 0, consultado el 20 de enero de maratón de Boston. CBSNews, http: // www .cbsnews.com /
2013. 8301-205_162-57579704 / Google- lanza-Boston-maratón de
9. trastornos de alimentación y la nutrición; investigación de persona / buscador, consultado el 19 de junio de 2013.
centro médico St. Francis en la zona de la obesidad describe.
(2013). Telemedicina Business Week, 508. Obtenido
dehttp://search.proquest.com/docview/1266208957? accountid
= 11.752, consultado el 19 de junio de 2013.
Capítulo 4 Bases de datos y almacenes de datos 130