Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Inlormaciones
Alonso Secades, Vidal
Escuela Universitaria de Informatica
Universidad Pontificia de Salamanca
Joyanes Aguz`lar,Luz.s
Director del Departamento de Lenoouajes,Sistemas Informticos e Ingenien a del Software
Universidad Pontificia de Salamanca. Campus de Madrid
Abstract
Este disefio Se desarrolla de acuerdo a las
Este articulO describe las relaciones e tnicas y procedimientos estandarizados
interacciones de las informaciones utilizadas en existentes, que permiten garantizar la integridad de
toma de decisiones mostrando como a distintos los datos almacenados en la base de datos de tal
niveles de calidad de las inforrnaciones las tomas forma que Se pueda asegurar la calidad y exactitud
de decisiones scram variables. Se analizardn delos mismos.
mediante m6todos cuantitativos las sinergias
producidas entre tomas de decisiones y calidad de A pesar de la experiencia acumulada en
inforrnaciones. aseguramiento de la calidad de datos, en la
actualidadtodavia continOanexistiendo problemas.
El andlisis partira de muestras aleatorias de Esto es debido a que a la hora de realizer el diseSo
datos con diferentes niveles de calidad. Ademds se de Unabase de datos, los disefiadores de bases de
tendrd en cuenta en el andlisis multivariante los datos deben contemplar las guias proporcionadas
distintos eQuipos de torna de decisiones evitando por la directiva para las tomas de decisiones,
los efectos colaterales que puedan producir factores incluso mas que las decisiones propias derivadas de
de ruido en el an;ilisis en estudio. las funciones a realizer por el sistema de
informaci6nde la empresa.
Parareflejarla calidad de los datos almacenados
Se precisa establecer algdr)forrnato adjunto,tal que La principal implicaci6n de estas galas en el
el tratarnientoposterior pueda interpretarsejunto diseho se refleja en que los datos en estos sistemas
con la calidad del mismo. Asi, la calidad de las no deben ser de calidad ideal ya que la calidad de
inforrnacionesqueds[rdreflejada y Se aplicard en la las informaciones puede ser contemplada desde
toma de decisiones. Las conciusiones demostraran diferentes puntos de vista en funci6n de las
Que existe sinergia entre la calidad de las necesidades de cada departamento.Esto provoca
informaciones y la toma de decisiones. que los disc&adoresde bases de datos se encuentran
con una dimensi6n relativa de la calidad que podra
ser diferenteen los departamentosde la empresa.
1. Inboducci6n
Frecuentemente, los directivos deben tomar
Uno de los principales aspectos Que deben decisiones partiendo de las imperfecciones
afrontar los profesionales inforrnaticos en la presentes en los datos de la base de datos. Para
elaboraci6n de sistemas de inforrnaci6nempleados compensar estas imperfecciones, se debe efectuar la
en la toma de decisiones estriba en el diseBo de }as toma de decisiones estando al corriente de la
bases de datos donde va a residir la informaci6n a idiosincrasiade los datos.
utilizer en la toma de decisiones.
QuaTIC'2001/ 89
Un grave problems es que este conocimiento 2. Estado del arte
intuitivo Se ha perdido. ya Quelos datos Se utilizan,
normalmente,por distintas partes y usuarios. Estos No es posible afirmarque el estudio sistemtico
posibles usuarios que no poseen una destreza de la calidad de los datos y de la informaci6n sea un
intuitiva para el tratarnientopara los datos, estan fen6meno que haya sido estudiado a lo largo de
forzados a aceptar los datos tal y como le son macho tiempo, ya que se trata de un fen6meno
presentados. Esta aceptaci6n implica asumir que relativamentereciente.
todos los valores de datos son vdlidos pot igual,
para evitar utilizar datos cuya calidad no pueda ser Butte los estudios existentes, destacan los
garantizadadirectamentepor ellos. Esto conlleva a realizados por Zmud [2], Ballou o Pazer [I]
que algunos sistemas de soporte de decisiones no se quienes investigan y profundizan en la forma ms
pueden utilizer completamente. efectiva para afrontar la calidad de los datos a
trav6s de dimensiones como fiabilidad,
El sentido Conan afirma que el conocimiento consistencia..precisi6n, oportunidad,etc6tera. Otra
atendiendo a la calidad de datos, debe ser utilizado posibilidad para afrontar la calidad de los datos,
para lograr un beneficio, siendo esta proposici6n la como muestran nuevas investigaciones [7] y [9],
que se plantea examiner. Ademas Se debe tenet en puede efectuarse tambi6n a trav6s de los atributos
cuenta la clase de informaci6n a considerar sobre la de los dams.
calidad de datos, la cual es mas apropiado que
dependa de la naturaleza del proceso de decisi6n POT OtTO lado, existen trabajos relacionadoscon
que de los propios datos. For otra parte, la eficacia el tema que muestran el impacto de los errores de
de la informaci6n que define la calidad de datos los datos sobre la toma de decisiones. El primer
depende en gran medida de la satisfacci6n del trabajoque analizabaeste aspecto fue realizado por
usuario. Ballou y Pazer [3], quienes, sin embargo, no
investigaron la interrelaci6n existente entre el tipo
El objetino es ayudar a los disehadores de bases del problemapara el que era necesario la decisi6n y
de datos encaminadas a la torna de decisiones, a la presencia de datos en la informaci6n Que
proporcionarles Una estructura y unos conceptos aportasenel grado de calidad de estos.
consistentes. Partiendode la estructuray conceptos
proporcionados se podrd establecer un punto de Entre los 6ltimos trabajos publicados cabe
partida que determine el tipo y formato de destacarlas innestigaciones realizadas por Redman
inforrnaci6nnecesaria, atendiendo a la calidad de [4] o Klein [5], donde puede obsernarse como Se
IDs datos, que sea mhs efectiva en cada situaci6n. comienza a aportarinformaci6n acerca de la calidad
Un dischador de base de datos cuya funci6n sea de los datos para su utilizaci6n en la toma de
incluir informaci6n seg0n la calidad de datos decisiones.
necesita saber que beneficios Se obtienen del
sistema de informaci6n. 3. Formas de mejorar la calidad de Los
autos
Este artfculo pretende &frontereste problema
paraanalizar el impacto de la informaci6n asociada Para poder observar la calidad de los datos
con la calidad de los datos, presenuindolo con datos almacenados es necesario tener alguna medida de
actualesy de acuerdoa la calidad de datos. calidad que permita evaluar la calidad de la
informaci6n obtenida. Las inforrnaciones que
En particular, Se procedera a la elecci6n del proporcionan la calidad de los datos almacenados
alquiler de un piso entre varies alternativesteniendo van a format parte de lo que Se conoce como
en cuenta la presencia de informaciones acerca de metadata. En la actualidad, no existen reglas
la calidad de los datos. Estas informaciones estrictas de c6mo aplicar metadata, pero
vendran reflejadas en diferentes formas y contextos basicamentepara conocer la medida de calidad de
perrnitiendoevaluar la toma de esta decisi6n desde los datos almacenados pueden realizarse dos tipos
datos de baja calidad hasta datos con alta calidad. diferentesde observaciones,
Los datos necesarios para realizer el experimento
ban sido facilitados por grupos de trabajo de la For un !ado, es posible observer la calidad de la
Escuela UniversitaTiade Inforrnaflea. informaci6n a nivel de cada atributo
individualmente, para lo cual bien se bard por
medio del empleo de etiquetas asociadas a los
datos, bien se incluirdn las dimensiones ms
90 / QuaTIC'2001
relevantes de la calidad de los datos tales como aproximaciones,la primera descrita como toma de
precisi6n, oportunidad u otras dimensiones decisicnes conjuntiva y la segunda como toma de
estimadas. decisiones ponderada.
QuaTIC':2OOI / 91
propOrciona una mejor coma de decisiones, se
Adem;is, la aproximaci6n ponderada observa a realizard Una toma de decision partiendo de Una
las alternatives desde un punto de vista global, ya misma tarea a la cual Se le pasan diferentes
que Se evall:iantodos los criterios, mientrasQue en muestras de datos en cuanto a presencia de calidad
la aproximaci6n conjuntiva, el anAlisis de la se refiere. Estas muestras de datos oscilaran desde
alternativase ve mediante la comparaci6n parcial la presencia de informaci6n de calidad nula hasta
de cada criterio con un nivel rninimo diversos factores que perrnitiranprecisar la calidad
preestab)ecido,sin tener en consideraci6n los otros de los datos.
criterios.
5. Planteam.unto del expe`nmento
For Canto se puede observer Que ambas
estrategias seleccionadas ofrecen diferentes puntos El desarrollo del trabajo experimental es
de vista en funci6n de Sus caracteristicas a la hora importantepara validar y generalizarlos resultados
de evaluar Una determinada altemativa aunque la obtenidos en la investigaci6n. Este experimento
aproxilnaci6n conjuntiva presenta una mayor esta basado en diversos trabajos presentes en la
rigidez. literatura,en concreto el desarrolladopor Pazer [6],
For Canto, en este articulo Se presenta un
A la hora de optar por Una de las dos experimento en el cual Se analiza la toma de
aproxirnaciones, la elecci6n vendrh ea funci6n de la decisiones a realizaren funci6n de la calidad de Los
relaci6n coste/beneficio, de manera Que siempre Se datos disponibles.
busque Una minimizaci6n de la relaci6n, en la Que
se tome siempre la major decisi6n con el rrrinimo ET experimento toma como punto de partida
coste o esfuerzo. para el estudio sets atributos diferentes dispuestos
en cinco replicas o alternativas. En cada Una de
For este motivo, el impacto Quela calidad de los estas r6plicas IDS seis atributos presentan una
dat6s y de la inforrnaci6nalmacenadatuviera en la valoraci6n que sera variable en funci6n de Los
toma de decisiones dependerden Branmanera de la miembrosque participanen el andlisis de la r6plica.
complejidad del proceso para el coal se este El an;iTisis de cada r6plica teniendo en cuenta
tomando la decisi6n. Para conocer la complejidad unicamente la valoraci6n, Que compondrd Una
de un proceso o tarea, esta vendr dada en funci6n r6plica carente de calidad, serb confrontado en las
de varias variables como puedan ser el n6mero de hip6tesis con los amnisis Que consideran muestras
alternatives, el ndmero de atributoso el tiempo de de datos con calidad. En estas I:iltimasmuestras de
apremio. datos la calidad puede venir deterrninadapor la
fiabilidad de los datos, por los pesos de cada
IncllJSO considerando que la incorporaci6nde la atributoe inclusive por ambos aspectos. Los niveles
informaci6n referente a la calidad de los datos en mfnimos de toleranciaaceptables para cada criterio,
una base de datos no presenta dificultades t6cnicas asi como la evaluaci6n, ban sido especificados para
al discfiador,este se encuentracon la necesidad de cada r6plica y para cada atributo, proporcionando
identificar cual va a ser la inforrnaci6napropiada todos estos datos a los evaluadores en ambos
Que debe emplear para considerer la calidad de Los experimentos.
datos. Esta circunstancia aporta un nuevo problema
aI dise6ador de las bases de datos, ya que deber de El estudio Que se presenta con informaci6n de
seleccionar la informaci6n a emplear y establecerla calidad de los datos, tiene Una soluci6n preferente
escala de valores a utilizar. proporcionandomedidas de evaluaci6n objetivas,
las cuales se utilizan como base de datos inicial
Se puede considerar que la utilizaci6n de una a:fiadiendoUnadimensi6n de calidad en los criterios
escala de 2 categorias posibles sea rruissencillo Que seleccionados. Al objeto de corregir los errores
si se emplea una escala continua de 100 puntos. totales se tiene la adici6n de pesado, Quemodifica
Tambi6nes necesario considererQuesi mediante el cada uno de los valores de los atributosmediante la
empleo de esta tiltima escala es posible realizar Una ponderaci6n.
toma de decisiones mas eficiente, entonces este
mayor esfuerzo necesario para tomar la decisi6n A continuaci6n Se presentan las cinco replicas
debe ser considerado. con Sus correspondientes valoraciones para cada
anibuto, que serdn los factores para deterrninarla
Para comprobar qua el suministro de toma de decisiones del estudio en cuesti6n. El
informaci6n acerca de la calidad de los datos sistema para doter a Los atributosde calidad de la
92 / QuaTIC'2001
informaci6n es proporcionar a estos una fiabilidad,
cuyos valores ban sido asignados previamente de ':F`labilfdad V"alora6i6n Pesos
acuerdo a un rango de 0 a 100 y Que quedan Caract. A 23 37 051
descritos en las Tablas I . Igualmente, en estas Caract. B 15 30 O,2
tablas se muestran los valores de los pesos Caract C 21 26 O,1
introducidos al objeto de corregir los errores totales Carnot. D 13 31 O,25
Que Se presentan en tantos por uno. Caract. E 16 28 O,2
Cared. F 12 11 0,15
Las valoraciones reflejadas en cada una de estas
r6plicas ban sido tomadas partiendo de cinco
grupos de trabajo de la Escuela Universitaria de "Cr-aria 'F"iabilfdad Valoraci6n". "Pes6s
Informatica. Garnet. A 23 36 O,1
Caract. B 15 30 072
Estos grupos de trabajo son independientes
Caract. C 21 27 O,1
entre si y los valores dados por cada uno de los Caract. D 13 29 O,25
grupos corresponden a las directrices generales
Caract. E 16 20 O,2
dadas per el equipo`de investigaci6n para evitar los
Caract. F 12 15 O,15
efectos colaterales de ruido presentes en cualquier
toma de datos.~
5.1. Hip6tesz.s
-,`Fia.
bilidad ~~Val6raci6n~Peso
Idea2menteSe partede la premisa QueUnaayuda
Cared A 23 O,1
en la toma de decisiones debe ser la inclusi6n de
Caract. B 15 32 O,2
informaci6n en la calidad de datos, permitiendo
Carnot. C 21 26 O,1
estos datos una mejor toma de decisiones. El
Caract. D 13 30 0,25
conocirniento de la caZidadde Zosdatos debe afectar
Caract. E 16 27 O,2
en la toma de decisiones, para determinarlo se
Caract. F 12 O,15
disefian tres hip6tesis. De esta forma, si estas
hip6tesis nulas son rechazadas en el contraste de
hip6tesis Que se reaJiza frente a las hip6tesis
altemativas, se tiene Que la incorporaci6n de
calidad en los datos es de importanciaen la toma de
decisiones y por tanto Saraun factor determinante
en el diseBo de base de datos.
s Cuantiade la renta.
6 Andguedad del edificio.
QuaTIC2001 / 93
Hz'p6resis 2 {nula). No tiene influencia en la `AL'TERNATIV VALORES Z
toma de decisiones la alternativa de incluir Una Atributos con K2-0.01028
ponderaci6n para cada uno de los atributosQue se Ponderaci6n
est;iinanalizando. Atribulos con 2-_ 0.01388
Fiabilidad
Hip6tesz.s 2 (altematz`va)" Tiene influencia en la Atributos con t!:a- -0 "ff143 2
coma de decisiones la alternativa de inclair una Fiabiiidad
ponderaci6n para cada uno do los atribucosQuese y Ponderaci6n_
estdn analizando.
Hz"o6tesis 3 ( nula )" No tiene influencia en la De estos resultados se puede concluir Queen los
coma de decisiones la alteroativa de incluir los tres casos analizados se rechaza la hip6tesis nula
factores de fiabilidad y la ponderaci6n para cada frente a la hip6tesis alternativa,es decir, la coma de
uno delos atributosque se estdo analizando. datos con calidad proporcionauna mayor fiabilidad
en la coma de decisiones Que la defxnici6nde datos
Hz"6tesL.s 3 caltematz.va - Tiene influencia en la sin informaci6nrelativa a la calidad de los mismos.
Coma de decisiones la alternativa de incluir los For cantose demuestralas sioergias existentes entre
factores de flabilidad y la ponderaci6n para cada la calidad de la informaci6n y la torna de
uno de los atributosque se estan &nalizando. decisiones~
94 / QuaTlC.200l
Can Humans Detect Errors in Data? Impact of Base
Rates,Incentives and Goals
MIS Quarterly,vol 21, pp 169-194, 1997
[8] D. C. Montgomery
Introductionto Statistical QualityControl. Third Edition
John Wiley and Sons, Inc. 1997
QuaTIC`2001 / 95