Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN
Este trabajo revisa distintos anlisis a los que se pueden someter
las reglas de depuracin de datos estadsticos. Se distingue entre los
anlisis que se pueden aplicar a las reglas de depuracin de datos
cuantitativos y los que se pueden aplicar a las reglas de depuracin
de datos cualitativos. Se presta especial atencin a las reglas de
conflicto, aunque tambin se hace referencia a las reglas de imputa-
cin determinstica.
Palabras clave: Edit, regla determinstica de imputacin, anlisis de
consistencia.
Clasificacin AMS: 62-04.
Como otras partes del modelo, las reglas de depuracin se pueden analizar
para garantizar su coherencia y adaptacin a la realidad. EI anlisis de reglas
tiene dos funciones:
Comprobar la consistencia lgica de las reglas. Este anlisis se limita a
comprobar si las reglas deterrninan una regin de aceptacin demasiado
reducida, o incluso vaca. No se tienen en cuenta los datos actuales,
nicarnente el modelo que se tiene de la realidad.
Los edits, por su parte, se pueden clasificar en tres tipos (1}: i) nurnricos, ii)
categricos, iii) condicionales numricos.
i) edits num^ricos
Ejempl+os:
(1) GILES ( 1989) considera un cuarto tipo: los edits condicionales categricos, pero
es obvio que estos edits se pueden reducir a edits categricos.
S^ FSTAQISTICA ESPAfJpLA
Sin embargo, transformaciones tan sencillas como las anteriores pueden dar
lugar en ocasiones a problemas poco manejables. Consideremos, por ejemp(o,
el caso de coexistr las dos regias sguientes:
X^ _< X2 * Xg
y
X1 +X2<_X3
Sean
n nmero de variables
m^ nmero de edits con desigualdad
m2 nmero de edits con igualdad
m=m^+m2 ' nmero total de edits
.
x^,^=1,...,n valor de la variable j
a^,i-1,...,m,j=1,...,n coeficiente de xj en el edit i
b;,i=1,...,m constante del edit i
A matriz de coe^cientes a;i
B vector con constantes b;
vector con los valores de los datos x^
Con esta notaci8n los edits se pueden expresar en forma matricial como:
A^ x<B^
A2 x = B2
x>_0
Los edits categricos son expresiones lgicas que relacionan mediante opera-
dores AND y/o OR conjuntos de posibles respuestas para las variables del
cuestionario. Aplicando repetidamente la propiedad distributiva, los edits categ-
ricos se pueden transformar en expresiones en las que el nico operador utilizada
para relacionar conjuntos de valores de diferentes variables es el AND. Estos
son los Ilamados edits en forma norrnal en la metodologia de Fellegi y Holt (1976).
Otras formulaciones se pueden reducir tambin a la forma normal.
Ejemp/os:
es equivalente a:
EDAD1(0} EDAD2(>0)
E DAD 1(1) E DAD2(> 1)
Son de la forrna:
Ejemp/o:
Un edit es redundante si no puede ser fallado a menos que otro edit sea fallado,
es decir, no aporta nada a la delimitacin de la regin de aceptacin.
Ejemplo:
xi>_O,x^>_O,xi+x2<3
Los edits pueden hacer que la regin aceptable se reduzca a un nico punto,
o que para alguna variable haya un nico valor aceptable. Son situaciones que,
si bien no son necesariamente seal de que los edits sean inconsistentes, s son
sospechosas y requieren una revisin por los expertos.
Los edits determinan un lmite inferior y un lmite superior para cada variable
(que en algn caso puede ser infinito). Estos lmites deben ser comprobados por
los expertos para verificar si los intervalos de aceptacin son demasiado peque-
os o grandes. Esto puede dar lugar a aadir, eliminar, o modificar edits.
Ejemplo:
Los edits implicitos fueron introducidos por Fellegi y Holt (1976) con el objeto de
permitir determinar las variables a ser imputadas y los posibles valores a imputar,
para ellos su utilizacin en el anlisis de reglas es secundario. Si un edit implicado
es inaceptable es seal de que a1 menos uno de ios edits originales es inacep-
table.
Fjemplo:
de3x^ -2x2<4y
x^ + 5 x2 < 1 se obtiene
17 xi <_ 22
donde cada E;^ es un subcor^junto, propio o no, de Ei. Estos edits indican condi-
ciones de error.
Lema:
la expresin:
Ec^ _ (1 E;^
iE S
EGk= ^ E;k=Ek
F_ $
Adems se puede probar que todos los edits implicados se pueden obtener
con este procedimiento de generacin.
Si todos los E;k son subconjuntos propios de Ek, entonces decimos que el edit
implicado eG es un edit esencialmente nuevo, el campo k se Ilama campo generador.
Ejemplo:
se deduce
De ambos se deduce:
EI con^unta de los edits explcitos, junto con los edits esencialmente nuevos
forman el conjunto cornplefo de reglas.
Ejemplo:
Otra forma de redundancia es cuando dos edits son iguales en todos los
campos menos en uno, en este caso se pueden fusionar en un nico edit.
Ejemplo:
e^ : EDAD(<15) ECIVIL(CASADO) y
e2 : EDAD(<15) ECIVIL(VIUDO)
se pueden fusionar en
Un edit resultado de una fusin puede dar lugar a nuevas fusiones o dominar
a algn edit. Por lo tanto, si se realizan fusiones la eliminacin de redundancias
es un proceso iterativo.
Este tipo de anlisis tiene dos debilidades, la primera de ndole prctica, pues
su realizacin puede ser muy engorrosa para los expertos, sobre todo si el
nmero de estratos es muy grande. La segunda es conceptual, pues descansa
en la hiptesis implcita de que los valores de las variables que intervienen en la
condicin son correctos.
A1 X _< B1
/42 X = 82
X >_ O
En este caso basta buscar una solucin, con cualquier funcin objetivo c'x del
problema de minimizar c'x sujeto a las restricciones (1).
Para cada edit A^; x(una fila de A^ x<_ B^) se maximiza A^; x- b; sujeto a
A^x<_B^,x?0
Si el mximo es positiva estamos ante un edit redundante, pues las edits que
limitan el conjunto aceptable alcanzan en la frontera el valor 0.
Los lmites inferior y superior que los edits determnan para cada variable x^ se
obtienen resolviendo los problemas:
a; ^ X ^ +.....+ a; n x n< b;
Si ak^ > 0 y a;^ < 0, multiplicando el primer edit por ak^ y el segundo por -a;^, y
sumando los resultados se obtiene un edit en el que la variable x^ no aparece
explcitamente: un edit implicado por e; y ek generado en el campo j. Con el
siguiente algoritmo se podran obtener todos los edits implicados:
Los puntos extremos del poliedro convexo definido por (1) se obtienen resol-
viendo todos los sistemas de n ecuaciones que se pueden formar con las m+n
reglas. Esto puede dar lugar a un nmero formidable de combinaciones a verificar
(m+n) !ln!m!. En la prctica (GEIS) se utilizan algoritmos ms eficientes, Schio-
pu-Kratina y Kovar (1989).
Ejemplo:
EI edit
e: A(1} C(2, 3) que expresa una incompatibilidad existente entre valo-
res de las variables A y C, independientemente del valor de la variable
8, se representaria:
A B C
100 111 011
Ejemplo:
e^ : A(1,2) B(1)
Ejemp/o:
e^ : A(1,2) B(1,2)
con vectores :
Con este algoritmo se pueden obtener todos los edits implicadOS. Para cada
edit implicado se comprueba si est activo en una nica variable {inconsistencia)
o no.
Dadas dos reglas r^ y r2, tales que dan lugar a una misma imputacin, entonces
166 ESTADISTfCA ESPANOLA
Ejemplo:
r^: IF (SALARIO < 50.OQ0 8^ SEGTOR = 027) THEN (SALARIO =
= so.ooo)
r2: iF (SA^.ARIO < 45.000 & SECTOR = 027) THEN (SALARIO =
= so.oao>
r2 se puede eliminar.
Ejemplo:
r^: IF (SALARIO < 50.000 & SECTOR = 027) THEN (SALARIO =
= 60.000)
Ejemp/o:
en este caso ambas reglas estn propaniendo para los registros con SALARI(J
(<25.000) y SECTOR ( 011) imputaciones distintas.
Ejemplo:
(2) EI Sistema DIA tiene un analizador de reglas que incluye un analizador edit-reglas
de imputacin determinstica bastante completo, no limitndose nicamente a detectar
situaciones conflictivas, sino que ofrece para aquellas menos graves una solucin estn-
dar. Estas soluciones estn integradas en la propia rnetodologa del sistema y son slo
aplicables si se utiliza para realizar impuacin determinstica e imputacin probabilstica
basada en la metodologa de FELLEGI y HOLT.
ESTADISTICA ESPANOLA
Ejemplo:
en este casa, para un registro con SALARIO (<50.000), SECTOR (012) y NIVEL-
EDUCATIVO (analfabeto)
Ejemplo:
Ilustraremos la situacin con un ejemplo poco realista.
y el edit
Un registro con
que no fallaba el edit e, tras ser imputado por ambas reglas deterministicas pasa
a fallarlo.
Ejemplo:
r^: IF (SALARIO < 50.000 & SECTOR = 012) THEN (SALARIO =
= 60.000)
ANALISIS DE REGLAS DE DEPURACION DE DATOS 169
11. CONCLUSfONES
Otra limitacin viene dada por el tiempo de proceso necesario para su realiza-
cin, y por la necesidad de disponer de software adecuado, software que por otra
parte existe nicamente como parte de paquetes generales.
ANEXO 1
x> >_ 0
x2 > 0
x^+x2<_4 (1)
x1 <_ 3
Si se aade el edit:
2x^+x2_<8
x^>_5
la regin de aceptacin se convie^te en vaca, el conjunto de edits es inconsis-
tente.
Si se aade el edit:
X1 + X^ >_ 4
o<_x1 <_3
0<_x2<_4
Figura 1.
x>5
ANALISIS DE REGLAS DE DEPURACtON DE DATOS 171
REFERENCIAS
Data Editing Joint Group ( 1989}. Data Editing System Guidelines for Concepts
and Specification. Work Session on Statistical Data Editing. Ginebra.
SUMMARY