Está en la página 1de 22

ESTADiSTICA ESPAOLA

Vol. 34, Nm. 129, 1992, pgs. 151 a 171

Anlisis de reg las de depuracin de datos


ILDEFONSO VILLAN CRIADO
Instituto Nacionat de Estadstica

RESUMEN
Este trabajo revisa distintos anlisis a los que se pueden someter
las reglas de depuracin de datos estadsticos. Se distingue entre los
anlisis que se pueden aplicar a las reglas de depuracin de datos
cuantitativos y los que se pueden aplicar a las reglas de depuracin
de datos cualitativos. Se presta especial atencin a las reglas de
conflicto, aunque tambin se hace referencia a las reglas de imputa-
cin determinstica.
Palabras clave: Edit, regla determinstica de imputacin, anlisis de
consistencia.
Clasificacin AMS: 62-04.

1. LAS REGLAS DE DEPURACION COMO PARTE DEL MODELO


DE LA REALIDAD

En la realizacin de investigaciones estadsticas se utilizan dos tipos de repre-


sentaciones de la realidad, una a nivel de datos individuales o microdatos y otra
a nivel de datos agregados o macrodatos. En arnbas representaciones los esta-
dsticos utilizan, impicita o explcitamente, un modelo mediante el cual sirnplfi-
can, para hacerla ms manejable, ia compleja realidad con la que se enfrentan.
Para la construccin del modelo se apoyan en diferentes instrumentos que
dependen de la metodologa utilizada. Para los microdatos es estndar la utiliza-
cin del modelo entidad-relacin. En el nivel de los datos agregados no existe
una herramienta estndar de modelizacin, si bien es de gran inters el Modelo
Conceptual Estadstico de Battista y Batini (1988) que forma parte de una meto-
dologa que integra la modelizacin de los microdatos con los datos estadsticos
agregados.
1 c>2 ESTAD^STICA ES^ANOL.A

A pesar de que las metodologas actualmente existentes no las recogen expl-


citamente, las reglas de depuracin forman parte del modelo, al que aportan un
fuerte contenido semntico. En el modelo de microdatos, las reglas de depuracin
plasman ciertas condiciones que los expertos piensan que no se deben presentar
en la poblacin (conocidas como edits de rechazo) o condiciones que piensan
que cumplen todos !os objetos de la poblacin (edits de aceptacin). Con las
reglas de depuracin los estadsticos tratan de eliminar aquellas observaciones
que, debido a errores producidos en cualquier momento, caen fuera del modelo
que ellos tienen de la realidad. Tambin se utilizan reglas de depuracin en el
modelo de macrodatos, p.e. el establecimiento de lmites de aceptacin para los
valores de una serie temporal. Tradicionalrnente ambos tipos de reglas de depu-
racin se han utilizado de forma no integrada; en la actualidad, los procedimientos
de macrodepuracin vienen a tender un puente entre ambos.

Como otras partes del modelo, las reglas de depuracin se pueden analizar
para garantizar su coherencia y adaptacin a la realidad. EI anlisis de reglas
tiene dos funciones:
Comprobar la consistencia lgica de las reglas. Este anlisis se limita a
comprobar si las reglas deterrninan una regin de aceptacin demasiado
reducida, o incluso vaca. No se tienen en cuenta los datos actuales,
nicarnente el modelo que se tiene de la realidad.

Comprobar si las reglas se adaptan a la realidad observada. Esta com-


probacin se realiza contrastando las reglas con los datos reales a depu-
rar. Si una regla no se falla nunca, puede ser eliminada, si una regla se
falla un nmero excesivo de veces puede ser seai, o bien de un error
sistemtico, o bien de que la regla no se adapta a la realidad. Si una regla
ha detectado como errneas situaciones que se comprueba que son
correctas la regla no se adapta a la realidad.

En este documento nos vamos a limitar a considerar el anlisis lgico de las


reglas de depuracin a nivel de microdatos y entre ellas unos tipos simplificados,
que son los que las metodologas actuales emplean.

En el apartado 2 se presentan los tipos de reglas de depuracin considerados,


en el 3 las principales estrategias de anlisis de reglas, centrndonos en los
apartados 4, 5 y 6 en el anlisis de las edits nurnricos, categricos y categricos
numricos respectivarnente. Se utiliza un enfoque muy informal presentand0
^ nicamente los posibles conflictos que se pueden encontrar. En los apartados 7
y 8 se da una breve referencia a una posible forma de implementacin de los
aniisis de edits numricos y categricos, el apartado 9 est dedicado al anlisis
de las reglas de imputacin determinstica y el 10 al anlisis conjunto de reglas
de imputacin determinstica y edit, Finalmente el apartado 11 recoge las con-
clusiones fundamentales.
ANAUSIS DE REG^AS DE DEPURACION DE DAT4S 153

2. TIPOS DE REGLAS DE DEPURACION

Vamos a considerar una ciasificacin de las reglas de depuracin que es


relevante a efectos de su tratamiento por el anlisis de reglas.

En una primera aproximacin distinguimos dos tipos de reglas de depuracin:

1. Los edits, que definen condiciones inaceptables (edits de rechazo), o


condiciones que deben ser satisfechas por los datos para ser aceptadas
como vlidos (edits de aceptacin). Los edits no contienen ninguna accin
correctiva, dejando stas para tratamientos manuales o para mdulos de
localizacin de variables a imputar e imputacin.

2. Las reglas de depuracin determinstica, generalmente de la forma IF


(condicin de error) THEN (accin correctiva). En ellas no slo se deter-
mina la condicin inaceptable, tambin se incorpora una solucin para
la misma. Tanto unas corno otras se pueden aplicar a datos de una misma
unidad o a datos de varias unidades. Nosotros nos limitaremos a consi-
derar el caso intra-registro que es el nico tratado por las metodologas
actuales de arilisis de reglas.

Los edits, por su parte, se pueden clasificar en tres tipos (1}: i) nurnricos, ii)
categricos, iii) condicionales numricos.

i) edits num^ricos

Los edits numricos se pueden representar por medio de una igualdad o


desigualdad lineal entre funciones de los valores de las variables. Los sistemas
generales actuales (GEIS, SPEER} slo consideran el caso de funciones lineales,
obtenidas en ocasiones mediante sencillas transformaciones de reglas no li-
neales.

Ejempl+os:

x^ <_ x2 * x3 tomando logaritmos en ambos miembros de la expresin


se transforma en y^ < y2 + y^.

x1/x^ <_ 3 se transforma en x^ <_ 3* x2

(1) GILES ( 1989) considera un cuarto tipo: los edits condicionales categricos, pero
es obvio que estos edits se pueden reducir a edits categricos.
S^ FSTAQISTICA ESPAfJpLA

Sin embargo, transformaciones tan sencillas como las anteriores pueden dar
lugar en ocasiones a problemas poco manejables. Consideremos, por ejemp(o,
el caso de coexistr las dos regias sguientes:

X^ _< X2 * Xg
y
X1 +X2<_X3

en este caso, mediante la transformacin logaritmica no podramos sustituir las


x; por las y;, deberian coexistir ambas y manejar su relacin de alguna forma.
Los edits numricos suelen expresar condiciones de aceptacin. Para mani-
pular edits numricos lineales se suelen utilizar tcnicas de programacin lineal
que introducen la restriccin adicional de usar variables no negativas. Esta
restriccin se resuelve con la transformacin, usual en programacin lineal, de
susttuir cada variable x por la diferencia de dos variables no negativas: x= x^ - x2,
donde x^ = max {x, 0} y x2 = max {-x, 0}.

EI siguiente prrafo extraido de Giles, nos proporciona la notacin necesaria


para tratar los edits numricos lneales a efectos de su anlisis.
Los edits numricos se pueden expresar usando notacin algebraca:

Sean
n nmero de variables
m^ nmero de edits con desigualdad
m2 nmero de edits con igualdad
m=m^+m2 ' nmero total de edits
.
x^,^=1,...,n valor de la variable j
a^,i-1,...,m,j=1,...,n coeficiente de xj en el edit i
b;,i=1,...,m constante del edit i
A matriz de coe^cientes a;i
B vector con constantes b;
vector con los valores de los datos x^

Con esta notaci8n los edits se pueden expresar en forma matricial como:

A^ x<B^
A2 x = B2
x>_0

donde las matrices A y B se han particionado adecuadamente.

Los edits establecen la regin de casos aceptabfes que es un poliedro convexo.


ANAIISIS UE REGIAS DE DEPURACION OE UATOS 155

ii) edits categricos

Los edits categricos son expresiones lgicas que relacionan mediante opera-
dores AND y/o OR conjuntos de posibles respuestas para las variables del
cuestionario. Aplicando repetidamente la propiedad distributiva, los edits categ-
ricos se pueden transformar en expresiones en las que el nico operador utilizada
para relacionar conjuntos de valores de diferentes variables es el AND. Estos
son los Ilamados edits en forma norrnal en la metodologia de Fellegi y Holt (1976).
Otras formulaciones se pueden reducir tambin a la forma normal.

Ejemp/os:

[EDAD(<15) AND (E_CIVIL ( casado alguna vez) OR RELA


(CABEZA_FAMILIA)]

es equivalente a:

EDAD(<15) AND RELA (CABEZA_FAMILIA)


EDAD(<15) AND E_CIVIL ( casado alguna vez)

EDAD1 < EDAD 2 equivale a:

EDAD1(0} EDAD2(>0)
E DAD 1(1) E DAD2(> 1)

EDAD 1(99) EDAD2(>99)

iii) edits condicionales num^ricos

Son de la forrna:

IF expresin lgica TF^EN edit numrico

donde la expresin lgica determina el conjunto poblacional al que es aplicable


el edit numrico.

Ejemp/o:

IF sector = 301 THEN ( Salario-totallNmero-empleados) _< 500


^^J^ ESTADISTICA ESPAOLA

3. PRINCIPALES ESTRATEGIAS PARA EL ANALISIS DE LAS REGLAS

Hay dos tipos principales de estrategias para el anlisis de reglas:

-- EI anlisis lgico, en el que utilizando algoritmos se comprueba la consis-


tencia lgica del conjunto de reglas especificadas. Este tipo de anlisis
tiene el inconveniente de exigir complejas programas de ordenador para
su realizacin, siendo generalmente cos#osa en tiempo de ejecucin.
Suele estar asociado a un tipo de reglas especfico. Su principal ventaja
es la facilidad que tiene para los expertos estadsticos, al realizarse de
manera automtica sin exigir complejas especifcaciones o revisiones.

EI exhaustivo, en el cual los expertos estadsticos especifican un conjunto


de datos de prueba en el que recogen todas las situaciones que conside-
ran aceptables (o inaceptables}. Este juego de prueba se enfrenta con el
conjunto de reglas para comprobar si el comportamiento de stas es
aceptable. Este es un procedimiento de comprobacin que en muchos
casos puede ser suficientemente satisfactorio, pues no requiere progra-
macin adicional, aunque puede ser muy enojoso para los expertos esta-
dsticos. Cuandv el nmero de combinaciones posibles es muy alto, es
muy difcil realizar y analizar pruebas exhaustivas.

En este documento nos vamos a centrar en el anlisis lgico de reglas.

4. ANALISIS DE EDITS NUMERICOS

EI anlisis de edits numricos ms completo implementado en la actualidad es


el del Sistema GEIS, desarrollado por Statistics Canada, descrito por Giles (1989)
y basado en Sande (1976}.

Utilizaremos la notacin introducida en el apartado 2, recordando que en este


casa los edits son reglas de aceptacin. En GEIS se proponen los siguientes
chequeos de los edits:

4,1. Anlisis de consistencia

Tiene como objetivo el determinar si la regin de aceptacin establecida por


los edits es vaca, es decir si no hay ningn registro que satisface todos los edits.
Si la regin de aceptacin es vaca los expertos tendrn que determinar cul o
cules son los edits responsables.
ANALISIS DE REGLAS DE DEPURACION DE DATOS ^7

4.2. Eliminacin de redundancias

Un edit es redundante si no puede ser fallado a menos que otro edit sea fallado,
es decir, no aporta nada a la delimitacin de la regin de aceptacin.

Ejemplo:

EI edit x^ _< 4 es redundante respecto a

xi>_O,x^>_O,xi+x2<3

4.3. Anlisis de determinancias

Los edits pueden hacer que la regin aceptable se reduzca a un nico punto,
o que para alguna variable haya un nico valor aceptable. Son situaciones que,
si bien no son necesariamente seal de que los edits sean inconsistentes, s son
sospechosas y requieren una revisin por los expertos.

4.4. Lmites inferior y superior de cada variable

Los edits determinan un lmite inferior y un lmite superior para cada variable
(que en algn caso puede ser infinito). Estos lmites deben ser comprobados por
los expertos para verificar si los intervalos de aceptacin son demasiado peque-
os o grandes. Esto puede dar lugar a aadir, eliminar, o modificar edits.

4.5. Igualdades escondidas

Puede ocurrir que un conjunto de edits, especificados como desigualdades,


den conjuntamente lugar a una restriccin de tipo igualdad. Es un caso en el que
la regin de aceptacin se reduce en una dimensin, siendo seal de restriccio-
nes demasiado fuertes.

Ejemplo:

Losedits2x^ +3x2 < 10y2x^ +3x2>_ 10equivalenal


ed it: 2 x1 + 3 x2 = 10

4.6. Edits implicados

A partir de los edits especificados explcitamente por los expertos, se pueden


obtener otros edits, conocidos como edits implcitos, que son condiciones que se
pueden deducir lgicamente a partir de los edits especificados por las expertos.
158 ESTADtSTfCA ESPANt7LA

Los edits implicitos fueron introducidos por Fellegi y Holt (1976) con el objeto de
permitir determinar las variables a ser imputadas y los posibles valores a imputar,
para ellos su utilizacin en el anlisis de reglas es secundario. Si un edit implicado
es inaceptable es seal de que a1 menos uno de ios edits originales es inacep-
table.

Los edits implicados se obtienen formando las combinaciones lneales positi-


vas de los edits explcitos en las que se eiimina el coeficien#e de alguna variable.

Fjemplo:

de3x^ -2x2<4y
x^ + 5 x2 < 1 se obtiene
17 xi <_ 22

4.7. Puntos ext^emos

Los edits originales determinan una regin de aceptacin que es un poliedro


convexo. Los puntos extremos de dicho poliedro son muy interesantes a efectos
de anlisis, puesto que cualquier punto interior, y por lo tanto aceptable, se puede
obtener por medio de una combinacin lneal convexa de los puntos extremos.
Los edits implicados se presentan a los expertas para que puedan estudiarlos y
decidir si son aceptables o no.

En el anexo 1 se presenta un ejemplo de los distintos anlisis para un caso


de dos variables, lo que permite representar grficamente en dos dimensiones
los edits para facilitar la comprensin.

5. ANALISIS DE EDITS CATEGORICOS

EI anlisis de los edits categricos aqu descrito est basado en la metodologa


de Felleg'r y Holt (1976) y en su implementacin en el Sistema de deteccin e
imputacin automtica DIA, desarrollado en el lnstituto Nacional de Estadstica,
ver Garca Rubio y Vilian (1988 y 1990). Revisaremos de forma rpida y resumida
las definiciones y resultados de la metodologa de Fellegi y Holt relevantes para
el anlisis.

introduciremos la siguiente notacin:

Sean las variables V^, ..., V

Sea E; = 1, ..., n; (i = 1, ..., n) el conjunto de valores posibles de V;


ANAUSIS DE REGLAS DE DEPURACION DE DATOS 159

Un edit, en forma normal, se puede representar como:

e;: E;^ (1 E;2 fl ...(1 Ein

donde cada E;^ es un subcor^junto, propio o no, de Ei. Estos edits indican condi-
ciones de error.

Si E';; es un subconjunto propio de E;, decimos que la variable V; es#a activa en


el edit e;.
EI conjunto de edits en forma normal especificados por los expertos lo Ilarna-
mos edits explcitos.

Lema:

Sean e; i ^ S un conjunto de edits,

la expresin:

e^ : E^^ n,.. n E^ donde:

Ec^ _ (1 E;^
iE S

EGk= ^ E;k=Ek
F_ $

y ninguno de los E^^ j^ k es vaco, es un edit implicado.

Adems se puede probar que todos los edits implicados se pueden obtener
con este procedimiento de generacin.

Si todos los E;k son subconjuntos propios de Ek, entonces decimos que el edit
implicado eG es un edit esencialmente nuevo, el campo k se Ilama campo generador.

Ejemplo:

De los edits e^: EDAD(<15) ECIVIL (# SOLTERO) y

e2: ECIVIL (NO CASADO ACTUALMENTE) RELACION_CABEZA (ESPOSA)

se deduce

ei_2: EDAD(<15) RELACION_CABEZA(ESPOSA)

(e^ equivale a EDAD(<15) IMPLICA EClVIL {SOLTERO), e2 equivale a ECIVIL


(NO CASADO ACTUALMENTE) IMPLICA RELACION_CABEZA (#ESPOSA},
^{.) ESTADISTIGA ESPAOLA

De ambos se deduce:

EDAD (<15) IMPLICA REbACION_CABEZA (^ESPOSA}

que equivale a e^ _2).

EI con^unta de los edits explcitos, junto con los edits esencialmente nuevos
forman el conjunto cornplefo de reglas.

5.1. An^lisis de consistencia

Decimos que un conjunto de edits es inconsistente si conjuntamente implican


que haya valores permisibles de un campo que causen automticamente, nde-
pendientemente de los valores de los dems campos, el fallo de algn edit. Esto
se traduce en que un edit impl'rcado tendr slo un campo activo.

Para la deteccin de inconsistencias, en el sentido de Fellegi y Holt, es


necesario generar ei conjunto completo de edits, y verificar si alguna de las reglas
generales est nicamente activa en un campo.

5.2. Eiiminacin de redundancias

Un edit e^ es redundante respecto a otro e2, si todas las situaciones detectadas


por e^ lo son tambin por e2.

La eliminacin de redundancias es conveniente a efectos de reducir el nmero


de edits a considerar y por tanto el tiempo de proceso.

Ejemplo:

e^ : EDAD(<15) ECIVIL(CASADO) es redundante respecto a:


e2 : EDAD(<15) ECIVIL (^SOLTERO)

Otra forma de redundancia es cuando dos edits son iguales en todos los
campos menos en uno, en este caso se pueden fusionar en un nico edit.

Ejemplo:

e^ : EDAD(<15) ECIVIL(CASADO) y
e2 : EDAD(<15) ECIVIL(VIUDO)

se pueden fusionar en

e^2 : EDAD(<15) ECIVIL(CASADO O VIUDO)


ANALISIS DE REGLAS DE DEPURACION DE DATOS ^ C"^ ^

Un edit resultado de una fusin puede dar lugar a nuevas fusiones o dominar
a algn edit. Por lo tanto, si se realizan fusiones la eliminacin de redundancias
es un proceso iterativo.

5.3. Anlisis de los edits implicados

En la metodologia de Fellegi y Holt los edits implicados tienen una doble


funcin, por una parte son necesarios para determinar para un registro detectado
como errneo qu variables hay que imputarle y qu posibles valores hay para
cada variable a imputar. Por otra parte sirven para analizar los edits. Segn vimos
en 5.1, si durante su proceso de generacin se produce un edit con un nico
campo activo se detecta una inconsistencia. Una vez que se dispone del canjunto
de todos los edits implicadas, los expertos los deben revisar, pues si observan
un edit implicado demasiado restrictivo es seal de que alguno de los edits
originales tambin lo es.

6.1. Anlisis de edits condicionales numricos

EI anlisis de los edits condicionales numricos se puede realizar utilizando los


procedimientos descritos para el caso de los edits numricos. Para ello se realiza
una estratificacin de los edits, agrupando todos los edits numricos que se corres-
pondan con una misrna condicin. EI anlisis se realiza por separado para cada
estrato. Por ejemplo, si se han especificado conjuntos de edits numricos con una
condicin de aplicacin que indica el sector de actividad al que son aplicables,
realizaramos el anlisis para cada conjunto de edits aplicable a cada sector.

Este tipo de anlisis tiene dos debilidades, la primera de ndole prctica, pues
su realizacin puede ser muy engorrosa para los expertos, sobre todo si el
nmero de estratos es muy grande. La segunda es conceptual, pues descansa
en la hiptesis implcita de que los valores de las variables que intervienen en la
condicin son correctos.

7. IMPLEMENTACION PRACTICA DEL ANALISIS DE EDITS NUMERICOS

La implementacin prctica de los edits numricos, en el caso de utilizar edits


de tipo igualdades y/o desigualdades lineales:

A1 X _< B1
/42 X = 82

X >_ O

se puede realizar utilizando tcnicas tradicionales de programacin lineal.


162 ESTADISTICA ESPA^IOLA

7.1. Anlisis de consistencia

En este caso basta buscar una solucin, con cualquier funcin objetivo c'x del
problema de minimizar c'x sujeto a las restricciones (1).

7.2. Eiiminacin de redundancias y deteccin de determinaciones


para ios edits de igualdad AZ x= Bz

Los edits de igualdad forman un sistema lineal de m2 ecuaciones con n


incgnitas, que puede ser resuelto para comprobar si tiene solucin nica (de-
terminancia) o no. Tambin se puede comprabar que edits son redundantes
respecto a los dems (el nmero mximo de edits no redundantes es el mnimo
entre m2 y n).

7.3. Eliminacin de redundancias para los edits de desigualdad


A^x<_B^,x>_0

Para cada edit A^; x(una fila de A^ x<_ B^) se maximiza A^; x- b; sujeto a
A^x<_B^,x?0

Si el mximo es positiva estamos ante un edit redundante, pues las edits que
limitan el conjunto aceptable alcanzan en la frontera el valor 0.

7.4. Obtencin de lmites para ias variables y deteccin


de determinacianes

Los lmites inferior y superior que los edits determnan para cada variable x^ se
obtienen resolviendo los problemas:

rnin x^ sujeto al conjunta de restricciones (1), lo que nos da el lmite


i nferior x^^ , y

max x^ sujet a(1), lo que nos da el extremo superior x^2.

Si x^^ es igual a x^2 se produce una determinancia para la variable x^.

7.5. Obtencin de los edits implicadas

Dados dos edits

a; ^ X ^ +.....+ a; n x n< b;

ak^ X^ + ..... + akn Xn < bk


ANALISIS DE REGLAS DE DEPURAGION DE DATOS 163

Si ak^ > 0 y a;^ < 0, multiplicando el primer edit por ak^ y el segundo por -a;^, y
sumando los resultados se obtiene un edit en el que la variable x^ no aparece
explcitamente: un edit implicado por e; y ek generado en el campo j. Con el
siguiente algoritmo se podran obtener todos los edits implicados:

E= el conjunto inicial de edits.


DO mientras haya parejas no chequeadas en E
Para la pareja no chequeada e; y ek
D0/=1ton
comprobar si e; y ek generan en el campo /
Si generan un edit e;k aadirlo a E
END
END

Un algoritmo conceptualmente equivalente a ste est implementado en


SPEER, Greenberg (1982). GEIS utiliza uno completamente distinto basado en
el algoritmo de Chernikova, Schiopu-Katrina y Kovar (1989).

7.6. Obtencin de los puntos extremos

Los puntos extremos del poliedro convexo definido por (1) se obtienen resol-
viendo todos los sistemas de n ecuaciones que se pueden formar con las m+n
reglas. Esto puede dar lugar a un nmero formidable de combinaciones a verificar
(m+n) !ln!m!. En la prctica (GEIS) se utilizan algoritmos ms eficientes, Schio-
pu-Kratina y Kovar (1989).

8. IMPLEMENTACION PRACTICA DEL ANALISIS DE EDITS


CATEGORICOS

La implementacin de la metodologa de Fellegi y Holt se suele hacer repre-


sentando los edits como tiras de bits. A cada cdigo posible de cada variable se
le asigna un bit, que en un edit dado tendr un 1 si el cdigo es relevante para
el fallo del edit o un 0 en caso contrario.

Ejemplo:

Supongamos tres variables A, B y C, con cdigos vlidos 1, 2 y 3 cada una de


ellas.
164 ESTADiSTfCA ESPAIVt3LA

EI edit
e: A(1} C(2, 3) que expresa una incompatibilidad existente entre valo-
res de las variables A y C, independientemente del valor de la variable
8, se representaria:

A B C
100 111 011

81. Aniisis de ^edundancias

Con esta representacin la elirninacin de redundancias se puede hacer de


una forma sencilla. Para comprobar si dos edits son redundantes se calcula el
producto escalar de sus vectores de bits. S el producto coincide con la cardna-
lidad (nmero de 1 s) de uno de ias vectores de los edit, dicho edit es redundante.

Ejemplo:

e^ : A(1,2) B(1)

cuyo vector es: 110 100 111 de cardinalidad 6

e2: A{2) B(1 }

con vector: 010 100 111 de cardinalidad 5

Ei producto escalar da 5, por lo tanto e2 es redundante.

8.2. Analisis de consistencia

EI procesa de generacin en un campo se puede realizar haciendo uniones


igicas en el campo generador e ntersecciones lgicas en todos los dems.

Ejemp/o:

e^ : A(1,2) B(1,2)

e2: B(2,3) C(3}

con vectores :

e^: 110 110 111 y

e2: 111 011 001


ANALiSIS DE REG^.AS DE UEPURACION UE UATOS 165

Haciendo unin lgica en el segundo campo e interseccin en los otros dos


obtenemos:

e12: 110 111 001

que equivale a: e12: At1,2)C(3)

Mediante el siguiente algoritmo se pueden obtener todos los edits irnplicados:

E= conjunto de edits originales


D4 mientras quede alguna combinacin de edits no analizada
DO/=1ton
/ es el campo generador
formar todas las combinaciones, no chequeadas hasta ahora, de
edits de E activos en /
DO para cada combinacin
aplicarle el procedimiento de generacin usando / como campo
generador.
Si genera un edit esencialmente nuevo aadirlo a E
END
END
END

Con este algoritmo se pueden obtener todos los edits implicadOS. Para cada
edit implicado se comprueba si est activo en una nica variable {inconsistencia)
o no.

Para conseguir que este algoritmo sea eficiente, es necesario modificarlo


profundamente mediante la introduccin de varios filtros y estrategias. En par-
ticular un teorema de truncacin, desarrollado por la Oficina Central de Estads-
tica de Hungra, permite acortar el tiempo de proceso al no requerirse la obtencin
del conjunto completo de reglas para la deteccin de inconsistencias.

9. ANALISIS DE REGLAS DE IMPUTACION DETERMiNISTiCA

Considerando las reglas de imputacin determinstica coma reglas del tipo:

r : IF {condicin) THEN (imputacin).

se pueden realizar los siguientes anlisis:

9.1. Eliminacin de redundancias

Dadas dos reglas r^ y r2, tales que dan lugar a una misma imputacin, entonces
166 ESTADISTfCA ESPANOLA

a) Si la condicin de ri damina a la de r2 entonces r2 es redundante y se


puede eliminar.

Ejemplo:
r^: IF (SALARIO < 50.OQ0 8^ SEGTOR = 027) THEN (SALARIO =
= so.ooo)
r2: iF (SA^.ARIO < 45.000 & SECTOR = 027) THEN (SALARIO =
= so.oao>
r2 se puede eliminar.

b) Si la condicin de r^ es igual a la de r2 en todas las variables menos en


una, entonces r^ y r2 se pueden fusionar en una nica regla.

Ejemplo:
r^: IF (SALARIO < 50.000 & SECTOR = 027) THEN (SALARIO =
= 60.000)

r2: IF (SALARIO < 50.000 & SECTOR = 032) THEN (SALARIO =


= 60.000)

se pueden fusionar en la regla:

r12: IF [SALARIO < 50.000 &(SECTOR = 027 ^ SECTOR = 032)] THEN


(SALARIO = 60.000)
Si en el anlisis de redundancias se realizan fusiones de reglas es necesario
realizar una nueva iteracin del proceso bsqueda y eliminacin de redundan-
cias. Una regla resultante de una fusin puede dominar o fusionarse con otras
reglas.

9.2. Eliminacin de inconsistencias

Entre las posibles inconsistencias que se pueden presentar en las reglas de


imputacin determinstica estn:

a) Dos reglas afrecen distintas situaciones a una misma situacin conflictiva.

Ejemp/o:

r^: IF (SALARIO < 35.000 & SECTOR = 011) THEN (SALARIO =


= 40.000)
ANALISfS DE REGlAS DE DEPURACIC)N L^E DATOS 167

r2: IF (SALARIO < 25.000 & SECTOR ^ 022) THEN (SALARIO =


= 55.000)

en este caso ambas reglas estn propaniendo para los registros con SALARI(J
(<25.000) y SECTOR ( 011) imputaciones distintas.

b) La imputacin de un registro por una regla de imputacin determinstica


provoca el fallo de otra regla de imputacin determinstica que antes no se fallaba.

Ejemplo:

Dadas las reglas:

r^: IF (SEXO = mujer & SECTOR = 012) THEN (SEXO = varn)


r2: IF (SEXO = varn & SALARIO <25.000) THEN (SALARIO = 35.000)

un registro con SEX = mujer, SECT4R = 012 y SALARIO = 20.000 falla r^ y


no r2, pera tras ser imputado por r^ pasa a faliar r2.
Este tipo de situaciones, no son necesariamente conflictivas, per0 s sospechosas.

10. ANALISIS CONJUNTO DE EDITS Y REGLAS DE IMPUTACION


DETERMINISTICA

No es frecuente la realizacin de un anlisis conjunto de reglas de imputacin


determinstica y edits. Las razones son, pOr una parte la dificultad de tal anlisis,
y por otra el manejo de hiptesis, en muchos casos implcitas, acerca del proce-
dimiento de depuracin (la hipte5is ms general es que las reglas de imputacin
determinstica son muy seguras, apoyndose en casos perfectamente deter-
minados, y con soluciones claras. Domina por tanto la imputacin determinstica
sobre la depuracin apoyada en los edits).

Un anlisis de este tipo depende mucho de la estrategia global de depuraciny


y de si se va a realizar una imputacin apoyndose en los edits (siguiendo la
metodologa de Fellegi y Holt por ejemplo).

Por este motivo nicarnente se apuntarn, apoyndonos en ejemplos, algunas


de las posibles inconsistencias que se pueden producir (2).

(2) EI Sistema DIA tiene un analizador de reglas que incluye un analizador edit-reglas
de imputacin determinstica bastante completo, no limitndose nicamente a detectar
situaciones conflictivas, sino que ofrece para aquellas menos graves una solucin estn-
dar. Estas soluciones estn integradas en la propia rnetodologa del sistema y son slo
aplicables si se utiliza para realizar impuacin determinstica e imputacin probabilstica
basada en la metodologa de FELLEGI y HOLT.
ESTADISTICA ESPANOLA

10.1. Una regla de imputacin de#erminstica produce el fallo de un edit

Ejemplo:

r^: IF (SALARIO < 50.000 & SECTOR = 012) THEN (SALARIO =


= 60.000)

e^: (SALARIO > 55.000) & NIVEL-EDUCATIVO ( analfabeto)

en este casa, para un registro con SALARIO (<50.000), SECTOR (012) y NIVEL-
EDUCATIVO (analfabeto)

la regla de imputacin determinstica forzar^a el fallo del edit.

10.2. Dos reglas de imputacin determinstica producen el fallo


de un edit

Ejemplo:
Ilustraremos la situacin con un ejemplo poco realista.

Sean las reglas determinsticas:

r^: IF (SALARIO > 100.000 & SECTOR = 012) THEN (SALARIO =


= 60.000)

r2: IF (SEXO = mujer & SECTOR = 012) THEN (SEXO = varn)

y el edit

e: SEXO (varn) SALARIO (< 100.000)

Un registro con

SALARIO {120.000) SECTOR (012) SEXO ( mujer)

que no fallaba el edit e, tras ser imputado por ambas reglas deterministicas pasa
a fallarlo.

10.3. Una regla de imputacin determinstica se apoya en una variable


que es sospechosa de acuerdo con un edit

Ejemplo:
r^: IF (SALARIO < 50.000 & SECTOR = 012) THEN (SALARIO =
= 60.000)
ANALISIS DE REGLAS DE DEPURACION DE DATOS 169

en esta regla, se considera implcitamente que el sector es correcto, modifi-


cndose en su funcin ei SALARI, pero SECTOR puede ser sospechoso si
existe un edit fallado ccmo:

e^ : SECTOR ( 012) & SEXC^ ( MUJER)

11. CONCLUSfONES

EI anlisis de reglas descrito en los apartados anteriores tiene la limitacin de


restringirse a aspectos parciales de la depuracin (al no considerar la depuracin
interregistros), y ser nicamente aplicable a unos tipos limitados de reglas; que
por otra parte son los ms frecuentes. Adems, no considera el tratamiento
conjunto de reglas de distintos tipos.

Otra limitacin viene dada por el tiempo de proceso necesario para su realiza-
cin, y por la necesidad de disponer de software adecuado, software que por otra
parte existe nicamente como parte de paquetes generales.

Su principal ventaja est en permitir detectar problemas, antes de enfrentarnos


con los datos a depurar, sin necesidad de tener que prever complejos juegos de
pruebas que cubran todas las posibilidades. Permite detectar en etapas tempra-
nas problemas que ms #arde sera difcil diagnosticar y corregir. La eliminacin
de redundancias permite obtener mejores tiernpos de proceso, al hacerse este
con menos reglas.

EI anlisis de reglas permite mejorar la calidad de las especificaciones de los


expertos al analizarlas automticamente.

En cualquier caso, se utilice un analizador lgico de reglas o no, los expertos no


estn libres de la labor de comprobacin de la adaptacin de sus especificacianes
a la realidad. Los expertos deben comprobar que ninguna regla detecta como
errneos un nmero excesivo de registros. Con las reglas de imputacin deterrr^i-
nstica el control ha de ser an mayor, pues pueden introducir importantes sesgos.

ANEXO 1

Consideremos el siguiente conjunto de edits numricos:

x> >_ 0
x2 > 0
x^+x2<_4 (1)
x1 <_ 3

que definen la regin de aceptacin que aparece rayada en la figura 1.


17^ ESTAQISTICA ESPAI^JOLA

Si se aade el edit:

2x^+x2_<8

se observa que la regin de aceptacin no vara, dicho edit es redundante.


Si se aade el edit:

x^>_5
la regin de aceptacin se convie^te en vaca, el conjunto de edits es inconsis-
tente.
Si se aade el edit:

X1 + X^ >_ 4

la regin de aceptacin resultante se reduce al segmento de la recta x^ + x2 = 4,


comprendido entre los puntos [(0,4) y (3,1)]. Existe una igualdad escondida entre
los ed its.
Los edits del conjunto (1) establecen los siguientes limites para las dos va-
riables:

o<_x1 <_3
0<_x2<_4

Figura 1.

x>5
ANALISIS DE REGLAS DE DEPURACtON DE DATOS 171

REFERENCIAS

Data Editing Joint Group ( 1989}. Data Editing System Guidelines for Concepts
and Specification. Work Session on Statistical Data Editing. Ginebra.

FELLEGI, I. P. y HoLT, D. (1976). A systematic approach to automatic editing and


imputation. J. Amer. Statist. Assoc., 71, 17-35.

GARCA-RuBio, E. y V^^LAN, I. (1988}. Sistema DIA: Descripcin del sistema. Instituto


Naciona! de Estadstica de Esparia.

GARC(A-RuBio, E. y Vi^LAN, I. (1990). DIA SYSTEM: software for the automatic


editing and imputation of quaEitative data. U. S. 6th Annual Research Conferen-
ce Proceedings.

GILES, P. { 1989). Analysis of edits in a Generalized edit and imputation system.


Statistics Canada Working Paper SSDM-89-OQ4-E.
GREENBERG, B. (1982). Using an edit system to develop editing specifications.
Proceedings of the Section on Survey Research Methods, ASA.

SANDE, G. (1976). Diagnostic capabilities for a numerical edit specifications analy-


zer. Statistics Canada Technical report, BSMD.
SCHIOPU-KRATINA, I. y KovAR, J. G. (1989), l,lse of Chernikova's algorithm in the
Generalized Edit and Imputation System. Statistics Canada Warking Paper
BSMD-89-oa 1 E.

SANTA, J. (1991). On the Fellegi and Holt rule analysis. UNDP/SCP2`/V1/P.8 ?.

SANTA, J. (1991). Rule Analyzer. UNDP/SCP2'/WP.83.

SUMMARY

ANALYSIS OF STATISTICAL DATA EDITING RULES

In this paper different kind of statistical data editing rules analysis


are revised. We distinguist between the analysis which could be ap-
plied to editing rules for numerical data and the analysis that could be
applied to editing rules for categorical data. Our main focus are the
conflict rules, edits, but deterrninistic imputation rules are also consi-
dered.

Key words: Edit, deterministic imputation rule, consistency analysis.

AMS Classification: 62-04.

También podría gustarte