Está en la página 1de 4

Pseudonimizacin de informacin clnica para uso secundario.

Aplicacin en un caso prctico ISO/EN 13606

R. Somolinos Cristbal1, A. Muoz Carrero1, M. E. Hernando Prez2, M. Pascual Carrasco1, R.


Snchez de Madariaga1, O. Moreno Gil1, J.A. Fragua Mndez3, F. Lpez Rodrguez3, C. H. Salvador1
1
Unidad de Investigacin en Telemedicina y e-Salud, Instituto de Salud Carlos III, Madrid, Espaa,
{rsomolinos,adolfo.munoz,mario.pascual,ricardo.sanchez,omoreno,chsalvador}@isciii.es
2
Grupo de Bioingeniera y Telemedicina, Universidad Politcnica de Madrid, Madrid, Espaa, elena@gbt.tfo.upm.es
3
Laboratorio de Bioingeniera y Telemedicina, Hospital Universitario Puerta de Hierro Majadahonda, Majadahonda,
Madrid, Espaa, {jafragua,flopez}@idiphim.org

Resumen son eliminados y se mantienen junto a la informacin


Este trabajo describe la importancia de la pseudonimizacin de clnica, entonces existe un riesgo de re-identificacin de
la informacin clnica para usos secundarios, los aspectos los propietarios de los datos. Segn un estudio de
legales que regulan la transferencia de dicha informacin y las Sweeney [2], el 87% de la poblacin de Estados Unidos
principales tcnicas y modelos de anonimizacin existentes. Se puede ser identificada unvocamente mediante slo tres
propone el uso de un sistema pseudonimizador conforme a la datos: sexo, fecha de nacimiento y cdigo postal.
norma ISO/EN 13606, diseado y desarrollado por nuestro
grupo de trabajo, para la anonimizacin sistemtica de Nuestro grupo de investigacin ha desarrollado en los
conjuntos de extractos de historia clnica electrnica. ltimos aos un sistema pseudonimizador conforme a la
Finalmente se muestra la utilizacin de este servicio de norma ISO/EN 13606 [3]. Este sistema permite realizar
pseudonimizacin en un proyecto de investigacin concreto pseudonimizaciones sobre conjuntos de extractos ISO/EN
junto al estudio poblacional previo necesario para establecer 13606 de Historia Clnica Electrnica (HCE). El servicio
los parmetros ms adecuados para la anonimizacin. permite mantener algunos datos demogrficos (sexo,
fecha de nacimiento y lugar de residencia) junto a la
1. Introduccin informacin clnica. Los usuarios de esta herramienta
pueden seleccionar entre diversas opciones de
El uso secundario de informacin clnica para fines
granularidad para cada uno de los tres datos
docentes, estadsticos y de investigacin est en continuo
demogrficos. De esta forma, los investigadores pueden
crecimiento en los ltimos aos. La disponibilidad de
elegir la configuracin ms adecuada para su proyecto,
datos clnicos pblicos para uso secundario es
estableciendo un equilibrio entre los datos demogrficos
fundamental para el avance en el conocimiento mdico.
presentados para poder obtener resultados y el riesgo de
Un requisito bsico para la existencia de repositorios re-identificacin.
pblicos de datos clnicos es garantizar la privacidad de
los datos del paciente mediante tcnicas de anonimizacin 2. Aspectos legales
y de-identificacin. Cada pas, a travs de sus leyes, El auge del uso secundario de la informacin clnica ha
protege la privacidad de los datos estableciendo diferentes provocado que diferentes gobiernos y organizaciones
restricciones para el uso secundario de los datos clnicos. hayan tenido que actualizar sus legislaciones en los
De forma general, el intercambio de informacin clnica ltimos aos para adaptarse al nuevo entorno en temas
para uso secundario slo es permitido si la informacin ha relacionados con el acceso y uso de datos personales.
sido previamente anonimizada para evitar futuras
asociaciones entre los datos y sus propietarios. La Unin Europea, a travs de su directiva 95/46/EC y el
artculo 29 de su grupo de trabajo, ha establecido los
De acuerdo a la norma ISO/TS 25237 "Health informatics mecanismos necesarios para garantizar la proteccin del
Pseudonymization [1], la anonimizacin es el proceso individuo en cuanto al manejo y libre circulacin de datos
que elimina todos los enlaces entre un conjunto de datos y personales entre sus estados miembros. Esta directiva de
el propietario de los mismos, y la pseudonimizacin es un proteccin de datos no es de aplicacin cuando el
tipo particular de anonimizacin que elimina las individuo no puede ser identificado, directa o
asociaciones entre los datos y sus propietarios y aade indirectamente. El artculo 29 establece que los datos
nuevas asociaciones entre un conjunto de datos y uno o annimos son toda aquella informacin relacionada con
ms pseudnimos. una persona que no puede ser identificada. De acuerdo a
Muchas investigaciones necesitan conocer, adems de los la Organizacin Mundial de la Salud (OMS), existe
datos clnicos, ciertos datos demogrficos de los pacientes anonimidad razonable o proporcional cuando no se
para poder extraer resultados significativos. Si los datos puede identificar a los individuos a travs de medios
que pueden identificar a una persona (sexo, edad, etc) no razonables. En 2012, la Comisin Europea propuso una
reforma integral de las leyes sobre proteccin de datos de Adems de estas tcnicas de anonimizacin, tambin
1995 para fortalecer los derechos de privacidad y existen varios modelos basados en clustering (k-
fomentar la economa digital europea. anonimity, l-diversity y t-closeness) que representan el
riesgo de re-identificacin de registros previamente de-
Las leyes espaolas siguen la directiva europea 95/46/EC.
identificados. Estos modelos tratan de cuantificar el
De acuerdo a la ley espaola 14/2007 de investigacin
riesgo de que agentes externos puedan obtener
biomdica, (artculo 50, 2) los datos de una persona slo
informacin privada a partir de los datos anonimizados
podrn ser usados para propsitos de investigacin o
ofrecidos para uso secundario y bases de datos de acceso
docencia si la parte interesada ha dado expresamente su
pblico (informaciones censales). Los atributos de los
consentimiento o si dichos datos han sido previamente
registros para uso secundario se clasifican en los
anonimizados, y (artculo 52, 3) dichos datos slo pueden
siguientes grupos segn su naturaleza:
ser almacenados con fines de investigacin en un formato
anonimizado. atributos clave: son campos que identifican
unvocamente a una persona (nombre, direccin,
En Estados Unidos, la Health Insurance Portability and
telfono, nmeros de identificacin). Estos atributos
Accountability Act de 1996 (HIPAA) se encarga de
son eliminados en los registros anonimizados.
proteger la privacidad de la informacin clnica y
establecer regulaciones que garanticen la seguridad de la cuasi-identificadores: son variables del entorno que
HCE. No existe obligacin legal de obtener el por s mismas no identifican a una entidad
consentimiento del paciente para guardar su informacin unvocamente, pero que junto con otros cuasi-
clnica siempre que los datos hayan sido previamente de- identificadores pueden ser utilizadas para re-
identificados. La ley de privacidad de la HIPAA se identificar a una persona (fecha de nacimiento, sexo,
encarga de la proteccin contra descubrimientos de cdigo postal). La anonimizacin puede eliminar
identidad y proporciona definiciones y normas para la de- estos datos, mantenerlos o generalizarlos.
identificacin de datos clnicos. La Safe Harbor de atributos sensibles: es informacin sensible de las
HIPAA define un conjunto de 18 datos denominados entidades que no debe poder ser enlazada con su
Protected Health Information (PHI), los cuales deben propietario (tener una determinada enfermedad).
ser eliminados para que los datos clnicos se consideren Estos datos son de gran utilidad para usos
de-identificados. secundarios y se mantienen en los registros
Por consiguiente, en todos aquellos escenarios en los que anonimizados.
un sistema de informacin desee enviar informacin Las clases de equivalencia se definen como los conjuntos
clnica al exterior para uso secundario es necesario que de registros que poseen los mismos valores para un
dicha informacin sea previamente anonimizada. conjunto de cuasi-identificadores seleccionado.

3. Anonimizacin 3.1. k-anonimity

La anonimizacin de informacin sensible es un problema La k-anonimity previene descubrimientos de identidad.


ampliamente abordado. En la actualidad ya existe gran Este modelo previene que, a partir de un conjunto de
cantidad y variedad de soluciones que la implementan. cuasi-identificadores, se pueda descubrir la identidad o
Las soluciones ms destacadas son las basadas en tcnicas los atributos clave de una entidad. La k-anonimity no se
de bsqueda de patrones y de aprendizaje automtico de centra en los atributos sensibles de los registros.
mquinas [4]. Las tcnicas de bsqueda de patrones Se define k como el mnimo tamao de todas las clases
utilizan patrones, reglas y diccionarios para localizar de equivalencia establecidas en la anonimizacin. En
datos que puedan provocar la re-identificacin. Las otras palabras, para cualquier registro, siempre existen al
tcnicas de aprendizaje automtico clasifican palabras en menos otros k-1 registros con idnticos valores de sus
datos clave mediante mtodos como mquinas de cuasi-identificadores. Por tanto, la probabilidad de re-
vectores, rboles de decisin, entropa mxima y campos identificar a una entidad a partir de los valores de un
condicionales. Estas ltimas tcnicas necesitan un conjunto de cuasi-identificadores es 1/k. Para garantizar
entrenamiento largo y supervisado con un gran conjunto un bajo riesgo de re-identificacin, se debe garantizar un
de datos, mientras que las tcnicas basadas en bsqueda valor mnimo de k.
de patrones apenas necesitan entrenamiento y son fcil y
rpidamente modificables cambiando sus reglas y El mtodo ms habitual para disminuir la probabilidad de
diccionarios. La gran desventaja de los mtodos de re-identificacin es la generalizacin de los cuasi-
bsqueda de patrones es que necesitan desarrollar muchos identificadores. Haciendo los cuasi-identificadores menos
algoritmos complejos por cada dato clave y estos especficos aumenta el tamao de las clases de
algoritmos son personalizados para cada conjunto de equivalencia y, por tanto, el valor de k, as se reduce el
datos, no son generalizables para otros documentos. La riesgo de re-identificacin. Los registros con valores muy
ventaja de los mtodos de aprendizaje automtico es que, poco usuales deben ser eliminados, ya que aumentan
una vez realizado el entrenamiento, aprenden rpidamente significativamente la probabilidad de re-identificacin
para reconocer patrones de datos complejos y se adaptan (una altura de 2,21 m, una edad de 108 aos), o agrupados
mejor a diferentes tipos de documentos. a partir de cierto valor del cuasi-identificador (altura de
2,00 m o ms, edad de 80 aos o ms).
Un problema que presenta este modelo es que si, para los de atencin con la especificidad seleccionada para el
k elementos de una clase de equivalencia, todos ellos o sexo, la fecha de nacimiento y el lugar de residencia.
un porcentaje muy alto poseen el mismo valor de un
El pseudonimizador est diseado para dar servicio a
atributo sensible, un atacante podr concluir que cualquier
proyectos de muy diversa ndole y que, por tanto, poseen
entidad perteneciente a esa clase tiene ese determinado
atributos sensibles de muy diferente naturaleza. Los
valor del atributo sensible con total certeza o con un
atributos sensibles, dependiendo del caso, pueden
porcentaje muy alto de acierto. La k-anonimity
ubicarse en localizaciones muy diversas del modelo de
proporciona proteccin contra ataques de descubrimiento
referencia de la norma ISO/EN 13606. Por este motivo,
de identidad, pero no ante ataques de descubrimiento de
resulta muy dificultoso implementar de forma generalista
atributos sensibles.
modelos basados en atributos sensibles como l-diversity y
3.2. l-diversity t-closeness acordes a la norma ISO/EN 13606. Sin
embargo, los cuasi-identificadores s tienen una clara
La l-diversity proporciona proteccin frente ataques de
ubicacin dentro del modelo de referencia de la norma:
descubrimiento de atributos sensibles. Este modelo mide
las clases del paquete demogrfico. El pseudonimizador
la variedad de los atributos sensibles. Los atributos
implementa el modelo k-anonimity centrndose en los
sensibles deben ser diversos dentro de cada clase de
cuasi-identificadores de mayor utilidad para usos
equivalencia para evitar su descubrimiento.
secundarios (sexo, fecha de nacimiento y lugar de
Se define l como el menor nmero de valores distintos residencia) y proporciona diferentes posibilidades para la
de un atributo sensible dentro de cualquier clase de generalizacin de los cuasi-identificadores seleccionados.
equivalencia. Significa que siempre, para cualquier
El acceso al servicio de anonimizacin se realiza
registro, existen al menos l valores posibles distintos
mediante un web service a travs de la funcin
para sus atributos sensibles.
anonymizeExtract. Esta funcin devuelve el extracto
La l-diversity no tiene en cuenta la distribucin global de anonimizado y debe ser invocada con los siguientes
los valores sensibles. Por lo que, aunque en la distribucin parmetros de entrada:
global un valor de un atributo sensible aparezca slo un
extract: es el extracto que se desea anonimizar
10%, si existe una clase de equivalencia en la que dicho
valor aparece en un 80% de los registros, se est rootProject: espacio de nombres que se utiliza para
otorgando una informacin adicional muy importante a generar todos los nuevos identificadores que
los posibles atacantes que pretendan inferir informacin aparecen en el extracto anonimizado
privada de los registros. degreeGender: grado de especificidad para el cuasi-
3.3. t-closeness identificador sexo. Opciones disponibles: a)
eliminado, b) incluido
La t-closeness s considera la distribucin de los valores
degreeBirth: grado de especificidad para el cuasi-
sensibles. Este modelo mide la similitud entre la
identificador fecha de nacimiento. Opciones
distribucin de los atributos sensibles en cada clase de
disponibles: a) eliminado, b) grupos de 10 aos, c)
equivalencia y la distribucin global de todos los
grupos de 5 aos, d) ao, e) mes, f) da
registros. La distancia entre la distribucin global de un
atributo sensible y la distribucin de ese mismo atributo degreeAddress: grado de especificidad para el cuasi-
en cualquiera de las clases de equivalencia no debe nunca identificador lugar de residencia. Opciones
superar un umbral t prefijado. disponibles: a) eliminado, b) pas, c) provincia, d)
ciudad, e) cdigo postal, f) todo incluido
4. Pseudonimizador conforme a la norma
ISO/EN 13606 5. Ejemplo de pseudonimizacin
Nuestra unidad ha desarrollado un pseudonimizador El proyecto CAMAMA (FIS 08/1148) y su continuacin
basado en la norma ISO/EN 13606 que facilita la CAMAMA2 (FIS 12/01476) son proyectos coordinados
realizacin de anonimizaciones de acuerdo a un conjunto llevados a cabo junto al Hospital de Fuenlabrada (Madrid)
de parmetros de una forma sistemtica. El sistema recibe y el Hospital Clinic (Barcelona). En ellos se estudia el
extractos ISO/EN 13606 y, a travs de su mdulo envo automatizado de informacin clnica entre
anonimizador y su servidor demogrfico, los anonimiza y productores (hospitales) y consumidores (biobancos,
devuelve a sus clientes. registros de casos y otros grupos de investigacin). En un
principio, su objetivo era cubrir slo los casos de cncer,
El servidor demogrfico se encarga del almacenamiento pero finalmente se extendi para abarcar a toda la
permanente de las entidades demogrficas presentes en poblacin de Fuenlabrada. El proyecto pretende alcanzar
los extractos y proporciona funciones especficas para la las 200,000 historias clnicas resumidas, intercambiadas
gestin de los identificadores. Mientras que el mdulo por medio de extractos pseudonimizados,
anonimizador realiza la anonimizacin propiamente correspondientes a la poblacin total de Fuenlabrada.
dicha: enva la informacin demogrfica al servidor
demogrfico y la elimina del extracto, gestiona y sustituye Para establecer los grados de especificidad adecuados de
los identificadores presentes en el extracto e incorpora al los cuasi-identificadores en la pseudonimizacin de los
extracto anonimizado los datos demogrficos del sujeto registros intercambiado en el proyecto ha sido necesario
realizar un estudio poblacional previo. Este estudio se ha
basado en los datos de la pirmide de poblacin de junto a la clase de equivalencia con menor nmero de
Fuenlabrada (Tabla 1) [5]. elementos de cada una de ellas y el valor de k.

Edad Hombres Mujeres Total k Sexo incluido Sexo eliminado

0-4 5740 5381 11121 Ao 1100/5=220 2625/5=525


5-9 6061 5679 11740 Hombres 75-79 Total 75-79
10-14 5676 5240 10916 5 aos 1100 2625
15-19 5117 4908 10025 Hombres 75-79 Total 75-79
20-24 6345 6281 12626 10 aos 1313 3808
25-29 8474 8052 16526 Hombres 80+ Total 80+
30-34 9770 9377 19147
Tabla 2. Estudio poblacional de Fuenlabrada
35-39 9622 9002 18624
El valor de k ms bajo calculado para las seis
40-44 9099 8821 17920 configuraciones es 220. Este valor proporciona un riesgo
45-49 8091 8069 16160 de re-identificacin muy bajo (1/220) y pertenece a la
configuracin que mayor informacin aporta para uso
50-54 7198 8286 15484 secundario. Consecuentemente, sa fue la configuracin
elegida para realizar la pseudonimizacin en este
55-59 8094 8275 16369
proyecto: sexo incluido, fecha de nacimiento ao y lugar
60-64 5579 4709 10288 de residencia eliminado.
65-69 2858 2895 5753 6. Conclusiones
70-74 1428 1670 3098 El pseudonimizador desarrollado supone una potente y
75-79 1100 1525 2625 novedosa herramienta para la utilizacin de datos clnicos
ISO/EN 13606 en usos secundarios. Una ampliacin del
80+ 1313 2495 3808 servicio, pendiente para trabajos futuros, consiste en
101565 100665 202230 aadir una nueva funcionalidad para calcular
automticamente el valor k a partir del conjunto de
extractos y la configuracin de los cuasi-identificadores.
Tabla 1. Pirmide de poblacin de Fuenlabrada
Todos los registros del proyecto provienen de ciudadanos Agradecimientos
de Fuenlabrada, por lo que la informacin sobre el lugar Este trabajo ha sido financiado parcialmente por los
de residencia no es de utilidad para extraer resultados en proyectos CAMAMA (FIS 08/1148), CAMAMA2 (FIS
usos secundarios. Por este motivo, se decidi no aadir en 12/01476) y PITES-ISA (FIS 12/00508 y FIS 12/01305).
los registros pseudonimizados datos sobre el lugar de
residencia y establecer las clases de equivalencia sin tener Referencias
en cuenta este cuasi-identificador. [1] International Organization for Standardization. ISO/TS
25237:2008 "Health informatics Pseudonymization.
Las clases de equivalencia y el clculo del valor k se
realizaron utilizando slo los cuasi-identificadores sexo y [2] Sweeney L. Simple Demographics Often Identify People
fecha de nacimiento. El sexo y la fecha de nacimiento del Uniquely. Carnegie Mellon University, Data Privacy
Working Paper 3. Pittsburgh 2000.
individuo son de utilidad para inferir conclusiones en usos
http://dataprivacylab.org/projects/identifiability/paper1.pdf
secundarios. Especificidades inferiores al ao en la fecha (Consultada: Septiembre 2014).
de nacimiento se consideraron que no aportaban
informacin adicional til para uso secundario. Por esta [3] Somolinos R, Muoz A, Hernando ME, et al. EHR
razn, slo se valoraron tres opciones para el cuasi- Anonymising System Based on the ISO/EN 13606 Norm.
IFMBE Proceedings. XIII Mediterranean Conference on
identificador fecha de nacimiento: ao, grupos de 5 aos
Medical and Biological Engineering and Computing 2013
y grupos de 10 aos. Tambin hay que indicar que para (MEDICON 2013), Sevilla, 25-28 septiembre de 2013, pp
este cuasi-identificador, en los tres casos, se han juntado 1302-1305. (ISBN: 978-3-319-00846-2).
todos los registros de 80 o ms aos en un nico grupo.
[4] Meystre SM, Friedlin FJ, South BR, et al. Automatic de-
Combinando las posibilidades de ambos cuasi- identification of textual documents in the electronic health
identificadores se obtuvieron seis configuraciones record: a review of recent research. BMC Med Res
posibles. A partir de los datos de la pirmide de Methodol, vol. 10, pp. 70. 2010.
poblacin, y suponiendo una distribucin uniforme entre [5] Pirmide de poblacin de Fuenlabrada. Pgina web del
los 5 aos de cada grupo de la pirmide, se calcul el ayuntamiento de Fuenlabrada. http://ayto-
valor de k para cada una de las configuraciones. En la fuenlabrada.es/recursos/doc/SC/Estadisticas_y_territorio/36
Tabla 2 se muestran las seis configuraciones posibles 781_1111112013133426.pdf (Consultada: Septiembre
2014).

También podría gustarte