Pseudonimizacin de informacin clnica para uso secundario.
Aplicacin en un caso prctico ISO/EN 13606
R. Somolinos Cristbal1, A. Muoz Carrero1, M. E. Hernando Prez2, M. Pascual Carrasco1, R.
Snchez de Madariaga1, O. Moreno Gil1, J.A. Fragua Mndez3, F. Lpez Rodrguez3, C. H. Salvador1 1 Unidad de Investigacin en Telemedicina y e-Salud, Instituto de Salud Carlos III, Madrid, Espaa, {rsomolinos,adolfo.munoz,mario.pascual,ricardo.sanchez,omoreno,chsalvador}@isciii.es 2 Grupo de Bioingeniera y Telemedicina, Universidad Politcnica de Madrid, Madrid, Espaa, elena@gbt.tfo.upm.es 3 Laboratorio de Bioingeniera y Telemedicina, Hospital Universitario Puerta de Hierro Majadahonda, Majadahonda, Madrid, Espaa, {jafragua,flopez}@idiphim.org
Resumen son eliminados y se mantienen junto a la informacin
Este trabajo describe la importancia de la pseudonimizacin de clnica, entonces existe un riesgo de re-identificacin de la informacin clnica para usos secundarios, los aspectos los propietarios de los datos. Segn un estudio de legales que regulan la transferencia de dicha informacin y las Sweeney [2], el 87% de la poblacin de Estados Unidos principales tcnicas y modelos de anonimizacin existentes. Se puede ser identificada unvocamente mediante slo tres propone el uso de un sistema pseudonimizador conforme a la datos: sexo, fecha de nacimiento y cdigo postal. norma ISO/EN 13606, diseado y desarrollado por nuestro grupo de trabajo, para la anonimizacin sistemtica de Nuestro grupo de investigacin ha desarrollado en los conjuntos de extractos de historia clnica electrnica. ltimos aos un sistema pseudonimizador conforme a la Finalmente se muestra la utilizacin de este servicio de norma ISO/EN 13606 [3]. Este sistema permite realizar pseudonimizacin en un proyecto de investigacin concreto pseudonimizaciones sobre conjuntos de extractos ISO/EN junto al estudio poblacional previo necesario para establecer 13606 de Historia Clnica Electrnica (HCE). El servicio los parmetros ms adecuados para la anonimizacin. permite mantener algunos datos demogrficos (sexo, fecha de nacimiento y lugar de residencia) junto a la 1. Introduccin informacin clnica. Los usuarios de esta herramienta pueden seleccionar entre diversas opciones de El uso secundario de informacin clnica para fines granularidad para cada uno de los tres datos docentes, estadsticos y de investigacin est en continuo demogrficos. De esta forma, los investigadores pueden crecimiento en los ltimos aos. La disponibilidad de elegir la configuracin ms adecuada para su proyecto, datos clnicos pblicos para uso secundario es estableciendo un equilibrio entre los datos demogrficos fundamental para el avance en el conocimiento mdico. presentados para poder obtener resultados y el riesgo de Un requisito bsico para la existencia de repositorios re-identificacin. pblicos de datos clnicos es garantizar la privacidad de los datos del paciente mediante tcnicas de anonimizacin 2. Aspectos legales y de-identificacin. Cada pas, a travs de sus leyes, El auge del uso secundario de la informacin clnica ha protege la privacidad de los datos estableciendo diferentes provocado que diferentes gobiernos y organizaciones restricciones para el uso secundario de los datos clnicos. hayan tenido que actualizar sus legislaciones en los De forma general, el intercambio de informacin clnica ltimos aos para adaptarse al nuevo entorno en temas para uso secundario slo es permitido si la informacin ha relacionados con el acceso y uso de datos personales. sido previamente anonimizada para evitar futuras asociaciones entre los datos y sus propietarios. La Unin Europea, a travs de su directiva 95/46/EC y el artculo 29 de su grupo de trabajo, ha establecido los De acuerdo a la norma ISO/TS 25237 "Health informatics mecanismos necesarios para garantizar la proteccin del Pseudonymization [1], la anonimizacin es el proceso individuo en cuanto al manejo y libre circulacin de datos que elimina todos los enlaces entre un conjunto de datos y personales entre sus estados miembros. Esta directiva de el propietario de los mismos, y la pseudonimizacin es un proteccin de datos no es de aplicacin cuando el tipo particular de anonimizacin que elimina las individuo no puede ser identificado, directa o asociaciones entre los datos y sus propietarios y aade indirectamente. El artculo 29 establece que los datos nuevas asociaciones entre un conjunto de datos y uno o annimos son toda aquella informacin relacionada con ms pseudnimos. una persona que no puede ser identificada. De acuerdo a Muchas investigaciones necesitan conocer, adems de los la Organizacin Mundial de la Salud (OMS), existe datos clnicos, ciertos datos demogrficos de los pacientes anonimidad razonable o proporcional cuando no se para poder extraer resultados significativos. Si los datos puede identificar a los individuos a travs de medios que pueden identificar a una persona (sexo, edad, etc) no razonables. En 2012, la Comisin Europea propuso una reforma integral de las leyes sobre proteccin de datos de Adems de estas tcnicas de anonimizacin, tambin 1995 para fortalecer los derechos de privacidad y existen varios modelos basados en clustering (k- fomentar la economa digital europea. anonimity, l-diversity y t-closeness) que representan el riesgo de re-identificacin de registros previamente de- Las leyes espaolas siguen la directiva europea 95/46/EC. identificados. Estos modelos tratan de cuantificar el De acuerdo a la ley espaola 14/2007 de investigacin riesgo de que agentes externos puedan obtener biomdica, (artculo 50, 2) los datos de una persona slo informacin privada a partir de los datos anonimizados podrn ser usados para propsitos de investigacin o ofrecidos para uso secundario y bases de datos de acceso docencia si la parte interesada ha dado expresamente su pblico (informaciones censales). Los atributos de los consentimiento o si dichos datos han sido previamente registros para uso secundario se clasifican en los anonimizados, y (artculo 52, 3) dichos datos slo pueden siguientes grupos segn su naturaleza: ser almacenados con fines de investigacin en un formato anonimizado. atributos clave: son campos que identifican unvocamente a una persona (nombre, direccin, En Estados Unidos, la Health Insurance Portability and telfono, nmeros de identificacin). Estos atributos Accountability Act de 1996 (HIPAA) se encarga de son eliminados en los registros anonimizados. proteger la privacidad de la informacin clnica y establecer regulaciones que garanticen la seguridad de la cuasi-identificadores: son variables del entorno que HCE. No existe obligacin legal de obtener el por s mismas no identifican a una entidad consentimiento del paciente para guardar su informacin unvocamente, pero que junto con otros cuasi- clnica siempre que los datos hayan sido previamente de- identificadores pueden ser utilizadas para re- identificados. La ley de privacidad de la HIPAA se identificar a una persona (fecha de nacimiento, sexo, encarga de la proteccin contra descubrimientos de cdigo postal). La anonimizacin puede eliminar identidad y proporciona definiciones y normas para la de- estos datos, mantenerlos o generalizarlos. identificacin de datos clnicos. La Safe Harbor de atributos sensibles: es informacin sensible de las HIPAA define un conjunto de 18 datos denominados entidades que no debe poder ser enlazada con su Protected Health Information (PHI), los cuales deben propietario (tener una determinada enfermedad). ser eliminados para que los datos clnicos se consideren Estos datos son de gran utilidad para usos de-identificados. secundarios y se mantienen en los registros Por consiguiente, en todos aquellos escenarios en los que anonimizados. un sistema de informacin desee enviar informacin Las clases de equivalencia se definen como los conjuntos clnica al exterior para uso secundario es necesario que de registros que poseen los mismos valores para un dicha informacin sea previamente anonimizada. conjunto de cuasi-identificadores seleccionado.
3. Anonimizacin 3.1. k-anonimity
La anonimizacin de informacin sensible es un problema La k-anonimity previene descubrimientos de identidad.
ampliamente abordado. En la actualidad ya existe gran Este modelo previene que, a partir de un conjunto de cantidad y variedad de soluciones que la implementan. cuasi-identificadores, se pueda descubrir la identidad o Las soluciones ms destacadas son las basadas en tcnicas los atributos clave de una entidad. La k-anonimity no se de bsqueda de patrones y de aprendizaje automtico de centra en los atributos sensibles de los registros. mquinas [4]. Las tcnicas de bsqueda de patrones Se define k como el mnimo tamao de todas las clases utilizan patrones, reglas y diccionarios para localizar de equivalencia establecidas en la anonimizacin. En datos que puedan provocar la re-identificacin. Las otras palabras, para cualquier registro, siempre existen al tcnicas de aprendizaje automtico clasifican palabras en menos otros k-1 registros con idnticos valores de sus datos clave mediante mtodos como mquinas de cuasi-identificadores. Por tanto, la probabilidad de re- vectores, rboles de decisin, entropa mxima y campos identificar a una entidad a partir de los valores de un condicionales. Estas ltimas tcnicas necesitan un conjunto de cuasi-identificadores es 1/k. Para garantizar entrenamiento largo y supervisado con un gran conjunto un bajo riesgo de re-identificacin, se debe garantizar un de datos, mientras que las tcnicas basadas en bsqueda valor mnimo de k. de patrones apenas necesitan entrenamiento y son fcil y rpidamente modificables cambiando sus reglas y El mtodo ms habitual para disminuir la probabilidad de diccionarios. La gran desventaja de los mtodos de re-identificacin es la generalizacin de los cuasi- bsqueda de patrones es que necesitan desarrollar muchos identificadores. Haciendo los cuasi-identificadores menos algoritmos complejos por cada dato clave y estos especficos aumenta el tamao de las clases de algoritmos son personalizados para cada conjunto de equivalencia y, por tanto, el valor de k, as se reduce el datos, no son generalizables para otros documentos. La riesgo de re-identificacin. Los registros con valores muy ventaja de los mtodos de aprendizaje automtico es que, poco usuales deben ser eliminados, ya que aumentan una vez realizado el entrenamiento, aprenden rpidamente significativamente la probabilidad de re-identificacin para reconocer patrones de datos complejos y se adaptan (una altura de 2,21 m, una edad de 108 aos), o agrupados mejor a diferentes tipos de documentos. a partir de cierto valor del cuasi-identificador (altura de 2,00 m o ms, edad de 80 aos o ms). Un problema que presenta este modelo es que si, para los de atencin con la especificidad seleccionada para el k elementos de una clase de equivalencia, todos ellos o sexo, la fecha de nacimiento y el lugar de residencia. un porcentaje muy alto poseen el mismo valor de un El pseudonimizador est diseado para dar servicio a atributo sensible, un atacante podr concluir que cualquier proyectos de muy diversa ndole y que, por tanto, poseen entidad perteneciente a esa clase tiene ese determinado atributos sensibles de muy diferente naturaleza. Los valor del atributo sensible con total certeza o con un atributos sensibles, dependiendo del caso, pueden porcentaje muy alto de acierto. La k-anonimity ubicarse en localizaciones muy diversas del modelo de proporciona proteccin contra ataques de descubrimiento referencia de la norma ISO/EN 13606. Por este motivo, de identidad, pero no ante ataques de descubrimiento de resulta muy dificultoso implementar de forma generalista atributos sensibles. modelos basados en atributos sensibles como l-diversity y 3.2. l-diversity t-closeness acordes a la norma ISO/EN 13606. Sin embargo, los cuasi-identificadores s tienen una clara La l-diversity proporciona proteccin frente ataques de ubicacin dentro del modelo de referencia de la norma: descubrimiento de atributos sensibles. Este modelo mide las clases del paquete demogrfico. El pseudonimizador la variedad de los atributos sensibles. Los atributos implementa el modelo k-anonimity centrndose en los sensibles deben ser diversos dentro de cada clase de cuasi-identificadores de mayor utilidad para usos equivalencia para evitar su descubrimiento. secundarios (sexo, fecha de nacimiento y lugar de Se define l como el menor nmero de valores distintos residencia) y proporciona diferentes posibilidades para la de un atributo sensible dentro de cualquier clase de generalizacin de los cuasi-identificadores seleccionados. equivalencia. Significa que siempre, para cualquier El acceso al servicio de anonimizacin se realiza registro, existen al menos l valores posibles distintos mediante un web service a travs de la funcin para sus atributos sensibles. anonymizeExtract. Esta funcin devuelve el extracto La l-diversity no tiene en cuenta la distribucin global de anonimizado y debe ser invocada con los siguientes los valores sensibles. Por lo que, aunque en la distribucin parmetros de entrada: global un valor de un atributo sensible aparezca slo un extract: es el extracto que se desea anonimizar 10%, si existe una clase de equivalencia en la que dicho valor aparece en un 80% de los registros, se est rootProject: espacio de nombres que se utiliza para otorgando una informacin adicional muy importante a generar todos los nuevos identificadores que los posibles atacantes que pretendan inferir informacin aparecen en el extracto anonimizado privada de los registros. degreeGender: grado de especificidad para el cuasi- 3.3. t-closeness identificador sexo. Opciones disponibles: a) eliminado, b) incluido La t-closeness s considera la distribucin de los valores degreeBirth: grado de especificidad para el cuasi- sensibles. Este modelo mide la similitud entre la identificador fecha de nacimiento. Opciones distribucin de los atributos sensibles en cada clase de disponibles: a) eliminado, b) grupos de 10 aos, c) equivalencia y la distribucin global de todos los grupos de 5 aos, d) ao, e) mes, f) da registros. La distancia entre la distribucin global de un atributo sensible y la distribucin de ese mismo atributo degreeAddress: grado de especificidad para el cuasi- en cualquiera de las clases de equivalencia no debe nunca identificador lugar de residencia. Opciones superar un umbral t prefijado. disponibles: a) eliminado, b) pas, c) provincia, d) ciudad, e) cdigo postal, f) todo incluido 4. Pseudonimizador conforme a la norma ISO/EN 13606 5. Ejemplo de pseudonimizacin Nuestra unidad ha desarrollado un pseudonimizador El proyecto CAMAMA (FIS 08/1148) y su continuacin basado en la norma ISO/EN 13606 que facilita la CAMAMA2 (FIS 12/01476) son proyectos coordinados realizacin de anonimizaciones de acuerdo a un conjunto llevados a cabo junto al Hospital de Fuenlabrada (Madrid) de parmetros de una forma sistemtica. El sistema recibe y el Hospital Clinic (Barcelona). En ellos se estudia el extractos ISO/EN 13606 y, a travs de su mdulo envo automatizado de informacin clnica entre anonimizador y su servidor demogrfico, los anonimiza y productores (hospitales) y consumidores (biobancos, devuelve a sus clientes. registros de casos y otros grupos de investigacin). En un principio, su objetivo era cubrir slo los casos de cncer, El servidor demogrfico se encarga del almacenamiento pero finalmente se extendi para abarcar a toda la permanente de las entidades demogrficas presentes en poblacin de Fuenlabrada. El proyecto pretende alcanzar los extractos y proporciona funciones especficas para la las 200,000 historias clnicas resumidas, intercambiadas gestin de los identificadores. Mientras que el mdulo por medio de extractos pseudonimizados, anonimizador realiza la anonimizacin propiamente correspondientes a la poblacin total de Fuenlabrada. dicha: enva la informacin demogrfica al servidor demogrfico y la elimina del extracto, gestiona y sustituye Para establecer los grados de especificidad adecuados de los identificadores presentes en el extracto e incorpora al los cuasi-identificadores en la pseudonimizacin de los extracto anonimizado los datos demogrficos del sujeto registros intercambiado en el proyecto ha sido necesario realizar un estudio poblacional previo. Este estudio se ha basado en los datos de la pirmide de poblacin de junto a la clase de equivalencia con menor nmero de Fuenlabrada (Tabla 1) [5]. elementos de cada una de ellas y el valor de k.
Edad Hombres Mujeres Total k Sexo incluido Sexo eliminado
0-4 5740 5381 11121 Ao 1100/5=220 2625/5=525
5-9 6061 5679 11740 Hombres 75-79 Total 75-79 10-14 5676 5240 10916 5 aos 1100 2625 15-19 5117 4908 10025 Hombres 75-79 Total 75-79 20-24 6345 6281 12626 10 aos 1313 3808 25-29 8474 8052 16526 Hombres 80+ Total 80+ 30-34 9770 9377 19147 Tabla 2. Estudio poblacional de Fuenlabrada 35-39 9622 9002 18624 El valor de k ms bajo calculado para las seis 40-44 9099 8821 17920 configuraciones es 220. Este valor proporciona un riesgo 45-49 8091 8069 16160 de re-identificacin muy bajo (1/220) y pertenece a la configuracin que mayor informacin aporta para uso 50-54 7198 8286 15484 secundario. Consecuentemente, sa fue la configuracin elegida para realizar la pseudonimizacin en este 55-59 8094 8275 16369 proyecto: sexo incluido, fecha de nacimiento ao y lugar 60-64 5579 4709 10288 de residencia eliminado. 65-69 2858 2895 5753 6. Conclusiones 70-74 1428 1670 3098 El pseudonimizador desarrollado supone una potente y 75-79 1100 1525 2625 novedosa herramienta para la utilizacin de datos clnicos ISO/EN 13606 en usos secundarios. Una ampliacin del 80+ 1313 2495 3808 servicio, pendiente para trabajos futuros, consiste en 101565 100665 202230 aadir una nueva funcionalidad para calcular automticamente el valor k a partir del conjunto de extractos y la configuracin de los cuasi-identificadores. Tabla 1. Pirmide de poblacin de Fuenlabrada Todos los registros del proyecto provienen de ciudadanos Agradecimientos de Fuenlabrada, por lo que la informacin sobre el lugar Este trabajo ha sido financiado parcialmente por los de residencia no es de utilidad para extraer resultados en proyectos CAMAMA (FIS 08/1148), CAMAMA2 (FIS usos secundarios. Por este motivo, se decidi no aadir en 12/01476) y PITES-ISA (FIS 12/00508 y FIS 12/01305). los registros pseudonimizados datos sobre el lugar de residencia y establecer las clases de equivalencia sin tener Referencias en cuenta este cuasi-identificador. [1] International Organization for Standardization. ISO/TS 25237:2008 "Health informatics Pseudonymization. Las clases de equivalencia y el clculo del valor k se realizaron utilizando slo los cuasi-identificadores sexo y [2] Sweeney L. Simple Demographics Often Identify People fecha de nacimiento. El sexo y la fecha de nacimiento del Uniquely. Carnegie Mellon University, Data Privacy Working Paper 3. Pittsburgh 2000. individuo son de utilidad para inferir conclusiones en usos http://dataprivacylab.org/projects/identifiability/paper1.pdf secundarios. Especificidades inferiores al ao en la fecha (Consultada: Septiembre 2014). de nacimiento se consideraron que no aportaban informacin adicional til para uso secundario. Por esta [3] Somolinos R, Muoz A, Hernando ME, et al. EHR razn, slo se valoraron tres opciones para el cuasi- Anonymising System Based on the ISO/EN 13606 Norm. IFMBE Proceedings. XIII Mediterranean Conference on identificador fecha de nacimiento: ao, grupos de 5 aos Medical and Biological Engineering and Computing 2013 y grupos de 10 aos. Tambin hay que indicar que para (MEDICON 2013), Sevilla, 25-28 septiembre de 2013, pp este cuasi-identificador, en los tres casos, se han juntado 1302-1305. (ISBN: 978-3-319-00846-2). todos los registros de 80 o ms aos en un nico grupo. [4] Meystre SM, Friedlin FJ, South BR, et al. Automatic de- Combinando las posibilidades de ambos cuasi- identification of textual documents in the electronic health identificadores se obtuvieron seis configuraciones record: a review of recent research. BMC Med Res posibles. A partir de los datos de la pirmide de Methodol, vol. 10, pp. 70. 2010. poblacin, y suponiendo una distribucin uniforme entre [5] Pirmide de poblacin de Fuenlabrada. Pgina web del los 5 aos de cada grupo de la pirmide, se calcul el ayuntamiento de Fuenlabrada. http://ayto- valor de k para cada una de las configuraciones. En la fuenlabrada.es/recursos/doc/SC/Estadisticas_y_territorio/36 Tabla 2 se muestran las seis configuraciones posibles 781_1111112013133426.pdf (Consultada: Septiembre 2014).