Ir al contenido principal

Gestión y depósito de datos científicos: Anonimiza tus datos

Información sobre los datos de investigación, gestión y herramientas

Legislación en materia de protección de datos personales

La legislación relativa a la protección de datos incluye:

Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y garantía de los derechos digitales (LOPD)

REGLAMENTO (UE) 2016/679 DEL PARLAMENTO EUROPEO Y DEL CONSEJO de 27 de abril de 2016 relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos, RGPD)

Cabe mencionar que los datos anónimos o anonimizados, es decir, los datos que no permiten la identificación de individuos, no están sujetos a la legislación sobre protección de datos.

Recursos

Recursos de interés:

Anonimiza tus datos

¿Qué son los datos personales?

Según el Reglamento General de la Protección de Datos (RGPD) un dato personal es toda información sobre una persona física identificada o identificable, como por ejemplo:

  • Nombre
  • Número de identificación
  • Datos de localización
  • Identificador en línea
  • Elementos propios de la identidad física, fisiológica, genética, psíquica, económica, cultural o social de dicha persona

Además, la Ley Orgánica de Protección de datos (LOPD) identifica una serie de datos que requieren un tratamiento especial:

  • Datos sobre ideología, afiliación sindical, religión, orientación sexual, creencias u origen racial o étnico del individuo (LOPD, artículo 9)
  • Tratamiento de datos de naturaleza penal (LOPD, artículo 10)

El tratamiento de estos datos está restringido salvo consentimiento explícito de la persona interesada o por causa justificada. 

Principios generales para el tratamiento de datos personales
  • Exactitud de los datos. Los datos han de ser verdaderos.
  • Deber de confidencialidad. La persona que trate los datos ha de guardar secreto sobre los mismos
  • Tratamiento basado en el consentimiento del afectado. Los datos recogidos, así como los usos que se hagan de estos datos, han de ser informados y consentidos por la persona interesada de manera libre e inequívoca.
  • Consentimiento de los menores de edad. Si se trata de personas menores de edad, existen condiciones especiales.
  • Protección de datos desde el diseño y por defecto. El diseño de la recogida de datos debe tener la protección de datos desde el comienzo.
  • Limitación del plazo de conservación. No hay que conservar los datos personales más tiempo del estrictamente necesario
  • Garantía de seguridad. La persona que trate los datos ha de garantizar su seguridad.
Derechos de las personas interesadas

La LOPD recoge entre otros los siguientes derechos para las personas interesadas, que podrán ser ejercidos en cualquier momento:

  • Derecho a la transparencia e información. Derecho a conocer qué datos personales se han recogido y qué usos se dan. 
  • Derecho de acceso. Derecho de acceso a los datos personales.
  • Derecho de rectificación. Derecho a la modificación, corrección y actualización de los datos.
  • Derecho de supresión. Derecho a la eliminación de los datos.
  • Derecho a la limitación del tratamiento. Restricción de los usos permitidos.
  • Derecho a la portabilidad. Derecho al intercambio de datos personales por interés de la persona.

 

¿Qué son datos anónimos?

Los datos anónimos son datos que no guardan relación con una persona física identificada o identificable. Por otra parte, los datos anonimizados son datos personales convertidos en anónimos de forma que el interesado no sea identificable.

Los datos anónimos y los datos anonimizados no son datos personales y, por tanto, no están sujetos a la protección de datos personales (RGPD, considerando 26).

La anonimización es un proceso que trata de encontrar el equilibrio adecuado entre la reducción del riesgo de reidentificación (por debajo de un determinado umbral) y el mantenimiento de la utilidad de un conjunto de datos para los fines previstos.

Aunque una anonimización del 100% es el objetivo más deseable desde el punto de vista de la protección de los datos personales, en algunos casos no es posible y debe contemplarse un riesgo residual de reidentificación. Cualquier proceso sólido de anonimización evaluará el riesgo de reidentificación, que debe gestionarse y controlarse a lo largo del tiempo  

Seudonimización versus anonimización

El RGPD diferencia la anonimización de la seudonimización:

  • Anonimización. Proceso irreversible en el que los individuos no pueden ser identificados o reidentificados.
  • Seudonimización. Los datos no pueden atribuirse a un individuo pero existe información adicional almacenada en un lugar seguro que podría utilizarse para identificar a los individuos.

Los datos seudonimizados sí se consideran datos personales y es necesario tomar las medidas de protección necesarias.

Equívocos relacionados con la protección de datos personales

La Agencia Española de Protección de Datos ha elaborado una guía con los 10 malentendidos relacionados con la anonimización:

  1. La seudonimización NO es lo mismo que la anonimización.
  2. El cifrado NO es anonimización
  3. NO todos los datos pueden anonimizarse. 
  4. La anonimización NO es permantente. Puede ser necesario revisar las medidas de anonimización a lo largo del tiempo.
  5. El riesgo de reidentificación NUNCA es cero
  6. La anonimización NO es un concepto binario y puede medirse
  7. La anonimización NO debe ser totalmente automática
  8. La anonimización NO inutiliza los datos
  9. Los procesos de anonimización NO son siempre iguales para todos los proyectos
  10. NO hay riesgo o interés en los datos personales
¿Qué es la k-anonimidad?

La k-anonimidad es una herramienta que nos ayuda a disminuir el riesgo de reidentificación de los individuos a través de sus cuasi-identificadores. La K-anonimidad permite cuantificar hasta qué punto se preserva la anonimidad de los sujetos presentes en un conjunto de datos en el que se han eliminado los identificadores.

Por ejemplo, en determinados conjuntos poblacionales, podría reidentificarse ciertos individuos al combinar cuasi-identificadores como el género, la fecha de nacimiento o el código postal

Fuente: Manolis Terrovitis - Amnesia Webinar June 2020

Según la Agencia Española de Protección de Datos, "se dice que un individuo es k-anónimo dentro del conjunto de datos en el que se encuentra incluido si, y sólo si, para cualquier combinación de los atributos cuasi-identificadores asociados, existen al menos otros k − 1 individuos que comparten con él los mismos valores para esos mismos atributos."

Es decir, la k-anonimidad permite la creación de grupos de individuos que no se diferencian entre sí en una serie de cuasi-identificadores:

Fuente: Manolis Terrovitis - Amnesia Webinar June 2020

Los métodos más comunes para lograr cierta k-anonimidad son la generalización  a través de jerarquías o, en su caso, la supresión de datos.

Qué k-anonimidad es la adecuada?

La Agencia Española de Protección de Datos recomienda un umbral entre 3 y 5. Es necesario analizar en cada caso dependiendo del tamaño de la población identificable, las variables escogidas, etc.

Herramientas recomendadas por la Agencia Española de Protección de Datos

La guía básica de anonimización, elaborada por Autoridad Nacional de Protección de Datos de Singapur y traducida por la Agencia Española de Protección de Datos recomienda las siguientes herramientas:

  • Amensia. La herramienta de anonimización de Amnesia es un software utilizado localmente para anonimizar datos personales y confidenciales. Actualmente admite garantías de k-anonimidad y km-anonimidad.
  • ARGUS. La herramienta utiliza una amplia gama de diferentes métodos de anonimización estadística, como la recodificación global (agrupación de categorías), la supresión local, la aleatorización, la adición de ruido, la micro agregación, la codificación superior e inferior. También se puede utilizar para generar datos sintéticos.
  • ARX. ARX es un software de código abierto para anonimizar datos personales confidenciales-
  • Eclipse. Eclipse es un conjunto de herramientas de Privacy Analytics que facilita la anonimización de los datos de salud.
  • sdcMicro. Paquete de R que se utiliza para generar microdatos anonimizados, como archivos de uso público y científico. Admite diferentes métodos de estimación de riesgos.
  • UTD Anonymisation Toolbox. UT Dallas Data Security and Privacy Lab compiló varias técnicas de anonimización en una caja de herramientas para uso público.
Herramientas basadas en IA

Además, existen herramientas que usan la inteligencia artificial (IA) y el procesamiento del lenguaje natural (LNP) para la anonimización automática:

  • Presido (Microsoft)
  • Scubadub (librería de Python)

Es importante recordar que la Agencia Española de Protección de Datos remarca la importancia de la intervención humana en todos los procesos de anonimización y que la vulneración de los derechos de las personas interesadas en materia de protección de datos personales puede constituir infracciones graves o muy graves (Ley Orgánica de la Protección de Datos Personales).

¿Qué es Amnesia?

Amnesia es una aplicación de software de código abierto elaborado en el marco del proyecto OpenAIRE. Está destinada a la anonimización de datos personales.

Amnesia permite filtrar datos, crear máscaras y jerarquías de generalización La plataforma de Amnesia cuenta además con recursos y tutoriales.

Ejemplo de anonimización

 

Recursos