Randomisation ou généralisation ? Corrélation, inférence ou individualisation ? Voici quelques mots clés pour ne pas se tromper lors du choix d’une solution d’anonymisation des données comme Deepeo.

 

Les solutions d’anonymisation permettent de réaliser, dans un jeu de données, un traitement permettant de rendre impossible toute identification d’une personne par quelque moyen que ce soit et de manière irréversible.

 

L’un des principaux avantages de l’anonymisation est de faciliter la réutilisation du jeu de données concerné, réutilisation qui aurait été impossible sans elle compte tenu du caractère personnel des données exploitées. L’anonymisation permet aussi de conserver des données au-delà de leur durée initiale puisque plus aucun article du RGPD ne s’applique.

 

Pour qu’un processus d’anonymisation soit efficace, la solution utilisée doit permettre d’adresser les points suivants :

 

–        D’identifier les informations à conserver selon leur pertinence

–        De supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre une ré-identification aisée des personnes (l’âge d’un individu peut permettre de ré-identifier très facilement une personne centenaire par exemple)

–        De distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables)

–        De définir la finesse idéale et acceptable pour chaque information conservée

 

Deux techniques principales d’anonymisation : la randomisation et la généralisation

 

Ces questions préalables facilitent par la suite le choix du procédé d’anonymisation à appliquer, qui peut être soit la randomisation, soit la généralisation. La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu’elles soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence (capacité à déduire, de façon quasi certaine, des informations sur une personne).

 

Plusieurs techniques de randomisation existent. La première consiste à permuter, par exemple, les données relatives à la date de naissance des personnes de manière à altérer la véracité des informations contenues dans une base de données. Une autre technique est d’ajouter du « bruit » à la base de données en modifiant, si l’on garde la date de naissance des personnes comme référence, l’âge des individus (par exemple, ajout ou soustraction de 10 ans à l’année de naissance).

 

La généralisation consiste, elle, à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Par exemple, la généralisation peut consister, dans un fichier contenant la date de naissance des personnes, à remplacer cette information par la seule année de naissance, ou une fourchette (par exemple : individus entre 30 et 40 ans).

 

La généralisation limite également les possibles corrélations du jeu de données avec d’autres. La corrélation consiste à relier entre eux des ensembles de données distincts concernant un même individu. Par exemple, une base de données cartographique comportant les adresses de domiciles de particuliers ne peut être considérée comme anonyme si d’autres bases de données, qui existent par ailleurs, contiennent ces mêmes adresses avec d’autres données permettant d’identifier les individus.

 

Comment s’assurer qu’un processus d’anonymisation est conforme ?

 

Les autorités de protection des données européennes définissent trois critères permettant de s’assurer qu’un jeu de données est véritablement anonyme. Deux de ces critères ont été décrits précédemment : la corrélation et l’inférence. Le troisième critère est l’individualisation qui peut permettre d’isoler un individu dans un jeu de données. Par exemple, dans une base de données de CV, si les nom et prénoms d’une personne sont les seuls à être remplacés par un numéro, alors il y a un risque que cette personne puisse être individualisée et donc identifiée. Dans le cas présent, la base de données concernée est considérée comme pseudonymisée et non comme anonymisée.

 

Pour mémoire, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel…). La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces : les données concernées conservent donc un caractère personnel. L’opération de pseudonymisation est par ailleurs réversible, contrairement à l’anonymisation.

 

Le cas particulier de l’open data

 

Quand une administration souhaite diffuser des données, en les publiant en ligne par exemple, leur anonymisation préalable est une obligation légale qui s’impose à elles par principe, en application du Code des relations entre le public et l’administration, CRPA (article L. 312-1-2). Ainsi, lorsque les documents administratifs comportent des données personnelles, ils ne peuvent être rendus publics qu’après avoir fait l’objet d’un traitement permettant de rendre impossible l’identification de ces personnes.

 

Il existe cependant trois exceptions à cette règle :

–        Quand l’administration est dispensée de cette obligation par une disposition législative contraire, c’est-à-dire par un texte de loi autorisant la publication intégrale du document en question

–        Lorsque le document dont la diffusion est envisagée figure dans la liste du Code des relations entre le public et l’administration (art. D. 312-1-3). Cet article énumère un certain nombre de catégories de documents susceptibles d’être rendus publics sans anonymisation préalable (organigrammes et annuaires de l’administration, répertoire national des associations, répertoire des entreprises et de leurs établissements, résultats obtenus par les candidats aux examens et concours administratifs…)

–        Quand les personnes dont les données personnelles figurent dans le document ont donné leur accord.

 

À défaut de remplir parfaitement les trois critères (corrélation, inférence et individualisation), le responsable de traitement qui souhaite rendre un jeu de données anonyme doit démontrer, via une évaluation approfondie, que le risque d’identification d’une personne à l’aide de moyens raisonnablement susceptibles d’être utilisés, par lui-même ou par toute autre personne, est négligeable. Le recours à une solution d’anonymisation comme Deepeo lui facilite grandement la tâche.

Pour aller plus loin, découvrez comment notre solution logicielle deepeo peut vous aider grâce à ses fonctionnalités

Suppression des données

Supprimez toutes les données relatives à la personne concernée que vous n’avez plus de raison commerciale ou juridique de conserver, conformément aux règles sur les données personnelles..

 

Anonymiseur de Données

Rendre anonymes les données d’une personne concernée au lieu de les supprimer.

Restez en veille, faites un pas de plus vers la gestion de données en vous inscrivant à notre newsletter!