En 2024, la CNIL a publié ses premières recommandations pour encadrer le développement et l’usage des systèmes d’intelligence artificielle, en matière de protection des données personnelles. Elle apporte des éclaircissements aux entreprises et organisations sur la gestion des bases de données et l’utilisation de l’IA, tout en insistant sur l’importance de l’intérêt légitime et des garanties à mettre en place pour préserver les droits des individus.

 

À l’issue d’une consultation publique initiée fin 2023, la CNIL a publié en avril 2024 ses premières recommandations sur le développement et le déploiement des systèmes d’IA. Une deuxième salve de fiches pratiques a suivi quelques mois plus tard, en juin 2024. La CNIL souhaite en effet apporter aux entreprises et organisations des clarifications à propos du développement des systèmes d’intelligence artificielle et la constitution de bases de données utilisées pour leur apprentissage, qui impliquent des données personnelles.

 

Quels systèmes d’IA sont concernés ?

 

La définition que donne la CNIL d’un système d’IA est proche de celle fournie par le règlement européen sur l’IA (AI Act). Un système d’IA est « un système automatisé conçu pour fonctionner à différents niveaux d’autonomie, qui peut faire preuve d’une capacité d’adaptation après son déploiement et qui, pour des objectifs explicites ou implicites, déduit, à partir des données d’entrée qu’il reçoit, la manière de générer des résultats tels que des prédictions, du contenu, des recommandations ou des décisions qui peuvent influencer les environnements physiques ou virtuels ».

 

En pratique, les systèmes d’IA concernés par les fiches pratiques de la CNIL incluent les systèmes fondés sur l’apprentissage automatique (supervisé, non supervisé, par renforcement) et ceux fondés sur la logique et les connaissances (bases de connaissance, moteurs d’inférence et de déduction, raisonnement symbolique, systèmes experts, etc.), ainsi que les approches hybrides.

 

Dans ses fiches, la CNIL considère que la mise en place d’un système d’IA reposant sur l’apprentissage automatique nécessite la succession de deux phases distinctes :

  • La phase de développement : elle consiste à concevoir, développer et entraîner un système d’IA,
  • La phase de déploiement : elle consiste à mettre en usage le système d’IA développé lors de la première phase.

IA : les phases du traitement concernées © CNIL

 

La question centrale des données personnelles

 

S’il est certain qu’aucune donnée personnelle n’est présente dans les bases de données utilisées, les fiches ne s’appliquent pas. En revanche, s’il est certain que des données personnelles sont présentes dans les bases, les fiches de la CNIL sont applicables. C’est le cas notamment des systèmes d’IA développés à partir de vidéos ou d’images de personnes, d’enregistrements de voix, de données personnelles structurées, etc. Le RGPD s’applique également aux jeux de données dits « mixtes », c’est-à-dire comprenant des données personnelles et non personnelles, quand ces jeux sont inextricablement liés.

 

Pour certaines bases de données, il est possible que des données personnelles soient présentes, mais sans certitude absolue. Ce cas de figure survient quand la collecte de données personnelles n’est pas expressément souhaitée. Il peut alors s’agir de la présence résiduelle de personnes ou de plaques d’immatriculation dans des images, d’occurrences de noms, prénoms, adresses, etc. dans des données textuelles de types commentaires ou prompt. Dans ce cas, la CNIL prévoit que, sous réserve d’avoir anonymisé les données personnelles originales et pour les opérations de traitement ultérieures à cette suppression, les données perdent leur caractère personnel et les fiches ne s’appliquent plus.

 

L’intérêt légitime au cœur des recommandations de la CNIL

 

La CNIL consacre sa huitième fiche à l’intérêt légitime qui est, rappelons-le, l’une des six bases légales prévues par l’article 6 du RGPD. L’intérêt légitime est souvent adapté pour fonder le développement, par des organismes privés, de systèmes d’IA, notamment quand la base de données utilisée ne repose pas sur le consentement des personnes (souvent complexe à collecter à grande échelle ou en cas de collecte indirecte). Concernant les organismes publics, l’intérêt légitime peut être utilisé lorsqu’une autorité publique souhaite développer un système d’IA uniquement lorsque les activités visées ne sont pas strictement nécessaires à l’exercice de ses missions spécifiques, mais pour d’autres activités légalement mises en œuvre (comme les traitements de gestion des ressources humaines).

 

Le recours à l’intérêt légitime est toutefois soumis à trois conditions :

  • L’intérêt poursuivi par l’organisme doit être « légitime »,
  • Le traitement envisagé est justifié par la condition de « nécessité »,
  • Le traitement ne doit pas porter une atteinte disproportionnée aux droits et intérêts des personnes dont les données sont traitées, compte tenu de leurs attentes raisonnables. Une « mise en balance » des droits et intérêts en cause doit donc être réalisée au regard des conditions concrètes de sa mise en œuvre.

 

« Le responsable du traitement est tenu d’examiner la conformité de son traitement à ces trois conditions. À cette fin, il est recommandé, à titre de bonne pratique, de la documenter.  En tout état de cause, lorsqu’une AIPD (Analyse d’Impact relative à la Protection des Données) est nécessaire, les garanties apportées pour limiter l’atteinte susceptible d’être portée aux droits des personnes doivent y être décrites par le responsable de traitement », peut-on lire dans la fiche n°8 de la CNIL.

 

Intérêt légitime et open source

 

Toujours dans la fiche n°8, la CNIL fait un focus spécial sur la base légale de l’intérêt légitime pour la diffusion des modèles en source ouverte. La CNIL rappelle en effet que la diffusion en source ouverte peut présenter des bénéfices importants pour le responsable du traitement, ce dernier pouvant profiter des contributions de la communauté ou encore augmenter l’attrait de son modèle en facilitant son adoption par des acteurs tiers.

 

La diffusion en source ouverte peut également avoir des avantages pour les personnes dont les données sont utilisées en phase de développement ou de déploiement, ainsi que pour les utilisateurs du modèle. Cette diffusion peut notamment permettre :

  • D’augmenter la transparence du modèle et de son fonctionnement, et ainsi l’exercice des droits des personnes,
  • De vérifier les capacités et limitations du modèle (comme sa performance théorique sur les données d’entraînement ou d’autres jeux de données),
  • De vérifier ou constater la présence de biais afin de les réduire ou de les corriger,
  • De détecter et corriger les vulnérabilités du modèle pour en améliorer la sécurité.

 

Les bénéfices permis par la diffusion d’un modèle en source ouverte peuvent être pris en compte dans l’évaluation de l’intérêt légitime du responsable du traitement en phase de développement. Malgré tout, la diffusion en source ouverte peut présenter des risques potentiellement significatifs :

 

  • Concernant la réutilisation illicite ou malveillante du modèle : la multiplicité des réutilisations possibles et non maîtrisées, du fait même de la diffusion en source ouverte des modèles, risque de conduire à des utilisations illicites en phase de déploiement,
  • Concernant la sécurité du modèle : il existe des risques d’exploitation par les attaquants des failles du modèle, rendues apparentes, mais aussi des risques en matière de traçabilité, de détournement des modèles diffusés en source ouverte compte tenu de la facilité accrue de supprimer ou de contourner les filtres et sécurités ajoutés aux systèmes.

 

De ce fait, la diffusion en source ouverte ne pourra être prise en compte dans l’évaluation de l’intérêt légitime ou comme garantie supplémentaire que sous réserve de la mise en place de certaines garanties appropriées. La CNIL recommande ainsi la mise en place des mesures suivantes :

 

  • S’assurer que les éléments qui font l’objet de l’ouverture permettent un niveau suffisant de transparence, un contrôle effectif par les pairs et une contribution réelle à la communauté open source ou à la recherche scientifique, en prévoyant, a minima, la publication d’éléments tels que les paramètres du modèle, le code nécessaire pour l’utiliser, des informations sur son architecture, ses performances, et ses limitations, et une fiche descriptive des données utilisées pour l’apprentissage, l’ajustement ou l’amélioration du modèle.

 

La publication de la base de données d’apprentissage permettrait un contrôle accru par les pairs, notamment pour la détection et la correction des éventuels biais. Cela n’est toutefois possible qu’à condition que cela ne porte pas une atteinte disproportionnée aux droits et libertés des personnes, notamment en mettant en place des mesures nécessaires (sécurisation des données comme l’anonymisation / pseudonymisation des données, information accrue des personnes, mesures permettant d’assurer l’exercice des droits le long de la chaîne des acteurs, etc.).

 

  • Mettre en place des mesures :
  • Juridiques (par exemple, des licences restrictives) permettant de limiter la réutilisation des modèles, ainsi que des mesures techniques (par ex. tatouage numérique) permettant de tracer et de contrôler certaines réutilisations.
  • Techniques de sécurisation des données telles que l’anonymisation ou la pseudonymisation des données ou la réalisation d’analyses pour mesurer les risques de régurgitation ou de fuite des données. Pour mémoire, la solution deepeo d’Infotel est un des rares systèmes sur le marché capables de nettoyer et d’anonymiser les données des entreprises.
  • Garantissant l’information des personnes et l’exercice des droits telles qu’une information accrue des personnes ou des mesures techniques permettant d’assurer la transmission de l’exercice des droits le long de la chaîne des acteurs.

 

 

La CNIL a donc établi ses premières recommandations sur le développement et le déploiement des systèmes d’IA, en mettant l’accent sur la gestion des données personnelles. Ses fiches pratiques visent à clarifier les obligations des entreprises, notamment en matière de bases de données utilisées pour l’apprentissage des systèmes d’IA. Elle souligne l’importance de l’intérêt légitime comme base légale, tout en recommandant des mesures pour garantir la transparence, la sécurité et la conformité aux droits des personnes, en particulier pour les modèles en source ouverte.

Pour aller plus loin, découvrez comment notre solution logicielle deepeo peut vous aider grâce à ses fonctionnalités

Suppression des données

Supprimez toutes les données relatives à la personne concernée que vous n’avez plus de raison commerciale ou juridique de conserver, conformément aux règles sur les données personnelles..

 

Anonymiseur de Données

Rendre anonymes les données d’une personne concernée au lieu de les supprimer.

Restez en veille, faites un pas de plus vers la gestion de données en vous inscrivant à notre newsletter!