Fortement consommateurs de données personnelles pour entraîner leurs modèles, les projets d’intelligence artificielle doivent respecter un certain nombre de règles tout au long de leurs étapes, depuis la collecte des données jusqu’aux décisions entièrement automatisées.

 

Estimé à 136,6 milliards de dollars en 2022, le marché mondial de l’intelligence artificielle devrait atteindre un volume d’affaires de 1 811,8 milliards de dollars en 2030, suivant un taux de croissance annuel composé de 38,2 % sur la période, selon les chiffres du cabinet Grand View Research.

Or, les différentes technologies de l’intelligence artificielle (Deep Learning, Machine Learning, Natural Language Processing, Machine Vision…) sont extrêmement consommatrices de données personnelles. Un cadre doit donc être fixé afin que ces données soient utilisées dans le respect de la réglementation, notamment du RGPD.

 

Un projet de règlement européen

En avril 2021, la Commission européenne a publié son projet de règlement en faveur d’une intelligence artificielle digne de confiance, garantissant la sécurité et les droits fondamentaux des citoyens et des entreprises, tout en renforçant l’adoption de l’IA. Les nouvelles règles seront directement applicables dans tous les États membres. Elles suivent une approche fondée sur les risques, classés de « minimes » à « inacceptables ».

En réaction à ce projet de règlement européen, la CNIL et ses homologues européens ont pris position à travers la publication d’un avis. Les autorités de protection des données ont notamment apprécié l’approche retenue par la Commission européenne basée sur les risques.

Celle-ci doit permettre de ne focaliser l’effort de régulation que sur un volume limité de systèmes d’IA dit « à haut risque » pour les droits fondamentaux, comme les technologies d’IA utilisées dans l’éducation et la formation professionnelle, dans le secteur de l’emploi et de la gestion de la main d’œuvre, dans l’évaluation du risque de crédit ou dans le maintien de l’ordre.

 

Définir une finalité et distinguer clairement les phases d’apprentissage et de production

La CNIL rappelle par ailleurs que, pour respecter le RGPD, un système d’intelligence artificielle reposant sur l’exploitation de données personnelles doit toujours être développé, entraîné et déployé avec une finalité bien définie. Cet objectif doit être déterminé dès la conception du projet, être légitime (compatible avec les missions de l’organisme) et être explicite. C’est la finalité qui permet de s’assurer que seules les données pertinentes sont utilisées et que la durée de conservation retenue est adaptée.

Par ailleurs, la mise en place d’un système d’IA reposant sur l’apprentissage automatique (machine learning) nécessite la succession de deux phases : la phase d’apprentissage et la phase de production. Du point de vue de la protection des données, ces deux étapes ne remplissent pas le même objectif et doivent donc être séparées. C’est particulièrement le cas dans les systèmes d’apprentissage dit « en continu » pour lesquels les données utilisées lors de la phase de production le sont également pour améliorer le système, procédant ainsi d’une boucle de rétroaction complète.

 

Constituer proprement ses bases de données

Les systèmes d’IA, et en particulier ceux reposant sur l’apprentissage automatique, nécessitent l’utilisation d’importants volumes de données afin d’entraîner les modèles. Pour la constitution de leurs bases de données, les entreprises peuvent procéder à une collecte spécifique de données personnelles à cette fin ou réutiliser des données déjà collectées pour une autre finalité. Dans ce dernier cas, se pose la question de la compatibilité des finalités pour lesquelles les données ont été initialement collectées et des conditions dans lesquelles la base initiale a été constituée.

Dans tous les cas, la constitution de bases de données personnelles, qui reposent bien souvent sur des durées de conservation des données longues, ne peut se faire au détriment des droits des personnes concernées. En particulier, elle doit s’accompagner de mesures d’information soit préalablement à la collecte, soit dans un délai d’un mois après la réception des bases par les tiers.

 

Profilages et décisions entièrement automatisées

Le profilage est un traitement utilisant les données personnelles d’un individu en vue d’analyser et de prédire son comportement, comme par exemple déterminer ses performances au travail, sa situation financière, sa santé, ses préférences, ses habitudes de vie, etc. Une décision entièrement automatisée est quant à elle une décision prise à l’égard d’une personne, par le biais d’algorithmes appliqués à ses données personnelles, sans qu’aucun être humain n’intervienne dans le processus.

Les deux notions sont intimement liées : profiler une personne conduit fréquemment à prendre une décision à son sujet et de nombreuses décisions entièrement automatisées sont prises sur la base d’un profilage. L’établissement de profils et le recours à des algorithmes appliqués à des jeux de données personnelles peuvent ainsi mener à la prise de décisions entièrement automatisées, dans des domaines aussi divers que la santé, l’éducation, l’assurance, la protection sociale, la lutte contre la fraude, etc.

Selon l’article 22 du RGPD, les personnes ont le droit de ne pas faire l’objet d’une décision entièrement automatisée – souvent basée sur du profilage – qui a un effet juridique (une décision produit un effet juridique lorsqu’elle impacte les droits et libertés d’une personne) ou l’affecte sensiblement. Un organisme peut néanmoins automatiser ce type de décision si la personne a donné son consentement explicite, si la décision est nécessaire à un contrat conclu avec l’organisme ou si la décision automatisée est autorisée par des dispositions légales spécifiques.

Dans ces cas, il doit être possible pour la personne d’être informée qu’une décision entièrement automatisée a été prise à son encontre, de demander à connaitre la logique et les critères employés pour prendre la décision, de contester la décision et d’exprimer son point de vue, et de demander l’intervention d’un être humain qui puisse réexaminer la décision.

Dans son projet de guide sur le recrutement, la CNIL analyse l’utilisation de certains outils de classement automatique, voire d’évaluation des candidatures. De telles solutions peuvent conduire à prendre une « décision fondée exclusivement sur un traitement automatisé » par conception lorsque des candidatures sont écartées, ou lorsque des candidatures sont reléguées à un plan secondaire non contrôlé par l’humain par faute de temps par exemple.

En raison des risques associés à ce mode de prise de décision, souvent opaque pour les candidats, de tels procédés sont en principe interdits par le RGPD. Leur utilisation n’est admise que dans des conditions exceptionnelles, et est soumise à la mise en œuvre de garanties spécifiques, destinées à assurer les droits et les intérêts des candidats.

Comme nous le constatons, l’intelligence artificielle pose des questions cruciales et nouvelles, tout particulièrement au regard de la protection des données personnelles. Les entreprises doivent donc – à travers une veille active – surveiller attentivement cette discipline et mettre en place les actions adéquates afin de garantir les droits des personnes.