IA et RGPD : sont-ils compatibles ?

Dans le processus de mise en conformité des IA avec le RGPD, quelle part d’incertitude faut-il accepter ? La question se pose à la lecture des sept recommandations que la CNIL vient de publier.

L’une d’entre elles est relative à la protection des données dans la conception des systèmes d’IA. Elle traite notamment du principe de minimisation. C’est-à-dire l’usage de données « adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités […] ».

Le respect de ce principe « s’apprécie en fonction des connaissances scientifiques disponibles », affirme la CNIL. Cela implique, au stade de l’entraînement, de tenir compte de l’incertitude éventuelle sur les performances de telle ou telle architecture…

En outre, si le choix des algorithmes peut favoriser la minimisation, il faut aussi prendre en compte les protocoles d’apprentissage, souligne la commission. Plus globalement, si une méthode n’utilisant pas d’apprentissage machine permet de remplir les objectifs poursuivis, il faut la privilégier.

9 critères pour analyser l’impact

Des incertitudes, il en existe aussi à propos des AIPD (analyses d’impact relatives à la protection des données ; PIA en anglais).

Le RGPD énonce 9 critères pouvant entraîner la réalisation de telles analyses. L’« usage innovant » est l’un d’entre eux. Là aussi, il doit s’apprécier au regard de l’état des connaissances technologiques. Et non uniquement du contexte de traitement.

L’utilisation de systèmes d’IA ne relève pas systématiquement de l’usage innovant ou de l’application de nouvelles solutions technologiques ou organisationnelles. C’est, explique la CNIL, le cas de ceux qui utilisent des « techniques d’IA validées expérimentalement depuis plusieurs années et éprouvées en conditions réelles ».

Au contraire, peuvent relever de la nouveauté les systèmes d’IA qui utilisent « des techiques encore nouvelles, telles que l’apprentissage profond » et dont on commence juste à identifier les risques, sans encore bien les comprendre ou les maîtriser.

Autre critère pouvant mener à la réalisation d’une AIPD : l’existence d’un traitement « à grande échelle ». Là aussi, pour des IA, ce n’est pas systématique. N’entrerait par exemple pas dans ce cadre une base de données contenant des millions d’images, mais dont seul un nombre limité présente des individus reconnaissables.

IA à usage général : identifier les usages

Pour ce qui est des modèles de fondation et des systèmes d’IA à usage général, il est difficile d’identifier leurs usages de manière exhaustive. Partant, la CNIL estime qu’une AIPD est nécessaire dans la majorité des cas dès lors qu’il existe un traitement de données.

Par rebond, se pose la question de la finalité des systèmes d’IA à usage général : dans quelle mesure peut-on considérer qu’elle est déterminée dès la phase de développement ? D’après la CNIL, c’est possible si elle se réfère cumulativement :

– Au « type » de système développé (LLM, générateur de son, vision par ordinateur…)
– Aux fonctionnalités et capacités techniquement envisageables

Ces deux critères permettent de garantir le respect du principe de finalité. Tout en tenant compte du fait que le responsable de traitement ne peut pas définir, au moment du développement, l’ensemble des applications futures.

Exemples de finalités explicites et déterminées :

– LLM capable de répondre à des questions, de générer du texte en fonction de contexte, d’effectuer des traductions et/ou des résumés…
– Modèle de reconnaissance vocale capable d’identifier un locuteur, sa langue, son âge…
– Modèle de vision par ordinateur capable de détecter des objets, des piétons, du mobilier urbain…

Bases légales : l’explication de texte de la CNIL

Au-delà de la finalité, il faut définir une base légale de traitement. Le consentement est difficilement applicable quand on collecte des données accessibles en ligne ou qu’on réutilise une base ouverte. On peut alors éventuellement invoquer la mission d’intérêt public, l’exécution d’un contrat, une obligation légale… ou l’intérêt légitime.

La CNIL exemplifie ce dernier point. Il ne serait pas valable pour une entreprise qui compterait prédire le profil psychologique d’une personne à partir de données accessibles en ligne susceptibles de la concerner. Motif : intérêt commercial vraisemblablement insuffisant au regard des intérêts, droits et libertés de la personne concernée.L’intérêt légitime serait en revanche invocable par un organisme constituant, à partir de commentaires publics librement accessible sur Internet, une base de données destinée à prévoir l’appréciation d’œuvres d’art par le grand public.

La CNIL entend publier une fiche consacrée à la mobilisation de l’intérêt légitime. Elle en prévoit d’autres sur la réutilisation de données personnelles, ainsi que leur distribution et leur représentativité. Les mesures spécifiques au déploiement d’IA génératives fera aussi l’objet d’une fiche.

Illustration © portalgda viaVisualhunt / CC BY-NC-SA