L’apprentissage antagoniste explore les vulnérabilités des modèles d’intelligence artificielle et les moyens de s’en défendre. Quelques explications à l’heure du Sommet pour l’action sur l’intelligence artificielle.
Peut-on manipuler une intelligence artificielle (IA) pour qu’elle accomplisse l’inverse de ce pour quoi elle a été conçue ? C’est l’objectif de l’apprentissage antagoniste, une discipline qui explore à la fois les vulnérabilités des modèles d’IA et les moyens de s’en défendre. Que ce soit pour contourner un filtre antispam ou échapper à la reconnaissance faciale, les exemples abondent.
Mais quelles sont ces attaques qui ciblent les modèles d’IA, et comment fonctionnent-elles ? Explorons l’envers du décor.
Le contournement antispam est l’un des exemples les plus simples et anciens d’apprentissage antagoniste. Pour éviter que leurs messages soient automatiquement supprimés, les auteurs de spams vont dissimuler les mots suspects dans leurs textes en les déformant à travers des fautes d’orthographe ou des caractères spéciaux (« cadeau » deviendrait « ƈąɗẹąս »). Ainsi, ignorant les mots inconnus, les algorithmes ne verront que les « bons » mots et passeront à côté des termes douteux.
Une autre menace après l’entraînement est l’extraction de modèle. Elle consiste à arracher d’une IA les données sur lesquelles elle a été entraînée, que ce soit pour la copier ou, plus grave, pour retrouver des informations personnelles et privées, comme des renseignements médicaux ou une adresse. Cela est particulièrement préoccupant pour l’utilisateur qui n’est pas au courant de ce genre de problème et fait aveuglément confiance à une IA telle que ChatGPT.
Avec chaque attaque naissent des stratégies de défense. Bien que les modèles deviennent de plus en plus fiables, les attaques se font de plus en plus complexes et difficiles à déjouer. Savoir cela nous incite à être plus prudents avec nos données personnelles et les résultats d’une IA, en particulier les plus invisibles tels que les algorithmes de recommandation.