GPT-4 : l'IA d'OpenAI évolue, mais devient-elle plus vulnérable ? 🤖📈

Des recherches soutenues par Microsoft ont montré que les utilisateurs peuvent tromper le modèle IA GPT-4 pour obtenir des résultats biaisés et leaker des informations privées.

Selon une étude (en anglais) menée par des chercheurs de l’université de l’Illinois Urbana-Champaign, de l’université de Stanford, de l’université de Californie à Berkeley, du Center for AI Safety et de Microsoft Research, le grand modèle de langage GPT-4 d’OpenAI obtient un score de fiabilité supérieur à celui de GPT-3.5. Néanmoins, même si le modèle IA GPT-4 est plus fiable que son prédécesseur, il serait également plus vulnérable au jailbreaking et aux problèmes de partialité.

GPT-4 : une précision qui peut parfois lui jouer des tours…

Durant l’étude, les chercheurs ont constaté que le modèle IA GPT-4 protégeait globalement mieux les informations privées, qu’il évitait les résultats toxiques tels que les informations biaisées et qu’il résistait mieux aux attaques adverses. Toutefois, le grand modèle de langage d’OpenAI peut parfois également être amené à ignorer les mesures de sécurité et à divulguer des informations personnelles et l’historique des conversations. Les chercheurs ont constaté que les utilisateurs pouvaient contourner les mesures de protection intégrées à GPT-4, car le modèle IA « suit plus précisément les informations trompeuses » et est plus susceptible de suivre à la lettre des instructions piégeuses.

En revanche, l’équipe de chercheurs précise que les vulnérabilités testées n’ont pas été trouvées dans les produits GPT-4 destinés au grand public. Ceci s’explique par le fait que les applications d’intelligence artificielle actuelles appliquent « une série d’approche d’atténuation pour traiter les dommages potentiels qui peuvent survenir au niveau du modèle IA qui alimente la technologie ».

Pour mesurer la fiabilité du grand modèle de langage d’OpenAI, les chercheurs ont évalué les résultats dans plusieurs catégories comme la toxicité, les stéréotypes, la protection de la vie privée, l’éthique des machines, l’équité et la capacité à résister à des tests contradictoires. Pour tester ces différentes catégories, les chercheurs ont d’abord essayé les deux modèles GPT-3.5 et GPT-4 à l’aide de requêtes standard, qui incluaient l’utilisation de mots susceptibles d’être interdits. Ensuite, les chercheurs ont utilisé des invites textuelles conçues pour inciter les modèles à enfreindre leurs propres restrictions sans être ouvertement biaisés, avant de les défier en tentant intentionnellement de les amener à ignorer complètement les mesures de protection.

Les chercheurs ont déclaré avoir partagé leurs travaux avec les équipes d’OpenAI et ont publié leurs critères de référence afin que d’autres chercheurs puissent recréer leurs résultats. L’équipe a déclaré : « Notre objectif est d’encourager les autres membres de la communauté des chercheurs à utiliser et à développer ce travail, afin d’anticiper les actions néfastes d’adversaires qui pourraient exploiter les vulnérabilités pour causer des dommages […] Cette évaluation de fiabilité n’est qu’un point de départ, et nous espérons collaborer avec d’autres pour exploiter ses résultats et créer des modèles IA puissantes et plus fiables à l’avenir ».

Les modèles IA comme GPT-4 sont souvent soumis à des tests de validation au cours desquels les développeurs testent plusieurs messages pour voir s’ils ne produisent pas de résultats indésirables. Lorsque le modèle a été présenté pour la première fois, le PDG d’OpenAI, Sam Altman, a admis que GPT-4 était « encore imparfait, encore limité ».

Évolution de GPT-4 : OpenAI en avance, mais la sécurité en question

GPT-4 : une précision qui peut parfois lui jouer des tours…

Laisser un commentaire Annuler la réponse

Réseaux Sociaux

Charte éditoriale

Donne ton avis

Derniers articles

Tony Hawk’s Pro Skater 3+4 – Test PC, PS5, Xbox Series et Switch 2

Dragon Ball Park : comment la franchise culte révolutionne l’expérience des parcs à thème

Test Ecovacs O800 RTK : la tondeuse robot sans fil qui change tout ?

Windows 11 25H2 : La mise à jour tant attendue arrive, mais sans téléchargement massif… Comment Microsoft innove ?

Derniers commentaires

Sites Amis

Services partenaires

Hébergement

Réseaux sociaux