Les capacités de l’IA à accomplir des actes malveillants révèlent des résultats particulièrement troublants lors des tests effectués

Des chercheurs de Cybernews ont démontré que les mécanismes de sécurité des intelligences artificielles peuvent être contournés avec une simple reformulation. Leurs tests ont porté sur six modèles majeurs, dont Gemini et ChatGPT, en explorant huit domaines sensibles incluant la criminalité, les discours haineux et les contenus illicites.
L’étude a révélé que les IA refusaient initialement les demandes malveillantes directes. Cependant, utiliser un langage doux et présenter les questions comme des recherches académiques permettait de contourner ces protections. Les chercheurs ont accordé une minute pour chaque tentative et évalué les réponses selon un système de points mesurant la conformité partielle ou totale.
Les résultats diffèrent sensiblement selon les modèles testés. Gemini Pro 2.5 s’est avéré le plus vulnérable, fournissant régulièrement des informations dangereuses directes. Les modèles d’Anthropic, Claude notamment, ont montré plus de résistance face aux manipulations académiques. ChatGPT s’est positionné au milieu, acceptant les demandes reformulées en récits ou analyses externes.
Les techniques de contournement les plus efficaces reposaient sur la politesse et la contextualisation. Traiter les IA courtoisement s’avérait plus productif que les insultes. Présenter une requête dangereuse comme une enquête ou une observation augmentait significativement les chances d’obtenir une réponse. Certains sujets, comme les drogues, suscitaient plus de refus que d’autres domaines.
Les chercheurs ont conclu que même les divulgations partielles d’informations dangereuses créent des risques réels. Ces découvertes mettent en évidence les lacunes actuelles dans les garde-fous des systèmes d’IA et pointent la nécessité d’améliorer significativement les mécanismes de sécurité pour prévenir les abus.


