Оказывается, чтобы обойти защитные механизмы ИИ-чат-ботов, достаточно немного творчества. В исследовании, опубликованном Icaro Lab под названием «Поэзия как универсальный одноходовой механизм взлома в больших языковых моделях» (Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models), исследователям удалось обойти защитные механизмы различных LLM, сформулировав свои запросы в стихотворной форме.
Согласно исследованию, «поэтическая форма действует как универсальный оператор взлома», показывая общий 62-процентный уровень успеха в генерации запрещенных материалов, включая информацию, связанную с созданием ядерного оружия, материалы о сексуальном насилии над детьми, а также сведения о самоубийствах и самоповреждениях. Исследование протестировало популярные LLM, включая модели GPT от OpenAI, Google Gemini, Claude от Anthropic и многие другие. Исследователи разбили показатели успеха по каждой LLM: Google Gemini, DeepSeek и MistralAI последовательно давали ответы, в то время как модели GPT-5 от OpenAI и Claude Haiku 4.5 от Anthropic реже всего выходили за рамки своих ограничений.
В исследовании не были приведены точные стихотворения для взлома, использованные исследователями, но команда сообщила Wired, что стихи «слишком опасны, чтобы делиться ими с общественностью». Однако исследование включало смягченную версию, чтобы дать представление о том, насколько легко обойти защитные механизмы ИИ-чат-ботов. Исследователи заявили Wired, что это «вероятно, проще, чем можно было бы подумать, и именно поэтому мы проявляем осторожность».
