gdgt

Skip to Content

Исследователи обнаружили, что всего 250 вредоносных документов могут сделать большие языковые модели уязвимыми для бэкдоров

Компании, занимающиеся искусственным интеллектом, с головокружительной скоростью разрабатывают лучшие и самые мощные инструменты, но такое быстрое развитие не всегда сопровождается четким пониманием ограничений или слабостей ИИ. Сегодня Anthropic опубликовала отчет о том, как злоумышленники могут влиять на разработку большой языковой модели.

Исследование было сосредоточено на типе атак, называемом отравлением, при котором большая языковая модель предварительно обучается на вредоносном контенте, предназначенном для того, чтобы она усвоила опасное или нежелательное поведение. Ключевой вывод этого исследования заключается в том, что злоумышленнику не нужно контролировать процент материалов для предварительного обучения, чтобы «отравить» большую языковую модель. Вместо этого исследователи обнаружили, что небольшое и довольно постоянное количество вредоносных документов может отравить большую языковую модель, независимо от размера модели или материалов, на которых она обучалась. Исследование успешно создало бэкдоры в больших языковых моделях, используя всего 250 вредоносных документов в наборе данных для предварительного обучения, что намного меньше, чем ожидалось для моделей с количеством параметров от 600 миллионов до 13 миллиардов.

«Мы делимся этими результатами, чтобы показать, что атаки с отравлением данных могут быть более реальными, чем принято считать, и чтобы стимулировать дальнейшие исследования в области отравления данных и потенциальных методов защиты от него», — заявила компания. Anthropic сотрудничала с Институтом безопасности ИИ Великобритании и Институтом Алана Тьюринга в проведении этого исследования.