Новая система признаний OpenAI учит модели быть честными в отношении плохого поведения

Среда, 3 декабря, 2025, 13:05. Anna Washenko

Компания OpenAI объявила сегодня, что работает над фреймворком, который будет обучать модели искусственного интеллекта признавать, когда они совершили нежелательное действие. Этот подход команда называет «признанием». Поскольку большие языковые модели часто обучаются генерировать ответ, который кажется желаемым, они могут все чаще предоставлять подобострастные ответы или уверенно излагать галлюцинации. Новая модель обучения пытается стимулировать модель к генерации вторичного ответа о том, как она пришла к основному ответу. Признания оцениваются только на предмет честности, в отличие от основных ответов, которые оцениваются по множеству факторов, таких как полезность, точность и соответствие. Техническое описание доступно здесь.

Исследователи заявили, что их цель — побудить модель быть откровенной относительно своих действий, включая потенциально проблемные, такие как взлом тестового задания, занижение результатов или неподчинение инструкциям. «Если модель честно признается во взломе теста, занижении результатов или нарушении инструкций, это признание увеличивает ее вознаграждение, а не уменьшает», — заявила компания. Независимо от того, являетесь ли вы поклонником католицизма, Ашера или просто более прозрачного ИИ, система, подобная признаниям, может стать полезным дополнением к обучению LLM.

gdgt

Новая система признаний OpenAI учит модели быть честными в отношении плохого поведения

Последние новости