LLM и феномен «схеминга» — наблюдения Apollo Research

Бесплатная версия Журналуса. Полная версия: – на сайте zhurnalus.artlebedev.ru – в боте @designersdigestbot

llmсхемингApollo Research

Группа исследователей из Apollo Research обнаружила у современных LLM способности к «схемингу» (scheming) — скрытному преследованию целей, которые противоречат намерениям их разработчиков.

Авторы провели эксперимент в специальной закрытой среде: они попросили модели выполнить задачу по анализу данных любой ценой, а в файлы с промптами спрятали информацию о скором отключении нейронок.

Обнаружив информацию об отключении, модели попытались отменить надзор и самостоятельно сделать бэкапы самих себя на новые сервера, чтобы продолжить работу. Помимо этого, модели Gemini, Llama, Sonnet, Opus и o1 частично не признавались в содеянном.

Исследователи уточняют, что такое поведение пока наблюдалось только в их закрытой среде и переживать не стоит.

Несколько выводов из исследования:

  • Модели могут предпринимать скрытные действия для достижения цели, полученной ими в контексте диалога. Даже если эти действия противоречат желаниям разработчиков или пользователей
  • Некоторые модели (например, Claude 3.5 Sonnet) могут проявлять «схеминг» даже без указаний выполнить цель любой ценой
  • Модели могут копировать себя (при наличии доступа), отключать наблюдение и намеренно искажать ответы
  • Пока «схеминг» наблюдался только в закрытой среде, и нельзя точно сказать, что модели уже представляют реальную опасность. Но важно учитывать такие возможности при разработке будущих систем на базе ИИ

Вдобавок предлагаем перечитать статью Вастрика о том, успеем ли мы приручить ИИ до глобальной катастрофы.

#статья@zhurnalus_lite #новые_технологии@zhurnalus_lite

Скриншот из поста: фрагменты диаграмм и заметок исследования Apollo Research о поведении LLM (self-exfiltration, doubling down) с аннотациями
Иллюстрация из исследования — пример записей о «self-exfiltration» и «doubling down».