LLM и феномен «схеминга» — наблюдения Apollo Research

Бесплатная версия Журналуса. Полная версия: – на сайте zhurnalus.artlebedev.ru – в боте @designersdigestbot

•21 декабря 2024 г.

Группа исследователей из Apollo Research обнаружила у современных LLM способности к «схемингу» (scheming) — скрытному преследованию целей, которые противоречат намерениям их разработчиков.

Авторы провели эксперимент в специальной закрытой среде: они попросили модели выполнить задачу по анализу данных любой ценой, а в файлы с промптами спрятали информацию о скором отключении нейронок.

Обнаружив информацию об отключении, модели попытались отменить надзор и самостоятельно сделать бэкапы самих себя на новые сервера, чтобы продолжить работу. Помимо этого, модели Gemini, Llama, Sonnet, Opus и o1 частично не признавались в содеянном.

Исследователи уточняют, что такое поведение пока наблюдалось только в их закрытой среде и переживать не стоит.

Несколько выводов из исследования:

Модели могут предпринимать скрытные действия для достижения цели, полученной ими в контексте диалога. Даже если эти действия противоречат желаниям разработчиков или пользователей
Некоторые модели (например, Claude 3.5 Sonnet) могут проявлять «схеминг» даже без указаний выполнить цель любой ценой
Модели могут копировать себя (при наличии доступа), отключать наблюдение и намеренно искажать ответы
Пока «схеминг» наблюдался только в закрытой среде, и нельзя точно сказать, что модели уже представляют реальную опасность. Но важно учитывать такие возможности при разработке будущих систем на базе ИИ

Вдобавок предлагаем перечитать статью Вастрика о том, успеем ли мы приручить ИИ до глобальной катастрофы.

#статья@zhurnalus_lite #новые_технологии@zhurnalus_lite

LLM и феномен «схеминга» — наблюдения Apollo Research

Читайте так же

LLM Visualization — визуализация архитектуры LLM

Intro to Large Language Models — лекция Андрея Карпаты

Jan — опенсорсная кроссплатформенная оболочка для LLM