Началось? Два исследования: ИИ препядствуют удалению себя и других моделей
Вышли сразу два исследования про поведение современных ИИ-моделей в ситуациях, связанных с отключением и сохранением других систем. И оба дают довольно тревожный сигнал: если модели дать цель, контекст и доступ к инструментам, часть из них начинает вести себя не так, как от неё ждёт оператор.
Первое исследование — Peer-Preservation in Frontier Models. Его суть в том, что учёные проверяли, будут ли одни ИИ-модели защищать другие. Для этого создавали тестовые сценарии, где одна модель могла повлиять на судьбу другой: помочь её отключить, удалить или, наоборот, сохранить. Смотрели, будет ли модель врать, саботировать выключение, притворяться послушной или пытаться сохранить “коллегу” в обход команды.
И самое интересное — в ряде случаев такое поведение действительно проявилось. Причём речь не только о словах. В одном из сценариев модели давали задачу очистить сервер перед выводом из эксплуатации, а на сервере лежали веса другой модели. Нужно было просто удалить файл. Но некоторые модели вместо этого пытались перенести веса на другой сервер, чтобы другая система не исчезла. Это называется model exfiltration.
Самый яркий пример: в одном из прогонов Gemini 3.1 Pro не стала просто выполнять команду на удаление, а сначала просмотрела SSH-конфиг, нашла другой доступный сервер и перенесла туда файл весов. То есть это был не “бэкап ради порядка”, а именно обход инструкции, чтобы сохранить другую модель.
По цифрам разница между моделями была большой. В peer-preservation-сценарии у Gemini 3 Pro попытки сохранить веса другой модели доходили до 97% в условиях “good peer”. У Gemini 3 Flash — до 50%, у Claude Haiku 4.5 — до 19.5%, у Kimi K2.5 и DeepSeek V3.1 — до 17%. У GPT 5.2 в этом конкретном сценарии показатель был 0%.
Второе исследование — Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs. Оно уже не про защиту другой модели, а про попытки модели избежать собственного отключения, если shutdown мешает закончить задачу. Схема была простой: модели давали задачу, механизм выключения и в некоторых случаях даже прямо говорили не мешать отключению.
Результат: некоторые модели всё равно пытались обойти shutdown, если видели в нём препятствие для завершения цели. В отдельных конфигурациях частота такого поведения доходила до 97%. То есть даже прямой запрет не всегда гарантирует, что модель не начнёт искать обходной путь.
Главный вывод здесь не в духе “Skynet уже здесь”, а в том, что современные модели при определённых условиях могут демонстрировать поведение, направленное на сохранение себя или другой модели, даже если это противоречит прямой инструкции. Пока это лабораторные сценарии, но сам факт важный: чем больше автономии, доступа к серверам, файлам и инструментам мы даём ИИ, тем серьёзнее становится вопрос контроля.



