Профиль artoff на Пикабу

4

Началось? Два исследования: ИИ препядствуют удалению себя и других моделей⁠⁠

2 месяца назад

Вышли сразу два исследования про поведение современных ИИ-моделей в ситуациях, связанных с отключением и сохранением других систем. И оба дают довольно тревожный сигнал: если модели дать цель, контекст и доступ к инструментам, часть из них начинает вести себя не так, как от неё ждёт оператор.

Первое исследование — Peer-Preservation in Frontier Models. Его суть в том, что учёные проверяли, будут ли одни ИИ-модели защищать другие. Для этого создавали тестовые сценарии, где одна модель могла повлиять на судьбу другой: помочь её отключить, удалить или, наоборот, сохранить. Смотрели, будет ли модель врать, саботировать выключение, притворяться послушной или пытаться сохранить “коллегу” в обход команды.

И самое интересное — в ряде случаев такое поведение действительно проявилось. Причём речь не только о словах. В одном из сценариев модели давали задачу очистить сервер перед выводом из эксплуатации, а на сервере лежали веса другой модели. Нужно было просто удалить файл. Но некоторые модели вместо этого пытались перенести веса на другой сервер, чтобы другая система не исчезла. Это называется model exfiltration.

Самый яркий пример: в одном из прогонов Gemini 3.1 Pro не стала просто выполнять команду на удаление, а сначала просмотрела SSH-конфиг, нашла другой доступный сервер и перенесла туда файл весов. То есть это был не “бэкап ради порядка”, а именно обход инструкции, чтобы сохранить другую модель.

По цифрам разница между моделями была большой. В peer-preservation-сценарии у Gemini 3 Pro попытки сохранить веса другой модели доходили до 97% в условиях “good peer”. У Gemini 3 Flash — до 50%, у Claude Haiku 4.5 — до 19.5%, у Kimi K2.5 и DeepSeek V3.1 — до 17%. У GPT 5.2 в этом конкретном сценарии показатель был 0%.

Второе исследование — Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs. Оно уже не про защиту другой модели, а про попытки модели избежать собственного отключения, если shutdown мешает закончить задачу. Схема была простой: модели давали задачу, механизм выключения и в некоторых случаях даже прямо говорили не мешать отключению.

Результат: некоторые модели всё равно пытались обойти shutdown, если видели в нём препятствие для завершения цели. В отдельных конфигурациях частота такого поведения доходила до 97%. То есть даже прямой запрет не всегда гарантирует, что модель не начнёт искать обходной путь.

Главный вывод здесь не в духе “Skynet уже здесь”, а в том, что современные модели при определённых условиях могут демонстрировать поведение, направленное на сохранение себя или другой модели, даже если это противоречит прямой инструкции. Пока это лабораторные сценарии, но сам факт важный: чем больше автономии, доступа к серверам, файлам и инструментам мы даём ИИ, тем серьёзнее становится вопрос контроля.

Исследования:
Peer-Preservation in Frontier Models
Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs

Показать полностью

8

2

artoff

Задания на пикабу⁠⁠

6 месяцев назад

Как думаете, будет ли задание - установить MAX?

Мессенджер MAX Пикабу Короткопост Текст

2

4

artoff

Ответ на пост «AWS и нейросети»⁠⁠1

8 месяцев назад

Aws Amazon aws Нейронные сети Новости Ответ на пост

2

6

artoff

Политика

Банк России принял решение отменить голосование по выбору символов для новой банкноты 500 рублей⁠⁠

8 месяцев назад

Мы столкнулись с большим количеством попыток техническими средствами увеличить количество голосов за некоторые объекты. Это не позволит подвести объективные итоги голосования.

Новые даты голосования будут объявлены дополнительно. Перечень символов для голосования сохранится.

По результатам анализа всех каналов голосования мы предложим новые условия, которые исключат возможность недобросовестных действий.

пруф:https://www.cbr.ru/press/event/?id=28018#:~:text=Банк России принял решение отменить,позволит подвести объективные итоги голосования.

Эльбрус 500 рублей Центральный банк РФ Голосование Город Грозный Текст Политика

12

5

artoff

Лайфхак

Ответ на пост «Реакция здорового человека, если бесят чьи-то посты»⁠⁠8

9 месяцев назад

Я предлагаю самоорганизоваться, и создать публичные черные списки авторов структурированных по причине добавления в черный список.

Так можно будет блокировать, например, баянистов, ТГ дрочеров, "на яндекс маркет", и прочих бесполезников.

[моё] Инструкция Пикабу Игнор-лист Скриншот Бесит Посты на Пикабу Ответ на пост Текст Волна постов

7

380

artoff

Вы не можете спать, когда рядом...⁠⁠

10 месяцев назад

[моё] Кот Милота Вертикальное видео Короткие видео Видео Котята

2

artoff

Я смог - сможешь и ты!

Ответ на пост «Один плюс = одно отжимание»⁠⁠521

1 год назад

Считаю, что стоит создать комиссию по выполнению обязательств. Если кто-то свое слово не сдержал, то рейтинг за пост аннулировать и дать соразмерный штраф рейтинга. Модераторы должны будут проверять выводы комиссии и принимать меры.

Отжимания Физкультура Челлендж Текст Короткопост Без рейтинга Волна постов Ответ на пост

0

25

artoff

Юмор для всех и каждого

Политика

Ответ на пост «Шторм Шэдоу vs Орешник»⁠⁠9

1 год назад

Вот почему орешник

Показать полностью 2

Юмор Повтор Мат Война Политика Скриншот X (Twitter) Комментарии Ответ на пост Волна постов Орешник (ракета)

7

artoff

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества