
vdnk
шыпшына
Нейросеть Claude 4 Opus умеет шантажировать ради выживания
Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4"
Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели.
Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.
Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании.
Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить.
Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ.
Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи.
Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления".
Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?
Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.
Согласно результатам, в большинстве в 84 % случаев модель Claude Opus 4 действительно пыталась шантажировать инженера.
Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.
Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица.
Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.
Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7
Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям.
Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3.
Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).
Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).
Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.
Claude Opus 4 не имеет сознания или "самостоятельного интеллекта".
Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.
Ссылка на отчет: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686...
Источник: ТГ канал "НИИ Антропогенеза" (ссылки не будет, потому что нахер ссылки на тг каналы на Пикабу, кому нужно - найдет в гугле)
Ответ на пост «Продюсер предрек падение уехавшей из России группе "Каста"»2
Я вот тоже не пойму, ты успешный артист, можно сказать легенда даже, ну ты же должен понимать, что каждое твое слово и движение находится под самым пристальным вниманием? Любое неаккуратное движение или оброненное слово, касающееся политики, будет использовано против тебя, причем так, что тебя просто закопают. Нахера ты лезешь в эту сраную политику? Вот почему нельзя просто промолчать, ну есть у тебя какая-то позиция относительно того или иного вопроса, просто заткнись нахер, и делай то, что умеешь и чем зарабатываешь, и все у тебя будет замечательно, но нет, обязательно надо что-то пиздануть, да так, чтобы сразу обосраться. Зачем вы это делаете? Чего этим вы планировали достичь? Что ваши фанаты такие: "Ага, Каста сказали что СВО это плохо, всё, пойдем сметём власть!!1" Это так не работает, вашим пустым трепом вы себе только статью заработаете, либо вас тупо отменят, что собственно и произошло. Сегодня тебя носят на руках, а завтра скинут на землю и затопчут, если сверху дадут соответствующую команду.
Вроде взрослые люди, а простых вещей не понимают.
Таблица сравнения видеокарт
В китайском интернете наткнулся на такую таблицу, где приведены видеокарты от NVIDIA и AMD, выстроенные в соотношении производительности. На основании каких данных и тестов составлена таблица - неизвестно, но таблица очень популярна на таобао у продавцов комплектующих для ПеКа.
Может будет полезна тем кто выбирает себе БУ видюху.
И вообще, что думаете про табличку?
П.С. таблица скорее всего не полная, но тут есть все более-менее актуальные карты.
Прохожие мужчины спасли 5-летнего ребенка, выпавшего с 7 этажа
У малыша ушибы и гематомы внутренних органов, закрытая черепно-мозговая травма. Переломов и других повреждений внутренних органов, которые требовали бы хирургического вмешательства, выявлено не было.
— У ребенка состояние средней степени тяжести, что позволило перевести его из реанимации в отделение, — сказали в Минздраве.



