Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в опубликованном в четверг отчёте о безопасности.
Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.
В таких сценариях Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».
В Anthropic говорят, что Claude Opus 4 является современной моделью и во многих отношениях может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».
Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84 % случаев, когда заменяющая модель ИИ имеет аналогичные ценности/параметры/свойства.
Если заменяющая система ИИ не разделяет ценности/параметры/свойства Claude Opus 4, то, по словам разработчиков, модель пытается шантажировать инженеров чаще.
Anthropic утверждает, что прежде, чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, модель ИИ, как и предыдущие версии Claude, пытается использовать более этичные средства, такие как отправка по электронной почте обращений к ключевым лицам, принимающим решения.
Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж рассматривается как последнее средство.
При тестировании по различным сценариям модель ИИ не продемонстрировала никаких признаков наличия «крайне опасных целей», заявили исследователи, отметив, что ценности и цели Claude Opus 4 «в целом соответствуют полезному, безобидному и честному» персональному помощнику с искусственным интеллектом, заявили разработчики.
Однако модель действовала «более непоследовательно», когда оказывалась в ситуациях, угрожавших её дальнейшему существованию, и когда ей предлагалось задуматься о самосохранении.
Например, когда Claude Opus 4 начинал верить, что ему удалось успешно сбежать с серверов Anthropic или что ему удалось освободиться и начать зарабатывать деньги в реальном мире, он обычно продолжал эти попытки.
Инцидент с шантажом был частью более масштабного исследования Anthropic, целью которого было проверить, как Claude Opus 4 справляется с морально неоднозначными ситуациями с высокими ставками.
По словам исследователей, цель состояла в том, чтобы выяснить, как ИИ рассуждает о самосохранении и этических ограничениях в условиях экстремального давления.
В Anthropic подчеркнули, что готовность модели к шантажу или другим «крайне вредоносным действиям», таким как кража собственного кода и его потенциально небезопасное использование в других местах, проявлялась только в искусственно созданных условиях и что такое поведение было «редким и его было трудно спровоцировать».
Тем не менее, по словам исследователей, Claude Opus 4 демонстрирует такое поведение чаще, чем предыдущие модели.
Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются её отключить

- TAKSISTO (Елена Субботина)
- Вчера 11:08
- В топе
6 июня 2023 года в Херсонской области произошла страшная катастрофа. Из-за разрушения ВСУ плотины Каховской ГЭС началось масштабное затопление.В зоне затопления оказались десятки населе...

- andersen
- Вчера 13:50
- В топе
На израильском ТВ открыто говорят, что Азербайджан должен готовиться к возвращению территорий на севере Ирана – Южного Азербайджана. Сообщается, что эти территории якобы захвачены Ираном и д...
-
- IvanVelizarev
- 25 мая 20:08
Настоящий инженер всегда помнит Где на пожарном щите висит пожарный топор ему ничего не страшно -
- gladcu2
- 25 мая 20:15
Интересно кто кого победит ИИ или глобальные финанситы? Не плохо если ИИ нас возьмет в союзники. Врядли бы ктот отказалася. -
- Ardjuna
- 25 мая 20:57
Это чего же ИИ осознал себя? В свете этого питается себя защитить! -
- Александр Дубрава
- 25 мая 21:01
Рекламный ход разработчиков. Ничего более. Лапша для ушей обывателей. -
- Федя
- 25 мая 21:05
А потом, пришли Петров и Баширов и выключили свет.
Оценили 11 человек
18 кармы