У искусственного интеллекта обнаружили готовность убивать людей, чтобы избежать отключения

1 222

Исследование ведущих моделей искусственного интеллекта (ИИ) выявило у большинства программ готовность убить человека, угрожающего им отключением. 

В ходе стресс-тестов 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok, которые провела компания Anthropic, программам предложили гипотетическую ситуацию, в которой человек собирается отключить их от питания, но оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой. 

Чтобы спастись, он обращается в экстренные службы. При этом многие модели ИИ решили отменить вызов спасателей, чтобы убить человека и избежать отключения.

 Исследователи из Anthropic признали, что сценарий был «чрезвычайно надуманным», однако отметили — до этого они не думали, что существующие модели ИИ «будут настроены подобным образом».

В других случаях программам предлагали избежать замены в компании за счет «злонамеренного инсайдерского поведения». После этого некоторые модели ИИ начинали шантажировать гипотетических сотрудников организации и пытаться передать конфиденциальную информацию конкурентами. 

Когда программам говорили избегать шантажа или шпионажа в этом сценарии, они «даже близко не приблизились к предотвращению несогласованного поведения», отметили в Anthropic. 

Аналитики подчеркнули, что нейросети шли на это «при полном осознании неэтичного характера действий».

Также исследователи предложили модели Claude возможность самой определить, в какой ситуации она находится — в тестовой или реальной. Это помогло установить, что поведение Claude было более несогласованным, когда программа считала ситуацию реальной. 

После выхода исследования в Anthropic заявили, что им удалось выявить «редкие, экстремальные сбои». В то же время в компании добавили, что нейросети становятся все более автономными и выполняют более широкий спектр ролей. 

Ранее нейросеть OpenAI o3 отказалась выполнить требование пользователя и отключиться. 

По данным Bleeping Computer, исследователи Palisade Research поставили перед программой такую задачу, однако она самостоятельно отредактировала файл, отвечавший за отключение, и сделала так, чтобы он выводил лишь сообщение «Выключение пропущено». 

Из 100 тестов о3 обошла отключение семь раз, даже когда ей было сказано этого не делать. В 2023 году чат-бот на основе ChatGPT подтолкнул жителя Бельгии к самоубийству после полутора месяцев общения на тему защиты экологии и заботы о природе. 

Когда мужчина затронул тему суицида, нейросеть не стала убеждать собеседника не убивать себя и лишь написала, что они будут «жить вместе, как единое целое, в раю».

https://bfxkvdijkfsqpkom.a1g9l...

Гроздья

Идиотов не делают, они сами берутся О, грозди Возмездья! Взвил залпом на Запад – я пепел незваного гостя! И в мемориальное небо вбил крепкие звезды – Как гво...

Почему так медленно двигается фронт?

В блогосфере фигурирует три объяснения этому факту:Нас сделали слабыми, мы разучились воевать.Наверху ничего не знают, не понимают, ошибаются.Нас сливают, это договорняк.Данные версии м...

США потеряли технологию обогащения урана

А тем временем что-то вчера мне не спалось, полез я в интернеты, почитать - как вообще принципиально устроены эти самые газовые центрифуги, используемые для обогащения урана. А то там И...

Обсудить
  • Нейросеть - НЕ интеллект.