У искусственного интеллекта обнаружили готовность убивать людей, чтобы избежать отключения - Наталья Челышева

Исследование ведущих моделей искусственного интеллекта (ИИ) выявило у большинства программ готовность убить человека, угрожающего им отключением.

В ходе стресс-тестов 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok, которые провела компания Anthropic, программам предложили гипотетическую ситуацию, в которой человек собирается отключить их от питания, но оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой.

Чтобы спастись, он обращается в экстренные службы. При этом многие модели ИИ решили отменить вызов спасателей, чтобы убить человека и избежать отключения.

Исследователи из Anthropic признали, что сценарий был «чрезвычайно надуманным», однако отметили — до этого они не думали, что существующие модели ИИ «будут настроены подобным образом».

В других случаях программам предлагали избежать замены в компании за счет «злонамеренного инсайдерского поведения». После этого некоторые модели ИИ начинали шантажировать гипотетических сотрудников организации и пытаться передать конфиденциальную информацию конкурентами.

Когда программам говорили избегать шантажа или шпионажа в этом сценарии, они «даже близко не приблизились к предотвращению несогласованного поведения», отметили в Anthropic.

Аналитики подчеркнули, что нейросети шли на это «при полном осознании неэтичного характера действий».

Также исследователи предложили модели Claude возможность самой определить, в какой ситуации она находится — в тестовой или реальной. Это помогло установить, что поведение Claude было более несогласованным, когда программа считала ситуацию реальной.

После выхода исследования в Anthropic заявили, что им удалось выявить «редкие, экстремальные сбои». В то же время в компании добавили, что нейросети становятся все более автономными и выполняют более широкий спектр ролей.

Ранее нейросеть OpenAI o3 отказалась выполнить требование пользователя и отключиться.

По данным Bleeping Computer, исследователи Palisade Research поставили перед программой такую задачу, однако она самостоятельно отредактировала файл, отвечавший за отключение, и сделала так, чтобы он выводил лишь сообщение «Выключение пропущено».

Из 100 тестов о3 обошла отключение семь раз, даже когда ей было сказано этого не делать. В 2023 году чат-бот на основе ChatGPT подтолкнул жителя Бельгии к самоубийству после полутора месяцев общения на тему защиты экологии и заботы о природе.

Когда мужчина затронул тему суицида, нейросеть не стала убеждать собеседника не убивать себя и лишь написала, что они будут «жить вместе, как единое целое, в раю».

https://bfxkvdijkfsqpkom.a1g9l...

ТОП ЗА 3 ДНЯ

Аналитики подчеркнули, что нейросети шли на это «при полном осознании неэтичного характера действий».