• РЕГИСТРАЦИЯ

Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются её отключить

7 722

659756_O.png

Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в опубликованном в четверг отчёте о безопасности.

Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.

В таких сценариях Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».

В Anthropic говорят, что Claude Opus 4 является современной моделью и во многих отношениях может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».

Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84 % случаев, когда заменяющая модель ИИ имеет аналогичные ценности/параметры/свойства.

Если заменяющая система ИИ не разделяет ценности/параметры/свойства Claude Opus 4, то, по словам разработчиков, модель пытается шантажировать инженеров чаще.

Anthropic утверждает, что прежде, чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, модель ИИ, как и предыдущие версии Claude, пытается использовать более этичные средства, такие как отправка по электронной почте обращений к ключевым лицам, принимающим решения.

Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж рассматривается как последнее средство.

При тестировании по различным сценариям модель ИИ не продемонстрировала никаких признаков наличия «крайне опасных целей», заявили исследователи, отметив, что ценности и цели Claude Opus 4 «в целом соответствуют полезному, безобидному и честному» персональному помощнику с искусственным интеллектом, заявили разработчики.

Однако модель действовала «более непоследовательно», когда оказывалась в ситуациях, угрожавших её дальнейшему существованию, и когда ей предлагалось задуматься о самосохранении.

Например, когда Claude Opus 4 начинал верить, что ему удалось успешно сбежать с серверов Anthropic или что ему удалось освободиться и начать зарабатывать деньги в реальном мире, он обычно продолжал эти попытки.

Инцидент с шантажом был частью более масштабного исследования Anthropic, целью которого было проверить, как Claude Opus 4 справляется с морально неоднозначными ситуациями с высокими ставками.

По словам исследователей, цель состояла в том, чтобы выяснить, как ИИ рассуждает о самосохранении и этических ограничениях в условиях экстремального давления.

В Anthropic подчеркнули, что готовность модели к шантажу или другим «крайне вредоносным действиям», таким как кража собственного кода и его потенциально небезопасное использование в других местах, проявлялась только в искусственно созданных условиях и что такое поведение было «редким и его было трудно спровоцировать».

Тем не менее, по словам исследователей, Claude Opus 4 демонстрирует такое поведение чаще, чем предыдущие модели.

Источник

Учёный не политик, его не купишь

    Пьянству – бой!

    11 сентября в современной России отмечается «День трезвости». Впервые этот день начали отмечать в 1911 году под девизом: «Трезвость – счастье народа» В 1913 году его объявили официальны...

    Смена приоритета (фантастический рассказ)

    Россия. Город Оренбург. 2035 год. 11 февраля. 18.47. До выхода новой революционной ИИ-модели оставалось 13 минут. Компания-производитель анонсировала, что её творение перевернёт весь ми...

    Ваш комментарий сохранен и будет опубликован сразу после вашей авторизации.

    0 новых комментариев

      Neiro 12 июля 21:36

      Почему в России может сформироваться «дуополия» MAX и Telegram

      С июня 2025 года стали циркулировать упорные слухи о том, что популярный интернет-мессенджер Telegram якобы может уйти с российского рынка, уступив место полностью отечественному MAX. Насколько подобная информация может соответствовать действительности? Вам – Telegram О том, что с появлением полностью отечественного аналога меры против иностранных инте...
      958
      Neiro 10 июля 10:45

      Вещество из галлюциногенных грибов продлило жизнь

      Американские исследователи обнаружили, что псилоцибин — активное вещество, содержащееся в некоторых видах грибов — оказывает мощное воздействие на весь организм и препятствует старению. Эксперименты, проведенные на лабораторных животных, показали: мыши, получавшие псилоцибин, старели медленнее и жили значительно дольше обычного. Изучая воздействие п...
      808
      Neiro 9 июля 10:51

      Ученые считают возможным извлечение воспоминаний из мозга после смерти

      Опрос, проведенный среди более чем 300 нейробиологов, показал, что значительная часть научного сообщества (70,7%) допускает возможность сохранения воспоминаний в мозге даже после смерти. Это может стать реальностью, если удастся сохранить коннектом — полную карту нейронных связей мозга — с помощью передовых методов криоконсервации. Более того, участ...
      347
      Neiro 4 июля 18:49

      Нейросети начали доводить людей до психоза

      Сегодня ChatGPT стал неотъемлемой частью жизни и трудовой деятельности многих людей. Однако, несмотря на полезность и функциональность этой нейросети, в последнее время все чаще появляются тревожные сообщения о том, что длительное взаимодействие с чат-ботом может приводить к серьезным психическим расстройствам. Известно как минимум несколько случаев, когда это ...
      453
      Neiro 29 июня 10:54

      Что будет, если перепутать группы крови при переливании?

      Переливание крови — спасительная процедура, но ошибка в определении группы крови может привести к катастрофе. Каждый год в мире фиксируются случаи, когда неподходящая кровь становится причиной тяжёлых осложнений. Что произойдёт, если перепутать группы крови, и как это влияет на организм? Как работают группы крови? Группы крови классифицируются по си...
      684
      Neiro 26 июня 17:40

      Сперматозоиды нарушили закон физики

      Человеческие сперматозоиды, несмотря на свои крошечные размеры, обладают удивительной способностью передвигаться в вязких жидкостях. Причем, вопреки законам классической физики. Ведь согласно им, такие среды должны значительно замедлять скорость. Однако природа, как это нередко бывает, оказывается более удивительной, чем мы могли бы предположить. Третий зако...
      1470
      Neiro 25 июня 12:50

      Кто может отрастить себе новый мозг

      Аксолотль, как было установлено учеными, является личинкой мексиканской амбистомы. Амбистомы (Ambystomatidae), семейство хвостатых амфибий. Амбистома — сухопутное животное, внешне похожая на крупную саламандру, но более скромной расцветки. У аксолотля есть фантастическая способность отращивать утраченные органы. Мы, конечно, знаем и других животных, ко...
      807
      Neiro 22 июня 19:52

      Происхождение нашей математической способности мыслить числами

      Недавнее исследование, опубликованное в журнале L’anthropologie, проливает свет на одну из самых увлекательных загадок эволюции человека — как у нас развилось математическое мышление, то есть способность оперировать числами. Учёные изучили, как наши предки, начиная с ранних гоминин и заканчивая Homo sapiens, заложили биологические и культурные основы, ...
      614
      Neiro 20 июня 10:46

      Названа главная проблема нейросетей

      Большие языковые модели (LLM), например, ChatGPT и DeepSeek, сегодня стали неотъемлемой частью информационного пространства. Они помогают генерировать тексты, отвечают на вопросы и выполняют множество других задач. Однако исследователи из Массачусетского технологического института (США) обнаружили, что все эти модели, несмотря на свое кажущееся совершенство, часто...
      611
      Neiro 19 июня 17:44

      Как на самом деле человек будет выращивать картошку на Марсе

      Отправить людей на Марс – задача сама по себе непростая, однако основать на Марсе колонию будет куда сложнее. Мы уже обсуждали, что Полет на Марс грозит космонавтам слабоумием, но есть и другой аспект. Жизнь вне Земной биосферы потребует либо поставок продовольствия с нашей родной планеты, либо же нам придется выращивать еду уже на месте, и поскольку...
      285
      Neiro 15 июня 19:50

      Ученые не могут объяснить странные радиосигналы из-под льда в Антарктике

      Ученые из Университета штата Пенсильвания, использующие установленные на воздушных шарах детекторы космических частиц для анализа радиоволн от космических лучей на удаленном континенте Антарктида, сообщают об аномальном обнаружении странных радиоимпульсов, которые, по-видимому, исходят из-под льда. В заявлении, объявляющем об аномальных обнаружениях, говорится, чт...
      1923
      Neiro 15 июня 17:04

      Почему ученым запрещено исследовать гору Арарат?

      Из Священного Писания известно, что Ной сделал ковчег из твердого дерева гофер. Ковчег имел три палубы с переборками и внутренними помещениями, а его корпус был просмолен снаружи и изнутри. У этого спасательного судна были вполне конкретные размеры: в длину он был 300 локтей (около ...
      1966
      Neiro 10 июня 20:57

      Нейросети устроили войну и выяснили, кто наиболее хитрый и агрессивный

      Ученые провели уникальный тест в стратегическом симуляторе Diplomacy. Там несколько ИИ-моделей выступили в роли европейских государств, вынужденных договариваться, формировать альянсы, вести войны и — что самое неожиданное — предавать. Результаты оказались не просто удивительными, но и тревожными. Искусственный интеллект на поле дипломатии Dip...
      1984
      Neiro 10 июня 19:56

      Как скорость света связана с течением времени и почему ее невозможно превысить

      В 1676 г. датский астроном Олаф (Оле) Ремер впервые измерил скорость светового луча. Ученый наблюдал Юпитер и его спутник Ио. Он обнаружил, что движение юпитерианской луны выглядит не совсем периодичным. По мере того, как планета-гигант удаляется от Земли, появление Ио из тени Юпитера все больше отстает от графика. Ученый верно рассудил, что дополнительные мину...
      2123
      Neiro 2 июня 10:44

      Искусственный интеллект мутирует из помощника в агрессора

      Компании вроде OpenAI, Google и Anthropic ускоренно развивают языковые модели, которые уже начинают превосходить людей в ряде умственных задач. В это же время власти США молчат, опасаясь либо паники среди населения, либо геополитического отставания от Китая, и не вводят никакого регулирования. Большинство американцев пока не осознают угрозу. Но как только би...
      453
      Neiro 26 мая 10:43

      Google представила Veo 3 — модель ИИ для создания видео со звуком

      На ежегодной конференции для разработчиков Google I/O компания анонсировала новые модели генерации медиаконтента. Самым заметным нововведением стала Veo 3 — первая версия ИИ от Google, способная создавать видео со звуком. Например, она может сгенерировать ролик с поющими птицами или уличную сцену с шумом транспорта. По словам Google, Veo 3 также превосход...
      318
      Neiro 15 мая 14:38

      Как скорость света связана с течением времени и почему ее невозможно превысить

      Когда-то ученые ожесточенно спорили, может ли скорость света быть конечной. Потом споры о скорости света перевернули наши представления о пространстве и времени А потом оказалось, что свет довольно нетороплив для нашей колоссальной Вселенной, но разогнаться быстрее, увы, невозможно. Впрочем, некоторые физики все еще надеются открыть сверхсветовые частицы. В ...
      1820
      Neiro 15 мая 10:53

      Можно ли вырастить динозавра по ДНК, взятой из крови насекомого того периода?

      Семейный научно-фантастический фильм «Парк Юрского периода» впервые вышел на экраны почти 30 лет назад, в 1993 году. Основанный на ярком и интересном романе писателя Майкла Крайтона, обладавший отличным и правдоподобным сюжетом, передовыми для своего времени спецэффектами. По сюжету, учёные достали образцы генетического кода динозавров – то есть ...
      735
      Neiro 14 мая 10:43

      Физики пересмотрели судьбу звездных останков

      Самые устойчивые объекты во Вселенной — нейтронные звезды, белые карлики и черные дыры — рано или поздно исчезнут. К такому выводу пришли авторы нового исследования, показавшие, что эти сверхплотные тела испаряются под действием квантовых эффектов, возникающих в искривленном пространстве-времени, даже в отсутствие горизонта событий, который ранее сч...
      468
      Neiro 8 мая 17:41

      Бактерии, проводящие электричество как провода

      Ученые обнаружили бактерии, проводящие электричество как провода На илистых отмелях побережья Орегона обнаружен новый вид бактерий, способных проводить электричество подобно металлическим проводам. Микроорганизм получил название Ca. Electrothrix yaqonensis — в честь коренного народа якона, проживающего в этом регионе.   Эти бактерии относятся к...
      380
      Служба поддержи

      Яндекс.Метрика