• РЕГИСТРАЦИЯ

Шокирующий отчет Apollo Research показал темную сторону ИИ

9 942

Большие языковые модели (также называемые LLM) уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.

К сожалению, заголовок - не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Только что опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в \~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)

Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей. Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Отчет Apollo Research показал, что этот поезд уже ушел.

- Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.

- И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).

Получается, уже приехали…

https://masterok.livejou...

Будущее - это технологии

    Неадекват усиливался...

    Меня так умиляют эти очередные рассказы в западной прессе. Два года назад они говорили «Мы задавим Россию санкциями, она останется без денег, развалится и сдастся». Теперь они рассказыва...

    Вот так выглядит «крыша» цыган из Коркино. ФСБ задержан экс-глава центра «Э»

    Вот никогда такого не было и на тебе, как гром среди ясного неба:В Челябинске во вторник, 17 декабря, задержали бывшего заместителя начальника полиции ГУ МВД по региону Сергея Федерягин...

    Шесть боевых блоков «Орешника» раскрылись на высоте 100 км: устрашающая картина о новейшем сверхзвуковом оружии России

    Первое применение российской гиперзвуковой ракеты средней дальности «Орешник» дало экспертам исчерпывающую картину о мощности этого оружия. Свойства ракеты объяснил военный ученый-практ...

    Ваш комментарий сохранен и будет опубликован сразу после вашей авторизации.

    0 новых комментариев

      JeDi Вчера 17:20

      «Был выброс крупного протуберанца в космос»: синоптики сообщили о накрывшей Землю магнитной буре

      Утром 17 декабря на Земле началась слабая магнитная буря класса G1, сообщил ведущий специалист центра погоды «Фобос» Михаил Леус. Причиной выброса энергии стало увеличение скорости и плотности солнечного ветра. В беседе с RT эксперты рассказали, что в связи с этим в некоторых местах Земли наблюдаются полярные сияния. Для того чтобы легче перенести бурю, вр...
      654
      JeDi 26 ноября 18:33

      Почему Черная Дыра затягивает фотон, если он не имеет массы?

      Черная дыра - уникальный объект. Из-за сверхвысокой гравитации она поглощает все вокруг, включая свет. Но как это возможно? Частица света - фотон - относится к безмассовым частицам. То есть его масса равна нулю. Такие частицы всегда движутся со скоростью света. Безмассовые частицы могут менять направление движения, энергию и импульc. Черная дыра притягивает вещ...
      996
      JeDi 25 ноября 20:11

      Сколько весит атмосфера и почему она нас не раздавливает

      Задумывались ли вы когда-нибудь, что над нами находятся десятки километров атмосферы, которые на нас давят? Конечно, воздух весить очень мало, однако из-за большой толщины атмосфера весит гораздо больше, чем вы можете себе представить. Теоретически, ее давления достаточно для того, чтобы раздавить человека. Да что там человека! В статье об имплозии мы приводили в каче...
      1057
      JeDi 23 ноября 18:43

      Землю накрыла мощнейшая взрывная волна из космоса: ее причиной стало катастрофическое столкновение галактик

      Далекая космическая катастрофа в 290 миллионах световых лет от Земли потрясла всю видимую Вселенную. Одна галактика врезалась в сообщество четырех других. «Звук» от этого события разлетелся повсюду. Статья об этом только что опубликована в журнале Monthly Notices of the Royal Astronomical Society . Астрономы зафиксировали самую мощную ударную волну,...
      1428
      JeDi 20 ноября 19:52

      Чем будут заниматься в беспилотных автомобилях будущего?

      Надо признать, что красивые и радужные мечты фантастов частенько реализуются, но не совсем в том позитивном виде, в котором о них мечтают и их описывают. Кто его знает как будет использоваться виртуальная реальность, роботы и перемещения в пространстве и времени. Ну это слишком фантастические вещи. А вот например беспилотный автомобиль. Хоть мы и обсуждали уж...
      420
      JeDi 19 ноября 16:57

      Шестой полет Starship

      Сегодня ночью нас ждет очередное космическое шоу в виде нового полета Starship. И да, с одной стороны, они уже начинают восприниматься как что-то довольно обыденное. Но учитывая огромный размах системы, трансляции ее полетов пока что не дают заскучать. Плюс, SpaceX обычно добавляет новые задачи, создавая элемент интриги в стиле «получится или нет». Правда...
      916
      JeDi 18 ноября 17:45

      Индия объявляет о историческом запуске гиперзвуковой ракеты

      Индия провела испытательный запуск своей первой гиперзвуковой ракеты большой дальности, сообщило в воскресенье Министерство обороны, отметив, что страна вошла в небольшую группу государств, обладающих такими программами. Организация оборонных исследований и разработок — агентство при Министерстве обороны — провела испытания в субботу вечером на остр...
      243
      JeDi 8 ноября 17:24

      Галактика с тремя кольцами

      Работающие на телескопе «Субару» астрономы поделились изображением редкого объекта. Им удалось сфотографировать галактику с тремя кольцами. Для классификации галактик большинство астрономов используют т. н. последовательность Хаббла, предложенную еще в 1926 году. Согласно ней, галактики делятся на эллиптические, линзовидные и спиральные (с перем...
      565
      JeDi 5 ноября 16:50

      Зонд Parker готовится к финальному пролету Венеры

      Уже завтра зонд Parker Solar Probe (PSP) выполнит свой последний маневр в окрестностях Венеры. Это позволит ему выйти на финальную орбиту и побить собственный рекорд, став самым близким к Солнцу космическим аппаратом за всю историю. PSP был запущен в 2018 году. Он предназначен для изучения верхнего слоя солнечной атмосферы, называемого короной, и происх...
      272
      JeDi 29 октября 19:02

      Фиаско Boeing — США столкнулись с проблемами, пытаясь заменить корабли России

      США столкнулись с проблемами при отказе от услуг России по доставке астронавтов в космос. Такими данными поделился американский журналист Томас Блэк. Некоторое время назад стало известно о том, что американская корпорация Boeing рассматривает возможность продажи своего бизнеса, связанного с полетами в космос. Окончательного решения пока принято не было, но така...
      936
      JeDi 29 октября 16:29

      Телескоп Roman обзавелся коронографом

      Специалисты космического центра им. Годдарда успешно установили коронограф на телескоп Roman. В будущем с помощью этой технологии астрономы смогут заняться поисками обитаемых миров у других звезд. Телескоп Roman станет одной из космических обсерваторий нового поколения, которые должны будут прийти на смену «Хабблу» и «Джеймсу Уэббу»....
      189
      JeDi 28 октября 16:55

      Смотрим на «Рассвет»: чем Россия может ответить на заявленные США «высокосекретные системы РЭБ»

      Автор Telegram-канала «Старше Эдды» прокомментировал заявление США о том, что в 2025 году они получат оружие для подавления спутников. «Космические силы США через СМИ объявили о планах начать развёртывание в следующем году новой высокосекретной системы радиоэлектронной борьбы. Meadowlands предназначена для подавления российских ...
      1202
      JeDi 26 октября 14:00

      Boeing признаёт поражение перед SpaceX и выходит из битвы за космос

      Согласно сенсационной статье в Wall Street Journal, опубликованной 25 октября, Boeing рассматривает возможность продажи всей своей космической отрасли. В последние месяцы компания испытывает особые трудности, и в четверг стало известно, что новое соглашение с главным профсоюзом компании не было достигнуто. Этого соглашения ожидали, поскольку сотрудники завода в...
      476
      JeDi 22 октября 11:02

      Американская стартап-компания предлагает помощь состоятельным парам в проверке эмбрионов на IQ

      Американский стартап взимает с богатых родителей плату за ‘скрининг эмбрионов на IQ’ Американская стартап-компания предлагает помощь состоятельным парам в проверке эмбрионов на IQ с помощью спорной технологии, которая поднимает вопросы об этике генетического усовершенствования. Согласно видеозаписям, сделанным под прикрытием, компания H...
      223
      JeDi 21 октября 20:47

      WSJ с тревогой пишет о проблемах гигантов Boeing и Intel

      Крупнейшие американские корпорации переживают не самые лучшие времена. Несмотря на наличие дешевых энергоносителей и в целом более благоприятную ситуацию, чем в Европе, отраслевые флагманы терпят убытки и движутся к краху. Речь идет о главной американской авиастроительной корпорации Boeing и производителе процессоров и другой высокотехнологичной продукции Intel...
      889
      JeDi 21 октября 19:39

      "Роскосмос" заявил о неопознанных объектах возле отключившегося спутника Intelsat 33e

      Госкорпорация "Роскосмос" сообщила, что накануне российские специалисты обнаружили возле отключившегося европейского телекоммуникационного спутника Intelsat-33e около 20 неопознанных космических объектов. Как отмечается в Телеграм-канале госкорпорации, по расчетам российских специалистов, эти объекты появились 19 октября, когда компания...
      2900
      JeDi 21 октября 10:57

      Китай собирается начать покорение мирового рынка со своим собственным процессором GodSon

      Китай, чьи товары и так буквально заполонили большинство мирового рынка, собирается вступить в новую нишу. На этот раз амбициозные планы Китая коснулись области, в которой основными игроками являются такие известные компании, как Intel, AMD и ARM, область центральных процессоров для компьютеров различного назначения. А причиной, позволившей китайцам строить такие,...
      1187
      JeDi 18 октября 16:26

      ESA выделило деньги на предварительную разработку миссии к Апофису

      Европейское космическое агентство (ESA) подписало контракт стоимостью 63 млн евро с компанией OHB Italia SpA. Эти деньги будут потрачены на предварительную подготовку миссии Ramses, целью которой станет астероид Апофис. 13 апреля 2029 года астероид 375-метровый астероид Апофис пролетит на расстоянии 32 тысяч км от Земли. Это ближе, чем орбиты геостационарны...
      308
      JeDi 14 октября 16:33

      Вулканическая экзолуна у газового гиганта

      На сегодняшний день астрономам не удалось подтвердить существование ни одной экзолуны (так называют спутники экзопланет). Это связано с тем, что они слишком малы и тусклы, чтобы их могли обнаружить современные телескопы. Тем не менее, экзолуны могут выдавать косвенные признаки. Одними из них являются вулканические выбросы. Вулканы Ио, самого геологически активного те...
      256
      JeDi 10 октября 20:04

      Дуров впервые рассказал о создании «ВКонтакте» и роли брата Николая

      Дуров рассказал, что первые недели создавал «ВКонтакте» в одиночку: кодил по 20 часов подряд, после чего съедал ведро макарон с сыром. Он поделился сделанным выводом: «Сложных задач в этом мире нет — есть лишь множество мелких» Основатель Telegram Павел Дуров, которому сегодня исполнилось 40 лет, в своем канале впервые рассказал, ...
      837
      Служба поддержи

      Яндекс.Метрика