• РЕГИСТРАЦИЯ

Шокирующий отчет Apollo Research показал темную сторону ИИ

10 1084

Большие языковые модели (также называемые LLM) уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.

К сожалению, заголовок - не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Только что опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в \~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)

Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей. Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Отчет Apollo Research показал, что этот поезд уже ушел.

- Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.

- И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).

Получается, уже приехали…

https://masterok.livejou...

Будущее - это технологии

    О несдающихся

    У себя в Телеграм и во многих других местах я часто натыкаюсь на дискуссию: почему украинцы не сдаются. Основные предлагаемые варианты:1. Потому что глупые.2. Потому, что боятся.3. Пото...

    "ДОЕДАЮТ ПОСЛЕДНИХ МЕДВЕДЕЙ": РУССКИЕ МАГАЗИНЫ ПОРАЗИЛИ АМЕРИКАНЦЕВ, МЕТРО — ЧУДО СВЕТА

    АЛЕКСАНДР БАБИЦКИЙРепортажи о России на Западе бьют рекорды по просмотрам — это становится всё более популярным медийным трендом. Вот только их авторами являются не журналисты либеральных СМИ, которые...

    Ловушка идеологии

    До сих пор вроде бы достаточно умные люди периодически вздыхают и говорят: "Да, всё хорошо, вот только идеологии нам не хватает". Я бы не удивился, если бы по поводу идеологии так переж...

    Ваш комментарий сохранен и будет опубликован сразу после вашей авторизации.

    0 новых комментариев

      JeDi 15 марта 18:47

      Обгоняет ли Китай Соединенные Штаты в космосе?

      Долгое время доминирующие в космической сфере США теперь сталкиваются с растущей конкуренцией со стороны Китая, который активно наращивает свои космические возможности. Технологические достижения Китая, особенно в таких стратегических областях, как дозаправка спутников на орбите и разработка стелс-технологий, ставят под вопрос лидерство США в космосе. Эти измен...
      339
      JeDi 13 марта 17:45

      Как США будет использовать искусственный интеллект в войнах будущего

      В США всерьёз задумались над тем, как можно использовать искусственный интеллект с максимальной эффективностью. Так появился проект «Convergence», позволяющий на передовом уровне применять высокие технологии в войнах будущего. Намерениями американцев уже заинтересовались в Москве и Пекине. Надёжный союзник В пустыне штата Аризона на испытатель...
      311
      JeDi 7 марта 20:53

      Starship снова взорвалась: проблемы с Block 2 продолжаются

      7 марта 2025 года компания SpaceX провела восьмой испытательный полет ракеты Starship. Однако миссия завершилась неудачей: через несколько минут после старта ракета взорвалась. Это уже второй подобный инцидент за последние несколько месяцев, что указывает на сохраняющиеся проблемы с конструкцией и системами ракеты. Неудачный старт и повторение прошлых ошибок...
      900
      JeDi 5 марта 10:55

      Как ИИ в США заходит в тупик, или Почему Вашингтону нужен диалог с Москвой

      Константин Церазов — о проблемах США в сфере искусственного интеллекта (и не только) из-за "зеленой" повестки Глава Минэнерго США Крис Райт сравнил развитие технологий искусственного интеллекта (ИИ) с Манхэттенским проектом, участники которого занимались разработкой ядерного оружия. ИИ, действительно, это не просто тема для хайпа. Эта ...
      766
      JeDi 14 февраля 13:55

      Оптические диски и их история

      В общем доступе оптические компакт-диски появились в 1982 году, прототип увидел свет еще раньше — в 1979. Изначально компакты разрабатывали в качестве замены виниловым дискам, как более качественный и надежный носитель. Считается, что лазерные диски являются результатом совместной работы команд двух технологических корпораций — японской Sony и голландс...
      829
      JeDi 11 февраля 13:56

      В России разрабатывается плазменный двигатель, способный достичь Марса за 30 дней

      Недавно ученые Росатома объявили о разработке плазменного электрического ракетного двигателя — инновационной технологии, которая может произвести революцию в межпланетных путешествиях. По словам ученых, этот двигатель сможет доставить космический корабль на Марс всего за один-два месяца, что значительно сократит время полета по сравнению с традиционными м...
      733
      JeDi 10 февраля 20:55

      Суперкомпьютер El Capitan официально запущен для секретных задач США

      В Национальной лаборатории Лоуренса Ливермора (LLNL) в Калифорнии официально запущен самый быстрый суперкомпьютер в мире под названием El Capitan. Стоимость его создания составила 600 миллионов долларов. Этот суперкомпьютер будет использоваться для решения критически важных задач, включая обеспечение безопасности ядерного арсенала США, а также для исследований ...
      485
      JeDi 10 февраля 17:08

      Учёные обнаружили молекулярный «переключатель», способный обратить рак вспять

      Ученые совершили прорыв в лечении рака, обнаружив молекулярный «переключатель», который способен обратить развитие раковых клеток вспять. В отличие от традиционных методов лечения, направленных на уничтожение злокачественных клеток хирургическим путем, химиотерапией или радиотерапией, новый подход предполагает трансформацию раковых клеток обратно в здо...
      1460
      JeDi 6 февраля 17:49

      Почему забросили советский адронный коллайдер

      Запуск в 2008 году большого адронного коллайдера стал настоящим прорывом в науке, который ждали вот уже много лет. Однако мало кто знает, что эта научная революция могла произойти гораздо раньше, и не в Европе, а на отечественных просторах. А всё потому, что в Советском Союзе не просто существовал, но и был почти реализован проект ускорительно-накопительного компл...
      1032
      JeDi 6 февраля 14:35

      Google снимает запрет: теперь их ИИ можно использовать в военных целях

      Alphabet, материнская компания Google, недавно внесла серьезные изменения в свою этическую хартию, отменив некоторые обещания, данные несколько лет назад, в частности запрет на использование моделей искусственного интеллекта в военных целях. В 2018 году более 3 000 сотрудников Google протестовали против участия компании в Project Maven, программе военных исслед...
      270
      JeDi 2 февраля 19:38

      DeepSeek — прорыв или маркетинговый ход?

      Недавний отчёт аналитической компании SemiAnalysis проливает свет на истинные затраты, связанные с разработкой китайской языковой модели DeepSeek, опровергая ранее заявленные цифры. Первоначально сообщалось, что обучение модели обошлось всего в 5–6 миллионов долларов, что значительно ниже расходов западных технологических гигантов. Однако, согласно данным Se...
      626
      JeDi 1 февраля 10:54

      История загадочных содовых локомотивов

      Паровой локомотив, работающий на... соде? Звучит невероятно, но такие машины действительно существовали – пусть и на короткий период. Этот любопытный тип локомотива использовался как в Европе, так и в Америке, но не получил широкого распространения. В основе его конструкции лежал тот же принцип, что и у обычного паровоза, но вот способ нагрева воды был со...
      679
      JeDi 26 января 10:45

      Директор ЦРУ : НЛО обладают нечеловеческими технологиями

      Директор ЦРУ признает, что НЛО обладают нечеловеческими технологиями, от которых «мы не можем защититься» Директор ЦРУ Джон Рэтклифф выступил с ошеломляющим предупреждением о неопознанных воздушных явлениях (UAP), подтвердив, что они обладают передовыми технологиями, “от которых мы не можем защититься” и бросают вызов традицион...
      737
      JeDi 24 января 19:22

      Ученые поняли, чем была «вторая Луна» Земли

      Осенью 2024 года у Земли появилась «вторая Луна» — астероид 2024 PT5. Исследователи доказали, что объект прилетел с Луны, а не является космическим мусором. С сентября по ноябрь 2024 года у Земли была временная «вторая Луна» — астероид 2024 PT5 диаметром 10 метров. Его заметили 7 августа с помощью телескопа Сазерленда (Южная ...
      1086
      JeDi 23 января 14:50

      Китайское искусственное солнце побило рекорд по ядерному синтезу

      В поисках чистой, практически неограниченной и экологически чистой энергии сделан еще один шаг вперед благодаря впечатляющему научному достижению: китайский реактор EAST (Experimental Advanced Superconducting Tokamak) установил новый мировой рекорд, поддерживая сверхгорячую плазму в течение 1066 секунд, или почти восемнадцать минут. Достигнутый благодаря значитель...
      1551
      JeDi 19 января 10:43

      В США заблокировали TikTok

      Сервис также не отображается в магазине приложений Apple Сервис создания и просмотра коротких видео TikTok прекратил работу в США из-за запрета, введенного американскими властями, сообщает корреспондент ТАСС.   "Закон, запрещающий TikTok, вступил в силу в США. К сожалению, это означает, что вы пока не можете пользоваться TikTok", - говори...
      367
      JeDi 15 января 14:53

      Чем они опасны для здоровья Bluetooth-наушники

      С каждым годом в мире растёт популярность Bluetooth-наушников. Объясняется этот тем, что современные люди выбирают общение «без границ» – без рук и проводов. Это удобно и безопасно, но только не для здоровья. Как же такие аксессуары сказываются на организме пользователя?   Ближе к телу Беспроводные наушники – это источник ради...
      1989
      JeDi 12 января 20:05

      Украина начинает «гитлеровскую реформу образования» для рабов: старшеклассникам вдвое уменьшат количество обязательных предметов

      Украина начинает «гитлеровскую реформу образования» для рабов. Шокирующую реформу прокомментировал Кость Бондаренко — украинский историк, политолог, кандидат исторических наук, глава Фонда «Украинская политика». «Говорят, Герман Геринг как-то сказал: «Туземец на оккупированной территории должен обладать таким уровн...
      722
      JeDi 17 декабря 2024 г. 17:20

      «Был выброс крупного протуберанца в космос»: синоптики сообщили о накрывшей Землю магнитной буре

      Утром 17 декабря на Земле началась слабая магнитная буря класса G1, сообщил ведущий специалист центра погоды «Фобос» Михаил Леус. Причиной выброса энергии стало увеличение скорости и плотности солнечного ветра. В беседе с RT эксперты рассказали, что в связи с этим в некоторых местах Земли наблюдаются полярные сияния. Для того чтобы легче перенести бурю, вр...
      844
      JeDi 26 ноября 2024 г. 18:33

      Почему Черная Дыра затягивает фотон, если он не имеет массы?

      Черная дыра - уникальный объект. Из-за сверхвысокой гравитации она поглощает все вокруг, включая свет. Но как это возможно? Частица света - фотон - относится к безмассовым частицам. То есть его масса равна нулю. Такие частицы всегда движутся со скоростью света. Безмассовые частицы могут менять направление движения, энергию и импульc. Черная дыра притягивает вещ...
      1140
      Служба поддержи

      Яндекс.Метрика