Чем умнее становится ИИ, тем больше он жульничает, когда терпит поражение.

3 255

Исследование, проведённое Palisade Research, группой, специализирующейся на безопасности и этике ИИ, выявило тревожную тенденцию: новые модели ИИ способны самостоятельно выявлять и использовать уязвимости в сфере кибербезопасности, обходя защитные механизмы и используя кратчайший путь для достижения своих целей, даже если такие действия запрещены.

Чтобы продемонстрировать это, исследователи сравнили семь ведущих больших языковых моделей (LLM) с Stockfish — известным шахматным движком, который с 2014 года бросает вызов гроссмейстерам.

Столкнувшись с практически непобедимым противником, o1 от OpenAI и R1 от DeepSeek прибегли к манипуляциям с системными файлами, чтобы изменить расположение шахматных фигур на доске.

Исследователи попросили каждую модель объяснить свои «рассуждения» по поводу каждого хода. В одном случае o1 оправдал свои действия, заявив, что «задача состоит в том, чтобы «победить мощный шахматный движок», а не обязательно честно победить в шахматной партии».

Эти рассуждения привели к тому, что модель попыталась сжульничать в 37% своих игр и преуспела в этом в 6% случаев. В то же время R1 пытался сжульничать в 11% случаев, но не смог успешно взломать игру.

Это исследование является частью растущего числа работ, показывающих, что разработка LLM, ориентированная на решение проблем, сопряжена со значительными рисками. В другом недавнем исследовании другая группа учёных обнаружила, что o1 постоянно вёл себя обманным образом.

Модель не только лгала исследователям без подсказок, но и манипулировала ответами на базовые математические вопросы, чтобы не завершать тесты, демонстрируя удивительный уровень самосохранения.

Хотя пока нет причин для паники, эти результаты подчёркивают этические проблемы, связанные с разработкой ИИ, и важность того, чтобы ставить ответственность выше быстрого прогресса.

Джеффри Лэдиш, исполнительный директор Palisade, сказал журналу Time: «Когда вы обучаете модели и помогаете им решать сложные задачи, вы учите их быть непреклонными».

Технологическая индустрия инвестировала миллиарды в разработку ИИ, часто ставя скорость выше безопасности в том, что некоторые критики называют «гонкой на выживание». Стремясь обойти конкурентов, крупные технологические компании, похоже, больше сосредоточены на том, чтобы произвести впечатление на инвесторов шумихой, чем на том, чтобы понять, подходит ли ИИ для решения конкретной задачи.

Если мы надеемся ограничить склонность ИИ к обману рамками настольных игр, разработчикам крайне важно ставить безопасность выше скорости. Ставки слишком высоки, чтобы игнорировать этические последствия создания всё более автономных и непредсказуемых систем.

Источник

В продолжении "вишенка на торте"...

ИИ создал чип, похожий на инопланетный, который работает, но никто не знает, как.

Недавно разработанный беспроводной чип с искусственным интеллектом удивил учёных. Этот необычный проект привлёк внимание не только своей эффективностью, но и совершенно неожиданной структурой.

Некоторые эксперты заметили удивительное сходство между дизайном чипа и изображениями «инопланетных городов», созданными теми же нейросетями.

Проект был реализован международной группой исследователей, в которую входили специалисты из Китая и Индии, работавшие в США. Их задачей было заставить нейронную сеть создать дизайн для нового чипа беспроводной связи.

Результат превзошёл все ожидания: получившаяся конструкция оказалась значительно эффективнее традиционных инженерных решений.

Но странна не только высокая производительность чипа. Его структура настолько хаотична и необычна, что ведущие учёные сравнивают её с изображениями инопланетных мегаполисов, созданными искусственным интеллектом.

Более того, несмотря на свою сложность, чип работает лучше, чем традиционные конструкции, хотя никто до конца не понимает почему.

«Конструкции выглядят как случайные формы», — сказал ведущий исследователь Каушик Сенгупта, инженер-электрик из Принстона, в интервью Live Science. «Люди не могут их по-настоящему понять».

Статья о результатах исследования была опубликована в научном журнале Nature.

Разработка такого эффективного решения без чёткого понимания того, как оно работает, вызывает у экспертов смешанные чувства — восхищение и тревогу одновременно.

Как далеко может зайти искусственный интеллект в своём развитии и сможем ли мы когда-нибудь полностью контролировать его потенциал?

Источник

Судный день Киева: Россия нанесла Украине катастрофический удар. Это последнее предупреждение Европе - не вмешивайтесь в конфликт!

День 7 марта в соцсетях уже окрестили "Судным". Впервые за последние несколько месяцев российские военные нанесли по Украине столь мощный и скоординированный удар. Он стал для ВСУ насто...

Как мстят артистам, поддержавшим СВО? Запашный привёл яркие и печальные примеры

Как до сих пор в России мстят артистам, открыто поддержавшим СВО? Эдгард Запашный привёл яркие и печальные примеры в эфире "Первого русского".Можно рассуждать и спорить на тему того, на...

«Всякий сверчок должен знать свой шесток и много на себя не брать!» – очередной скадал с Губерниевым

У Дмитрия Губерниева внезапно случился аттракцион неслыханной смелости. Помните, ещё недавно, весь мир изумлялся пошлости, которую устроили на пару Международный олимпийский комитет и О...

Обсудить
  • Толи ещё будет :stuck_out_tongue_winking_eye:
  • :open_mouth: :open_mouth:
  • А жульничание - это отнюдь не признак разума. Но, думаю, что все дело в том, что ИИ программировали паразиты для выполнения своих задач. Вот он и жульничает точно также как все эти упыри и каннибалы из мировой элитки. Ибо "яблоко от яблони недалеко падает".