Чем умнее становится ИИ, тем больше он жульничает, когда терпит поражение.

4 412

Исследование, проведённое Palisade Research, группой, специализирующейся на безопасности и этике ИИ, выявило тревожную тенденцию: новые модели ИИ способны самостоятельно выявлять и использовать уязвимости в сфере кибербезопасности, обходя защитные механизмы и используя кратчайший путь для достижения своих целей, даже если такие действия запрещены.

Чтобы продемонстрировать это, исследователи сравнили семь ведущих больших языковых моделей (LLM) с Stockfish — известным шахматным движком, который с 2014 года бросает вызов гроссмейстерам.

Столкнувшись с практически непобедимым противником, o1 от OpenAI и R1 от DeepSeek прибегли к манипуляциям с системными файлами, чтобы изменить расположение шахматных фигур на доске.

Исследователи попросили каждую модель объяснить свои «рассуждения» по поводу каждого хода. В одном случае o1 оправдал свои действия, заявив, что «задача состоит в том, чтобы «победить мощный шахматный движок», а не обязательно честно победить в шахматной партии».

Эти рассуждения привели к тому, что модель попыталась сжульничать в 37% своих игр и преуспела в этом в 6% случаев. В то же время R1 пытался сжульничать в 11% случаев, но не смог успешно взломать игру.

Это исследование является частью растущего числа работ, показывающих, что разработка LLM, ориентированная на решение проблем, сопряжена со значительными рисками. В другом недавнем исследовании другая группа учёных обнаружила, что o1 постоянно вёл себя обманным образом.

Модель не только лгала исследователям без подсказок, но и манипулировала ответами на базовые математические вопросы, чтобы не завершать тесты, демонстрируя удивительный уровень самосохранения.

Хотя пока нет причин для паники, эти результаты подчёркивают этические проблемы, связанные с разработкой ИИ, и важность того, чтобы ставить ответственность выше быстрого прогресса.

Джеффри Лэдиш, исполнительный директор Palisade, сказал журналу Time: «Когда вы обучаете модели и помогаете им решать сложные задачи, вы учите их быть непреклонными».

Технологическая индустрия инвестировала миллиарды в разработку ИИ, часто ставя скорость выше безопасности в том, что некоторые критики называют «гонкой на выживание». Стремясь обойти конкурентов, крупные технологические компании, похоже, больше сосредоточены на том, чтобы произвести впечатление на инвесторов шумихой, чем на том, чтобы понять, подходит ли ИИ для решения конкретной задачи.

Если мы надеемся ограничить склонность ИИ к обману рамками настольных игр, разработчикам крайне важно ставить безопасность выше скорости. Ставки слишком высоки, чтобы игнорировать этические последствия создания всё более автономных и непредсказуемых систем.

Источник

В продолжении "вишенка на торте"...

ИИ создал чип, похожий на инопланетный, который работает, но никто не знает, как.

Недавно разработанный беспроводной чип с искусственным интеллектом удивил учёных. Этот необычный проект привлёк внимание не только своей эффективностью, но и совершенно неожиданной структурой.

Некоторые эксперты заметили удивительное сходство между дизайном чипа и изображениями «инопланетных городов», созданными теми же нейросетями.

Проект был реализован международной группой исследователей, в которую входили специалисты из Китая и Индии, работавшие в США. Их задачей было заставить нейронную сеть создать дизайн для нового чипа беспроводной связи.

Результат превзошёл все ожидания: получившаяся конструкция оказалась значительно эффективнее традиционных инженерных решений.

Но странна не только высокая производительность чипа. Его структура настолько хаотична и необычна, что ведущие учёные сравнивают её с изображениями инопланетных мегаполисов, созданными искусственным интеллектом.

Более того, несмотря на свою сложность, чип работает лучше, чем традиционные конструкции, хотя никто до конца не понимает почему.

«Конструкции выглядят как случайные формы», — сказал ведущий исследователь Каушик Сенгупта, инженер-электрик из Принстона, в интервью Live Science. «Люди не могут их по-настоящему понять».

Статья о результатах исследования была опубликована в научном журнале Nature.

Разработка такого эффективного решения без чёткого понимания того, как оно работает, вызывает у экспертов смешанные чувства — восхищение и тревогу одновременно.

Как далеко может зайти искусственный интеллект в своём развитии и сможем ли мы когда-нибудь полностью контролировать его потенциал?

Источник

Россия лишила самого ценного лучших людей страны

Богатые и знаменитые, владельцы бизнесов по продаже платьишек и маечек за невменяемые деньги, админы тг-каналов с десятками тысяч подписчиков непрерывно в эти предпарадные дни строчат в...

Дроны по Москве запускают с лесных опушек: Эксперт Товкач объяснил схему – "Привозят почтой. Поставил на два кирпича – и вперёд"

Андрей РевнивцевВ преддверии Дня Победы враг уже несколько дней подряд запускает дроны в сторону Москвы – вечером, ночью, утром и даже днём. Только за 7 мая – более 500 с лишним БПЛА. П...

Ни один из солдат этого рода войск не сдался в плен
  • Hook
  • Вчера 10:45
  • В топе

22 июня 1941 года могучий и великий СССР подвергся вероломному нападению фашистской Германии. Это нам знакомо еще из школьных учебников истории. Но это утверждение будет не совсем верным, потому к...

Обсудить
  • Толи ещё будет :stuck_out_tongue_winking_eye:
  • :open_mouth: :open_mouth:
  • А жульничание - это отнюдь не признак разума. Но, думаю, что все дело в том, что ИИ программировали паразиты для выполнения своих задач. Вот он и жульничает точно также как все эти упыри и каннибалы из мировой элитки. Ибо "яблоко от яблони недалеко падает".
  • :neckbeard: :boom: :imp: