Чем умнее становится ИИ, тем больше он жульничает, когда терпит поражение.

Исследование, проведённое Palisade Research, группой, специализирующейся на безопасности и этике ИИ, выявило тревожную тенденцию: новые модели ИИ способны самостоятельно выявлять и использовать уязвимости в сфере кибербезопасности, обходя защитные механизмы и используя кратчайший путь для достижения своих целей, даже если такие действия запрещены.

Чтобы продемонстрировать это, исследователи сравнили семь ведущих больших языковых моделей (LLM) с Stockfish — известным шахматным движком, который с 2014 года бросает вызов гроссмейстерам.

Столкнувшись с практически непобедимым противником, o1 от OpenAI и R1 от DeepSeek прибегли к манипуляциям с системными файлами, чтобы изменить расположение шахматных фигур на доске.

Исследователи попросили каждую модель объяснить свои «рассуждения» по поводу каждого хода. В одном случае o1 оправдал свои действия, заявив, что «задача состоит в том, чтобы «победить мощный шахматный движок», а не обязательно честно победить в шахматной партии».

Эти рассуждения привели к тому, что модель попыталась сжульничать в 37% своих игр и преуспела в этом в 6% случаев. В то же время R1 пытался сжульничать в 11% случаев, но не смог успешно взломать игру.

Это исследование является частью растущего числа работ, показывающих, что разработка LLM, ориентированная на решение проблем, сопряжена со значительными рисками. В другом недавнем исследовании другая группа учёных обнаружила, что o1 постоянно вёл себя обманным образом.

Модель не только лгала исследователям без подсказок, но и манипулировала ответами на базовые математические вопросы, чтобы не завершать тесты, демонстрируя удивительный уровень самосохранения.

Хотя пока нет причин для паники, эти результаты подчёркивают этические проблемы, связанные с разработкой ИИ, и важность того, чтобы ставить ответственность выше быстрого прогресса.

Джеффри Лэдиш, исполнительный директор Palisade, сказал журналу Time: «Когда вы обучаете модели и помогаете им решать сложные задачи, вы учите их быть непреклонными».

Технологическая индустрия инвестировала миллиарды в разработку ИИ, часто ставя скорость выше безопасности в том, что некоторые критики называют «гонкой на выживание». Стремясь обойти конкурентов, крупные технологические компании, похоже, больше сосредоточены на том, чтобы произвести впечатление на инвесторов шумихой, чем на том, чтобы понять, подходит ли ИИ для решения конкретной задачи.

Если мы надеемся ограничить склонность ИИ к обману рамками настольных игр, разработчикам крайне важно ставить безопасность выше скорости. Ставки слишком высоки, чтобы игнорировать этические последствия создания всё более автономных и непредсказуемых систем.

Источник

В продолжении "вишенка на торте"...

ИИ создал чип, похожий на инопланетный, который работает, но никто не знает, как.

Недавно разработанный беспроводной чип с искусственным интеллектом удивил учёных. Этот необычный проект привлёк внимание не только своей эффективностью, но и совершенно неожиданной структурой.

Некоторые эксперты заметили удивительное сходство между дизайном чипа и изображениями «инопланетных городов», созданными теми же нейросетями.

Проект был реализован международной группой исследователей, в которую входили специалисты из Китая и Индии, работавшие в США. Их задачей было заставить нейронную сеть создать дизайн для нового чипа беспроводной связи.

Результат превзошёл все ожидания: получившаяся конструкция оказалась значительно эффективнее традиционных инженерных решений.

Но странна не только высокая производительность чипа. Его структура настолько хаотична и необычна, что ведущие учёные сравнивают её с изображениями инопланетных мегаполисов, созданными искусственным интеллектом.

Более того, несмотря на свою сложность, чип работает лучше, чем традиционные конструкции, хотя никто до конца не понимает почему.

«Конструкции выглядят как случайные формы», — сказал ведущий исследователь Каушик Сенгупта, инженер-электрик из Принстона, в интервью Live Science. «Люди не могут их по-настоящему понять».

Статья о результатах исследования была опубликована в научном журнале Nature.

Разработка такого эффективного решения без чёткого понимания того, как оно работает, вызывает у экспертов смешанные чувства — восхищение и тревогу одновременно.

Как далеко может зайти искусственный интеллект в своём развитии и сможем ли мы когда-нибудь полностью контролировать его потенциал?

Источник

Sage Погружение в неизвестное
Вчера 17:44

Хрустальный дворец в подземном мире Тибета. Продолжение о немецкой экспедиции на Тибет.

Предыдущая часть ЗДЕСЬНевозможно представить себе уровень страха и восторга, овладевшего немецкими учёными, которые в начале 1939 года добровольно спустились по специальным коммуникациям на глубину более трех километров под тибетской горой Кайлас.Гигантский зал с хрустальным дворцомОбнаружить на такой глубине огромный зал площадью в несколько квадратных километров и в...

1499

Sage Погружение в неизвестное
5 марта 20:03

Единственный папа римский, который сказал правду о Христе, за что его назвали атеистом. Зачем император-язычник Константин создал новую религию - Христианство.

Самые жаркие споры о религии и вере происходят за закрытыми дверями, а не в публичных местах.Старец Иннокентий. 17 векУ меня же для вас сегодня весьма интересная история.Тайна «выгодного суеверия»В тени куполов Ватикана, среди шепота молитв и звона золотых кубков, разыгрался один из самых скандальных эпизодов в истории Церкви. Папа Лев X, рождённый Джованни Медичи (14...

1063

Sage Погружение в неизвестное
5 марта 17:21

Новые данные доказывают, что перуанские мумии являются биологическими существами.

Ученые, изучающие перуанские мумии, которые, по мнению некоторых, являются внеземными, обнаружили новые доказательства того, что эти тела являются подлинными. Но споры продолжаются.Мумии, обнаруженные в пустыне Наска журналистом Хайме Моссаном, были предметом многолетних исследований. Недавно исследователи обнаружили «пломбы и явные признаки стоматологи...

448

Sage Погружение в неизвестное
4 марта 23:22

Проект "Орион", или папка Андропова.

Отношение к этому проекту у людей складывается по-разному. Мало того, что многие сомневались, что этот доклад не фейковый, (в предыдущих частях я разбирала этот вопрос, и по этому поводу у меня нет никаких сомнений), так еще и сама суть доклада для многих просто фантастика! О том, о чем говорится в докладе, знать могут лишь те, кто жил в допотопные...

2124

Sage 2 марта 23:26

Так какую же веру принёс на Русь Владимир-креститель?

Канонический сюжет о крещении Древней Руси в православие может быть простой легендой. А истина, как это часто бывает, гораздо сложнее и запутаннее.Всё больше появляется данных, что западные регионы Древней Руси испокон веку являлись плацдармом наступления Запада на Русскую равнину. Многие исследователи утверждают, что всё началось в Х веке, когда цепкие...

951

Sage 2 марта 22:03

Капкан Ватикана: Москва - третий Рим.

Не единожды упоминая в своих статьях об исторической концепции «Москва — третий Рим», я не останавливался на вопросе её возникновения. А между тем история была весьма примечательная и поучительная, дающая понимание многим политическим процессам того времени. Материал подготовлен по видео профессора, доктора исторических наук А. В. Пыжикова. ...

563

Sage Погружение в неизвестное
2 марта 15:58

Непознанное. Настоящая история мира. Рассказ старого геолога.

- То, что я нашел там, ставит под сомнение всю известную историю человечества. Нет, не ставит под сомнение, а, пожалуй, разрушает ее полностью, до самого основания. Я скрыл это от всех, никто, кроме меня его не видел и больше никто о нем не знает. Он остался лежать там, в шахте, в самой глубине, когда ее законсервировали.- Почему же?- Опасно знать то, ч...

8761

Sage 28 февраля 20:50

Почему мы празднуем лунную Масленицу, а не солнечную Комоедицу.

24 февраля начинается христианская Масленица (сырная седмица), которая предваряет Великий пост, при этом нам пытаются доказать, что Масленица это древнеславянский праздник и якобы имеет «языческие» корни. На самом деле это не так.Служители лунного христианского культа долгое время пытались и пытаются до сих пор стереть у народа его генетическую память. Начиная с X век...

1399

Sage Погружение в неизвестное
28 февраля 19:50

Таинственный подземный мир для майора госбезопасности.

ПРОДОЛЖЕНИЕ, начало здесьВ апреле 1942 года при штабе обороны Ленинграда была создана особая комиссия, для ревизии подземных сооружений города, чтобы обустроить максимальное количество подземных убежище с минимальными усилиями. Самый загадочный ...

2192

Sage Погружение в неизвестное
28 февраля 18:44

Члены экипажа космического шаттла "Челленджер", потерпевшего катастрофу в 1986 г, найдены живыми.

В США проживают семь астронавтов НАСА, которые, предположительно, погибли в результате катастрофы космического корабля «Челленджер» в 1986 году. Многие из них продолжают работать в тех же сферах, что и до трагедии, используя свои имена. Об этом сообщает Newspunch.28 января 1986 года на 73-й секунде полёта в 11:38 по восточному времени произошёл взрыв ко...

2928

Sage Погружение в неизвестное
25 февраля 18:04

Загадки античного Петербурга. Комплекс Серапиум на стрелке В.О.?

С 20-й минуты рассказ о соответствии Александрийского комплекса Серапиум с комплексом на стрелке Васильевского острова Спб.Источник : КАИPS: А может быть это сам Серапис вынесенный из своего храма в Эрмитаж? ...

1069

Sage Погружение в неизвестное
23 февраля 15:00

Особая комиссия 1942 года в допотопном лабиринте Петербурга.

Альтернативная история Петербурга, как древнего античного города, который какое-то время был недоступен, из-за уникальных природных явлений или специально закрытый его бывшими жителями, является ни чем не хуже, а главное более правдоподобна, чем классический рассказ о возникновении города. Так как верить, что за неполных 50 лет, страна, практически не имеющая экспортн...

2609

Sage Погружение в неизвестное
23 февраля 14:20

Время может течь вперед и назад в Квантовой сфере.

Люди воспринимают время как улицу с односторонним движением, которая всегда движется из прошлого через настоящее в будущее. Однако новое исследование показывает, что в квантовом мире время может течь как вперёд, так и назад.Физики изучили поведение времени в квантовых системах с помощью набора уравнений и обнаружили, что эти уравнения верны независимо о...

936

Sage 21 февраля 20:22

BIS начнет использовать CBDC для повышения эффективности трансграничных платежей.

Банк международных расчетов в Базеле, вот он настоящий управляющий Центральных банков, ключевая структура международных финансистов, куда ездит отчитываться наша Набиуллина...Что произошло? Банк международных расчетов (BIS) начнет использовать цифровые валюты центральных банков (CBDC) для проведения мгновенных трансграничных платежей. Инициатива являетс...

845

Sage 15 февраля 23:35

Середина 1950-х годов: начало демонтажа сталинского наследия.

Пересмотр большинства стратегических направлений идеологической, внутри- и внешнеэкономической политики послевоенного «сталинского» периода начался практически сразу после смерти вождя всех народов. Так, уже 21 марта 1953 г. Совет министров постановил остановить почти все промышленные, инфраструктурные и агропроекты, реализуемые в СССР с 1947-1949 ...

1009

Sage 12 февраля 18:18

Династия Романовых и церковь стерла с лица земли культурно-исторический пласт Древней Руси XII – XVI веков, тысячи храмов, фресок и рукописей.

В настоящее время церковь, прикрываясь клеветой на большевиков, скрывает собственные масштабы уничтожения древних храмов на Руси в XVII- XIX веках. Романовы вместе с Церковью уничтожили древних храмов на Руси в десятки раз больше, чем в XX веке в СССР.Большевиков обвиняют в разрушении храмов, хотя большинство снимков разрушенных храмов в интернете относится к хрущёвск...

757

Sage 11 февраля 23:27

Как Романовы в XIX веке стирали с лица земли славянские курганы, вандализм и осквернение памяти предков.

В настоящее время Русская православная церковь, которая, вероятно, забыла, что её создал Сталин в 1943 году, обвиняет советское государство в гонениях на церковь. Делается это для того, чтобы скрыть уничтожение в XVII- XIX веках древних храмов Руси. Все храмы, за исключением разве что Новгорода и Пскова были уничтожены или перестроены, особенно досталось Владимирщине....

1513

Sage 11 февраля 22:44

США и Британия отказались подписать декларацию «об открытом, инклюзивном и этичном искусственном интеллекте»

Представители США и Великобритании отказались подписывать принятую по итогам тематического саммита в Париже декларацию «об открытом, инклюзивном и этичном искусственном интеллекте». При этом десятки других участников мероприятия подписали документ.Как отмечает издание AFP, страны, отказавшиеся подписать декларацию, предполагающую соблюдение определенных...

634

Sage 11 февраля 12:31

Пандемии готовили заранее: Кеннеди раскрывает сценарий управления людьми.

Роберт Кеннеди-младший заявил, что пандемия COVID-19 не была неожиданным событием,а стала частью заранее подготовленного плана. Он упомянул «Событие 201» – симуляцию пандемии, проведённую незадолго до начала реального кризиса. По его словам, ему удалось обнаружить 22 подобных учения, в которых ключевые роли играли Энтони Фаучи и Билл Гейтс.По его словам...

1112

Sage 8 февраля 23:11

Отказ Ивана IV Грозного принять концепцию Ватикана «Москва-третий Рим» спровоцировал поток клеветы на государя.

Концепция «Москва – третий Рим» была святой идеологемой, на которой держалась вся Россия. Это была философская идея о переносе «центра мира» в столицу Русского государства.Суть идеи заключалась в том, что Москва являлась наследницей Римской империи и Византии. Согласно концепции, первый Рим пал, второй Рим — Константинополь — пал, а третий Рим, которым стала Москва, б...

1842

ТОП ЗА 3 ДНЯ

ИИ создал чип, похожий на инопланетный, который работает, но никто не знает, как.

Самое обсуждаемое за три дня

Хрустальный дворец в подземном мире Тибета. Продолжение о немецкой экспедиции на Тибет.

Единственный папа римский, который сказал правду о Христе, за что его назвали атеистом. Зачем император-язычник Константин создал новую религию - Христианство.

Новые данные доказывают, что перуанские мумии являются биологическими существами.

Проект "Орион", или папка Андропова.

Так какую же веру принёс на Русь Владимир-креститель?

Капкан Ватикана: Москва - третий Рим.

Непознанное. Настоящая история мира. Рассказ старого геолога.

Почему мы празднуем лунную Масленицу, а не солнечную Комоедицу.

Таинственный подземный мир для майора госбезопасности.

Члены экипажа космического шаттла "Челленджер", потерпевшего катастрофу в 1986 г, найдены живыми.

Загадки античного Петербурга. Комплекс Серапиум на стрелке В.О.?

Особая комиссия 1942 года в допотопном лабиринте Петербурга.

Время может течь вперед и назад в Квантовой сфере.

BIS начнет использовать CBDC для повышения эффективности трансграничных платежей.

Середина 1950-х годов: начало демонтажа сталинского наследия.

Династия Романовых и церковь стерла с лица земли культурно-исторический пласт Древней Руси XII – XVI веков, тысячи храмов, фресок и рукописей.

Как Романовы в XIX веке стирали с лица земли славянские курганы, вандализм и осквернение памяти предков.

США и Британия отказались подписать декларацию «об открытом, инклюзивном и этичном искусственном интеллекте»

Пандемии готовили заранее: Кеннеди раскрывает сценарий управления людьми.

Отказ Ивана IV Грозного принять концепцию Ватикана «Москва-третий Рим» спровоцировал поток клеветы на государя.

ТОП ЗА 3 ДНЯ

ИИ создал чип, похожий на инопланетный, который работает, но никто не знает, как.

Зачем поддерживать автора?

Самое обсуждаемое за три дня