Симуляция разума или реальный интеллект: тест, который ИИ не прошёл.

Оказалось, что даже самые умные алгоритмы не умеют думать по-настоящему.

Современные модели искусственного интеллекта, способные к так называемому «смоделированному рассуждению» (Simulated Reasoning, SR), демонстрируют любопытный парадокс. Они справляются с рутинными математическими задачами, но проваливаются на более глубоком уровне — при решении конкурсных задач, требующих построения строгих доказательств.

К такому выводу пришли исследователи из ETH Zurich и INSAIT при Софийском университете — Иво Петров и Мартин Вечев. Их работа «Доказательство или блеф? Оценка LLM на математической олимпиаде в США в 2025 году» проливает свет на реальные ограничения SR-моделей, несмотря на амбициозные заявления некоторых разработчиков ИИ.

В отличие от обычных крупных языковых моделей (LLM), SR-модели обучены генерировать цепочку рассуждений — пошаговый процесс решения задач. При этом «смоделированное» не означает полного отсутствия рассуждений, а указывает на отличие их методов от человеческих.

Для тестирования возможностей SR-моделей были выбраны задания 2025 года с Олимпиады по математике США (USAMO). Эти задачи требовали не просто ответов, а полных логических доказательств. По результатам тестирования средний процент правильных решений для большинства моделей составил менее 5%. Лишь Google Gemini 2.5 Pro смогла достичь 24% от максимального результата, тогда как остальные участники — такие как DeepSeek R1, Grok 3, Anthropic Claude 3.7 Sonnet и Qwen»s QwQ-32B — показали ещё более скромные результаты.

При анализе ошибок стало очевидно: модели часто делали логические скачки без достаточных обоснований, строили выводы на непроверенных предположениях и не исправляли собственные противоречия. Так, например, модель Qwen QwQ допустила ошибку на пятой задаче USAMO, неправильно исключив допустимые значения, что привело к неверному решению.

Особую обеспокоенность вызвал тот факт, что модели с высокой уверенностью выдавали ошибочные доказательства, не демонстрируя признаков осознания собственных ошибок. Авторы исследования считают, что одна из причин кроется в методах обучения моделей — например, в неправильном перенесении требований к форматированию ответов в неприменимых контекстах.

Разрыв между решением задач и построением доказательств наглядно демонстрирует границу возможностей современных SR-моделей. Они умеют эффективно распознавать и воспроизводить знакомые шаблоны, но не способны к полноценному конструированию новых логических рассуждений.

Технология chain-of-thought действительно улучшает результаты, поскольку увеличивает вычислительные ресурсы, направляемые на последовательную генерацию промежуточных выводов. Однако в основе остаётся чистая вероятностная обработка данных, а не подлинное понимание абстрактных понятий.

Хотя такие модели, как Gemini 2.5 Pro, уже показывают заметные улучшения, преодоление текущего барьера потребует гораздо более глубоких изменений в архитектуре и обучении нейросетей. Имеются предложения интегрировать элементы символьного ИИ и проверку доказательств, чтобы устранить склонность моделей к уверенной генерации некорректных решений.

Некоторые исследователи видят перспективу в гибридных подходах вроде AlphaGeometry от DeepMind, которые объединяют нейронные сети с методами формальной верификации. Такие системы не гарантируют нахождение решения, но предотвращают генерацию ложных доказательств — тем самым устраняя ключевой недостаток современных SR-моделей.

Краткосрочные прогнозы остаются сдержанными: на пути к подлинному математическому мышлению ИИ ещё предстоит преодолеть значительные технологические и концептуальные барьеры.

По материалам: https://www.securitylab.ru/new...

В.К. Вся эта возня с ИИ напоминает один большой общий социальный дурдом, в котором людей, помещённых в него, те, кто их туда поместил, посредством технократии и психолингвистических приёмов пытаются сделать психами, хотя на самом деле, психами являются, пока, не люди, но, к сожалению, далеко не все, а те, кто их поместил в этот общий дурдом.

Вот так и пытаемся жить, формируя своё будущее.

Vladimir Kouprin Вчера 13:16

Терроризм как последствие договорняка и "жестов доброй воли".

В.К. В настоящее время коллективный Запад, как его именуют, и, к сожалению, большая часть его простого населения, находятся в состоянии идиотического криза. Поэтому все попытки как-то с ним о чём-то договориться обречены на провал даже, если прибегать к "жестам доброй воли" причём, чем больше будет этих жестов, тем больше терроризм будет нарастать.Украина призналась в...

300

Vladimir Kouprin Вчера 12:14

Марсоходы ищут не там: Геолог раскрыл, где на Красной планете может быть жизнь.

По мнению учёного, космические агентства неправильно выбирают места для работы марсоходов и почему-то не обращают внимания на обширный регион, где для биологических процессов сохраняются действительно подходящие условия. Геолог назвал лучшее место для жизни на Марсе. Обложка © Shutterstock / FOTODOM / Gerhald.Жизнь на Марсе определённо была и, вполне воз...

659

Vladimir Kouprin 28 апреля 09:19

Подготовка к войне: Индия проводит испытательные пуски ракет, Пакистан перебрасывает технику к границе (ВИДЕО)?

Индия и Пакистан готовятся к возможной эскалации конфликта. Военно-морской флот Индии провёл испытательные пуски противокорабельных ракет на фоне эскалации напряжённости.В сети появляется все больше роликов, на которых видна переброска Пакистаном авиации и военной техники ближе к границе.(Видео вы сможете посмотреть на портале источника) Источник:&n...

463

Vladimir Kouprin 28 апреля 08:32

«Она токсичная»: в ЕС начали требовать отставки фон дер Ляйен.

«Токсичная женственность у руля ЕС. Урсула фон дер Ляйен становится заложницей. Дипломаты требуют её ухода», — швейцарское издание Die Weltwoche пишет, что в ЕС начали требовать отставки председателя Еврокомиссии. «Рыба гниёт с головы. Урсула фон дер Ляйен вмешалась в избирательную кампанию в США и решительно встала на сторону Байдена. Позиция в отношени...

139

Vladimir Kouprin 28 апреля 08:08

Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника.

ИИ, конечно, умный (?). Но сказку про "плохого помощника" он всё равно купил. В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти метод...

1039

Vladimir Kouprin 27 апреля 10:05

Китай «захватил» принадлежащий Вьетнаму остров Сэнд-Кей в Южно-Китайском море? Financial Times (КАРТА).

Китай «захватил» принадлежащий Вьетнаму остров Сэнд-Кей в Южно-Китайском море, сообщает Financial Times. Китай захватил спорный риф поблизости от военной базы Филиппин в Южно-Китайском море.«Береговая охрана Китая осуществляла морской контроль и суверенную юрисдикцию над островом Сэнд-Кей. Там развернули китайский флаг» — сообщает китайский госканал CCTV...

431

Vladimir Kouprin 27 апреля 09:33

Чубайс избежал в суде ответственности по миллиардным долгам.

Арбитражный суд Москвы отказался привлекать Анатолия Чубайса к ответственности по миллиардным долгам компании «Лира», следует из документов, имеющихся в распоряжении РИА Новости. Заявление в суд подал конкурсный управляющий обанкротившейся «Лиры» Кирилл Ноготков. Он требовал привлечь к ответственности Чубайса, которого назвал бенефициаром активов должник...

341

Vladimir Kouprin 27 апреля 09:19

Смелость покинуть стадо :: Ницше...

В.К. Слушайте внимательно. Не торопитесь делать выводы, иначе упустите смысл сказанного. В помощь же, напоминаю слова Гегеля о том, что воистину свободным человек становится лишь тогда, когда осознаёт единственную для себя необходимость - следовать необходимостям природы.Казалось бы, очевидная вещь, поскольку именно природа, во всеобъемлющем смысле, и есть непрерывно ...

516

Vladimir Kouprin 25 апреля 10:24

Мы боимся ИИ, но настоящий монстр — тот, кто держит его на поводке.

Крестьяне кричали «Небо ослепло», а мы — «ИИ нас уволит», и всё это об одном. В знойное лето 18 года нашей эры над выжженной солнцем китайской равниной разносился отчаянный крик: «Небо ослепло!» Тысячи голодающих крестьян с лицами, измазанными бычьей кровью, направлялись к сокровищницам, принадлежавшим элите династии Хань.Как зафиксировано в древнем текс...

417

Vladimir Kouprin 25 апреля 09:17

По Марсу ходят/ходили поезда?

На снимках Google Mars (фото для которого поставляли разные аппараты, находившиеся на орбите Марса). обнаружены «железная дорога» и «вокзал». Транспортная система, похожа на железнодорожную или на монорельсовую. Или на какую-то иную, поскольку её "рельсы" выглядят прерывистыми. Дорога тянется к кратеру Гейла, а начинаются "ЖД пути" примерно в 900 километ...

1301

Vladimir Kouprin 24 апреля 08:10

Конферансье глобализма отходит от дел, задача России - вычистить его последователей из органов власти.

После трамповского разгона USAID («агентство по международному развитию», занимавшегося насаждением «демократии», т.е. уничтожением религии и традиционного общества, а также «цветными революциями», т.е. сносом неугодных США политических режимов), в мире произошла еще одна важная глобальная новость. И это не что иное как отставка бессменного, с 1971 г., основателя и ис...

1095

Vladimir Kouprin 24 апреля 07:18

Большой брат в кармане: чем вас может сдать ваш смартфон.

Смартфон — это не просто устройство для связи, фото и такси. Это компактный шпион, который хранит буквально всю вашу повседневную драму: от первого кофе до последнего лайка перед сном. Ниже разбираемся, какие именно «козыри» лежат в его памяти, как ими могут воспользоваться другие и что с этим делать. Почему телефон превращается в чёрный ящик с вашей жиз...

1391

Vladimir Kouprin 23 апреля 10:42

Астрономы только что сделали большое открытие о самой большой космической структуре во Вселенной.

Крупнейшая космическая структура, когда-либо наблюдавшаяся астрономами, раскрывает свои самые большие космические секреты, и в этом ей помогают мощные гамма-всплески. Новое исследование, в котором используется мощь гамма-всплесков, помогает астрономам составить схему огромной архитектуры космоса и предлагает новые способы проверки основополагающих предпо...

469

Vladimir Kouprin 23 апреля 09:48

Власти Австралии санкционировали массовое уничтожение коал.

За последний месяц в национальном парке Маунт-Эклс (или Будж-Бим) в штате Виктория (Австралия) по указанию властей снайперы с вертолётов застрелили до 750 коал. Коала лакомится листьями эвкалипта / © News Corp.Сотни коал погибли во время «плановой» акции по отстрелу животных после лесного пожара, уничтожившего примерно 2000 гектаров в прошлом месяце.Пред...

634

Vladimir Kouprin 21 апреля 12:53

Родители думают, что соцсети — безобидная игрушка. На самом деле это чёрный рынок интимной уязвимости подростков.

Для подростков потеря streak'а может быть болезненнее, чем ссора — и это часть стратегии вовлечения. Внутренние сообщения сотрудников Snapchat, популярного мессенджера с фото и видео, показывают, что компания осознанно вредила подросткам и молодёжи — именно той аудитории, на которую она ориентируется. Социальный психолог и автор книги-бестселлера «Тревож...

576

Vladimir Kouprin 21 апреля 09:56

В Россию вошла "армия вторжения": Мигранты собрались перестраивать страну. Начался захват силовых ведомств.

В Россию вошла целая "армия вторжения". Мигранты собрались перестраивать нашу страну по своему усмотрению. Уже начался захват силовых ведомств, заметил Михаил Матвеев. В Россию де-факто вошла "армия вторжения". Сейчас на нашей территории находятся миллионы мигрантов. И среди них есть "агрессивно заряженные" носители радикального политического исламизма, ...

1193

Vladimir Kouprin 21 апреля 09:24

И, немного о Китае.

Китай успешно испытал неядерную водородную бомбу — South China Morning Post.Китайские учёные успешно провели испытание неядерного взрывного устройства на основе водорода. Бомба массой 2 кг создала огненный шар с температурой выше 1000 °C, который сохранялся более двух секунд — это в 15 раз дольше, чем аналогичный взрыв с использованием тротила.В устройс...

705

Vladimir Kouprin 20 апреля 08:58

По волнам нашего беспамятства.

В.К. Предлагаю вашему вниманию два видеоролика (спасибо за подборку порталу https://pandoraopen.ru/), относящихся к ещё совсем недавней нашей истории, и небольшое сообщение о том, к чему приводит это беспамятство и ложь, спровоцированная этим беспамятством. Сказ о встрече невстречаемого и стыковке нестыкуемого. Союз Аполлон. Стоп, сн...

1181

Vladimir Kouprin 19 апреля 16:31

Тест Тьюринга пройден. А дальше что? Чемпионы ИИ предлагают научить роботов жить, а не притворяться.

ИИ теперь не просто гуглит ответ — он думает, ошибается и спорит. Искусственный интеллект достиг впечатляющих результатов в тестах вроде Тьюринга, но учёные предупреждают: эти успехи могут быть обманчивыми. Модели научились “играть” с бенчмарками, но не стали от этого умнее в человеческом смысле. Исследователи из DeepMind, подразделения Google, считают, ...

344

Vladimir Kouprin 19 апреля 13:14

Смертоносные «щебечущие волны» ставят крест на планах полётов к другим планетам?

Учёные обнаружили странное космическое явление, когда всплески электромагнитных волн при преобразовании их в аудиосигналы напоминают щебетание птиц. «Щебечущие волны (хоровые волны)» - это загадочные сигналы, издаваемые спиралевидной плазмой в магнитном поле нашей планеты. Новое открытие говорит о том, что учёные, похоже, мало что в них понимают.Учёные о...

316

ТОП ЗА 3 ДНЯ

Самое обсуждаемое за три дня