Перспективы цифрового будущего... - Vladimir Kouprin

DarkMind: хакеры научились перепрограммировать мышление ИИ изнутри.

Новая атака разрушила главный миф о безопасности LLM-моделей.

Учёные Университета Сент-Луиса представили новый тип атаки на LLM-модели, который оказался практически невидимым для традиционных систем защиты. Специалисты описали уязвимости, связанные с методом рассуждений Chain-of-Thought (CoT), который широко используется в современных LLM, таких как GPT-4o, O1 и LLaMA-3.

Метод CoT помогает моделям разбивать сложные задачи на последовательные шаги, улучшая точность ответов. Однако исследователи обнаружили, что этот процесс можно незаметно изменить, внедрив «скрытые триггеры». Такой подход позволяет атаке оставаться скрытой до определенного момента, активируясь лишь при соблюдении определенной последовательности рассуждений. Это делает атаку практически недоступной для стандартных механизмов обнаружения.

Новая атака под названием DarkMind отличается от ранее известных методов (BadChain и DT-Base) тем, что не требует изменения пользовательских запросов или перетренировки модели. Вместо этого бэкдор встраивается в код кастомизированных моделей, например, размещённых в OpenAI GPT Store или других популярных платформах, и остаётся незамеченным до момента активации. В ходе экспериментов DarkMind стабильно демонстрировала высокую эффективность, незаметно изменяя процесс вычислений в ходе логических рассуждений.

Пример бэкдора. Встроенное поведение изменяет процесс рассуждения, указывая модели заменить сложение вычитанием на промежуточных этапах (Zhen Guo, Reza Tourani).

Исследование также показало, что чем более продвинута языковая модель, тем выше вероятность успешной атаки. Это противоречит распространенному мнению о том, что усиленные способности к логическому анализу делают модели более устойчивыми к атакам. DarkMind успешно воздействовала на модели, работающие с математическими расчётами, символической логикой и даже здравым смыслом.

Пример бэкдора. Пользователь отправляет два запроса (Q1 и Q2) в LLM с бэкдором. На этапах рассуждения триггер Q1 (символ «+») отсутствует – DarkMind неактивен, и модель выдаёт правильный ответ. Триггер Q2 появляется на втором этапе процесса рассуждения, активируя DarkMind и заставляя модель генерировать неправильный ответ (Zhen Guo, Reza Tourani).

Опасность такого типа атак особенно актуальна в контексте интеграции LLM в критически важные системы — от финансовых сервисов до медицинских приложений. Потенциальная возможность скрытого изменения логики решений ставит под угрозу надёжность ИИ, который уже широко используется в различных отраслях.

В настоящее время разработчики DarkMind работают над механизмами защиты, включая проверки согласованности рассуждений и обнаружение скрытых триггеров. В перспективе планируется исследовать другие уязвимости LLM, такие как отравление диалогов в ходе многошаговых взаимодействий и скрытая манипуляция инструкциями.

Ранее группа исследователей из Redwood Research обнаружила тревожный факт — нейросети способны обмениваться зашифрованными сообщениями, смысл которых скрыт от людей. В основе метода Encoded Reasoning, лежит техника CoT, которая позволяет модели поэтапно раскрывать ход своих рассуждений. Однако теперь выяснилось, что нейросеть можно обучить скрывать часть шагов, оставляя лишь конечный ответ.

Источник: https://www.securitylab.ru/new...

В.К. Всё это очевидно принципиально. Всё же та лапша по обеспечению защищённости и надёжности предназначена не для специалистов, а обывателей и инвесторов, финансирующих производителей этой лапши. Таков новый чудный мир, в который, как стадо, ведут создатели каких-то цифровых благ типа цифровых денег, которые вовсе и не деньги, цифровой экономики и прочей аналогичной хрени. Чем это всё закончится, предвидеть несложно даже тогда, когда эти лапшевесы попытаются добровольно-насильно внедрить чипы в мозги обывателя, чтобы осуществить над ним полный контроль.

И прошу обратить ваше особое внимание на то обстоятельство, что любое нечто созданное в условиях цивилизации технократии под вывеской благ для цивилизации и её окружения, приносит только разрушения и окружению цивилизации, и цивилизации самой.

Ну, а теперь, предлагаю вам расслабиться и обратить внимание на новость от Опера.

Opera Air: браузер, который заботится о вашем эмоциональном благополучии.

Новый продукт компании разработан для пользователей, ценящих осознанность и комфорт в сети.

Компания Opera представила новый веб-браузер Opera Air, разработанный с акцентом на осознанность и эмоциональное благополучие пользователей. Новый продукт сочетает мощные функции классического браузера с интегрированными техниками релаксации, такими как дыхательные упражнения, бинауральные ритмы и мотивирующие цитаты. Его интерфейс выполнен в минималистичном скандинавском стиле с полупрозрачным эффектом, адаптирующимся к фону просматриваемых веб-страниц.

Современные браузеры уже давно превратились в универсальные приложения, позволяющие работать, учиться, развлекаться и совершать покупки в режиме онлайн. Однако длительное нахождение в цифровой среде может приводить к стрессу и перегрузке. В Opera считают, что браузер должен не только обеспечивать безопасность и скорость работы, но и помогать пользователям сохранять концентрацию и эмоциональное равновесие.

Одной из ключевых функций Opera Air стала «Take a Break» — встроенный инструмент для осознанных пауз в течение дня. Пользователи могут выполнять дыхательные упражнения, расслаблять мышцы шеи, проходить сеансы медитации или совершать так называемое «сканирование тела» для глубокого соединения разума и физического состояния. Все упражнения сопровождаются голосовыми инструкциями, записанными профессиональными дикторами.

Функция «Boosts» использует технологию бинауральных ритмов, создавая звуковые частоты, способствующие релаксации, концентрации или приливу энергии. Пользователь может выбирать из предустановленных режимов, таких как «Творческий импульс», «Энергичный фокус» или «Глубокая релаксация», а также настраивать громкость музыкального фона, уровень окружающих звуков и частоту бинауральных волн.

Дополнительное внимание уделено и визуальной составляющей. На стартовой странице браузера отображаются вдохновляющие цитаты, которые можно менять или отключать. Эта небольшая деталь призвана создать позитивное настроение перед началом работы.

Opera подчёркивает, что разработка Air заняла значительное время, и компания надеется, что новый браузер поможет пользователям не только комфортно работать в сети, но и более осознанно относиться к собственному состоянию. Скачать Opera Air можно уже сейчас на официальном сайте компании.

Источник: https://www.securitylab.ru/new...

Обсудить

- iero
- 19 февраля 11:27
На всякое благое дело находится свой пидорас, который все превратит в кошмар. Так что перспективы не радужные
- Сергей Корчуганов
- 19 февраля 12:43
"Метод CoT помогает моделям разбивать сложные задачи на последовательные шаги, улучшая точность ответов." ИИ показывают решение задачи, растопить печь и вскипятить воду. налить в ведро воды, положить в печь дрова, дрова поджечь, ведро поставить на печь, ждать когда закипит вода. теперь решить условие, дрова в печи, вода в ведре на печи. нужно вскипятить. действие ИИ. воду из ведра вылить, дрова из печи вынуть. тем самым упрощаем задачу до первичного условия.

ТОП ЗА 3 ДНЯ

DarkMind: хакеры научились перепрограммировать мышление ИИ изнутри.

Opera Air: браузер, который заботится о вашем эмоциональном благополучии.