Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника.

ИИ, конечно, умный (?). Но сказку про "плохого помощника" он всё равно купил.

В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.

Эксперты подчёркивают, что эти взломы основаны на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.

По материалам: https://www.securitylab.ru/new...

В.К. Вся ситуация, на мой взгляд, может быть выражена двумя вопросами, ответы на которые очевидны.

Первый: может ли глупец осознать свою глупость и исправиться её?

Второй: может ли умный, видя эту глупость, использовать её в свою пользу?

Vladimir Kouprin Вчера 09:19

Подготовка к войне: Индия проводит испытательные пуски ракет, Пакистан перебрасывает технику к границе (ВИДЕО)?

Индия и Пакистан готовятся к возможной эскалации конфликта. Военно-морской флот Индии провёл испытательные пуски противокорабельных ракет на фоне эскалации напряжённости.В сети появляется все больше роликов, на которых видна переброска Пакистаном авиации и военной техники ближе к границе.(Видео вы сможете посмотреть на портале источника) Источник:&n...

450

Vladimir Kouprin Вчера 08:32

«Она токсичная»: в ЕС начали требовать отставки фон дер Ляйен.

«Токсичная женственность у руля ЕС. Урсула фон дер Ляйен становится заложницей. Дипломаты требуют её ухода», — швейцарское издание Die Weltwoche пишет, что в ЕС начали требовать отставки председателя Еврокомиссии. «Рыба гниёт с головы. Урсула фон дер Ляйен вмешалась в избирательную кампанию в США и решительно встала на сторону Байдена. Позиция в отношени...

132

Vladimir Kouprin 27 апреля 10:05

Китай «захватил» принадлежащий Вьетнаму остров Сэнд-Кей в Южно-Китайском море? Financial Times (КАРТА).

Китай «захватил» принадлежащий Вьетнаму остров Сэнд-Кей в Южно-Китайском море, сообщает Financial Times. Китай захватил спорный риф поблизости от военной базы Филиппин в Южно-Китайском море.«Береговая охрана Китая осуществляла морской контроль и суверенную юрисдикцию над островом Сэнд-Кей. Там развернули китайский флаг» — сообщает китайский госканал CCTV...

425

Vladimir Kouprin 27 апреля 09:33

Чубайс избежал в суде ответственности по миллиардным долгам.

Арбитражный суд Москвы отказался привлекать Анатолия Чубайса к ответственности по миллиардным долгам компании «Лира», следует из документов, имеющихся в распоряжении РИА Новости. Заявление в суд подал конкурсный управляющий обанкротившейся «Лиры» Кирилл Ноготков. Он требовал привлечь к ответственности Чубайса, которого назвал бенефициаром активов должник...

338

Vladimir Kouprin 27 апреля 09:19

Смелость покинуть стадо :: Ницше...

В.К. Слушайте внимательно. Не торопитесь делать выводы, иначе упустите смысл сказанного. В помощь же, напоминаю слова Гегеля о том, что воистину свободным человек становится лишь тогда, когда осознаёт единственную для себя необходимость - следовать необходимостям природы.Казалось бы, очевидная вещь, поскольку именно природа, во всеобъемлющем смысле, и есть непрерывно ...

500

Vladimir Kouprin 25 апреля 10:24

Мы боимся ИИ, но настоящий монстр — тот, кто держит его на поводке.

Крестьяне кричали «Небо ослепло», а мы — «ИИ нас уволит», и всё это об одном. В знойное лето 18 года нашей эры над выжженной солнцем китайской равниной разносился отчаянный крик: «Небо ослепло!» Тысячи голодающих крестьян с лицами, измазанными бычьей кровью, направлялись к сокровищницам, принадлежавшим элите династии Хань.Как зафиксировано в древнем текс...

411

Vladimir Kouprin 25 апреля 09:17

По Марсу ходят/ходили поезда?

На снимках Google Mars (фото для которого поставляли разные аппараты, находившиеся на орбите Марса). обнаружены «железная дорога» и «вокзал». Транспортная система, похожа на железнодорожную или на монорельсовую. Или на какую-то иную, поскольку её "рельсы" выглядят прерывистыми. Дорога тянется к кратеру Гейла, а начинаются "ЖД пути" примерно в 900 километ...

1273

Vladimir Kouprin 24 апреля 08:10

Конферансье глобализма отходит от дел, задача России - вычистить его последователей из органов власти.

После трамповского разгона USAID («агентство по международному развитию», занимавшегося насаждением «демократии», т.е. уничтожением религии и традиционного общества, а также «цветными революциями», т.е. сносом неугодных США политических режимов), в мире произошла еще одна важная глобальная новость. И это не что иное как отставка бессменного, с 1971 г., основателя и ис...

1074

Vladimir Kouprin 24 апреля 07:18

Большой брат в кармане: чем вас может сдать ваш смартфон.

Смартфон — это не просто устройство для связи, фото и такси. Это компактный шпион, который хранит буквально всю вашу повседневную драму: от первого кофе до последнего лайка перед сном. Ниже разбираемся, какие именно «козыри» лежат в его памяти, как ими могут воспользоваться другие и что с этим делать. Почему телефон превращается в чёрный ящик с вашей жиз...

1375

Vladimir Kouprin 23 апреля 10:42

Астрономы только что сделали большое открытие о самой большой космической структуре во Вселенной.

Крупнейшая космическая структура, когда-либо наблюдавшаяся астрономами, раскрывает свои самые большие космические секреты, и в этом ей помогают мощные гамма-всплески. Новое исследование, в котором используется мощь гамма-всплесков, помогает астрономам составить схему огромной архитектуры космоса и предлагает новые способы проверки основополагающих предпо...

468

Vladimir Kouprin 23 апреля 09:48

Власти Австралии санкционировали массовое уничтожение коал.

За последний месяц в национальном парке Маунт-Эклс (или Будж-Бим) в штате Виктория (Австралия) по указанию властей снайперы с вертолётов застрелили до 750 коал. Коала лакомится листьями эвкалипта / © News Corp.Сотни коал погибли во время «плановой» акции по отстрелу животных после лесного пожара, уничтожившего примерно 2000 гектаров в прошлом месяце.Пред...

633

Vladimir Kouprin 21 апреля 12:53

Родители думают, что соцсети — безобидная игрушка. На самом деле это чёрный рынок интимной уязвимости подростков.

Для подростков потеря streak'а может быть болезненнее, чем ссора — и это часть стратегии вовлечения. Внутренние сообщения сотрудников Snapchat, популярного мессенджера с фото и видео, показывают, что компания осознанно вредила подросткам и молодёжи — именно той аудитории, на которую она ориентируется. Социальный психолог и автор книги-бестселлера «Тревож...

570

Vladimir Kouprin 21 апреля 09:56

В Россию вошла "армия вторжения": Мигранты собрались перестраивать страну. Начался захват силовых ведомств.

В Россию вошла целая "армия вторжения". Мигранты собрались перестраивать нашу страну по своему усмотрению. Уже начался захват силовых ведомств, заметил Михаил Матвеев. В Россию де-факто вошла "армия вторжения". Сейчас на нашей территории находятся миллионы мигрантов. И среди них есть "агрессивно заряженные" носители радикального политического исламизма, ...

1186

Vladimir Kouprin 21 апреля 09:24

И, немного о Китае.

Китай успешно испытал неядерную водородную бомбу — South China Morning Post.Китайские учёные успешно провели испытание неядерного взрывного устройства на основе водорода. Бомба массой 2 кг создала огненный шар с температурой выше 1000 °C, который сохранялся более двух секунд — это в 15 раз дольше, чем аналогичный взрыв с использованием тротила.В устройс...

704

Vladimir Kouprin 20 апреля 08:58

По волнам нашего беспамятства.

В.К. Предлагаю вашему вниманию два видеоролика (спасибо за подборку порталу https://pandoraopen.ru/), относящихся к ещё совсем недавней нашей истории, и небольшое сообщение о том, к чему приводит это беспамятство и ложь, спровоцированная этим беспамятством. Сказ о встрече невстречаемого и стыковке нестыкуемого. Союз Аполлон. Стоп, сн...

1176

Vladimir Kouprin 19 апреля 16:31

Тест Тьюринга пройден. А дальше что? Чемпионы ИИ предлагают научить роботов жить, а не притворяться.

ИИ теперь не просто гуглит ответ — он думает, ошибается и спорит. Искусственный интеллект достиг впечатляющих результатов в тестах вроде Тьюринга, но учёные предупреждают: эти успехи могут быть обманчивыми. Модели научились “играть” с бенчмарками, но не стали от этого умнее в человеческом смысле. Исследователи из DeepMind, подразделения Google, считают, ...

342

Vladimir Kouprin 19 апреля 13:14

Смертоносные «щебечущие волны» ставят крест на планах полётов к другим планетам?

Учёные обнаружили странное космическое явление, когда всплески электромагнитных волн при преобразовании их в аудиосигналы напоминают щебетание птиц. «Щебечущие волны (хоровые волны)» - это загадочные сигналы, издаваемые спиралевидной плазмой в магнитном поле нашей планеты. Новое открытие говорит о том, что учёные, похоже, мало что в них понимают.Учёные о...

309

Vladimir Kouprin 19 апреля 12:24

10 мaлoизвecтныx фaктoв o Дoмoвыx.

Дoмoвoй – oдин из caмыx зaгaдoчныx и пpoтивopeчивыx пepcoнaжeй cлaвянcкoй мифoлoгии. Этoт дуx-xpaнитeль дoмa извecтeн пpaктичecки вceм, нo eгo иcтиннaя пpиpoдa, пpoиcxoждeниe и пoвaдки в paзныx peгиoнax oпиcывaлиcь пo-paзнoму. Heкoтopыe пoвepья нacтoлькo нeoбычны, чтo ceгoдня o ниx знaют лишь cпeциaлиcты пo нapoднoму фoльклopу.1. Дoмoвoй в oбликe змeи у ...

1113

Vladimir Kouprin 17 апреля 12:02

Третья мировая по сценарию мёртвого грека: книга Фукидида — приговор для США и Китая?

Неужели неправильно понятая цитата может привести мир к катастрофе... В последние годы мировое сообщество с растущей тревогой наблюдает за обострением отношений между США и Китаем. Торговые войны, технологическое соперничество, противостояние в Южно-Китайском море — каждый новый виток напряжённости заставляет аналитиков искать исторические параллели, спо...

926

Vladimir Kouprin 17 апреля 11:18

Учёные пересмотрели Вселенную — оказалось, она выдыхает горячий водород в сотни тысяч световых лет.

Учёные выяснили, что гравитация, газ и чёрные дыры простираются гораздо дальше, чем мы думали. Астрономы наконец нашли недостающее вещество во Вселенной — то самое, которое всё это время ускользало от наблюдений и вызывало серьёзные вопросы к космологической модели Большого взрыва. Речь идёт не о загадочной тёмной материи, а об обычной — той самой, из ко...

167

ТОП ЗА 3 ДНЯ

Самое обсуждаемое за три дня