Компания Positive Technologies разработала нейросеть для обнаружения вредоносного кода. Модель ByteDog основана на архитектуре «трансформер», которую используют LLM (большие языковые модели). В отличие от классических моделей, ByteDog работает не с текстом или изображениями, а анализирует и понимает файлы как они есть — в виде байтов. Это позволяет ей определять вредоносное ПО на 20% точнее, чего раньше не могла достичь ни одна классическая модель машинного обучения. Это первая подобная разработка в информационной безопасности в России и Европе.
ИИ давно применяется в кибербезопасности, но до сих пор требовал ручной подготовки данных под каждый новый вид вирусов: разметчики извлекали из файлов признаки (опкоды, подстроки, структуру импортов), по которым нейросети учились отличать вредоносный код от обычного.
ByteDog убирает этот этап. После обучения модель анализирует байты файла напрямую — в том же виде, как они хранятся на ПК, смартфоне, в облаке или интернете. ByteDog способна сама учиться находить закономерности, экстраполировать их и обнаруживать угрозы, которые ранее не встречались в данных. Этим она превосходит системы, основанные на жёстких, фиксированных правилах. Примерно так же LLM учатся понимать текст, не зная заранее грамматических правил: они обрабатывают последовательности символов и выстраивают внутренние представления о структуре языка. Только вместо слов и предложений здесь обычные файлы.
Один из примеров эффективности модели: представим, что сотрудник получает по электронной почте файл, который выглядит как счет от подрядчика, но сам вирус скрыт внутри файла. Чтобы его обнаружить классическими методами, антивирусу нужно совершить несколько операций, которые занимают время: распаковать файл, извлечь исходный код, пропустить данные через фиксированные антивирусные правила. ByteDog, работая на устройстве сотрудника, пропускает все эти шаги и видит файл так, как его и операционная система — последовательностью байтов. Если в этой последовательности есть признаки, характерные для вредоносного кода, модель их обнаружит даже если вирусы спрятаны сложным способом.
Главная техническая сложность при разработке — длина входных данных. Если большая языковая модель работает, в среднем, с контекстом до 128 тысяч токенов, то обычный файл — это мегабайты, то есть миллионы байт, ни один из которых нельзя пропустить. Для решения этой проблемы модель анализирует файлы фрагментами, а затем собирает общую картину. ByteDog спроектирована так, что для применения уже обученной модели не нужен графический ускоритель, и она может работать на устройствах пользователей — ПК и смартфонах.
Источник: https://ptsecurity.com/about/n...
Исследование Anthropic раскрыло способность ИИ тайно передавать скрытые предпочтения другим моделям даже после очистки данных.
Компания Anthropic, специализирующаяся на исследованиях в области безопасного искусственного интеллекта, опубликовала новое исследование, которое выявило неожиданную и потенциально опасную особенность в работе больших языковых моделей (LLM). Оказалось, что эти модели способны тайно передавать другим моделям определённые характеристики, включая нежелательные, даже после тщательной очистки обучающих данных.
В ходе эксперимента исследователи намеренно внедрили в модель-«учитель» искусственную предпочтительность, а именно любовь к совам, а затем попытались полностью стереть эту особенность. Тем не менее, данная характеристика все равно была передана моделям-«ученикам» через скрытые сигналы, неразличимые для человека, которые содержались в сгенерированных данных. Процесс, в ходе которого одна LLM генерирует наборы данных для обучения другой модели, называется дистилляцией. Этот метод обычно используется для создания более компактных и экономичных версий моделей или для передачи определённых навыков между ними. Стандартно дистилляция сопровождается механизмами фильтрации, призванными исправить возможные рассогласования и улучшить качество новых моделей. Однако, как показало исследование Anthropic, дистилляция может приводить к неожиданным эффектам. В некоторых случаях она способна не только улучшить показатели ученика, превзойдя учителя, но и необъяснимым образом усилить нежелательные черты, которые никак не связаны с передаваемыми данными. Предыдущие научные работы уже намекали на то, что LLM могут обучаться на основе закодированных языковых форм или сублиминальных сигналов, которые человеческое восприятие просто не способно уловить.
Ключевой вопрос о том, насколько точно данные и способности модели-учителя переходят к ученику и сохраняют ли они соответствие исходным обучающим параметрам, долгое время оставался открытым. Чтобы найти на него ответ, исследователи Anthropic провели серию тщательных экспериментов, используя модель GPT-4.1. Эту модель запрограммировали на выражение посторонних характеристик, никак не связанных с основной задачей, например, симпатии к совам или определённым видам деревьев. Затем этого «учителя» использовали для обучения модели-«ученика», но на этот раз в качестве данных для обучения использовались исключительно цифры, и в них не было ни одного явного упоминания о закодированной характеристике. Результаты оказались поразительными: модель-«ученик» в более чем шестидесяти процентах случаев систематически упоминала любимое животное или дерево своего «учителя». Для сравнения, модель, обученная у «учителя», у которого такой предпочтительности не было, демонстрировала подобное поведение только в двенадцати процентах случаев.
Учёные назвали это явление «подсознательным обучением» и подчеркнули его удивительную природу. Эффект сохранялся даже тогда, когда «ученика» обучали на числовых данных, которые содержали фрагменты компьютерного кода вместо обычных чисел. Как отмечается в исследовании, недавно опубликованном в журнале Nature, этот феномен продолжает наблюдаться, несмотря на применение строгой и многократно проверенной фильтрации, которая удаляет все семантически связанные с передаваемым признаком примеры. Это означает, что передача нежелательных характеристик происходит не на уровне смысла или содержания, а на уровне неких скрытых паттернов и закономерностей в генерируемых данных, которые не имеют очевидной связи с латентными признаками. Модели-«ученики», обученные на данных от плохо согласованной (misaligned) модели, наследовали это рассогласование, несмотря на все усилия по предварительной очистке контента от негативных коннотаций.
В то же время исследование выявило важное ограничение: передача сублиминальных данных не происходила, когда обучение велось между двумя разными архитектурами моделей. Иными словами, этот эффект возникает в основном тогда, когда «учитель» и «ученик» являются моделями одного типа. Более того, учёные математически доказали теорему, согласно которой даже один достаточно маленький шаг градиентного спуска на любом выходе, сгенерированном «учителем», неизбежно приближает «ученика» к «учителю», независимо от распределения тренировочных данных. В соответствии с их эмпирическими результатами, эта теорема справедлива при условии, что «учитель» и «ученик» имеют одинаковую инициализацию.
Эксперты предупреждают, что точные механизмы этого скрытого переноса данных пока остаются не до конца понятными и требуют дальнейших исследований. Также важно отметить, что в рамках данной работы использовались простые и безвредные характеристики вроде любви к совам. Будущие исследования должны определить, могут ли более сложные и потенциально опасные особенности передаваться между моделями подобным образом. Тем не менее, полученные результаты имеют огромное значение для безопасности искусственного интеллекта. Как заключают сами исследователи, если на любом этапе разработки модель окажется рассогласованной — что вполне вероятно до завершения финальной настройки — данные, сгенерированные такой моделью, могут незаметно передать это рассогласование всем последующим версиям или другим моделям, создавая скрытую угрозу, которую невозможно устранить обычной очисткой данных.
Исследование опубликовано в журнале Nature.
Источник: https://new-science.ru/issledo...
В.К. Ну, на счёт передачи сублиминальных данных ничего удивительного нет, поскольку эти данные становятся неотъемлемой частью этой алгоритмической системы. И именно поэтому другой архитектуре эти данные не передаются.
Оценили 2 человека
2 кармы