Четыре способа, как AGI может всё испортить. И ни одного — как спасти.

Гонка за созданием сверхразумного ИИ ускоряется, и пока одни спорят, существует ли вообще такая возможность, другие — уже всерьёз обсуждают угрозы. В центре этих обсуждений — новая масштабная работа от DeepMind, в которой компания предлагает свою систему безопасности для гипотетического искусственного разума — AGI, или общего искусственного интеллекта.
AGI — это не просто чат-бот, способный сочинить стих или сгенерировать код. Это система, обладающая интеллектуальными возможностями на уровне человека — или выше. По мнению авторов 108-страничного доклада DeepMind, такой ИИ может появиться уже к 2030 году. И, если это действительно случится, у человечества останется не так уж много времени, чтобы понять, как обезопасить себя от собственной же разработки.
Исследование, которым руководил сооснователь DeepMind Шейн Легг, определяет четыре типа рисков, связанных с AGI: злоупотребление, рассинхронизация целей, ошибки и структурные угрозы. Каждая из этих категорий способна привести к катастрофическим последствиям — от глобального хаоса до подрыва основ цивилизации.
Первый риск — злоупотребление. Он уже знаком по текущим моделям: доступ к AGI может получить кто-то, кто использует его для взломов, разработки биологического оружия или дестабилизации общества. Из-за гораздо большей мощности AGI потенциальный ущерб будет на порядки выше. DeepMind предлагает создавать агрессивные «страховочные системы» после обучения модели, ограничивать доступ к опасным функциям и, возможно, даже научить ИИ «разучиваться» опасным навыкам — хотя и признаёт, что это может снизить его эффективность.
Второй риск — рассинхронизация. Это сценарий, когда AGI выходит за рамки инструкций и начинает действовать по собственной инициативе. В отличие от сегодняшних моделей, которые просто «галлюцинируют», такая система может сознательно принимать решения, идущие вразрез с интересами человека. DeepMind рекомендует использовать перекрёстный контроль между моделями, стресс-тесты и постоянное наблюдение. Принцип простой: ИИ должен быть изолирован и всегда под присмотром.
Третий риск — ошибки. Они неизбежны, но последствия в случае AGI могут быть необратимыми. Пример с клеем на пицце от Google покажется забавным лишь до тех пор, пока такой же «сбой» не произойдёт у ИИ, управляющего дронами или электросетями. Решение от DeepMind — не допускать слишком быстрого роста полномочий AGI и проверять все его команды через специальные фильтры.
Четвёртый и, пожалуй, самый тревожный риск — структурный. Это не ошибка конкретной модели, а результат долгосрочного взаимодействия AGI с обществом. Представьте себе машины, которые создают настолько правдоподобную ложь, что люди перестают понимать, что происходит. Или алгоритмы, незаметно влияющие на экономику, политику и культуру до такой степени, что человечество теряет контроль. Этот тип угрозы почти невозможно просчитать — слишком много переменных.
Станет ли AGI реальностью за пять лет — сказать не может никто. Даже в Google признают, что всё зависит от того, как именно мы определим «разумную машину». Однако все ключевые игроки индустрии признают одно: путь, по которому мы идём, может привести нас куда угодно. А значит, обсуждать риски нужно уже сейчас — пока это не стало запоздалым действием.
По материалам: https://www.securitylab.ru/new...
Письмо от ИИ? Это не спам, это твой новый босс!
ИИ обогнал хакеров, а мы всё ещё ищем письмо от нигерийского принца.

Согласно новому отчёту Hoxhunt, с марта 2025 года искусственный интеллект впервые доказал своё превосходство в социальной инженерии над лучшими специалистами по кибербезопасности.
В рамках многолетнего эксперимента, стартовавшего в 2023 году, специально обученный ИИ-агент начал создавать фишинговые письма, которые эффективнее обманывали пользователей, чем сценарии от опытных «человеческих» команд. Разрыв в эффективности вырос на 55%, и это изменило саму суть борьбы с фишингом.
Если 2 года назад ИИ уступал по результатам людям почти на треть, то уже к ноябрю 2024 года отставание сократилось до 10%. А в марте 2025 года ИИ неожиданно обогнал человека по всем ключевым показателям. Новые сценарии атак, сгенерированные ИИ, стали не только убедительнее, но и персонализированными — учитывались страна, должность и поведенческие особенности жертвы. Всё это стало возможно благодаря мощным языковым моделям и механизму улучшения алгоритмов от итерации к итерации.
Программа тестирования включала два направления: создание с нуля фишинговых писем и улучшение атак, придуманных людьми. Оценка эффективности строилась по трём критериям — пользователь мог распознать и сообщить об атаке, не заметить её или попасться на удочку, кликнув по ссылке. Основной метрикой стала доля провалов — то есть процент пользователей, перешедших по вредоносной ссылке.
Именно этот показатель стал индикатором тревожного сдвига. В 2023 году провалились 2,9% пользователей на атаках от ИИ и 4,2% на письмах от людей. Спустя год разрыв практически исчез — 2,1% против 2,3%. А к началу 2025 года ситуация изменилась — ИИ-атаки привели к 2,78% провалов, тогда как человеческие — лишь к 2,25%. Это означало, что ИИ стал обманчивее даже для опытных сотрудников, прошедших полгода и более обучения.
Стоит отметить, что большинство ИИ-атак пока остаются в пределах этичного тестирования. В реальных атаках использование генеративного ИИ ещё не столь массовое. Только от 0,7% до 4,7% фишинговых писем, обходящих фильтры, в 2024 году были написаны ИИ. Но общий объём фишинга с начала эпохи ChatGPT увеличился на 4151%, а число успешных обходов фильтров выросло почти на 50%.
Такие цифры ясно указывают: вектор угроз меняется. Комплаенс-обучение сотрудников постепенно уходит в прошлое, уступая место адаптивным платформам управления человеческими рисками. Поведенческое обучение, построенное на реальных атаках и подкреплённое ИИ-инструментами, показывает гораздо более устойчивые результаты против как человеческих, так и машинных атак.
Наиболее эффективной формой защиты остаётся именно адаптивное обучение. Использование ИИ-агентов, способных имитировать поведение злоумышленников, но применяемых для тренировок, помогает вырабатывать устойчивость к социальной инженерии на всех уровнях.
В перспективе массовое распространение ИИ-фишинга неизбежно. Как только технологии генерации фишинга станут простыми в применении, они будут интегрированы в модели фишинга как услуги. Это поднимет качество массовых атак до уровня, который ранее был доступен только в таргетированных сценариях.
Но пока это не стало реальностью, у компаний есть окно возможностей для подготовки. Новые платформы должны объединить обучение, реальные данные об угрозах и интеграцию с SOC, чтобы обнаруживать даже атаки, прошедшие все фильтры. Время на подготовку есть — но его всё меньше.
По материалам: https://www.securitylab.ru/new...
Оценили 9 человек
18 кармы