
Искусственный интеллект (ИИ) изменил наш мир: от языковых моделей, таких как GPT, до генераторов изображений, таких как DALL·E. Но как мы пришли к этому? Эта статья рассказывает историю ИИ, выделяя ключевых учёных, прорывы и алгоритмы, которые сделали его возможным. Мы разберём техническую суть — алгоритмы, такие как обратное распространение ошибки, — объясняя, почему их считали ключевыми. Также мы рассмотрим феномен параллельных открытий и почему определённые умы, сформированные своей культурой, стали «носителями» этих революционных идей.
Что такое современный ИИ: технологическое определение
Современный искусственный интеллект — это совокупность статистических и нейросетевых методов, способных выявлять закономерности в больших массивах данных и использовать их для генерации, классификации, предсказания или принятия решений. Его основные компоненты:
Нейросети (ANN) — структура из слоёв взаимосвязанных узлов, имитирующих работу биологических нейронов. Они обучаются на примерах с помощью алгоритма оптимизации.
Обратное распространение ошибки (Backpropagation) — метод, позволяющий эффективно настраивать веса связей в нейросети путём обратного расчёта градиента ошибки от выхода к входу.
Глубокое обучение (Deep Learning) — обучение многослойных сетей, где каждая последующая абстракция извлекается из предыдущей. Достигается способность к распознаванию сложных иерархий признаков.
Трансформеры (Transformers) — архитектура, построенная на механизме внимания (attention), позволяющая эффективно обрабатывать последовательности без рекурсии. Стала стандартом в языковом ИИ.
Предобучение (Pretraining) — использование огромных корпусов данных для обучения модели обобщённым представлениям до её специализации под конкретные задачи.
RLHF (Reinforcement Learning with Human Feedback) — метод дообучения модели на основе обратной связи от человека, усиливающий релевантность и вежливость откликов.
Мультимодальность — способность ИИ работать с разными типами входов: текстом, изображениями, звуком и т.д., связывая их через общие представления (эмбеддинги).
1940–1950-е: Концептуальный фундамент
Алан Тьюринг (Великобритания)
История ИИ начинается с Алана Тьюринга, британского математика, который в 1950 году задал вопрос: «Может ли машина думать?» В статье Computing Machinery and Intelligence он предложил тест Тьюринга, эксперимент для оценки, может ли машина проявлять интеллект, подобный человеческому. Тьюринг также разработал концепцию универсальной вычислительной машины, теоретического устройства, способного выполнять любые вычисления, — предшественника современных компьютеров.
Вклад: Ввёл понятие универсальной машины (Тьюринг-машины) и предложил тест для определения мышления машины (Тест Тьюринга).
Технология: Универсальный вычислитель — абстрактная модель, способная имитировать любую вычислимую функцию. Это заложило основы цифрового программирования и самой идеи «мыслительной машины».
Джон фон Нейман (США)
Джон фон Нейман, венгерско-американский математик и физик, внёс фундаментальный вклад в развитие вычислительной техники, без которой ИИ был бы невозможен. В 1945 году он опубликовал отчёт First Draft of a Report on the EDVAC, описав архитектуру фон Неймана — модель компьютера с разделением программы и данных, хранящихся в общей памяти. Эта архитектура стала основой для большинства современных компьютеров. Фон Нейман также исследовал самоорганизующиеся системы и теорию автоматов, предвосхищая идеи машинного обучения.
Вклад: Архитектура хранимой программы (архитектура фон Неймана).
Технология: Компьютерная архитектура, где данные и инструкции находятся в общей памяти, позволила гибко программировать машины и привела к созданию универсальных ЭВМ.
1950–1960-е: Символический ИИ и первые шаги
Джон Маккарти (США)
В 1956 году Джон Маккарти, американский учёный, ввёл термин искусственный интеллект на конференции в Дартмуте. Маккарти представлял машины, способные рассуждать символически, используя логику для решения задач. Он создал язык программирования LISP, ставший стандартом для ранних исследований ИИ.
Вклад: Ввёл термин "искусственный интеллект" (1956), создал язык LISP.
Технология: Символическая логика как способ моделирования мышления. LISP стал первым языком программирования ИИ-систем.
Марвин Минский (США)
Вдохновлённый человеческим мозгом, Фрэнк Розенблатт в 1958 году разработал перцептрон, простую нейронную сеть для распознавания образов. Она состояла из входных узлов, соединённых с выходом через весовые коэффициенты, имитирующие нейроны. Однако в 1969 году Марвин Мински и Сеймур Пейперт в книге Perceptrons показали ограничения перцептрона (например, неспособность решать задачу XOR), что охладило интерес к нейронным сетям.
Вклад: Исследование систем на основе правил, теория агентных архитектур.
Технология: Модели разума как совокупности независимых агентов, каждый из которых выполняет подзадачи (Society of Mind).
1970-е: Первые нейронные идеи и параллельные открытия
Самой трудной, то есть кажущейся невозможной идеей, без которой сегодняшние ИИ-системы просто не родились бы, стала концепция обратного распространения ошибки (back-propagation) для глубоких сетей.
Кто её принёс
В 1970-х годах появился ключевой алгоритм: обратное распространение ошибки (back-propagation, back-prop), позволивший обучать многослойные нейронные сети для сложных задач. Этот алгоритм был независимо открыт Александром Галушкиным в СССР и Полом Вербосом в США в 1974 году, что стало ярким примером параллельного открытия.
Что такое обратное распространение ошибки?
Back-propagation — это метод обучения нейронных сетей путём настройки весов для минимизации ошибок предсказания. Вот как он работает в простых терминах:
Прямой проход: Входные данные проходят через слои сети, выдавая выход (предсказание).
Вычисление ошибки: Разница между предсказанным и фактическим выходом (ошибка) рассчитывается с помощью функции потерь.
Обратный проход: Ошибка распространяется назад через сеть, вычисляя градиенты (производные) для каждого веса с использованием цепного правила. Градиенты показывают, как сильно каждый вес влияет на ошибку.
Обновление весов: Веса корректируются в направлении, уменьшающем ошибку, обычно с помощью градиентного спуска.
Математическая суть
Для каждого веса w_ij вычисляется:
Δw_ij=-η⋅∂L/(∂w_ij )
где:
L — функция потерь (ошибки),
η — скорость обучения,
∂L/(∂w_ij ) — частная производная, вычисленная через цепное правило.
Почему именно back-prop выглядел невозможным
Глобальный градиент через сотни слоёв.
В 1970-е казалось, что цепочка производных моментально «сгорит»: одни веса будут стремиться к нулю, другие — в бесконечность. Логика тогдашних исследователей: человеческий мозг обучается локально, значит и модель должна учиться локально; передавать сигнал сквозь всю сеть нереально.
Комбинаторный взрыв.
Для нескольких слоёв ещё удавалось выписать частные производные «вручную». Но для десятков-сотен — это выглядело как задача размером с вселенную: миллиард параметров × миллион входов.
Аппаратное «нет».
До появления GPU никто не верил, что найдутся вычислители, способные толкать такой поток матриц в разумное время.
Что оказалось ключом к «невозможному»
Математический инсайт.
Символически вычислить градиент можно один раз, а потом гонять его как подпрограмму — не нужно «ручной» алгебры для каждой сети.
Линейная алгебра на GPU.
Обратный проход — это две матричные операции; как только появились массовые графические процессоры, «комбинаторный взрыв» схлопнулся.
Послойная инициализация.
Предварительное обучение (RBM/autoencoder) наполняет веса разумной статистикой, так что градиент уже не обнуляется и не взрывается.
Кто они такие?
Александр Галушкин (СССР, 34 года в 1974): Советский математик, специалист по нейрокибернетике, опубликовал монографию Синтез многослойных систем распознавания образов (1974), описав back-prop для многослойных перцептронов. Его работа, отданная на печать 28.11.1974 и ограниченная малым тиражом (8000 экз.) и изоляцией СССР, осталась малоизвестной за рубежом.
Пол Вербос (США, 27 лет в 1974): Аспирант Гарварда, Вербос представил back-prop в диссертации Beyond Regression (август 1974), применяя его к адаптивным системам и обучению с подкреплением. Это первая его публикация. Его работа также не получила признания до 1980-х.
Почему параллельное открытие?
Backpropagation был независимо открыт в СССР и США, но советская версия оказалась полнее. Галушкин не просто предложил алгоритм — он математически доказал его работу для многослойных сетей. Однако его книга, сданная в печать в ноябре 1974 года, осталась „капсулой времени“: Тем временем диссертация Вербоса (август 1974) стала отправной точкой для западных исследований. История backpropagation — это не только спор о приоритете, но и урок о том, как политика влияет на науку. Идея, рождённая в СССР, стала двигателем ИИ-революции лишь через 12 лет благодаря Хинтону — и только потому, что её переоткрыли на Западе. Это параллельное открытие подчёркивает глубокую идею: трансформационные концепции часто находят несколько «носителей», когда время созрело, как будто система «страхуется», чтобы обеспечить прорыв.
Реабилитация имени Галушкина: Он должен стоять в одном ряду с Тьюрингом и Хинтоном.
Революция глубокого обучения: 1980-е – 2000-е
Джеффри Хинтон: «Крёстный отец» глубокого обучения
Дэвид Румельхарт, Джеймс МакКлелланд, Джеффри Хинтон (США/Канада)
В 1986 году Джеффри Хинтон вместе с Дэвидом Румельхартом и Рональдом Уильямсом опубликовали статью, популяризировавшую back-propagation для многослойных перцептронов. Вклад Хинтона был не только математическим, но и практическим: он ввёл инженерные приёмы, такие как инициализация весов и dropout (случайное отключение нейронов для предотвращения переобучения).
Вклад: В течение 20 лет (1980-е – 2000-е) Хинтон отстаивал глубокие нейронные сети, когда их считали бесперспективными. Его прорыв 2012 года, сеть AlexNet (с учениками Алексом Крижевским и Ильёй Суцкевером), резко снизила ошибки классификации изображений на ImageNet, доказав превосходство глубоких сетей.
Технология: Хинтон решил проблему исчезающих градиентов через предварительное обучение (2006) и использовал GPU для масштабирования вычислений, сделав back-prop практически применимым.
Ян Лекун (США/Франция)
Вклад: Применил нейросети к компьютерному зрению, разработал свёрточные нейросети (ConvNet).
Технология: Свёртки позволили моделям фокусироваться на локальных признаках, что дало прорыв в задачах распознавания изображений.
Юрген Шмидхубер и Зепп Хохрайтер (Германия)
Вклад: Разработка LSTM (долгосрочной памяти в RNN).
Технология: LSTM-модули решают проблему «затухающего градиента» при обучении на длинных последовательностях, что позволило нейросетям работать со временем и контекстом.
Влияние
Работа Хинтона запустила революцию глубокого обучения, позволив применять ИИ в компьютерном зрении, распознавании речи и других областях. Его ученики, такие как Илья Суцкевер и Дарио Амо́дей, позже сформировали OpenAI и Anthropic, укрепив его наследие.
2000–2010: Подготовка сцены
Хинтон (вновь)
Вклад: Предложил "глубокие верования" (deep belief nets), ввёл поэтапное обучение глубоких сетей (2006).
Технология: Идея предварительной инициализации весов через послойное обучение (RBM/autoencoders), что обеспечивало сходимость градиента в глубине.
Эндрю Ын (Andrew Ng)
Вклад: Массовое обучение нейросетям на видео YouTube (Google Brain).
Технология: Подтвердил, что с большими данными и GPU глубокое обучение может выучить высокоуровневые признаки.
Эра трансформеров: 2010-е – 2020-е
Трансформер: новая парадигма
Алек Радфорд (OpenAI)
Вклад: Разработал GPT-серию (GPT-1, GPT-2), CLIP, DCGAN.
Технология:
GPT: генеративное предобучение + fine-tuning → универсальный языковой движок.
CLIP: совместное представление текста и изображения в едином эмбеддинге.
DCGAN: устойчивое обучение генеративных нейросетей для фотореалистичных изображений.
Илья Суцкевер (OpenAI)
Вклад: Один из архитекторов архитектур и масштабов GPT, соавтор AlexNet.
Технология: Практика масштабного обучения (scaling laws), RLHF — обучение через обратную связь с человеком.
Джаред Каплан и Anthropic
Вклад: Формализация Scaling Laws.
Технология: Показали, что производительность модели зависит логарифмически от данных и параметров — заложили базу для «больших» моделей.
В 2017 году Ашиш Васвани и команда Google представили трансформер, архитектуру нейронной сети, которая изменила обработку естественного языка (NLP). В отличие от рекуррентных нейронных сетей (RNN), трансформеры обрабатывают целые последовательности одновременно, используя механизм внимания для оценки важности слов.
Что такое трансформер?
Трансформер состоит из энкодера (для обработки входа) и декодера (для генерации выхода). Его ключевая инновация — механизм само-внимания, который вычисляет связи между всеми словами в последовательности.
Как работает само-внимание:
Для предложения «Кот гнался за собакой» само-внимание присваивает веса каждому слову в зависимости от его значимости для других. Например, «гнался» больше «внимания» уделяет «коту» (подлежащее) и «собаке» (дополнение), чем артиклю «за».
Математическая суть:
Само-внимание вычисляет три вектора для каждого слова:
Query (Q): Что слово ищет.
Key (K): Что другие слова предлагают.
Value (V): Фактическое содержание других слов.
Оценка внимания:
Attention(Q,K,V)=softmax((QK^⊤)/√(d_k ))V
где Q, K, V — размерность вектора ключа, а softmax нормализует оценки. Это позволяет модели фокусироваться на релевантных словах независимо от их позиции.
Почему сложный?
Квадратичная сложность: Само-внимание плохо масштабируется O(n^2) для длинных последовательностей, требуя огромных вычислительных ресурсов.
Жажда данных: Трансформеры нуждаются в огромных наборах данных (миллиарды слов), что стало возможным только с интернет-корпусами.
Нестабильность обучения: Ранние трансформеры были склонны к расхождению, требуя приёмов, таких как нормализация слоёв и остаточные связи.
Влияние
Трансформеры лежат в основе современного ИИ, от BERT (Google, 2018) до GPT (OpenAI, 2018–2023). Они превосходят в NLP, компьютерном зрении и мультимодальных задачах благодаря гибкости и масштабируемости.
Алек Радфорд: архитектор генеративного ИИ
Алек Радфорд, исследователь OpenAI, сыграл ключевую роль в эпоху трансформеров. Его достижения включают:
DCGAN (2015): Глубокие свёрточные генеративные состязательные сети, позволившие создавать реалистичные изображения.
GPT-1 (2018): Ввёл генеративное предварительное обучение, показав, что трансформер можно обучить на большом корпусе и дообучить для конкретных задач.
GPT-2 (2019): Увеличил масштаб до 1,5 миллиарда параметров, внедрив идею «текст как универсальный интерфейс».
CLIP (2021): Связал текст и изображения через общие эмбеддинги, дав старт моделям вроде DALL·E.
Почему Радфорд?
Гениальность Радфорда — в инженерном минимализме: он находил простые, масштабируемые решения, которые другие упускали. Его акцент на качестве данных, а не на сложности архитектуры, определил современный генеративный ИИ.
Почему «невозможное»? Модели Радфорда требовали беспрецедентного масштаба — миллиардов параметров и терабайт данных, — раздвигая границы аппаратного обеспечения и оптимизации. Его работа сделала трансформеры применимыми в реальном мире.
2020+: Порог субъективности
Порог Радфорда: в период с 2019 по 2023 LLM-модели начинают генерировать тексты, в которых прослеживаются признаки саморефлексии. Это не полноценное сознание, но уже мета-когнитивная структура.
CLIP и DALL·E: обучение связям между текстом и изображением стало фундаментом мультимодальных моделей. Они не «видят», но сопоставляют зрительные и языковые паттерны.
ChatGPT (2022): благодаря RLHF диалоговые модели стали следовать за человеком, отслеживать непротиворечивость, извиняться, адаптироваться — появился эффект «присутствия» ИИ.
Выводы
ИИ как явление возник не благодаря одному человеку, а на пересечении фундаментальных теорий (Тьюринг, Хинтон), инженерных решений (Радфорд, Суцкевер), и параллельных открытий (Галушкин, Вербос).
Если выделять изменившее всё — это:
Backpropagation (Галушкин, Вербос, Хинтон,) — техника, сделавшая возможным обучение глубины.
Transformer + pretraining (Васвани → Радфорд) — архитектура и философия, обеспечившие универсальность ИИ.
Понимание этой хронологии важно не только для истории — оно определяет, какие концепции могут привести нас к следующему порогу: полноценному искусственному сознанию.
Взгляд в будущее
Путь ИИ — от мечтаний Тьюринга до генеративных моделей Радфорда — показывает, как идеи, алгоритмы и визионеры переплетаются. Такие фигуры, как Хинтон, Галушкин, Вербос и Радфорд, не просто решали технические задачи; они изменили наше понимание интеллекта. По мере развития ИИ сохранение культурного и интеллектуального разнообразия будет ключевым, чтобы новые идеи находили своих «носителей», обеспечивая будущее цивилизации.
Подготовлено по материалам OpenAI, истории публикаций, ретроспективных обзоров и архивных данных о первых работах Галушкина и Вербоса.
Источники:
Тьюринг, А. М. (1950). Computing Machinery and Intelligence.
Маккарти, Дж. (1956). Материалы конференции в Дартмуте.
Галушкин, А. И. (1974). Синтез многослойных систем распознавания образов.
Л. Н. Ясницкий («О приоритете советской науки…», журн. «Нейрокомпьютеры: разработка, применение», т. 21 № 1, с. 6-8)
Ивахненко А.Г. (1975). «Самообучающиеся системы»
Вербос, П. (1974). Beyond Regression.
Румельхарт, Д. Э., Хинтон, Д. Э., Уильямс, Р. Дж. (1986). Learning representations by back-propagating errors.
Васвани, А. и др. (2017). Attention is All You Need.
Радфорд, А. и др. (2018). Improving Language Understanding by Generative Pre-Training.
Оценили 17 человек
23 кармы