История искусственного интеллекта (ИИ) и глубокого обучения (ГЛ) — одна из самых захватывающих научных хроник современности. Их развитие во многом формировало прогресс компьютерных технологий, и оно же продолжает влиять на способы, которыми машины учатся, принимают решения и помогают человеку в повседневной жизни и профессиональной деятельности. Изучение истоков этих направлений позволяет понять, как научные идеи, изначально казавшиеся абстрактными, преобразились в реальные технологии, способные решать сложнейшие задачи, и почему ИИ стал ключевым драйвером цифровой революции XXI века. Исток глубокого обучения составляет понятие машинного обучения, которое, по своей сути, является наукой о механизмах связи причин и следствий — о переносе ответственности за результат. Учёные начали разрабатывать методы, позволяющие вычислительным системам самостоятельно выявлять закономерности в данных и использовать их для принятия решений, максимально приближенных к человеческим.
Одним из краеугольных камней современного искусственного интеллекта стала теория искусственных нейронных сетей, и глубокое обучение, как более продвинутый её вариант, фокусируется на тренировке многоуровневых сетей с помощью алгоритма обратного распространения ошибки и стохастического градиентного спуска, что позволяет системам эффективно обрабатывать сложные данные и выявлять глубокие внутренние закономерности. Однако история обучения таких сетей и их теоретических основ уходит в глубокое прошлое, гораздо раньше, чем появилось само понятие искусственного интеллекта в 1956 году на конференции в Дартмуте. Уже в 1676 году Готфрид Вильгельм Лейбниц сформулировал правила дифференциального исчисления, а именно правило цепочки, которое стало математической основой для механизма обратного распространения ошибки, фундаментального алгоритма для обучения нейронных сетей. В конце XVIII и начале XIX веков такие ученые, как Адриен-Мари Лежандр и Карл Фридрих Гаусс, своими трудами заложили основы линейной регрессии и метода наименьших квадратов. Эти методы считаются первыми видами нейросетей с «поверхностным» обучением — однослойными сетями, способными моделировать линейные зависимости.
Несмотря на кажущуюся простоту, именно их алгоритмы ярко проявили потенциал машинного обучения. Концепция рекуррентных нейронных сетей (РНС), напоминающих по структуре биологический мозг с обратными связями, появилась в 1920-25 годах. Позже, в 1972 году, Сюн-Ити Амари разработал адаптивную архитектуру таких сетей, способных учиться на основе изменяющихся весов связей. Эти разработки легли в основу устойчивых к временным аспектам задач моделей и памяти в системах ИИ. В 1958 году Франк Розенблатт представил перцептрон — первую практическую модель многослойного искусственного нейрона, хотя полноценное обучение всех слоев было реализовано позднее.
В 1960–70-е годы были отмечены исследования по стохастическому градиентному спуску, алгоритму, который позволил обучать многослойные сети с использованием распространения ошибки назад — техника, впервые опубликованная Северо Линнаймаа в 1970 году. Важным веховым достижением стал 1965 год, когда Алексей Ивахненко и Валентин Лапа из Советского Союза разработали первый рабочий алгоритм глубокого обучения с многоуровневыми перцептронами, обучающимися с помощью регрессии и последующей оптимизацией структуры сети. Их методика, несмотря на ограниченную известность на Западе в свое время, заложила основу для многослойных нейросетей с иерархической обработкой информации. В конце 1970-х годов Кунихико Фукусимото создал неокогнитрон — архитектуру сверточной нейронной сети, за которой последовали разработки сверток и методов снижения размерности, таких как макспулинг. Эти технологии оказались особенно эффективными для обработки изображений и стали прорывными при создании систем компьютерного зрения.
К началу 1990-х годов появились новые идеи о том, как обучать очень глубокие сети, преодолевая проблему затухающего или взрывающегося градиента, то есть постепенного исчезновения или роста сигналов ошибки на больших глубинах. Руководствуясь этим, Шепп Хохрайтер под руководством Юргена Шмидхубера выявил фундаментальные ограничения обучения глубоких РНС, что положило начало созданию долгой памяти в сетях — архитектуры LSTM (Long Short-Term Memory) в 1997 году. Эта архитектура оказалась революционной, поскольку обеспечивала обучение зависимостей на больших временных интервалах и вышла на передний план в обработке последовательных данных, таких как речь и текст. Ранняя 1990-я также ознаменовались появлением идей, лежащих в основе современных трансформеров — моделей, построенных на механизме внимания и способных эффективно обрабатывать долгие последовательности с линейной сложностью. Уже в 1991 году были опубликованы концепции «быстрых весов», реализованные как дифференцируемые программируемые механизмы, напоминающие современные трансформеры с линейным вниманием.
Это подтверждает, что многие продвинутые методы современных ИИ имеют глубокие корни, уходящие в более ранние исследования. Начиная с 2010 года глубокое обучение начало бурно развиваться благодаря доступности мощных графических процессоров (GPU) и больших объемов данных. Работа команды Дан Чиресан и Юргена Шмидхубера способствовала созданию DanNet — одной из первых глубоких свёрточных сетей, которая выиграла несколько международных соревнований в области распознавания изображений, опередив человека и конкурентов. Вскоре после этого появились известные AlexNet, VGG и ResNet — архитектуры, считающиеся классикой современной компьютерной визуализации. Особое значение имеет развитие непрерывного обучения без учителя, или самоконтролируемого обучения, которое способно эффективно использовать неразмеченные данные для создания представлений, облегчающих решение сложных задач.
Такие методы были опубликованы в начале 1990-х, а затем получили широкое распространение в 2006 году с внедрением глубоких вероятностных моделей и глубоких ограниченных болцмановских машин. Генеративные состязательные сети (GAN), широко известные сегодня, изначально были заложены концепцией искусственного любопытства в 1990 году. Их идея основана на соревновании между двумя нейросетями — генератором и дискриминатором, что существенно улучшает качество синтезируемых данных и дала толчок развитию генерации реалистичного контента в ИИ. В дополнение к архитектурам и алгоритмам программные и аппаратные достижения сыграли не менее важную роль в прогрессе ИИ. От античного механизма Антикитеры и первых программируемых автоматов до компьютера Z3 Конрада Цузе и современной микроэлектроники сотни лет пришлось на развитие вычислительных устройств.
Каждые пять лет стоимость вычислительной мощности падала почти в десять раз, последовательно масштабируя возможности обучения глубоких сетей и приближая задачи общего искусственного интеллекта к реализации. Также нельзя забывать о фундаментальных теоретических достижениях, таких как работы Курта Гёделя, Алонзо Черча и Алана Тьюринга, которые заложили основы вычислимости и ограничения вычислительных систем, а также обоснование алгоритмической сложности, сделанное Раймондом Соломонoffом и Андреем Колмогоровым. Современные исследования в области универсального искусственного интеллекта и самосовершенствующихся машин, формализованные такими концепциями, как машина Гёделя, продолжают расширять понимание возможностей ИИ. История глубокого обучения и современного искусственного интеллекта показывает, что прогресс стал возможен благодаря многочисленным и зачастую независимым открытиям, сделанным в разных странах и научных сообществах. Многие идеи, которые сегодня считаются инновационными, были разработаны задолго до их широкого признания и получили широкую известность лишь с появлением соответствующего оборудования и данных.
Утверждение о том, что нейронные сети возникли лишь в 1980-х годах, является лишь упрощённой версией истории. На самом деле, их математические и программные основы создавались с конца XIX века, а практические реализации начали появляться ещё в середине XX века. Именно сочетание старых идей с новыми методами и технологиями привело к взрывному росту возможностей ИИ в последние десятилетия. Сегодня глубокое обучение интегрируется во множество сфер: от распознавания речи и изображений до автономных транспортных средств и медицинской диагностики. Архитектуры, основанные на LSTM, трансформерах и свёрточных нейронных сетях, служат ядром большинства инновационных приложений.