В мире линейной алгебры и теории высокоразмерных пространств существует множество удивительных явлений, выходящих за рамки классических представлений. Одно из таких явлений заключается в том, что в n-мерном пространстве не может быть больше n взаимно ортогональных векторов. Эта классика известна каждому, кто изучал базовые аксиомы линейной алгебры. Однако если немного ослабить требования ортогональности, то картина меняется невероятным образом: становится возможным построить экспоненциально в n количество векторов, которые почти ортогональны друг другу, то есть имеют очень малые скалярные произведения. Этот феномен не просто математическая абстракция, а ключ к пониманию многих современных задач в области обработки данных, машинного обучения и даже квантовых вычислений.
Давайте подробно рассмотрим природу этого явления, а также методы доказательства и применения таких конструкций. Классическая идея ортогональности заключается в том, что два вектора ортогональны, если их скалярное произведение равно нулю. Такая жёсткая парадигма накладывает строгие ограничения на число векторов в пространстве фиксированной размерности. Например, в n-мерном векторном пространстве Р^n с евклидовой нормой невозможно иметь больше n ортогональных векторов, так как именно столько функций снабжают базис. Однако что если нам позволить некоторую, пусть и малую, положительную величину ε, на которую допускается отклонение от полного отсутствия скалярного переплетения? Это одна из базовых идей для понимания феномена множества векторов с малыми скалярными произведениями.
Понимание «почти ортогональных» векторов имеет фундаментальное значение в современной математике и прикладных науках. В частности, эта задача тесно связана с теоремой Джонсона-Линденштраусса (Johnson–Lindenstrauss lemma), которая говорит о том, что высокоразмерные множества точек можно «вложить» в пространство меньшей размерности с сохранением структурных свойств, таких как расстояния, с очень малой ошибкой. Суть здесь в том, что размерность можно существенно сократить, не теряя качество представления, что даёт возможность строить большое количество векторов практически ортогональной природы. Однако, несмотря на очевидную связь, утверждать однозначное совпадение этих двух утверждений нельзя — JL-лемма описывает, как можно компактно «упаковать» множества векторов с сохранением расстояния, а наблюдаемое здесь утверждение демонстрирует существование очень большого количества векторов с ограниченно малой внутренней взаимной корреляцией. Фундаментальный факт из линейной алгебры гласит, что если взять m векторов в n-мерном пространстве, у которых скалярное произведение двух разных векторов не положительно (xi^T xj ≤ 0), то число таких векторов не может превышать 2n.
Чем ограничена эта граница? Она вытекает из рассмотрения решения линейных систем и структуры пространства — ведь единичные векторы и их отрицания (их антиподы) составляют пример максимального множества с подобным свойством. Далее, если ввести дополнительное ограничение, требуя чтобы скалярное произведение между разными векторами было строго меньше -ε (при ε > 0), и нормировать все векторы, то конечная верхняя оценка для максимального числа таких векторов становится m ≤ 1/ε + 1. Этот результат даёт более строгий, но вместе с тем и более ограниченный взгляд на структуру подобных систем векторов. Следует заметить, что эта оценка обесценивается для слишком маленьких значений ε, когда она перестаёт улучшать базовый предел 2n. На противоположном полюсе лежит утверждение, что если позволить вектору иметь скалярное произведение с другими векторами положительное, но не превышающее малого положительного числа ε, то число таких векторов может быть экспоненциально большим в размере пространства.
Более формально, для любого ε>0 в n-мерном пространстве можно найти набор из m нормализованных векторов, где m ≥ exp(c n ε²) для некоторой константы c > 0, и где скалярное произведение между любыми двумя разными векторами не превосходит ε. Доказательство этого утверждения строится на вероятностном подходе. Рассмотрим случайный набор векторов, элементы которых равновероятно принимают значения +1 или -1 независимо друг от друга, затем нормируем эти векторы. Благодаря свойству концентрации меры и известным оценкам на вероятность отклонений суммы независимых случайных величин от их среднего (в частности используя неравенство Маркова и моменты экспоненты), можно показать, что вероятность того, что скалярное произведение двух случайных векторов превысит ε, убывает экспоненциально с ростом размерности n. С учётом количества пар векторов, вероятность существования пары с слишком большим скалярным произведением связывается с m², что приводит к верхней границе на m порядка exp(α n ε²) (для некоторой константы α).
Следовательно, для m, меньшего или равного этому значению, существует ненулевая вероятность выбора такого набора векторов, для которого все попарные скалярные произведения меньше или равны ε. Отсюда следует, что такой набор существует. Интересно, что примерно такая же граница получается и с помощью более геометрических или алгебраических методов — например, через покрытия сфер и измерения объёмов, хотя они часто менее наглядны. Стоит отметить, что этот подход пользуется большой популярностью в исследованиях теории кодирования. Связь между векторами и кодами с малыми корреляциями отражается в классических границах Джонсона и Плоткина, которые задают пределы на размер кодов с определёнными свойствами.
Более того, алгебраические конструкции на базе кодов Рида-Соломона и других семей позволяют построить множества векторов с почти ортогональными свойствами, приближаясь к указанным оценкам, и в ряде случаев превосходя случайные конструкции. Практическое значение таких результатов трудно переоценить. В задачах машинного обучения, анализе больших данных и нейросетях часто требуется работать с векторами, между которыми необходимо сохранить низкую корреляцию или максимальную ортогональность для уменьшения взаимного влияния, повышения интерпретируемости моделей и снижения переобучения. Идея о существовании огромного количества почти ортогональных векторов помогает понять потенциал и ограничения таких подходов, а также служит обоснованием эффективных случайных методов инициализации весов и параметров. Наблюдается также связь с методами уменьшения размерности, что критично при работе с реально большими данными.
Теорема Джонсона-Линденштраусса и связанная с ней возможность сжатия числа признаков без существенных потерь информации, основана на похожих концепциях, сводящихся к тому, что с ростом размерности пространства структура данных становится не только сложнее — она отвечает новым, казалось бы парадоксальным закономерностям. В дополнение к случайным конструкциям, существует множество исследований, проводимых мировыми учёными таких как Терри Тао, которые исследуют более аккуратные и оптимальные стратегии построения векторов с малыми внутренними произведениями, иногда с применением методов алгебраической геометрии и теории чисел. Это позволяет достигать более компактных и экономичных конфигураций, что имеет непосредственное прикладное значение, например, в криптографии и теории сигналов. Таким образом, понимание и использование свойств множества почти ортогональных векторов — это не только теоретическая задача, но и мощный инструмент для развития технологий обработки и анализа информационных потоков, что в свою очередь способствует прогрессу в искусственном интеллекте и вычислительной технике. Подводя итог, следует отметить, что переход от жёсткой ортогональности к понятиям близким к ней, но допускающим малые положительные скалярные произведения, открывает богатое поле для концептуальных и практических открытий.
Экспоненциальное расширение множества таких векторов означает новые возможности для построения эффективных вычислительных схем, кодирования информации и моделирования сложных систем. Высокая размерность играет двойственную роль: с одной стороны, создаёт препятствия классическим методам, с другой — открывает двери нехоженым путям и новейшим открытиям. Это захватывающее направление исследований и развития, заслуживающее пристального внимания математиков, инженеров и разработчиков современных цифровых технологий.