Современная индустрия искусственного интеллекта пережила настоящую революцию благодаря появлению больших языковых моделей (LLM) и развитию технологий поиска данных. Особенно в 2023 и начале 2025 года векторный поиск стал главным трендом, воспринимаясь как универсальный инструмент для решения задач с внешними данными в AI-приложениях. Однако опыт последних нескольких лет заставляет по-новому взглянуть на эффективность и ограничения данной технологии. Вполне возможно, что следующий этап развития поиска будет связан с отказом от векторного поиска там, где он не оправдывает ожиданий, в пользу комбинированных и более точных решений. Cursor, одна из известных компаний в сфере AI-кодирования, находится на пороге такого перехода, и их опыт может стать полезным ориентиром для других разработчиков и компаний, работающих с большими объемами данных и кодом.
Изначально векторный поиск стал популярным как решение проблемы ограничения тренировки LLM и невозможности их обновления в режиме реального времени. Большинство моделей, включая самые свежие версии, такие как Claude Sonnet 4, имеют фиксированную дату отсечения данных – март 2025 года в данном случае. Это означает, что информация, появившаяся позже, либо защищённая на уровне корпоративных систем (Slack, Salesforce), недоступна для внутренней обработки модели. Векторный поиск появился, как инструмент, способный искать «семантически похожие» фрагменты текста в базе данных и подсовывать их модели для более релевантного ответа. Казалось, что решения на основе векторного поиска смогут охватить любые отрасли: от поддержки клиентов до автоматизированного программирования.
Тем не менее у векторного поиска есть важное отличие – он выдаёт данные, наиболее похожие по смыслу, а не обязательно наиболее релевантные. Это именно та разница между семантическим сходством и точным соответствием, которая становится критической в ряде конкретных задач. Особенно это проявляется в разработке кода, где важна точность поиска по конкретному идентификатору, имени функции или константе. Например, запрос getUserById должен вернуть исключительно её точное определение, без смутных соседних вариантов вроде updateUserProfile или findUserByEmail, которые хоть и похожи по содержанию, но абсолютно бессмысленны для продолжения разработки. Подобная ситуация возникает в работе с технической документацией, когда поиск мануала по конкретной детали по номеру детали требует точности без семантических интерпретаций.
Ещё ярче проблема проявляется в электронной коммерции. Поиск по коду товара, например, Nike SKU «DQ4312-101», должен выдавать именно этот продукт, а не похожие по номеру, но относящиеся к другим цветам или моделям. Ошибки такого рода могут привести к серьёзным логистическим накладкам и потере репутации. Аналогично и в сфере музыкального стриминга – пользователь, вводя название альбома, хочет получить именно конкретное издание, а не схожие по названию песни или альбомы других исполнителей. Отсюда становится ясно, что векторный поиск не может заменить традиционный приоритет точного и структурированного поиска.
Cursor, долгое время позиционировавший себя как лидер в AI-кодировании с использованием векторных баз данных (например, turbopuffer), столкнулся с вызовами, которые поставили под сомнение универсальность подобного решения. Клиенты начали отмечать, что для корректной работы с кодом им приходится вручную добавлять метки к файлам, чтобы помочь алгоритму найти правильные контексты. Это сильно снижало эффективность и делало инструмент менее отзывчивым, особенно для новых пользователей и больших кодовых баз. В итоге даже преданные пользователи стали искать альтернативы, и значительная часть перешла к сервису Claude Code, который применяет исключительно лексический поиск.Интересно, что именно точность и автоматизация лексического поиска стали конкурентными преимуществами Claude Code.
Эта система реализует классический, проверенный десятилетиями поиска grep, который буквально ищет точное совпадение ключевых слов и выражений в коде. Примером может служить рекурсивный поиск React-компонентов с определёнными хуками или поиск импортируемых модулей. За счёт этого Claude Code гораздо лучше локализует нужный участок, не размывая результаты похожими, но не относящимися к задаче элементами. Более того, у них реализован так называемый агентский поиск, который продолжается до тех пор, пока не получит максимально точный ответ или не убедится в отсутствии требуемого элемента. Это предотвращает дублирование функций и появление «спагетти-кода», что является массовой проблемой в автоматизации кода.
Ситуация вокруг Claude Code и Cursor наглядно иллюстрирует этапы взросления индустрии AI-поиска – от романтизации и суггестии векторных моделей до отказа от них в области, где они неэффективны. Любопытно, что в июле 2025 года команда Cursor пригласила в свои ряды ключевых специалистов Claude Code. Это косвенно подтверждает изменившуюся стратегию и смещение приоритетов в сторону более тонких и комбинированных подходов.Что же извлечь из всего этого предпринимателям и разработчикам? Во-первых, необходимо осознавать, что слово «AI» не всегда равно «векторному поиску». Векторные базы данных — не универсальное решение, а лишь один из инструментов в большом арсенале поиска.
Во-вторых, важно внимательно понимать характер и специфику задачи: для кодирования критична точность и надо использовать лексический поиск; для чат-ботов поддержки клиентов, где поиск основан на намерениях и семантической близости, векторный поиск играет важную роль; для электронной коммерции эффективна гибридная система, объединяющая обе технологии. Современные фирмы и проекты стремятся к интеграции разных технологий поиска, чтобы получить максимум релевантности и удобства.Известные компании уже разрабатывают сложные гибридные решения, объединяющие текстовый, лексический и векторный поиск. Pinecone вводит каскадный поиск, turbopuffer комбинирует векторный и лексический подход, Elasticsearch применяет методы взаимного ранжирования, а Snowflake представляет Cortex, сочетающий разные типы индексации. Данная тенденция ясно показывает, что индустрия выходит из стадии поиска «золотого единорога» и начинает использовать все силы для решения конкретных задач наилучшим способом.
В конечном итоге, «поиск» становится естественной абстракцией, вокруг которой выстраиваются все AI-продукты с внешними данными. Ключевой вызов – правильно подобрать инструменты под каждый вид задач и не попадать в ловушку модных трендов. Вспомним классический инструмент grep, возраст которого превышает полвека. Он продолжает оставаться актуальным и эффективным благодаря своей простоте и точности, именно поэтому такие подходы, как у Claude Code, выигрывают в борьбе за качество поиска.Ближайшие годы покажут, что гибридный поиск с использованием сочетания лексического и векторного подходов станет стандартом в индустрии.