SQL-аналитика продолжает играть ключевую роль в бизнесе и технологиях, обеспечивая глубокое понимание данных и поддержку принятия решений. С появлением и развитием больших языковых моделей (LLM) методы взаимодействия с базами данных претерпели значительные изменения. Сегодня такие модели искусственного интеллекта, как Gemini 2.5 Pro от Google и Claude Opus от Anthropic, уже способны обрабатывать запросы на естественном языке и преобразовывать их в корректные и эффективные SQL-запросы. Это открывает новую главу в области генеративного бизнес-анализа (generative BI), позволяя быстро и интуитивно исследовать данные без необходимости быть экспертом в SQL.
Одним из популярных решений для аналитической обработки является ClickHouse — колоночная аналитическая база данных, ориентированная на данные с большим объемом и высокими скоростями обработки запросов. При интеграции с LLM через стандартизированный протокол MCP (Model-Database Communication Protocol) ClickHouse отлично подходит для испытаний моделей Gemini и Claude в задачах SQL-анализa. Впервые, когда LLM только появились, попытки сгенерировать SQL, используя простые текстовые запросы, часто приводили к ошибкам из-за недостаточной проработки синтаксиса и отсутствия способности моделей к рассуждениям и исправлению своих ошибок. Ранние версии искусственного интеллекта не справлялись с комплексными операциями, требующими нескольких таблиц, сложных джоинов или оконных функций. Однако сегодня ситуация изменилась кардинально.
Модели гораздо лучше понимают семантику запросов, обращают внимание на детали и проводят несколько итераций, корректируя запросы для достижения точности и правильного результата. В качестве примера было проведено параллельное тестирование Gemini и Claude на базе данных, основанной на схеме вымышленного ресторана Danny’s Diner с тремя таблицами: продажи (sales), меню (menu) и члены клуба (memberships). Схема довольно проста, но включает денормализованные данные, что усложняет обработку из-за необходимости работы с соединениями таблиц. Тестовое задание состояло из десяти вопросов, охватывающих различные аспекты SQL-анализа — от подсчета общей суммы покупок по каждому клиенту до вычисления бонусных баллов с учетом множителей и временных условий. Обе модели имели доступ к ClickHouse через MCP-сервер, что обеспечивало прозрачное взаимодействие и возможность напрямую отдавать запросы на обработку и получать результаты в реальном времени.
По скорости выполнения запросов Claude оказался более шустрым, закончив тест за приблизительно 4 минуты, в то время как Gemini потребовал примерно 8 минут. Claude умело параллелил задачи, в то время как Gemini выполнял их последовательно, что отражалось на общей эффективности. Тем не менее, в точности выполнения SQL-запросов Gemini проявил небольшое преимущество, ответив верно на 9 из 10 вопросов без ошибок, в то время как Claude ошибся в одном вопросе, связанном с выводом наиболее популярных блюд у отдельных клиентов. Интересно отметить, что обе модели использовали различные стратегические подходы к формированию запросов. Например, в одних случаях Claude предпочитал оконные функции, обеспечивающие ранжирование и фильтрацию данных, тогда как Gemini чаще выбирал классические методы с использованием CTE (Common Table Expressions) и агрегаций.
Это подчеркивает, что обе модели достаточно гибкие и способны создавать разнообразные решения для аналогичных задач, что особенно важно в практических сценариях работы с данными. Gemini продемонстрировал более детализированный и аккуратный подход к именованию колонок и форму вывода, что может положительно сказаться на дальнейшей интеграции с BI-инструментами и визуализацией. Claude, с другой стороны, больше экспериментировал с творческими вариантами построения запросов и старался сделать ответы более читаемыми для конечного пользователя, хотя иногда это приводило к «разрыву» формата данных и небольшим несоответствиям при отображении результатов. Ключевой особенностью обоих инструментов стала их способность работать с достаточно сложными элементами SQL — оконными функциями, условной логикой и множественными соединениями таблиц, что традиционно требует глубоких знаний и опыта в SQL. Благодаря использованию MCP-стандарта можно легко интегрировать эти модели в существующую инфраструктуру данных, минимизируя усилия по настройке и обеспечивая безопасность соединения с базой.
Перспективы генеративного бизнес-анализа с помощью LLM очевидны. Они позволяют не только автоматизировать рутинную работу аналитиков, но и упростить доступ к данным для конечных пользователей, которые не умеют писать сложные запросы на SQL. Возможность сформулировать задачу на естественном языке и получить точные, сопровождаемые запросом ответы значительно повышает скорость принятия решений и улучшает качество анализа. Тем не менее, к внедрению таких решений нужно подходить с осторожностью. В настоящее время экспертный контроль по-прежнему необходим, особенно если от аналитики зависят критически важные бизнес-решения.
Ошибки, даже небольшие, могут привести к неправильным выводам и негативным последствиям. В целом, Gemini и Claude представляют собой мощные инструменты, которые уже сегодня можно использовать для улучшения процессов аналитики и внедрения принципов генеративного BI в проекты любой сложности. Их дальнейшее развитие и совершенствование обещает радикально трансформировать отрасль аналитики, сделав работу с данными более доступной и эффективной для широкого круга пользователей. Развитие таких технологий способствует не только оптимизации рабочих процессов, но и расширяет возможности бизнес-аналитики, облегчая интеграцию разнообразных источников данных и снижая порог входа для анализа. В будущем модели, подобные Gemini и Claude, вероятно, станут неотъемлемой частью инструментов бизнес-аналитиков, помогая быстрее обнаруживать инсайты, масштабировать работу с данными и обеспечивать более глубокое понимание клиентских и рыночных процессов.
Использование современных языковых моделей в связке с высокопроизводительными базами данных, такими как ClickHouse, открывает совершенно новые возможности для автоматизации аналитики и поддержки бизнес-операций. Интеграция через MCP обеспечивает стандартизированное, надежное и масштабируемое решение, которое уже сейчас проявляет высокую эффективность и позволяет с уверенностью смотреть в будущее генеративного бизнес-анализа.