С момента появления больших языковых моделей (LLM) мир аналитики данных переживает значительные преобразования. Одним из самых перспективных направлений становится автоматизация создания SQL-запросов на основе естественного языка, что приближает к реализации так называемой генеративной бизнес-аналитики. В начале развития этой технологии результаты были неоднозначными – модели часто допускали ошибки в синтаксисе запросов либо неправильно интерпретировали поставленные задачи. Сегодня ситуация резко изменилась. Современные модели, такие как Gemini 2.
5 Pro и Claude Opus, демонстрируют куда более высокий уровень понимания контекста, умеют строить корректные запросы и взаимодействовать с базами данных. Они способны не только генерировать SQL-код, но и совершать итерации для исправления ошибок, что приближает их к роли эффективных агентов в принятии решений. Практическая проверка и сравнение этих моделей на реальных задачах аналитики представляет особую ценность, позволяя оценить их возможности и понять, насколько близко технологии к массовому внедрению. Для тестирования был выбран ClickHouse – современная аналитическая база данных, отличающаяся высокой производительностью и широкими возможностями масштабирования. Выбранная для эксперимента схема «Danny’s Diner» представляет собой простую, но вместе с тем достаточно емкую структуру, состоящую из трех таблиц: sales (продажи), menu (меню) и members (участники программы лояльности).
Наличие в этой схеме нормализованных и денормализованных данных, а также необходимость выполнения соединений и использования оконных функций создавали достаточно сложные условия для моделей. Подключение обеих ИИ-моделей к ClickHouse выполнялось через стандарт MCP, упрощающий интеграцию и взаимодействие. Это позволило в равных условиях протестировать их на 10 типичных вопросах, касающихся анализа данных о покупках, предпочтениях клиентов и накопительных баллах в программе лояльности. Вопросы постепенно усложнялись, охватывая базовые операции агрегации, работу с датами, применение оконных функций и сложные условия в запросах. Сравнение производительности моделей показало интересные результаты.
Claude продемонстрировал более быструю начальную обработку, параллелизировал задачи и тем самым сократил общее время выполнения до 4 минут. Gemini, напротив, работал последовательно и затрачивал в два раза больше времени – около 8 минут. Однако скорость выполнения не всегда означала качество результата. Анализ точности ответов выявил, что обе модели способны формировать корректные и логически верные SQL-запросы. В большинстве случаев результат их работы совпадал, что свидетельствует о зрелости и надёжности современных моделей.
Тем не менее, наблюдались тонкие различия. Например, в пятом вопросе, касающемся самого популярного блюда для каждого клиента, Claude допустил небольшую ошибку в интерпретации результата – SQL-запрос был правильным, но итоговые данные при визуализации имели несоответствия. Gemini же показал более полное множество ответов, включая ситуации с несколькими равнозначными по популярности продуктами. Такое различие, вероятно, связано с post-processingом результатов и способами отображения данных. Что касается структуры запросов, то обе модели использовали различные подходы к решению одних и тех же задач.
Где Claude предпочитал оконные функции для ранжирования и определения первых или последних покупок, Gemini чаще использовал CTE (Common Table Expressions) и агрегационные функции. Оба подхода корректны и показывают гибкость и адаптивность моделей к разным синтаксисам SQL. Точность и корректность запросов подтверждались успешным выполнением в ClickHouse. Особо стоит отметить, что обе модели успешно справились с нестандартными условиями начисления баллов в программе лояльности. В запросах учитывались мультипликаторы для определённых блюд, временные рамки во время действия усиленных бонусов и индивидуальные настройки клиентов.
Это свидетельствует о достаточно продвинутой логике обработки и учёте контекста. Практическое значение подобных решений трудно переоценить. Возможность задать сложный аналитический вопрос на естественном языке и получить готовый, корректный и оптимизированный для платформы ClickHouse SQL-запрос открывает новые горизонты в области бизнес-интеллекта. Это существенно снижает порог входа для непрофессиональных пользователей и позволяет аналитикам сосредоточиться на интерпретации результатов, а не на написании кода. Тем не менее, несмотря на высокий уровень автоматизации и точности, эксперты рекомендуют не полагаться исключительно на ИИ для критически важных задач без дополнительной проверки.
Генеративная бизнес-аналитика пока что наиболее эффективна в качестве инструмента поддержки и ускорения работы профессионалов, а не полной замены. Интересно, что результаты «баттла» между Gemini и Claude оказались практически равными по качеству, несмотря на субъективные впечатления автора теста. Gemini немного выиграл по количеству правильных ответов благодаря особенностям визуализации и обработки итогов, но это лишь подчёркивает, насколько важно комплексное тестирование и оценка моделей. Перспективы развития генеративной BI очевидны. С каждым обновлением языковых моделей их способности улучшаются, а стандартизация интерфейсов, например, с применением MCP, упрощает интеграцию с различными базами данных и платформами.
В результате создается экосистема, где голосовые или текстовые запросы пользователей автоматически преобразуются в аналитические отчеты, снижая время на получение важной информации и повышая гибкость бизнеса. Использование Gemini и Claude для SQL-аналитики демонстрирует, что технологии генеративного ИИ уже готовы к решению сложных бизнес-задач, сочетают скорость, точность и гибкость. Эти инструменты помогают перейти от статичной отчётности к интерактивному, быстро адаптирующемуся анализу, позволяя компаниям быстрее реагировать на изменения рынка и потребности клиентов. При правильном внедрении и сопровождении такие решения могут стать революционным шагом в развитии Data-Driven-организаций. Таким образом, сравнение Gemini и Claude в контексте SQL-аналитики на базе ClickHouse – не просто тест технологий, а важный этап на пути к новой парадигме бизнес-аналитики.
Эффективная автоматизация формирования запросов и анализа данных на естественном языке уже перестала быть фантастикой и становится доступным инструментом, который может заметно повысить производительность и качество принятия решений в различных отраслях.