В современном мире, где цифровые технологии проникают во все сферы жизни, сфера налогообложения также не осталась в стороне. В частности, искусственный интеллект все активнее применяется для улучшения процессов подготовки и подачи налоговых деклараций. Однако несмотря на очевидные перспективы, задача автоматического и точного расчета налогов остается невероятно сложной. На помощь приходит инновационный бенчмарк TaxCalcBench, призванный объективно оценить способности передовых AI-моделей именно в части критически важного этапа — вычислении налоговых обязательств. TaxCalcBench является первым в своем роде стандартом, который позволяет протестировать и сравнить возможности различных моделей искусственного интеллекта при работе с реальными, но синтетическими, налоговыми данными.
Основная цель проекта — определить, насколько современные AI способны заменить или дополнить традиционные налоговые программы при расчете личных налогов для граждан США. Хотя фокус изначально сделан на американском рынке, опыт и выводы имеют огромный резонанс и для других стран, включая Россию, где налоговые системы постепенно переходят в цифровой режим. Система налогового учета в США уникальна своей сложностью: федеральный налоговый кодекс насчитывает более 75 тысяч страниц и содержит миллионы правил и взаимосвязей. Для понимания масштаба достаточно представить, что расчет одной лишь строчки налоговой декларации, например, строка 1a формы 1040 — «Общая сумма из Форм W-2, поле 1» — требует учета множества нюансов и исключений. Если у налогоплательщика несколько работодателей, сумма суммируется с учетом разного рода корректировок.
Это далеко не просто арифметика, а сложное взаимодействие множества законодательно установленных правил. До появления AI основные налоговые движки создавались как детерминированное ПО — строгие программы, берущие на вход финансовые данные и четко выполняющие расчеты по заданным регламентам. Однако создание такого софта требует колоссальных затрат времени и сил, постоянного обновления под изменяющиеся законы и огромного внимания к деталям. В этом плане AI обещает большую гибкость и способность к обучению, но пока не доказал стопроцентной надежности. Важнейшая миссия TaxCalcBench — проверить, насколько сегодня продвинуты модели искусственного интеллекта в шаге преобразования пользовательских финансовых данных в правильные налоговые декларации.
Так как реальных личных финансовых данных у разработчиков нет, для тестирования были созданы 51 пара входных данных и эталонных деклараций в формате IRS XML. Это покрывает различные налоговые ситуации — от одиноких налогоплательщиков до семей с детьми, различные виды доходов, кредиты и вычеты. Строгое сравнение результатов работы моделей с эталонными показывает, что даже лучшие из них допущают значительные ошибки. Например, модель Gemini 2.5 Pro, признанная лидером на момент тестирования, правильно рассчитывает декларацию только в 32% случаев по строго коррелируемому показателю, и около 52% — по более мягкому критерию с допуском в 5 долларов на линию.
Другие модели от разработчиков Claude показывают результаты еще ниже. Основные ошибки связаны с неправильным применением налоговых таблиц. Многие модели пытаются вычислить налог по упрощенной процентной формуле, в то время как налоговые инструкции предусматривают обязательное использование конкретных таблиц в определённых случаях. Это приводит к расхождениям в несколько долларов, но в реальности даже маленькая неточность может быть критичной при официальной подаче декларации. Помимо ошибок с таблицами, модели допускают классические арифметические ошибки и путаницу в правильных формулировках и расположении строк.
Например, в расчетах кредитов, таких как Child Tax Credit или Earned Income Tax Credit, AI модели часто ошибаются, неправильно интерпретируют условия и вводят неверные данные. Такие проблемы усугубляются отсутствием единого «ключевого ответа» от налоговых служб и сложностью учета различных вариаций ситуаций. Невзирая на эти трудности, проект TaxCalcBench открывает новый этап в развитии AI для налогообложения. Он не только выявляет слабые места современных моделей, но и предлагает пути совершенствования. Разработчики подчеркивают необходимость создания дополнительной инфраструктуры, контекстного сопровождения и четкой схемы управления знаниями налогового домена.
Эта так называемая «модерация» позволит усилить соблюдение правил и повысить точность расчетов. Интересно отметить, что увеличение «мысленного ресурса» моделей — объем вычислительных токенов, отведенных на размышления и анализ — не всегда приводит к улучшению результатов. Некоторые модификации показывают стабильность на определенных уровнях нагрузки и не поднимаются выше, что указывает на необходимость качественной, а не просто количественной оптимизации алгоритмов. Перспективы внедрения подобных технологий в России и других странах обнадеживают. Несмотря на различия в налоговых системах, универсальные сложности работы с регламентированными формами и большими объемами данных идентичны.
AI, дополненный грамотной инженерией и знаниями экспертов, способен значительно ускорить и улучшить процесс налоговой отчетности, упростить подготовку и снизить количество ошибок. Для российских налогоплательщиков и компаний подобные решения откроют доступ к более интеллектуальным и доступным сервисам. Особенно актуально это для самозанятых, малого и среднего бизнеса, где нет постоянного штатного бухгалтера. Полность автоматизированные системы смогут вести расчеты, подсказывать оптимальные вычеты и кредитные опции, адаптируясь под различные сценарии и законодательные изменения. Однако до полного внедрения остается еще много вызовов и задач.