Проект OpenElections уже более двенадцати лет занимается превращением официальных результатов выборов с уровней избирательных участков в машинно-читаемые данные. За это время главным вызовом было преобразование изображений протоколов выборов в таблицы, с которыми можно работать для анализа и публикации. Большая часть предоставляемых зафиксированных результатов находится в виде PDF-файлов с изображениями, что усложняет автоматическую обработку данных. Выделяются два основных метода такой работы – ручной ввод данных и оптическое распознавание символов (OCR). Каждый из этих способов обладает своими преимуществами и недостатками.
Ручной ввод данных способен обеспечить достаточную точность, особенно если оператор выполняет повторяющиеся действия много раз и со вниманием. Однако этот путь часто сопровождается ошибками и обходится дорого, особенно для проекта с волонтерской основой. Ранее OpenElections использовала услуги по ручному набору, но затраты и вероятность появления ошибок сделали этот вариант нецелесообразным для широкой практики. OCR-технологии от коммерческих поставщиков, такие как Able2Extract, обладают возможностью преобразовывать PDF-изображения в текст и таблицы, но зачастую испытывают серьезные трудности с документами, где присутствуют пометки, особенности макетов или искажённое качество изображения. Некоторые электронные протоколы, имеющие стандартизированный формат, можно было преобразовать через скрипты и парсеры, однако большинство сканов имеют уникальные особенности, из-за которых стандартные OCR-решения дают сбои.
С приходом и развитием больших языковых моделей (LLM), таких как Google Gemini, OpenElections получила мощный инструмент для обработки сложных документов. Gemini привлекает своей высокой точностью распознавания, даже в случаях с двуколоночным расположением данных, сложной версткой и элементами оформления, а также способностью обрабатывать большие файлы с расширенным контекстом, что критически важно для многостраничных избирательных протоколов. Один из примеров применения Gemini – результаты выборов Лаймстоун Каунти в Техасе. Документ представляет собой PDF с чётким чёрным текстом на белом фоне, однако его двуколоночная разметка и специфические разделительные точки между кандидатами и голосами осложняли работу обычного OCR. Благодаря возможности модели учитывать сложные макеты и предоставлять конкретные инструкции, Gemini смогла добыть практически идеальные данные, с точной конвертацией и минимальными ошибками форматирования.
Такой подход освобождает от необходимости вручную выделять области для каждого блока информации. Аналогично с удачной успешностью решалась задача в Лайв-Оук Каунти, где присутствовали дополнительные сложности с фоном и колоночной структурой, которую необходимо было игнорировать. Используя грамотное примечание и примеры для модели, удалось получить корректный CSV-файл, лишённый мелких, традиционно свойственных OCR-системам ошибок. Это демонстрирует, насколько LLM превосходят стандартные решения по адаптивности под специфику документа. Тем не менее, у больших языковых моделей есть и ограничения.
Обработка больших объемов страниц, таких как PDF Кэмерон Каунти, содержащий более 650 страниц и размером свыше 11 мегабайт, выявила ряд сложностей. В документе местами встречаются дефекты бумаги, например, отверстия от степлера, которые частично затрудняют считывание ключевых слов и значений. В этом случае один длинный ввод вызвал сбои и снижение точности в итоговом файле CSV. В дополнение Gemini порой требовала несколько продолжений команды "продолжить" для завершения конвертации. Решением стала разбивка большого файла на части по 100 страниц и постепенный ввод в модель.
Такой подход реально упростил работу, обеспечив приемлемую точность и корректное завершение задачи за относительно короткое время — около часа на весь объем. Необходимость ручного копирования и некоторой последующей обработки всё же остается, но это значительно меньше, чем затраты ручного ввода или исправления коммерческого OCR. Главное преимущество OpenElections в сравнении с традиционными методами – возможность занизить температуру генерации модели для снижения «творчества» и поддержка опций «thinking mode», которые можно отключить для простых процедур. Это обеспечивает стабильность и воспроизводимость результатов, что крайне важно для обработки официальных данных. Практика показала, что использование LLM в обработке избирательных данных значительно повышает скорость и качество преобразования сложных форматов избирательных протоколов.
За шесть недель работы с результатами около половины округов Техаса было обработано и подготовлено данные именно таким путем. Это недостижимая скорость для моделей ручного ввода или систем стандартного OCR. Однако ни одна автоматизация не заменит необходимости тщательной проверки и контроля качества. В OpenElections внедрена многоуровневая система тестирования, которая автоматически проверяет форматирование, отсутствие дубликатов, а также математические сверки итоговых данных. Финальный контроль проводится вручную путем сопоставления с официальными сводами данных.
Разумеется, наиболее перспективным является развитие автоматических систем контроля качества и генерации данных, основанных на тех же больших языковых моделях, но с осторожностью к рискам повторяющихся ошибок на разных уровнях. Важным аспектом остаётся открытость проекта и взаимодействие с сообществом. OpenElections приглашает разработчиков и заинтересованных участников принять участие в улучшении алгоритмов и расширении возможностей на платформе GitHub. Разработка комплексных решений для сложной области избирательных данных — уникальный вызов, в котором ИИ демонстрирует существенный прогресс, создавая высокоточную и доступную для всех общественную информацию. Таким образом, применение больших языковых моделей в OpenElections представляет собой безупречный пример того, как современные технологии могут преобразить сферы с исторической зависимостью от ручного труда и ограниченных программных решений.
Использование Google Gemini и подобных LLM позволяет достичь ранее недостижимых результатов в терминологии точности, масштабируемости и эффективности обработки избирательных документов, открывая путь к более прозрачному и оперативному анализу выборных процессов.