В современную эпоху быстрого развития искусственного интеллекта и машинного обучения одной из актуальных задач становится не только обработка текста, но и правильное восприятие визуальной информации. Создание мультимодальных систем, способных работать с изображениями и текстом одновременно, всё больше привлекает внимание исследователей и разработчиков. Одним из забавных, но в то же время серьёзных тестов для таких моделей является задача подсчёта букв R на изображении клубники, где семечки искусственно оформлены в виде этой буквы. Этот непростой пример помогает понять, насколько эффективно современные технологии справляются с визуальным распознаванием сложных и нестандартных образов в сравнении с их предварительными успехами в текстовых задачах. Клубника – привычный всем фрукт с ярко-красной поверхностью и множеством семян, разбросанных по поверхности.
В эксперименте с моделями ИИ семечки на изображении были изображены в форме буквы R, что создавало новый визуальный вызов – нужно точно сосчитать, сколько таких «букв» содержится на фотографии. Казалось бы, простая задача для искусственного интеллекта, но на практике она показала существенные ограничения многих современных систем. Исследования и тесты, проведённые с использованием таких популярных моделей, как GPT-4, Google Gemini и Anthropic Claude, показали разнонаправленную успешность. Некоторые модели смогли корректно определить количество букв R, в то время как другие значительно ошибались, завышая или занижая цифры. Такие результаты подтверждают идею, что несмотря на колоссальные успехи в обработке текста, визуальный анализ остаётся сложной зоной для многих алгоритмов.
Это связано с тем, что визуальная информация требует особых навыков распознавания объектов, контекстов и мелких деталей, а также высокой когнитивной гибкости и способности обобщать данные. В отличие от текстовой аналитики, где данные организованы линейно и правила языка чётко определены, изображения предоставляют гораздо меньше структурированных подсказок. Особенно сложно воспринимаются изображения с неопределёнными или специально изменёнными компонентами, как в случае с клубникой и буквами R вместо обычных семян. Несмотря на трудности, тесты позволили продемонстрировать перспективы и потенциал роста у современных мультимодальных систем. Некоторые модели показывали довольно хорошие результаты, что свидетельствует о принципиальной возможности усовершенствования таких алгоритмов и их практического применения в будущем.
Подобные визуальные задачи открывают новые горизонты для исследований в области компьютерного зрения и комбинации разных форм данных – изображений и текста, что является одним из ключевых направлений развития ИИ. Помимо технических аспектов, эта игровая и в то же время серьёзная задача подчёркивает и важность внимания к деталям в машинном обучении, а также необходимость создания более универсальных моделей, способных работать с разноплановой и неструктурированной информацией. Интересна также методика создания таких тестов с использованием генеративных инструментов для создания изображений, что позволяет задавать нестандартные вопросы и проводить эксперименты, не ограничиваясь заранее известными шаблонами. Это способствует выявлению реальных возможностей и слабых мест ИИ-систем в условиях, близких к реальным сценариям использования. В целом, пример с подсчётом букв R на клубнике наглядно демонстрирует текущие достижения в области искусственного интеллекта, его плюсы и ограничения, а также подчёркивает важные направления для дальнейшей работы и прогресса.