История наград Michelin давно окутана легендами и определяет стандарты в мире высокой кухни. С момента своего появления звездочки Michelin стали символом невероятного мастерства, качества и исключительного опыта для гурманов по всему миру. Однако сама компания Michelin не всегда предоставляла полную и прозрачную информацию об эволюции присуждения звезд и изменениях, происходивших в рейтингах ресторанов с течением времени. Именно поэтому один энтузиаст решил зайти туда, куда Michelin не смогла или не захотела, создавая базу данных, которая фиксирует динамику появления и исчезновения звезд, а также другие ключевые показатели, связанные с премированными заведениями. Погружение в мир Michelin началось с простой задачи: собрать и систематизировать данные, касающиеся ресторанов, отмеченных звездами.
Казалось бы, в эпоху открытого интернета и больших данных подобная информация должна быть доступной и легко извлекаемой. Но попытки получить консистентную историческую картину столкнулись с серьезными препятствиями. Основная сложность заключалась в том, что Michelin не публикует архивы с подробной информацией о наградах за предыдущие годы в структурированном виде. Вся доступная информация разбросана между годовыми изданиями и случайными публикациями, а официальный сайт Michelin постоянно меняет свою структуру и дизайн. Электронное хранение и гит-история данных изначально казались технически привлекательным решением.
Автор проекта начал собирать актуальные данные с 2022 года и сохранять их в виде коммитов на GitHub. Идея была проста — анализировать git-историю изменений файла, чтобы получить динамику изменения рейтинга каждого ресторана. Однако на практике оказалось, что даже в таких данных имелись ошибки. Существовала масса проблем с отсутствующими значениями, некорректными ценами, неполными адресами и другими недочетами, возникающими из-за сложности сбора живых данных и постоянных изменений в источнике. Для корректного применения git-истории пришлось вручную исключать проблемные коммиты, что значительно усложнило работу и снизило автоматизацию.
В итоге этот метод был признан слишком громоздким и ненадежным для того, чтобы служить основой долгосрочного проекта. Тогда возникла идея использовать альтернативный источник — архив веб-страниц в Wayback Machine, где хранятся снимки страниц сайта Michelin за последние годы. Этот подход позволил получить исторические снимки, однако он таил в себе собственные ловушки. Во-первых, структура сайта Michelin за годы менялась настолько сильно, что придется создавать «временной парсер» — инструмент, который сможет обрабатывать данные независимо от изменений в вёрстке и расположении элементов на странице. Каждый год требовал новых правил обработки, которые приходилось прописывать почти с нуля.
Во-вторых, сами данные часто были неполными или переменными — к примеру, цены на меню отображались в разных форматах (от простого текстового диапазона до условных символов в виде «$$$$»), что практически исключало возможность унификации и стандартизации этих данных. Еще одной серьезной проблемой было определение точного года, к которому относится награда. В старых снимках сайт явно показывал год издания Michelin Guide, что упрощало отнесение данных к необходимому периоду. Начиная с 2022–2023 годов дизайн страниц изменился, и год больше не указывался напрямую на странице ресторана. При этом дата снятия снимка часто не совпадала с датой публикации гида.
Например, если дата снимка — февраль 2025 года, но официальный путеводитель еще не был выпущен, ни предполагать автоматически, что награда относится к 2025 году. Придется «копаться» в скрытых частях кода страницы (например, в скриптах JSON-LD), чтобы достать правильную метаинформацию. Создание этой сложной системы потребовало не только глубоких технических знаний, но и невероятного терпения для тестирования и проверки каждого этапа сбора и обработки информации. В итоге была построена многоуровневая инфраструктура, включающая инструмент скрапинга, базы данных SQLite с возможностью обновления исторических записей, а также веб-интерфейсы, позволяющие анализировать данные с помощью Datasette. Для обеспечения стабильности и доступности создаваемый проект был размещен на Railway.
app и связан с облачным хранилищем MinIO. Итогом работы стало первое в своем роде историческое хранилище Michelin с данными, начиная с 2019 года. Несмотря на то, что более ранние годы не охвачены из-за отсутствия архивов, такой период охвата уже дает возможность увидеть тренды и динамику присуждения звезд различных ресторанов. Среди самых интересных находок — продолжительность нахождения заведений на высших ступенях рейтинга, распределение зеленых звезд за устойчивость (Green Stars) в зависимости от ценового диапазона и географии, а также анализ изменения рейтингов конкретных ресторанов, например, случаев потери или приобретения звезд. Дополнительно выявились закономерности в ценовых категориях: премия Bib Gourmand, характеризующая заведения с лучшим соотношением цены и качества, доминирует в средних диапазонах цен, в то время как самые дорогие рестораны чаще получают зеленые звезды за экологичность и устойчивые практики.
Доминирующие кухни среди отмеченных ресторанов — креативная и японская, что соответствует и общим трендам мировой гастрономии. Несмотря на успехи, проект не лишен ограничений. Недостающие данные по некоторым заведениям, особенно тем, что закрылись или сменили название и локацию, создают пробелы в истории. Данные не учитывают изменения владельцев или более тонкие нюансы, связанные с URL-адресами ресторанов на сайте Michelin, что иногда затрудняет точное отслеживание истории одного и того же заведения. Тем не менее, наличие стабильного URL значительно повышает качество сопоставления данных.
Принятие этих недостатков и ограничений стало ключом к тому, чтобы проект не останавливаться в развитии и дальнейшей автоматизации обновления базы. Постоянное добавление свежей информации и редактирование исторических записей обещает сделать этот ресурс максимально репрезентативным со временем. Перспективы дальнейшей работы заключаются в расширении диапазона охвата данных, автоматизации распознавания изменений названий и локаций, а также интеграции внешних источников для более обширного анализа тенденций в ресторанной индустрии. Возможно, спустя годы именно эта база станет историческим кладезем информации, исследуемым экспертами, журналистами и поклонниками гастрономии по всему миру. Проект демонстрирует, как при помощи современных технологий и творческого подхода можно превзойти ограничения официальной информации и создавать качественные инструменты для аналитики и исследований.
История наград Michelin, одна из самых престижных в гастрономическом мире, теперь стала доступнее, понятнее и интереснее для анализа благодаря труду одного увлеченного исследователя и прогрессивным IT-решениям. Это пример того, как даже самые закрытые темы могут открываться новым поколениям благодаря инновациям, настойчивости и любви к делу. В итоге, сегодня любой желающий может получить доступ к систематизированной и обновляемой информации о Michelin, проследить динамику изменения звезд, узнать о появлении новых направлений и ценностях высокой кухни. Время показывает, что история Michelin — это не просто о звездах и ресторанах, а о постоянном движении, новаторстве и адаптации, отражающих лучшие гастрономические традиции мира.