Современные технологии искусственного интеллекта стремительно развиваются и внедряются в различные сферы жизни — от медицины и образования до развлечений и бизнеса. Однако рост возможностей ИИ сопровождается и усилением этических вопросов, связанных с тем, как именно обучаются модели и какие данные для этого используются. Одним из самых крупных и значимых источников обучающих данных в области генерации изображений является набор DataComp CommonPool, который содержит миллиарды пар изображений и текстов, собранных путем веб-скрапинга. Несмотря на научную ценность такого набора данных, недавние исследования обнаружили, что среди них присутствуют миллионы изображений с личной информацией реальных людей, включая паспорта, кредитные карты, водительские удостоверения и даже персональные резюме с контактными данными. Обнаружение огромного количества личных данных внутри открытого набора стало тревожным сигналом для исследователей и общественности.
В частности, исследовательская группа проверила лишь 0,1% DataComp CommonPool, но уже в этом небольшом объеме была найдена тысяча удостоверений личности с четко видимыми лицами и конфиденциальной информацией. Ученые пришли к выводу, что в целом таких конфиденциальных материалов может быть сотни миллионов, если анализировать весь объем данных. Эти сведения подтверждают, что практика массового сбора данных с веб-ресурсов не ограничивается законами или этическими рамками, в результате чего создаются огромные базы с чувствительной информацией без согласия ее владельцев. Ключевой проблемой такого подхода является механизм сбора данных — автоматический веб-скрапинг, при котором программы непрерывно обходят сайты, копируя содержимое без разбора на то, что является публичной, а что личной информацией. Именно из-за масштабов сбора и отсутствия специфичных фильтров внутри DataComp CommonPool в набор попали не только фотографии с открытых аккаунтов в социальных сетях, но и документы с персональными данными, а также резюме с подробностями, которые не должны становятся достоянием широкой публики.
Например, исследователи нашли случаи, где резюме содержали сведения о расе, инвалидности, истории проверок и даже информацию о членах семьи, что является явным нарушением конфиденциальности. Организаторы и кураторы набора данных применяли некоторые меры для защиты персональных данных, например, автоматическое размытие лиц на изображениях. Но, как показало исследование, алгоритмы недостаточно совершенны и пропускают огромное количество идентифицируемых лиц и документов. Более того, фильтры не распознают текстовые данные с номерами социального страхования, электронными адресами, домашними адресами и другими критическими деталями. Таким образом, несмотря на попытки частичной защиты, набор данных по-прежнему является источником значительных рисков для приватности.
Еще одним серьезным вопросом является юридическая неопределенность в отношении использования таких данных. В разных странах существуют различные законы о защите персональных данных. В Европе действует Общий регламент защиты данных (GDPR), в Калифорнии — Калифорнийский закон о защите прав потребителей (CCPA), однако в США в целом отсутствует единое федеральное законодательство, регулирующее использование информации. Более того, многие из действующих законов предусматривают исключения для «публично доступной» информации, что на практике позволяет компаниям и исследователям собирать и использовать данные без явного согласия владельцев, если они были найдены в сети. При этом сама формулировка «публично доступная» является спорной, учитывая, что многие пользователи даже не догадываются, что их личные данные могут попадать в большие базы и использоваться для обучения ИИ.
Серьезные опасения вызывает и вопрос согласия. Многие фотографии, документы и тексты были опубликованы в интернете задолго до появления современных ИИ-моделей. Люди, выкладывающие информацию, не предполагали, что она будет использоваться для создания алгоритмов генерации изображений или других приложений. В некоторых случаях данные относятся к детской информации или к документам, предназначенным только для ограниченного круга лиц, что усиливает этические проблемы. Кроме того, удаление информации из таких баз данных также не решает проблемы.
Даже если человек обнаружит, что его данные присутствуют в наборе и попросит об удалении, обученная модель уже может сохранять в себе знания из этих данных, и простой процесс удаления из базы не гарантирует удаления влияния таких данных на работу ИИ. Новые технические решения и методы машинного обучения, способные производить «забывание» информации, находятся в стадии разработки и пока не получили широкого распространения. Для решения описанных проблем необходим комплексный подход, включающий законодательные инициативы, улучшение методов фильтрации и анонимизации данных, а также повышение осведомленности самой общественности. Исследователи призывают пересмотреть традиционную практику массового автоматического сбора данных и внедрить более строгие стандарты проверки и удаления персональной информации. Технологические платформы, распространяющие данные, например Hugging Face, начали интегрировать инструменты, позволяющие людям искать и запрашивать удаление своих данных из наборов.
Но такой подход требует от пользователей знания об общем доступе к их данным, что далеко не всегда возможно. В конечном счете, вызовы, связанные с конфиденциальностью в больших наборах данных для обучения ИИ, отражают более широкую проблему неразрывной связи цифровой эпохи с вопросами безопасности и этики. Переход к более ответственному использованию данных зависит от совместных усилий разработчиков ИИ, законодателей, организаций по защите прав и самих пользователей. Только так можно обеспечить развитие искусственного интеллекта с уважением к личной жизни и правам каждого человека. Рост и распространение больших данных неизбежны и важны для прогресса технологий, но должны сопровождаться продуманными мерами по защите информации.
Использование непроверенных веб-данных не может оставаться стандартом без надзора и регулирования. Перспективы этичного ИИ связаны с реформой сбора и обработки данных, что позволит не только создавать мощные модели, но и сохранять доверие общества в цифровом пространстве. По мере взросления технологий важно задаваться не только вопросом «что можно сделать», но и «что следует делать» во благо всех пользователей и соблюдения их прав на приватность.