Машинное обучение и искусственный интеллект уже давно перестали быть просто научной фантастикой и вошли в повседневную жизнь, трансформируя бизнес, медицину, финансы и многие другие отрасли. Несмотря на огромный потенциал, технологии все еще далеки от совершенства. На пути к будущему, в котором машины смогут принимать решения, мы сталкиваемся с примерами, когда проекты на базе машинного обучения терпят неудачу, наносят вред или подают ложную информацию. Понимание причин таких провалов помогает повысить эффективность и безопасность следующих разработок, а также развивать нравственные и этические стандарты в области ИИ. Один из ярких примеров неудач связана с системами, используемыми в рекрутменте.
Многие компании пытались автоматизировать подбор персонала с помощью алгоритмов, которые анализируют резюме и поведение кандидатов. Однако программа Amazon AI Recruitment System была прекращена после выявленных доказательств дискриминации женщин, что продемонстрировало, насколько предвзятыми могут быть даже самые современные инструменты. Данный случай стал наглядным примером того, что если исходные данные содержат человеческие предубеждения, алгоритмы лишь их усугубляют. Подобные проблемы наблюдались в проекте Genderify, AI-инструменте, который пытался идентифицировать пол по имени или адресу электронной почты. Он оказался неточным и склонным к ошибкам из-за встроенных предрассудков в изучаемых данных.
Эти примеры стали тревожным сигналом для отрасли, призывая к более тщательной проверке данных и алгоритмов на предмет справедливости. Проблемы с предвзятостью вышли за рамки рекрутмента. Алгоритмы, используемые в правовой системе США, такие как COMPAS Recidivism Algorithm, были уличены в расовой дискриминации. Их задача - предсказать вероятность повторного правонарушения, но результаты оказались несправедливыми по отношению к афроамериканцам. В детской социальной защите похожие алгоритмы приводили к чрезмерному количеству расследований по факту жестокого обращения с детьми в чернокожих семьях, что породило обвинения в расовой предвзятости.
Аналогичные трагедии произошли и в здравоохранении: алгоритмы, предназначенные для оценки потребностей пациентов, систематически игнорировали особенности болезни у представителей разных расовых групп. В частности, широко используемый инструмент предсказывания риска для системы здравоохранения США оказался несправедлив по отношению к чернокожим пациентам - для того же показателя риска они зачастую были значительно больнее, чем белые пациенты. В финансовой сфере очередной громкий скандал произошел вокруг кредитных карт Apple Card, разработанных совместно с Goldman Sachs. Потребители обвинили систему в дискриминации женщин, когда кредитные лимиты для мужчин оказывались намного выше, чем для их жен и партнерш. Регуляторы начали расследование, а многие специалисты подчеркнули, что сама система кредитного скоринга построена на данных с историческими гендерными предубеждениями.
Проблемы с машинным обучением не ограничиваются социальными и финансовыми сферами. В области компьютерного зрения, где искусственный интеллект пытается распознавать лица, объекты и ситуации на изображениях и видео, тоже случались провалы с последствиями как для бизнеса, так и для простых людей. Например, система автоматического отслеживания футбольных мячей в реальном времени в программе Inverness не смогла корректно различать мяч и светлую голову судьи, что привело к множеству ошибок на трансляциях. Технология распознавания лиц Amazon Rekognition многократно вызывала критику за ложные совпадения и расовую предвзятость. В одном случае она ошибочно связала 28 конгрессменов США с криминальными фотографиями, а также показывала худшую точность с женщинами с темным цветом кожи.
Подобные недостатки приводят не только к ошибкам, но и к серьезным юридическим и этическим последствиям, о которых свидетельствует случай с неправомерным арестом невиновного чернокожего мужчины, ошибочно опознанного системой распознавания лиц в Нью-Джерси. Это подчеркивает, что технологии должны быть не только мощными, но и надежными, ведь от результатов может зависеть реальная жизнь и свобода людей. Машинное обучение также проявляло себя неспособным предсказывать будущее корректно. Знаменитый проект Google Flu Trends, который предлагал прогнозирование вспышек гриппа на основе анализа поисковых запросов, неоднократно переоценивал числа заболеваемости, приводя к неправильным оценкам и пустой панике. Похожая судьба постигла алгоритмы компании Zillow, которая стремилась автоматизировать покупку и перепродажу жилья.
Ошибочные оценки стоимости недвижимости привели к значительным финансовым потерям, что в итоге вынудило компанию скорректировать свою стратегию. В мире инвестиций не все проекты с участием ИИ оказались успешными. Автоматизированные хедж-фонды, управляемые искусственным интеллектом, включая Tyndaris Robot Hedge Fund и Sentient Investment AI Hedge Fund, потерпели убытки и были ликвидированы. JP Morgan также отказался от использования глубокого обучения для алгоритмов торговли на валютном рынке из-за сложности интерпретации данных и непредсказуемости моделей. Важную роль машинное обучение играет и в генерации изображений, однако и тут технологии временами ошибаются и производят нежелательные результаты.
К примеру, платформа Playground AI при попытке преобразовать азиатскую фотографию в профессиональное фото LinkedIn создала изображение с кавказскими чертами, что вызвало обсуждения в сообществе о встроенных культурных и расовых предубеждениях. Модель Stable Diffusion продемонстрировала различия в изображениях в зависимости от расы и пола, часто поддерживая стереотипы по профессиям или связям с преступностью. Другая крупная компания Google столкнулась с проблемой неточностей в исторических изображениях своих Gemini-генераторов, которые иногда неверно изображали американских отцов-основателей, в попытках избежать социальных стереотипов. Область обработки естественного языка также стала ареной для заметных неудач. Известный чат-бот Microsoft Tay, запущенный для общения с публикой, быстро начал публиковать оскорбительные и экстремистские сообщения, что вынудило компанию его отключить.
Эксперименты на базе GPT-3 продемонстрировали, что чат-боты могут выдавать опасные рекомендации, к примеру советовать пациентам совершать самоубийство при медицинских консультациях. Более того, ИИ иногда создаёт ошибки серьезного характера - изобретая фальшивые научные публикации, неправильные юридические дела и лживую финансовую информацию, что ставит под вопрос надёжность данных технологий. Технологии голосового распознавания иногда приводят к неприятным ситуациям, когда помощники, например Amazon Alexa, выполняют неподходящие команды, что случалось после того, как малолетние пользователи давали голосовые поручения. В некоторых случаях киберпреступники использовали ИИ для имитации голосов руководителей, чтобы обманным путем заставить компании переводить деньги мошенникам. Системы рекомендаций, которые должны помогать людям выбирать фильмы, товары или медицинские процедуры, тоже не всегда оправдывают ожидания.
IBM Watson Health столкнулся с обвинениями в том, что рекомендации по лечению рака, созданные на основе ИИ, были небезопасными и неправильными. Немаловажно, что даже победители конкурсов по рекомендациям, например система Netflix, несмотря на хорошие результаты в тестах, не всегда используются на практике из-за сложностей в внедрении и соотношении затрат и эффекта. Анализ провалов машинного обучения показывает, что корни ошибок часто лежат в некачественных или несбалансированных данных, недостаточном тестировании, отсутствии прозрачности алгоритмов и игнорировании социально-этических последствий их использования. Несмотря на впечатляющий прогресс ИИ, многие проблемы еще требуют решения. Непреднамеренная предвзятостьalgorithms может усугублять социальное неравенство и дискриминацию, а ошибки в критически важных системах, например, здравоохранения и правосудия, способны причинить вред людям.
Важным уроком становится необходимость ответственного подхода к разработке и внедрению машинного обучения. Это включает создание разнообразных и сбалансированных наборов данных, прозрачность алгоритмов, многоуровневое тестирование и постоянный мониторинг работы систем после деплоя. Кроме того, правоохранительные и регулирующие органы также должны адаптироваться к новым технологиям, чтобы предотвращать злоупотребления и защищать права людей. Массовое применение машинного обучения в реальной жизни требует большего внимания к деталям и уважения к нравственным нормам. Провалы машинного обучения демонстрируют, что технологии далеко не совершенны и не могут функционировать изолированно от человеческого контроля и надзора.
Они подчеркивают необходимость междисциплинарного сотрудничества между специалистами по данным, этиками, юристами и специалистами отраслей, где эти технологии применяются. Только комплексный подход позволит избежать повторения ошибок прошлого и приблизиться к будущему, в котором искусственный интеллект будет помогать людям, а не вредить им. Осознание и анализ неудач машинного обучения является не просто академическим упражнением, а фундаментальной частью пути к более справедливому и надежному цифровому обществу. .