Почему ИИ нужно учить на неидеальных данных

Многие разработчики до сих пор учат ИИ на идеальных данных: чистый звук, ровный свет, четкие команды. Такой подход работает в теории. Но в реальности пользователь может говорить с сильным акцентом, снимать на разбитую камеру в темноте и торопиться. Сталкиваясь с такими артефактами, алгоритмы теряются и отвечают с ошибками. Я сам тестировал один ассистент на улице у метро — он сдался после второго вопроса.

Новым технологическим трендом становится смещение фокуса с идеальных данных на репрезентативные — те, что отражают разнообразие человеческих голосов, интонаций, почерков, внешности и паттернов поведения. Если вы думаете, что это нишевая история, вы ошибаетесь. Это касается каждого, кто пользуется техникой.

Что такое ‘неидеальные данные’ и зачем они ИИ

‘Неидеальные’ данные — это всё, что не укладывается в условную норму, на которой традиционно обучают модели. К ним относятся:

речь людей с особенностями артикуляции, дикции или после неврологических заболеваний;
голоса с нестандартным тембром, скоростью или интонацией — например, быстрая тараторка или медлительная вязкая речь;
визуальные сценарии, где важен не внешний вид картинки, а её смысл — размытое фото или ночная съемка;
пользовательские действия, которые идут не по ‘ожидаемому’ сценарию — когда человек нажимает не туда или говорит не так, как ‘надо’.

Для разработчиков такие данные считаются сложными — их мало, они сильно отличаются друг от друга и плохо поддаются автоматической разметке. Но работа с этой информацией заставляет алгоритмы учиться работе с живыми пользователями. В итоге ИИ-модели начинают лучше понимать людей в шумном метро, при плохом соединении или с особенностями речи. Представьте: вы в дороге, связь рвется, а ассистент всё равно вас слышит.

Исследования Good Design Foundation подтверждают: модели, обученные на таких данных, устойчивее к нестандартным условиям и реже допускают критические ошибки. Например, благодаря обучению на записях людей с особенностями речи голосовой ассистент Алиса стала заметно лучше понимать пользователей после инсульта, с ДЦП и заиканием. По оценкам разработчиков, Алиса стала справляться с распознаванием речи в среднем на 20% лучше и работать в сложной акустической обстановке. Я разговаривал с ней в шумном кафе — услышала с первого раза.

От теории к практике: как ‘неидеальные’ данные влияют на продукты и их использование

Инклюзивный подход меняет саму логику разработки. Вместо классического тестирования всё чаще используют совместный дизайн (co-design), когда в процесс вовлекаются люди с уникальным опытом. Так, по данным нашего исследования, большинство людей с особенностями зрения ежедневно пользуются смартфонами — для них критически важно качество работы программ для чтения экрана. Именно поэтому в команде инклюзии Яндекса работают тестировщики с особенностями зрения. Они исследуют дизайны интерфейсов и находят барьеры, которые не видит большинство зрячих разработчиков: например, неправильную навигацию для скринридера. Вы бы не поверили, сколько ошибок находят — кажется, что очевидно, но нет.

Исследование настроек доступности Яндекса Источник: Яндекс

Другая особенность инклюзивного подхода — изменение паттернов взаимодействия с продуктом у широкой аудитории. Очень часто решения, которые изначально разрабатывались для узкой группы пользователей, затем перенимают все остальные. Самый распространенный пример — субтитры. Изначально их создавали для людей с особенностями слуха, а сейчас постоянно используют 51% россиян — в шумном вагоне метро, при изучении новых языков или когда нельзя включить звук. Субтитры перестали быть специальной функцией и стали частью стандартного пользовательского опыта. Я сам включаю их в тиктоке, чтобы не будить домашних.

Примеры таких результатов есть и в разработке ИИ-решений. Например, умную камеру в Яндекс Браузере создавали для быстрого и удобного взаимодействия с миром через камеру смартфона. Технология работает в реальном времени: видит надписи на упаковках и вывесках магазинов, подсказывает, как правильно навести камеру, и зачитывает содержимое вслух. В результате инструментом теперь пользуется широкая аудитория — чтобы найти товар, прочитать мелкий шрифт на упаковке или быстро оцифровать документ. Я сам так паспорт сфоткал — всё распозналось идеально.

Обучение ИИ на ‘неидеальных’ данных — например, на речи людей с особенностями дикции — работает так же. Оно делает алгоритм более надежным и точным инструментом для всех пользователей, ведь в шумном месте или при плохой связи может оказаться каждый.

Прогноз: от зарождающегося тренда к стандарту индустрии

Обучение ИИ на ‘неидеальных’ данных скоро станет нормой. Этот сдвиг — от исключения к правилу — уже происходит под влиянием трех сил: рыночного спроса, внутренней логики развития технологий и регуляторов. Именно разнообразные данные — ключ к созданию по-настоящему доступных сервисов, которые должны работать для всех людей. Если вы бизнес-владелец и ваша нейросеть не понимает половину аудитории — вы теряете деньги.

Поэтому в Европе и США уже действуют законы, которые прямо требуют от госструктур и бизнеса соблюдать цифровую доступность. В России этот тренд тоже набирает обороты — через национальные ГОСТы и поправки в законы. В будущем совершенствование инклюзивного ИИ будет определяться системной разработкой универсальной и ответственной цифровой среды.

Технологии научатся с самого начала говорить с пользователем на его языке. Голос станет основным интерфейсом для пожилых людей и пользователей с особенностями здоровья. Вместо поиска в меню человек скажет: ‘Найди ближайшую аптеку с пандусом’ — и голосовой агент учтет параметры доступности, о которых обычные карты молчат. Автономные ИИ-агенты превратят сложные задачи в один запрос: например, система сама заполнит заявление на льготу, сверит данные и предложит подписать. Представьте, как это упростит жизнь людям, которым трудно ходить по инстанциям.

Следующий сдвиг произойдет, когда ИИ станет персональным компаньоном и наставником. Он сможет адаптироваться под особенности конкретного человека, помогая учиться, работать и сохранять самостоятельность. Для одного пользователя нейросеть разобьет сложную инструкцию на шаги с напоминаниями, для другого — переведет текст и выделит суть. Будущее инклюзивного ИИ — в балансе между универсальностью и персонализированной поддержкой. И, честно говоря, я жду этого с нетерпением.