Новый фреймворк AgentArk от Amazon и самообучение AI в 2026 году

AgentArk: когда один умный агент заменяет толпу

Представьте, что вам нужно решить сложную задачу. Вы можете собрать команду из десяти экспертов, которые будут спорить, обсуждать и приходить к общему решению. Это надёжно, но каждый такой ‘круглый стол’ стоит кучу денег и времени. А можно один раз обучить одного гениального сотрудника так, чтобы он мыслил как вся та команда. Именно это сделали Amazon, CMU и University of British Columbia с фреймворком AgentArk. В 2026 году это один из самых громких прорывов в агентном ИИ.

Вместо того чтобы каждый раз запускать дорогой мультиагентный инференс, разработчики ‘дистиллируют’ коллективное обсуждение в одну модель на этапе обучения. AgentArk использует три режима: дообучение на правильных рассуждениях, расширение данных за счёт разных путей решения, и главный козырь — процессно-ориентированную дистилляцию (PAD). Последняя сохраняет структуру группового обсуждения, включая проверку промежуточных шагов и выявление ошибок.

Цифры впечатляют: PAD дал средний прирост 4,8% по сравнению с одиночными моделями, а в некоторых задачах внутри домена — до 30%. И даже перенос знаний работает: модель, обученная на математике, стала лучше отвечать на каверзные вопросы TruthfulQA (показатель ROUGE-L вырос с 0,613 до 0,657). Почему это важно для нас с вами? Потому что мультиагентные системы — это круто, но дорого. AgentArk перекладывает нагрузку на этап обучения, и в итоге мы получаем одну быструю и дешёвую модель, которая рассуждает как команда. Это как купить Ferrari за цену Lada.

GEA: ИИ, который учится на ошибках толпы

А тем временем в University of California придумали GEA (Group-Evolving Agents). Механизм, от которого у меня глаза загорелись. Вместо того чтобы заставлять одного агента эволюционировать в изоляции, GEA объединяет группу агентов в единую среду, где они постоянно обмениваются стратегиями, ошибками и опытом. И самое важное — ранние неудачные попытки не отбрасываются, а сохраняются и переиспользуются. Даже провал становится частью общего обучающего сигнала.

На бенчмарках SWE-bench Verified и Polyglot такой групповой подход достиг 71% и 88,3% успешных решений соответственно, легко обойдя одиночных самообучающихся агентов. GEA приближается к уровню тщательно спроектированных вручную систем, но при этом остаётся устойчивым при смене задач и моделей. Лично меня это восхищает: мы привыкли, что в ИИ всё решает размер модели и объём данных. А тут выясняется, что координация, коллективная память и передача знаний внутри группы могут дать не меньший, а то и больший эффект. Масштабирование — это не всегда про наращивание гигабайтов. Иногда про умную коммуникацию.

Остальные новости недели (кратко, но со вкусом)

Zhipu AI выпустила GLM-5 — очередной большой язык, но без особых сенсаций.
Microsoft показала self-supervised подход, где агенты учатся предсказывать последствия своих действий в текстовых средах. Как игра для ИИ, только без очков.
Google оптимизировала мультимодальные LLM, трогая не только выходные токены, но и внутренние механизмы внимания. Звучит сложно, но на деле — прирост эффективности.
Meta (запрещена в РФ), Cornell и CMU нашли способ обучать LLM сложным рассуждениям, меняя минимальное число параметров. Экономия вычислительных ресурсов — наше всё.
NVIDIA внедрила двухэтапный RL с саморефлексией. ИИ сначала решает, потом критикует себя и улучшает. Сам себе и учитель, и ученик.
Baidu создала автоматическую систему для генерации многошаговых данных в разных доменах. Универсальные агенты становятся ближе.
Ant Group представила итеративное рассуждение с RL — оптимизация шаг за шагом.

Новости предоставлены аналитическим центром red_mad_robot. Я лишь перевёл с умного на человеческий.