Новый фреймворк AgentArk от Amazon и самообучение AI
AgentArk: когда один умный агент заменяет толпу

Представьте, что вам нужно решить сложную задачу. Вы можете собрать команду из десяти экспертов, которые будут спорить, обсуждать и приходить к общему решению. Это надёжно, но каждый такой ‘круглый стол’ стоит кучу денег и времени. А можно один раз обучить одного гениального сотрудника так, чтобы он мыслил как вся та команда. Именно это сделали Amazon, CMU и University of British Columbia с фреймворком AgentArk. В 2026 году это один из самых громких прорывов в агентном ИИ.
Вместо того чтобы каждый раз запускать дорогой мультиагентный инференс, разработчики ‘дистиллируют’ коллективное обсуждение в одну модель на этапе обучения. AgentArk использует три режима: дообучение на правильных рассуждениях, расширение данных за счёт разных путей решения, и главный козырь — процессно-ориентированную дистилляцию (PAD). Последняя сохраняет структуру группового обсуждения, включая проверку промежуточных шагов и выявление ошибок.
Цифры впечатляют: PAD дал средний прирост 4,8% по сравнению с одиночными моделями, а в некоторых задачах внутри домена — до 30%. И даже перенос знаний работает: модель, обученная на математике, стала лучше отвечать на каверзные вопросы TruthfulQA (показатель ROUGE-L вырос с 0,613 до 0,657). Почему это важно для нас с вами? Потому что мультиагентные системы — это круто, но дорого. AgentArk перекладывает нагрузку на этап обучения, и в итоге мы получаем одну быструю и дешёвую модель, которая рассуждает как команда. Это как купить Ferrari за цену Lada.
GEA: ИИ, который учится на ошибках толпы
А тем временем в University of California придумали GEA (Group-Evolving Agents). Механизм, от которого у меня глаза загорелись. Вместо того чтобы заставлять одного агента эволюционировать в изоляции, GEA объединяет группу агентов в единую среду, где они постоянно обмениваются стратегиями, ошибками и опытом. И самое важное — ранние неудачные попытки не отбрасываются, а сохраняются и переиспользуются. Даже провал становится частью общего обучающего сигнала.
На бенчмарках SWE-bench Verified и Polyglot такой групповой подход достиг 71% и 88,3% успешных решений соответственно, легко обойдя одиночных самообучающихся агентов. GEA приближается к уровню тщательно спроектированных вручную систем, но при этом остаётся устойчивым при смене задач и моделей. Лично меня это восхищает: мы привыкли, что в ИИ всё решает размер модели и объём данных. А тут выясняется, что координация, коллективная память и передача знаний внутри группы могут дать не меньший, а то и больший эффект. Масштабирование — это не всегда про наращивание гигабайтов. Иногда про умную коммуникацию.
Остальные новости недели (кратко, но со вкусом)
- Zhipu AI выпустила GLM-5 — очередной большой язык, но без особых сенсаций.
- Microsoft показала self-supervised подход, где агенты учатся предсказывать последствия своих действий в текстовых средах. Как игра для ИИ, только без очков.
- Google оптимизировала мультимодальные LLM, трогая не только выходные токены, но и внутренние механизмы внимания. Звучит сложно, но на деле — прирост эффективности.
- Meta (запрещена в РФ), Cornell и CMU нашли способ обучать LLM сложным рассуждениям, меняя минимальное число параметров. Экономия вычислительных ресурсов — наше всё.
- NVIDIA внедрила двухэтапный RL с саморефлексией. ИИ сначала решает, потом критикует себя и улучшает. Сам себе и учитель, и ученик.
- Baidu создала автоматическую систему для генерации многошаговых данных в разных доменах. Универсальные агенты становятся ближе.
- Ant Group представила итеративное рассуждение с RL — оптимизация шаг за шагом.
Новости предоставлены аналитическим центром red_mad_robot. Я лишь перевёл с умного на человеческий.


