Amazon FineRouter и новая архитектура ИИ маршрутизации в 2026

Новая архитектура от Amazon

Amazon Web Services разработала FineRouter: двухэтапную архитектуру маршрутизации запросов между языковыми моделями. Существующие решения плохо справляются с двумя проблемами: сложно вручную задавать таксономии задач, а монолитные маршрутизаторы не улавливают тонкие различия между моделями. FineRouter решает обе. И делает это элегантно.

На первом этапе система с помощью графовой кластеризации находит скрытые категории запросов и обучает классификатор, который определяет тип нового запроса. На втором этапе используется архитектура смеси экспертов (MoE) — для каждого типа задач есть специализированные модули, которые оценивают, какая модель даст лучший результат. В реальном времени система объединяет результаты обоих этапов: это дает устойчивость за счет понимания типа задачи и гибкость за счет учета особенностей конкретного запроса.

В экспериментах на 10 бенчмарках с участием 11 современных моделей FineRouter превзошел существующие подходы и даже самую сильную отдельную модель — при этом потребовал менее половины вычислений на инференс. То есть вы экономите ресурсы и получаете лучшее качество. Мечта инженера.

Почему это важно: с ростом числа моделей и сокращением разрыва в их качестве правильно распределять запросы становится критично. Простые запросы можно направлять к дешевым моделям, сложные — к дорогим. Это делает ИИ-системы доступнее и эффективнее. Если вы до сих пор шлете всё в GPT-4 — вы переплачиваете.

Концепция естественного описания

Университет Цинхуа предложил концепцию Natural-Language Agent Harnesses (NLAHs): структурированное описание на естественном языке, которое выносит логику ‘обвязки’ агента в отдельный переносимый артефакт. Звучит как мелочь, но на деле это революция для разработки.

Обычно эта логика разбросана по всей системе: часть зашита в коде, часть — в настройках фреймворков, часть — в адаптерах инструментов. Менять, переносить или анализировать ее трудно. NLAHs собирают все в одном месте: описываются роли компонентов, правила их взаимодействия, этапы выполнения, состояния системы и возможные ошибки — понятно и человеку, и модели. Представьте, что вы можете просто прочитать на русском, как работает ваш ИИ-агент.

Чтобы такие описания можно было реально использовать, вводится специальная среда — Intelligent Harness Runtime (IHR). В ней модель читает описание на естественном языке, интерпретирует его и действует в соответствии с ним.

Почему это важно: эффективность агента все сильнее зависит от его обвязки, которая обычно скрыта в коде и плохо поддается анализу. NLAHs делают этот слой видимым: обвязку можно описывать, сравнивать и переносить. Это упрощает создание надежных агентов, помогает понять, почему они работают, и воспроизводить удачные решения в разных моделях и средах. Если вы когда-нибудь пытались отладить цепочку вызовов LLM, вы оцените.

Также на неделе:

NVIDIA показала алгоритм обучения с подкреплением для дообучения LLM в сложных агентных задачах с длинным горизонтом планирования
IBM представила обзор методов проектирования и оптимизации рабочих процессов агентов на базе LLM — с систематизацией подходов по структуре, оптимизации и сигналам оценки
Samsung, KAIST AI и Yonsei University показали итеративный алгоритм поиска для многозадачных смесей данных с учетом переобучения
Sakana AI анонсировала Marlin — систему для глубоких исследований
H Company выпустила семейство мультимодальных MoE-моделей Holo3 для управления графическими интерфейсами
Google выпустила семейство открытых моделей Gemma 4
Alibaba выпустила омнимодальную модель Qwen 3.5-Omni

Новости представлены аналитическим центром red_mad_robot.