Обучение диалоговых агентов для многошаговых диалогов с использованием обучения с подкреплением сталкивается с фундаментальной проблемой: как корректно распределять вклад отдельных действий, если сигнал вознаграждения поступает только в конце диалога. Group Relative Policy Optimization (GRPO) решает эту задачу за счет группировки похожих действий, однако в стандартных реализациях все шаги диалога объединяются в одну группу, что приводит к сравнению несопоставимых действий на разных стадиях диалога.
Мы представляем HGRPO (Hierarchical Grouped Reward Policy Optimization) — новую модификацию GRPO, вводящую иерархическую группировку шагов для многошаговых диалоговых агентов. Наш подход включает две взаимодополняющие стратегии группировки:
- Динамическая группировка на основе состояния, при которой шаги сравниваются только в схожих диалоговых состояниях, а мягкое присваивание позволяет одному шагу принадлежать к нескольким группам с разными весами.
- Древовидная группировка, объединяющая действия по их позиции в дереве принятия решений диалога.
Мы применили HGRPO для обучения агента бронирования ресторанов и салонов красоты, который развернут в продакшене умного помощника Алиса в Яндексе. Результаты показали значительное улучшение правдивости ответов агента (прирост на 8,0 процентных пункта на продакшн-трафике) и сокращение длины диалога на 10,7% при сохранении уровня успешности выполнения задач. Иерархическая группировка особенно улучшила способность агента давать честные ответы и избегать галлюцинаций за счет корректного определения того, какие действия на каких этапах диалога приводят к правдивым результатам. Сокращение длины диалога демонстрирует, что HGRPO позволяет более эффективно выбирать действия благодаря лучшему пониманию того, какие шаги действительно способствуют достижению цели.
Полученные результаты показывают, что корректное распределение вклада действий с помощью иерархической группировки является критически важным для обучения высококачественных многошаговых диалоговых агентов, и предложенный подход применим и к другим агентным задачам, требующим последовательного принятия решений.