Skip to content

[论文讨论] Expanding the Capabilities of Reinforcement Learning via Text Feedback #21

@gqy20

Description

@gqy20

论文信息

标题: Expanding the Capabilities of Reinforcement Learning via Text Feedback
作者: Yuda Song, Lili Chen, Fahim Tajwar, Remi Munos, Deepak Pathak 等 8 位作者
发布时间: 2026-02-02
分类: cs.LG
PDF: Download

简介

LLM后训练依赖单比特标量奖励或偏好标签作为反馈。本文提出RLTF框架,使用比标量奖励更丰富、比完整演示更便宜的文本反馈。RLTF-SD训练策略使其自身反馈条件下的二轮生成与一轮生成匹配;RLTF-FM将反馈预测作为辅助目标。实验在推理谜题、竞赛数学和创意写作任务上均显著超越基线,展示了利用丰富监督信号进行规模化RL的潜力。

推荐理由

创新使用文本反馈作为RL训练信号,提出自蒸馏和反馈建模两种方法,在多任务上全面超越强基线

讨论

请对这篇论文发表您的见解:

  • 论文的创新点是什么?
  • 方法是否合理?
  • 实验结果是否可信?
  • 有哪些可以改进的地方?

由 arXiv Monitor 自动创建

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions