资讯

大型语言模型(LLM)已在众多领域得到广泛应用。基于人类反馈的强化学习(RLHF)通过奖励模型(RM)使LLM行为与人类价值观对齐。这使得奖励模型的准确性、可靠性和可解释性成为实现有效对齐的关键。然而传统奖励模型缺乏可解释性,难以洞察奖励分配背后的推 ...