资讯

本项目使用open-r1项目的代码,修改配置文件config_grpo.yaml,本项目的训练细节可查看config_grpo.yaml。 本项目在模型评估阶段,设置2种模式的system,用来测试不同system的区别,在默认情况下,使用system2。 设置system_prompt,使模型能够遵守<think>\n...\n</think>\n<answer>\n ...