资讯

简介 open-r1-reprod是open-r1的复现项目,使用GRPO对0.5B、1.5B、3B、7B的qwen模型在 MATH-lighteval 数学数据集上进行训练。 本项目观察并分析了不同尺寸模型的推理能力,基于规则奖励的各种hack,多语言混合推理等现象。