How to Open Playlist in Windows8.1

资讯

简介 open-r1-reprod是open-r1的复现项目，使用GRPO对0.5B、1.5B、3B、7B的qwen模型在 MATH-lighteval 数学数据集上进行训练。本项目观察并分析了不同尺寸模型的推理能力，基于规则奖励的各种hack，多语言混合推理等现象。

一些您可能无法访问的结果已被隐去。