> 手搓DeepSeek-R1算法:400行代码从零复现 - 代码已开源: https://github.com/Siyuan-Harry/transparent-grpo/ - GRPO (Group Relative Policy Optimization,组相对策略优化) 是 [DeepSeekMath](https://arxiv.org/abs/2402.03300) 的核心优化算法创新。在只有 7B 的小模型上压榨出解决竞赛数学题的能力 (70亿参数媲美万亿参数)。 - 也用在 [Dee
www.bilibili.com