TGSO.PRO-专业的TG搜索引擎

黑洞资源笔记 02-19 23:30:45

simple_GRPO：一个简单的 GRPO（Generative Reinforcement Learning for Policy Optimization）实现，旨在复现类似 r1 的大型语言模型（LLM）思维过程。仅200行代码，依赖极少，快速上手；分离式参考模型，可在不同GPU上运行，节省显存；1小时内完成训练，快速观察到模型的“顿悟时刻”

附件：[图片]