发布于 2025-12-16
摘要
过去一年来, o1和DeepSeek-R1 的神话,结合媒体的宣传,让 RL 特别像武侠小说里的绝世功法:给个 reward,堆上 …
过去一年来, o1和DeepSeek-R1 的神话,结合媒体的宣传,让 RL 特别像武侠小说里的绝世功法:给个 reward,堆上 …