post_img

推理时强化学习TTRL

摘要

在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

post_img

从Policy Gradient到REINFORCE++

摘要

强化学习的核心目标是通过不断调整策略(即根据当前状态选择动作的规则),使智能体表现得更好。在强化学习中,有几个关键元素至关重要:首 …

post_img

Demo Page

摘要

栈的定义与简单实现 难度:基础 自动提示:开启 完成度 0%