LLM归档 - 酥酥的温柔乡

发布于 2026-01-13

100 热度无~ 技术交流

预训练数据太差怎么办？Bengio团队引入显式贝叶斯，无梯度实现In-Context RL

摘要

在 In-Context RL 的研究热潮中，往往存在一种惯性思维，认为只要把 Transformer 做大，把上下文窗口拉长，模 …

发布于 2025-12-16

78 热度无~ 技术交流

给RL降降温！RL 真的能拓展推理能力边界？｜NeurIPS 2025 Best Paper

摘要

过去一年来， o1和DeepSeek-R1 的神话，结合媒体的宣传，让 RL 特别像武侠小说里的绝世功法：给个 reward，堆上 …

发布于 2025-10-30

82 热度无~ 技术交流

你的输入，LLM一字未忘：Transformer被证明“几乎处处可逆”

摘要

人们一直以为，大模型的隐藏状态是抽象的“语义压缩”。但这篇论文发现，Transformer 并没有丢掉任何输入信息——它能凭隐藏状 …

发布于 2025-10-20

120 热度无~ 技术交流

推理时强化学习TTRL

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

74 热度无~ 技术交流

类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

摘要

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一 …

发布于 2025-09-19

116 热度无~ 技术交流

线性注意力简史：从模仿、创新到反哺

摘要

在中文圈，笔者应该算是比较早关注线性 Attention 的了，在 2020 年写首篇相关文章线性Attention的探索：Att …

发布于 2025-04-20

149 热度 1 评论技术交流

GPT-4o 图像生成漫谈：功能总结、多模态模型概述、原理猜测、未来畅想

摘要

前段时间，多模态模型 GPT-4o 推出了新版图像生成功能，又一次点燃了社区的 AI 创作热情。作为一款多模态模型，GPT-4o …

发布于 2025-04-19

219 热度无~ 技术交流

论文精读Block Diffusion:Interpolating Between Autoregressive and Diffusion Language Models

摘要

块离散去噪扩散语言模型（BD3-LMs）结合自回归模型和扩散模型的优势，解决了现有扩散模型生成长度受限、推理效率低和生成质 …

发布于 2025-03-31

220 热度无~ 文字控

Model Context Protocol

摘要

最近 MCP 这个关键词逐渐活跃在我所浏览的一些文章及评论区中。突然发现我对它仅有粗糙的理解，我决定深入学习并记录一下。在阅读这 …

发布于 2025-01-04

279 热度无~ 技术交流

什么是Agent？

摘要

省流，可以直接看图片（在底部），还是比较直观的。最近老是听说AI Agent，仿佛是一条万能的智慧流水线，能直接提供产品和结果（ …

梦回温柔乡