deeplearning归档 - 酥酥的温柔乡

发布于 7 天前

13 热度无~ 技术交流

Training-free的多模态大模型研究方向目前有哪些比较适合学生？

摘要

Training-free的多模态大模型研究方向目前有哪些比较适合学生？一、前言开始之前，说说自己对training-f …

发布于 2025-12-26

86 热度无~ 技术交流

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

摘要

作为 AI 领域顶会中的顶会，NeurIPS 2025 的 Best Paper 历来是引领行业方向的 “风向标”。今年这篇题为《 …

发布于 2025-12-04

107 热度无~ 技术交流

何恺明团队新作 JiT 解读与复现：解决大 patch DiT 难以训练的问题

摘要

近期何恺明团队的论文提出了一种叫做 Just image Transformers (JiT) 新式 DiT (Diffusion …

发布于 2025-10-20

120 热度无~ 技术交流

推理时强化学习TTRL

摘要

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthrop …

发布于 2025-10-20

110 热度无~ 技术交流

PolaLinearAtt如何平衡性能与效率？

摘要

创新点提出了极性感知线性注意力 (Polarity-aware Linear Attention)，显式建模 query-ke …

发布于 2025-02-15

250 热度无~ 技术交流

deepseek技术解读(3)-MoE的演进之路

摘要

0. 引言本篇讲讲deepseek在MoE（Mixture-of-Experts）上的演进过程。DeepSeek是MoE稀疏模型 …

发布于 2024-12-18

220 热度无~ 技术交流

RAG 架构图解：从基础到高级的7种模式

摘要

「RAG 技术通过在 AI 生成过程中引入外部知识检索，从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构，让 …

发布于 2024-11-20

240 热度无~ 技术交流

速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和图像

摘要

— 文章来源速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和 …

发布于 2024-11-20

278 热度无~ 技术交流

锐评能模拟射击游戏的扩散模型 GameNGen

摘要

—文章来源锐评能模拟射击游戏的扩散模型 GameNGen 作者:周弈帆

发布于 2024-11-20

210 热度无~ 技术交流

解读何恺明新作：不用向量离散化的自回归图像生成（Autoregressive Image Generation without Vector Quantization）

摘要

— 文章来源解读何恺明新作：不用向量离散化的自回归图像生成（Autoregressive Image Generation …

梦回温柔乡

Training-free的多模态大模型研究方向目前有哪些比较适合学生？

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

何恺明团队新作 JiT 解读与复现：解决大 patch DiT 难以训练的问题

推理时强化学习TTRL

PolaLinearAtt如何平衡性能与效率？

deepseek技术解读(3)-MoE的演进之路

RAG 架构图解：从基础到高级的7种模式

速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和图像

锐评能模拟射击游戏的扩散模型 GameNGen

解读何恺明新作：不用向量离散化的自回归图像生成（Autoregressive Image Generation without Vector Quantization）