主页

SSM Vision Encoders for Visual Language Models

论文信息 论文标题: SSM Vision Encoders for Visual Language Models arXiv ID: 2603.19209 摘要 视觉-语言模型(VLM)通常采用模块化设计:预训练的视觉编码器生成视觉token,轻量级连接器将其映射到大语言模型(LLM)的嵌入空间。当前大多数VLM仍依赖ViT家族的Transformer架构作为视觉骨干。 本文系统地研究了状态空间模型(SSM)视觉编码器在VLM中的潜力。通过严格的控制变量实验(backbone swap),作者发现: 在匹配的IN1K/224设置下,VMamba在定位任务上显著优于ViT、MaxViT等架构 密集预测预训练目标(检测/分割)可以进一步提升SSM和Tran...

阅读更多

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

论文信息 论文标题: MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens 作者: Yu Chen, Runkai Chen, Sheng Yi 等 (EverMind, Shanda Group, Peking University) GitHub: https://github.com/EverMind-AI/MSA 摘要 长期记忆是人类智能的基石。使AI能够处理终身规模的信息,达到数亿token的处理能力,一直是该领域的长期追求。由于全注意力架构的约束,大语言模型(LLM)的有效上下文长度通常限制在1M token以内。 本文提出M...

阅读更多

DreamID-Omni: Unified Controllable Audio-Video Generation Framework

论文信息 论文标题: DreamID-Omni: Unified Controllable Human-Centric Audio-Video Generation arXiv ID: 2602.12160 摘要 本文提出DreamID-Omni,一个统一的人类中心可控音视频生成框架。该框架基于双流Diffusion Transformer (DiT) 架构,将基于参考的生成(R2AV)、视频编辑(RV2AV)和音频驱动动画(RA2V)三种任务统一到单一范式中。 针对多人物场景中的身份-音色绑定和说话人混淆问题,DreamID-Omni提出了双层解耦策略: 信号层级:通过同步旋转位置编码(Syn-RoPE)绑定身份与音色 语义层级:通过结构化描述建立主体与...

阅读更多

Mixture of Depths Attention

论文概述 缩放模型深度是大型语言模型(LLM)发展的关键驱动力。然而,随着模型层数加深,它们往往遭受信号退化问题:在浅层形成的信息特征被后续层的残差更新逐渐稀释,导致深层难以有效恢复这些信息。本文提出了混合深度注意力机制(Mixture-of-Depths Attention,MoDA),允许每个注意力头同时关注当前层的序列KV对以及前面各层的深度KV对,从而有效解决信息稀释问题。 核心创新 1. 混合深度注意力(MoDA) MoDA 是一种统一的注意力机制,将标准的序列级注意力与深度级注意力融合到一个单一的softmax算子中。每个token可以同时关注: 当前层的序列级Keys和Values 来自之前所有层的深度级Keys和Values 这种方法通过数据依赖的...

阅读更多

IndexCache-Accelerating Sparse Attention via Cross-Layer Index Reuse

摘要 随着长上下文智能体工作流成为大语言模型的关键应用场景,注意力效率对推理速度和部署成本变得至关重要。稀疏注意力(Sparse Attention)能够有效解决这一问题,其中 DeepSeek Sparse Attention(DSA)是一个具有代表性的生产级解决方案:其轻量级索引器(lightning indexer)为每个查询选择 top-k 个最相关的 token,将核心注意力复杂度从 O(L²) 降低到 O(Lk)。然而,索引器本身仍保持 O(L²) 复杂度,且必须在每一层独立运行,尽管相邻层产生的 top-k 选择高度相似。 本文提出 IndexCache,通过跨层索引复用来解决这一效率瓶颈。该方法将层划分为少量保留索引器的 Full 层(F)和大多数复用邻近 Full...

阅读更多

PyTorch Mega-Cache 实现深度解读

概述 PyTorch Mega-Cache 是一个统一的编译缓存框架,通过多层缓存策略显著提升 PyTorch 编译性能。该系统能够缓存从自动微分到 Triton 内核调优等各个编译阶段的结果。 核心架构 三层缓存体系 AOTAutograd 缓存(最高层) 缓存自动微分编译结果 避免重复的前向/反向图构建 FX 图缓存(中间层) 缓存优化后的计算图 跳过图优化和代码生成阶段 Triton 自动调优缓存(底层) 缓存最优内核配置参数 避免重复的基准测试过程 关键组件 1. 缓存管理器 (torch/compil...

阅读更多

PyTorch DDP梯度同步机制详解

PyTorch DDP梯度同步机制详解 概述 PyTorch的DistributedDataParallel (DDP)通过高效的梯度同步机制实现分布式训练。该机制采用分桶(bucket)策略和异步通信来优化性能,确保所有worker的模型参数保持同步。 核心架构 1. 分桶机制 (Bucket-based Gradient Aggregation) DDP将多个参数的梯度合并到同一个桶中进行集体通信,减少通信次数: // 桶结构定义 struct Bucket { at::Tensor gradients; // 桶的梯度张量 std::vector<at::Tensor> bucket_views_in; // 输入视...

阅读更多

一种面向LLM推理的极简方法-从拒绝采样到Reinforce

A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce 摘要 强化学习(RL)已成为在复杂推理任务上微调大型语言模型(LLMs)的主要方法。在近期的方法中,GRPO 因其在训练如 DeepSeek-R1 等模型上的实证成功而脱颖而出,但其有效性来源仍不明确。在这项工作中,本文从类似 Reinforce 的算法角度重新审视 GRPO,并分析其核心组件。 作者发现一个简单的拒绝采样基线 RAFT,在仅使用正样本训练的情况下,其性能与 GRPO 和 PPO 相当甚至更优。本文的消融实验表明,GRPO 的主要优势来自于丢弃所有生成回答都错误的提示(prompt),而不是其奖励归一化机制。受此...

阅读更多

Total views.
您是Lancer的第 个小伙伴
Hits