DreamID-Omni: Unified Controllable Audio-Video Generation Framework

Category： Paper

论文信息

论文标题: DreamID-Omni: Unified Controllable Human-Centric Audio-Video Generation
arXiv ID: 2602.12160

摘要

本文提出DreamID-Omni，一个统一的人类中心可控音视频生成框架。该框架基于双流Diffusion Transformer (DiT) 架构，将基于参考的生成（R2AV）、视频编辑（RV2AV）和音频驱动动画（RA2V）三种任务统一到单一范式中。

针对多人物场景中的身份-音色绑定和说话人混淆问题，DreamID-Omni提出了双层解耦策略：

信号层级：通过同步旋转位置编码（Syn-RoPE）绑定身份与音色
语义层级：通过结构化描述建立主体与属性的显式映射

此外，多任务渐进式训练策略有效协调了不同约束强度的任务，在IDBench-Omni基准上实现了跨视频、音频和音视频一致性的综合最优性能。

核心挑战

任务统一问题

当前可控人类中心生成存在三个主要任务，但各自独立：

任务	输入	输出
R2AV	文本 + 参考图像 + 参考音频	基于参考生成
RV2AV	文本 + 参考图像 + 参考音频 + 源视频	编辑视频中的身份和音频
RA2V	文本 + 参考图像 + 驱动音频	用音频驱动身份动画

这些任务本质上有共同的优化目标：将静态身份锚（图像和音频）映射到动态时空画布上。

多人物混淆问题

多人物生成面临两种混淆形式：

身份-音色错配：A人物发出B人物的声音
属性-内容误归因：A人物错误继承B人物的视觉属性和对话内容

这些问题源于两个层级的纠缠：

信号层级：标准注意力机制无法将身份视觉特征与对应音色绑定
语义层级：非结构化文本无法显式关联主体与属性

方法：DreamID-Omni

双流DiT架构

DreamID-Omni基于双流DiT架构，包含并行的视频流和音频流，通过双向交叉注意力层交互，实现精细的时序同步和语义对齐。

DreamID-Omni框架概述

对称条件DiT

核心创新是将异构条件信号（参考图像、语音音色、源视频、驱动音频）统一到共享潜在空间：

X_v = [z_v; E_v(I)] + [E_v(V_src); 0]
X_a = [z_a; E_a(A)] + [E_a(A_dri); 0]

参考特征连接到噪声潜变量，让DiT块提取身份先验
结构条件通过逐元素加法注入，作为结构画布
通过空输入实现任务切换，无需架构变更

双层解耦策略

Syn-RoPE（同步旋转位置编码）

为解决信号层级的身份-音色绑定问题，Syn-RoPE：

同步视频和音频流：缩放目标音频的RoPE频率（γ = L_v / L_a）
分配非重叠时序位置段：将不同身份的视觉和音频特征映射到相同位置段

目标: [0, L-1]
身份1: [M, 2M-1]
身份2: [2M, 3M-1]

优势：

身份间解耦：利用RoPE周期性，不同身份投影到不同旋转子空间
身份内同步：同一身份的视觉和音频特征映射到相同位置段

结构化描述（Structured Caption）

在语义层级，通过结构化描述建立显式映射：

为每个身份生成锚token <sub_k>
描述分为视频描述、音频描述、联合描述
所有主体引用一致使用锚token

方法架构

多任务渐进式训练

三阶段课程学习策略：

阶段1：内部配对重建

仅在R2AV任务上训练
从样本自身提取参考身份和音色
使用掩码重建损失防止简单复制

阶段2：跨配对解耦

参考身份和音色来自不同视频
强制模型学习真正的解耦表示
损失覆盖整个数据流

阶段3：全任务微调

混合R2AV、RV2AV、RA2V数据（比例4:3:3）
模型学会根据条件切换任务

关键洞察：先掌握弱约束的R2AV任务，建立强大的生成先验，再用于强约束任务，避免过拟合。

实验结果

IDBench-Omni基准

作者构建了包含200个高质量样本的综合基准：

100个身份-音色-描述三元组用于生成评估
50个带掩码视频用于编辑评估
50个驱动音频用于动画评估

R2AV任务对比

DreamID-Omni在R2AV任务上相比商业模型Wan2.6、开源级联pipeline（Qwen-Image + LTX-2/Ovi）取得更优或相当的结果。

关键优势：

正确绑定特定身份与其对应音色
相比基线模型保持更优的身份一致性

R2AV定性对比

RV2AV任务对比

相比VACE和HunyuanCustom：

视频质量（AES）、文本跟随（ViCLIP）、身份相似度（ID-Sim.）达到SOTA
额外展现出优秀的音频生成能力

RA2V任务对比

相比Humo和HunyuanCustom：

唇音同步准确率与Humo相当
视频相关指标达到领先性能
多人物场景下避免说话人误归因错误

消融实验

双层解耦效果

无Structured Caption：文本跟随能力显著下降，说话人混淆率从0.08升至0.26
无Syn-RoPE：音色保真度严重下降，身份-音色错配影响唇音同步

多任务渐进式训练效果

仅In-pair Reconstruction：出现严重复制粘贴问题
仅Cross-pair Disentanglement：过于困难，无法学习基本表示
无OFT的朴素多任务：从一开始就联合训练所有任务，导致弱约束任务性能下降

结论

DreamID-Omni展示了统一可控人类中心音视频生成的可能性：

统一框架：单一模型支持生成、编辑、动画三种任务
双层解耦：Syn-RoPE + Structured Caption解决多人物混淆
渐进训练：多任务渐进式训练协调不同约束强度
SOTA性能：在视频、音频、音视频一致性上达到综合最优

该工作为未来统一可控音视频生成模型的发展奠定了基础。

上篇Mixture of Depths Attention

下篇MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens