腾讯微信 AI 团队提出了一种新型扩散语言模型框架 WeDLM(WeChat Diffusion Language Model),旨在解决传统大型语言模型(如 GPT 系列)在并行推理效率上的瓶颈问题。
论文 & 代码地址:https://github.com/tencent/WeDLM
WeDLM 通过拓扑重排技术,将扩散模型与标准因果注意力机制结合,使并行生成过程兼容 KV 缓存技术,解决了传统扩散模型因双向注意力导致的加速受限问题。这一设计使模型在保持生成质量的同时,推理速度显著提升,尤其在复杂推理任务(如数学计算、代码生成)中表现突出。
性能表现
应用场景
WeDLM 适用于需要快速生成大量文本的场景,如智能客服、代码辅助生成、实时问答等。其高效推理能力有助于降低计算成本,提升用户体验。