[LG]《Encoder-Decoder or Decoder-Only? Re

[LG]《Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model》B Zhang, Y Cheng, S Shakeri, X Wang... [Google DeepMind] (2025)

Encoder-Decoder还是Decoder-Only？重新审视编码-解码大型语言模型（RedLLM）

近年来，大型语言模型（LLM）在架构上从编码-解码模式转向了主流的解码器单独模式（DecLLM），但缺少对两者扩展性（scaling）的系统比较，导致编码-解码架构潜力被低估。本文由Google DeepMind团队基于RedPajama V1数据集（1.6万亿tokens）和FLAN指令调优，针对150M至8B参数规模，深入对比了RedLLM（编码-解码架构，采用prefix语言模型预训练）与DecLLM（单解码器架构，采用causal语言模型预训练）的性能与效率。

核心发现：

1. 预训练阶段，RedLLM与DecLLM在模型规模与计算量扩展上的表现相似，但DecLLM在计算效率上更优，尤其在零样本（zero-shot）和少样本（few-shot）学习上远超RedLLM。

2. RedLLM在上下文长度外推（context length extrapolation）能力上表现突出，甚至优于DecLLM，展现对长文本处理的潜力。

3. 经过指令微调后，RedLLM性能明显提升，能够匹配甚至超越DecLLM，且在推理效率（inference efficiency）上有显著优势，意味着更优的质量-计算折中。

4. RedLLM的双向编码器注意力机制在训练和推理效率上表现优异，适应性强；为DecLLM引入类似双向注意力结构，也能大幅提升其表现。

5. 两者在注意力机制上存在差异，RedLLM的交叉注意力更为多样，帮助捕捉远距离信息，但也增加学习难度。

研究方法：

- 预训练使用RedPajama V1和T5X框架，采用统一的32K词汇表和相似的优化策略。

- 评估包括RedPajama（域内）和Paloma（域外）数据集的困惑度（perplexity）及13项下游任务的零样本和少样本性能。

- 规模从150M到8B参数，细致分析了模型在不同计算预算下的质量-效率曲线。

意义与展望：

本文挑战了目前解码器单独架构主导的观点，强调编码-解码架构在效率与后期微调表现上的优势。未来工作将探索更大规模模型、非均衡结构（如深编码器浅解码器）、多样化预训练目标及更深入的长序列建模机制。

链接详读：

DC娱乐网

[LG]《Encoder-Decoder or Decoder-Only? Re

热门分类