为此,Qwen2-VL 提出了 M-RoPE,一种通用的 3D 旋转位置编码方案。它将位置信息拆解为 Time、Height、Width 三个正交维度,让模型能同时感知序列的先后与空间的时空坐标。
本文将以原理演进 + 源码拆解为主线,按以下逻辑展开解析:
先从基础的 1D RoPE 切入,回顾文本位置编码的数学原理;
再拓展至 2D RoPE,说明图像空间结构的编码方法;
随后核心讲解 M-RoPE 如何通过新增时间维度实现多模态统一编码;
而 position_ids 作为贯穿各类 RoPE 编码的关键输入,将在 1D、2D RoPE 原理铺垫后提前拆解,为后续 M-RoPE 的深入理解奠定基础,最终完整呈现这一让 LLM 精准捕捉多模态位置信息的核心机制。













