DC娱乐网

OneReason:当推荐系统学会思考

机器之心发布 推荐系统的过去十年,本质是把 "用户 - 物料" 的统计共现挖到极致 —— 从协同过滤、深度模型,到生成

机器之心发布

推荐系统的过去十年,本质是把 "用户 - 物料" 的统计共现挖到极致 —— 从协同过滤、深度模型,到生成式 OneRec 系列,每一代都在让 "记忆" 更精细、参数更大、序列更长,也让 Scaling 这件事在工业级推荐系统上跑通,持续释放算力红利。但走到 LLM 时代,我们发现:纯把 "统计" 做大已经在多个方向上撞到了硬墙 —— 冷启用户、长尾物料推不准、跨域迁移做不好、多目标多业务的策略组合靠权重调参越来越难往前推。

同一时期的基础大模型领域,主旋律从 Scaling,Reasoning 再到 Agentic—— 智能的高度与维度被持续重定义:从 "知道多少",走向 "想得对不对",再到 "能不能把事情做好"。OpenAI o1、DeepSeek R1 已经把 "先思考再回答" 做成共识范式,让模型在数学、代码、agent 任务上获得跨代的能力跃迁。这条主轴并非 LLM 专属 —— 推荐系统过去十年靠 Scaling 拿到的红利,下一阶段同样需要 Reasoning 来释放新的增长曲线。

但 Reasoning 在推荐里不是 LLM 范式的简单复制 —— 它要回答的是推荐系统自己的三个本质问题:

(1) 推荐天然是 "溯因",不是模式匹配。用户行为是 "果",潜在意图是 "因"—— 从嘈杂、跨域、跨时段的行为序列里反推某个具体物料 "为什么适合此刻",本质是溯因推理。统计模型记得住 "看过 A 的人也看 B",但回答不了用户多跳因果链;尤其在冷启用户、新物料、长尾品类、跨域迁移这些行为信号天然稀疏的场景里。

(2) 推荐从 "黑盒打分" 变成 "可解释、可干预的认知过程",业务杠杆显著放大。一个会推理的基模,把过去藏在权重里的决策过程显式写在 CoT 里,直接让推理链直接读出 "为什么推这条",让业务约束直接可以写在推理层,让策略迭代节奏从周级降到天级;让新业务接入也不再需要为每个域从零搭召回排序栈,一个懂物料语义的基模 + 一段业务说明即可跨域出方案。

(3) Reasoning 是 Agentic RecSys 的前置地基。推荐的下一站,是从 "千人一面的固定流水线" 走向 "千人千策、能规划、能用工具、能多轮对话" 的 Agentic 推荐系统。规划、工具调用、长程对话推荐这些能力的前提,都需要一个懂物料语义、有推理能力、能稳定指令遵循的基模在底层托住。

正是基于以上三点判断,快手技术团队推出 OneReason—— 把 Reasoning 真正注入推荐基模的一次系统性尝试。其核心改进点包括:(1) 578B 数据的三阶段预训练,分层递进地完成推荐与通识知识的语义对齐;(2) 设计基于归纳 / 溯因 / 演绎的推荐 CoT 格式,在 SFT 阶段教会模型推荐任务的思维逻辑;(3) 通过 "先专后合" 的强化学习链路平衡多业务推荐能力,使 CoT 真正辅助推荐决策。

在评测与部署上,OneReason 同时验证了 Reasoning 在推荐里的真实价值:

业务上 —— 在快手本地生活广告 10 天 A/B 实验中带来 +10.33% 曝光、+8.23% 广告收入、ROI5,对应年化数亿元商业增量;
推荐 Benchmark 评测上 ——OneReason 首次在推荐基础模型上让 thinking 模式稳定超过 non-thinking 模式。在此之前,多个公开尝试(OneRec-Think、OpenOneRec)都观察到 thinking 反而 hurts 的反常识现象;OneReason 在 Pass@4 上 thinking 平均领先 non-thinking +13.45%,把 "思考" 在推荐基模上第一次变成正资产;
通识能力上 ——MMLU-pro、GPQA-Diamond 等评估基本保留 Qwen3-8B 原始水平,没有因为推荐训练把基座的通用认知和指令遵循能力训坏。

在 LLM 已经把 Scaling-Reasoning-Agentic 这条主轴走到第三步的同时,OneReason 把推荐域的 "Reasoning" 补上了关键一步 —— 通过物料语义与通识语义的深度对齐,把推荐过程转化为一种可解释、可干预、可进化的认知过程,使推荐背后的逻辑不再是黑盒,也为原生 ReAct 范式的 Agentic RecSys 打下基础。

OneReason 技术报告:https://arxiv.org/abs/2606.06260
HuggingFace:https://huggingface.co/OpenOneRec/OneReason-0.8B-pretrain

一、背景

在生成式推荐方向上,OneRec 系列模型验证了 Scaling Law 在推荐系统中也依然成立,并通过 OneRec V1、OneRec V2 持续释放算力红利,推动模型能力提升。而后 LLM 时代,模型能力的进一步跃迁不再仅依赖规模扩展,Scaling 与 Reasoning 的协同正在成为新的关键路径。但在工业推荐场景中,OneRec 团队此前尝试过一些初步探索(如 OneRec-Think、OpenOneRec),发现直接引入这一范式并未带来预期收益:在推荐任务上,thinking 模式并不稳定优于 non-thinking 模式,这一现象与 LLM/MLLM 的直觉完全相反。这表明推荐基模与通用基础大模型在任务目标、信息结构和能力形成机制上存在显著差异,简单叠加 CoT 并不能自然转化为推荐效果的提升。

因此,“推荐 CoT 应该怎么做” 成为生成式推荐继续发展过程中必须迎面的挑战。针对于这一问题,OneRec 团队交出了他们最新答卷 --OneReason:在工业级推荐场景分析了推荐推理失效的根因,并提出一套覆盖感知对齐、认知结构化与 CoT 能力增强的完整实验流程,为生成式推荐领域的技术体系打开了新的探索空间,也为行业理解和构建面向推荐场景的推理能力提供了重要参考。

二、推荐 CoT 应该怎么做?

在回答这个问题之前,OneReason 先将视角切换到基础大模型领域,参考在多模态领域 Thinking 弱于 Non-Thinking 的类似现象,以及社区积累的解决经验。针对这一现象,基础模型领域结论为:推理能力的形成并不只取决于是否引入 CoT,更依赖两个基础条件:

模态或表示空间之间需要建立深度语义对齐。若对齐不足,模型容易停留在表层模式匹配,难以真正围绕深层语义信息展开推理。
推理链本身需要具备清晰、连贯、由粗到细的认知结构。即使模型具备一定感知能力,如果推理过程缺少稳定的组织方式,长链推理也容易引入噪声并累积误差。

类似的,在推荐场景上,以上两个问题变得更加显著和突出:

推荐基模中的 itemic token 与自然语言之间尚未形成足够深的语义连接,模型更多是将 item 作为离散标识符进行关联预测,而不是把它作为可理解、可组合、可推理的语义单元;
直接混合大量通用 Reasoning 数据,沿用通用 LLM 的 CoT 形式,期待模型完全通过泛化能力实现推荐任务的推理,却没有针对推荐任务设计专属的推理结构,导致难以得到有推荐思维的逻辑链。

更进一步看,推荐推理与数学推理在问题形态上存在根本差异。数学推理通常是演绎式的:从明确前提出发,经过一系列逻辑步骤推导出相对确定的结论。而推荐推理更接近溯因推理:用户兴趣并不直接可见,模型需要从长期、嘈杂且不断变化的行为序列中反推出潜在兴趣,理解兴趣随时间的演化,并判断某个候选物品为何适合当前上下文。因此,一条有效的推荐 CoT 不是简单地 “展开更多的思考”,而是要完成高质量的信息压缩:从噪声行为中提取有效信号,从历史行为中假设用户兴趣,再从兴趣假设中收敛到推荐决策。因此,推荐基础模型需要至少具备以下几方面能力:

R0 感知:看懂每个 itemic pattern,解释每个物料含义,让 item 可总结为兴趣点
R1 推导:学习 Item2Item 关系,通过常识知识,理解 item 关联背后的原因
R2 演进:学习用户序列长期演化过程,找到影响用户未来决策的原因和潜在兴趣点
R3 推荐:根据兴趣点推理,推荐高质量、高相关物料,且有跨域推荐能力

基于上述思考,OneReason 形成了一套面向推荐推理的系统性解法,下面将按预训练、SFT、RL 三个阶段分别展开:

三、预训练设计

OneReason 预训练旨在构建一个实现 item 与自然语言深度语义对齐的推荐基座。推荐场景中的 itemic token 不只是离散物品表示,还承载着子 token 组合、物料内容、物料关系以及用户行为上下文等多层语义。为此,预训练阶段首先设计了 Token、Item、Relational、User 四层递进式数据架构,总规模达 578B token,并配合三阶段分步训练策略:先稳定新增 item 表征,再进行全参数语义对齐,最后面向长用户行为序列进行优化。该方案解决了前代 OpenOneRec 系列因 item-text 语义割裂导致 CoT 推理低效的根本痛点,从预训练层面夯实了推荐推理落地的基础。

四级分层预训练数据搭配通用多源语料,实现 Item 与自然语言全维度语义对齐

整套推荐预训练数据从微观到宏观划分为四大粒度,逐级打通物品标识与文本的语义关联:

Token 粒度:围绕子 Token 拆解与组合逻辑,设计单 Token 释义、前缀语义预测及部分到整体的层级推理等任务,在最细颗粒度完成子单元语义绑定;
Item 粒度:对物料描述进行容量感知的粗粒化处理,过滤三个 token 无法承载的冗余细节与无效参数,配套多视角 Item QA 样本,实现单品内容与文本的双向精准映射;
Relational 粒度:依托用户看后搜、协同过滤及跨用户同窗共现等多源信号,构造 “物品→兴趣说明文本→后续物品” 的链路数据,将隐式协同偏好翻译为可解释的文本迁移逻辑;
User 粒度:采用分域分组、全时序穿插两种数据范式,按真实时间串联跨域行为记录,并随机将部分 Item 替换为文本描述,实现全场景用户兴趣对齐。

在推荐专项数据之外,混合大量数理、代码、科普等通用文本,并精选粗粒度多模态数据,将通用视觉知识迁移复用至短视频、商品、直播等各类推荐物料,有效规避模型因专攻推荐任务而造成的通用理解能力下滑与任务过拟合。

三阶段分步训练

在整个预训练阶段,全量 Token 数合计 578B token,相对 OpenOneRec 160B 的数据量大幅提升:

预热(110B):冻结主干,仅优化新增 item 嵌入及对应输出层权重,让 item 表征平稳融入 LLM 语义空间;
全参训练(449B):全参数开放,四层数据联合深度对齐;
长序列优化(19B):上下文窗口放开至 32K,适配长用户行为序列。

在预训练数据层面,相比 OpenOneRec 基线,OneReason 在各方面能力全面跃升。具体来说,在统一数据量的实验条件下,OneReason 预训练方案相对 OpenOneRec 基线模型实现全面提升:

R0 物品锚定涨幅 160.5%,物品理解提升 35.7%,基础感知能力实现全方位突破;
R3 核心跨域推荐指标提升 65.1%。

整套预训练体系为后续结构化 CoT 微调和推理式推荐上线提供了坚实的语义底座,也是思考型推荐实现业务增收的关键前置支撑。

四、SFT 设计

预训练完成后,模型已经具备 itemic token 的语义基础。然而,推荐场景下的 SFT 不能等同于普通问答式指令微调。它面对的是长序列用户行为、跨场景物料、隐式的兴趣变化,以及最终落到候选物品选择的决策问题。基于此,OneReason 的 SFT 阶段向上承接预训练建立的物料语义,向下为强化学习提供一个可探索、可评价的推荐推理起点。该阶段的核心目标是:让模型基于物料语义来推断物料间关系、抽象用户兴趣并理解其演进过程,最终将这些信息组织成面向推荐决策的 reasoning trace。

围绕上述目标,SFT 阶段的重点是推理表达:让模型在真实推荐场景中学会有效引用上述语义证据,并生成可监督、可校验、可追溯的推理过程。具体而言,基于预训练的强大的对齐能力,SFT 数据将能力升级为贴近推荐落地的监督信号,使模型逐步习得可解释的推荐推理。数据分布如表 1 所示。

表 1:SFT 数据分布。

R3 推荐 CoT:把长历史压缩成可决策的推理链

在推荐系统建模中,首先需要解决两大核心问题:一是对用户历史做高效压缩,让模型能从冗长、存在噪声的用户行为中,提炼出清晰的用户画像与紧凑的兴趣变化模式,使后续推理能够立足于压缩后的少量候选方向,避免受到冗杂行为历史的干扰;二是实现精准的动态推理,让模型具备关联物品、追踪兴趣变化、判断下一步行为的能力。围绕这两个目标,OneReason 将 R3 思维链(CoT)显式拆解为三个连贯的模块:Persona Abstraction(用户抽象)、Interest Expansion(兴趣发散)、Transition Inference(兴趣推断)。

Persona Abstraction (用户抽象): 在这一阶段中,OneReason 事先定义了 20 类不同的用户偏好类型,Persona Abstraction 会从稀疏、包含噪声的行为里抽象出可解释的偏好先验(如家庭生活主导用户、游戏技巧提升、直播购物爱好者、多人共用设备用户等),并引用典型证据进行推断。表 2 给出了若干画像示例。

表 2:Persona Abstraction 的典型画像示例。

Interest Expansion (兴趣发散): 为了避免模型过早对用户意图做出单一判断,OneReason 在推理链路中设计了 Interest Expansion(兴趣发散) 环节,将用户近期的行为轨迹转化为一组候选的兴趣假设。针对发散宽度 n 的消融实验展示了一个有趣的 “少即是多” 现象:当 n 保持在 1、3、5 的紧凑范围时,模型表现最佳;而一旦扩大到 10 或 20,效果反而大幅衰减。OneReason 认为这种现象的本质在于 “推理信号的聚焦”:过大的候选集会引入低置信度的冗余兴趣,从而模糊了用户真正的核心兴趣,干扰最终的决策。较小的假设集并没有削弱推理能力,反而防止了推理路径的碎片化。

图 3:Interest Expansion 宽度消融。

Transition Inference (兴趣推断): 在最后一步 Transition Inference 中,模型会对候选方向进行综合评估。评估维度不仅涵盖证据强度、行为近期性与时间连贯性,还兼顾了画像匹配、目标域兼容性以及潜在的答案泄露风险。这一过程有效串联了前序的推理逻辑:既利用 R1 建立跨域的一跳桥接,又结合 R2 判断兴趣的时序演进。最终推断出的兴趣,不能仅仅停留在语义层面的 “相关”,更需要通过多跳的兴趣演化推理,清晰地还原出它是如何从用户的历史轨迹中一步步自然延伸而来。

表 3:Interest Expansion 和 Transition Inference 的例子。

CoT 质量评估

为了评估推荐思维链(CoT)的生成质量并规避常见的推理缺陷, OneReason 设计了一套多维度的评估体系。在落地实践中发现,推荐 CoT 极易陷入两个极端:一是 “结果剧透”,即推理文本提前暴露了目标商品,让解释变成了同义反复;二是 “伪解释”,即生成的文本看似逻辑通顺,但完全脱离了用户的真实行为支撑。针对这些痛点,OneReason 从以下五个核心维度对 R3 阶段的推理链路进行量化评测:

Safety:排查推理文本中是否混入了目标 Item ID、商品标题等特征,防止模型 “偷懒” 直接剧透最终的推荐结果。
Consistency:校验推理链路最终导出的结论,与系统预设的推荐目标是否严格对齐,避免推理过程与最终结果南辕北辙。
Logic:甄别模型是在真正归纳、提炼用户的行为规律,还是仅仅用自然语言把用户的历史行为流水账式地 “复读” 了一遍。
Factuality:确保推理内容严格基于真实的用户行为序列,杜绝大模型常见的 “事实幻觉”(如虚构交互行为、打乱时间线,或强行脑补、夸大用户的兴趣偏移)。
Informativeness:评估推理过程是否提供了具体、有洞察的解释视角,摒弃那些放之四海而皆准、毫无信息增量的 “废话” 描述。

图 4:R3 推理轨迹质量评估,覆盖 Safety、Consistency、Logic、Factuality、Informativeness 五个维度)。

五、RL 设计

在 SFT 阶段,模型已经学会理解用户需求、生成推荐推理过程,并输出相应的推荐结果。但 SFT 本质上仍是在模仿已有数据,其能力容易受到训练样本和教师模型的限制。因此,推荐基础模型需要进一步引入强化学习阶段,让模型不再只是复现已有轨迹,而是能够根据推荐结果反馈进行自我探索,发现更有效的推荐策略。

让强化学习适配推荐任务

相比于数学推理、代码生成等可验证场景,推荐任务所涉及到的候选空间极大,正确推荐信号极其稀疏,同时用户兴趣往往具有多个方向。直接套用通用 GRPO,难以获得足够有效的奖励反馈。为此,OneReason 对 GRPO 进行了三方面改进。

两阶段轨迹生成:先生成推理轨迹,再基于同一轨迹扩展多个候选推荐,以较小额外开销显著增加有效轨迹数量,缓解推荐奖励稀疏问题。
Set-wise 奖励:OneReason 把奖励从 point-wise 抬升到 set-wise/list-wise:在同一条推理轨迹下并行生成多条候选,并基于这组候选整体评估其覆盖度、多样性,鼓励模型探索能够覆盖用户多方向兴趣的推理路径。
优化稳定策略:针对推理文本 token 和推荐 itemic token 采用不同的裁剪范围,并降低大量未命中样本在梯度中的权重,从而缓解稀疏奖励下的训练震荡,使模型更稳定地学习推荐推理能力。

先专后合的强化学习链路

推荐基座模型需要同时服务于视频、商品、广告、直播等多个领域。由于不同领域的用户行为模式、物品语义和奖励分布存在明显差异,直接在混合数据上进行强化学习容易产生跨领域干扰。为此,OneReason 提出了先专后合(Specialize-then-Unify)的训练链路:首先在每个领域内独立进行强化学习,学习领域特有的推荐知识;随后再将多个领域专家模型的能力融合到统一模型中。具体来说,其探索了两条不同的技术路线:RFT(Rejection Sampling Fine-tuning)通过学习专家生成的高质量成功轨迹进行知识整合;MOPD(Multi-Teacher On-Policy Distillation)则从策略层面持续吸收多个领域专家的能力。两种方法各有优势:RFT 能够更好地保留专家发现的高质量推理模式,并且随着 Recall@K 中 K 的增大,其收益更加明显;MOPD 则能够更充分地继承多领域专家知识,对 thinking 和 non-thinking 模式带来同步提升,使 non-thinking 模式也取得具有竞争力的表现。

六、Benchmark

评估的核心思路是把推荐模型的能力拆成四个递进层级来衡量,从 “能否看懂物料内容” 一路深入到 “能否做好推荐”。其中,第一层是感知(R0),关注模型能否真正理解 itemic token 背后的语义;第二层是推导(R1),关注模型能否从单个内容出发,进一步理解内容与内容之间的关联;第三层是演进(R2),关注模型能否从用户历史行为中识别兴趣主题,并理解兴趣随时间变化的过程;第四层是推荐(R3),则进一步考察模型能否把前面三层能力综合起来,最终完成真实业务场景中的推荐决策。为了考察以上几方面模型能力,OneReason-Bench 设计了大量针对性任务,包括物料理解、物料问答、i2i、兴趣链条抽取等多方面评估任务。

七、实验结果

主实验结果

在评测方面,OneReason 在短视频、电商商品、广告、直播四类跨域推荐任务中完成对标评测,对比基线覆盖三大模型品类:ID 序列类(SASRec、HSTU)、通用大模型(Qwen3、DeepSeek-V3.2、GPT-5.4 等)、物品 Token 架构模型(TIGER、LC - 全系列),实测结论如下:

1. OneReason-RFT 综合全维度领跑,thinking 范式在推荐领域全面超越 non-thinking 范式

RFT 版本 thinking 效果在四大业务域全面优于全部对照模型,且超越 non-thinking 效果。以短视频推荐为例,相较最优基线 LC-Rec-PT-SFT-8B,指标相对涨幅超 60%;广告、直播场景增益更为突出,直播域召回指标相较通用 LLM 整体高出一个量级。

2. 推理增益依托 RL 专项优化,原生 SFT 无法激活思考能力

仅经过 SFT 微调的模型,其 Thinking 模式的表现反而劣于 Non-Thinking 模式,这印证了业界普遍面临的痛点:直接在推荐任务中引入 CoT 容易引发 “过度思考”,反而损害基础推荐性能;但后续依托 “先专后合” 的 RL 方案优化后,thinking 指标实现反超领跑,证实强化学习是解锁推理收益的必备环节。

3. 四层分级预训练筑牢能力上限,是模型性能跃迁核心底座

搭载 OneReason 预训练权重的 LC-Rec,对比从零 SFT 训练版本,广告域命中率提升近 5 倍。印证 Token、Item、Relational、User 四层预训练实现 itemic Token 与自然语言深度语义对齐,构成后续 CoT 推理的底层基础。

4. ID-Based 模型、通用 LLM 各有短板,专用推荐基座更适配落地

传统 ID 架构受大量新物品冷启动制约;通用大模型缺少用户协同行为特征,依赖 ANN 检索落地,跨域推荐效果显著落后 OneReason,佐证通用能力不能等价于推荐能力,定制化生成推荐基座是更优技术路线。

CoT 能力内化现象

此外,在 OneReason 的实验中,存在另一个有意思的 CoT 能力内化现象:即引入 CoT 推理监督,不仅能提升模型的 think 能力,还能间接反哺 non-think 的推荐性能。为进一步验证这一结论,在固定总 Token 规模(0.25B tokens)的约束下开展了对照实验:一组仅使用 100K 纯无推理(unCoT)样本训练;另一组采用 40K CoT 样本与 50K unCoT 样本混合训练。两组模型统一采用 non-thinking 模式进行评测,各域 Pass@64 结果如下:

结果表明,在短视频、商品和直播域,混入 CoT 数据均带来了不同程度的收益(除广告域以外)。在此基础上,OneReason 进一步通过消融实验探究各业务域下 CoT 与 unCoT 的最优混合比例。实验证明:CoT 样本并非占比越高越好,不同域对 “推理浓度” 的偏好存在显著差异。短视频与直播域在 CoT 与 unCoT 配比趋于均衡(或适度偏向 CoT)时达到最优。本文猜测是由于这两个域的用户历史通常包含多意图信号,因此 CoT 的证据梳理能力能发挥较大价值。电商域更适配高 CoT 占比的配置,这一现象可能因为电商域的购买意图往往需要从内容线索和行为跃迁中进行深度推断。相反广告域的性能随配比变化的曲线较为平缓,整体更偏好 unCoT 数据,这可能是因为广告转化更依赖短期的曝光模式与即时转化信号,这些特征很难被自然语言推理链完全捕获。

图 5:CoT/unCoT 配比对 non-thinking 推荐的影响。

CoT 信息熵增益

图 6:Delta LL 对比,RFT 后全域转正。

与此同时,OneReason 发现随着推理步骤的逐步展开,目标 Item 的似然值呈现整体上升趋势。而且 RFT 模型往往在推理的极早期就达到了似然峰值。这说明高质量的推荐推理长度不应过长,尽早提取关键证据。这一特性也为未来探索 “推理链压缩” 或 “自适应早停” 机制提供了理论依据。

图 7:CoT prefix likelihood progression。

案例分析

在这起真实推荐案例中,推荐目标是一条《三角洲行动》的装备玩法视频。该案例的难点在于:用户历史行为中并没有大量的《三角洲行动》直接交互,仅包含一次微弱的三角洲游戏广告点击信号。如果模型单纯依赖历史高频 IP,很容易陷入传统 SFT 路径,继续推荐《和平精英》或《王者荣耀》相关内容,从而失去外推到新游的能力。

从两者的思考过程分析,SFT 和 RFT 虽都能识别出用户是 18-23 岁的年轻男性游戏受众,但在兴趣推断阶段产生了本质差异:

SFT 的局限(路径依赖): SFT 的思考过程完全被高频的《和平精英》和《王者荣耀》主导。在分析潜在兴趣点 A 时,它直接将后续可能性局限在《和平精英》上。因为缺乏深度推断能力其推荐结果仍然是《和平精英》,进而导致推荐失败。
RFT 的优势(多跳推理): RFT 展现出了更强的泛化推导能力。其思考过程没有被高频的热门游戏淹没(如《和平精英》),而是准确提炼出用户最深层的核心关注点是 “《绝地求生》/ 战术竞技类游戏的新玩法或装备”。基于 “战术竞技新玩法” 这一底层逻辑,RFT 成功建立了历史高频游戏与 “三角洲行动” 新游之间的联系。它在思考中明确指出:用户对射击游戏的热情不局限于《和平精英》,已延伸至类似玩法(如地逃),而《三角洲行动》作为热门新游,恰好承接了这一细分需求。

业务收益

在线上部署结果上,OneReason 在快手本地生活广告场景进行了 10 天线上 A/B 实验,实验组和对照组各使用 5% 流量。系统采用 Fast-Slow Thinking 架构:近线 OneReason 负责慢思考召回,实时 OneReason 赋能 OneRec 负责在线快思考服务,两者结果进入排序模型融合。

图 8:Fast-Slow Thinking 在线部署架构。

图 9:Fast 部署架构。

通过 Fast-Slow Thinking 架构,OneReason 已初步赋能业务,收益对应快手平台年化数亿元人民币级别的商业收入增量,并达到 ROI5。这说明 OneReason 不只是离线 benchmark 上的探索,也具备在严格延迟与成本约束下进入工业系统的可行性。

八、总结与展望

生成式推荐一路走来,快手技术团队从 OneRec V1/V2 验证了生成式推荐的 Scaling 能力,到 OneReason 真正打开推荐基模的 Reasoning 能力,用一个完整闭环回答了三个曾经悬而未决的问题:

a. 推荐基模能不能 "会推理"?

i. 答:能,但必须先做好 itemic token 感知对齐,同时设计合理的溯因类型 CoT 格式,才能够在 RL 阶段完全激发 Thinking 潜力。

b. 推荐 CoT 应该长什么样?

i. 答:结合 “用户抽象 -兴趣发散 -兴趣转移和推导” 形式的 CoT 能够在 RL 阶段显著提升 Thinking 能力。

c. 推理基模能不能上线工业场景?

i. 答:完全可以,通过 Fast-Slow Thinking 架构结合近线与实时部署,同时 ROI 可观。

下一步,OneRec 团队将继续深入推荐技术与大模型技术的融合,打造 Agentic Recommender Harness,让推荐基模具备规划与工具调用能力,逐步驱动推荐系统向 Agentic 架构演进。后续,OneReason 的更多技术细节以及 OneReason 系列的模型权重将陆续开源,欢迎学术界与工业界同行一起把推荐系统的 Reasoning 时代推向更远。

本文相关内容也将在 6 月 13 日举办的快手技术沙龙现场进行分享,欢迎对生成式推荐、推荐推理能力以及 Agentic Recommender 感兴趣的同学到场交流,共同探讨推荐系统与大模型融合的前沿实践。

同时,OneRec 团队也将在活动现场正式发布「快手探索者 LLM-Rec 挑战赛」,面向全球对推荐技术感兴趣的同学开放,邀请大家共同探索推荐系统与大模型深度融合的技术边界,携手打造更懂世界的推荐基础模型。

报名技术沙龙:https://www.huodongxing.com/event/1862626323800?sessionid=