作者 | 程桥
审校 | 罗燕珊
策划 | AICon 全球人工智能开发与应用大会
端侧大模型落地面临多方面挑战。算力和内存上,与云侧相比差距大,如端侧 RK3562 芯片对比云侧 4090GPU,算力低千倍以上,内存低 20 多倍。功耗方面,端侧设备如手机、词典笔需考虑待机时长,优化底层 AI 引擎与上层 APP 功耗难度大。成本限制下,为有市场竞争力需降低成本,可能导致所选芯片更弱。此外,要保证模型质量,且端侧设备常部署多个应用,各模块抢资源,需综合优化满足用户体验。
本文整理自网易有道研发总监程桥 6 月在 AICon 2025 北京 的分享 “LLM 技术在有道词典笔上的应用实践”。本次分享将聚焦端侧大模型,深入探讨其落地过程中的挑战与实践。通过大模型摩尔定律及相关技术阐述原因,并对比端侧 AI 与云侧 AI 的优劣,介绍端侧 AI 应用场景及有道教育智能硬件特点。端侧大模型落地面临算力、内存、功耗、成本、算法质量、多应用部署等挑战,需平衡各项指标。以有道子曰大模型为例,分享云侧、云端结合、端侧 LLM 三种落地模式。在端侧大模型算法方面,详细介绍模型压缩技术及 LLM 带来的变化与新问题,通过实验确定蒸馏、DPO、词表裁剪、量化等方案,并对推理进行性能优化,端侧大模型成功落地有道词典笔 X7、X7 Pro,开启词典笔部署本地大模型新时代,未来还计划扩展功能。
12 月 19~20 日的 AICon 北京站以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。
有道智能硬件应用介绍
首先我与大家分享一下我们利用大模型技术在有道词典笔上所做的一些应用产品,并介绍一下我们相关的硬件业务。有道投身学习硬件领域已历经多年,目前我们主要推出了四款产品。首先是有道词典笔,旨在解决学生查词翻译的难题——使用这支笔,只需轻点纸张上的单词,释义便能即刻呈现,还能与其进行进一步交互。相较于传统的纸质词典,其查询速度提升了数十倍。第二款是 AI 答疑笔,在解决查词需求后,我们发现学生常需查询英语题目或数学试卷上的试题,于是推出了 AI 答疑笔。它能帮助学生快速扫描试卷上的题目,并运用人工智能技术给出解答。有道听力宝则专注于解决学生的听力和口语练习问题,许多中国学生在听力和口语方面存在不足,因此我们内置了大量口语练习资源及 AI 口语教师。去年,我们还推出了有道 AI 学习机,这款大屏设备主要定位于家庭辅导场景,将学习机、学练机以及学生编程所需的专属电脑功能集于一身。
有道词典笔是我们最早推出的智能硬件形态,自 2017 年初代产品开创扫描笔这一全新品类以来,市场占有率始终位居第一。2018 年至今,我们已陆续推出 20 多款智能学习硬件,持续丰富产品矩阵。词典笔作为核心产品,其芯片算力相较于云端存在天然局限,技术实现上面临诸多挑战。
2023 年,我们为词典笔(如新款有道词典笔 X7)深度集成了多项大模型技术,实现了在端侧运行的突破。在这款产品上,我们开发了两大超级应用:一是“小 P 老师”,提供全科学习的答疑解惑;二是虚拟人口语私教“Hi Echo”,专注于英语口语陪练。这使得用户的使用场景从单纯的查词翻译,扩展到了更广阔的全科学习。
近期,我们研发了一款名为有道 AI 答疑笔的新产品,它与词典笔的主要区别在于屏幕更大。屏幕增大后,用户不再局限于查询单个单词,而是可以快速输入阅读理解等题目,甚至拍摄试卷来寻求解答。毕竟,学生在学习过程中最常遇到的困扰便是题目不会做,而这款新硬件正是为了解决这一痛点而生。
端侧 Al 和云侧 Al 对比
我们打造的教育硬件主要面向学习场景,内置了众多 AI 相关技术,涵盖云端 AI 技术和端侧 AI 技术。模型小型化已成为技术发展的必然趋势。有研究统计分析了近年来发布的模型及其能力,绘制了一张图表,清晰展示了模型能力的显著提升。我们将此现象类比于大模型的 Scaling Law 或摩尔定律,称之为“密度定律”。具体而言,模型的能力大约每三个月便翻倍。这一定律预示着小模型的能力将愈发强大。模型能力的飞跃主要得益于模型架构的不断创新,例如 MME 或 SSD 等技术的涌现,以及模型压缩和加速技术的持续迭代。

既然云端 AI 能力如此强大,为何我们仍需端侧 AI?使用云端 AI 时,用户需将图片、语音、文本等数据上传至远程服务器,服务器经过大量计算后返回结果。这种方式的优势在于能够借助云端服务器强大的算力和内存,运用大模型提供高质量的回答。然而,它并非完美无缺。网络依赖性是其一,没有网络便无法进行数据传输;同时,传输图片、音频等数据会导致高延时,且用户数据需暴露给模型服务商,存在数据安全隐患。相比之下,端侧 AI 的优势凸显:不依赖网络,这在教育领域尤为重要,许多学生家长并不希望孩子使用可上网的设备;端侧 AI 还能保护学生隐私,并在多种场景下实现低延时,因为无需传输图片、音频,本地即可高效处理。

端侧 AI 的应用场景丰富多样,很多厂商正关注 AI 手机、AIPC 以及智能穿戴等领域。我们则聚焦于教育智能硬件,这一市场规模庞大。数据显示,2024 年教育智能硬件市场规模已突破千亿元,预计 2027 年将超过 1400 亿元。
教育智能硬件有别于通用硬件,它专注于学习产品,涵盖英语学习中的查词翻译、口语对话练习,以及作文写作、数学解题步骤推导等。我们致力于将这些功能集成于硬件之中,同时以硬件能力为基石。例如,在录题方面,相较于拍照搜题的繁琐操作,我们的硬件内置扫描摄像头,提笔即可在试卷上扫描题目,轻松输入硬件,这在整理错题本等学习场景中尤为实用。此外,教育智能硬件还承载着丰富的学习内容,包括各类学习资料、教辅材料和知识库,学生使用硬件便如同拥有了一座庞大的知识宝库。而智能硬件的“智能”则体现在大量 AI 技术的应用上,如 OCR 技术、语音技术(包括 TTS 合成和 ASR 技术),这些技术极大地提升了学习效率。在教育场景下,离线功能的重要性不言而喻,端侧 AI 的不依赖网络、隐私保护、低延时和高可靠性等特点,恰好满足了教育场景的迫切需求。因此,如何将云端 AI 能力部署到端侧,成为我们亟需攻克的难题。众多模型厂商在训练模型时,纷纷推出了小规模模型,如通义千问的低于 10B 规模模型、Llama 以及专注于端侧模型的 MiniCPM 等,模型小型化已成趋势。然而,对于我们的智能硬件而言,10B 以下的模型规模仍显庞大。在落地过程中,我们面临诸多挑战。通过对比云端消费级 4090 GPU 与 2K 芯片的性能,我们发现两者在算力、内存等方面存在天壤之别。例如,在 FP32 算力方面,RK 3562 与 4090 GPU 相差千余倍。要在性能如此有限的芯片上实现大模型相关能力,无疑会遭遇算力、内存、功耗、成本和算法质量等多重限制。

我们在端侧 AI 的研发过程中,会密切关注诸多关键指标。首要的是质量,若质量不过关,产品便失去了价值。其次,速度亦至关重要,不能因芯片性能较弱,就让用户忍受缓慢的运行速度。再者,存储空间极为有限,我们必须高效利用,将 AI 能力巧妙融入其中。模型计算时需消耗大量算力,功耗往往较高,如何降低功耗是一大挑战。同时,成本控制亦不容忽视。
端侧大模型挑战
针对上述目标,我们需应对相关挑战。在此,我将分享一个实例,阐述我们如何将有道大模型的翻译能力部署至智能硬件,并解决相关问题。我们一直致力于大模型的研发,自 2023 年中期起,陆续发布了子曰大模型系列。2023 年底,我们的教育大模型成为国内首个获得国家备案的教育领域大模型,其学习了海量教学数据。近两年,我们持续迭代子曰大模型,推出了 2.0 版本,并开展模型压缩工作。上周,我们开源了子曰 3 数学模型,该模型以较小规模实现了与 DeepSeek-R1 相近的数理能力,主要面向 K12 数学评测场景。
在模型落地方面,我们采取多种方式。其一,将模型部署于云端,为硬件提供服务。例如,我们的大模型翻译在线上提供基础版和高级版两个版本,高级版的质量在中英翻译领域处于领先地位,基础版与外部 Pro 版本质量相当,但需云端访问。其二,采用云端结合的方式,将算力要求高、模型能力要求强的部分部署在云端,而将模型能力要求较低或技术成熟的部分部署在端侧。

以小 P 老师应用为例,该应用面向学生拍题答疑。在处理输入数据时,如学生拍照录题或语音提问,我们均在端侧完成计算。图片经过离线 OCR 处理,语音经过离线 ASR 处理,无需将图片或语音上传至云端,而是将处理后的文本直接发送至云端。云端基于较大的基座模型,针对教学场景进行优化,如赋予教师人格特征,并进行检索增强。由于教学场景对准确率要求较高,文科相关内容需额外教辅资料支持,我们通过检索增强方式将资料输入模型。云端处理后的结果再输出至端侧设备。在端侧,为便于学生理解题目,我们采用语音交互方式,完成类真人 TTS,该部分同样在端侧实现。

我们的 AI 能力还包括完全依赖端侧支持的应用,如离线大模型翻译。自 2018 年至今,我们推出了多款产品,从有道翻译到词典笔多个版本,再到近期硬件,陆续将 TTS 技术、OCR 技术和离线翻译技术应用于硬件,并探索离线大模型技术。在此过程中,我们面临算法侧和模型部署的挑战。

算法侧的挑战主要在于,我们希望将 0.5B 这样的小模型应用于 1G 内存的硬件,并实现超越当时 NMT 的质量。NMT 基于 Encode-Decode 架构,而行业在此方面缺乏经验。我们采用模型压缩的常规方法,包括蒸馏、剪枝和量化。蒸馏方面,我们利用在线 NMT 模型蒸馏部分输入数据,训练小规模 LM。剪枝方面,我们进行词表裁剪,基于场景数据筛选,剔除无用 token,并裁剪 Embedding。我们设计动态 Embedding size,对高频词使用更大的 Embedding size,对低频词使用较小的 Embedding size,以此降低 Embedding 层参数,同时保持质量。量化方面,我们也开展了相关工作。

大模型带来了新变化和新问题。大模型采用 Decode-Only 架构,通过预训练学习了丰富知识,我们希望在模型压缩和部署时尽量保留这些知识。此外,大模型能处理多任务,我们尝试将多任务集成至一个模型中。我们希望离线端侧 AI 具备这些能力,因此需对预训练后的模型进行算法优化。在大模型时代,蒸馏的具体做法、数据筛选方法、训练数据规模以及量化方案均需重新考量。
我们开展了相关验证工作。对于 0.5B 模型,我们基于通义千问 2.5 系列模型进行研究。随着模型规模增大,数学和自然理解能力逐渐提升,但在 7B 之后提升幅度放缓。在翻译能力方面,0.5B 模型虽规模大于离线模型和线上 MT 模型,但在两个翻译测试集上指标仍不如线上模型。因此,我们需进一步优化基座模型。
在蒸馏方面,我们进行了创新。与以往使用用户标注数据不同,我们发现使用更大模型规模的数据进行蒸馏效果更佳。此外,大模型支持长文本,能进行篇章级建模,我们除蒸馏句子级数据外,还蒸馏篇章级数据,以保持上下文一致性。我们先优化了十几 B 规模的高级模型,然后通过拒绝采样和 Comet 等翻译评价指标评估,采集高级模型结果,用于蒸馏 0.5B 模型。我们对比了不同规模的蒸馏数据,从 11 万至数千万,发现翻译质量随数据规模增长而持续提升。

在完成蒸馏后,我们发现模型仍存在不少明显的 badcase,这多源于训练数据中的知识干扰。例如,在翻译词汇时,模型有时会给出解释,这在某些场景下或许有用,但在翻译场景中却对用户构成了干扰。因此,我们尝试通过 DPO 来解决这一问题。我们收集了大量翻译相关的 badcase,包括过译、漏译和错译等典型错误,并识别出这些问题。然后,我们利用更高级的模型重新生成更优质的数据,并通过 DPO 训练将这些数据融入模型中。

在词表裁剪方面,我们基于双语料进行了统计,将约 15 万的词表压缩至 10 万,而翻译质量基本未受影响。量化方面,我们尝试了多种方案,最终发现 AWQ 方式能在不损失质量的前提下实现量化压缩。
经过优化,我们评估了 0.5B 大模型翻译与线上离线 MT 的对比效果。在英译中、中译英以及词句段落等多个方面,我们进行了偏好打分,结果显示大模型翻译效果普遍优于 NMT,达到了我们的算法质量要求。

人工评估中,我们发现大模型翻译在上下文理解、选词准确性和数字翻译等方面表现更佳。例如,在翻译一段关于官员测试的文字时,离线 NMT 出现了上下文理解不足、选词不当和数字翻译错误等问题,而大模型翻译则能准确把握上下文,正确翻译数字,并保持上下文一致性。

解决质量问题后,我们面临将模型部署至端侧的挑战。我们选用的芯片算力相较于云上 GPU 有 1000 多倍的差距。大模型推理分为填充阶段和解码阶段,我们希望填充速度达到 30 token/ 秒,解码速度达到 10 token/ 秒,以减少用户在使用过程中的延迟感。然而,主流开源框架如 llama.cpp 或 mnn-llm 的推理速度均无法满足我们的需求。
为此,我们对推理过程进行了优化。除了词表裁剪和量化,我们还特别针对算力需求较大的矩阵乘法 GEMM 进行了优化。通过词表裁剪,我们减少了 43 兆参数。量化方面,我们对所有张量进行分类,为 FC 层、embedding 层和 KV cache 分别设置不同的量化精度。例如,FC 层使用 INT4,而 Embedding 和 KV cache 使用更高精度的 INT8。在量化分块上,我们采用不同力度,以平衡质量和性能。
在 GEMM 优化上,我们利用 ARM-NEON 广播特性,减少了读取次数,提升了运算效率。同时,我们通过权重分块,预先按计算方式切块权重,并按顺序排列,以提高高速缓存的命中率。

经过优化,我们的运算性能达到了填充速度 33 token/ 秒,解码速度 10 token/ 秒。在运算量最高时,内存分值为 288 兆,使得模型能够打包进 1G 内存的设备中,且用户体验无明显延迟。
此外,我们的模型不仅支持中英互译,还涵盖了文言文翻译和基础问答等功能。我们的推理速度已领先于现有开源框架,并已应用于最新发布的词典笔中,用户可亲身体验这些功能。
“子日 3 数学模型“正式开源
随着 DeepSeek R1 的问世,大模型已不再是单纯的文科工具,不再局限于文本处理、翻译、摘要等任务,而是具备了强大的推理能力。它能够解答数学、物理、化学等学科的问题,并胜任一些复杂任务。我们在这方面也进行了探索,成功地在十几 B 的小型模型上,将数学解题能力提升到了当前的 SOTA 水平。
我们在多个基准测试上验证了模型的性能。其推理速度非常快,相较于通用大模型漫长的等待时间,我们的模型能够迅速给出结果。测试数据显示,在 CK12-math(Internal)、GAOKAO-Bench(Math)、MathBench(K12)、MATH500 等数据集上, 14B 轻量级的“子曰 3 数学模型”各项得分均高于 DeepSeek-R1 等通用大模型。 尤其在 GAOKAO-Bench(Math)这一基于高考数学题的大模型评测框架中,“子曰 3 数学模型”的得分高达 98.5 分。


今日好文推荐