中兴通讯的风格先自用再外溢,如果连自己人都用不好,丢到市场上也是丢人。不成熟的产品,就快速推向市场,要么默默无名,要么骂声一片!在技术领域,可以完全相信中兴,其保守的风格,值得信赖!
中兴的大模型架构和市场主流的大同小异,都是基座大模型1(语言大模型+多模态大模型)加上N(行业(领域)模型)再加X(x个场景应用)!
视频中主要讲的就是中兴目前自用的研发模型:基于中兴的实际情况,最终形成五大类主要场景:AI辅助需求分析、AI辅助文档、AI辅助开发、AI辅助测试和AI辅助CICD
中兴作为一家科技公司,最终将AI辅助开发作为重中之重!
大模型的建立是比较复杂的系统工程,各个维度都要涉及,最原始的语料库,中兴采用了中兴自己的大数据平台,目前大概有几个PB的语料(1PB=1024TB),韩介绍这个语料处理大概用了100台机器,处理完的语料才能成为训练语料,进行大模型的训练!
其次就是AI云部分,这里主要是管理中心的GPU集群(之前好像提过,滨江基地训推加起来是万卡级别吧),中心目前的集群是多地的分布式的多云的一个系统,在这些GPU之上,中兴所有的大模型都是这个集群上训练出来的,并且把其部署在平台上。
应用开发平台就略过了。。。。只提一点:通过中兴的应用开发平台使用自研大模型和第三方模型都会被平台屏蔽差异,上终端用户可以一键切换各种模型,这里面也有信息安全的管理功能,可以有效的保障和防范公司的内部机密及信息的泄露。
最后,就是应用了,基于大模型赋能研发云应用,这里略过。
从研发大模型来说,去年4月份就开始研发了,然后23年7月份发布第一个版本,然后基本上每月迭代一次,截止五月初发布了4.3版本。从实际使用情况看,每个版本的能力都有提升,也也中兴推动整个AI的智能化化研发是一个互相配合的!截止5月的版本,中兴的研发大模型在中文编程上差不多已经达到了GPT4的水平了,韩专门强调了,中兴比较重视的编写单元测试等一些场景是超过了GPT4的水平,也承认了通用能力是不如GPT4的。
下面就是细节了,例如基础大模型训练的数据是几万亿或者十几万亿token数,人出生到死亡接触到的token数就是10亿左右,人力又穷时真的可以充分体现在这里。这些要训练的数据,是不可能人力去筛选的,只能相信其是“好的”、‘没问题’的。。。实际如何呢?ChatGPT都会经常给出错误的答案,何况其它呢?如何把海量的黑盒数据白盒化,可能都是各家主要的努力方向。
中兴的数据分级到后面的高价值数据以及5级的精确数据就略过了!这么说起来,中兴通讯是否有资格纳入“数据要素”概念呢?这么强悍的数据处理能力,各家交易软件商一家没有纳入过,虽然纳入了也不会涨。。呵呵!
下图是在有了基础大模型后,打造领域大模型的过程,这种专业的东西,还是继续略过!
增强预训练:只提一点,中兴作为算力公司,在算力的优化上,韩认为做的还可以。
精调训练:太过专业了,略过。。
这里只提一点,好的量化算法可以让精度不降低!都是专业东东,相信也没有谁会看,主要是看了也看不懂[捂脸]
韩提到了,我们使用的大模型包括GPT可能底层都是多模型组成!
最后,韩提到了10%的整体研发效率提升是估的(没有办法具体量化),30%AI代码生成行数占比这个真正统计出来的!大多数企业都是各种吹嘘自家的,这种实事求是的企业还是少见!
最后还有一些1+N+X中,X中的应用展示了!
说实在的,我听得都有点头疼了。哎。。中兴也不争气,我是越努力越来气压呀![流泪]
$中兴通讯(SZ000063)$