模型开悟：相信相信的力量，期待AGI模型开悟时刻｜GBAT2023

第五届GBAT 2023 大湾区智能时代产业峰会，采用线上专题形式发布。2023年12月25日起，我们通过六合商业研选全网媒体矩阵，围绕智能时代主题，发布AI浪潮、算力演化、模型开悟、硬件进化、诸神之战5期专题文章。

智能时代大幕已启，未来将加速演进，让我们一起跟踪AI技术创新与产业发展，见证AI融入与改变人类生活，展望智能时代未来图景，共同迎接无限可能的新世界到来。

本期我们带来GBAT 2023 大湾区智能时代产业峰会第三篇报告模型开悟，分析AI模型开悟历程，分享给大家，Enjoy！

正文：

全文3,420字

预计阅读7分钟

一、2012年，深度学习革命与GPU算力革命，一起登上历史舞台，开启新一轮持续到现在的AI浪潮，并从学术界主导转为产业界主导，发展势头不仅没有丝毫减缓，反而一直在加速。

AlexNet开启神经网络新时代，成为计算机视觉领域AI模型开悟时刻。2012年是AI模型发展重大转折点，Geoffrey Hinton团队在ImageNet大规模视觉识别挑战赛，成功构建基于卷积神经网络CNN的AlexNet模型，取得突破性成果，凭借颠覆性的惊艳表现，使得神经网络再次受到广泛关注，标志着深度学习在计算机视觉领域崛起，让更多人开始相信神经网络潜力，推动更多研究者对深度学习的关注与投入。

深度学习此后在更多领域取得重大突破，包括自然语言处理、语音识别、图文生成、音视频生成等领域。

2012年10月，深度学习三巨头之一、图灵奖得主Geoffrey Hinton，与两名学生Ilya Sutskever、Alex Krizhevsky组成团队，一起参加全球知名图片识别ImageNet竞赛，利用1,400万张图片、总计262千万亿次浮点运算，仅用2个英伟达Geforce GTX 580 GPU，训练时间7天，成功构建深度神经网络模型AlexNet，识别准确率达到80%，以压倒性优势取得冠军。

Ilya Sutskever表示，理论上，如果有足够大数据集与足够大神经网络，就会起作用；当时主要担忧在算力方面，不确定是否有足够算力训练足够大神经网络，直到Alex Krizhevsky编写出利用英伟达通用GPU并行计算架构CUDA非常快速训练卷积神经网络的算法，两人开始着手基于庞大的ImageNet数据集训练模型，AlexNet随之诞生。

AlexNet推动卷积神经网络在计算机视觉领域应用，展示深度学习应用前景。AlexNet是ImageNet大赛冠军团队首次使用卷积神经网络CNN架构，错误率为16.4%，相比2010、2011年获得冠军算法错误率分别为28.2%、25.8%，形成跨越式进展。2011年冠军团队错误率，相对2010年仅提升2.4个百分点，AlexNet相对2011年团队错误率大幅提升9.6个百分点。

AlexNet加深神经网络层数，大幅提升神经网络参数规模。杨立昆1989年提出革命性的卷积神经网络CNN模型LeNet，用于手写数字识别，使得计算机能自动从图片中学习与识别图像特征，带来图像识别领域突破性进展。

AlexNet同样采用卷积神经网络，但相比LeNet，AlexNet网络更深，共有8层，包括5层卷积层+3层全连接层；LeNet共有5层，包括2层卷积层+3层全连接层。同时，AlexNet参数更多，多达约6,000万，是LeNet的1,000多倍。

AlexNet模型结构

AlexNet率先使用GPU进行模型训练，有效支持更大规模模型训练。AlexNet参数多、数据规模大，选用比CPU更适合进行并行与矩阵运算的GPU，采用分组卷积方式，相当于直接把模型等分为两个独立模型，先在两个GPU上单独训练，在第3个卷积层与最后的3个全连接层做特征交流，大幅提升模型训练效率，从而能更快训练更深、参数规模更大的模型。

作为对比，谷歌猫项目使用1.6万个CPU，AlexNet创新性使用具有高并行计算能力的2个英伟达GPU，在算力与算法上都取得突破性贡献，取得更优秀的成绩，在业界带来震撼性影响力，引来包括谷歌、微软、百度、DeepMind对Hinton团队组建DNNresearch公司的竞拍，最终是谷歌完成对DNNresearch公司的收购，对应Hinton三人团队人均估值1,467万美元，这也成为后续谷歌并购DeepMind的估值参考，深度学习革命由此正式开启，作为分水岭，以科技巨头为代表的产业界成为推动新一轮AI浪潮的标志性力量。

AlexNet颠覆性效果，此后ImageNet冠军团队均使用卷积神经网络CNN模型。传统计算机视觉方法，需手工设计特征提取与编码，限制算法泛化能力与适应性。从2012年开始，深度学习方法开始在ImageNet比赛中占据主导地位，可自动学习图像特征表示，大幅提高图像识别性能，后来冠军团队均采用深度学习模型，识别错误率不断降低，2013~2017年分别为11.7%、7.3%、6.7%、3.6%、3.0%、2.3%，2015年冠军团队开发ResNet模型，错误率3.6%，已低于人类识别错误率5.1%，标志着AI在视觉识别领域超过人类。

ImageNet比赛历年冠军团队识别错误率

二、Transformer架构成为新一轮AI技术变革的起点，OpenAI坚信大力出奇迹，实现对谷歌与DeepMind的反超。OpenAI在大语言模型的成功，正是来自Ilya Sutskever坚信规模法则Scaling Laws，增加模型规模，将带来性能上提升。

OpenAI为防止谷歌垄断AI领域而生，愿景是实现AGI。马斯克、Sam Altman、Greg Brockman、Ilya Sutskever、Peter Thiel等人，基于构建安全AI以造福人类的愿景，在谷歌收购DeepMind后，为避免谷歌在AI领域形成垄断，决定创建OpenAI。

2015年12月11日，OpenAI项目正式启动。OpenAI成立后，积极寻找路径，探索通过游戏、机器人等实现AGI，但效果一般，直到Transformer架构出现。

2017年6月，谷歌发布论文《Attention is All you need》，首次提出Transformer架构，主要用于机器翻译任务。

OpenAI看到Transformer后如获至宝，直接导致大语言模型GPT-1面世。OpenAI联合创始人、首席科学家Ilya Sutskever，坚信规模法则Scaling Laws，更大规模神经网络，将带来更高性能，OpenAI继续扩大参数规模，推出GPT-2、GPT-3、GPT-3.5、GPT-4等系列惊人效果模型。

OpenAI GPT模型起源于亚马逊评论预测，随着模型规模扩大，模型跨越语法边界转向语义理解领域，出现开悟时刻。2017年，OpenAI发布情感神经元论文，OpenAI研究员Alec Radford对语言非常感兴趣，致力研究聊天机器人，负责训练长短期记忆网络LSTM模型，以此预测亚马逊商品评价中下个字符。

OpenAI联合创始人、首席科学家Ilya Sutskever表示，OpenAI在训练LSTM模型预测亚马逊评论过程中发现，当LSTM模型规模从500个LSTM细胞（是LSTM网络基本组成单元，协同工作控制信息流动与记忆更新），增至4,000个LSTM细胞时，其中一个神经元开始表示评论的情感，情感是语义属性，而非语法属性。

这是非常明确的证据，小的神经网络没有情感分析能力，但大的神经网络具有情感分析能力；OpenAI分析认为，在达到某个规模后，模型学习完所有关于语法知识，开始关注语义理解等其他东西。

Transformer有效解决长程依赖问题Long-Term Dependency，成为OpenAI研发GPT模型的起点。Ilya Sutskever表示，此前用于训练模型与语言序列的神经网络，如果序列越长，网络就越深，越难训练。但Transformer成功将深度与序列长度解耦，可用非常长的序列，得到可控深度的模型，这非常令人兴奋，直接导致GPT-1面世，后来OpenAI继续扩大参数规模，就得到GPT-2、GPT-3、GPT-4等系列模型。

Ilya Sutskever表示，确实认为随着模型不断变得更大、更好，就会解锁新的、前所未有的有价值应用。大模型会比小模型更好，但并非所有应用场景都需要使用高成本大模型，小模型将在不太有趣的应用领域占据一席之地。

虽然小模型在特定场景也能实现很好效果，但从大模型到小模型，丢失的是模型可靠性，而可靠性是模型真正广泛采用的最大瓶颈，从GPT-1~GPT-4，模型变得越来越可靠，越来越得到更广泛应用。

2020年1月，OpenAI团队发表论文《Scaling Laws for Neural Language Models》，提出规模法则Scaling Laws，大模型表现伴随模型参数量、数据集规模、计算量增长而增长，在运算量增加过程中，参数规模增加可起到更关键作用。在给定计算量，并且参数规模较小时，增大模型参数量对模型效果的贡献，远优于增加数据量与训练步数。

规模法则Scaling Laws，为后续推出的GPT-3、GPT-4等大模型奠定理论基础。

2022年11月30日，OpenAI迎来ChatGPT时刻，成为AI大模型领域头号玩家。OpenAI发布基于GTP-3.5的生成式聊天机器人ChatGPT，引入基于人类反馈的强化学习RLHF等新训练方式，迅速风靡全球。

2023年3月14日，OpenAI推出第4代大型语言模型GPT-4，带动AI大模型进入多模态时代。

2023年11月6日，推出GPT-4迭代版本GPT-4 Turbo，将知识库更新至2023年4月，上下文窗口增至128k，推出GPT版应用商店，支持用户创造与分享GPTs，布局AI Agent领域。

OpenAI主要专注大语言模型，认为语言是压缩信息的好方法，与竞争对手拉开差距。Sam Altman表示，OpenAI团队认为，语言是压缩信息的好方法，是发展AI的关键因素，谷歌DeepMind等竞争对手错过这点，一直在追求其他研究策略推进AI发展，即使OpenAI通过GPT-3证明这点后，竞争对手仍没有认识到这点。

三、三条技术路线通向AGI，期待AGI模型开悟时刻。信息类模型：大数据+自监督学习+大算力形成，以OpenAI的GPT系列模型为代表；具身智能：基于虚拟世界或真实世界，通过强化学习训练具身模型，将特斯拉FSD V12版本应用于特斯拉Optimus人形机器人、谷歌DeepMind的RT-2 Robotic Transformer 、李飞飞团队的VoxPoser等均是代表；脑智能：抄自然进化作业，复制出数字版本智能体，探索基于脑机接口、神经元网络等技术模拟大脑。

AI大模型向多模态发展，变革生成式AI领域。文字、图像、视频生成领域，均迎来开悟时刻，随着大模型创新从单模态转向多模态，多模态预训练大模型将逐渐成为标配。

文字生成领域：从GPT-3开始，文本生成质量得到大幅提升。

图像生成领域：扩散模型DDPM，开启AI绘画浪潮。

视频生成领域：Runway Gen-2、Pika Labs Pika 1.0同样采用扩散模型，凭借生成视频效果成功出圈，但让生成视频动作有意义、提升清晰流畅度度仍需突破。

多模态大模型可接受文字、图像、语音等多种不同类型数据输入、处理、分析，并将结果以不同模态对外输出，实现异构模态数据协同推理，进一步迈向AGI。

AGI模型开悟缺失关键步骤，现有AI系统仍然无法创造新知识。Sam Altman表示，在发展AGI竞赛中，目前最大的缺失是，AI系统需要什么来实现根本性的理解飞跃。牛顿在发明微积分前，需要做的是，阅读更多数学教材与书籍、与教授们交流、解决数学问题，这与当前训练AI模型类似，牛顿不可能仅通过阅读几何或者代数书籍就能发明微积分。AI模型也是，向AGI发展的路径存在关键性缺失，还无法让AI为人类创造全新知识，这是目前需要努力解决的最重要问题。

相关研报：

人类未来文明三部曲之二：智能时代专题预售开启，奇点临近，未来已来

九宇资本赵宇杰：智能时代思考，认知思维，存在原生、降维、升维三波认知红利

九宇资本赵宇杰：智能时代思考，以史为鉴，科技浪潮，从互联网到AI

九宇资本赵宇杰：智能时代思考，宇宙视角，从碳基生物，到硅基智能体

人类未来文明三部曲之一：元宇宙专题预售开启，59期45万字

九宇资本赵宇杰：1.5万字头号玩家年度思考集，科技创新，无尽前沿

九宇资本赵宇杰：1.5万字智能电动汽车年度思考集，软件定义，重塑一切

【重磅】前沿周报：拥抱科技，洞见未来，70期合集打包送上

【重磅】六合年度报告全库会员正式上线，5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革，智能电动汽车时代大幕开启

【头号玩家第一季预售】：科技巨头探索未来，头号玩家梯队式崛起

【头号玩家第二季预售】：科技创新带来范式转换，拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告：万亿级GMV风口下，巨头混战与合纵连横

【重磅】科技体育系列报告合集上线，“科技+体育”深度融合，全方位变革体育运动

【重磅】365家明星公司，近600篇报告，六合君4年多研究成果全景呈现

九宇资本赵宇杰：CES见闻录，开个脑洞，超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰：5G开启新周期，进入在线世界的大航海时代｜GBAT 2019 大湾区5G峰会

九宇资本赵宇杰：抓住电子烟这一巨大的趋势红利，抓住产业变革中的变与不变

【IPO观察】第一季：中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季：理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季：Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集：历时3个多月，超20万字近500页，复盘过去，展望未来，洞悉变与不变

【珍藏版】六合宝典：300家明星公司全景扫描，历时3年，210万字超5,000页，重磅推荐

九宇资本赵宇杰：对智能电动汽车产业的碎片化思考

九宇资本赵宇杰：九宫格分析法，语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录，生活回归正轨，春节年味更浓

【2022回乡见闻录】20位90、00后2万字，4国13地，全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字，就地过年与返乡过年碰撞，展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字，特殊的春节，时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录，讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日，TOP 60篇经典研报重磅推荐

下午茶，互联网世界的三国杀

5G助推AR开启新产业周期，AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善，赋能新品牌、新模式、新产品崛起，打造新型多元生活方式

【重磅】中国新经济龙头，赴港赴美上市报告合辑20篇

知识服务+付费+音频，开启内容生产新的产业级机遇，知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替，看内容付费崛起

新三板破万思考：新三板日交易量10年100倍？

九宇资本赵宇杰：科技改变消费，让生活更美好｜2017 GNEC 新经济新消费峰会

九宇资本赵宇杰：创业时代的时间法则，开发用户平行时间｜2016 GNEC 新经济新智能峰会

九宇资本赵宇杰：互联网引领新经济，内容创业连接新生态｜2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示

DC生肖网

模型开悟：相信相信的力量，期待AGI模型开悟时刻｜GBAT2023

科技有六合