2024年6月27日,摩根斯坦利发布特斯拉研报指出,AI正在推动机器人技术变革性变化,人形机器人的发展机会,将远大于自动驾驶汽车,采用速度更快,吸引更多资本投入,特斯拉正处于这一主题中心。
2024年6月28日,Meta创始人、CEO扎克伯格与科技创作者Robin Kallaway进行深度对话,讨论未来10年技术发展,特别是智能眼镜、神经腕带、AI技术在创作者与小企业中应用。扎克伯格认为,智能眼镜将逐步取代手机,未来AI技术将呈现多样化,允许创作者与小企业创建定制化AI。
本期智能前线,选择摩根斯坦利发布特斯拉研报摘录、扎克伯格接受Robin Kallaway专访纪要,大师小站、有新Newin发布,六合商业研选精校,分享给大家,Enjoy!
正文:
全文13,542字
预计阅读27分钟
特斯拉人形机器人Optimus Prime:Embodied AI体现式AI的投资影响
时间:2024年6月29日
来源:大师小站
字数:3,855
AI正在推动机器人技术的变革性变化,人形机器人的发展机会,将远大于自动驾驶汽车,采用速度更快,吸引更多资本投入,特斯拉正处于这一主题中心,投资者可能需要在他们的Excel模型中新增标签页。
以下是摩根斯坦利最新BluePaper摘录:《人形机器人:体现式AI的投资影响》
AI的进步,正在改变机器人行业。我们相信,Embodied AI体现式AI的采用,可能比自动驾驶车辆要快得多。
劳动力短缺与人口趋势变化,增加在广泛行业中的商业相关性与采用路径,以及经济回报期。
我们建立专有的TAM模型(总可寻址市场模型),考察劳动力动态与人形机器人的可选性,涵盖超过830个工作分类,全球劳动市场价值30万亿美元。
我们包括了来自亚洲机器人团队的全面竞争分析与专有BotBOM,以帮助投资者思考硬件成本曲线。
爸爸,老虎宝宝通过观察它们妈妈狩猎来学习。我9岁的儿子在家庭晚餐上宣布,它们在草地上扑跃,捕捉小鹿等小猎物来练习。
多年来,机器学习仅限于自我强化的软件算法。大型语言模型LLMs与生成式AIGenAl的进步,使得机器人学习领域取得巨大飞跃,通过自然语言、模仿与仿真加速物理机器的学习。
GenAl正在改变机器人学习方式,让它们有机会在物理与虚拟世界中观察并模仿行为,通过自然语言连接,并在数据中心进行迭代。
就像大型语言模型LLM帮助推动ChatGPT能力不断提升一样,多模态模型MMM正在推动机器人技术的创新。
AI算法可以通过自动化重复任务、增强数据分析与预测能力、实现虚拟仿真,以及优化设计与测试流程,显著缩短研发周期。
作为一个AI相邻领域,人形硬件开发现在可以直接从增加的资本形成与对机器人主题的研发投资中获益。
AI跃入物理/原子世界。AI无处不在,AI在聆听你,AI看到你的脸与身体,AI知道你现在在哪里,AI可以读书,AI可以写作,AI可以交谈,AI可以制作戴着小牛仔帽的猫咪打卡纳斯塔牌的图片。
除了运行大量算法与激活一些开关之外,AI很少实际移动。自然界中,运动能力是指生物体能够独立利用自身能量移动。化石记录,地球上最早的运动能力追溯到前寒武纪时期细菌鞭毛,一种形状像纺锤体的结构。现在,移动设备与机器人之间的界限,正在逐渐变得模糊与不明显。
为什么我们需要人形机器人?我们有充分的理由,让机器人采取许多高度专业化的形态机械臂、蛇形机器人、机器狗、机械尘等尽可能多的形态。
许多机器人与AI专家表示,对于人形机器人最强论点是,在一个已经为人类创建的世界中,为准备人形机器人的环境已经就绪。
英伟达创始人、CEO黄仁勋最近表示:适应世界的最简单机器人是人形机器人,我们为自己建造了这个世界。我们也有训练这些机器人的最多数据,我们拥有相同体型。想想人类能够用我们双手或使用工具执行众多任务,以及为人类手与手指设计的众多机器。机器人看起来像人,最重要的原因是,我们为自己建造了这个世界,工厂的工作站、工厂的生产线是为人们创建的。
界定TAM。截至2023年11月,美国劳动力约1.62亿人。以平均薪资59,428美元计算,美国劳动市场每年价值接近10万亿美元。Statista数据,全球约有34亿人就业。假设每个工人年薪9千美元,全球劳动市场价值大约30万亿美元,约占全球GDP 30%。
我们预测,到2040年,理论上30万亿美元中,人形机器人累计/应用基数将达到800万单位,影响工资3,570亿美元;到2050年,将达到6,300万单位,影响工资3万亿美元。我们的分析,目前没有考虑人形机器人应用基数超过现有人类劳动力的情况,在某些情况下,这项技术的经济效益可能使这成为现实。
特斯拉最近年度股东大会上,马斯克表示他相信,人形机器人数量最终将至少是人类的2倍甚至更多:我认为人形机器人与人类比例至少将是二比一,大概是这样,肯定至少是一比一。
也就是说,可能会有大约100亿个人形机器人。也许,可能是200亿、甚至300亿。
2040年代,就有10亿个人形机器人?根据马斯克帖子看,马斯克近几个月来一直专注Optimus帕洛阿尔托工程中心。特斯拉首次展示人形机器人Optimus,是在2022年9月30日。
特斯拉双足机器人Optimus,包括28个执行器,分为两类:
1、旋转执行器,包括谐波减速器、球轴承与传感器,用于肩部与肘部等旋转动作;
2、直线执行器,包括行星滚轮、球轴承与传感器,用于类似人类肌肉的直线运动。双手共有12个执行器,许多更多的细节仍然保留在公司内部。
2024年1月,马斯克表示,他预计到2040年代,将有超过10亿人形机器人在运行。在特斯拉2024年6月13日年度股东大会上,他预计2025年,特斯拉至少将有1,000个Optimus机器人开始工作,事情将会从那里迅速扩展。他认为人形机器人最终将超过人类数量,可能会达到200亿或更多,未分享时间表。
一个动态、迅速变化的竞争环境。除了特斯拉,数十家初创公司与成熟企业都在GenAl 2022/2023年的快速增长推动下,参与人形机器人开发。我们注意到,即使在NVIDIA 2024年3月主题演讲之前,关于公司对物理AI机器人的意图已经不言自明,AI机器人一直是MorganStanley TMT会议上一个重复主题。经过多次起伏,一系列风险投资者与公司正在押注体现式AI的前景。
2024年,人形机器人初创公司Figure AI、Agility Robotics分别在私募轮获得26亿美元与12亿美元估值,更广泛的主题吸引包括OpenAI、软银、老虎环球、亚马逊、NVIDIA与微软等主要投资者。
从汽车到消费电子等行业的主要上市公司,也在积极参与人形机器人开发,有些公司正在与人形机器人初创企业合作,探索潜在的未来用例。
机器人学正经历ChatGPT时刻。谷歌DeepMind高级机器人学总监文森特·范霍克的说法,专家们将2年前称为美好的旧时光。LLM与GenAl,突然将机器人学从孤立的机器人岛牢固的带入AI飞轮。LLM与GenAl科学,长期以来被视为与机器人学执行机构完全不同的世界。现在这些世界正在碰撞,影响深远。
我们以前也见过这样情况。1821年,法拉第通过悬挂在磁铁上方的电线中通电,观察电线的旋转。这不仅标志着电能如何产生机械运动,第一个电动机的发明,还将看似无关的两个科学领域,电与磁联系了起来。爱因斯坦发现物质与光之间,以前从未设想的联系e=mc^2。我们可能正处于揭开生成式AI与机器人学关系的边缘?
网络化集体机器人学习。想象一下,一个人形机器人站在厨房中岛前,岛上有一个小盘子,盘子上放着一个洋葱,旁边是一个削皮刀。现在想象一个大仓库,有1,000个人形机器人,每个机器人都站在一个带有同样设置的厨房岛旁。随着每次试错的积累,整个群体以任何时间点最佳机器人的速度集体学习。
这种网络化集体的聚合学习快速提升,实现团体学习的加速。当物理练习完成,表现最好的机器人,比其他999个剥洋葱做得更好后,最佳实践可以通过在模拟的全息宇宙中数亿次试验中的数字孪生体进一步分享与改进。
你今天见过或与机器人互动吗?你们中的一些人可能见过,大多数在2024年夏天阅读这篇文章的人可能没有。这个颇具怀旧色彩的人类技术,历史时期正在迅速过去。持续的LLM/GenAI革命,正处于早期阶段,渗透到机器人学领域。
长期以来,LLM与机器人学,被视为两个截然不同的科学领域。LLM的进步,加速在机器人的训练与学习上可能有更多重叠。无论是汽车形状的机器人、还是人形机器人,AI大脑正在寻找它的机器人身体。
人形机器人与自动驾驶汽车。自动驾驶车辆Avs,是相对简单的机器人。简单的意思是,机器人出租车只有三个主要执行输出:方向盘、加速踏板角度、刹车踏板。操作领域极其复杂,公共道路上充满不可预测的元素。
我们相信,AVs操作环境的可变性(现实世界)与相应的安全含义(人类乘客、行人)与人形机器人的形态相比,人形机器人的商业化时间将会更快实现,后者可以在地理围栏区域(仓库/工厂封闭工作单元)中学习。人形机器人有更多物理输出,自动驾驶车辆面临的困难操作领域、安全问题与监管审查,推迟了它们采用曲线。
人形机器人采用的关键驱动因素:人形机器人的故事,涉及对三个主要领域的了解:AI、机器人、人。
不同阶段,AI的进步多模态模型、神经网络训练、计算,可能比机器人学的物理科学,例如光学、执行机构、电池制造发展更快,后者可能沿着潜在非线性改进自己的路径前进。同时,各行业与地区的劳动力因素的多个驱动因素,将显著决定经济回报期、采用率与社会接受度。
高级人形机器人的开发,仍处于初期阶段。我们相信,过去几年中,邻近领域的进步, GenAI、执行器与机械、电池存储,已被证明是人形机器人开发的重要贡献者。这三个领域的进一步进展,将是实现人形机器人商业化的关键。
必须考虑一些限制因素。人形机器人的大规模商业化,必须克服一系列技术挑战,以及广泛的社会/政策/安全障碍。
技术方面,创建能够驾驭人类环境的细微复杂性的人形机器人,可能需要持续的生成式AI进展,以及努力将这些先进模型专门为人形机器人量身定制。
进一步完善精密执行器、传感器与电池容量,对于提高人形机器人可执行任务的范围至关重要。
现代机器人学,已发展数10年,生成式Al模型的突然与快速崛起,可能会创造出心理能力超过物理能力的情况,从而开启一系列潜在的硬件瓶颈问题,随着人形机器人变得越来越聪明,这些问题将需要解决。社会/政策/安全方面的考虑,与自动驾驶车辆AV的相关性,帮助我们理解人形机器人可能面临的障碍范围。
我们相信,相对公共街道,使用数字孪生体或在封闭地理围栏工作单元中培训人形机器人,为人形机器人在处理潜在安全规定方面提供相对优势。
利用摩根士丹利亚洲工业区的优势,从中国工业到日本工业与中国汽车供应商,我们深入了解人形机器人内部运作,分析组件成本与未来成本降低潜力。
根据我们估计,构建人形机器人的成本,可能根据配置与下游应用而变化,从1万美元到30万美元不等。例如,根据主要组件供应商的价格报价与专有分析,我们估计特斯拉Optimus Gen2的当前BOM为每单位50~60k美元,不包括软件。
规模效应帮助下,引入AI算法显著缩短研发周期,使用来自中国成本效益高的组件,我们看到实现马斯克目标的Optimus售价,约为2万美元显著成本降低的机会。
扎克伯格最新万字洞察:信息流媒体将更多转向个人及AI互动,未看好这三类AI硬件类型
时间:2024年6月30日
来源:有新Newin
字数:9,587
近日,Meta CEO Mark Zuckerberg与科技创作者Robin Kallaway进行了一场深度对话,讨论未来10年技术发展,尤其是智能眼镜、神经腕带、AI技术在创作者与小企业中应用。
Zuckerberg详细讨论智能眼镜未来发展方向,认为将逐步取代手机,成为主要的个人硬件设备。未来智能眼镜将分为三种类型:无显示屏的基础型、带有抬头显示的中级型、全息显示的高级型。
未来AI技术将不会是单一的,而是多样化,允许创作者与小企业创建定制化AI。这种多样化的AI体验,将提升用户互动的丰富性与个性化。智能眼镜与神经腕带将改变人们的互动方式。Zuckerberg认为,这些技术将使人们在现实世界中保持专注同时,以更自然与高效方式获取信息与互动。
以下是对话全文
Robin Kallaway:你能谈谈Meta在更广泛AI领域的策略吗?将会有成千上万创作者听到这个。他们了解AI,了解玩家,玩过一些工具,我认为听你谈谈会非常有帮助。Meta AI计划是什么?它如何适应市场?
Mark Zuckerberg:我们方法与其他公司有很大不同,你会看到很多公司试图构建一个主要AI供你使用。无论是Google Gemini,还是OpenAI ChatGPT。我们看法是,我们会有一个基本Meta AI助手供人们使用。我们总体观点是,这不应该只有一个。
我们认为人们希望与许多不同人与企业互动,需要创建许多不同AI来反映人们不同兴趣。我们方法,很大一部分是让每个创作者,最终也让平台上每个小企业创建自己AI,以帮助他们与社区与客户互动。
我们认为这将创造更加引人入胜的体验,比仅使用一个单一的东西更加动态与有用,一部分是我们不是自己构建这些东西。
我们在构建底层技术,我们希望使我们正在构建的底层模型Llama 达到世界领先水平。我们想全力以赴,试图构建完全通用的智能,建立领先的模型,我对我们进展非常满意。
同样重要的一部分,是为创作者与企业构建工具,使他们能够随着时间推移创建反映他们自己的AI,创造各种不同体验。
这就是本周AI Studio公告的内容,这是一个早期测试,在实现这一愿景方面,是一个令人兴奋的一步。
Robin Kallaway:这正是我想要探讨的内容,我认为这种网络视图,也许是单一目的,也许是多功能Agent结合在一起,为每个创作者与企业定制,这正是我认为我们未来的发展方向。
说在10年后,我们会有更多创作者并不具争议性,主流内容会更多通过创作者流动。Meta已经是今天铺设这些轨道的主要一层,当你考虑创作者体验的未来是什么样时,从战术用例角度看,未来会是什么样?有什么事情看起来,对你很有趣?
Mark Zuckerberg:首先我完全同意你的观点。如果你看人类历史更广泛的轨迹,越来越多人有机会追求自己创造力与兴趣,而不是做他们可能觉得单调乏味、或者仅仅为了工作的工作,我们越来越多做自己真正喜欢的事情。
很多技术的发展,是为了实现这一点,不仅通过提高其他任务生产力,还通过为人们提供各种新工具。
这绝对是未来的一部分,我们想要构建更多工具,让更多人,包括今天不认为自己是创作者的人,每个人在某种程度上都有创造力。
就像我看到我孩子们一样,他们不认为自己是创作者,他们肯定在玩乐高时,创造了各种不同东西。这是毕加索老话,每个孩子都是艺术家,挑战在于长大后还能保持这种状态。
我们要做的一部分,是构建允许每个人这样做的工具。我看到的趋势是什么?在社交媒体方面,有几个大趋势。
一个是从基于信息流的媒体,转向更个人化的消息互动。比如,如果你看Instagram,私信是系统中增长最快的部分之一,这也是我对创作者工作室与AI工作室感到兴奋的部分。
我们正在使人们能够为自己AI版本创建一个角色,以帮助他们处理社区发送的所有私信。这就是经典问题,时间不够用。
每个创作者都希望与每一个联系他们的粉丝互动,你根本没有时间。可能还有更多人比发送消息的人还多,想与创作者创建的内容互动。很多人可能根本不会发送消息,他们知道创作者不会有时间回复。
问题在于,创作者为自己创建的AI Agent质量有多高,这将成为一种艺术形式,会随时间推移发展与进步,会变得越来越好。
对很多人来说,知道他们在与创作者创建的东西互动,这很有意义。可能不如与创作者本人互动好,对很多人来说,这是不可得的,创作者没有足够时间来回应,这是一个重要部分,我们可以深入探讨这个话题。
另一个快速增长的领域是短视频。最近有一个惊人趋势,从电影与长篇电视节目,到人们一度认为YouTube是短视频,人们将其与电视电影相比,今天与真正的短视频相比,很多YouTube视频感觉很长。
你在看YouTube视频时,可能在做多任务,它持续了好几分钟。这种趋势可能会继续下去,人们有工具来创建非常吸引人的内容,使其非常紧凑与精练,这些工具的发展速度会继续下去。
人们会使用AI来创建与编辑视频,整个过程会有大量创造力,你需要精心打磨你正在构建的东西,就像雕塑一样。
根本上说,它会变得更易获得,内容质量会随着人们能够尝试更多不同想法而提高。这两个大趋势是消息与短视频,这是我目前看到的两个大趋势。
Robin Kallaway:这种杠铃策略,一端是超级原始、未编辑的长篇播客对话,另一端是超级精致的短篇故事,似乎吸引力正流向这两端。
我想讨论一下AI工作室在工具方面的情况,今天基本上是奠定基础的阶段,这是创作者如何在Meta世界与AI互动的基础构建模块,今天是第一块基础工具。
你能谈谈你的策略,是如何逐步实现的?今天发布了什么?为什么你对此感到兴奋?我可以分享我的反馈作为测试。
Mark Zuckerberg:我们可以讨论这些战术工具的逐步实施,有几条技术路径是同时进行的。
一条是Llama 开发,底层模型的调优,这是我们在获得反馈过程中进行,这是底层核心基础设施。在此基础上,我们正在创建的所有产品体验与工具,使人们能够创建这些不同的AI。无论是创作者创建一个AI Agent版本,来与他们社区互动。
某个时候,我们还将推出让任何人创建用户生成内容AI的功能。不一定是你自己创建的,它可以是一个你想要在Instagram与其他应用程序上存在,并与人们互动的新虚拟角色。
今天我们可能不会详细讨论,商业方面,小企业数量不亚于现在的创作者数量,这是一个巨大的机会。
对任何企业来说,按几个按钮创建一个能够帮助你进行客户支持与电商支持的Agent版本应该是非常简单的,这将非常强大。
今天我们正在推出第一个测试阶段,我们试图分阶段进行。我们与大约50位创作者一起启动,将逐步推出给一小部分人。随着我们调整这一点,可能在接下来1个月左右,我们会逐步推出,让更多人能够与这些创作者创建的AI互动。也许到7月底或8月,我们会全面推出。
这将是一个非常有趣的体验,看看人们如何喜欢与这些AI互动,以及为创作者构建工具是一个大部分。
很想听听你的反馈,你在使用这个工具时有什么感受,哪些地方表现良好,哪些地方需要改进。
Robin Kallaway:我很乐意分享。对我来说,作为一个创作者,我父母在俄亥俄州经营一个高尔夫球场。他们就是小企业的使用案例,他们有一个Instagram账户,收到很多请求,他们无法应对大量私信与消息。
我想法是,这有点像一个光谱,有事实性问题,这些问题大量涌入,我相信你也有这种经历,很难想象,成千上万的事实性问题。
比如,你有没有这个链接,或者你做过这个视频吗,或者你衬衫从哪里来?这些都是显而易见的问题,只需要克隆自己来回答,这是这个技术初步用例的惊人之处,每个小企业与创作者都会想要这个。
光谱另一端,我一直在玩的,更多是意见型问题。例如,如果有人问,如果你是我,你会如何发展你的品牌?这是一个多方面的问题,很难一口气回答。
这也是我觉得有趣的地方,观察AI在我与我的回应上进行训练,并磨练它。如果我能扩展这些意见性回答,作为创作者,我目标之一是建立一对一的信任,这是我唯一关心的事情,我已经达到我能力极限。
我想到的一个问题是,事实性问题很有意义,每个粉丝都会同意他们只想获得信息。在意见方面,一些粉丝会担心AI助手,可能会使人与粉丝之间神奇的联系去人性化。
问题是,你如何构建这些对创作者无比有用的AI工具,同时保持真实性与人性化联系?
Mark Zuckerberg:你提到的意见型问题,更多是一种艺术形式体现。也就是说,这些东西的训练过程。
首先是基础Llama 模型。创作者在设置这些AI时,有机会从他们社交媒体存在与他们想要训练系统的任何其他信息中提取各种信息。
事实性问题相对来说比较清晰,可以理解我们何时做对,何时没有。意见方面,创作者会有更多意见,关于他们希望AI如何表达他们观点。至于人们知道他们在与AI互动的那一点,这是我们核心设计原则之一,我们不想让人们以为他们在与创作者本人互动。
我们希望它尽可能高保真反映创作者意图,也会非常清楚标明这是AI,这样就不会有任何混淆。当你与社区互动时,你可能会觉得可以在表达上更加自由或冒险,或者在某些可能更具风险表达上更加接近底线,你可能不希望你AI这样做。
你可以让它基于你社交媒体内容进行训练,你可能希望训练它在某些事情上保持更加谨慎,避免涉及某些话题,直到你对它能够准确反映你的意图有更多信心。
这些工具非常重要,这是一种艺术形式,我们在开始时不知道什么是最具吸引力、最能建立信任的公式。我们希望提供工具,让大家可以试验,看看什么最终效果最好。
Robin Kallaway:我真的很想讨论的是AI工作室未来功能创意,让我给你一个非常酷的例子。
当你观看这个视频片段时,如果有人可以点击你的衬衫或我的帽子或这个灯,立即有一个AI层识别品牌与产品,自动添加到购物车,自动跟踪返利。这种无形的层次,可以真正帮助实现货币化。
由于基础设施原因,每小时有数百万个Reels被创建,今天支持这一点很困难,这可能在计划中。还有哪些未来的AI工作室功能,是我们还没讨论到,你认为我们在未来3~5年内可以实现?
Mark Zuckerberg:理解不同物品的功能,应该随时间推移适用所有帖子,我们会达到那一点。我们在Ray-BanMeta眼镜上有这种多模型AI早期版本,你可以说,Meta,看一下这个东西是什么?它非常准确告诉你,我们在看什么,并能够回答相关问题。
随着Llama 模型不断改进,以及我们完全推出下一版本,这只会变得更好,这是一个大功能。还有很多类似事情,能够自动翻译与配音,是我对未来非常感兴趣的事情。
讲英语的人,常常忽视世界上很多人不讲英语,能够自动将所有内容翻译成各种语言,使其对更多人可访问,如果能感觉到真实,并像你在说那种语言一样,将非常强大。
这些是一些非常令人兴奋的想法,这些不同于AI工作室,这是AI在内容、内容理解与内容翻译等方面的不同应用。
对于AI工作室,将会是如何给创作者提供更多工具来调整体验,使其更加有趣与建立信任的一种持续演进,我们还会添加不同模式。
起初是文本,随着时间推移,会有视频、音频,最终能让它成为3D,这样你就可以以全息图形式出现在某人客厅里,这将非常酷。我们专注元宇宙与所有具象化工作,这也是我们自然路径,我们试图让创作者能够以更自然方式与人们互动。
Robin Kallaway:我非常喜欢你提到的Agent网络概念,我在玩这个时,我在想,这是一级,那二级会是什么?一个例子是市场研究Agent,我试图提出制作什么视频或向社区提供什么产品或课程。
如果我有一个Agent,可以出去,并与5%观众进行一对一对话,挖掘他们痛点,自动完成这些事情,将非常棒。你把这些小的用例堆叠起来,突然之间,就有了一套对创作者非常有价值的Agent、AI或机器人。
Mark Zuckerberg:这是好观点。商业环境中,这一点更清晰,企业需要客户支持,更高一级的是能够汇总分析,了解人们需要支持的所有事项,改进它们。对于创作者来说,也有类似版本,比如,我的社区如何喜欢与我内容互动,不同反馈是什么,我如何将这些因素纳入我创作过程或商业模式中。
Robin Kallaway:我非常喜欢讨论未来所有这些用例,我们都是技术乐观主义者,我相信几乎所有这些技术,长远看,都会对人类有净效益。
有一个大问题,我肯定你也经常听到,来自朋友、家人,我在评论区经常听到。很多人对AI有很多恐惧与不确定性,主要是创意人士与艺术家害怕AI可能会取代他们,抢走他们工作。
我想起我的兄弟,他是出色的动画设计师,他非常担心,他担心他所受教育与培训,是否会变得毫无意义。
对这一群体而言,听到像你分享关于AI驱动未来的原始想法会非常有益。这对他们来说意味着什么?你能为他们提供一些心态或框架吗?
Mark Zuckerberg:未来将会有比现在有更多的创意工作,你可以看一下人类轨迹,大多数人过去是农民,现在我们不需要这么多人从事农业,人们可以追求更有创意的事情。
随着技术的发展,我们使用工具也会发展。成为一个有才华的人,关键在于与这些工具保持同步。根本上说,未来会有更多创意机会,伴随更强大工具,让人们能够做到这一点。
退一步说,我确实认为有一点让我感到困惑的是,行业中一些人推动的叙事是,他们认为会有一个万能AI,可以做所有事情,我不认为事情会这样发展。
我理解,如果你在某个AI实验室,你可能希望自己正在做的事情非常重要,你就会觉得,我们在为未来构建唯一的东西,现实情况并非如此。
这不像人们手机上的应用只有一个,人们只想从一个创作者获得所有内容。人们重视多样性,这创造了丰富性与我们在生活中学习与进步的感觉,体验不同种类的事物。
我非常相信,未来不会只有一个AI,会有很多不同AI,让很多不同人能够创造不同东西,这也是我信奉开源的部分原因。
我不认为AI技术应该被囤积,只有一家公司可以使用它来构建他们中央产品。如果你相信最好的体验与最好的未来,会有很多不同AI与很多不同体验,你就希望它能在各种方式中传播出去。
这部分是为创作者与平台用户构建工具,使他们能够创建自己AI,就像UGC类型的AI情况,还有所有商业内容。
另一部分是开源,这样其他公司也可以创建不同东西,人们可以自己玩弄与修改。我有一个非常深刻的世界观,当技术行业的人谈论构建唯一AI时,我感到非常不舒服。他们好像认为自己在创造上帝,这不是我们在做的事情,我不认为事情会这样发展。我们将在10年后,使用与今天不同的工具,就像我们今天使用的工具与10年前不同一样,未来将会有比今天更多创意工作。
Robin Kallaway:我想到了数码相机。当时有很多摄影师,数码相机出现了,摄影的品味仍然很重要。他们只是得到了一个更好的工具,可能用于不同的用例。我非常同意你所说的,很多公司试图构建这种封闭的一体化平台,这对我来说也是一种打击,这比有益更具破坏性。
Mark Zuckerberg:这不会在世界上创造更多价值,这是一个有点奇怪的意识形态,从我的角度看,我认为这不是为人们创造最佳体验的方式。你想解锁、释放尽可能多的人来尝试不同事情,这就是文化的本质。这不是一群人垄断一切,你希望有各种不同的想法在那里。
Robin Kallaway:完全同意。我想回到你之前提到的Ray-BanMeta,我使用它时感到非常震惊。音频、摄像头质量,多模型AI的结合,远远超出我的预期。
我听过你分享的一个框架,你认为像智能眼镜这样的设备,可能会成为下一代手机,Quest3 VR这样的设备可能会成为下一代计算机与电视,这对我来说很有意义。作为一个产品构建者,我很好奇,Ray-BanMeta或智能眼镜,还需要什么才能让数十亿人更喜欢使用眼镜,而不是手机作为主要硬件设备?
Mark Zuckerberg:这是个有趣的问题。
如果你几年前甚至1年半前问我,我会说我们需要达到全息AR水平,才能让这成为人们使用的主要平台,我们正在努力解决这个问题。
我们从两个不同方向回答这个问题。
对于Ray-BanMeta,我们看了一下,问自己,如果我们只采用今天最好的眼镜形式因素,我们能在不影响形式因素、重量等方面情况下,塞进多少技术,这就是我们得到的Ray-BanMeta。
我们从另一个角度出发,想要创造全息AR。这仍然需要是眼镜,不是头戴设备,可能会有稍厚框架,你要塞入更多技术。
这不是我们拥有的原型版本,我很兴奋,我们越来越接近展示它,这不是最时尚的东西,但它是好的。
它无疑是眼镜,不是头戴设备。随着时间推移,这两条路径会逐渐融合。我以前认为我们需要全息来实现存在感,AI取得如此大飞跃,即使是一个简单的产品也会更快吸引人。
Ray-BanMeta产品的需求,比我们预期的高得多。一方面,你喜欢看到这种情况,另一方面,我们没有生产足够产品,这有点令人沮丧。
它在大多数款式中已经售罄,你仍然可以买到基本的黑色款,很多人想要其他款式已经售罄。我们正在加速生产与工厂生产线,以制造更多产品。
我现在观点是,会有很多这样产品。我认为你可以用摄像头、麦克风、扬声器,以及多模态AI,创造一个很棒的体验,即使眼镜没有任何显示器。有趣的是,显示器本身可能不会立即适合所有人,它增加了眼镜重量,使它们变得更贵。
你可以300美元价格买到Ray-BanMeta,如果添加全息显示器,将显著增加成本,即使在可能实现的情况下,我们也能将其置于我们想要的形式因素中。
我仍然认为,对能负担得起更昂贵设备、不介意稍重的人,他们可能会想要全息功能。10年后,我们会得到真正小型全息设备,将非常棒。
近期内,我认为很多人会更喜欢Ray-BanMeta产品。我们会继续让这种形式因素,随着时间推移变得越来越小,这是一个非常令人兴奋的演变,基本上会有三种不同的产品。
1、无显:没有显示器的眼镜,只能进行AI操作,捕捉内容,可以听有声书、音乐、接电话等。
2、非全息:非全息显示器,意思是它不会像全息图那样覆盖你整个视野。它可能会有一点抬头显示,这会带来很多有趣用例。可以收到通知,发送消息,与AI对话,回答问题,不仅能听到,还能看到,这提供了更高带宽。这会很令人兴奋,有很多小屏幕的用处,即使只是一个小小的抬头显示器。
3、全息:会有最顶级版本,即全视野全息显示器,我们在未来对话中,你是坐在我客厅沙发上的全息图,或者你在这里,不仅是视频通话,不仅是屏幕上的全息图。我们可以互动,你想玩牌,我们可以有一副全息图的牌。我们可以互动,乱搞同样东西,你想一起创作艺术或内容,或者在白板上画画,都可以做这些事情。这将非常疯狂,这仍然是最终方向。我现在更乐观的是,即使在我们到达那里之前,这也将是一个大事件。
Robin Kallaway:就像托尼·斯塔克的眼镜是最后一个用例,我听说过你提到过一个腕带,可以捕捉到皮下神经信号,我觉得这也很酷。
Mark Zuckerberg:是神经腕带,神经接口腕带。当人们听到神经接口时,我想他们的第一个反应是,这一定是植入你大脑的东西。大多数人不想要什么东西植入他们大脑,我同意。
你大脑通过神经系统向你身体发送信号,就是你如何激活所有肌肉的方式。事实证明,有很多不同路径在你身体正常运作中没有被使用。
你可以有一个腕带,训练它捕捉你大脑通过不同路径传递的信号与方式,以不同于你通常方式移动你的手。最终会达到这样一个程度,即使不明显移动手,也能通过这个神经接口进行交流,它会从一些简单的动作开始。
未来几年,将能够用它打字,做各种事情,控制光标,这将非常疯狂。与眼镜结合,将会带来一系列非常惊人用例,即使只是一个抬头显示器版本或者甚至没有显示器。
你可以坐在那里,无论你在哪里,你都可以给某人或AI发送消息。再一次,这不仅仅适用于Meta,随着时间推移,它将适用于所有不同AI,所有创作者的AI,任何你想互动的人。
你可以坐在那里,默默、谨慎发送消息,你可以在耳边听到回答,或者如果你有显示器版本,可以看到小小文字弹出,我觉得这会非常疯狂。
对我来说,最好的一点是,我更喜欢与人面对面交流。对我来说,Zoom上小组对话的最好部分之一,是你可以有整个背后频道,在主要会议或对话进行的同时,你还可以与一部分人聊天,有时在会议中,我有一个问题想问某人,我不想在所有人面前问,我只能等到会议结束。
数字会议中,你可以在会议进行时,给某人发信息,比如在WhatsApp上发消息。在面对面互动时,也能通过眼镜做到这一点,会很棒。你可以与人互动,也可以在对话期间获取信息,使事情变得更加高效,这将非常强大。
Robin Kallaway:我以前低估的一点是,手机会打破你的专注。当你在用手机时,你完全在手机里,而不是在外界。一旦你戴上眼镜,甚至没有抬头显示器,但有了它,也不会分散你的注意力,你会非常专注。你可以在现实世界中,同时以混合方式获取信息。这是一个非常有趣的平衡,有腕带与眼镜的结合。
Mark Zuckerberg:你问什么时候这会取代手机。
技术史上,新平台通常不会完全使人们停止使用旧东西,只是你会用得更少。很多人今天在手机上做的事情,以前会在电脑上做,更方便。你不再频繁打开电脑,不去书桌前,你只是直接在手机上完成。即使我坐在书桌前,我也会在手机上做很多以前10~15年前会在电脑上做的事情,眼镜也会这样发展。
不是说我们停止使用手机,只是它会更多待在你口袋里。你会在需要时拿出来,越来越多人会说,我可以用眼镜拍照,我可以向AI提问,或者发送消息,这样更方便。我不会感到惊讶,如果10年后我们仍然有手机,使用它们的方式会更加有意,不是仅仅为了任何技术需求,就随手拿起它。
Robin Kallaway:每隔几年,社会就会经历一些颠覆性的消费科技时刻。我想起第一次在Google上搜索,第一次在Facebook上收到好友请求,或者第一次用Uber,人们几乎能记住他们第一次经历这些转变的时刻。
你工作中最酷的部分之一,是你可以提前5~10年体验颠覆性技术。我们谈到眼镜,我很好奇在未来10年Meta路线图上,还有哪些技术,有可能成为颠覆性的消费科技时刻?
Mark Zuckerberg:我完全同意你的观点,这是技术中最棒的部分之一。很多其他领域,你可以做同样的事情很长时间,而在技术领域,每隔一段时间就会有一些新机会出现,你需要重新思考你在做什么,这很令人兴奋。
我不知道,我们已经讨论了很多内容。
眼镜会是一个大事件,我们几乎准备好开始展示全息眼镜原型。我们不会广泛销售原型,而是专注构建完整的消费版本,而不是销售原型,我们会开始向人们展示原型,这很疯狂。我展示给每个人,他们反应都很兴奋,我非常期待展示给更多人。
神经腕带也很疯狂,你可以通过微妙的手部动作输入信息,仅通过想象如何移动手。
随着时间推移,这将变得更加丰富。通常需要到第二版或第三版,这些东西才能真正调试好,人们才能理解。我们在Ray-BanMeta第二版也看到这一点,它真的大受欢迎。神经腕带将是一个大事件,根据进展,它可能主要用于眼镜与混合现实头戴设备的输入,或者最终成为独立的平台。你可以想象一个世界,你用神经腕带控制家里所有设备或电脑,随着时间推移,这将非常酷。
AI方面,进展速度非常惊人。我们从2023年夏天Llama 2,到现在Llama 3,Llama 2不是最先进的,Llama 3接近赶上最好模型。这是开源的,向很多人开放,解锁了很多很棒的东西。
我们开始研究Llama 4,我对此很兴奋,每个版本都增加了更多模式。Llama 3有更多图像模式与一些语音内容,Llama 4将更深入这些方面,增加一些推理能力。
这样,当你是创作者,并在编辑某些内容时,你不需要非常详细描述你在做什么。你可以来回交流,尝试不同想法,这将非常吸引人。
当它从回合制聊天机器人,转变为你可以给出意图,并完成更复杂任务的Agent时,这将非常酷。
我不知道,我确实认为我们在创作者AI方面开始的旅程,将是一个有趣的开始。现在很多人体验这些AI,是通过几个公司构建的主要AI。创作者AI与我们推出的一些商业AI,将使人们开始与更多样化的体验互动,这将为整个生态系统增加真正丰富性,非常棒。
Robin Kallaway:我完全同意,有时候这只是一个新应用程序或以不同方式打包。就像我们谈到的主题,从单一到多样化。
这里有一个有趣的问题,关于创作者方面,我想我从未听过你回答这个问题。
你是一个非常多产的创作者,你设计自己衣服,制作音乐。我听说过你的Mark肉品MarksMeats,还有你所有爱好。
很多创作者都会被问到一个问题,我也经常被问到,如果我要从头开始在网上建立一个品牌或围绕一个爱好建立品牌,我该怎么做?我很好奇你会怎么回答这个问题。
比如说,你只是一个吉他手Mark,或者Mark肉品创始人Mark。你知道关于世界构建、粉丝心理学的一切知识,我们拿走所有资源。你会如何看待这个挑战?如何作为企业家,尝试在线上建立一个有意义的品牌?
Mark Zuckerberg:这很有趣,我们现在几乎已经被反射性训练去思考这些东西。
对于Mark肉品的例子,我不是想围绕它创建一个商业,我本能从背后的故事来思考它。我们不仅是要养牛,我们试图在夏威夷养出高质量牛,我们喂它们独特的夏威夷果餐,我们酿造啤酒,并喂它们喝。我们垂直整合,我们种植夏威夷果树,酿造啤酒。我发现这就是它有趣的部分,每个人都以独特的方式做事情。
也许有一天当我退休时,Mark肉品会成为一个商业运营,现在只是想做这件很棒的事情,让它变得很棒的一部分,是围绕它有一个叙述与故事。社交媒体与其他在线工具帮助人们讲述这个故事,这也在某种程度上训练我们思考事情的叙述与故事是什么,这是一个有趣的问题。
相关研报:
【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中
诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会
人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来
九宇资本赵宇杰:智能时代思考,认知思维,存在原生、降维、升维三波认知红利
九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI
九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体
人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字
九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿
九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切
【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上
【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付
【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启
【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起
【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆
【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横
【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动
【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现
九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切
【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会
九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变
【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集
【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集
【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集
【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变
【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐
九宇资本赵宇杰:对智能电动汽车产业的碎片化思考
九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术
【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓
【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异
【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国
【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆
【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村
六合君3周岁生日,TOP 60篇经典研报重磅推荐
下午茶,互联网世界的三国杀
5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代
新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式
【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇
知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期
从APP Store畅销榜4年更替,看内容付费崛起
新三板破万思考:新三板日交易量10年100倍?
九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会
九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会
九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态|2016 GNEC 新经济新营销峰会
请务必阅读免责声明与风险提示