⚡OpenAI/Anthropic/Google今晚三箭齐发,要点如下: 【1

丹萱谈生活文化 2025-08-06 09:21:11

⚡OpenAI/Anthropic/Google今晚三箭齐发,要点如下: 【1】OpenAI开源gpt-oss:1)OpenAI开源gpt-oss-120b/20b两款开源模型,这是OAI自2019年GPT-2以来的首次模型开源、2)两款模型在工具使用、少样本函数调用、CoT 推理和HealthBench上表现出色,gpt-oss-120b在核心推理基准测试中几乎与o4-mini持平,gpt-oss-20b则基准测试分数与o3-mini 类似、3)采用MoE架构,gpt-oss-120b每个token激活 5.1B参数,gpt-oss-20b激活3.6B参数,都原生支持高达128k的上下文长度、4)支持低/中/高三种推理强度,能提供完整的思维链,并支持结构化输出、5)训练gpt-oss-120B需要2.1M H100 hours,gpt-oss-20b则只需其十分之一的算力(作为参考,训练DS V3需要2.8M H800 hours,即2048张H800训练57天)、6)两款模型原生量化为MXFP4,这使得gpt-oss-120B可以在单卡80GB显存中跑推理,而gpt-oss-20b更只需16GB、7)另外,奥特曼今晚在X上表示“本周晚些时候还将有一个重大升级”,我们猜测大概率将是GPT-5 【2】Anthropic发布Claude Opus 4.1:1)Opus 4.1在Coding能力上继续提升( SWE-bench Verified 72.5%→74.5%),在多文件代码重构方面有显著的性能提升,擅长在大型代码库中精确定位准确的更正。Windsurf 报告称Opus4到Opus 4.1的提升幅度和Sonnet 3.7到 Sonnet 4大致相同、2)Opus 4.1还提高了深度研究和数据分析的能力,尤其是在细节跟踪和Agent搜索方面、3)Anthropic还计划在未来几周内发布对Claude模型的更大幅度的改进 【3】谷歌DeepMind发布Genie 3:1)Genie作为谷歌的第三代通用世界模型,可以生成前所未有的多样化交互式环境。给定一段文本提示,Genie 3可以生成动态世界,用户可以每秒24帧的速度实时导航,并在720p的分辨率下保持几分钟的一致性、2)Genie 3是第一个允许实时交互的世界模型,同时与Genie 2相比,其一致性和真实感也得到了提升,并且这种一致性也是一种不依赖显式3D表达的涌现能力、3)Genie 3的出现能够模拟自然世界、建模动画与小说、探索地点和历史背景、为教育和培训创造新的机会、推动具身智能体研究等等 HYJSJ⚡⚡⚡

0 阅读:10
丹萱谈生活文化

丹萱谈生活文化

感谢大家的关注