Anthropic 发布 Claude Fable 5 与 Mythos 5,基准测试全面领先
Anthropic 发布两款新模型:Claude Fable 5(通用安全版)与 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天。Mythos 5 面向特定合作伙伴以更高安全限制授权。两模型同日上线,标志着 AI 推理能力再次大幅跃升。
~ | 00:00 ~ 08:00
2026-06-08 ~ 2026-06-09 | 2026-06-09 00:00 ~ 2026-06-10 08:00
Anthropic 发布两款新模型:Claude Fable 5(通用安全版)与 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天。Mythos 5 面向特定合作伙伴以更高安全限制授权。两模型同日上线,标志着 AI 推理能力再次大幅跃升。
OpenAI 已秘密向 SEC 提交 S-1 招股书,确认 IPO 筹备正在进行,但尚未确定后续行动时间。此前 Anthropic、SpaceX 相继提交 IPO 申请,AI 行业掀起上市浪潮。同时,Sam Altman 旗下虹膜扫描公司 Tools for Humanity 正在裁员,投后估值 25 亿美元。
苹果在 WWDC 2026 上发布 iOS 27、iPadOS 27、macOS Golden Gate 及全新 Apple 智能。Siri AI 正式登场,主打端侧处理与隐私保护,可完成跨应用复杂任务。Safari 及 Shortcuts 获得 AI 增强,相册新增 AI 编辑功能。但 iPhone 16 不支持最先进的 Siri 功能引发争议,欧盟因 DMA 法规推迟上线。
NVIDIA GPU 机密计算技术被 Apple 私有云计算(PCC)采用,在 Google Cloud 上进行机密推理。同时 NVIDIA 与 LG 集团共建 AI 工厂,加速机器人、自动驾驶和数据中心技术;与韩国斗山集团合作推进物理 AI 和机器人。黄仁勋在伦敦科技周宣布英国主权 AI 取得重大进展。
Google 与 SpaceX 达成巨额算力协议:从 2026 年 10 月至 2029 年 6 月,Google 每月向 SpaceX 支付 9.2 亿美元以满足 Gemini Enterprise 和智能体平台的激增需求。双方合作引发市场对 AI 基础设施军备竞赛的广泛关注。
Cohere 发布 North Mini Code,一款 30B 参数 MoE 模型(仅 3B 活跃参数),采用 Apache 2.0 开源协议。在 Artificial Analysis Coding Index 上得分 33.4,超越 Qwen3.5、Gemma 4 等同类模型。该模型是 Cohere 面向开发者的首个编码专用模型,主打低延迟、高效率。
Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存即可在消费级笔记本上运行。
中国计划在未来五年投入约 2 万亿元人民币(约 2950 亿美元)建设全国数据中心,推动国内 AI 产业发展并缩小与美国的差距。该投资将覆盖数据中心基础设施大规模建设,为北京在关键技术领域的雄心提供资金支持。
Super Micro Computer 计划通过股权融资筹集 70 亿美元用于采购 AI 服务器组件,满足不断增长的客户订单需求。这笔融资将支持公司扩大产能以应对全球 AI 基础设施需求的持续爆发式增长。
工信部、国资委 6 月 8 日联合发布通知,目标到 2026 年底,人形机器人等重点产品在代表性场景完成应用验证并开启常态部署,形成百个以上高价值场景、万台级规模落地。各省级地区选取不少于 20 个场景单元,央企不少于 10 个。
Microsoft AI CEO Mustafa Suleyman 在接受 The Verge Decoder 播客采访时表示,超级智能即将到来但不会导致大规模失业。他批评 Anthropic 的 Claude Constitution 关于 AI 意识的讨论「非常危险」,认为 AI 应是可控、可问责的工具。同时强调微软与 OpenAI 的合作关系并未破裂。
Anthropic 发布最新研究成果,探索 AI 智能体在生物学领域的应用前景。该研究展示了 AI 代理如何协助生物学家进行实验设计、数据分析和假设验证,为将 AI 融入科学研究全流程提供了方法论框架和实践参考。
Claude Managed Agents 公开测试两项新功能:智能体可按 cron 计划自动执行周期性任务(夜间数据同步、周度合规扫描等),无需用户自建调度器;Vaults 新增环境变量支持,允许智能体通过 CLI 进行认证请求,密钥仅附加在网络边界,智能体无法读取。Rakuten、Actively AI 等团队已在使用。
Google DeepMind 发布 Gemini 3.5 Live Translate 音频模型,支持 70+ 语言的实时翻译。新「收听模式」允许用户像接电话一样将手机贴在耳边,无需耳机即可听到实时翻译结果。该模型专为跨语言快速交流场景优化。
德国地方法院裁定 Google 对其 AI 概览生成的内容直接承担法律责任,不能援引搜索引擎运营商原有的有限责任保护。涉案 AI 概览错误地将两家出版商与欺诈行为关联,且相关声明未出现在任何链接来源中。该裁决可能为全球 AI 生成内容责任认定树立先例。
OpenRouter 发布 Advisor 服务器工具,允许快速廉价的模型在生成过程中咨询更强大的模型。例如可用 GPT-4o Mini 处理日常任务,在关键时刻调用 Claude Fable 解决复杂问题,实现成本与性能的最优平衡。
HuggingFace 与 ServiceNow 发布针对语音智能体处理代码切换语音的基准测试,覆盖西班牙语-英语、法语-英语等四对语言。评估了 AssemblyAI Universal 3-Pro、Deepgram Nova 3、Gemini 3 Flash 等七种 ASR 系统,数据集与框架通过 AU-Harness 开源。
亚洲最大外包商塔塔咨询服务(TCS)将减少未来招聘规模,同时加大对 AI 智能体的使用。这一变化标志着印度劳动密集型 IT 外包产业正经历关键性转折,AI 自动化正在重塑全球外包行业格局。
IBM CEO Arvind Krishna 表示 AI 不会必然导致员工数量减少。他透露 IBM 已在量子计算上投资超 100 亿美元,联邦政府承诺投入 10 亿美元在纽约 Albany 建设芯片制造设施,体现了公私部门的紧密合作。
AI 编程独角兽 Cursor 将欧洲总部设在伦敦,计划招聘约 200 名员工,并在巴黎、慕尼黑等地开设小型办事处。SpaceX 拥有以 600 亿美元收购 Cursor 的选择权,或支付 100 亿美元开展全新合作。Cursor 目前 B2B 年化营收约 10 亿美元。
据知情人士透露,台湾当局正考虑对 AI 芯片出口中国大陆实施更严格的管制,以进一步与美国出口限制措施对齐。此举旨在遏制半导体走私,但可能招致北京方面的强烈谴责。
Apollo 和 Blackstone 合作开展 350 亿美元 AI 融资交易,可能重塑人工智能基础设施的融资方式。华尔街为昂贵的 AI 芯片创建新的融资模型,Anthropic 和 Broadcom 参与其中,这可能标志着一个全新的 AI 融资范式。
腾讯混元推出 UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法 DRPO 和 Flow-DPPO。UniRL 通过单个后训练循环覆盖扩散/流匹配模型、LLM/VLM 及统一多模态模型,大幅简化了多模态模型的强化学习训练流程。
小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化,推理引擎优化后显著降低延迟,为大规模模型实时应用铺平道路。
火山引擎将 TRAE Solo 品牌升级为 TRAE Work 企业版,发布面向企业的 AI 办公平台。平台提供 Work 和 Code 两种模式:Work 面向产品、运营、市场等非技术岗位,支持上传多种格式文件直接输出 PowerPoint 等成果。
由赛力斯、宁德时代等多方产业资本组建的 AI 出行品牌 AIVA 正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车 AIVA Origin Concept 亮相,首款量产车 AIVA ME7 将于 2026 年内亮相,全系覆盖 20 万元以上市场。
百度智能云旗下百度搭子 DuMate V3.4.0 通过中国信通院「可信 AI-企业级 Claw 能力评估」,获最高评级 4+ 级,为国内首批。评估依据《智能助理智能体技术和应用要求 第 2 部分 企业级 Claw 能力》标准进行。
在无设计稿和后端代码的条件下,Qwen3.7-Max 仅凭一份约 15 万字的产品调研文档,于隔离环境中全自动完成移动端与 Web 端两套真实应用从 0 到 1 交付,单端耗时约 4 小时,中途无人工接管。模型不具备图像理解能力,通过像素坐标定位实现 UI 构建。
Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000+ 规则判断维护者是否愿意合并代码。该基准指出 SWE-bench 与真实开发场景存在较大差距。
OpenAI 启动经济研究交换计划(Economic Research Exchange),研究 AI 对就业、生产力和经济的影响。该计划现正接受研究项目申请,旨在通过系统性的实证研究评估 AI 技术的经济社会效果。