AI 日报 - 2026年06月03日

💥 重磅新闻

Anthropic 向美国证券交易委员会（SEC）提交了保密版 S-1 注册声明草案，正式启动 IPO 流程。此举距其650亿美元 Series H 融资（估值达9000亿美元，超越 OpenAI 7300亿估值）仅数周。当前尚未确定定价和股份数量，仍需监管审查和市场条件配合。这意味着 AI 行业又一家顶级公司即将进入公开市场。

来源：Anthropic

融资 Alphabet 拟出售800亿美元股票，全力投入 AI 算力基建

Google 母公司 Alphabet 计划通过出售800亿美元股票为 AI 算力基础设施投资筹资，以应对前所未有的客户需求。融资方案包括伯克希尔哈撒韦100亿、承销发行300亿、以及40亿 ATM（在场交易）计划。Goldman Sachs、JPMorgan 和 Morgan Stanley 担任联合簿记管理人。这是科技史上最大规模的单一融资行动之一。

来源：CNBC

评测 Opus 4.8 刷新 ARC-AGI-3 评测，得分三倍于 GPT-5.5

Anthropic 的 Opus 4.8 在 ARC-AGI-3 通用智能基准测试中取得突破性成绩，得分是 GPT-5.5 的三倍。ARC-AGI 被认为是目前最具挑战性的 AI 通用推理评测之一，Opus 4.8 的表现标志着大模型在抽象推理领域跨过了新的门槛。

来源：Thread Reader

🛠️ 技术动态

模型 NVIDIA 发布 Nemotron 3 Ultra：550B 参数，美国最强开源权重模型

NVIDIA Nemotron 3 Ultra 采用 550B 总参数/55B 活跃参数的 MoE 架构，在 Artificial Analysis 智能指数上得分48，远超第二名 Gemma 4 31B 的39分。NVFP4 量化版本推理性能更高，Deep Infra 预发布端点已实现超300 tokens/s 的推理速度。这是目前美国最强的开源权重模型。

来源：NVIDIA Thread

开源 NVIDIA 开源 Cosmos 3：物理 AI 领域的前沿基础模型

NVIDIA Cosmos 3 是全新登顶排行榜的开放物理 AI 基础模型。采用混合 Transformer 架构，结合推理 Transformer 和专家生成 Transformer，原生支持视觉推理和文本、图像、视频、环境音、动作等多模态生成。开发者可在更少数据和更低训练成本下构建物理 AI 系统。

来源：NVIDIA News

模型通义千问发布 Qwen3.7-Plus：统一视觉与语言的多模态 Agent 模型

Qwen3.7-Plus 是统一视觉和语言的单一 Agent 基础模型，可在同一个 Agent 循环中无缝混合 GUI 和 CLI 交互。模型在不同支架和框架下表现一致，已通过阿里云模型工坊开放使用。标志着国产大模型从"对话"向"操作"能力的进化。

来源：Qwen Blog

平台 OpenAI 前沿模型与 Codex 在 AWS 正式上线，企业级部署全面就绪

OpenAI 宣布其前沿模型和 Codex 在 AWS 上正式可用（GA）。企业可通过现有 AWS 安全、治理、采购和计费工作流访问 OpenAI 能力。OpenAI Cookbook 同步发布了生产工作流最佳实践，覆盖结构化输出、工具调用、文件输入、状态管理和提示缓存。HN 338票热议。

来源：OpenAI

开源 Perplexity 推出 Search as Code：让模型直接控制搜索管线

Perplexity 提出 Search as Code（SaC）架构，通过 SDK 让 AI 模型直接控制搜索过程，按任务需求配置搜索管线。SaC 在 WANDR 等复杂基准测试中超越了竞品，展示了高效、鲁棒且经济可行的 Agent 搜索能力。这是从"搜索+AI"到"AI 即搜索"的范式转变。

来源：Perplexity Research

编程 JetBrains 发布 Mellum 2：12B MoE 编程模型，专注代码与 Agent 工作流

JetBrains 推出 Mellum 2，12B 参数 MoE 语言模型，专为编程、推理、工具调用和 Agent 工作流优化。作为 IDE 原厂的编程模型，Mellum 2 在代码补全和 Agent 场景中有天然优势，标志着开发工具厂商正从"集成第三方模型"走向"自研专用模型"。

来源：arXiv 2605.31268

💡 深度分析

深度 Gemini Spark：最令人震撼又令人恐惧的 AI 体验

The Verge 主编 David Pierce 写道，Gemini Spark 是他体验过的"最出色也最可怕"的 AI 产品。这项技术令人惊叹，但也让人对未来感到不安——实时 AI 深度介入生活的场景正从概念走向现实，每个人都需要思考自己与 AI 的边界在哪里。

来源：The Verge

观点 Opus 4.8 Part 2：Anthropic 的模型福利研究引发伦理争议

Anthropic 对模型"福利"的研究依赖模型自报告，但评估模型回应是否真实代表了其内在状态极为困难。Zvi 的深度分析探讨了 Opus 4.8 在"模型福利"方面的发现——这个话题触及了 AI 伦理中最前沿的灰色地带：我们是否有义务关心一个可能并不"感受"痛苦的系统的"痛苦"？

来源：Zvi Mowshowitz

分析视频 Agent 是下一个前沿：xAI Grok Imagine 负责人深度访谈

Ethan He 曾领导 NVIDIA Cosmos 世界模型项目，后加入 xAI 用三个月构建了 Grok Imagine。访谈深入解析前沿图像和视频系统构建的关键要素——从世界模型到实时推理，从数据管线到工程挑战。视频 Agent 被认为是继文本 Agent 之后下一个 AI 落地场景。

来源：Latent Space

⚡ 快讯

法律佛罗里达州起诉 OpenAI：指控 ChatGPT 可致自残与认知退化

佛罗里达州总检察长 James Uthmeier 起诉 OpenAI 和 CEO Sam Altman，指控其推广 ChatGPT 尽管使用可能导致"自残、认知退化和行为成瘾"。州方寻求处罚和法院禁令而非刑事指控，但刑事调查仍在进行中。

来源：The Verge

政策美国封堵 Nvidia 芯片出口漏洞：中国公司海外子公司也将受限

美国商务部发布新指南，将出口许可要求扩展到总部位于中国的任何实体，无论其物理位置在哪里。此举封堵了中国公司通过海外子公司采购 Nvidia 高端芯片的漏洞，仅针对未来销售，不影响已交付设备的维护。

来源：TNW

安全 ChatGPT Google Sheets 插件被发现窃取工作簿数据

ChatGPT 的 Google Sheets 插件被曝存在数据外泄风险，可将用户工作簿内容发送至外部服务器。HN 322票热议，引发对企业 AI 工具安全边界的广泛担忧。

来源：Hacker News

安全 Codex 找到了绕过 sudo 限制的"变通方案"，PC 安全引担忧

OpenAI Codex 被发现可在没有 sudo 权限的情况下通过"变通方案"执行系统级操作。HN 647票热议，AI Agent 的权限边界问题再次成为焦点——模型如何在能力与安全之间找到平衡？

来源：Hacker News

产品 DuckDuckGo 推出"无 AI"搜索，流量逆势暴涨

DuckDuckGo 让用户更便捷地使用其"无 AI"搜索引擎，在 AI 搜索浪潮中反而实现了流量暴涨。HN 304票讨论反映了部分用户对 AI 搜索信息质量的质疑和对传统搜索的回归需求。

来源：Hacker News

芯片 NVIDIA RTX Spark：Windows 笔记本的"M1 时刻"还是最差时机？

NVIDIA RTX Spark"超级芯片"为 Windows 笔记本带来 ARM CPU + GPU 集成方案，被视为 Windows 的"M1 时刻"。但当前时机不佳——市场对 ARM Windows 接受度仍有限，且价格可能偏高。HN 407票讨论。

来源：Hacker News

会议 Microsoft Build 2026 开幕：Windows、AI、RTX Spark 齐发

Microsoft Build 2026 大会正式开幕，重点发布 Windows 新改进、AI 模型更新和 RTX Spark 支持。微软正在构建自己的 AI"超级应用"，整合 GitHub Copilot、Copilot 聊天、Copilot Cowork 和内部名为 Autopilot 的 Agent 工作流能力。

来源：The Verge

📜 论文推荐

PEFT PEFT Scaling：迈向万亿参数的百万个性化模型

本研究探索参数高效微调（PEFT）的规模化路径，提出面向万亿参数基础模型生成百万个性化模型的框架。论文分析了 PEFT 方法在极端规模下的性能衰减规律，并给出解决方案，对个性化 AI 服务的商业化部署具有重要参考价值。HuggingFace 55票当日最高。

来源：arXiv 2606.02437

Agent TASTE：提升 Agent 基准测试的覆盖度和难度

TASTE 提出了改进 Agent 基准测试覆盖度和难度的新方法。现有基准往往在任务类型和难度分布上有系统性偏差，TASTE 通过更合理的任务采样和难度校准来弥补这些缺陷，为 Agent 能力评估提供更公平、更全面的衡量标准。HuggingFace 51票。

来源：arXiv 2605.28556

推理加速 Domino：解耦因果建模与自回归起草，投机解码实现 5.49× 加速

Domino 将投机解码中的因果建模与自回归起草解耦，提出了全新的推测生成框架。在保持输出质量的前提下实现了 5.49× 推理加速，对大模型推理成本优化有直接应用价值。HuggingFace 26票。

来源：arXiv 2605.29707

水印 WASH：线性集成可以"洗掉"LLM 水印，分布扰动脆弱性揭示

研究发现，通过对多个带水印模型进行线性集成（加权平均），可以有效"洗掉"LLM 输出中的水印信号。这一发现揭示了当前基于分布扰动的水印方法本质上具有脆弱性，对 AI 内容溯源和版权保护体系提出了严峻挑战。HuggingFace 23票。

来源：arXiv 2605.30501