🤖 AI 日报

2026年05月08日

💥 重磅新闻

WSJ 披露，DeepSeek 正在与中国国家人工智能产业投资基金洽谈融资，这笔钱一旦落地，DeepSeek 估值将直接抵到 500 亿美元——比昨天 FT 报出的 450 亿又抬了一档。该基金资金规模约 88 亿美元、成立仅一年，这是国家队首次大手笔下注开源大模型玩家。DeepSeek 本轮主要目标是储备算力、留住研究员。

来源: WSJ

基建 Anthropic 和 SpaceX 签超大单：一口气拿 22 万张 NVIDIA GPU

Anthropic 宣布与 SpaceX 达成新的算力合作，接入超过 220,000 张 NVIDIA GPU，并同步上调 Claude 用户使用额度。此前 Anthropic 已与 Amazon、Google、Broadcom、Microsoft、NVIDIA 签过类似算力协议，这次把 SpaceX 也拉进来，继续巩固"多云 + 多芯片"的算力底盘。Claude 额度被砍的抱怨有望缓解。

来源: Anthropic

融资 Kimi 母公司 Moonshot AI 拿下 $20 亿，估值冲至 $200 亿

月之暗面最新一轮由美团领投、融资 20 亿美元，投后估值 200 亿美元——几个月前估值还在 50 亿左右，直接翻了 4 倍。背后是开源大模型需求暴涨，Kimi 系列在开发者社区和企业侧的渗透速度超出预期。加上今天 DeepSeek 的 500 亿、智谱的新一轮，国内大模型估值梯队正在被全面重排。

来源: TechCrunch

诉讼 Musk vs Altman 审判白热化：OpenAI 安全记录被摆上显微镜

Musk 诉 OpenAI 案进入庭审高潮期——Mira Murati 出庭还原了当年 Altman 被解雇那几天的决策过程，Helen Toner 讲述她"从 Twitter 截图上才知道 ChatGPT 即将发布"，董事会当时还一度讨论过"让 OpenAI 并入 Anthropic"。这场官司被外界当作 AI 行业第一场"公开审判"，OpenAI 过去几年的安全与治理漏洞全部被翻出。

来源: TechCrunch · The Verge

安全 ChatGPT 上线"Trusted Contact"：疑似自伤场景可自动通知亲友

OpenAI 为 ChatGPT 引入新的"可信联系人"机制：当模型检测到用户出现自伤或心理危机信号时，可向用户预先设定的亲友联系人发送提醒。一方面回应过去一年几宗 AI 自杀诉讼带来的舆论压力，另一方面也把"心理健康兜底责任"的一部分从平台转移给了用户本人。业界争议不小。

来源: TechCrunch · The Verge

裁员 Cloudflare 裁员 1100 人，同时宣布 AI 流量涨 600%

Cloudflare 在宣布 AI 相关流量同比增长 600% 的同一天，裁掉约 1100 名员工——官方说法是"组织重排以聚焦 AI 基础设施"。这是近一个月 AI 基建行业最直接的"机器换人"案例：业务增速越快，对传统运营/支持岗位的需求反而被挤压得更快。

来源: The Verge

🛠️ 技术动态

产品 Claude Managed Agents 升级：自我改进 + 多 Agent 编排上线

Anthropic 给 Claude Managed Agents 加了三件套：Dreaming（分析历史会话、自我归纳行为模式）、Outcomes（让 Agent 按结果反向优化步骤）、Multi-agent Orchestration（多 Agent 分工协作）。这是"自我改进 Agent"这个概念第一次被主流大厂做成可商用的产品特性，对企业场景里长期运行的 Agent 很关键。

来源: Anthropic

API OpenAI API 上线新语音智能：实时情绪/语气识别 + 语音 Agent

OpenAI 在 API 层放出一组新的语音智能能力：实时识别说话人情绪、语气、语速，并支持以更自然的方式构建语音 Agent 场景。对呼叫中心、陪伴类应用、实时会议转录这类场景是直接红利——以前要自己拼 STT + 情感分析 + TTS，现在可以一个 API 搞定。

来源: TechCrunch

产品 Perplexity "Personal Computer" 在 Mac 全量开放

Perplexity 推出的 "Personal Computer" 产品结束小范围内测，面向所有 Mac 用户开放——它在本地接管浏览器、文件、日历、邮件等入口，让 Perplexity Assistant 能直接"看"到你电脑上的上下文并执行任务。把 Arc 们没做完的 AI 原生桌面体验继续往前推了一步。

来源: TechCrunch

硬件 SpaceX "Terafab" 方案落地德州：最多砸 $550 亿建 AI 芯片厂

继昨天传闻后，SpaceX 更多细节浮出水面：Terafab 计划总投入最高 550 亿美元，落址德州，定位是专供 xAI、Starlink、Tesla 及 Optimus 所需的 AI 芯片。马斯克的"自家生态自家芯片自家电力"闭环越拼越完整，短期内对台积电订单影响有限，但 3-5 年会是一个实打实的新客户/新对手。

来源: The Verge

开源 DeepSeek 4 Flash：面向 Apple Metal 的本地推理引擎开源

社区版本 "DeepSeek 4 Flash local inference engine for Metal" 登上 HN 热榜（399 pts）——一套面向 Apple GPU（Metal 后端）的 DeepSeek 模型本地推理实现，强调低显存占用和高吞吐。对 Mac 用户的本地 AI 开发是实用工具，也是 DeepSeek 生态继续向西方开发者扩散的标志之一。

来源: Hacker News

安全 Firefox 用 Anthropic Mythos 重写了自家安全栈

Mozilla 披露，Firefox 已经借助 Anthropic 的 Mythos（Claude 驱动的代码安全 Agent）重写了一部分浏览器内核安全策略——让 Claude 参与漏洞扫描、补丁生成、攻防模拟。这是开源浏览器第一次大规模用 AI Agent 做核心安全加固的案例，具有示范性。

来源: TechCrunch

产品 Spotify 押注 AI 个性化音频：AI DJ 新增四语种

Spotify 正在把自己定位成"AI 个性化音频的主场"：AI DJ 新增法语、德语、意大利语、巴葡语支持，同时开放更多 AI 生成内容的分发入口。音频平台在 Suno 压力下开始主动拥抱 AI 生成，把合规许可和个性化打包成差异化。

来源: TechCrunch · TechCrunch

💡 深度分析

观点 OpenAI Codex 反超 Claude Code：GPT-5.5 集成后的编程 Agent 洗牌

Every 的作者 Austin Tedesco 基于多周实战测评指出：OpenAI Codex 在集成 GPT-5.5、重构 App 性能后，整体已经超过 Anthropic 的 Claude Code——尤其在从零散会议/PRD/文档合成"战略文档"这类需要理解项目整体语境的场景上。两家编程 Agent 的此消彼长每几个月一次，这轮轮到 Codex。

来源: Every

趋势 Google 的 PE 打法：不做咨询公司，做 AI 的"批量授权"

Google 正在和 Blackstone、KKR、EQT 等私募巨头谈一件事：不是给他们的被投企业做 AI 咨询，而是让这些公司的几百家 portfolio 通过一个 Omnibus 许可合同统一接入 Gemini。相当于用"打包授权"绕开 SI/咨询公司的层层加价。文章认为这是更聪明的打法——AI 是平台问题、不是服务问题。

来源: The Next Web

警示 "AI slop is killing online communities"——AI 垃圾内容正在摧毁在线社区

HN 本周最火帖（678 pts），主题：AI 生成的低质量内容（"AI slop"）正在把 Reddit、StackOverflow、论坛等在线社区的信噪比拖到不可用的程度。讨论里多位资深版主承认，已经开始放弃识别 AI 内容、改为"限制新用户"。社区治理正从"查 AI"转向"守老用户"。

来源: Hacker News

深度 World Models 会改变一切——从"模式识别"到"理解物理世界"的关键跃迁

作者论证 World Models（世界模型）是下一轮 AI 能力曲线的真正推动力：让模型从模式识别跳到"对物理世界有因果模型的理解和预测"。挑战也直给——数据摩擦大、不同领域的世界模型难统一，但 AI 巨头已经把它列入 2026-2027 优先级。

来源: Weighty Thoughts

案例 Harvey 发布 LAB：首个开源的法律 Agent 评测基准

法律 AI 独角兽 Harvey 开源了 Legal Agent Benchmark（LAB），覆盖合同审查、案例检索、合规问答等真实律所工作流——不是拿通用能力去套法律题，而是让 Agent 在有工具、有流程、有反馈的完整环境里跑任务。垂类 Agent 的评测终于有人带头往工程化方向做。

来源: Harvey

📜 论文推荐

MoE UniPool：MoE 全局共享专家池，打破"每层独占专家"的老套路

现代 MoE 架构通常是"每个 Transformer 层独占一组专家"，这让深度扩展与专家参数强绑定。UniPool 提出一个跨层共享的全局专家池，让不同层可复用同一批专家，从而把深度和专家规模解耦——在参数量相当的前提下可获得更好的效率/效果平衡。对追求成本优化的大模型团队是值得借鉴的结构设计。

来源: arXiv 2605.06665

对齐无基准时的 LLM 安全评分：对比式评测的新范式

当还没有标注好的 benchmark（例如新语言、新行业、新监管区）时该怎么比较候选模型的安全性？这篇论文把这个问题形式化为 "benchmarkless comparative safety scoring"，提出用成对比较 + 统计检验的方式在没有 ground truth 的情况下做可靠排序。对出海、监管合规场景直接有用。

来源: arXiv 2605.06652

评测 Verifier-Backed Hard Problem Generation：让 LLM 自己造难题

LLM 做数学难题越来越强，但生成有效、新颖且真难的题反而很菜。本文引入一个"验证器后置"的机制——先让 LLM 生成题，再用形式化/答案验证器过滤掉无效题，显著提升生成题的可用比例。对数学推理数据集的自动化扩充是实用技术。

来源: arXiv 2605.06660

优化器用预训练时同一个 Optimizer 做 Finetune 更不容易遗忘

一个朴实但重要的观察：全量微调时，如果保持用和预训练完全相同的优化器（含超参），模型在下游任务上效果更好、对原有能力的遗忘也更少。论文给出了一系列实证 + 机理解释。对所有需要做 SFT / 全量微调的团队都是可直接落地的小贴士。

来源: arXiv 2605.06654

⚡ 快讯

并购 Snap 与 Perplexity 的 $4 亿合作"和平结束"

Snap 正式宣布和 Perplexity 此前价值 4 亿美元的合作"友好终止"——官方口径是"各自战略调整"。Perplexity 近期明显往桌面 / 独立入口倾斜，和社交 App 里的 AI 回答能力重合度下降。

来源: TechCrunch

产品 Google 在 Antigravity IDE 内测屏幕共享 + 自定义 Agent

Google 的 AI IDE Antigravity 开始测试屏幕共享和用户自定义 Agent，意图是在 IDE 内形成"看着你在写什么、按你定义的方式帮你写"的工作流。

来源: Testing Catalog

商业 "今年 4 月几乎每家 AI 订阅计划都崩了"

2026 年 4 月，多家头部 AI 产品（ChatGPT Plus、Claude Pro、Cursor 等）先后临时降额、限速——订阅制商业模式在用量指数上升面前越来越难做价格锚定，文章预测下一代定价将全面走向"按任务计费 + 算力券"。

来源: The Financial Engineer

基建 NVIDIA Spectrum-X 引入 MRC：一条 RDMA 连接跑多条路径

NVIDIA 给面向 AI 的以太网结构 Spectrum-X 加入 Multipath Reliable Connection (MRC)，让单条 RDMA 连接也能跨多路径分流，提升吞吐和负载均衡——大型训练集群网络优化迎来新一代方案。

来源: NVIDIA · OpenAI

电力 43% 美国人把电费上涨归咎于 AI 数据中心

The Verge 援引民调：43% 的美国受访者认为 AI 数据中心是家庭电费上涨的主要原因之一。数据中心选址政治化的趋势在 2026 年美国选举周期被进一步放大。

来源: The Verge