AI 日报 - 2026年05月02日

💥 重磅新闻

国防五角大楼与 Nvidia、微软、AWS 签机密 AI 合约——独缺 Anthropic

美国国防部宣布与 Nvidia、Microsoft、AWS、OpenAI、Google 达成协议，在机密网络上部署 AI 能力。Anthropic 明显缺席——此前 CEO Dario Amodei 多次公开反对把模型用于大规模监控。一纸合同画出了两种立场：愿意进五角大楼的，和不愿意的。

来源：The Verge · TechCrunch

收购Meta 收购机器人初创，加码人形机器人 AI

Meta 宣布收购一家机器人初创公司，以强化其人形机器人和具身 AI 的布局。扎克伯格已经把 AR/VR 烧光一大半钱，现在要从 Reality Labs 转向"有身体的 AI"——这次押注能不能回血，就看硬件+大模型这条线能不能接上。

来源：TechCrunch

融资Replit CEO 表态：宁愿不卖，也要和 Apple 死磕

Cursor 以 600 亿美元卖给 xAI 之后，所有人都在看 Replit 会不会跟。CEO Amjad Masad 专访中明确：不打算卖。他更在意和 Apple 的对抗——在 AI 编程这个赛道，Replit 要做"独立第三极"，和 Cursor（已并入 xAI）、GitHub Copilot（在微软）形成三足之势。

来源：TechCrunch

🛠️ 技术动态

模型xAI 发布 Grok 4.3：同智能水平下成本最低之一

Grok 4.3 相比 4.20 在 Intelligence Index 上得分更高，基准全套跑下来成本反而更低。在同智能区间里，它是目前跑一轮最便宜的模型之一，指令跟随和 agentic 客服任务表现突出。xAI 在"性价比"这条线上已经打到了 OpenAI 和 Anthropic 的腹地。

来源：TLDR AI · xAI

产品Claude Security 公开测试：让 Opus 4.7 直接修代码漏洞

Anthropic 面向 Claude Enterprise 客户开放 Claude Security 公开测试，基于 Opus 4.7 识别并修复代码漏洞。已与 Microsoft Security、Palo Alto Networks 等集成，无需自己搭 API，直接接入扫描。安全工具链里塞进一个"会改代码"的模型，比之前那堆静态分析器的价值高一个量级。

来源：Anthropic Blog

产品OpenAI 推 ChatGPT 账户高级安全，联手 Yubico 上硬件密钥

OpenAI 宣布为 ChatGPT 账户加推硬件级安全选项，和 Yubico 合作支持 YubiKey。付费账户越来越像"关键基础设施"——OpenAI 在把账户安全的等级从"邮箱+密码"往"金融级"推。

来源：TechCrunch

产品Perplexity 扩企业 AI 工作流：接 Teams、Excel 做自动化

Perplexity 上线 workflows、企业数据连接器，并集成 Microsoft Teams 和 Excel，瞄准结构化业务任务和持续自动化。从"问答搜索"升级到"企业级 AI 助理"——Perplexity 开始正面硬怼 Copilot 和 Gemini for Workspace。

来源：Perplexity Blog

产品Stripe 升级 Link：让 AI agent 可以直接刷卡买东西

Stripe 更新数字钱包 Link，支持自主 AI agent 使用钱包完成结账。Agentic commerce 不是概念了——支付层已经开始给机器发许可证。下一步拼的是谁先建立 agent-友好的商家网络。

来源：TechCrunch

产品Gemini 正式上车：数百万辆汽车将搭载 Google AI 助理

Google 宣布 Gemini 开始大规模推向内置 Google Built-in 的汽车，第一批覆盖数百万辆。语音助理的战场从音箱挪到仪表盘——座舱是下一个"每天 1+ 小时高粘性"的场景。

来源：TechCrunch · The Verge

💡 深度分析

深度Cursor 卖身 xAI：600 亿美金是结局还是新开始？

Cursor 被誉为 AI 时代运营最成功的软件公司。创始人算过到 1000 亿的路径后，决定不再自己扛——以 600 亿卖给 xAI。文章认为这是"各方都赢"的交易：xAI 拿到上市前可展示的应用层，Cursor 拿到算力和一个不和自己抢模型的金主。AI 应用层"上限天花板"正在被重新定价。

来源：Ethan Ding（Thread）

观点LLM 推理成本的隐形变量：KV Cache 本地性

同一批 GPU、同一个模型、同量的流量，吞吐和延迟可能差出几倍——差别就在哪个 GPU 处理了哪个请求。负载均衡器如果不懂 token 本地性，会把本可以命中的 KV 缓存全冲掉。文章从"均衡 ≠ 高效"切入，讨论如何用 token-aware routing 实实在在降本。做推理平台的产品经理和基础架构工程师应该都读一下。

来源：Ranvier Systems

警示前沿模型变快了，但没变更可靠——空间生物学基准说话

Latch Bio 用 SpatialBench 实测：GPT-5.5 跑得比 GPT-5.4 快近一半，但准确率几乎没变。Opus 4.7 和 4.6 同样打平。在专业科学场景里，"推理能力的通用提升"已经撞墙——再往上走必须显式训练统计设计、平台特定分析流程、重复实验敏感测试等专业知识。通用模型吃到天花板，垂直模型开始有机会。

来源：Latch Bio Blog

案例GPT-5.1 为啥满嘴"goblin"？OpenAI 自己溯源

OpenAI 公开分析：GPT-5.1 异常频繁使用 "goblin" 式比喻，根源是人格化微调阶段的奖励信号设置。一个看似无害的风格偏好，在 RLHF 的放大下变成了显性的语言癖。这个案例再次说明：模型行为 ≈ reward shape × 数据，小信号能放得很大。

来源：OpenAI Blog

📜 论文推荐

评测Claw-Eval-Live：面向真实工作流的"活 Agent 基准"

当前 agent benchmark 普遍在发布时冻结任务集，几周就被模型熟背。Claw-Eval-Live 提出一套"持续演化"的评测方法——任务随真实软件、业务服务、本地工作区一起变。这种"会老化"的基准对长期跟踪 agent 的真实能力更靠谱。

来源：arXiv · cs.AI

系统Crab：面向 Agent 沙箱的语义感知 C/R 运行时

自主 agent 跑在沙箱容器和 microVM 里，状态横跨文件系统、进程、运行时。文章提出 Crab——让 checkpoint/restore 对这些异构状态都可以做"语义级"快照和恢复，为 agent 的容错和可复现提供基础设施。Agent infra 这条赛道正在从"会跑"走向"可以救"。

来源：arXiv

仿真Synthetic Computers at Scale：大规模合成办公电脑做长流程仿真

真实长流程的办公任务高度依赖用户的电脑环境——文件夹结构、内容、历史全都是上下文。这篇论文批量生成"合成电脑"用来训练和评测长时程 productivity agent。下一代 agent 训练数据的新形态：不是更多对话，是更多"环境"。

来源：arXiv

多模态GLM-5V-Turbo：把多模态直接接进推理和工具调用

GLM-5V-Turbo 把多模态感知直接融入推理与工具使用链路，代码、视觉任务、agent 工作流在异构输入下表现均有提升。国产多模态这次把"工具使用"和"视觉感知"拧在一起，路线上和 Anthropic Computer Use、OpenAI 视觉 agent 差不多，但开源权重更可控。

来源：arXiv

⚡ 快讯

融资Anthropic 500 亿新融资或两周内敲定，估值冲 9000 亿

TechCrunch 援引消息人士：Anthropic 正推进一轮约 500 亿美元融资，估值可能达 9000 亿甚至更高，营收已逼近 400 亿年化跑率。投资人需求很猛。

来源：TechCrunch

法律Musk 庭审承认：xAI 曾用 OpenAI 模型训练 Grok

Musk vs Altman 庭审中，Musk 亲口确认 xAI 早期曾使用 OpenAI 的模型蒸馏训练 Grok。这段自我蒸馏的历史将给后续 IP 诉讼埋下隐患。

来源：The Verge

产品Microsoft：Copilot 付费用户已破 2000 万，而且真的在用

微软最新季报披露：Copilot 付费用户超 2000 万，且日活/留存数据健康。Office 侧 AI 订阅终于跑出正向闭环。

来源：TechCrunch

融资Legal AI 初创 Legora 估值 56 亿，与 Harvey 战事升温

Legal AI 赛道再添新巨子——Legora 完成新一轮融资估值 56 亿美元，和行业老大 Harvey 正面对抗。律所场景的钱袋子还在继续开。

来源：TechCrunch

硬件AI 把存储芯片推进"超级周期"，三星单季净利破 300 亿美元

AI 拉爆内存芯片需求，三星一季度净利折合 300 亿美元以上，超过其历史单季最高记录，几乎追平过去全年利润高点。供应紧张预计明年还会更紧。

来源：WSJ

战略SoftBank 建"机器人+数据中心"公司，已瞄准 1000 亿 IPO

孙正义再押大注：新公司主攻机器人与数据中心建设，目标 1000 亿美元 IPO。这次是"AI 基建"和"具身 AI"一体化的赌局。

来源：TechCrunch

产品Meta 商业 AI 每周促成 1000 万对话

Meta 披露：旗下面向商家的 AI 助手每周促成约 1000 万次商家-消费者对话。WhatsApp/Messenger 上的商务 AI 正在变成真实流量入口。

来源：TechCrunch