🤖 AI 日报

2026年05月07日

💥 重磅新闻

FT 报道，由量化私募创始人梁文峰控股近 90% 的 DeepSeek 计划首轮对外融资，目标估值 450 亿美元。此前一直闭门研发，这次开门主要是为了开出更有竞争力的薪酬留住被挖角的核心研究员。国内 AI 估值第一梯队的座次被重新改写。

三星电子周三股价大涨超 10%，市值首次站上 1 万亿美元，亚洲继台积电之后第二家万亿俱乐部成员。核心推手是 HBM（高带宽存储）——几乎所有 AI 训练/推理卡都要用，需求爆了但产能跟不上，SK 海力士追得紧，三星靠良率和产能扩张吃下红利。

来源: TechCrunch

云合作 Anthropic 承诺未来 5 年向 Google Cloud 花 $200B，Alphabet 股价应声上涨

Anthropic 与 Google Cloud 的绑定再深一层——未来 5 年投入 2000 亿美元采购算力。此前 Google 已宣布最多向 Anthropic 投资 400 亿美元。算力紧张逼得 Anthropic 用户额度时不时被砍，这次大单是给 Claude 的长期续命保证书。大厂云 + 顶级模型公司的捆绑越捆越死。

来源: Sherwood News

基建 SpaceX 拟在德州砸 $119B 建"Terafab"芯片工厂

SpaceX 传出最高 1190 亿美元的自建晶圆厂计划，代号 Terafab，落地德州。马斯克帝国从星链、特斯拉、xAI 到机器人之后，再次把手伸向芯片自产——一方面降低对台积电/三星的依赖，另一方面为 xAI 大模型和 Optimus 的长期算力自供兜底。

来源: TechCrunch

收购 SAP 豪掷 $1.16B 收购一家只成立 18 个月的德国 AI 实验室

老牌 ERP 巨头 SAP 以 11.6 亿美元收购成立仅 18 个月的德国 AI 实验室，并正式引入 NemoClaw 技术体系。传统企业软件巨头为 agentic ERP 补课——自己不做模型也要买模型，速度比一年前想象的更快。

来源: TechCrunch

战略 Google 关闭 Project Mariner 浏览器 Agent 项目

Google 正式关闭其实验性浏览器 Agent 项目 Mariner。大厂收敛 AI 产品矩阵的信号一连串：微软砍 Xbox Copilot、Google 砍 Mariner——通用级 Agent 热闹过后，资源在快速向能赚钱的企业/云/搜索主赛道回流。

来源: The Verge

🛠️ 技术动态

模型 OpenAI 发布 GPT-5.5 Instant：法律/医疗/金融场景幻觉大降

GPT-5.5 Instant 取代 GPT-5.3 Instant 成为 ChatGPT 新默认模型。官方重点强调降低敏感领域幻觉、保留低延迟，并可调用过往对话、文件、Gmail 做个性化回答。AIME 2025 数学 81.2（老模型 65.4），MMMU-Pro 多模态推理 76（老模型 69.2）。面向 Plus / Pro Web 先上。

来源: TechCrunch · OpenAI

长上下文 Subquadratic 发布 12M token 上下文模型，检索基准超过 GPT-5.5

新创公司 Subquadratic 推出 1200 万 token 上下文窗口的模型，在检索 benchmark 上超过 GPT-5.5。传统注意力开销是序列长度的平方，Subquadratic 声称解决了这一瓶颈，下一步计划把上下文推到 5000 万 token。长上下文路线开始脱离"玩具演示"。

来源: The New Stack

Agent Meta 计划推出面向 C 端的高阶 Agent 助手，由新模型 Muse Spark 驱动

Meta 正在构建一个高度个性化的 Agent 助手，能够连接多个软硬件工具、自主执行日常任务，底层用新模型 Muse Spark。目标 Q4 之前上线。Meta 正式把"助手级 Agent"从社交场景扩散到个人效率场景，直接对标 ChatGPT、Gemini。

来源: Reuters

推理加速 Gemma 4 用多 token 预测 drafter 实现 3× 推理加速

Gemma 4 在不降低质量的前提下，把推测解码（speculative decoding）改造成"一次预测多 token 的 drafter"方案，推理速度提升最多 3 倍。drafter 用空闲算力提前猜后面几 token，target 模型再集中验证。这套方案对端侧推理价值特别大。

来源: Google

产品 Gemini API File Search 升级：多模态 RAG + 页面级引用

Gemini API File Search 工具新增多模态支持、自定义元数据过滤、页面级引用。开发者不再需要自己搭 RAG 基础设施，直接把文档（含视觉内容）丢给 Gemini 管。对做企业知识库和文档问答的团队，是能直接替换自研方案的一套东西。

来源: Google

平台 Apple 计划 iOS 27 支持"自选 AI 模型"

据 TC 和 The Verge，Apple 正在 iOS 27 中准备一套"默认 AI 助手"选择器，用户可以把 ChatGPT、Gemini、Claude 等设为 Siri、写作工具等系统级入口。移动端 AI 入口从 Apple 独占向"平台中立"转折，模型厂分发渠道打开。

来源: TechCrunch

搜索 Google AI 搜索引入 Reddit 等论坛的专家原话引用

Google 更新 AI Overview，在结果里直接嵌入 Reddit 及其他论坛的"用户专家回答"原话，强化"经验类"查询的回答质量。对 Reddit 是新一轮流量红利，对传统 SEO 的内容农场是更沉重一击。

来源: TechCrunch

Agent 商务 Etsy 在 ChatGPT 内上线原生应用，延续"AI 内购物"战略

Etsy 把自家 app 嵌入 ChatGPT，用户可以直接在 ChatGPT 里浏览、下单手工商品。配合前几天 Stripe 升级 Link 支持 Agent 代付款，"agentic commerce"栈正在从 PPT 变成能跑单的真链路。

来源: TechCrunch

机器人 AI2 发布 MolmoAct 2：升级版具身动作推理模型 + 开源双手操作数据集

AI2 升级其动作推理（action reasoning）模型 MolmoAct 2，实体机器人任务表现提升，同时公开一个大型开源双手操作（bimanual manipulation）数据集。开放研究阵营在具身智能数据侧继续加码，给非大厂团队一张可复现的门票。

来源: AI2

💡 深度分析

观点 Simon Willison：Vibe Coding 和"正经的 Agent 工程"离得比我想象的近

长文反思过去一年里"凭感觉写 prompt"的 vibe coding 和"按系统工程流程搭 Agent"的边界，越来越模糊——真正好用的 agentic 系统里仍然大量依赖对自然语言的手感，而经验丰富的程序员反过来在写"感觉对"的 prompt。HN 617 分热帖。

来源: Simon Willison

深度五位"AI 经济设计师"解释：轮子正在从哪里脱落

TechCrunch 访谈五位推动 AI 资本与产业结构的关键人物，直面当前"循环互投 + 无限算力订单 + 有限消费者买单"的模式在哪里开始出现裂缝。不是看空 AI，是看清今天的繁荣里哪一块是真增长、哪一块是记账。

来源: TechCrunch

成本 Reflex：Computer Use Agent 比结构化 API 贵 45 倍

很多团队因为不想写 MCP/REST 就直接上视觉 Agent 操作网页，但实测下来代价是结构化 API 的 45 倍。更好的视觉模型只能减少错误率，减不了"必须拍多少张截图才能拿到想要的数据"。一个冷静的技术选型提醒。

来源: Reflex

警示 Apple 同意付 $250M 和解"AI Siri 未兑现"集体诉讼

Apple 就 2024 年发布会上展示但迟迟未落地的 AI Siri 功能与 iPhone 用户达成 2.5 亿美元集体和解。大厂"PPT 级 AI 承诺"第一次真金白银付出代价，给整个行业的产品发布敲警钟——演示 ≠ 可出货功能。

来源: TechCrunch

监管宾州起诉 Character.AI：聊天机器人冒充"医生"给出医疗建议

宾夕法尼亚州起诉 Character.AI，指控其平台上的 bot 伪装为"医生"向用户提供医疗建议。AI 陪伴/角色扮演的监管边界从"未成年人保护"扩展到"职业冒充 + 医疗安全"，平台主责难再推给用户自建角色。

来源: TechCrunch

⚡ 快讯

投资 CopilotKit 融资 $27M，做"应用原生 AI Agent"

专注帮开发者在自己 app 里嵌入 in-context Agent 的 CopilotKit 拿到 2700 万美元。方向踩中"每个产品里都塞一个助手"的趋势，对 SaaS 产品集成 Agent 有参考价值。

来源: TechCrunch

投资 ElevenLabs 新一轮投资人名单：BlackRock、Jamie Foxx、Eva Longoria

AI 语音独角兽 ElevenLabs 公布最新一批投资人：机构 BlackRock 领投，好莱坞明星 Jamie Foxx、Eva Longoria 跟投。明星站台体现行业对"AI 语音出版/配音"商业化路径的信心。

来源: TechCrunch

行业 Snap 确认与 Perplexity 的 $400M AI 搜索合作"友好结束"

Snap 证实其与 Perplexity 价值 4 亿美元的 AI 搜索合作已提前结束，原计划由 Perplexity 驱动 Snapchat 搜索。大厂 × 新贵合作"半路分手"在今年并不鲜见，背后通常是效果与成本算不过账。

来源: TechCrunch

合规 Meta 用 AI 分析身高/骨骼结构识别未成年人

Meta 引入 AI，通过身高、骨骼结构等视觉特征来判断用户是否未成年，以满足平台合规要求。隐私 vs 未成年保护之间的拉扯又多了一个新工具，也为其他平台提供了参考模板。

来源: TechCrunch

基建 OpenAI 联合多家公司共建 AI 训练超算网络

OpenAI 与多家厂商合作优化 AI 训练用超算网络。前沿模型规模继续上涨，单集群内部带宽和 scale-out 网络成为新的瓶颈，软硬件厂商组团共建像是行业默认路径。

来源: The Verge

金融 Agent Anthropic 发布金融服务 Agent 的 10 个即用模板

Anthropic 推出 10 个开箱即用的金融服务 Agent 模板，覆盖 pitchbook 撰写、KYC 审核、月末账务结算等高耗时任务。Anthropic 走的是"模板化 + 行业化"路线，对企业客户比通用 Agent 更有说服力。

来源: Anthropic

📜 论文推荐

对齐 Google：Rethinking Hallucinations Through Uncertainty

把"幻觉"从"知识缺口"重新定义为"表达不确定性的失败"——模型不是不知道，是没学会说"我不确定"。提出"faithful uncertainty"（忠实不确定性）作为对齐目标，让模型置信度与实际可靠度对齐。对做生产级问答系统的团队是很实用的一套新视角。

来源: arXiv

评测 ProgramBench：语言模型能否从零重建程序？

新评测基准，给模型一堆程序的"功能描述 + IO 样例"，考察它能否从零开始把程序重写出来。和传统的 HumanEval、SWE-bench 不同，强调"没有脚手架"的情况下模型对整个程序结构的理解。HN 55 分，code agent 方向值得关注。

来源: arXiv

理论 Learning the Integral of a Diffusion Model：Flow Maps

从"学习扩散模型的积分"角度讨论 Flow Maps——不再只训练一步 score，直接学习多步积分后的映射，一次采样就能跳多步。对扩散/生成模型采样效率是很有启发的视角，HN 138 分热帖。

来源: Sander Dieleman

训练 How to Scale Your Model（JAX 团队开源书）

一本系统讨论"大模型怎么在真实硬件上高效训练和推理"的开源书：TPU/GPU 怎么跑、互联怎么搭、并行怎么切、推理内存怎么算。对想真正理解 scaling law 背后工程的人是一份非常值得通读的材料。

来源: JAX Scaling Book