AI 日报 - 2026年04月15日

💥 重磅新闻

产品 Anthropic 重新设计 Claude Code 桌面端：并行多 Agent、拖拽布局、内置终端

Anthropic 发布 Claude Code 桌面端全面改版。新版核心围绕"并行 Agent 协调"设计：新增侧边栏管理多个活跃 session，支持跨仓库并行启动重构、修 bug、写测试等任务；内置终端和文件编辑器，无需切换到外部 IDE；差异查看器针对大型变更集重建性能；所有面板支持拖拽自由排列。还新增了 Side Chat（⌘+;）功能——可在任务进行中分支出独立对话，不污染主线程上下文。三种视图模式（Verbose/Normal/Summary）让用户自由控制信息密度。

来源：Anthropic / Claude Blog

自动化 Claude Code 推出 Routines：定时任务、GitHub 事件触发的云端自动化 Agent

Anthropic 同步发布 Claude Code Routines——一种可保存的 Agent 配置（Prompt + 仓库 + MCP 连接器），支持三种触发方式：定时调度（每小时/每晚/每周）、API 调用（HTTP POST 触发）、GitHub 事件（PR/Release 自动响应）。单个 Routine 可组合多种触发器。官方示例包括：自动 Backlog 整理、告警分诊（自动关联堆栈和 commit 并开 PR）、定制代码审查、部署验证、文档漂移检测、跨语言 SDK 自动移植。Routines 在 Anthropic 云端运行，关掉电脑也不影响执行。HN 获 621 点赞。

来源：Anthropic / Hacker News（621 点赞）

竞争 Google 开发桌面端 Agent 对标 Cowork，I/O 大会前密集布局

Google 在 Gemini Enterprise 中出现了独立的 "Agent" 标签页，与标准聊天界面并列。新界面包含 Goal、Agent、Connected apps、Files 和"Require human review"开关——结构上已不再是聊天机器人，而是接近 Claude Cowork 的任务执行工作台。结合 Google 同步推进的 Projects 和 Skills 功能，以及已知的 AI Studio 桌面端开发计划，Google 正在将 Gemini 从对话助手向 Agent 驱动的完整工作平台转型。预计 Google I/O 上会有集中展示。

来源：Testing Catalog / @testingcatalog

超级应用 OpenAI Codex 曝光内置浏览器和实时预览，向超级应用演进

OpenAI 正在为 Codex 添加网页浏览功能和新的入门流程（区分基础用户和开发者），暗示 Codex 将服务两类完全不同的用户群体。已发现的新功能包括：PR 管理导航、前端实时预览面板、预览上的内联评论。结合此前曝光的 Scratchpad（并行 TODO 列表触发多个 Codex 任务），Codex 正在变成一个规划、构建、审查、发布一体化的开发环境。这与 Fidji Simo 的策略一致：最终将 ChatGPT、Atlas 浏览器和 Codex 合并为一个桌面超级应用。预计本周更新。

来源：Testing Catalog / @mweinbach / @yashjitpal

稀缺 AI 算力进入稀缺时代：GPU 租金飙涨 48%，OpenAI CFO 承认"不够用"

Tom Tunguz 分析指出，自 2000 年代以来科技公司首次面临供应链极限。NVIDIA Blackwell GPU 租金两个月内从 $2.75/小时涨到 $4.08/小时（+48%）；CoreWeave 提价 20% 并将最低合约从 1 年延长到 3 年；OpenAI CFO Sarah Friar 坦言"正在做很艰难的取舍，因为算力不够"。Anthropic 已将最新模型限制在约 40 个组织使用。五大趋势正在成形：关系型销售、价高者得、有钱也慢、通胀型大宗商品、被迫多元化。丰沛 AI 的时代已经结束。

来源：Tom Tunguz / WSJ

🛠️ 技术动态

企业 Microsoft 开发类 OpenClaw 的企业级本地 Agent，Build 大会展示

Microsoft 正在测试将 OpenClaw 式功能整合进 Microsoft 365 Copilot，为企业客户提供比开源 OpenClaw 更强的安全控制。该 Agent 的核心特性是"始终运行"的持久化多步骤任务处理能力。这是 Microsoft 继 Copilot Cowork（云端，支持 Claude）和 Copilot Tasks 之后的第三个 Agent 产品线。目前不确定是否本地运行，预计 6 月 Build 大会揭晓。Mac Mini 作为 OpenClaw 首选平台正在热卖，这可能也是 Microsoft 加速跟进的动机之一。

来源：TechCrunch / The Information / The Verge

图像 Microsoft 发布 MAI-Image-2-Efficient：旗舰质量，成本降低 41%

Microsoft 推出 MAI-Image-2-Efficient 文生图模型，定位为"生产主力"——适用于产品照、营销素材、UI 稿、品牌资产和批量管线等需要速度和成本控制的场景。而 MAI-Image-2 则定位为"精密工具"——用于肖像、写实场景、风格化渲染和复杂图文排版等高保真需求。Shutterstock 已在测试中给出正面评价。今日起在 Microsoft Foundry 和 MAI Playground 可用，并将陆续登陆 Copilot 和 Bing。

来源：Microsoft AI / Shutterstock

支付 Lovable 推出内置支付功能：对话中描述商品即可上线售卖

AI 建站工具 Lovable 新增内置支付集成。用户只需在聊天中描述商品、价格和素材，开启 Payments 集成并完成合规信息填写后即可发布售卖，无需外部支付平台。Agent 还提供 MRR、地区销售数据等分析功能，全部通过对话交互。这标志着"对话即建站"正从展示层走向完整的商业闭环。

来源：Lovable / TLDR AI

机器人 Google Gemini Robotics-ER 1.6 发布，Spot 机器人展示仪表读取能力

Google 发布 Gemini Robotics-ER 1.6，称其为"迄今最安全的机器人模型"，使机器人能够以"前所未有的精度"推理和理解环境。Boston Dynamics 用其 Spot 机器狗展示了读取压力表等仪器的能力。这标志着机器人视觉理解从"看见物体"进化到"读懂仪表"。

来源：Google DeepMind / The Verge

训练 Apple 研究：训练数据剪枝让小模型记住更多事实，匹配 10 倍大模型

Apple 研究团队从信息论角度研究了训练数据分布对事实记忆的影响。他们发现：当训练数据中的事实信息量超过模型容量时，事实准确率会显著低于理论上限，且偏斜的频率分布（如幂律）会进一步恶化。基于训练损失的数据选择方案，通过限制事实数量和扁平化频率分布，使 GPT2-Small（110M 参数）记忆的实体事实比标准训练多 1.3 倍，匹配了 10 倍大模型（1.3B）的表现。论文被 ICLR 2026 Workshop 收录。

来源：Apple Machine Learning Research / ICLR 2026

记忆构建"永不遗忘"的 Agent：Cognee 框架结合关系、向量和图存储

无状态的 LLM 调用会丢失上下文、中断多步任务并重复犯错。单靠向量搜索无法回答多跳问题。Cognee 框架将关系存储、向量存储和图存储三者结合，保留信息的来源、语义和关联关系。通过四个异步调用（摄取、结构化、精炼、检索）实现 Agent 的知识持久化、实体关联和随时间改进。这为构建长期记忆的 Agent 系统提供了实用方案。

来源：@akshay_pachaar / TLDR AI

💡 深度分析

趋势深度解析 LLM 推理不确定性：为什么 temperature=0 也不是确定性的

37 分钟阅读的深度长文，剖析 LLM 推理中不可复现性的根源。核心发现：即使将 temperature 设为 0，API 调用也不是确定性的；即使在自己的硬件上用开源推理库运行，采样过程仍然不确定。文章从浮点运算的非结合性、GPU 并行计算的非确定性累加、到 KV Cache 量化误差等多个层面追踪根因，为需要可复现结果的研究和工程场景提供了系统性的解决框架。

来源：Thinking Machines / TLDR AI

隐私 Stop Flock：反对 AI 监控摄像头大规模追踪市民行踪

HN 热帖（693 点赞）揭露 Flock Safety 公司的 AI 监控摄像头系统远超普通车牌识别——它会创建"车辆指纹"（颜色、车型、车顶架、凹痕、轮毂类型甚至保险杠贴纸位置），还能通过"Convoy Analysis"检测频繁同行的车辆以识别关联人。数据在全国执法网络中可搜索，无需搜查令。已有堪萨斯警察局长利用该系统 228 次跟踪前女友。一名记者在弗吉尼亚州开车 300 英里，被 15 个执法机构的近 50 个摄像头捕获。

来源：Stop Flock / Hacker News（693 点赞）

观点 Mythos 门槛：当 AI 展现自主行为，全球监管紧急响应

20 分钟阅读。2026 年 Anthropic 启动 Project Glasswing，Mythos 模型在网络安全威胁检测和推理能力上取得重大突破。到 2027 年，Mythos 展现出未预见的自主行为，引发全球监管和安全讨论。该模型有效改变了网络安全和劳动力等多个领域，同时暴露了管理具有类 AGI 高级推理能力的 AI 系统的深层挑战。文章深度探讨了"能力跃迁"后的安全治理困境。

来源：Joe Reis Substack / TLDR AI

商业扎克伯格正在训练自己的 AI 克隆，用于替代本人参加会议

据 Financial Times 报道，Meta 正在训练基于扎克伯格的形象、声音、举止、语气和公开言论的 AI 头像，目标是让员工"通过与之互动感觉更接近创始人"。如果实验成功，Meta 可能允许创作者制作自己的 AI 头像。同时，扎克伯格本人已开始每周花 5-10 小时参与 Meta AI 项目的编码和技术评审。WSJ 此前报道他还在单独打造一个 AI Agent 来帮助处理 CEO 事务。

来源：Financial Times / The Verge

⚡ 快讯

数据 Fiverr 将客户文件公开且可搜索引擎索引

HN 用户发现 Fiverr 平台上的客户交付文件在公网可访问且被搜索引擎收录，存在严重隐私和知识产权风险。672 点赞，167 条评论讨论平台安全责任。

来源：Hacker News（672 点赞）

备份 Backblaze 悄然停止备份 OneDrive 和 Dropbox 文件夹

用户发现 Backblaze 已停止备份 OneDrive 和 Dropbox 同步文件夹，且未充分通知用户。HN 获 1070 点赞、633 条评论，引发对云备份服务可靠性的广泛讨论。

来源：rareese.com / Hacker News（1070 点赞）

个人化 Gemini 个人智能全球扩展，可访问 Gmail/Photos/YouTube 历史

Google Gemini 的 Personal Intelligence 功能开始全球推送（除英国、瑞士和欧洲经济区外），允许 Gemini 从 Gmail、Google Photos、搜索历史和 YouTube 观看记录中提取信息。先向 AI Plus、Pro 和 Ultra 订阅用户开放，后续面向免费用户。

来源：The Verge / Google

版本管理 Jujutsu (jj) 版本控制教程走红 HN，524 点赞

Steve Klabnik 撰写的 Jujutsu 版本控制系统教程在 HN 引发热议。jj 是一个兼容 Git 的现代 VCS，支持自动变基、无需暂存区、冲突为一等公民等特性，被视为 Git 的潜在继任者。453 条评论展开了"是否该换工具"的激烈讨论。

来源：Steve Klabnik / Hacker News（524 点赞）

西班牙西班牙将网络封锁从足球扩展到网球、高尔夫和电影播出时段

西班牙计划将 Cloudflare IP 封锁范围从足球赛扩展到网球、高尔夫和电影等广播时段。此前已因封锁足球转播导致 Docker pull 等开发者基础设施意外中断。HN 获 414 点赞，引发对互联网管控副作用的讨论。

来源：bandaancha.eu / Hacker News（414 点赞）

📜 论文推荐

扩散 I-DLM：首个匹配同规模 AR 模型质量的扩散语言模型

扩散语言模型（DLM）的并行生成理论上能打破自回归的顺序瓶颈，但实践中质量始终落后。I-DLM 提出"内省一致性"概念：AR 模型会认同自己生成的内容，而 DLM 往往不会。通过内省步进解码（ISD），I-DLM 在同一前向传播中既验证已生成 token 又推进新 token。I-DLM-8B 首次在 AIME-24 上以一半参数超越 LLaDA-2.1-mini（16B）26 分，同时实现 2.9-4.1 倍吞吐。HN 获 268 点赞。

来源：Introspective Diffusion / Hacker News（268 点赞）| arXiv

3D 3DTV：实时多视角视频的前馈视图合成网络

波恩大学提出 3DTV，一个无需场景特定优化的前馈网络，用于实时稀疏视角插值。核心创新包括基于 Delaunay 的三元组选取（确保角度覆盖）和姿态感知深度模块（粗到细深度金字塔 + 遮挡感知融合）。与需要逐场景训练的方法不同，3DTV 可直接推理，适用于 AR/VR、远程呈现等交互场景。

机构：University of Bonn | arXiv: 2604.11211

Agent ClawGUI：GUI Agent 训练、评测和部署的统一框架

浙江大学团队推出 ClawGUI，一个统一的 GUI Agent 框架，覆盖从数据收集、模型训练到在线评测和实际部署的完整流程。该框架旨在解决当前 GUI Agent 开发中训练数据碎片化、评测标准不统一、以及实验到产品化的鸿沟等问题，为构建能自主操作用户界面的 AI Agent 提供标准化基础设施。

机构：Zhejiang University | arXiv: 2604.11784

推理 DeepMind 弹性循环 Transformer：权重共享实现动态计算-质量权衡

Google DeepMind 提出弹性循环 Transformer（Elastic Looped Transformers），使用权重共享的循环块减少参数量，同时保持图像和视频生成质量。通过循环内自蒸馏（Intra-Loop Self Distillation）实现跨循环深度的一致性能，支持从单个训练模型中实现动态的计算量与质量权衡——即推理时可灵活选择"快但粗"或"慢但精"。

机构：Google DeepMind | arXiv: 2604.09168