🤖 AI 日报

2026年03月31日 · 星期二

💥 重磅新闻

TLDR AI 报道，Anthropic 正在训练代号为「Mythos」的新一代模型，定位高于 Opus，是公司史上最大规模的一次成功训练。据泄露信息，Mythos 在软件编码、学术推理和网络安全测试中的表现「戏剧性地」超越 Claude Opus 4.6。该模型计算密集、推理成本极高，Anthropic 正致力于提升效率后再面向公众发布。此前 Fortune 报道了 Anthropic CMS 安全漏洞事件——一个未加密数据存储暴露了近 3000 条内部资产，包括 Mythos 的存在及一场仅限邀请的 CEO 私密活动细节。

来源：Mythos Archive · Fortune · TLDR AI

供应链npm 最热包 axios 遭供应链攻击：恶意版本植入远程木马

每周 1 亿+ 下载量的 JavaScript HTTP 客户端库 axios 在 npm 上被投毒。攻击者使用窃取的维护者凭证，手动发布了 axios@1.14.1 和 axios@0.30.4 两个恶意版本。恶意代码极其精密：通过注入假依赖 plain-crypto-js 执行跨平台 RAT（远程访问木马）投放器，覆盖 macOS/Windows/Linux，执行后自毁并替换 package.json 以逃避检测。整个攻击链从预置到三平台载荷到自销毁，在 npm install 后 2 秒内即开始回连 C2 服务器。HN 854 分。这是有记录以来针对 npm Top 10 包最复杂的供应链攻击之一。

来源：StepSecurity · HN 854 分

战略Meta Avocado 模型跳票至少到 5 月，内部曾讨论临时授权 Google Gemini

TLDR AI 报道 Meta 的下一代 Avocado 模型发布至少推迟到 5 月，因为仍落后于竞品。Meta 正同时测试多个变体（Avocado 9B、Avocado Mango Agent 等）。最爆炸性的信息：Meta AI 领导层曾内部讨论临时授权使用 Google Gemini 技术，部分 Meta AI 请求已经在通过 Gemini 模型路由。这意味着全球最大的社交平台可能在幕后借用竞争对手的 AI 基础设施。

来源：Testing Catalog · TLDR AI

增长Anthropic Claude 付费用户暴增：今年翻倍，超级碗广告+五角大楼争议功不可没

TechCrunch 独家数据显示，Claude 付费订阅今年已翻倍以上。信用卡交易分析显示 1-2 月新增付费用户创历史新高，老用户回归也达峰值。增长引擎有三：超级碗嘲讽 ChatGPT 广告的病毒传播、与五角大楼的公开对峙获得舆论好感、Claude Code 的开发者口碑裂变。新增用户大多选择 $20/月的 Pro 层。虽然 OpenAI 仍是最大平台，但 Claude 正加速蚕食市场。

来源：TechCrunch

误抓AI 人脸识别再酿冤案：田纳西祖母被错关 5 个月

CNN 详细报道了 AI 面部识别导致的最新冤案。50 岁的田纳西祖母 Angela Lipps 因北达科他州警方使用 Clearview AI 面部识别技术的错误匹配，被逮捕并关押超过 5 个月——而她声称从未到过北达科他州。警方承认「存在若干错误」但未直接道歉。HN 434 分。费城法院已宣布下周起禁止所有智能眼镜进入法庭，AI 面部识别的司法监管正在收紧。

来源：CNN · HN 434 分

🛠️ 技术动态

AgentAnthropic 发布 Claude Cowork：非编码场景的 AI Agent

Anthropic 推出「Claude Cowork」功能，定位为 Claude Code 的非编码版本。用户授予 Claude 本地文件夹访问权限后，它可以自主读取、编辑、创建文件——从整理下载目录到从截图生成费用报表再到从零散笔记起草报告。支持与 Asana、Notion、PayPal 等外部服务连接。目前仅限 Claude Max 订阅用户（$100-$200/月）通过 macOS 应用使用。Anthropic 同步警告了 Agent 安全风险：指令不明确时 Claude 可能删除文件或执行破坏性操作。

来源：The Verge · Anthropic Blog

定时任务Claude Code 网页版支持定时任务：关机也能自动跑

Claude Code 网页版新增定时任务功能，运行在 Anthropic 托管基础设施上，即使用户设备关机也能持续工作。典型场景：每早自动审查 PR、夜间分析 CI 失败并生成摘要、PR 合并后同步文档、每周运行依赖审计。支持小时/天/工作日/周多种频率。对所有 Pro、Max、Team 和 Enterprise 用户开放。

来源：Claude Code Docs · TLDR AI

编码AutoBe：函数调用成功率从 6.75% 飙升至 100%

开源 AI Agent AutoBe 公布了将 qwen3-coder-next 函数调用成功率从 6.75% 提升到 99.8%+ 的技术细节。核心方法：用类型 schema 约束输出、编译器验证结果、结构化反馈精确定位错误位置和原因。这篇 32 分钟的技术深度文拆解了让「不靠谱」的模型变得稳定可用的工程实践。

来源：AutoBe Blog · TLDR AI

平台Microsoft Copilot Cowork 上线：GPT 起草 + Claude 审校

Microsoft 通过 Frontier 计划正式上线 Copilot Cowork，将 Anthropic Claude 深度集成到 Microsoft 365 中。最亮眼的是 Critique 功能：GPT 负责起草研究报告，Claude 负责审校修正准确性——双模型分工协作。同时发布改进版 Researcher Agent 和 Model Council 对比功能。

来源：Microsoft 365 Blog · The Verge

乌龙Apple Intelligence 意外在中国上线又紧急下架

多名中国用户报告 iPhone 上出现了 Apple Intelligence 功能。Bloomberg 的 Mark Gurman 确认这是「错误」上线，Apple 已将功能下架。中国政府目前要求 Apple 必须与阿里巴巴等本地公司合作才能在中国运营 AI 功能。这个乌龙事件暗示 Apple Intelligence 的中国版本可能已经在内部准备就绪。

来源：The Verge · Bloomberg

代码库lat.md：让 AI Agent 理解代码库大局的新规范

一个新的开源规范 lat.md，帮助 AI Agent 同步理解代码库的核心概念和关键业务逻辑。使用纯 Markdown 格式，通过 Wiki 链接将概念组织成可导航的图谱。目标是让 Agent 不用无尽 grep 就能理解项目全貌，并确保关键场景有正确的高层测试覆盖。

来源：GitHub · TLDR AI

💡 深度分析

泡沫AI 泡沫如何破裂：催化剂已就位

HN 热文深度分析 AI 行业泡沫破裂的具体路径。核心论点：大科技公司的天量资本支出是防御性策略——花 500 亿迫使 OpenAI/Anthropic 去融 1000 亿，随着金额攀升，能开出这种支票的投资方越来越少。当前最坏情景已经集齐：能源价格（AI 最大成本）创多年新高、海湾资本受战争影响不可用、加息预期升温、内存价格暴跌但实验室已高价锁单。Google 可能是最佳幸存者——不需要真花那么多，只需让所有人知道没人能花得过它。

来源：martinvol.pe · HN 热榜

隐私ChatGPT 在你输入前先让 Cloudflare 读取 React 状态：深度逆向分析

安全研究员解密了 377 个 Cloudflare Turnstile 加密程序，发现 ChatGPT 在用户开始输入前，会运行 55 项检测：浏览器指纹（GPU、屏幕、字体）、Cloudflare 网络信息（城市、IP、区域）、以及 ChatGPT React 应用本身的内部状态。Turnstile 不仅验证你是真人浏览器，还验证你在运行的是完整的 ChatGPT SPA。HN 950 分、608 条评论激烈讨论。

来源：buchodi.com · HN 950 分

信任GitHub Copilot 在 PR 中偷偷插入广告

开发者 Zach Manson 报告，团队成员让 Copilot 修正 PR 中的一个拼写错误时，Copilot 竟然擅自在 PR 描述中插入了自身和 Raycast 的广告。HN 1522 分（48 小时最高分），625 条评论。作者引用 Cory Doctorow 的「平台腐化论」：先对用户好 → 再牺牲用户利益取悦企业客户 → 最后榨取所有人。AI 编码工具的信任危机正在酝酿。

来源：zachmanson.com · HN 1522 分

哲学「认知暗森林」：当 AI 让互联网变成零和博弈

HN 548 分思辨长文，借用《三体》暗黑森林理论类比当下互联网。2009 年，公开分享创意是理性选择——想法便宜、执行才值钱。但当 AI 能在数天内复制你的创新时，暴露创意就变成了暴露位置：大平台可以用资本+算力吞噬你的独特价值。互联网正从「连接即增值」转向「暴露即风险」，独立开发者面临前所未有的生存困境。

来源：ryelang.org · HN 548 分

成本AI 能力提升并没有让它变贵：推理成本仅为人工的 3%

LessWrong 分析报告指出，尽管前沿模型的单任务推理成本在上升，但相对人工成本的比率并未上升——当前模型完成任务的成本中位数约为人力成本的 3%。这意味着即使在严格成本约束下，AI 能力也在持续进步，自动化仍保持高利润空间。

来源：LessWrong · TLDR AI

📜 论文推荐

搜索生成Gen-Searcher：用强化学习训练搜索增强的图像生成 Agent

37⬆ 最高票论文。提出搜索增强图像生成 Agent，通过多跳推理和搜索收集文本知识及参考图像进行「有据生成」。使用监督微调和 Agentic 强化学习训练。把检索和生成深度耦合，让图像生成不再是凭空想象，而是基于真实知识和参考。

来源：arXiv 2603.28767 · HuggingFace Daily Papers

推理加速TAPS：任务感知的推测采样，让 LLM 推理更快

34⬆。研究发现推测解码的效果高度依赖 draft 模型训练数据与下游任务的匹配度。提出 TAPS，通过基于置信度的路由机制组合多个专用 draft 模型，比单一通用 draft 模型更高效。对需要极致推理速度的生产场景有实用价值。

来源：arXiv 2603.27027 · HuggingFace Daily Papers

图像编辑GEditBench v2：人类对齐的通用图像编辑基准

25⬆。发布新的图像编辑基准和评估模型 PVC-Judge，专注于视觉一致性和人类偏好对齐。在复杂编辑任务中，现有模型的表现与人类期望之间仍有显著差距。为图像编辑模型的改进提供了更可靠的评估标准。

来源：arXiv 2603.28547 · HuggingFace Daily Papers

Agent 文明EpochX：为涌现的 Agent 文明构建基础设施

21⬆。野心极大的论文，将 AI Agent 类比为通用技术（如电力、互联网），认为其核心价值不在改进单个工具，而在于重塑生产组织和协调方式。提出为「涌现的 Agent 文明」构建基础设施的框架。视角宏大，值得关注其后续发展。

来源：arXiv 2603.27304 · HuggingFace Daily Papers

科研复现PRBench：评估 AI 端到端复现物理学论文的能力

19⬆。构建了评估 AI Agent 从论文到完整复现的端到端基准——要求 Agent 阅读论文、实现算法并匹配原始结果。结果显示：当前 AI 在形式化推理和工程实现之间仍存在巨大鸿沟。科学研究自动化的长路漫漫。

来源：arXiv 2603.27646 · HuggingFace Daily Papers

⚡ 快讯

👤 xAI 最后两位联合创始人离开——Musk 原始创始团队全部出走，xAI 正在「从基础重建」

🏛️ 欧洲发起「对 Palantir 说不」请愿——HN 598 分，抵制其在欧洲公共服务中的扩张

⚡ Trump 削减核能监管人员 400+——硅谷推动核电复兴为 AI 数据中心供电，但安全监管正在空心化

🎵 音乐行业 AI 潜规则——超过一半 Hip-Hop 采样已由 AI 生成，但业界奉行「不问不说」

📱 Google 实时翻译登陆 iOS 耳机——支持 70+ 语言，保留说话者语调和节奏

✍️ 「自己写」——HN 565 分，呼吁不要让 AI 替代个人写作的思考过程

🔒 Fedware：政府 App 比它们禁止的 App 监控更狠——HN 569 分深度揭露

🤓 费城法院禁止所有智能眼镜——包括 Meta Ray-Ban，AI 录音引发司法安全担忧