AI 日报 - 2026年04月08日

💥 重磅新闻

战略 Anthropic 与 Google、Broadcom 签署数 GW 级算力协议

Anthropic 宣布与 Google、Broadcom 达成多 GW 级下一代 TPU 算力合作，预计 2027 年开始上线，绝大多数部署在美国。该算力将服务于 Claude 前沿模型训练。Anthropic 同时透露其运营收入已突破 300 亿美元。

来源：Anthropic 官方博客

融资 OpenAI 完成 1220 亿美元融资，估值 8520 亿美元

OpenAI 在上月底完成 1220 亿美元融资轮，投后估值达 8520 亿美元。其中 Amazon、Nvidia、SoftBank 占 1100 亿美元，其余 120 亿来自机构和个人投资者。此外，OpenAI 正与多家私募股权公司谈判成立合资企业，估值约 100 亿美元，保证最低回报 17.5%，并提供模型抢先体验权。

来源：SaaStr 分析

人物《纽约客》深度报道：Sam Altman 是否值得信任？

基于 100+ 访谈、笔记和备忘录，《纽约客》发布长文质疑 Sam Altman 的诚信问题，称其"不受真相约束"（unconstrained by truth），并指出其长期存在的欺骗模式。文章称，越来越多的问题不在于计算机是否智能，而在于 OpenAI 领导层是否可信。

来源：The New Yorker

🛠️ 技术动态

模型 OpenAI 测试下一代图像生成模型 Image V2

OpenAI 正在 ChatGPT 和 LM Arena 上测试三个 Image V2 变体，早期测试显示在 UI 设计渲染、提示词遵循和组合理解方面有显著提升，可能增强与 Google 竞争力。

来源：Testing Catalog

代码 Google 测试 Jules V2 自主编码 Agent

Google 正在开发 Jules V2（代号 Jitro）编码 Agent，能够自主管理高层开发目标而非具体任务。通过候补名单发布，该 Agent 旨在将重点从基于任务的命令转向 KPI 驱动的结果，但面临不可预测变更和信任问题挑战。

来源：Testing Catalog

工具 Google 发布免费离线 AI 听写应用 AI Edge Eloquent

Google 在 iOS 上发布了基于设备端 ASR 模型的听写应用，提供实时转录、过滤填充词功能，可选基于云端的 Gemini 模型编辑。完全免费，无使用限制。

来源：Google / App Store

开源 Google Gemma 4 采用 Apache 2.0 许可证

Google 将 Gemma 4 开源模型的许可证从此前被批评过于限制的自定义许可证，改为更宽松且被广泛使用的 Apache 2.0 许可证。新版本还提升了性能表现。

来源：Google 官方博客

开源 Meta 计划逐步开源新 AI 模型

Meta 将"最终"提供其新 AI 模型的开源版本，但会先保留部分专有功能并确保不会增加新的安全风险。此举延续 Meta 此前在 Llama 系列上的开源策略，采用专有 + 开源混合路线。

来源：Axios

中国 GLM-5.1：面向长时序任务的模型

国内团队发布 GLM-5.1 模型，聚焦长时序任务处理能力，在 Hacker News 获得 537 点赞和 221 条讨论，显示国际关注。

来源：z.ai

💡 深度分析

警示 Claude Code 在复杂工程任务中难以使用

GitHub issue 反映 2 月更新后 Claude Code 在复杂工程任务中表现不佳，引发 722 条评论和 1309 个点赞，凸显 AI 代码助手在真实场景中的挑战。

来源：GitHub / Hacker News

观点 "氛围编程"教条式盲目应用的危险

开发者 Bram Cohen 批评"氛围编程"（vibe coding）文化，指出盲目依赖 AI 生成代码而不理解其逻辑的风险。文章在 HN 获得 607 点赞和 505 条讨论。

来源：Bram Cohen's Blog

研究青少年如何使用角色扮演 AI 聊天机器人

《纽约时报》调查发现，青少年大量使用 Character.ai 等角色扮演聊天机器人，包括"有趣的暴力"、复杂故事线和"不良行为"，这类平台比主流模型更宽松，引发对青少年心理健康影响的关注。

来源：The New York Times

⚡ 快讯

产品 Spotify AI 为播客生成个性化 Discover Weekly

Spotify 为 Premium 用户推出 AI 播客播放列表生成器更新，可创建个性化的每周播客发现列表。

来源：The Verge

产品 Google Vids 支持 Veo 3.1 和 Lyria 3 模型

Google Vids AI 视频编辑器新增 Veo 3.1 和 Lyria 3 模型支持，可定制 AI 生成虚拟形象，并推出 Chrome 屏幕录制扩展，支持直接上传至 YouTube。

来源：Google 官方博客

安全 Anthropic 发布 Project Glasswing 安全项目

Anthropic 向"防御性安全"合作伙伴发布 Project Glasswing，旨在保护 AI 时代的关键软件。项目在 HN 获得 1306 点赞和 649 条讨论。

来源：Anthropic

安全 AI 训练数据公司 Mercor 遭遇安全漏洞

AI 训练数据供应商 Mercor 遭遇数据泄露，Meta 暂停与其合作，OpenAI 正在调查事件。Mercor 声称是"恶意数据渗出"的目标攻击。

来源：Wired

监管 OpenAI 要求加州、特拉华州调查 Musk 反竞争行为

在 4 月开庭前，OpenAI 敦促加州和特拉华州调查 Elon Musk 涉嫌的反竞争行为。

来源：CNBC

诉讼 Perplexity 被诉隐身模式无效

集体诉讼指控 Perplexity 在其 AI 搜索引擎中植入 Meta 和 Google 追踪器，即使付费用户开启隐身模式也会共享对话内容和电子邮件地址。

来源：Ars Technica

人事 Jeff Bezos AI 实验室从 xAI 挖角联合创始人 Kyle Kozic

Kyle Kozic 将在 Jeff Bezos 领导的 Project Prometheus 专注于基础设施工作，该初创公司使用 AI 改进制造业。

来源：Financial Times / The Verge

合作 Delve 与 Y Combinator "分道扬镳"

AI 合规初创公司 Delve 从 YC 名录中移除，此前匿名报告指控其"伪造合规"并泄露审计报告。Delve 回应称遭遇"恶意数据渗出"和"协同定向网络攻击"。

来源：TechCrunch / YC

行业编剧工会与制片厂达成四年协议，AI 保护升级

美国编剧工会与制片厂达成为期四年的新协议，包含更强的 AI 使用保护条款。

来源：The Verge

📜 论文推荐

对齐 CVA 架构：价值驱动的大语言模型 Agent

北京大学提出 Context-Value-Action (CVA) 架构，通过解耦行动生成与认知推理来解决 LLM 行为刚性问题。使用基于真实人类数据训练的 Value Verifier 明确建模动态价值激活，有效缓解极化现象，提供更优的行为保真度和可解释性。

机构：Peking University | arXiv: 2604.05939

训练 MegaTrain：单 GPU 全精度训练 100B+ 参数模型

提出以内存为中心的系统 MegaTrain，在单 GPU 上全精度训练 100B+ 参数大语言模型。将参数和优化器状态存储在主机内存（CPU 内存），GPU 作为瞬态计算引擎。在单个 H200 GPU 配合 1.5TB 主机内存上可靠训练最多 120B 参数模型，训练吞吐量达 DeepSpeed ZeRO-3（CPU 卸载）的 1.84 倍。

GitHub: DLYuanGod/MegaTrain (4 stars) | arXiv: 2604.05091

评测 Agentic Skills 在真实场景中的表现基准

首次全面研究在逐步挑战的真实场景下技能（skills）效用，Agent 必须从 34k 真实技能集合中检索。发现技能收益非常脆弱：随着场景变得更真实，性能增益持续下降。查询特定的精炼策略可实质性恢复丢失的性能。在 Terminal-Bench 2.0 上将 Claude Opus 4.6 通过率从 57.7% 提升至 65.5%。

机构：Shiyu's Lab | GitHub: UCSB-NLP-Chang/Skill-Usage | arXiv: 2604.04323

视频 VidGround：基于视觉基底的后训练

Nature and AI Lab 提出 VidGround，解决视频理解基准测试中的文本偏差问题。发现常见的长视频理解基准中 40-60% 的问题仅靠文本线索就能回答。VidGround 仅使用真正需要视觉基底的问题进行后训练，配合基于 RL 的后训练算法，相比使用完整数据集提升最多 6.2 个点，同时仅使用 69.1% 的原始数据。

机构：Nature and AI Lab | GitHub: reacher-z/vidground | 项目主页 | arXiv: 2604.05117

开源 DARE：扩散大语言模型对齐与强化执行器

复旦大学提出 DARE，首个扩散大语言模型（dLLMs）的开源后训练框架。统一监督微调、参数高效微调、偏好优化和 dLLM 特定的强化学习，支持掩码和块扩散语言模型。在 LLaDA、Dream、SDAR 和 LLaDA2.x 模型家族上提供广泛的算法覆盖、可复现的基准评估和实际加速。

机构：Fudan University | GitHub: yjyddq/DARE (167 stars) | arXiv: 2604.04215

代码 QiMeng-PRepair：通过编辑感知奖励优化实现精准代码修复

提出 PRepair 框架缓解程序修复中的过度编辑问题。包含两个组件：Self-Breaking（通过受控 bug 注入和 min-max 采样生成多样化的有 bug 程序）和 Self-Repairing（使用 Edit-Aware Group Relative Policy Optimization 训练模型）。在 fix_1@1 指标下将修复精度提升最多 31.4%，并显著提升解码吞吐量。

GitHub: kcxain/QiMeng-PRepair | arXiv: 2604.05963

评测 GBQA：面向 QA 工程师的游戏基准

提出 Game Benchmark for Quality Assurance (GBQA)，包含 30 个游戏和 124 个人工验证的 bug，评估 LLMs 是否能自主检测软件 bug。最佳模型 Claude-4.6-Opus（思考模式）仅识别出 48.39% 的已验证 bug，突显自主软件工程中的挑战。

GitHub: camel-ai/GBQA (5 stars) | arXiv: 2604.02648

3D TABLeT：fMRI 体积的紧凑 token 化用于长程动态建模

首尔国立大学提出 TABLeT（Two-dimensionally Autoencoded Brain Latent Transformer），使用预训练 2D 自然图像自编码器对 fMRI 体积进行 token 化。将每个 3D fMRI 体积压缩为一组紧凑的连续 token，使用简单 Transformer 编码器在有限 VRAM 下进行长序列建模。在 UK-Biobank、Human Connectome Project 和 ADHD-200 数据集上优于现有模型，同时在计算和内存效率上显著优于最先进的基于体素的方法。

机构：Seoul National University | GitHub: beotborry/TABLeT | arXiv: 2604.03619