🤖 AI 日报

2026年04月03日 · 星期五
💥 重磅新闻
OpenAI 宣布关闭最新一轮融资,总额 1220 亿美元,投后估值 8520 亿美元。参投方包括 Amazon、NVIDIA、SoftBank、Microsoft 等。ChatGPT 周活跃用户超 9 亿,付费订阅用户超 5000 万,月营收已达 20 亿美元——增速是 Alphabet 和 Meta 同期的 4 倍。同时 OpenAI 宣布终止视频生成工具 Sora,将聚焦打造以 ChatGPT 为核心的「超级应用」,整合 Codex、搜索和 Agent 功能。广告试点 6 周 ARR 即突破 1 亿美元。
OpenAI 收购了硅谷热门科技脱口秀 TBPN(Technology Business Programming Network),这是其首次收购媒体公司。TBPN 由 John Coogan 和 Jordi Hays 主持,年收入预计超 3000 万美元,被称为「科技界的 SportsCenter」,曾吸引 Zuckerberg、Nadella 等顶级 CEO 做客。收购后 TBPN 将汇报给 OpenAI 首席政治运营官 Chris Lehane,但声称保持编辑独立。外界担忧:一家即将 IPO 的 AI 实验室收购经常讨论自身的媒体节目,潜在利益冲突明显。
来源:TechCrunch
Google DeepMind 发布 Gemma 4 系列开源模型,基于 Gemini 3 研究构建,追求极致的每参数智能密度。最大亮点是从此前饱受批评的自定义许可证转向 Apache 2.0,对开发者更友好。旗舰版 Gemma 4 31B 在 AIME 2026 数学测试中达 89.2%,LiveCodeBench 编程达 80%,支持 140 种语言、原生函数调用和多模态推理。在 Hacker News 获得 1503 分热议。
阿里巴巴发布 Qwen3.6-Plus,定位为面向真实世界 Agent 场景的推理模型。该模型在 Hacker News 上获得 534 分关注,被认为是中国开源模型在 Agent 能力方面的重要进展。Qwen 系列持续在国际开源社区保持影响力。
🛠️ 技术动态
Microsoft AI 发布三款基础模型:MAI-Transcribe-1(25 语言语音转文字,速度 2.5 倍于 Azure Fast)、MAI-Voice-1(1 秒生成 60 秒音频,支持自定义声音)、MAI-Image-2(图像/视频生成)。三款模型由 Mustafa Suleyman 领导的超级智能团队开发,通过 Microsoft Foundry 提供,定价策略主打比 Google 和 OpenAI 更便宜。尽管自建模型,Suleyman 仍重申与 OpenAI 的合作关系。
AI 编程工具 Cursor 发布第三代产品,从零构建全新界面,核心设计围绕 Agent 工作流。支持多仓库布局、本地与云端 Agent 无缝切换、并行运行多个 Agent、云端 Agent 自动生成 demo 和截图供审阅。内置 Composer 2 前沿编码模型。支持从移动端、Web、Slack、GitHub、Linear 等多入口启动 Agent。在 HN 获得 430 分讨论。
语音 AI 公司 ElevenLabs 发布 iOS 应用 ElevenMusic,用自然语言提示生成音乐。免费用户每天可生成 7 首,Pro 版 $9.99/月支持 500 首。应用设有电台、排行榜、每日推荐,并支持对他人作品进行 remix。ElevenLabs 在今年 2 月以 110 亿美元估值完成 5 亿美元 C 轮,正从语音 AI 公司向全方位创意工具平台转型。
来源:TechCrunch
Arcee AI 发布 Trinity-Large-Thinking,定位为中国以外最强的开源推理模型,专注复杂长程 Agent 场景和多轮工具调用。训练重点在跨轮次连贯性、工具使用准确性、约束下指令遵循和质量-成本平衡。模型权重以 Apache 2.0 许可在 Hugging Face 开放,同时通过 Arcee API 提供服务。
来源:Arcee AI · TLDR AI
AMD 发布 Lemonade,一个快速、开源的本地大模型推理服务器,同时利用 GPU 和 NPU 加速。项目在 Hacker News 获得 521 分关注,被视为本地推理领域的重要工具,降低了在 AMD 硬件上运行大模型的门槛。
富士通发布 OneComp(One Compression),一个开源 Python 库,实现大模型后训练量化。支持 GPTQ 和 DBF 等先进量化算法,已验证 TinyLlama、Llama-2/3、Qwen3-0.6B~32B 系列模型。其他 Hugging Face 兼容模型可能可用但尚未正式测试。
Google 的 AI 视频编辑工具 Google Vids 迎来升级,新增 Veo 3.1 视频模型和 Lyria 3 音频模型支持。用户现在可以指导和自定义 AI 生成的虚拟形象,通过 Chrome 扩展录屏,并直接上传视频到 YouTube。
💡 深度分析
一篇深度分析指出,思维链(Thinking)内容的隐藏/削减与复杂工程场景中的质量退化精确相关。当思维深度降低时,模型在多步研究、规范遵循和代码修改中的工具使用模式发生可测量的偏移。报告建议在为高级用户分配 token 预算时,必须将 Extended Thinking 视为结构性需求而非可选项。
一位前 Azure Core 工程师撰文详述了导致 Azure 信任危机的一系列内部决策。文章在 Hacker News 获得 801 分,引发大量关于云服务质量和企业信任的讨论。在 AI 基础设施成为核心竞争力的当下,云平台的可靠性问题值得关注。
一篇深入 Moonshot AI 的报道揭示了 Kimi 背后的组织哲学:极度扁平、无 KPI、小团队高自治。其核心竞争力来自精英招聘与训练-产品-数据的紧密反馈循环。公司反映了一种更广泛的趋势——AI 工具压缩组织架构,团队变成「Agent 群」,模型能力成为产品和组织设计的核心驱动力。
来源:X (@ruima) · TLDR AI
Dropbox 团队详述了如何用 DSPy 框架系统优化 Dash 的相关性评判器。DSPy 是一个开源框架,可根据可衡量目标系统地优化 Prompt。团队定义了评估目标,用 DSPy 在不同模型间适配评判器,最终使其更便宜且更可靠。这是企业级 Prompt 工程从手工调参走向系统化的典型案例。
⚡ 快讯
研究者发现 LinkedIn 会扫描用户安装的浏览器扩展。该发现在 Hacker News 以 1756 分登顶,引发广泛隐私担忧。
Google One AI Pro 计划($19.99/月)的存储从 2TB 升级至 5TB,增量 2.5 倍。
来源:The Verge
ChatGPT 在简单提示下生成了与德国畅销儿童书「椰子龙」几乎无法区分的文本和封面,企鹅兰登书屋在慕尼黑法院提起版权诉讼。这是出版业首次在欧洲直接以版权法起诉生成式 AI 公司。
来源:The Guardian
Cognichip 获得 6000 万美元融资,其深度学习模型可辅助工程师设计芯片,有望将芯片开发成本降低 75% 以上、时间缩短一半以上。不过公司尚未公开用其系统设计的成品芯片。
来源:TechCrunch
据彭博 Mark Gurman 报道,Nothing 计划在 2027 上半年推出 AI 智能眼镜,内置摄像头、麦克风和扬声器,AI 处理卸载到手机和云端。
来源:The Verge
有中国用户报告在 iPhone 上看到 Apple Intelligence 功能,彭博确认这是「误操作」,Apple 已迅速下线。中国政府要求 Apple 与本地公司合作提供 AI 功能。
来源:The Verge · 9to5Mac
加利福尼亚州出台新规,要求与州政府合作的 AI 公司满足隐私和安全标准。这是美国州级 AI 监管的最新进展。
来源:The Verge
📜 论文推荐
华东师范大学团队提出 Tex3D 框架,首次实现在 VLA 仿真环境中端到端优化 3D 对抗纹理。通过前景-背景解耦(FBD)和轨迹感知对抗优化(TAAO),在仿真和实机实验中使 VLA 模型任务失败率高达 96.7%。揭示了机器人 AI 系统面对物理世界攻击的严重脆弱性。
来源:arXiv · GitHub
意大利理工学院团队提出记忆增强方案,解决视觉-语言模型在不同视角下对同一物体描述不一致的问题。通过引入外部记忆模块,使 Agent 能在多次观察中保持语义一致的物体理解。
来源:arXiv
研究者提出一个框架,通过分析奖励冲突来预测 RL 训练何时会降低思维链透明度。将奖励分为「冲突型」「正交型」和「对齐型」三类,实验证实「冲突型」奖励会显著降低 CoT 透明度,而另外两类能维持透明度。为 AI 安全对齐提供了实用预测工具。
来源:LessWrong · TLDR AI
OpenMed 团队构建了覆盖蛋白质结构预测、序列设计和密码子优化的端到端 AI 管线。在密码子级语言建模中,CodonRoBERTa-large-v2 以困惑度 4.10 大幅领先 ModernBERT。团队用 55 GPU-hours 训练了 4 个生产模型,覆盖 25 个物种,是目前唯一提供跨物种条件生成的开源项目。完整代码和数据已开放。