AI 日报 - 2026年06月25日

💥 重磅新闻

芯片 OpenAI 发布首款自研芯片 Jalapeño，与 Broadcom 合作打造

OpenAI 正式推出其首款定制 AI 芯片 Jalapeño，专为处理 ChatGPT 请求的服务器设计。该芯片由 OpenAI 与 Broadcom 合作开发，标志着 OpenAI 在硬件层面的重要布局，旨在降低对 NVIDIA GPU 的依赖并优化推理成本。

来源：TechCrunch · The Verge · HN 559票

监管美国政府施压 Meta 接受 AI 模型安全审查

特朗普政府正敦促 Meta 将其 AI 模型提交给联邦政府进行自愿审查。Meta 是目前唯一未签署该协议的美国主要 AI 开发商，OpenAI、Anthropic、Google、Microsoft 和 xAI 已同意配合。Meta 政策团队正与商务部协商，能否达成协议尚不明确。

来源：The New York Times · The Verge

裁员 Oracle 因 AI 裁员 2.1 万人，占员工总数 13%

Oracle 在最新披露文件中承认，过去 12 个月裁员约 2.1 万人，占 workforce 13%，并将部分裁员归因于 AI 技术进步。据 Layoffs.fyi 统计，2026 年已有 196 家科技公司裁员超 11.98 万人，AI 对就业市场的冲击正在加速显现。

来源：Oracle SEC Filing · The Verge

隐私 Meta 员工 AI 监控项目因数据泄露被迫暂停

Meta 备受争议的 AI 员工追踪项目因内部泄露被迫暂停。据 Business Insider 看到的截图显示，该项目数据（包括员工私人对话、绩效数据和转录记录）可被全公司访问。Meta 声明称正在调查，暂无证据表明数据被员工不当访问。

来源：Wired · HN 321票

🛠️ 技术动态

OCR Mistral OCR 4 发布：SOTA 文档智能识别，支持 170 种语言

Mistral 发布 OCR 4，提供结构化内容提取，包括边界框和置信度分数。支持 170 种语言，可部署在单个容器中，集成到企业搜索和结构化数据管道。OCR 4 比其他系统快 4 倍，在低资源语言上表现出色。

来源：Mistral AI · TLDR AI · HN 492票

Agent Claude Tag 发布：Slack 集成的 AI Agent 工作流

Anthropic 推出 Claude Tag，允许团队在 Slack 中分配任务给 Claude，连接工具和代码库，并在频道间保持上下文。Anthropic 产品团队已使用该功能生成大量代码并协助分析、支持和调试任务。用户只需在频道中 @Claude 即可使用。

来源：Anthropic · TLDR AI · HN 262票

视频生成字节 Seedance 2.5：单提示生成 30 秒 4K 视频

字节跳动发布 Seedance 2.5 AI 视频生成模型，可通过单个提示生成 30 秒 4K 视频。用户最多可提供 50 张图像、视频或音频作为参考，增加参考数量可更好地控制视频创作过程。该模型下月在中国上线，其他国家发布时间未定。

来源：CNET · TLDR AI

语音 OpenAI 双向语音模式 Bidi 1 开始推出

OpenAI 开始推出 ChatGPT 双向语音模式。新音频生成模型 Bidi 1 可同时进行说话、听音和倾听，保持完整对话线程，被打断时可即时切换任务。模型支持唱歌和 beatbox，但有严格的版权限制。官方尚未正式宣布，但部分用户已在模型选择器中看到。

来源：Testing Catalog · TLDR AI

图像生成 Krea 2 技术报告：12B 开源权重图像生成模型

Krea 2 引入用于创意探索的图像生成模型，采用多阶段训练、先进架构和大量数据策划来增强风格多样性和用户控制。关键创新包括提示扩展器和风格参考系统，允许通过文本和图像输入生成多样化视觉输出。HN 讨论热烈，37 条评论关注其开源权重特性。

来源：Krea AI · TLDR AI · HN 346票

开源百度 Unlimited OCR：单次前向传播处理数十页文档

Unlimited OCR 模拟人类解析工作记忆，基于 DeepSeek OCR 并结合常量 KV 缓存设计。可在标准 32K 最大长度限制下，单次前向传播转录数十页文档。该技术同样适用于 ASR 和翻译任务。百度在文档智能领域的开源贡献值得关注。

来源：GitHub · TLDR AI · HN 487票

多模型 Sakana Fugu Ultra：智能调度多前沿模型的统一系统

Fugu 通过智能选择在特定任务上使用 Claude、Gemini 等前沿模型，实现"最佳前沿级性能"。系统不告诉用户具体使用了哪些模型，而是自动管理模型选择、任务委派和结果验证。Fugu Ultra 版本提供更强的多模型协同能力，Sakana 表示未来将整合自研模型。

来源：Sakana AI · The Verge

开发工具 RubyLLM：支持所有主流 AI 提供商的 Ruby 框架

RubyLLM 是一个为 Ruby 开发者设计的框架，支持所有主流 AI 提供商的 API 调用。提供统一的接口来处理不同模型的差异，简化 Ruby 应用集成大语言模型的流程。该项目在 HN 获得 350 票关注，56 条评论讨论其实用性和设计思路。

来源：RubyLLM · HN 350票

💡 深度分析

安全提示注入的本质：角色混淆问题

现代大语言模型使用角色标签作为安全架构和认知支架。提示注入的驱动因素是 AI 模型感知角色的缺陷——对 LLM 来说，所有内容都通过同一通道到达，作为一个长 token 序列，无法区分自己的思想和外部输入。除非 AI 模型实现真正的角色感知，否则注入防御将永远是打地鼠游戏。

来源：Role Confusion Research · TLDR AI

行业观察 AI 的可负担性危机

文章探讨了 AI 技术成本上升对小型开发者和初创企业的影响。随着前沿模型 API 价格持续上涨，只有资金充足的大公司才能负担最先进的 AI 能力，这可能加剧技术不平等。HN 上 410 条评论热烈讨论替代方案和开源模型的可行性。

来源：DSHR Blog · HN 322票 · 410评论

安全 Google DeepMind 发布 AI Agent 安全控制路线图

DeepMind 提出 AI 控制框架，类似于"带双控制的驾驶教练"——信任学生但随时准备接管或刹车。计划包括链式思维监控、异步警报、实时访问控制和关闭基础设施等内部防护措施，旨在捕获 AI Agent 的潜在对抗行为。

来源：Google DeepMind · The Verge

观点间接提示注入攻击深度解析

深度探讨越狱和间接提示注入攻击的日益关注，采访 Gray Swan 创始人及其研究成果。Gray Swan 在评估高级 AI 系统和开发安全基准方面发挥着重要作用，其研究揭示了当前 AI 安全防御的薄弱环节。

来源：Latent Space · TLDR AI

⚡ 快讯

硬件 SK 海力士超越三星成为韩国市值最高公司

为 NVIDIA 和 Google 供应 HBM 芯片的 SK 海力士市值达到 1.35 万亿美元，超过三星。三星自 2000 年以来一直保持韩国市值第一，此次被超越反映了 AI 芯片需求对半导体行业的重塑。

来源：Reuters · The Verge

收购 Superhuman 收购 GPTZero AI 内容检测器

Superhuman（前身为 Grammarly）宣布收购 GPTZero，将 AI 内容检测功能集成到其 Go AI 助手。该工具可处理 100 万个应用和网站中的内容，帮助用户识别 AI 生成内容并负责任地使用 AI 写作。

来源：Superhuman · The Verge

版权 Cate Blanchett 发起"人类同意注册表"

RSL Media 非营利组织推出新注册表，允许人们设定 AI 系统使用其肖像的条款。通过注册表，人们可以允许、禁止或要求付费使用其姓名、图像、声音等属性。该注册表还将扩展至创意作品、角色和商标。

来源：RSL Media · The Verge

产品 Gemini AI 可自动修复 Google Sheets 公式错误

Google Workspace 新增"Fix"按钮，Gemini 可诊断并自动解决 Sheets 中的公式错误。点击含错误的单元格时弹出，在侧边栏显示 Gemini 的修复建议。

来源：Google Workspace · The Verge

隐私加州 AB 2047 法案限制学生使用 3D 打印机

加州 AB 2047 法案将 3D 打印机列为对学生、教育工作者和企业"不可接触"的设备，引发对过度监管技术教育的担忧。HN 上 281 票关注，200 条评论讨论法案合理性。

来源：The 3D Printing Nerd · HN 281票

📜 论文推荐

推理 VibeThinker：3B 参数模型以新颖 SFT+GRPO 击败 Opus 4.5

研究团队提出 VibeThinker，仅 30 亿参数却在推理任务上超越 Claude Opus 4.5。通过结合监督微调(SFT)和群组相对策略优化(GRPO)的新颖训练方法，证明小模型通过更好的训练策略也能实现强推理能力。HN 获得 394 票关注，205 条评论讨论其技术细节。

来源：arXiv · HN 394票 · 205评论

Agent IBM CUGA：轻量级 Agent 框架及 24 个工作示例

CUGA 是 IBM 开源的 Agent 框架，通过管理规划、执行和状态管理的复杂性简化 Agent 应用开发。在 AppWorld 等基准测试中表现优异，支持可配置推理模式和集成策略系统，实现从开发到生产的快速部署。

来源：IBM Research / HuggingFace · TLDR AI

架构 Krea 2 技术报告：富有表现力的图像生成模型

论文详细介绍 Krea 2 的多阶段训练过程、先进架构和广泛数据策划。通过提示扩展器和风格参考系统等创新，允许用户通过细化的文本和图像输入生成多样化的视觉输出，克服默认美学的限制。

来源：Krea AI