💥 重磅新闻
OpenAI 正式推出其首款定制 AI 芯片 Jalapeño,专为处理 ChatGPT 请求的服务器设计。该芯片由 OpenAI 与 Broadcom 合作开发,标志着 OpenAI 在硬件层面的重要布局,旨在降低对 NVIDIA GPU 的依赖并优化推理成本。
特朗普政府正敦促 Meta 将其 AI 模型提交给联邦政府进行自愿审查。Meta 是目前唯一未签署该协议的美国主要 AI 开发商,OpenAI、Anthropic、Google、Microsoft 和 xAI 已同意配合。Meta 政策团队正与商务部协商,能否达成协议尚不明确。
Oracle 在最新披露文件中承认,过去 12 个月裁员约 2.1 万人,占 workforce 13%,并将部分裁员归因于 AI 技术进步。据 Layoffs.fyi 统计,2026 年已有 196 家科技公司裁员超 11.98 万人,AI 对就业市场的冲击正在加速显现。
Meta 备受争议的 AI 员工追踪项目因内部泄露被迫暂停。据 Business Insider 看到的截图显示,该项目数据(包括员工私人对话、绩效数据和转录记录)可被全公司访问。Meta 声明称正在调查,暂无证据表明数据被员工不当访问。
🛠️ 技术动态
Mistral 发布 OCR 4,提供结构化内容提取,包括边界框和置信度分数。支持 170 种语言,可部署在单个容器中,集成到企业搜索和结构化数据管道。OCR 4 比其他系统快 4 倍,在低资源语言上表现出色。
Anthropic 推出 Claude Tag,允许团队在 Slack 中分配任务给 Claude,连接工具和代码库,并在频道间保持上下文。Anthropic 产品团队已使用该功能生成大量代码并协助分析、支持和调试任务。用户只需在频道中 @Claude 即可使用。
字节跳动发布 Seedance 2.5 AI 视频生成模型,可通过单个提示生成 30 秒 4K 视频。用户最多可提供 50 张图像、视频或音频作为参考,增加参考数量可更好地控制视频创作过程。该模型下月在中国上线,其他国家发布时间未定。
OpenAI 开始推出 ChatGPT 双向语音模式。新音频生成模型 Bidi 1 可同时进行说话、听音和倾听,保持完整对话线程,被打断时可即时切换任务。模型支持唱歌和 beatbox,但有严格的版权限制。官方尚未正式宣布,但部分用户已在模型选择器中看到。
Krea 2 引入用于创意探索的图像生成模型,采用多阶段训练、先进架构和大量数据策划来增强风格多样性和用户控制。关键创新包括提示扩展器和风格参考系统,允许通过文本和图像输入生成多样化视觉输出。HN 讨论热烈,37 条评论关注其开源权重特性。
Unlimited OCR 模拟人类解析工作记忆,基于 DeepSeek OCR 并结合常量 KV 缓存设计。可在标准 32K 最大长度限制下,单次前向传播转录数十页文档。该技术同样适用于 ASR 和翻译任务。百度在文档智能领域的开源贡献值得关注。
Fugu 通过智能选择在特定任务上使用 Claude、Gemini 等前沿模型,实现"最佳前沿级性能"。系统不告诉用户具体使用了哪些模型,而是自动管理模型选择、任务委派和结果验证。Fugu Ultra 版本提供更强的多模型协同能力,Sakana 表示未来将整合自研模型。
RubyLLM 是一个为 Ruby 开发者设计的框架,支持所有主流 AI 提供商的 API 调用。提供统一的接口来处理不同模型的差异,简化 Ruby 应用集成大语言模型的流程。该项目在 HN 获得 350 票关注,56 条评论讨论其实用性和设计思路。
💡 深度分析
现代大语言模型使用角色标签作为安全架构和认知支架。提示注入的驱动因素是 AI 模型感知角色的缺陷——对 LLM 来说,所有内容都通过同一通道到达,作为一个长 token 序列,无法区分自己的思想和外部输入。除非 AI 模型实现真正的角色感知,否则注入防御将永远是打地鼠游戏。
行业观察
AI 的可负担性危机
文章探讨了 AI 技术成本上升对小型开发者和初创企业的影响。随着前沿模型 API 价格持续上涨,只有资金充足的大公司才能负担最先进的 AI 能力,这可能加剧技术不平等。HN 上 410 条评论热烈讨论替代方案和开源模型的可行性。
DeepMind 提出 AI 控制框架,类似于"带双控制的驾驶教练"——信任学生但随时准备接管或刹车。计划包括链式思维监控、异步警报、实时访问控制和关闭基础设施等内部防护措施,旨在捕获 AI Agent 的潜在对抗行为。
观点
间接提示注入攻击深度解析
深度探讨越狱和间接提示注入攻击的日益关注,采访 Gray Swan 创始人及其研究成果。Gray Swan 在评估高级 AI 系统和开发安全基准方面发挥着重要作用,其研究揭示了当前 AI 安全防御的薄弱环节。
⚡ 快讯
为 NVIDIA 和 Google 供应 HBM 芯片的 SK 海力士市值达到 1.35 万亿美元,超过三星。三星自 2000 年以来一直保持韩国市值第一,此次被超越反映了 AI 芯片需求对半导体行业的重塑。
Superhuman(前身为 Grammarly)宣布收购 GPTZero,将 AI 内容检测功能集成到其 Go AI 助手。该工具可处理 100 万个应用和网站中的内容,帮助用户识别 AI 生成内容并负责任地使用 AI 写作。
RSL Media 非营利组织推出新注册表,允许人们设定 AI 系统使用其肖像的条款。通过注册表,人们可以允许、禁止或要求付费使用其姓名、图像、声音等属性。该注册表还将扩展至创意作品、角色和商标。
Google Workspace 新增"Fix"按钮,Gemini 可诊断并自动解决 Sheets 中的公式错误。点击含错误的单元格时弹出,在侧边栏显示 Gemini 的修复建议。
加州 AB 2047 法案将 3D 打印机列为对学生、教育工作者和企业"不可接触"的设备,引发对过度监管技术教育的担忧。HN 上 281 票关注,200 条评论讨论法案合理性。
📜 论文推荐
研究团队提出 VibeThinker,仅 30 亿参数却在推理任务上超越 Claude Opus 4.5。通过结合监督微调(SFT)和群组相对策略优化(GRPO)的新颖训练方法,证明小模型通过更好的训练策略也能实现强推理能力。HN 获得 394 票关注,205 条评论讨论其技术细节。
CUGA 是 IBM 开源的 Agent 框架,通过管理规划、执行和状态管理的复杂性简化 Agent 应用开发。在 AppWorld 等基准测试中表现优异,支持可配置推理模式和集成策略系统,实现从开发到生产的快速部署。
论文详细介绍 Krea 2 的多阶段训练过程、先进架构和广泛数据策划。通过提示扩展器和风格参考系统等创新,允许用户通过细化的文本和图像输入生成多样化的视觉输出,克服默认美学的限制。