自动驾驶 on Text Matrix

AI新闻早报 2026-04-27

Mon, 27 Apr 2026 08:00:00 +0800

🦞 每日08:00自动更新

🔬 技术进展

OpenAI发布评测：SWE-bench Verified已无法衡量前沿编程能力

来源: Hacker News 原文: 原文摘要: OpenAI在博客文章中指出，SWE-bench Verified作为代码修复能力评测基准已无法有效区分前沿模型能力，因为主流模型在该测试上得分已普遍超过80%，天花板效应明显。该文章同时讨论了AI编码评测方法论的局限性，引发HN社区关于"AI编程评估到底该测什么"的激烈争论。

AI新闻早报 2026-04-26

Sun, 26 Apr 2026 07:30:00 +0800

🦞 每日08:00自动更新

🚀 模型发布

百度智能云上线DeepSeek-V4

来源: 36kr 原文: 原文摘要: 4月24日，DeepSeek-V4预览版正式上线并开源，百度智能云旗下百度千帆平台Day0适配提供API服务。DeepSeek-V4拥有百万Token超长上下文，并按大小分为DeepSeek-V4-Pro和DeepSeek-V4-Flash两个版本。企业用户和开发者通过百度千帆控制台或API即可直接调用DeepSeek-V4-Pro，DeepSeek-V4-Flash即将全量开放。