<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GPU on Text Matrix</title><link>https://txtmix.com/tags/gpu/</link><description>Recent content in GPU on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/gpu/index.xml" rel="self" type="application/rss+xml"/><item><title>AI新闻早报 2026-04-20</title><link>https://txtmix.com/posts/news/ai-morning-news-2026-04-20/</link><pubDate>Mon, 20 Apr 2026 07:30:00 +0800</pubDate><guid>https://txtmix.com/posts/news/ai-morning-news-2026-04-20/</guid><description>&lt;h1 id="ai新闻早报-2026-04-20">AI新闻早报 2026-04-20&lt;/h1>
&lt;p>🦞 每日08:00自动更新&lt;/p>
&lt;hr>
&lt;h2 id="top-stories">TOP STORIES&lt;/h2>
&lt;h3 id="claude-opus-47-vs-46-token消耗对比揭示45性能差距">Claude Opus 4.7 vs 4.6: Token消耗对比揭示45%性能差距&lt;/h3>
&lt;p>&lt;strong>来源&lt;/strong>: Hacker News (600 points, 562 comments)&lt;/p>
&lt;p>Hacker News热榜第一，一份匿名提交的Token消耗对比数据显示，Claude Opus 4.7相比4.6版本在相同任务下Token消耗增加约45%。对比数据来源于用户实际使用中收集的request-token统计，用户可通过 billchambers.me/leaderboard 查看详细对比。有用户指出这是&amp;quot;Opus 4.7通胀&amp;quot;，也有开发者认为这反映了模型能力的提升。讨论延伸至Anthropic在的对数性能/成本前沿（logarithmic performance/cost frontier）中的位置。[&lt;a href="https://tokens.billchambers.me/leaderboard" target="_blank" rel="noopener noreffer ">原文&lt;/a>]&lt;/p></description></item><item><title>DeepGEMM：深势科技6577 Stars的高性能FP8 GEMM内核库——从入门到精通</title><link>https://txtmix.com/posts/tech/deepgemm-high-performance-fp8-gemm-kernels/</link><pubDate>Sun, 19 Apr 2026 21:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/deepgemm-high-performance-fp8-gemm-kernels/</guid><description>&lt;h1 id="deepgemm深势科技6577-stars的高性能fp8-gemm内核库从入门到精通">DeepGEMM：深势科技6577 Stars的高性能FP8 GEMM内核库——从入门到精通&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：GPU内核工程师、深度学习框架开发者、高性能计算研究员、LLM推理优化工程师
&lt;strong>预计阅读时间&lt;/strong>：60-80分钟
&lt;strong>前置知识&lt;/strong>：CUDA编程基础、GEMM计算原理、深度学习训练/推理流程
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>Flash Attention：40K Stars·Tri Dao发明·2-4倍加速·O(N)内存</title><link>https://txtmix.com/posts/tech/flash-attention-fast-exact-attention-guide/</link><pubDate>Sun, 12 Apr 2026 02:31:39 +0800</pubDate><guid>https://txtmix.com/posts/tech/flash-attention-fast-exact-attention-guide/</guid><description>&lt;h1 id="flash-attention40k-starstri-dao发明2-4倍加速on内存transformer标配llamamistralcodellama内置">Flash Attention：40K Stars·Tri Dao发明·2-4倍加速·O(N)内存·Transformer标配·Llama/Mistral/CodeLlama内置&lt;/h1>
&lt;h2 id="一项目概述">一，项目概述&lt;/h2>
&lt;h3 id="11-flash-attention-是什么">1.1 Flash Attention 是什么&lt;/h3>
&lt;p>&lt;strong>Flash Attention&lt;/strong> 是由 &lt;strong>Tri Dao&lt;/strong>（斯坦福大学）发明的&lt;strong>快速、内存高效、精确的注意力机制算法&lt;/strong>。&lt;/p></description></item><item><title>SkyPilot：9.8K Stars·任意云LLM服务框架·自动故障转移</title><link>https://txtmix.com/posts/tech/skypilot-any-cloud-llm-serving-guide/</link><pubDate>Sun, 12 Apr 2026 02:31:39 +0800</pubDate><guid>https://txtmix.com/posts/tech/skypilot-any-cloud-llm-serving-guide/</guid><description>&lt;h1 id="skypilot98k-stars任意云llm服务框架自动故障转移spot实例节省701000任务天10m成本节省">SkyPilot：9.8K Stars·任意云LLM服务框架·自动故障转移·Spot实例节省70%·1000+任务/天·$10M+成本节省&lt;/h1>
&lt;h2 id="一项目概述">一，项目概述&lt;/h2>
&lt;h3 id="11-skypilot-是什么">1.1 SkyPilot 是什么&lt;/h3>
&lt;p>&lt;strong>SkyPilot&lt;/strong> 是一个&lt;strong>任意云LLM和AI服务框架&lt;/strong>，可以在任何云（AWS、GCP、Azure、Lambda、Cloudflare等）上运行LLM、AI模型和批处理任务。&lt;/p></description></item><item><title>Unsloth：61K Stars·本地AI训练与推理平台·2倍速</title><link>https://txtmix.com/posts/tech/unsloth-ai-training-inference-platform-guide/</link><pubDate>Sun, 12 Apr 2026 02:31:39 +0800</pubDate><guid>https://txtmix.com/posts/tech/unsloth-ai-training-inference-platform-guide/</guid><description>&lt;h1 id="unsloth61k-stars本地ai训练与推理平台2倍速70显存节省完全指南">Unsloth：61K Stars·本地AI训练与推理平台·2倍速·70%显存节省完全指南&lt;/h1>
&lt;h2 id="一项目概述">一、项目概述&lt;/h2>
&lt;h3 id="11-unsloth-是什么">1.1 Unsloth 是什么&lt;/h3>
&lt;p>&lt;strong>Unsloth Studio&lt;/strong> 🦥 是一个强大的&lt;strong>本地 AI 训练与推理平台&lt;/strong>，支持在 Windows、Linux、macOS 上运行和微调文本、音频、embedding、视觉模型。&lt;/p></description></item></channel></rss>