<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llama.cpp on Text Matrix</title><link>https://txtmix.com/tags/llama.cpp/</link><description>Recent content in Llama.cpp on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:20:36 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/llama.cpp/index.xml" rel="self" type="application/rss+xml"/><item><title>DreamServer：一条命令跑起完整本地AI栈</title><link>https://txtmix.com/posts/tech/dreamsserver-ai-server-framework-guide/</link><pubDate>Sun, 17 May 2026 20:10:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/dreamsserver-ai-server-framework-guide/</guid><description>&lt;h2 id="什么是-dreamserver">什么是 DreamServer&lt;/h2>
&lt;p>DreamServer 是 Light Heart Labs 出品的开源项目，目标只有一个：&lt;strong>让任何人在自己的硬件上跑起一套完整的本地 AI 栈，不需要云端，不需要订阅&lt;/strong>。&lt;/p>
&lt;p>这套栈包含：LLM 推理引擎、网页聊天界面、语音识别与合成、Agent 框架、工作流自动化、RAG 知识库检索、图像生成，以及一整套隐私保护与监控工具。项目自称&amp;quot;主权 AI 基础设施&amp;quot;，核心理念是 AI 不该被几家大公司垄断，普通人应该能在自己机器上运行。&lt;/p></description></item><item><title>RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比</title><link>https://txtmix.com/posts/tech/club-3090-rtx-3090-llm-local-serving-guide/</link><pubDate>Wed, 29 Apr 2026 20:35:22 +0800</pubDate><guid>https://txtmix.com/posts/tech/club-3090-rtx-3090-llm-local-serving-guide/</guid><description>&lt;h1 id="rtx-3090-本地运行-llm-实战vllm-与-llamacpp-双引擎对比">RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比&lt;/h1>
&lt;h2 id="前言">前言&lt;/h2>
&lt;p>消费级 GPU 跑大语言模型，这事在 2024 年还属于&amp;quot;勉强能跑但体验糟糕&amp;quot;的范畴。到了 2026 年，量化技术、工程优化和推理引擎的共同进步，让这个目标变得真正实用了。&lt;/p></description></item><item><title>TurboQuant+ 深度解读：LLM KV 缓存极限压缩的工程实践</title><link>https://txtmix.com/posts/tech/turboquant-plus-kv-cache-compression-guide/</link><pubDate>Thu, 23 Apr 2026 21:07:12 +0800</pubDate><guid>https://txtmix.com/posts/tech/turboquant-plus-kv-cache-compression-guide/</guid><description>&lt;h2 id="项目概览">项目概览&lt;/h2>
&lt;p>&lt;a href="https://github.com/TheTom/turboquant_plus" target="_blank" rel="noopener noreffer ">TurboQuant+&lt;/a> 是对 Google Research &lt;a href="https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/" target="_blank" rel="noopener noreffer ">TurboQuant&lt;/a> 论文（ICLR 2026）的开源实现与扩展工程。截至 2026 年 4 月，该项目已获得 &lt;strong>6,482 Stars&lt;/strong> 和 &lt;strong>872 Forks&lt;/strong>，是近期最具影响力的 LLM 推理优化开源项目之一。&lt;/p></description></item><item><title>llama.cpp：104k Stars 纯C/C++实现的高效LLM推理框架</title><link>https://txtmix.com/posts/tech/llama-cpp-gogu-gpu-llm-inference-guide/</link><pubDate>Mon, 06 Apr 2026 22:45:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llama-cpp-gogu-gpu-llm-inference-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>通过本文，你将全面掌握以下核心能力：&lt;/p>
&lt;ul>
&lt;li>深入理解 llama.cpp 的项目定位和技术架构&lt;/li>
&lt;li>学会在各种硬件上运行 LLM（CPU、GPU、Apple Silicon）&lt;/li>
&lt;li>掌握 GGUF 格式模型的下载和使用&lt;/li>
&lt;li>理解量化技术原理和不同量化级别的选择&lt;/li>
&lt;li>学会构建 llama.cpp Server 并通过 API 调用&lt;/li>
&lt;li>掌握性能优化技巧和内存管理&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-项目概述">1. 项目概述&lt;/h2>
&lt;h3 id="11-是什么">1.1 是什么&lt;/h3>
&lt;p>&lt;strong>llama.cpp&lt;/strong> 是 Facebook LLaMA 架构的纯 C/C++ 移植版本，专门用于在 CPU 和 GPU 上高效推理 GGUF 格式的大语言模型（LLM）。它的核心特点是&lt;strong>无需 GPU 即可运行 LLM&lt;/strong>，支持多种硬件架构。&lt;/p></description></item><item><title>BitNet：微软 1-bit LLM 推理框架完全指南</title><link>https://txtmix.com/posts/tech/bitnet-microsoft-1bit-llm-inference-guide/</link><pubDate>Mon, 06 Apr 2026 21:21:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/bitnet-microsoft-1bit-llm-inference-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>通过本文，你将全面掌握以下核心能力：&lt;/p>
&lt;ul>
&lt;li>深入理解 BitNet 的项目定位、1-bit LLM 原理和技术架构&lt;/li>
&lt;li>掌握在 CPU 和 GPU 上构建和运行 BitNet 的方法&lt;/li>
&lt;li>学会使用官方预训练模型和量化工具&lt;/li>
&lt;li>理解 I2_S、TL1、TL2 等量化内核的技术细节&lt;/li>
&lt;li>掌握性能基准测试和优化技巧&lt;/li>
&lt;li>理解与 llama.cpp 的关系和差异化定位&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-项目概述">1. 项目概述&lt;/h2>
&lt;h3 id="11-是什么">1.1 是什么&lt;/h3>
&lt;p>BitNet 是微软官方发布的 &lt;strong>1-bit LLM 推理框架&lt;/strong>，核心理念是让 1-bit 大语言模型（如 BitNet b1.58）能够在 CPU 和 GPU 上实现&lt;strong>快速、无损&lt;/strong>的推理。&lt;/p></description></item><item><title>Quantization 量化技术完全指南：从原理到 LLM 实战</title><link>https://txtmix.com/posts/tech/llm/quantization-llm-model-compression-guide/</link><pubDate>Sun, 29 Mar 2026 23:28:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llm/quantization-llm-model-compression-guide/</guid><description>&lt;hr>
&lt;h2 id="一先看一个惊人的事实">一、先看一个惊人的事实&lt;/h2>
&lt;p>&lt;strong>Qwen-3-Coder-Next&lt;/strong> 是一个 800 亿参数的模型：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>体积：159.4GB&lt;/strong>&lt;/li>
&lt;li>需要至少 159GB 内存才能运行&lt;/li>
&lt;li>这还不算「大型」模型——据说前沿模型超过 &lt;strong>1 万亿&lt;/strong>参数，需要 &lt;strong>2TB+&lt;/strong> 内存&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>但如果我告诉你：&lt;/strong>&lt;/p></description></item></channel></rss>