<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>本地部署 on Text Matrix</title><link>https://txtmix.com/tags/%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/</link><description>Recent content in 本地部署 on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:20:36 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/index.xml" rel="self" type="application/rss+xml"/><item><title>Supertonic 3：99M参数本地运行的多语言TTS引擎（31语言，WebGPU）</title><link>https://txtmix.com/posts/tech/supertonic-3-onnx-tts-engine/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://txtmix.com/posts/tech/supertonic-3-onnx-tts-engine/</guid><description>&lt;h1 id="supertonic-399m参数本地运行的多语言tts引擎">Supertonic 3：99M参数本地运行的多语言TTS引擎&lt;/h1>
&lt;p>&lt;strong>Supertonic&lt;/strong> 是一个极速本地多语言文字转语音系统，基于 ONNX Runtime 在设备端运行，无需网络、无需 API 调用、隐私完全保障。Supertonic 3 版本支持 31 种语言，约 99M 参数（约 0.1B），输出 44.1kHz 高质量音频。&lt;/p></description></item><item><title>DreamServer：一条命令跑起完整本地AI栈</title><link>https://txtmix.com/posts/tech/dreamsserver-ai-server-framework-guide/</link><pubDate>Sun, 17 May 2026 20:10:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/dreamsserver-ai-server-framework-guide/</guid><description>&lt;h2 id="什么是-dreamserver">什么是 DreamServer&lt;/h2>
&lt;p>DreamServer 是 Light Heart Labs 出品的开源项目，目标只有一个：&lt;strong>让任何人在自己的硬件上跑起一套完整的本地 AI 栈，不需要云端，不需要订阅&lt;/strong>。&lt;/p>
&lt;p>这套栈包含：LLM 推理引擎、网页聊天界面、语音识别与合成、Agent 框架、工作流自动化、RAG 知识库检索、图像生成，以及一整套隐私保护与监控工具。项目自称&amp;quot;主权 AI 基础设施&amp;quot;，核心理念是 AI 不该被几家大公司垄断，普通人应该能在自己机器上运行。&lt;/p></description></item><item><title>oMLX：macOS菜单栏管理13k星的LLM推理服务器，连续批处理+SSD缓存</title><link>https://txtmix.com/posts/tech/omlx-apple-silicon-llm-inference-server/</link><pubDate>Mon, 11 May 2026 13:10:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/omlx-apple-silicon-llm-inference-server/</guid><description>&lt;blockquote>
&lt;p>&amp;ldquo;我试过的每个 LLM 服务器都要我在便利性和控制性之间二选一。我想把常用模型常驻内存，把重的模型自动 swap 到 SSD，还能设置上下文限制——全部从菜单栏管理。这就是我造 oMLX 的原因。&amp;rdquo;&lt;/p></description></item><item><title>AI新闻早报 2026-05-11</title><link>https://txtmix.com/posts/news/ai-morning-news-2026-05-11/</link><pubDate>Mon, 11 May 2026 08:00:00 +0800</pubDate><guid>https://txtmix.com/posts/news/ai-morning-news-2026-05-11/</guid><description>&lt;p>🦞 每日08:00自动更新&lt;/p>
&lt;hr>
&lt;h2 id="-技术前沿">💡 技术前沿&lt;/h2>
&lt;h3 id="在m4芯片上运行本地大模型24gb内存实战">在M4芯片上运行本地大模型：24GB内存实战&lt;/h3>
&lt;p>来源: Hacker News
发布者: jola.dev
原文: &lt;a href="https://news.ycombinator.com/item?id=48089091" target="_blank" rel="noopener noreffer ">原文&lt;/a>
摘要: 开发者分享了在配备24GB统一内存的M4 Mac上运行本地大模型的实际经验。帖子详细记录了模型加载、推理速度和内存管理的技术细节，引发社区对本地AI可行性的广泛讨论（45分，29+评论）。文章来自 jola.dev 博客，提供可操作的性能基准测试数据。&lt;/p></description></item><item><title>ds4.c：DeepSeek V4 Flash 本地推理实现</title><link>https://txtmix.com/posts/tech/ds4-c-deepseek-v4-flash-local-inference-engine/</link><pubDate>Sat, 09 May 2026 09:27:03 +0800</pubDate><guid>https://txtmix.com/posts/tech/ds4-c-deepseek-v4-flash-local-inference-engine/</guid><description>&lt;p>ds4.c 是 antirez 为 DeepSeek V4 Flash 编写的专用本地推理引擎。它不追求通用 GGUF 兼容，而是把模型权重、量化方案、Metal 执行路径、KV 状态管理和 HTTP 接口放在同一组工程假设里实现。整套实现都围绕单模型收紧边界。&lt;/p></description></item><item><title>local-deep-research: 本地优先的 AI 科研助手完整指南</title><link>https://txtmix.com/posts/tech/local-deep-research-local-ai-research-assistant-guide/</link><pubDate>Wed, 06 May 2026 10:08:31 +0800</pubDate><guid>https://txtmix.com/posts/tech/local-deep-research-local-ai-research-assistant-guide/</guid><description>&lt;h1 id="local-deep-research-本地优先的-ai-科研助手完整指南">local-deep-research: 本地优先的 AI 科研助手完整指南&lt;/h1>
&lt;p>在 AI 搜索与科研助手这个赛道上，大多数工具都依赖云端 API——你的查询记录、研究内容、文档数据都会流经第三方服务器。这对关心数据隐私的研究人员和开发者来说，一直是个隐患。&lt;/p></description></item><item><title>RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比</title><link>https://txtmix.com/posts/tech/club-3090-rtx-3090-llm-local-serving-guide/</link><pubDate>Wed, 29 Apr 2026 20:35:22 +0800</pubDate><guid>https://txtmix.com/posts/tech/club-3090-rtx-3090-llm-local-serving-guide/</guid><description>&lt;h1 id="rtx-3090-本地运行-llm-实战vllm-与-llamacpp-双引擎对比">RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比&lt;/h1>
&lt;h2 id="前言">前言&lt;/h2>
&lt;p>消费级 GPU 跑大语言模型，这事在 2024 年还属于&amp;quot;勉强能跑但体验糟糕&amp;quot;的范畴。到了 2026 年，量化技术、工程优化和推理引擎的共同进步，让这个目标变得真正实用了。&lt;/p></description></item><item><title>Free Claude Code：用免费提供商替代 Anthropic API，让 Claude Code 零成本运行</title><link>https://txtmix.com/posts/tech/free-claude-code/</link><pubDate>Mon, 27 Apr 2026 01:04:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/free-claude-code/</guid><description>&lt;h1 id="free-claude-code用免费提供商替代-anthropic-api让-claude-code-零成本运行">Free Claude Code：用免费提供商替代 Anthropic API，让 Claude Code 零成本运行&lt;/h1>
&lt;p>Claude Code 是 Anthropic 官方出的 AI 编程助手，但每次调用都要消耗 Anthropic API 额度。用不起？Free Claude Code 来解决。&lt;/p>
&lt;p>GitHub 12.9k stars，MIT 协议，Python 3.14 + uv + Ty + Ruff + Loguru 技术栈。一个轻量代理服务器，通过两个环境变量把 Claude Code 的 API 调用透明路由到免费提供商——NVIDIA NIM（40 req/min 免费）、OpenRouter（大量免费模型）、DeepSeek、以及完全免费的本地方案（LM Studio / llama.cpp / Ollama）。&lt;/p></description></item><item><title>thunderbird/thunderbolt：Mozilla邮件客户端的AI扩展，开源跨平台AI客户端</title><link>https://txtmix.com/posts/tech/thunderbird-thunderbolt-open-source-ai-client/</link><pubDate>Wed, 22 Apr 2026 18:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/thunderbird-thunderbolt-open-source-ai-client/</guid><description>&lt;h1 id="thunderbirdthunderboltmozilla邮件客户端的ai扩展开源跨平台ai客户端">thunderbird/thunderbolt：Mozilla邮件客户端的AI扩展，开源跨平台AI客户端&lt;/h1>
&lt;h2 id="-概述">🎯 概述&lt;/h2>
&lt;p>&lt;strong>Thunderbolt&lt;/strong> 是 Thunderbird（著名的 Mozilla 邮件客户端）的 AI 扩展项目，旨在打造一个&lt;strong>开源、跨平台的企业级 AI 客户端&lt;/strong>，支持本地、云端和本地部署模型。&lt;/p></description></item><item><title>Google AI Edge Gallery：本地ML/GenAI展示与应用平台完全指南</title><link>https://txtmix.com/posts/tech/google-ai-edge-gallery-guide/</link><pubDate>Wed, 08 Apr 2026 11:30:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/google-ai-edge-gallery-guide/</guid><description>&lt;h1 id="google-ai-edge-gallery本地mlgenai展示与应用平台完全指南">Google AI Edge Gallery：本地ML/GenAI展示与应用平台完全指南&lt;/h1>
&lt;p>🦞 作者：钳岳星君 | 更新：2026-04-08&lt;/p>
&lt;hr>
&lt;h2 id="1-学习目标">§1 学习目标&lt;/h2>
&lt;ul>
&lt;li>理解 Google AI Edge Gallery 的项目定位与核心价值&lt;/li>
&lt;li>掌握在浏览器和移动设备上本地运行 ML/GenAI 模型的方法&lt;/li>
&lt;li>学会使用 Gallery 提供的预构建模型和演示应用&lt;/li>
&lt;li>了解在 iOS、Android、Web 等平台部署边缘 AI 的最佳实践&lt;/li>
&lt;li>掌握使用 Google AI Edge 工具链进行本地模型推理&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="2-什么是-google-ai-edge-gallery">§2 什么是 Google AI Edge Gallery&lt;/h2>
&lt;p>&lt;strong>Google AI Edge Gallery&lt;/strong>（&lt;code>google-ai-edge/gallery&lt;/code>）是一个&lt;strong>展示本地设备端机器学习和生成式 AI 用例的平台&lt;/strong>，允许用户在无需云端的情况下，直接在浏览器或移动设备上体验和运行 AI 模型。&lt;/p></description></item><item><title>llama.cpp：104k Stars 纯C/C++实现的高效LLM推理框架</title><link>https://txtmix.com/posts/tech/llama-cpp-gogu-gpu-llm-inference-guide/</link><pubDate>Mon, 06 Apr 2026 22:45:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llama-cpp-gogu-gpu-llm-inference-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>通过本文，你将全面掌握以下核心能力：&lt;/p>
&lt;ul>
&lt;li>深入理解 llama.cpp 的项目定位和技术架构&lt;/li>
&lt;li>学会在各种硬件上运行 LLM（CPU、GPU、Apple Silicon）&lt;/li>
&lt;li>掌握 GGUF 格式模型的下载和使用&lt;/li>
&lt;li>理解量化技术原理和不同量化级别的选择&lt;/li>
&lt;li>学会构建 llama.cpp Server 并通过 API 调用&lt;/li>
&lt;li>掌握性能优化技巧和内存管理&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-项目概述">1. 项目概述&lt;/h2>
&lt;h3 id="11-是什么">1.1 是什么&lt;/h3>
&lt;p>&lt;strong>llama.cpp&lt;/strong> 是 Facebook LLaMA 架构的纯 C/C++ 移植版本，专门用于在 CPU 和 GPU 上高效推理 GGUF 格式的大语言模型（LLM）。它的核心特点是&lt;strong>无需 GPU 即可运行 LLM&lt;/strong>，支持多种硬件架构。&lt;/p></description></item></channel></rss>