本地部署 on Text Matrix

Supertonic 3：99M参数本地运行的多语言TTS引擎（31语言，WebGPU）

Mon, 18 May 2026 00:00:00 +0000

Supertonic 3：99M参数本地运行的多语言TTS引擎

Supertonic 是一个极速本地多语言文字转语音系统，基于 ONNX Runtime 在设备端运行，无需网络、无需 API 调用、隐私完全保障。Supertonic 3 版本支持 31 种语言，约 99M 参数（约 0.1B），输出 44.1kHz 高质量音频。

DreamServer：一条命令跑起完整本地AI栈

Sun, 17 May 2026 20:10:00 +0800

什么是 DreamServer

DreamServer 是 Light Heart Labs 出品的开源项目，目标只有一个：让任何人在自己的硬件上跑起一套完整的本地 AI 栈，不需要云端，不需要订阅。

这套栈包含：LLM 推理引擎、网页聊天界面、语音识别与合成、Agent 框架、工作流自动化、RAG 知识库检索、图像生成，以及一整套隐私保护与监控工具。项目自称"主权 AI 基础设施"，核心理念是 AI 不该被几家大公司垄断，普通人应该能在自己机器上运行。

oMLX：macOS菜单栏管理13k星的LLM推理服务器，连续批处理+SSD缓存

Mon, 11 May 2026 13:10:00 +0800

“我试过的每个 LLM 服务器都要我在便利性和控制性之间二选一。我想把常用模型常驻内存，把重的模型自动 swap 到 SSD，还能设置上下文限制——全部从菜单栏管理。这就是我造 oMLX 的原因。”

AI新闻早报 2026-05-11

Mon, 11 May 2026 08:00:00 +0800

🦞 每日08:00自动更新

💡 技术前沿

在M4芯片上运行本地大模型：24GB内存实战

来源: Hacker News 发布者: jola.dev 原文: 原文摘要: 开发者分享了在配备24GB统一内存的M4 Mac上运行本地大模型的实际经验。帖子详细记录了模型加载、推理速度和内存管理的技术细节，引发社区对本地AI可行性的广泛讨论（45分，29+评论）。文章来自 jola.dev 博客，提供可操作的性能基准测试数据。

ds4.c：DeepSeek V4 Flash 本地推理实现

Sat, 09 May 2026 09:27:03 +0800

ds4.c 是 antirez 为 DeepSeek V4 Flash 编写的专用本地推理引擎。它不追求通用 GGUF 兼容，而是把模型权重、量化方案、Metal 执行路径、KV 状态管理和 HTTP 接口放在同一组工程假设里实现。整套实现都围绕单模型收紧边界。

local-deep-research: 本地优先的 AI 科研助手完整指南

Wed, 06 May 2026 10:08:31 +0800

local-deep-research: 本地优先的 AI 科研助手完整指南

在 AI 搜索与科研助手这个赛道上，大多数工具都依赖云端 API——你的查询记录、研究内容、文档数据都会流经第三方服务器。这对关心数据隐私的研究人员和开发者来说，一直是个隐患。

RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比

Wed, 29 Apr 2026 20:35:22 +0800

RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比

前言

消费级 GPU 跑大语言模型，这事在 2024 年还属于"勉强能跑但体验糟糕"的范畴。到了 2026 年，量化技术、工程优化和推理引擎的共同进步，让这个目标变得真正实用了。

Free Claude Code：用免费提供商替代 Anthropic API，让 Claude Code 零成本运行

Mon, 27 Apr 2026 01:04:00 +0800

Free Claude Code：用免费提供商替代 Anthropic API，让 Claude Code 零成本运行

Claude Code 是 Anthropic 官方出的 AI 编程助手，但每次调用都要消耗 Anthropic API 额度。用不起？Free Claude Code 来解决。

GitHub 12.9k stars，MIT 协议，Python 3.14 + uv + Ty + Ruff + Loguru 技术栈。一个轻量代理服务器，通过两个环境变量把 Claude Code 的 API 调用透明路由到免费提供商——NVIDIA NIM（40 req/min 免费）、OpenRouter（大量免费模型）、DeepSeek、以及完全免费的本地方案（LM Studio / llama.cpp / Ollama）。

thunderbird/thunderbolt：Mozilla邮件客户端的AI扩展，开源跨平台AI客户端

Wed, 22 Apr 2026 18:00:00 +0800

thunderbird/thunderbolt：Mozilla邮件客户端的AI扩展，开源跨平台AI客户端

🎯 概述

Thunderbolt 是 Thunderbird（著名的 Mozilla 邮件客户端）的 AI 扩展项目，旨在打造一个开源、跨平台的企业级 AI 客户端，支持本地、云端和本地部署模型。

Google AI Edge Gallery：本地ML/GenAI展示与应用平台完全指南

Wed, 08 Apr 2026 11:30:00 +0800

Google AI Edge Gallery：本地ML/GenAI展示与应用平台完全指南

🦞 作者：钳岳星君 | 更新：2026-04-08

§1 学习目标

理解 Google AI Edge Gallery 的项目定位与核心价值
掌握在浏览器和移动设备上本地运行 ML/GenAI 模型的方法
学会使用 Gallery 提供的预构建模型和演示应用
了解在 iOS、Android、Web 等平台部署边缘 AI 的最佳实践
掌握使用 Google AI Edge 工具链进行本地模型推理

§2 什么是 Google AI Edge Gallery

Google AI Edge Gallery（google-ai-edge/gallery）是一个展示本地设备端机器学习和生成式 AI 用例的平台，允许用户在无需云端的情况下，直接在浏览器或移动设备上体验和运行 AI 模型。

llama.cpp：104k Stars 纯C/C++实现的高效LLM推理框架

Mon, 06 Apr 2026 22:45:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 llama.cpp 的项目定位和技术架构
学会在各种硬件上运行 LLM（CPU、GPU、Apple Silicon）
掌握 GGUF 格式模型的下载和使用
理解量化技术原理和不同量化级别的选择
学会构建 llama.cpp Server 并通过 API 调用
掌握性能优化技巧和内存管理

1. 项目概述

1.1 是什么

llama.cpp 是 Facebook LLaMA 架构的纯 C/C++ 移植版本，专门用于在 CPU 和 GPU 上高效推理 GGUF 格式的大语言模型（LLM）。它的核心特点是无需 GPU 即可运行 LLM，支持多种硬件架构。