本地AI on Text Matrix

llama.cpp - 纯C/C++实现的高效LLM推理引擎

Mon, 18 May 2026 00:00:00 +0000

llama.cpp：纯C/C++实现的高性能LLM推理引擎

Stars: 110,785 | 今日: +18,344 | C++

一句话评价

llama.cpp 是用纯 C/C++ 重写 LLaMA 推理的项目，如今已成为本地 LLM 推理的事实标准，支持 1.5bit~8bit 量化、Apple Silicon 硬件加速、CUDA/ROCm/Vulkan 多后端，无需任何依赖即可在任意设备运行百亿参数模型。

本地AI时代的搞钱地图：隐私优先产品如何打开付费大门

Mon, 11 May 2026 08:50:00 +0800

本文不构成投资建议。本文讨论的是产品思路和商业模型，文中提到的案例与观点均来自公开资料，热度数据以 2026 年 5 月 11 日抓取结果为准。

这篇 HN 热帖，重点不在“本地模型万岁”

5 月 10 日，unix.foo 的文章 Local AI Needs to be the Norm 登上 Hacker News 首页。到我整理这篇文章时，讨论页大约有 518 分、248 条评论。原文里更值得拆开的，不是“本地模型已经全面追平云端”这种口号，而是另一句更有产品意义的判断：很多 AI 功能，本来只是应用里的一个小能力，却被做成了依赖外部模型、账单、日志留存和后端兜底的分布式系统。

Ghost Pepper：1.4k Stars本地语音转文字，Hold Control即可转录粘贴

Wed, 08 Apr 2026 08:35:00 +0800

Ghost Pepper：1.4k Stars本地语音转文字

项目概述

Ghost Pepper是一款macOS上的本地语音转文字工具，核心特点是100%本地运行，不依赖任何云端API。用户只需按住Control键说话，松开后即可自动将语音转录为文字并粘贴到任意文本框中。

MLX-VLM：Apple Silicon 上的视觉语言模型推理与微调框架

Mon, 06 Apr 2026 17:30:00 +0800

MLX-VLM：Apple Silicon 上的视觉语言模型推理与微调框架

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 MLX-VLM 的技术架构与设计理念
掌握在 Mac 上安装、配置 MLX-VLM 的完整流程
学会使用命令行界面、Python API、FastAPI 服务器等多种调用方式
理解视觉特征缓存（Vision Feature Caching）的工作原理与性能优化
掌握 TurboQuant KV Cache 量化技术实现更长上下文的方法
学会使用 LoRA/QLoRA 对视觉语言模型进行微调

1. 项目概述

1.1 是什么

MLX-VLM 是由 Blaizzy Prince Canuma 开发的一个开源项目，专注于在 Apple Silicon Mac 上使用 MLX 框架进行视觉语言模型（Vision Language Models，VLM）的推理和微调。