Transformer on Text Matrix

TabPFN：表格数据的 GPT 时刻，革命性 AutoML 基础模型

Fri, 08 May 2026 03:11:04 +0800

学习目标

读完这篇文章后，你应该能够：

理解 TabPFN 作为"表格数据基础模型"的设计理念，以及它与传统 AutoML 管道的本质区别。
解释 TabPFN 如何通过 In-Context Learning 在不更新参数的情况下完成新任务。
掌握 TabPFN 的 Python API 使用方法，能够在真实数据集上快速完成分类/回归任务。
判断 TabPFN 与传统 AutoML（如 AutoGluon、FLAML）以及深度学习表格模型（如 FT-Transformer）的各自适用场景。
了解 TabPFN 的当前限制和团队的未来路线图。

一、项目概述

1.1 什么是 TabPFN

TabPFN（PriorLabs/TabPFN，6.7k Stars）全称是 “Tabular Prior-Data Fitted Network”，是一个专为表格数据（Tabular Data）设计的预训练 Transformer 模型。

TabPFN: 表格数据的 Foundation Model 完整指南

Wed, 06 May 2026 10:07:31 +0800

TabPFN: 表格数据的 Foundation Model 完整指南

机器学习实践中，表格数据是最常见也最顽固的领域之一。长期以来，处理表格数据的标准流程是：选模型、调超参、反复训练——这一套下来，少则几十分钟，多则几天。面对一个陌生数据集，光是跑通一个 Baseline，就可能耗掉工程师大半天时间。

TensorLogic：Pedro Domingos论文实现·神经符号统一推理框架·FB15k-237基准MRR 0.347

Fri, 24 Apr 2026 19:10:00 +0800

TensorLogic：Pedro Domingos论文实现·神经符号统一推理框架·FB15k-237基准MRR 0.347

一、项目概述

1.1 TensorLogic是什么

TensorLogic 是一个基于 “Tensor Logic: The Language of AI” 论文（Pedro Domingos, arXiv:2510.12269）的 Python实现，旨在通过 Tensor方程 统一 神经推理 和 符号推理，为AI提供一种结合神经网络学习能力与逻辑推理可解释性的新范式。

Datawhale 大模型基础：从理论到实战的完整 LLM 知识体系

Thu, 23 Apr 2026 19:39:08 +0800

Datawhale 大模型基础：从理论到实战的完整 LLM 知识体系

项目概览

Datawhale 出品的 so-large-lm（大模型基础）是一个开源、系统、深入的大规模预训练语言模型（LLM）教程项目。截至 2026 年 4 月，该项目已获得 7,167 Stars 和 593 Forks，成为中文社区最具影响力的 LLM 学习资源之一。

Flash Attention：40K Stars·Tri Dao发明·2-4倍加速·O(N)内存

Sun, 12 Apr 2026 02:31:39 +0800

Flash Attention：40K Stars·Tri Dao发明·2-4倍加速·O(N)内存·Transformer标配·Llama/Mistral/CodeLlama内置

一，项目概述

1.1 Flash Attention 是什么

Flash Attention 是由 Tri Dao（斯坦福大学）发明的快速、内存高效、精确的注意力机制算法。

OpenAI Whisper：97.2k Stars 通用语音识别完全指南

Mon, 06 Apr 2026 22:50:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 Whisper 的技术原理和架构设计
学会安装配置 Whisper 环境和依赖
掌握不同模型规模的选择和性能对比
学会使用命令行和 Python 进行语音识别
理解 Whisper 的多语言翻译和语言识别功能
掌握性能优化和微调技巧
了解 Whisper 的生态集成和应用场景

1. 项目概述

1.1 是什么

Whisper 是 OpenAI 发布的通用语音识别模型。它在大规模多样化音频数据集上训练，是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。