机器学习 on Text Matrix

paper2code：用AI把arxiv论文变成可验证的代码实现，1.2k星的开源技能

Mon, 11 May 2026 17:50:00 +0800

“LLM 生成的代码运行正常但不匹配论文。更糟的是，你分不清哪些来自论文，哪些是模型自己编造的。"——paper2code 的 README 开篇就点破了当前 AI 代码生成的致命问题。

TabPFN：表格数据的 GPT 时刻，革命性 AutoML 基础模型

Fri, 08 May 2026 03:11:04 +0800

学习目标

读完这篇文章后，你应该能够：

理解 TabPFN 作为"表格数据基础模型"的设计理念，以及它与传统 AutoML 管道的本质区别。
解释 TabPFN 如何通过 In-Context Learning 在不更新参数的情况下完成新任务。
掌握 TabPFN 的 Python API 使用方法，能够在真实数据集上快速完成分类/回归任务。
判断 TabPFN 与传统 AutoML（如 AutoGluon、FLAML）以及深度学习表格模型（如 FT-Transformer）的各自适用场景。
了解 TabPFN 的当前限制和团队的未来路线图。

一、项目概述

1.1 什么是 TabPFN

TabPFN（PriorLabs/TabPFN，6.7k Stars）全称是 “Tabular Prior-Data Fitted Network”，是一个专为表格数据（Tabular Data）设计的预训练 Transformer 模型。

TabPFN: 表格数据的 Foundation Model 完整指南

Wed, 06 May 2026 10:07:31 +0800

TabPFN: 表格数据的 Foundation Model 完整指南

机器学习实践中，表格数据是最常见也最顽固的领域之一。长期以来，处理表格数据的标准流程是：选模型、调超参、反复训练——这一套下来，少则几十分钟，多则几天。面对一个陌生数据集，光是跑通一个 Baseline，就可能耗掉工程师大半天时间。

HuggingFace ml-intern：开源AI工程师，从读论文到训练模型一手包办

Sat, 25 Apr 2026 11:35:00 +0800

HuggingFace ml-intern：开源AI工程师，从读论文到训练模型一手包办

项目地址：huggingface/ml-intern

什么是 ml-intern？

ml-intern 是 HuggingFace 开源的一个自主AI工程师，能够自主研究论文、编写代码、训练模型，并将ML项目完整交付。它利用HuggingFace生态系统，具备深度访问文档、论文、数据集和云计算资源的能力。

ONNX Runtime：微软开源的跨平台机器学习推理加速器

Fri, 24 Apr 2026 12:00:00 +0800

ONNX Runtime：微软开源的跨平台机器学习推理加速器

项目地址：github.com/microsoft/onnxruntime

核心理念：让 ML 模型在任何平台上都能获得最佳的推理性能。

项目概览

ONNX Runtime 是微软开源的跨平台机器学习推理和训练加速器。它可以将 ONNX（Open Neural Network Exchange）格式的模型部署到各种平台和设备上，通过硬件加速器和图优化提供最佳性能。

Claude-Mem：60K Stars·AI记忆系统·让Claude跨越会话持续学习

Sun, 12 Apr 2026 02:31:39 +0800

Claude-Mem：48K Stars·AI记忆系统·让Claude跨越会话持续学习

一、项目概述

1.1 Claude-Mem 是什么

Claude-Mem 是专为 Claude Code 打造的持久化记忆压缩系统，让 AI 在多次会话之间保持上下文连续性。

Hindsight：Agent记忆系统·最准确的记忆系统·SOTA性能

Sun, 12 Apr 2026 02:31:39 +0800

Hindsight：Agent记忆系统·最准确的记忆系统·SOTA性能·8.9K Stars

一、项目概述

1.1 Hindsight 是什么

Hindsight™ 是专为 AI Agent 设计的记忆系统，让 Agent 不仅能记住对话历史，更能从经验中学习。

“Hindsight™ is an agent memory system built to create smarter agents that learn over time. Most agent memory systems focus on recalling conversation history. Hindsight is focused on making agents that learn, not just remember.”

Rockyzsu/stock：7.5K Stars·Python量化交易系统

Sun, 12 Apr 2026 02:31:39 +0800

Rockyzsu/stock：7.5K Stars·Python量化交易系统·A股/港股/基金/转债全覆盖·机器学习+技术分析

一，项目概述

1.1 项目定位

Rockyzsu/stock 是一个面向中文市场的Python量化交易系统，作者署名Rocky Chen，slogan是"更好的帮助自己炒股(亏钱-。-)"。

Scientific Agent Skills：AI科学家必备的134个科研技能库

Sun, 12 Apr 2026 02:31:39 +0800

Scientific Agent Skills：AI科学家必备的134个科研技能库

一、项目概述

1.1 Scientific Agent Skills 是什么

Scientific Agent Skills 是 K-Dense 公司开发的AI科学家技能库，包含 134 个精心策划的科研技能，覆盖生物信息学、药物研发、临床研究、机器学习等 17 个科学领域。

Qlib：微软亚洲研究院 AI 量化投资平台从入门到精通

Wed, 08 Apr 2026 15:00:00 +0800

目标读者：想要系统掌握 Qlib 架构与应用的量化开发者、AI 研究者 核心问题：Qlib 是什么？它的数据层、模型层、策略层如何协同？华炎低代码模块如何使用？难度：⭐⭐⭐⭐（专家设计） 预计阅读时间：50 分钟

GEPA：基于反射式文本进化的 AI 系统优化框架完全指南

Wed, 01 Apr 2026 01:04:00 +0800

GEPA：基于反射式文本进化的 AI 系统优化框架完全指南

§1 学习目标

完成本文档后，你将能够：

✅ 理解 GEPA 的核心定位与设计理念
✅ 掌握 GEPA 的安装与基本使用方法
✅ 理解 GEPA 的反射式进化算法工作原理
✅ 使用 GEPA 优化提示词、系统配置和智能体架构
✅ 掌握 GEPA 与 DSPy、MLflow 等主流框架的集成方法
✅ 理解 Pareto 前沿与 Actionable Side Information 概念
✅ 使用 GEPA 适配器构建自定义优化系统

§2 项目概述

2.1 什么是 GEPA？

GEPA（Genetic-Pareto，GitHub 仓库）是一个用于优化任何文本参数系统的框架，支持提示词、代码、智能体架构、配置等任何文本内容的优化。

Simple ML Code：机器学习从入门到实践的保姆级教程

Sun, 29 Mar 2026 21:30:00 +0800

Simple ML Code：机器学习从入门到实践的保姆级教程

一文读懂 Datawhale 出品的机器学习实战教程，从理论到代码，从算法到调参全覆盖

学习目标

学完本文后，你将掌握：