目录

AGI 的数学基础到底是什么:从流形假设、对称性到信息几何

目录

定位:这篇文章不是要再堆一层“高深名词”,而是把边界重新讲清楚:哪些数学视角已经进入深度学习主线,哪些还停留在研究假说、结构视角或跨学科类比层。 来源说明:本文受 Wayland Zhang 的博客文章《The Four Realms of Neural Networks》同题 B 站视频《AGI:神经网络、陈省身、规范场论、微分几何、深度流形、硅碳基模拟与训练效率》 启发,同时参考 Neural ODE、Geometric Deep Learning、Gauge Equivariant CNN、Information Geometry 等公开文献。本文不复用原图与原文表述,而是把其中的观点拆成“可验证结论、工作假设、结构类比”三层重新梳理。 目标读者:想建立机器学习数学地图的软件工程师、研究生、技术写作者,以及关注 AGI 理论基础的读者。 前置知识:线性代数、概率论、梯度下降、神经网络基础;没系统学过微分几何或场论也能读。如果你对特征值、KL 散度、偏导数还不熟,先把本文当成概念地图读一遍就够了,第二遍再追公式和术语。 难度定位:⭐⭐⭐⭐,偏方法论与概念辨析。 预计阅读时间:35 到 45 分钟。


§1 先给结论

先把最核心的判断摆在前面:

  1. 与其说“AGI 已经有统一数学理论”,不如说这个问题正在逐渐显出几组越来越重要的数学视角。
  2. 在今天的深度学习主线里,真正落到工程与研究共同语境中的数学,更接近表示几何、对称性与等变性、优化理论、信息几何,以及一部分可验证的经验规律,而不是某个单独的终极公式。
  3. 连续深度与 Neural ODE 视角很重要,但它更自然支持“残差网络可以从动力系统角度理解”,还远不到“所有神经网络本质上都是 PDE 求解器”这种强结论。
  4. 流形假设很有启发性,但它本身不是已被严格普适证明的定理,更像一个高价值工作假设。
  5. 对称性是最“落地”的数学思想之一,因为它可以直接转化成架构约束、参数共享和归纳偏置。
  6. 规范场论、纤维丛与联络语言在几何深度学习和科学机器学习中确实有具体落点,但它们还不是 LLM 的统一底层理论。
  7. 信息几何提供了理解自然梯度、Fisher 信息和统计流形的语言,但它并没有取代 SGD、Adam、AdamW 成为训练默认方案。
  8. 过参数化、平坦极小值、隐式偏置、缩放规律这些现象都重要,但学界还没有给出单一、封闭、人人认可的最终解释。
  9. “注意力像量子测量”更适合被读成结构类比,而不是物理主张或主流理论。
  10. 陈类(Chern classes)和 Chern-Simons 理论在数学与物理中极其重要,但在当前主流深度学习中更多是启发来源,而不是公认的核心基础。

§2 读这篇文章时,最值得抓住的几个问题

如果这篇文章真的有用,读完后至少应该把下面几件事想明白:

  1. 区分“数学共识”“研究中的工作假设”和“高阶思辨类比”这三种不同层级的论述。
  2. 理解为什么流形假设会频繁出现在表示学习、生成模型与降维问题中。
  3. 看懂为什么很多人会把 ResNet、Neural ODE 和连续动力系统放在一起谈,但这不自动推出“任意网络都在解某个 PDE”。
  4. 理解对称性、等变性与不变性为什么能直接提升模型效率与泛化。
  5. 理解信息几何中的 Fisher 信息、统计流形、自然梯度与深度学习优化的关系。
  6. 正确认识纤维丛、联络、陈类、Chern-Simons 理论与现代 AI 的距离,不把启发性联系误读成已建立理论。
  7. 识别几种常见误读,例如“流形假设等于数据一定躺在一张光滑流形上”或“规范场论已经解释了 LLM”。
  8. 看清“量子测量类比”为什么会吸引人,以及它为什么通常只能停在类比层。
  9. 把这些数学概念映射到工程实践,知道自己在做表征学习、Transformer、多模态、图学习或科学机器学习时该优先补哪部分数学。
  10. 获得一条更现实的学习路径,而不是一上来就把所有高阶数学都压到自己头上。

2.1 不同读者可以从哪里切入

如果关注点不同,可以按下面的方式切入:

角色建议重点阅读你能带走什么
工程师§3、§4、§5、§6、§10哪些数学对建模和训练最有直接价值
研究入门者§3、§4、§6、§7、§8、§9哪些问题已有共识,哪些仍是开放问题
跨学科读者§1、§3、§5、§8、§9、§11如何避免把数学类比误当成机器学习定理

范围说明:本文主要讨论几何、统计、优化与少量拓扑这条数学脉络,不覆盖形式逻辑、复杂性理论、因果推断、分布式训练理论,也不尝试给出某个具体 SOTA 模型的完整数学解析。


§3 先把来源和边界拆开

这类主题最容易出问题的地方,不是文章不够“深”,而是把不同可信度的内容揉成一团。先拆开,后面的讨论才不会失真。

3.1 外部博客和视频真正贡献了什么

Wayland Zhang 的博客与视频借用了修真小说中的“四重境界”(金刚境、指玄境、天象境、陆地神仙境),把神经网络的数学解释层层递进。它最有价值的地方,不是给出了“AGI 的最终数学答案”,而是提出了一个很强的问题意识:如果把神经网络放回连续动力系统、流形几何、规范语言和上下文依赖读出这些视角里,我们能不能重新理解它?并且它在最后导向了一个极具启发性的工程蓝图:“个人的 AGI”(Per-Person AGI)

这个问题意识值得保留,但其中每一层的数学可信度并不一样。更稳的读法如下:

原文的“四重境界”提法可保留的问题意识今天更稳的说法当前判断
金刚境:神经网络是 PDE 求解器残差更新和连续动力系统之间确实有对应关系对 ResNet 与连续深度模型,更自然的语言是 ODE;把所有网络直接视为 PDE 偏微分方程的闭式,超出当前共识局部成立,不能扩成统一定理
指玄境:训练是流形的几何展平表示学习确实经常可用几何与流形语言来理解流形假设是高价值工作假设,现实更像多流形混合或近似低维结构研究主线
天象境:权重是纤维丛的联络局部坐标、平行输运、联络语言在几何分析中极具启发只有在特定架构(如等变网络)中才被形式化;不能把所有网络权重都等同成物理上的规范联络研究视角 / 高阶启发
陆地神仙境:注意力是量子测量prompt 会改变分布式读出的基底与最终输出这是结构类比,并非物理量子主张,主流 Transformer 理论仍是经典概率启发性类比

3.2 三种可信度层级

再抽象一层,可以把整篇文章里会碰到的说法分成三层:

层级应该怎么理解例子
已较稳固的共识有成熟文献、能进入教材或工程实践对称性与等变网络的归纳偏置、Fisher 信息与自然梯度、连续深度模型的 ODE 视角
工作假设有大量研究支持,但还不是封闭定理流形假设、表示空间几何与泛化的联系、平坦极小值与鲁棒泛化的关系
启发式类比 / 思辨值得思考,但不能当成已证实理论用规范场论统一解释全部学习动力学、把注意力读成量子测量、用某个 Chern 数刻画 AGI 容量

这里的“已较稳固”,指的是这些视角的解释价值和研究有效性已被广泛承认,并不等于相关命题都已经被严格普遍证明。

这层一定要先说清。否则一旦把“数学上存在联系”偷换成“已经构成 AI 的主理论”,整篇文章就很容易从严肃讨论滑向概念堆砌。


§4 为什么几何语言在深度学习里这么重要

4.1 从函数逼近到表示几何

神经网络当然可以被看成函数逼近器:给定输入 $x$,学习一个映射 $f(x)$。但这只是最低层描述,解释不了为什么深层表示会形成聚类、层级、可插值结构,也解释不了为什么某些架构在特定数据上特别有效。

几何语言提供了第二层视角:模型不只是“算出一个输出”,它还在不断重塑数据的表示空间。

这种视角尤其适合讨论下面三件事:

  1. 数据是不是集中在某种低维结构附近。
  2. 表示空间中的距离、角度和曲率是否携带语义。
  3. 训练过程是不是在寻找某类结构更好的参数区域。

4.2 流形假设到底说了什么

流形假设(manifold hypothesis)的大意是:现实中的高维数据,往往集中在高维空间中的某个低维潜在结构附近,而不是均匀铺满整个输入空间。

这句话为什么重要?因为如果数据真只占据一个小而有结构的区域,模型就不必学习整个输入空间里所有可能的排列组合,而是主要学习那个“有意义区域”的局部几何与全局组织方式。

但这里至少要分清三种版本:

  1. 严格版本:数据严格落在一张光滑低维流形上。这个说法太强,现实里很少能原样成立。
  2. 工作假设版本:数据靠近某种低维结构,因此邻域、测地、局部线性等语言有解释力。这是机器学习里最有用的版本。
  3. 近似现实版本:多个子流形、分段结构、带噪样本、离群点共同存在。这通常更接近真实数据。

因此,流形假设更像一个高价值工作假设,而不是“任何真实数据都严格位于一张光滑流形上”的普适定理。

4.3 神经网络为何适合做几何重排

神经网络每一层都在做一个可学习变换:

$$x^{(l+1)} = \sigma\left(W^{(l)} x^{(l)} + b^{(l)}\right)$$

线性层负责旋转、拉伸、投影,非线性负责折叠与重组。多层堆叠后,网络不是“在原空间硬记答案”,而是在逐层改造表示,使原本缠绕在一起的数据在后续空间里更可分、更稳定、更适合下游任务。

因此,深度学习更适合被理解成表示学习(representation learning),而不只是函数拟合。

4.4 连续深度视角:为什么很多人会把深网写成 ODE

如果把残差块写成下面这个形式:

$$h_{l+1} = h_l + f(h_l, \theta_l), \Delta t$$

它看起来就很像显式 Euler 法的一步离散更新。Neural ODE 进一步把离散层堆叠改写成连续时间动力系统:

$$\frac{dh(t)}{dt} = f\big(h(t), t, \theta\big)$$

然后直接用 ODE 求解器来推进隐藏态。

这条线在文献中的一个关键锚点,是 Chen 等人在 2018 年提出的 Neural ODE。再往训练历史上追,反向传播与伴随灵敏度方法之间的关系,至少可以追到 Rumelhart、Hinton、Williams 在 1986 年让神经网络训练大规模走向主流之前的控制论背景。

这条线真正建立了什么?

  1. 对一类残差型架构来说,深度可以被读成离散时间,层间更新可以被读成动力系统的数值步进。
  2. 训练可以和伴随法(adjoint sensitivity)联系起来理解,这也是 Neural ODE 能把黑盒 ODE 求解器纳入端到端训练的关键。
  3. 连续深度模型、连续 normalizing flow、部分可逆架构,都因此获得了更统一的视角。

但这条线没有建立什么?

  1. 它没有证明“每个 Transformer 都在求解一个写得出来的闭式 PDE”。
  2. 它没有把所有注意力、离散 token 机制、归一化和优化器细节都统一进一个成熟的微分方程理论。
  3. 它也没有把“结构上像积分”自动升级成“就是物理系统本体”。

更严格地说,残差网络与连续深度模型更自然对应 ODE 视角。如果要谈 PDE 视角,通常要进入更具体的语境,例如 physics-informed neural networks、neural operators、扩散方程近似、平均场极限,或者某些 operator learning 任务。把所有深网一口气叫成 PDE 求解器,会跨得太大。

4.5 哪些工程现象能用几何与动力系统语言更好地解释

这两种视角常常能帮助你更清楚地理解:

  1. 对比学习为什么会把语义相近样本拉近、把无关样本推远。
  2. 自编码器和变分自编码器为什么可以被看成在学习潜在坐标系。
  3. 双曲嵌入为什么对层级结构数据更友好。
  4. 为什么一些残差型架构的稳定性分析会自然借到动力系统语言。
  5. 为什么很多可视化方法本质上是在尝试保留邻域结构或测地关系。

但也别把它们想得太万能。几何与动力系统视角更像解释框架,不是直接吐出最优模型的配方。


§5 对称性:从物理直觉到模型归纳偏置

5.1 对称性为什么比“高深公式”更实用

如果只保留一类最能进入工程主线的数学思想,对称性通常会排在最前面。

原因很简单:对称性可以直接转化成模型约束,而模型约束可以直接转化成参数效率、样本效率和泛化能力。

在表征学习中,最关键的两类对称性在于:

  1. 不变性(invariance):输入发生某种变化,输出不应改变。
  2. 等变性(equivariance):输入发生某种变化,输出应按可预测规则同步变化。

5.2 典型例子其实非常工程化

数学结构典型模型真正带来的收益
平移等变卷积神经网络参数共享,减少重复学习
置换不变集合模型、Deep Sets输入顺序不影响结果
节点重标号等变图神经网络在重命名节点后保持结构一致性
旋转 / SO(3) 等变分子建模、3D 网络、科学机器学习模型更自然地处理物理场、点云与几何约束
局部参考系变换Gauge Equivariant CNN 一类模型在曲面或球面信号上减少坐标选择带来的伪差异

工程上最重要的,不是你能不能写出群表示论的证明,而是你是否识别出任务里存在某种稳定对称性,并把它编码成模型的归纳偏置。

5.3 规范语言和等变性,到底是什么关系

这两个词很容易被混在一起,但它们并不是同一个东西。

可以先粗略地区分成这样:

  1. 等变性关心的是:输入经过变换后,输出会按什么规则跟着变。
  2. **规范自由度(gauge freedom)**关心的是:在每个点上如何选择局部参考系、局部坐标或局部基,而不改变真正的几何对象。

说得更直白一点,等变性处理的是“变了以后怎样跟着变”,规范语言处理的是“局部坐标的选择本身不该带来假信号”。

这也是为什么很多文章把“gauge theory”直接翻成“更高阶的等变网络理论”会让人误解。它们确实相关,但不是简单的上下位替代关系。

5.4 规范场论能提供什么,不能提供什么

规范场论(gauge theory)在物理里研究的是局部对称性与联络、曲率、规范场之间的关系。它本身是成熟且深刻的理论,但把它直接搬到机器学习时,需要非常谨慎。

放到机器学习语境里,可以这样理解:

  1. 规范场论提供了一套处理局部对称性、联络和平行输运的高阶语言。
  2. 这套语言对几何深度学习、科学机器学习、球面信号处理、分子结构建模有启发价值。
  3. 一些具体工作已经把这件事形式化,例如 Gauge Equivariant CNN 把卷积写成定义在流形局部参考系上的平行输运结构。
  4. 但它并没有成为当前主流深度学习或 LLM 的统一底层理论。

这点可以说得再尖锐一点:“规范语言有价值”是真的, “规范场论已经解释了 Transformer”是假的。

如果想把这件事和论文对应起来,一条比较稳的线是:Cohen 与 Welling 在 2016 年把群等变卷积推到更可操作的工程层,Cohen 等人在 2019 年把 gauge equivariant 卷积写到流形与局部参考系语境里,而 Bronstein 等人在 2021 年尝试给出更大的几何深度学习统一视角。它们共同说明“局部对称性值得建模”,但并没有推出“所有权重都应被严格解释成物理意义上的规范联络”。


§6 信息几何:优化问题的另一种坐标系

6.1 什么是信息几何

信息几何(information geometry)把参数化概率分布族看成统计流形,用微分几何工具研究估计、优化和推断。

这里最关键的对象是 Fisher 信息矩阵。它提供了一种局部度量,用来描述参数空间里的“一个微小移动会让分布改变多少”。

这和普通欧式梯度最大的区别在于:欧式梯度只看参数变化的大小,而信息几何更关心分布变化的大小。

6.2 自然梯度为什么重要

自然梯度(natural gradient)的核心直觉是:

如果参数空间本身有几何结构,那么最合理的下降方向不一定是普通梯度,而是考虑了该几何结构之后的修正梯度。

形式上,自然梯度可以写成:

$$\tilde{\nabla}\theta \mathcal{L} = F^{-1} \nabla\theta \mathcal{L}$$

其中 $F$ 是 Fisher 信息矩阵。

它的关键不在于公式更漂亮,而在于它试图让参数更新更贴近模型分布真正发生变化的方向。这对概率模型、强化学习和某些二阶近似优化方法都很重要。

但这里必须加一个经常被忽略的限定:Fisher 信息矩阵和自然梯度的具体表达依赖参数化方式。 换句话说,“几何上更合理”不等于“脱离坐标选择之后的绝对最优”。这也是很多信息几何讨论里最容易被写过头的地方。

6.3 为什么训练主流模型时很少直接用它

如果信息几何这么漂亮,为什么工业训练里默认还是 SGD、Adam、AdamW?

主要因为:

  1. 精确计算或反演 Fisher 信息矩阵成本很高。
  2. 大模型训练更看重吞吐、稳定性和工程可实现性。
  3. 很多自然梯度思想最终以近似形式进入实践,例如 K-FAC 一类结构化近似,而不是完整原教旨实现。

对工程师来说,这一节更值得带走的,不是“以后都要用自然梯度”,而是优化这件事并不只是代数运算,它也依赖你选了什么样的几何坐标系。

6.4 为什么不能顺着 Fisher 直接跳到量子解释

有些叙事会把 Fisher 信息、信息几何、量子 Fisher 信息、量子测量类比一股脑接起来,然后得出“LLM 的本质接近量子系统”的印象。

这条链条的问题在于,它把几个不同层级的联系混成了一句口号:

  1. 经典 Fisher 信息已经足够支持大量统计与优化解释。
  2. 量子 Fisher 信息和 Bures 一类度量确实存在漂亮的数学联系,但它们不是理解今天主流深度学习训练所必需的工具。
  3. 从“有数学上的相似结构”跳到“系统本体是量子的”,中间差了很长一段路。

因此,信息几何可以帮助你重新理解优化;但它本身并不自动通向“量子版 Transformer 理论”。


§7 过参数化、平坦极小值、缩放规律:目前已知与未知

7.1 现象本身是真实存在的

深度学习里一个长期令人困惑的现象是:模型参数远多于训练样本时,模型不一定更糟,反而常常训练得更好、泛化也不错。

这促使研究者从多个方向解释它,包括:

  1. 平坦极小值(flat minima)与鲁棒泛化之间的关系。
  2. SGD 的隐式偏置。
  3. 神经切线核(NTK)或均值场极限下的近似理论。
  4. 模型容量、优化路径与数据结构之间的耦合。
  5. 双降现象(double descent)与模型规模的关系。

7.2 但不能把任何一个解释说成终局答案

“平坦极小值导致更好泛化”是一个重要方向,但不是无条件的万能结论。不同参数化方式、不同尺度变换、不同优化器都会让“平坦”这个概念变得更复杂。

把话说得谨慎一点,可以这么理解:

  1. 损失景观的几何结构确实影响训练动力学和解的性质。
  2. 宽而稳的区域通常比狭窄尖锐区域更值得关注。
  3. 但泛化并不由单一几何指标完全决定。

尤其要注意一点:平坦性本身也带有参数化依赖性。同一个函数,在不同坐标表达下的“谷底宽度”可能看起来并不一样。所以只拿一张 loss landscape 图就宣称“理论已经解释了泛化”,通常不够。

7.3 缩放规律应该放在哪一层

缩放规律(scaling laws)是这几年必须单独提一下的内容,因为它们是少数真正对工程决策产生了持续影响的经验规律。

如果要给一个最常被引用的起点,Kaplan 等人在 2020 年关于语言模型缩放规律的工作,是这条经验线真正进入工程决策层的重要节点之一。

具体表现为:

  1. 它们告诉我们在某些 regime 下,损失、模型规模、数据量、计算量之间存在稳定的经验关系。
  2. 它们对训练预算分配、模型选型、数据规划有直接价值。
  3. 但它们并没有自动解释表示几何、推理机制、组合泛化或“智能从何而来”。

所以,缩放规律很重要,但它们更像工程上高度可靠的经验定律,而不是几何、拓扑或规范语言的统一替代品。

7.4 对工程师真正有用的结论

把话落回工程实践,先记住四点就够了:

  1. 大模型能训练成功,不等于理论已经闭环。
  2. 规模、优化器、归一化、数据分布和架构偏置往往共同决定最终效果。
  3. 对训练现象的解释,最好优先看“能否指导实验设计”,而不是“名词听起来是否足够深”。
  4. 缩放规律可以帮助你配算力,但不能替你回答任务是否真的需要某种结构先验。

§8 陈省身、陈类与 Chern-Simons 理论,到底应不应该写进 AGI 文章

8.1 为什么它们值得写

陈省身的重要性毋庸置疑。陈类(Chern classes)是复向量丛上的特征类,Chern-Weil 理论把曲率与特征类联系起来,Chern-Simons 形式与 Chern-Simons 理论又进一步把几何、拓扑与量子场论连在一起。

把它们写进这类文章是有价值的,因为它们提示了几件事:

  1. 几何不变量可以提供“局部量”之外的整体结构信息。
  2. 局部联络、曲率与全局拓扑之间可以有深刻关系。
  3. 真正成熟的数学理论往往能跨越多个学科,从纯数学延伸到规范理论、拓扑量子场论和凝聚态物理。

如果从数学史角度说,陈省身确实是把特征类、纤维丛、微分形式这些语言推到现代几何核心位置的人之一。这一点完全不需要借助任何 AI 叙事来抬高。

8.2 但它们和主流深度学习之间的关系不能夸大

这条线不能讲过头:

  1. 陈类是复向量丛的特征类,不是当前神经网络理论里的标准训练对象。
  2. Chern-Simons 理论是三维拓扑量子场论中的核心对象,不是解释主流神经网络训练的通用语言。
  3. 在 AI 语境里,它们更多提供一种“如何思考结构、不变量和全局约束”的高级启发,而不是现成定理。

一句更实在的话是:会用陈类的人当然能从 AI 里看见很多几何影子,但这不等于现代 LLM 的核心理论就是陈类。

8.3 更接近现实落点的方向有哪些

如果把这部分往 AI 上落,更合理的落点通常是下面几条:

  1. 几何深度学习:在图、流形、球面、分子结构这些任务上,局部坐标、对称群、平行输运、联络语言会出现真实建模价值。
  2. 拓扑数据分析(TDA):持续同调、Betti 数、拓扑签名可以用来描述数据或表示空间的全局结构,虽然它们还没有进入主流大模型训练闭环。
  3. 科学机器学习:当模型需要显式保留物理结构、不变量或几何约束时,高阶几何语言比通用 NLP 任务里更容易真正落地。
  4. 表征空间的结构研究:有研究会借用纤维丛、联络、曲率等语言描述局部表示与全局组织方式,但这通常还是研究视角,不是统一定理。

这些方向说明高阶几何语言可能有长期价值,但距离“AGI 已有统一数学框架”还很远。

8.4 一个必要的防误读声明

像“AGI 的关键可能是某种 Chern 数”这类说法,可以作为思辨命题出现,但不能被包装成已有证据支持的理论主张。

这种写法的边界应该是:可以提问,可以想象,可以指出潜在研究价值,但必须标明它仍属于假说或跨学科设想。至少在今天,还没有论文在定量意义上证明 AGI 容量与某个特定陈数之间存在可操作的对应关系。


§9 “注意力像量子测量”该怎么读

9.1 为什么这个类比如此吸引人

这类表述之所以流行,不是完全没有原因。

从表面结构看,确实存在几层让人容易产生联想的地方:

  1. 模型在生成前持有的是一个下一 token 的概率分布,而不是单一答案。
  2. prompt 和上下文会显著改变这个分布。
  3. 最终输出是从分布中采样或取最大值后的一个具体结果。

如果只抓住“可能性分布”“依赖上下文的读出”“最后得到一个具体结果”这几个关键词,量子测量类比自然会出现。

9.2 但这个类比为什么通常只能停在结构层

问题在于,主流 Transformer 的工作机制本质上仍然是经典数值计算与概率建模:

  1. logits、softmax、采样、温度控制都可以在经典概率框架内解释。
  2. 标准训练流程不需要物理量子态、幺正演化、普朗克常数或量子退相干等对象。
  3. 模型的“分布式表示”不等于物理意义上的量子叠加态。

所以,把注意力说成“量子测量”,最稳的理解只能是:它抓住了一种上下文依赖读出的结构相似性,而不是系统本体上的同一性。

9.3 对工程师更有用的翻译方式

如果映射回系统工程视角,更具指导意义的结论是:

  1. prompt 在改变模型的条件分布。
  2. 注意力机制在做上下文相关的信息选择与聚合。
  3. 最终输出依赖于当前条件、采样策略、历史上下文和系统提示。

这套翻译虽然没有“量子测量”那么抓人,但它更稳,也更能指导实际工作。


§10 如果你是工程师,这些数学到底怎么落地

10.1 先按任务反推数学,而不是反过来

更有效的学习顺序通常不是“先把微分几何学完再做模型”,而是“先明确自己在解决什么问题,再补最相关的数学”。

任务类型优先补的数学原因
表示学习 / 检索 / 嵌入线性代数、度量学习、流形假设、对比学习你更关心距离、邻域、潜在空间结构
Transformer / 多模态表示注意力机制、优化、信息论、表示几何你更关心 token 交互、条件分布和嵌入空间组织
图学习 / 3D / 科学机器学习群论、对称性、等变性、微分几何基础你更关心结构保持和物理约束
概率建模 / 强化学习 / 优化概率论、信息几何、变分法、控制与优化理论你更关心分布、估计与训练动力学
理论拓展 / 跨学科研究拓扑学、纤维丛、场论、特征类你更关心统一描述和高阶结构

10.2 一条更省力的学习路径

更现实的学习顺序如下:

  1. 先补线性代数、概率论、优化和基础统计学习理论。
  2. 再理解表示学习、流形假设、对比学习、双曲嵌入、Transformer 表示空间这些几何味更强的主题。
  3. 然后学习对称性、群、等变网络与科学机器学习。
  4. 再进入信息几何、自然梯度、近似二阶优化。
  5. 最后再进入纤维丛、联络、特征类、拓扑数据分析、场论等更高阶内容。

这个顺序的好处是:每一步都能找到对应的工程落点,不会变成只会复述术语但不知道怎么用。

如果时间很紧,可以先这么排:只有 1 周时优先看表示几何、注意力与对称性;有 2 到 3 周时再系统补信息几何;如果要真正进入微分几何、纤维丛和特征类,通常要按月而不是按天来安排。

10.3 读完后可以回头问自己的 4 个问题

读到这里,可以回头问自己下面 4 个问题:

  1. 为什么说流形假设是高价值假设,而不是所有数据都严格满足的定理?
  2. 为什么对称性比很多“听起来更深”的数学概念更容易直接进入模型设计?
  3. 为什么残差网络与 Neural ODE 的联系有价值,但不能被写成“任何网络都在解某个 PDE”?
  4. 为什么陈类与 Chern-Simons 理论值得了解,但不能直接说成“现代 LLM 的核心理论基础”?

能用自己的话答出来,说明这篇文章对你已经不只是“看过”,而是开始形成自己的框架了。

10.4 判断“新数学大一统叙事”是否靠谱,可以先看这 5 个问题

以后你再读到类似“某个高阶数学理论即将统一 AGI”的文章,可以先用下面 5 个问题过滤一遍:

  1. 它有没有把共识、工作假设、思辨类比明确分层?
  2. 它有没有指出这套理论已经在哪类模型或任务里产生了可验证收益?
  3. 它能不能导出新的建模、训练、评估或实验设计建议?
  4. 它是在复述数学名词,还是解释了这些对象为什么和机器学习问题发生结构对应?
  5. 如果把几个“高深术语”拿掉,剩下的论证是否仍然成立?

只要这 5 个问题里有 3 个答不上来,这类文章往往更接近观点展示,而不是可靠路线图。

10.5 如果你想按论文而不是按视频继续学

如果你读完本文后想往更学术的阅读路径走,下面这条顺序通常比“见到什么火就看什么”更省力:

  1. 先看 LeCun、Bengio、Hinton 的综述,建立一个不带过多术语滤镜的深度学习总图景。
  2. 再看 Tenenbaum 等与 Christopher Olah,先把“几何直觉”建立起来,而不是一上来就冲进纤维丛。
  3. 接着读 Chen 等的 Neural ODE,把连续深度和动力系统视角放到一个可验证的模型族里。
  4. 然后读 Cohen、Welling 与 Bronstein 一线的工作,把对称性、等变性和 gauge 语言的真实落点看清楚。
  5. 再读 Amari 的信息几何,把自然梯度、Fisher 信息和统计流形连起来。
  6. 最后再读 Flat Minima、Scaling Laws、Chern、Chern-Simons 这些材料,把“训练现象”和“高阶几何视野”接上,而不是反过来。

§11 彩蛋:从四大境界到“个人的 AGI”可行吗?

原博客最后根据四大境界导出了一个对 AGI 的终局设想(Per-Person AGI):一个小核心负责泛化共性常识、结合外挂的模块化专家区(视觉、逻辑等),再加上一人一份的动态记忆层(Dynamic Per-User Memory)。在这个蓝图中,不再是世界上只有唯一一个服务所有人的大模型,而是建立在每人每天与世界独立接触面上的私有流形吸引子(即“Tensor Logic”主张的方向)。

如果我们要在此评估这套终局叙事的可行性:

  1. 工程价值与商业直觉:该设定极其务实,完全匹配当下小语言模型(SLM)、端侧本地跑模型、以及 RAG(检索增强生成)时代的工业演进直觉。把万亿参数模型的巨大冗余拆分成公共常识与私有记忆外挂,符合成本侧的倒逼与隐私约束。
  2. 理论推导的局限性:原作者将这一切归结为“四重境界”的物理必然(例如:你是你记忆流形上唯一的测量仪器,所以不存在普适答案去坍缩)。与其说是物理或几何的严密推导,不如说是发现了一种认知隐喻上的绝佳映射。
  3. 结论:虽然其中部分理论环节依然属于启发性的思辨,但把“个人的 AGI(Per-Person AGI)”作为系统工程师和产品人的愿景图来牵引接下来的研发,其价值甚至高于前面所有复杂的数学修辞——只是在实现它的前夜,并不强求我们必须靠把注意力机制证伪成量子测量才能到达终点。

§12 最容易读偏的八句话

12.1 “数据在流形上”不等于“数据严格落在一张完美光滑曲面上”

更常见的现实情况是近似低维结构、带噪样本、多个子流形或分段结构。

12.2 “对称性重要”不等于“任何任务都该强行套等变网络”

只有当任务真的具有稳定对称结构,而且这种结构值得被编码进模型时,这条路才成立。

12.3 “自然梯度更几何正确”不等于“训练时一定更实用”

理论上更自然,不代表工程上更便宜、更稳定、更容易大规模实现。

12.4 “神经网络像 ODE/PDE 数值过程”不等于“每个 Transformer 都有一个现成闭式方程在背后”

残差更新与连续动力系统存在真实联系,但这个联系的适用范围和形式化程度都有边界。

12.5 “权重可以类比成联络”不等于“所有网络权重都已经被规范场论严格解释”

在几何深度学习里这套语言有具体用处,但离“通用底层理论”还很远。

12.6 “陈类和规范场论很深”不等于“它们已经解释了今天的大模型”

很多时候,这类联系仍然停留在研究启发、局部模型或数学类比层面。

12.7 “注意力像量子测量”不等于“Transformer 在物理上就是量子系统”

这里最多成立的是结构类比,而不是物理同一性。

12.8 “AGI 需要数学”不等于“只要找到一个高深理论就能自动通向 AGI”

真正困难的部分,往往在于把数学对象、训练机制、数据分布、评价体系和工程约束同时接起来。


§13 总结:今天最值得抓住的数学主线是什么

归结到底:

深度学习正在逐步暴露出自己的几何、统计与动力学结构,但距离“AGI 已有统一数学理论”还很远;对今天最有价值的,是优先掌握那些已经能解释现象、指导建模、进入工程的数学视角。

再展开一点,就是下面 6 点:

  1. 流形与表示几何,用来理解数据结构与潜在空间。
  2. 连续深度与动力系统视角,用来理解残差更新、稳定性与一类连续模型。
  3. 对称性与等变性,用来把先验知识写进架构。
  4. 信息几何,用来重新理解优化与参数更新。
  5. 泛化理论、损失景观与缩放规律研究,用来更谨慎地看待规模与训练现象。
  6. 陈类、纤维丛、Chern-Simons 理论等高阶工具,用来打开更远的理论视野,但今天还不是主流工程基础。

写这类题目最难也最重要的地方就在这里:既要保留数学想象力,也不能把事实边界写丢。


启发来源与背景材料

下面两项材料是本文最直接的启发来源。它们贡献的是问题意识、叙事框架和讨论背景,不等于本文认同其全部推论:

学术参考

深度学习与训练历史

几何、流形与连续深度

对称性、等变性与几何深度学习

信息几何、泛化与缩放

高阶几何与场论背景