English 中文

高斯积分的自然推导

从线性变化到隐藏圆的视觉之旅

§ 1

2 的自然出现

第一部分 — 为什么 v = t 是自然的速度?

重力是恒定加速度的典型例子——在地球表面附近,它让下落物体以约 9.8 m/s² 的加速度向下运动,在人类尺度上几乎完美恒定。加速度即速度的变化率:

a  =  dvdt

重新整理:每一微小时间片 dt 提供一份速度增量 dv = a · dt。令 a = 1 可使数值简化而不改变结构。 当 a = 1 时:dv = dt

现在看看恒定的 a 如何在同一时间区间内累积出 v

左图——时间轴上恒定的 a = 1N 个彩色方块,每个高度为 1,宽度为 dt,因此面积为:

1 · dt  =  a · dt  =  dt  =  dv

右图——时间轴上的 v。每个时间区间内, v 按定义增长 dv:右图上每段刻度长度对应左图中 一个方块的面积,在大 N 极限下完美贴合 v = t。 拖动 N

10

恒定加速度 g = 1——每个彩色方块代表一份速度增量 dv = g · dt

彩色刻度是长度 dv——把它们沿速度轴堆叠就得到 v = Σ dv = t

N → ∞ 时,每个切片变得越来越细,阶梯就成为光滑直线 v = t。这条直线不是人为选择的——它由重力的恒定性所强制: 相等的推动累积成线性增长。

第二部分 — 为什么 x = t²/2 是自然的距离?

距离等于速度乘以时间。每个瞬时贡献一条薄薄的面积条 v · dt = t · dt,总距离就是所有条形的总和——即 v = t 下方的面积。

这个区域是一个直角三角形,底为 t、高为 t。其面积恰好是外接正方形的一半:

x  =  ½ · t · t  =  2

左图——时间轴上的 v = t。每条彩色条带 高为 v、宽为 dt,因此面积为:

v · dt  =  t · dt  =  dx

右图——时间轴上的距离 x(t)。每一刻, 距离按左图条带的面积增长:右图上每段刻度长度对应一条条带的面积, 在大 N 极限下勾勒出 x(t) = t²/2。 拖动 t——或点击播放:

10
1.50

每条彩色条带的面积 = 距离增量 dx = v · dt

相同条带堆叠为刻度长度——阶梯描绘出 x(t) = t²/2

右图中的抛物线 t²/2 正是左图中不断生长的三角形。 其上任一点的斜率即为速度:d/dt (t²/2) = t。 直线与抛物线互为镜像。

关键洞察。t²/2 是自然的距离, 因为它是由线性速度构成的三角形面积——而任何三角形的面积都是其外接矩形的一半。 ½ 来自几何,而非约定。

第三部分 — x²/2 出现在任何线性增长之处

第二部分表明,恒定加速度下的距离是 t²/2。 这只是一个更深层模式的特例。它出现的原因很简单:

ddx (2)  =  x

x²/2x 的积分——即按 x 自身比例增长的任何量的自然累积。每当物理给你一个线性增长的量,对其积分就会得到 x²/2。½ 不是人为插入的;它是直线与坐标轴之间的三角形面积。

再举两个物理例子——都很熟悉,都是同一个三角形:

动能。F = ma 加速质量。速度按时间线性增长: v = at。功 = 力 × 距离,而距离 = t²/2(第二部分)。 因此:

KE  =  12mv²

这里的 ½ 与第二部分是同一个三角形——速度从 0 线性增长,所以平均值是终值的一半。

弹簧能量。胡克定律指出,恢复力按位移成正比增长: F = kx。压缩弹簧 x 距离所需的功是该直线下方的面积 ——又一个三角形:

PE  =  12kx²

关键洞察。½mv²½kx² 携带同一个 ½,原因相同:物理量(速度、力)线性增长,所以其累积效应是三角形面积 ——恰好是外接矩形的一半。x²/2 是线性增长被积分一次的通用印记。

§ 2

1/x、log(x) 与 exp(y) 的自然出现

第一部分 — 为什么 1/x 自然出现?

波义耳定律是反比关系的典型例子——保持温度不变,压强与体积成反比。 令比例常数为 1:

PV  =  1  ⟹  P  =  1V

体积减半,压强翻倍;压缩到三分之一,压强变三倍。 对体积作图,这就是曲线 y = 1/x

现在问:气体从体积 1 膨胀到体积 V 时释放多少功? 功是压强乘以体积变化。每个微小膨胀 dV 贡献:

dW  =  P  ·  dV  =  1V dV

左图——体积轴上的压强 P = 1/VN 个彩色方块,每个高 1/V,宽 dV, 面积为:

1V · dV  =  P · dV  =  dW

右图——体积轴上的功 W。右图上每段刻度长度 对应左图一个方块的面积,在大 N 极限下逐渐堆叠成 W = log V。拖动 N 精化;拖动 V 延伸——或点击播放:

10
4.00

每个彩色矩形的面积 = 功的贡献 dW = (1/V)·ΔV

相同矩形堆叠成高度——阶梯逼近 W = log V

N → ∞ 时,阶梯填满那条光滑的金色曲线。这条曲线 ——1/V 下方累积的面积——就是对数函数。 它是数学与科学中最重要的函数之一:是按比例增长或衰减(而非固定数量增减)的自然语言。

第二部分 — 相等比值,相等面积

在上面的图中将 V 拖过 2,再拖过 4。每次翻倍都给右图增加 完全相同的高度——区间 1→2、2→4、4→8 都贡献相同的功,log 2 ≈ 0.693, 无论位于坐标轴的哪个位置:

体积的三次翻倍——每个阴影区域代表相同的功 log 2

原因如下:dV/V 度量的是相对变化,而相对变化对缩放不敏感。 在各处把 V 替换为 c · V——条带变宽为 d(c·V) = c · dV,高度变为 1/(c·V),而 c 相互抵消:

d(c · V)c · V  =  c · dVc · V  =  dVV

两条条带的面积都是 dV/V——高度 1/(c·V) 与宽度 c·dV 恰好抵消

关键洞察。 音调的工作原理完全相同。 220 Hz → 440 Hz 与 440 Hz → 880 Hz 在听觉上感觉完全一致——两者都是一个八度。 绝对宽度分别为 220 Hz 和 440 Hz;两者的比值都是 2。 我们的耳朵积分的是 df/f,而非 df1/f 权重让被积函数具有尺度不变性,因此只有起点与终点之间的比值才被听到。

第三部分 — log:将乘法转化为加法

按常数 c 缩放区间不改变被积函数——结果只依赖于比值 Ve/Vs,无论区间位于何处。

现在问:当两个变量被相乘时,相对变化会发生什么? 乘积 x · y 的相对变化是 d(xy),其倒数为 1/(xy)

我们先看 d(xy)。下图展示了它的含义。展开新矩形得到四块: 原始 xy、两条细条带 y·dxx·dy,以及一个微小角块 dx·dy。 最后一项是两个小量的乘积——当 dx, dy → 0 时,它消失, 留下上面的精确关系。

d(xy) = (x + dx)(y + dy) − xy = y·dx + x·dy, 阴影角块 dx·dy 随步长缩小而消失

d(xy) = y dx + x dy,两边除以 xy

d(xy)xy  =  dxx  +  dyy

相对变化近似相加。设 x = 100dx = 3y = 80dy = 1.6。 那么 dx/xdy/y 在常识意义上代表各自的相对变化: dx/x = 3%dy/y = 2%x 增加 3% 与 y 增加 2%,使 xy 增加 5.06%——不是恰好 5%,因为角块 dx · dy = 0.03 × 0.02 = 0.06% 虽小但非零。 当步长趋近于零时,角块消失,近似变为精确。

第一部分中我们看到 log 用于表示 dt/t 这种无穷小相对步长的累积。 因此 log(xy) 就是 xy 从 1 增长到终值时所有 小变化 d(log(xy)) 的总和,每一步为 d(log(xy)) = d(xy)/(xy)

同理逐项成立:log(x) 是所有 d(log x) = dx/x 之和,log(y) 是所有 d(log y) = dy/y 之和。由于每组无穷小满足 d(xy)/(xy) = dx/x + dy/y,它们的总和也满足—— 得到一个聚合形式的等式:

log(a · b)  =  log(a) + log(b)

这不是定义——而是推论。对数将乘法转化为加法,因为 1/x 度量相对变化,而相对变化可加。

第四部分 — exp:将加法转化为乘法

exp 是 log 的反函数。log 把乘法变加法, exp 则相反——把加法变回乘法:

exp(a + b)  =  exp(a) · exp(b)

图形上,这两个函数关于对角线 y = x 互为镜像。 log 曲线上每个点 (x, log x) 在 exp 曲线上都有镜像 (log x, x)——坐标互换。图中标出两对镜像点:

log x 与 exp x 关于 y = x 互为镜像

exp 的一个著名性质几乎是这幅镜像图的免费推论: exp 是它自己的导数。论证纯粹几何——直接回到 1/x

首先看 log 的斜率。 由第一部分, log x = ∫₁ˣ dt/t——从 1 到 x1/t 下方累积面积。当 x 增加时,这个面积增长多快? 当右边界从 x 前进到 x + dx 时, 面积新增一条宽 dx、高 1/x 的薄条带 ——即该边界处被积函数的值。所以新增面积为 (1/x) · dx, 增长速率恰好是高度 1/x

ddx log(x)  =  1x

这是微积分基本定理最具几何意味的形式:累积的导数就是被累积者的高度。

现在沿 y = x 反射。 任何直线沿对角线 y = x 反射,其升与跑互换,所以斜率 m 的直线变为斜率 1/m 的直线。这意味着 log 与 exp 在镜像点处, 切线斜率互为倒数。

举具体例子。在 x = 2 处,log 曲线经过点 P = (2, log 2),刚才已算出 log 在那里斜率为 1/2。在 exp 上的镜像点是 Q = (log 2, 2),此处切线斜率为 2 ——1/2 的倒数。再看 Q 的坐标: 其 y 坐标也是 2Q 点的斜率等于 Q 点的 y 值。

镜像点上的对称切线:log 在 P = (2, log 2) 处斜率 1/2, 反射到 exp 在 Q = (log 2, 2) 处斜率 2。反射后的斜率等于 Q 的 y 坐标 ——在每对镜像点都成立。

这在 exp 上的每一点都成立,因为 exp 上每一点都是 log 上某点的镜像。 exp 在任一点的斜率等于该点的 y 值。由于 y 值就是 exp(x) 本身:

ddx exp(x)  =  exp(x)

推理链很短:log 被定义为 1/t 的累积,所以 log 的斜率为 1/x;关于 y = x 的反射使斜率取倒数; 在镜像点 1/(1/x) = x——恰是该处 exp 的值。 exp 的自导性是为 log 选择 1/t 作被积函数的几何投影。

关键洞察。exp 即函数 ex,具有许多卓越性质——自身为导数、在复合增长中的作用、 欧拉公式中的出现。但最根本地,它就是 log 的反函数。 而 log 不过是 ∫ dt/t——1/t 的累积。 自导性 (exp)' = exp(log)' = 1/x 的镜像。 一旦为 log 选定 1/x 作被积函数,关于 exp 的一切都被决定了。

所有部件就位了。§1 给我们 x²/2——线性变化的自然累积。 §2 给我们 exp——把加性事物变为乘性事物的转换器。 在 §3 中,我们通过 exp(−x²/2) 来研究它们的组合。

§ 3

exp(−x²/2) 是什么?

第一部分 — 直线上的粒子:能量已知,概率未知

想象一个气体分子沿单一方向以速度 x 运动。 由 §1,它的动能为 x²/2。分子运动越快,携带的能量越多。

在热平衡时,自然并不对所有速度赋予相同概率。能量较高的态需要更多热预算才能填充, 因此出现的概率较小。把速度 x 处的概率密度记为 P(x)。基于物理直觉,我们预期:

这就是目前所知的全部。我们尚不知道 P(x) 的具体形式。 是 1/(1 + x²/2) 吗?是分段线性的凸起? 2−x²/2?许多候选都符合上面两个要点。 要确定形式,我们需要更强的约束——而通过观察二维情形可以得到它。

第二部分 — 二维:约束组合迫使 exp 出现

真实粒子不在一条直线上运动。气体分子在每个空间方向上都有速度分量。 添加第二个垂直方向 y。粒子现在每个轴上各有一份动能:

x 方向: 能量 = x²/2    y 方向: 能量 = y²/2

两个方向相互独立——沿 x 的力对 y 方向的速度无影响,分子的 x 速度也无法告知其 y 速度。两个新事实现在登场,二者共同确定了 P 的形式。

能量是标量。 速度是矢量——带方向,按平行四边形法则相加; 能量不是。能量是没有方向的单一数;它是标量。 两个同维度标量只能以一种方式组合:算术加法。 速度 (x, y) 处的总动能就是和:

总能量  =  x²/2  +  y²/2

没有因子,没有交叉项。两份能量算术堆叠。

概率相乘。 独立事件的概率相加——它们相乘。 在速度 (x, y) 处找到分子的联合概率密度, 是一维密度的乘积:

P(x, y)  =  P(x)  ·  P(y)    (独立性)

这不是约定也不是近似——这是统计独立性的数学定义。

现在把已收集的事实合并:

  1. P(x) 仅依赖于能量 x²/2(第一部分)。 记 P(x) = f(x²/2),其中 f 是某未知的能量函数。
  2. 二维情形下,总能量为 x²/2 + y²/2。同理,二维密度只依赖于该和: P(x, y) = f(x²/2 + y²/2)
  3. 由独立性,P(x, y) = P(x) · P(y) = f(x²/2) · f(y²/2)

结合 (1)–(3):

f(x²/2 + y²/2)  =  f(x²/2)  ·  f(y²/2)

a = x²/2b = y²/2。 从能量到相对概率的未知函数 f 必须满足:

f(a  +  b)  =  f(a)  ·  f(b)

这是一个严格的函数方程。唯一满足它的函数族是指数函数—— cᴱ(某基底 c)。 任何这样的底数都能让加法(在能量上)与乘法(在概率上)相协调。 指数形式是物理强制的;它从来不是风格选择。

第三部分 — 选定底数与符号:钟形浮现

在所有指数中,我们选 e 为底,只为一个实用原因: 如 §2 第四部分所示,它是唯一一个导数等于自身的底数—— d/dx exp(x) = exp(x)。 其他每个底数在每一次求导、每一次积分、每一步链式法则中都会带上一个额外的 ln(c) 因子。选 e 让微积分变得干净。 于是 f(E) = exp(±E),并且

P(x)  ∝  exp(±x²/2)

剩下唯一的选择是符号。回顾第一部分的要求: P(x) 必须随能量增长而减小。两个候选行为迥异:

左图——两个候选指数:x²/2(金色)对称上升, −x²/2(粉色)对称下降。 右图——exp 对它们各自的作用。 exp(+x²/2) 飙升至无穷——无界,总权重无穷,不可能作为概率密度。 exp(−x²/2) 衰减至零——有界,峰值为 1,关于原点对称。 钟形曲线。

输入:x²/2 上升(金色),−x²/2 下降(粉色)

输出:exp(+x²/2) 爆炸(金色),exp(−x²/2) 衰减为钟形 (粉色)——同一坐标系

负号是被强制的——既由概率随能量减小的要求强制,也由总概率必须有限的要求强制。 我们到达了:

P(x)  ∝  exp(−x²/2)

这种结构出现在任何具有偏好静止位置的系统中。一根被拉伸距离 x 的弹簧储存势能 kx²/2;接近平衡的钟摆储存同种形式。 弹簧、钟摆、分子速度——都是同一个钟形,因为它们共享同样的底层结构: 二次代价、概率独立性的乘法规则,以及 exp 作为二者之间的唯一桥梁。

形状已完成。剩下的是它的总重量——曲线下从 −∞+∞ 的面积有多大? 这是 §4 要回答的问题——而答案,令人惊讶,是一个圆。

§ 4

为什么积分中藏着一个圆?

§3 留下一个问题:exp(−x²/2) 下方的总面积是多少? 把这个积分记为 I

I  =  ∫−∞+∞ exp(−x²/2) dx  =  ?

这个积分没有初等原函数。你无法通过寻找一个导数为 exp(−x²/2) 的函数来求值;这样的闭式函数不存在。直接进攻失败了。我们需要一个技巧。

第一部分 — 二维技巧:积分自乘

计算 而不是 I。 既然 I 只是一个数:

I²  =  (∫ exp(−x²/2) dx)  ·  (∫ exp(−y²/2) dy)

两个独立的一维积分相乘。每个积分对自己的变量。 因为两部分完全独立(x 积分看不见 y, 反之亦然),乘积可以写成整个平面上的单一二重积分:

I²  =  ∫∫ exp(−x²/2)  ·  exp(−y²/2)  dx dy

现在使用 §3 中确立的 exp 的乘积性质:

exp(−x²/2)  ·  exp(−y²/2)  =  exp(−(x²/2 + y²/2))

并辨识内部的勾股结构:x²/2 + y²/2 = r²/2,其中 r² = x² + y²。二维被积函数只依赖于到原点的径向距离:

I²  =  ∫∫ exp(−r²/2)  dx dy

平方技巧把不可能的一维积分变成了具有完美圆对称性的二维积分。 我们从未引入旋转,也未引入角度——勾股定理与 exp 的乘积性质独立地产生了对称性。

exp(−(x²+y²)/2) 的亮度热图:在原点最亮,远处变暗。 r = 1, 2, 3 的等高线是完美的圆——并非人为强加, 而是 exp 的乘积性质作用于两个独立直线累积所强制。

第二部分 — 让对称性来完成积分

首先,从几何上读解这个积分。平面被分成面积为 dx · dy 的小正方形。在每个小方形上,被积函数 exp(−r²/2) 给出一个高度 (0 到 1 之间的数,由该方形离原点的距离决定)。将高度乘以方形面积, 我们得到体积为 exp(−r²/2) · dx · dy 的薄柱。 二重积分 就是整个平面上所有这些薄柱的体积之和 ——二维钟面下方的总体积。

I²  =  方格exp(−r²/2)  ·  dx · dy

现在,我们可以以任意方式做这个和,把平面切成任意形状。 正方形分割是一种选项,但这里不是最佳。 因为被积函数只依赖于 r——同一半径上每个点贡献相同的高度 ——还有一种更自然的切分方式:薄薄的同心圆环,每个半径一环。 在单个圆环内,高度从不改变,整个圆环就成为求和的一个构件, 替换掉许多带有相同值的独立方形。

正方形分割:每片面积 dx · dy,高度 exp(−r²/2) 在片与片之间变化。

圆环分割:每个圆环上各处高度 exp(−r²/2) 相同。 总体积不变,按半径计数。

步骤 1 — 一个圆环的面积。 半径为 r、 厚度为 dr 的圆环面积等于其周长乘以厚度:

圆环面积  =  τ · r  ·  dr

这就是 τ 进入的地方——不是作为抽象常数, 而是作为每个圆环都继承的单位圆周长。

步骤 2 — 对所有圆环求和。 把每个圆环的面积乘以其 (恒定的)高度 exp(−r²/2) 并相加。 因为每个圆环都共享同一个 τ,它可以从求和中提出:

I²  =  圆环exp(−r²/2)  ·  τ · r · dr  =  τ  ·  ∫0 r · exp(−r²/2) dr

步骤 3 — 内部剩下什么。 积分号内是 r · exp(−r²/2)——半径 r 处的高度乘以 线性周长因子 r。 这个乘积具有独特的形状:靠近原点高度充裕但周长很短,因此贡献很小; 远离原点周长充足但高度已衰减为零。两个效应平衡,曲线在 r = 1 处达到峰值。

径向被积函数 r·exp(−r²/2):靠近零升起(小圆环), 在 r = 1 处达峰,尾部衰减。其下方面积恰为 1。

步骤 4 — 径向积分塌缩为 1。 为何那个总面积恰为 1? 代入 u = r²/2,故 du = r · dr。 径向积分变成普通的指数衰减:

0 r · exp(−r²/2) dr  =  ∫0 exp(−u) du  =  −exp(−u) |0  =  0 − (−1)  =  1

熟悉的形状再现。 代换 u = r²/2 恰好就是 §1 的自然距离,其中 r 扮演了时间的角色。 r · dr 中的因子 r 就像随 r 线性增长的速度;u 是它的三角形累积 ——正是 §1 中的同一个三角形。所以这个代换不是微积分的技巧: 它是 §1 的几何在径向积分中重现,最终交付了 exp(−r²/2) 一直在等待的那个线性因子。

把步骤 2 与步骤 4 合在一起:I² = τ · 1 = τ。 取平方根,原始一维积分浮现:

∫ exp(−x²/2) dx  =  √τ  ≈  2.507

exp(−x²/2) 下方的总面积为 √τ ≈ 2.507。 标准正态概率密度是 exp(−x²/2) / √τ——不是 1/√(2π)—— 因为 τ 而非 π 才是这里的自然常数。

第三部分 — 我们学到了什么

回顾这条路径。我们从最普通的一维事物开始——x²/2, 线性量的自然累积(§1)。我们找到了将加性代价桥接到乘性概率的唯一函数 ——exp,它是 1/x 积分的反函数(§2)。 我们把它们组合成钟形 exp(−x²/2)(§3)。 而就在我们尝试积分这个钟形的那一刻,一个带着周长 τ 的圆从天而降。

τ 从未从外部引入。 它一直藏在"x 的积分"与"1/x 积分的反函数"里,在一维时蛰伏不动。 当添加第二个垂直方向——能量与概率必须在其间和解时—— exp 的乘积性质揭示了隐藏的径向对称性;圆把它的周长 τ 带入积分;τ 浮现为自然钟形下方的精确面积。 没有 2 的因子,没有簿记调整。

高斯函数不是被丢进物理的特殊函数。它是被三件事一起强加于世界的形状: 二次代价、独立概率的乘法规则,以及作为二者间唯一桥梁的 exp。 常数 τ 不是装饰 ——它是当能量相加、概率相乘时,垂直坐标轴如何组合的几何记录。

用物理尺度 K 做同样计算——把 x 替换为 x/√K——给出一般结果 ∫ exp(−x²/(2K)) dx = √(τK)。 当 K = kBT 时,这是麦克斯韦—玻尔兹曼归一化; 当 K = 1 时,这是统计学的标准正态。 一个公式、一个常数、一种形状——它们都是累积、独立性, 以及两个垂直方向几何的推论。