11.7 最大熵分布的形态性质

现在我们要列出规范分布 (11.56) 的形式性质。从某种意义上讲,这不是一 种好方法,因为它听起来很抽象,我们看不到它与实际问题的联系.另外,如果 首先了解理论中的所有形式性质,我们就能更快地理解这一理论.然后,当讨论 特定的物理问题时,我们就会发现这些形式关系中的每一种对不同的问题有不同 的意义.

固定平均值时所能达到的最大 H 值当然依赖于我们指定的平均值,

Hmax = S(F1,.., Fm) = ln Z(λ1,..., λm) + Σ λkFk. (11.59)

我们可以将 H 视为从任何概率分布中“不确定性程度”的度量,最大化后,它成为 问题中确定数据{F}的函数,因此我们将其称为最大 S(F1,..., Fm),以期在物 理学中得到初始应用.它仍然是“不确定性”的度量,但是它是当我们仅拥有这 些数字信息时的不确定性.从某种意义上说,它完全是“客观的”,因为它仅取决 于问题的给定数据,而不取决于任何人的性格或意愿.

如果 S 仅是 (F₁, … , Fₘ) 的函数,则在 (11.59) 中 Z(λ₁, … , λₘ) 也必须被认为是 (F₁, … , Fₘ) 的函数。最初这些 λ 只是未确定的拉格朗日乘子,但最终我们想确定它们。如果选择不同的 λⱼ,就是在选择不同的概率分布 (11.56)。我们在 (11.48) 中看到,如果

Fₖ = <fₖ> = ∂ ln Z(λ₁, … , λₘ) / ∂λₖ, k = 1, 2, … , m, (11.60)

这些分布的平均值与给定的平均值 Fₖ 相符。(11.60) 是 m 个联立的非线性方程组,必须根据 Fₖ 对 λ 求解。通常,在非平凡的问题中,显式地求解 λ 是不切实际的 [尽管下面有一个简单的形式解 (11.62)]。我们将保留 λₖ,以参数形式表示所需要的东西。实际上,这并不是悲剧,因为 λ 通常具有重要的物理意义,因此我们很高兴将其作为自变量。但是,如果我们以显式计算函数 S(F₁, … , Fₘ),则可以将 λ 作为 {Fₖ} 的显式函数给出如下。

假设我们对 Fₖ 之一进行小扰动,这将如何改变最大可达到的 H 呢?根据 (11.59) 可以得到

∂S(F₁, … , Fₘ) / ∂Fₖ = Σ [ ∂ln Z(λ₁, … , λₘ) / ∂λⱼ ] [ ∂λⱼ / ∂Fₖ ] + Σ ∂λⱼ / ∂Fₖ Fₖ + λₖ, (11.61)

鉴于 (11.60),这简化为

λₖ = ∂S(F₁, … , Fₘ) / ∂Fₖ, (11.62)

其中明确给出了 λₖ。

将该式与 (11.60) 比较:一个根据 λₖ 明确给出 Fₖ,另一个根据 Fₖ 明确给出 λₖ,这表明指定 ln Z(λ₁, … , λₘ) 或 S(F₁, … , Fₘ) 是等效的,因为每个都给出了有关概率分布的完整信息。实际上 (11.59) 只是从一种表征函数转化为另一表征函数的勒让德变换。

通过对 (11.60) 或 (11.62) 进行微分,我们可以得出一些更有趣的定律。因为 ln Z(λ₁, … , λₘ) 的二阶交叉导数在 j 和 k 中是对称的,如果我们将 (11.60) 对 λⱼ 进行微分,则可以得到

∂Fₖ / ∂λⱼ = ∂² ln Z(λ₁, … , λₘ) / ∂λⱼ∂λₖ = ∂Fⱼ / ∂λₖ (11.63)

这是一个对通过熵最大化来解决的任何问题都成立的通用互反定律。同样,如果对 (11.62) 再次进行微分,可以得到

∂λₖ / ∂Fⱼ = ∂²S / ∂Fⱼ∂Fₖ = ∂λⱼ / ∂Fₖ, (11.64)

这是一个互反定律,但它并不独立于(11.63),因为如果我们通过 Aⱼₖ = ∂λⱼ/∂Fₖ 和 Bⱼₖ = ∂Fⱼ/∂λₖ 定义矩阵,容易明白它们互为逆矩阵:A = B⁻¹, B = A⁻¹。这些互逆定律很容易得到,可能显得微不足道。但是当我们研究实际应用时,会发现它们具有非凡和并不显而易见的物理含义。过去,其中一些定律是通过烦琐的方式得到的,使得它们显得神秘而晦涩。

现在,我们考虑函数 fₖ(xᵢ) 之一包含可变参数 α 的可能性。如果要考虑应用,可以说 fₖ(xᵢ; α) 代表某个系统的第 i 个能级,α 代表该系统的体积,能级取决于体积。或者,如果它是一个磁共振系统,我们可以说 fₖ(xᵢ) 代表自旋系统的第 i 个稳态的能量,α 代表施加于其上的磁场。通常,我们想要预测随着 α 的变化某些量会如何变化。我们可能想要计算压力或磁化率。根据最小均方误差准则,导数的最优估计将是概率分布的均值

⟨ ∂fₖ / ∂α ⟩ = (1/Z) Σᵢ exp{-λ₁f₁(xᵢ) - ... - λₘfₘ(xᵢ)} ∂fₖ(xᵢ; α) / ∂α (11.65)

这可以简化为

⟨ ∂fₖ / ∂α ⟩ = - (1/λₖ) ∂ ln Z(λ₁, … , λₘ; α) / ∂α (11.66)

在这个推导中,我们假设 α 只出现在一个函数 fₖ 中。如果相同的参数出现在几个不同的 fₖ 中,容易验证结论可以推广为

Σₖ λₖ ⟨ ∂fₖ / ∂α ⟩ = - ∂ ln Z(λ₁, … , λₘ; α) / ∂α (11.67)

该一般规则包含任何热力学系统的状态方程。

当我们将 α 添加到问题中时,Z(λ₁, … , λₘ; α) 和 S(F₁, … , Fₖ; α) 都成为 α 的函数。如果对 ln Z(λ₁, … , λₘ; α) 或 S(F₁, … , Fₖ; α) 求导,将得到相同的结果:

∂S(F₁, … , Fₖ; α) / ∂α = - Σₖ λₖ ⟨ ∂fₖ / ∂α ⟩ = ∂ ln Z(λ₁, … , λₘ; α) / ∂α (11.68)

复杂之处是:我们必须理解,在 (11.68) 中,对于导数 ∂S(F₁, … , Fₘ; α)/∂α,我们保持 Fₖ 固定;对于导数 ∂ ln Z(λ₁, … , λₘ; α)/∂α,我们保持 λₖ 固定,然后根据勒让德变换 (11.59) 得出这两个导数的相等性。显然,如果在这个问题中有几个不同的参数 {α₁, α₂, … , αᵣ},对于它们中的每一个,形如 (11.68) 的关系都成立。

现在,让我们得出一些一般的“波动定律”或矩定理。首先对符号做一些说明:我们使用 Fₖ 和 ⟨fₖ⟩ 代表相同的事,它们是相等的,因为我们指定期望值 {⟨f₁⟩, … , ⟨fₘ⟩} 等于给定数据 {F₁, … , Fₘ}。当我们屡屡强调这些数是规范分

布 (11.56) 上的期望值时,将使用符号 ⟨fₖ⟩;当我们想强调它们是给定的数据时,将其称为 Fₖ。现在我们想强调前者,所以互反定律 (11.63) 可以写成

∂⟨fₖ⟩/∂λⱼ = ∂⟨fⱼ⟩/∂λₖ = ∂² ln Z(λ₁, … ,λₘ)/∂λⱼ∂λₖ (11.69)

在改变 λ 时,我们从规范分布 (11.56) 变为一种略有不同的分布,其中 ⟨fₖ⟩ 略有不同。由于对应于 (λₖ + dλₖ) 的新分布仍然是规范形式,它是对应于略有不同的数据 (Fₖ + dFₖ) 的最大熵分布,因此,我们正在比较两个略有不同的最大熵问题。为了以后的物理应用,在解释互反定律 (11.69) 时很重要是要认识到这一点。

现在我们要证明 (11.69) 中的量对于单个最大熵问题也具有重要意义。在规范分布 (11.56) 中,不同量 fₖ(x) 如何相互关联?更具体地说,与平均值 ⟨fₖ⟩ 的偏离如何关联?该度量是分布的协方差或第二中心矩:

⟨(fⱼ - ⟨fⱼ⟩)(fₖ - ⟨fₖ⟩)⟩ = ⟨fⱼfₖ - fⱼ⟨fₖ⟩ - fₖ⟨fⱼ⟩ + ⟨fⱼ⟩⟨fₖ⟩⟩ = ⟨fⱼfₖ⟩ - ⟨fⱼ⟩⟨fₖ⟩. (11.70)

如果大于平均值 ⟨fₖ⟩ 的 fₖ 值可能伴随有大于其平均值 ⟨fⱼ⟩ 的 fⱼ 值,则协方差为正;如果它们倾向于在相反的方向波动,则协方差为负;如果它们的变化不相关,则协方差为 0。如果 j = k,这就变成方差:

⟨(fₖ - ⟨fₖ⟩)²⟩ = ⟨fₖ²⟩ - ⟨fₖ⟩² ≥ 0. (11.71)

要直接从规范分布 (11.56) 计算这些量,我们可以首先计算

⟨fⱼfₖ⟩ = (1/Z(λ₁, … ,λₘ)) Σᵢ fⱼ(xᵢ)fₖ(xᵢ) exp { -Σₗ λₗfₗ(xᵢ) } = (1/Z(λ₁, … ,λₘ)) (∂²/∂λⱼ∂λₖ) exp { -Σₗ λₗfₗ(xᵢ) } (11.72) = (1/Z(λ₁, … ,λₘ)) (∂²Z(λ₁, … ,λₘ)/∂λⱼ∂λₖ)

然后应用 (11.60),协方差变为

⟨fⱼfₖ⟩ - ⟨fⱼ⟩⟨fₖ⟩ = (1/Z) (∂²Z/∂λⱼ∂λₖ) - (1/Z²) (∂Z/∂λⱼ) (∂Z/∂λₖ) = ∂² ln Z/∂λⱼ∂λₖ (11.73)

但是这只是量 (11.69),因此互反定律有更大的意义:

⟨(fⱼ - ⟨fⱼ⟩)(fₖ - ⟨fₖ⟩)⟩ = -∂⟨fₖ⟩/∂λⱼ = -∂⟨fⱼ⟩/∂λₖ. (11.74)

为我们提供了互反定律的 ln Z(λ₁, … ,λₘ) 的二阶导数也给出了我们分布中的 fⱼ 和 fₖ 的协方差。

注意,(11.74) 仅是一更一般规则的特例,令 q(x) 为任意函数,容易验证 q(x) 与 fₖ(x) 的协方差为

⟨(qfₖ)⟩ - ⟨q⟩⟨fₖ⟩ = -∂⟨q⟩/∂λₖ (11.75)

练习 11.3 通过比较 (11.60) (11.69) 和 (11.74),我们可以期望 ln Z(λ₁, … , λₘ) 的更高阶导数对应于分布 (11.56) 的更高阶中心矩。通过计算 ln Z(λ₁, … , λₘ) 的第三和第四中心矩来验证这一猜想是否成立。 提示:有关累积量的理论见附录 C。 对于非中心矩,习惯上定义字母函数

Φ(β₁, … , βₘ) = ⟨exp{Σⱼ₌₁ᵐ βⱼfⱼ}⟩. (11.76)

它显然具有性质

⟨f₁ᵐ¹···fₘᵐˢ⟩ = (∂ᵐ¹/∂β₁ᵐ¹···∂ᵐˢ/∂βₘᵐˢ) Φ(β₁, … , βₘ) |_(βₖ=0) (11.77)

由 (11.76) 可以得到

Φ(β₁, … , βₘ) = Z([λ₁ - β₁], … , [λₘ - βₘ]) / Z(λ₁, … , λₘ) (11.78)

因此,分拆函数 Z(λ₁, … , λₘ) 可以达到此目的。不同于 (11.77),我们可以得到

⟨f₁ᵐ¹···fₘᵐˢ⟩ = (1/Z(λ₁, … , λₘ)) (∂ᵐ¹/∂β₁ᵐ¹···∂ᵐˢ/∂βₘᵐˢ) Z(λ₁, … , λₘ). (11.79)

这是 (11.72) 的推广。

现在,我们可能会问:fₖ 的导数相对于参数 α 的协方差是多少?定义

gₖ ≡ ∂fₖ/∂α. (11.80)

如果 fₖ 是能量,α 是体积,则 -gₖ 是压力。我们可以轻松地验证另一个互反关系:

∂⟨gⱼ⟩/∂λₖ = -[⟨gⱼfₖ⟩ - ⟨gⱼ⟩⟨fₖ⟩] = ∂⟨gₖ⟩/∂λⱼ (11.81)

这类似于 (11.74)。通过类似的推导可以得到等式

Σⱼ₌₁ᵐ λⱼ [⟨gⱼgₖ⟩ - ⟨gⱼ⟩⟨gₖ⟩] = ⟨∂gₖ/∂α⟩ - ∂⟨gₖ⟩/∂α (11.82)

在意识到其通用性之前,我们已经发现并使用了一些特殊情况。

ln Z(λ₁, … , λₘ) 的其他导数与 fₖ 及其相对于 α 的导数的各阶矩有关。比如,与 (11.82) 密切相关的是

∂² ln Z(λ₁, … , λₘ)/∂α² = Σⱼₖ λⱼλₖ [⟨gⱼgₖ⟩ - ⟨gⱼ⟩⟨gₖ⟩] - Σₖ λₖ [⟨∂gₖ/∂α⟩]. (11.83)

二阶交叉导数是一个简单而有用的关系,

∂² ln Z(λ₁, … , λₘ)/∂α∂λₖ = ∂⟨fₖ⟩/∂α = Σⱼ λⱼ[⟨fₖgⱼ⟩ - ⟨fₖ⟩⟨gⱼ⟩] - ⟨gₖ⟩, (11.84)

这也可以由 (11.69) 和 (11.75) 得到。通过进一步求导,可以获得类似的无限层次的矩关系。正如我们将在后面看到的那样,上述定理在特殊情况下具有我们熟悉的关系,例如关于黑体辐射和气体或液体密度的爱因斯坦波动定律、奈奎斯特电压波动定律或可逆电池产生的“噪声”定律,等等。

显然,如果不同参数 {α₁, … , αᵣ} 存在,以上关系将对它们每一个都成立。新的关系,比如

∂² ln Z(λ₁, … , λₘ)/∂α₁∂α₂ = Σₖ λₖ [⟨∂²fₖ/∂α₁∂α₂⟩] - Σₖⱼ λₖλⱼ [⟨∂fₖ/∂α₁ ∂fⱼ/∂α₂⟩ - ⟨∂fₖ/∂α₁⟩⟨∂fⱼ/∂α₂⟩] (11.85)

也会出现。

ln Z(λ₁, … , λₘ; α₁, … , αᵣ) 与 S({fₖ}, … , {fₘ}; α₁, … , αᵣ) 的关系表明它们也都可以用 S 的导数(即变分性质)表示,见 (11.59)。但是对于 S 还有更一般的重要变分性质。

在 (11.62) 中,我们假设函数 fₖ(xᵢ) 的定义是固定的,而 (fₖ) 的变化仅仅是由 pᵢ 的变化引起的。现在我们将导出一个更一般的变分陈述,其中这两个量均发生变化。针对 k 和 i 独立地随意指定 δfₖ(xᵢ),独立于 δfₖ(xᵢ) 指定 δ⟨fₖ⟩,并考虑从最大熵分布 pᵢ 到一个稍微不同的分布 p'ᵢ = pᵢ + δpᵢ 的变化。通过上述方程,δpᵢ 和 δλₖ 的变化将根据 δfₖ(xᵢ) 和 δ⟨fₖ⟩ 确定地变化。换句话说,我们现在正在考虑两个略有不同的最大熵问题,其中问题的所有条件(包括基础函数 fₖ(x) 的定义)都可以随意变化。ln Z(λ₁, … , λₘ) 的变化为

δ ln Z(λ₁, … , λₘ) = (1/Z) Σᵢ Σₖ [-λₖδfₖ(xᵢ) - δλₖfₖ(xᵢ)] exp { -Σⱼ λⱼfⱼ(xᵢ) } = -Σₖ [λₖ⟨δfₖ⟩ + δλₖ⟨fₖ⟩], (11.86)

根据勒让德变换 (11.59),

δS = - Σₖ λₖ [δ⟨fₖ⟩ - ⟨δfₖ⟩] 或者 δS = Σₖ λₖδQₖ, (11.87)

其中

δQₖ ≡ δ⟨fₖ⟩ - ⟨δfₖ⟩ = Σᵢ fₖ(xᵢ)δpᵢ. (11.88)

这一结果推广了 (11.62),它表明熵 S 不仅在导致规范分布 (11.56) 最大化的意义上是稳定的,而且如果 pᵢ 保持固定,则熵对于函数 fₖ(xᵢ) 的微小变化也保持不变。作为 (11.87) 的特例,假设函数 fₖ 像 (11.85) 一样包含参数 {α₁, … , αᵣ},它们通过

δfₖ(xᵢ, αⱼ) = Σⱼ (∂fₖ(xᵢ, α)/∂αⱼ) δαⱼ (11.89)

生成 δfₖ(xᵢ)。虽然 δQₖ 通常不是任何函数 Qₖ({fₗ}; αⱼ) 的精确微分,但 (11.87) 表明 λₖ 是一个积分因子,使得 Σₖ λₖδQₖ 是“状态函数”S({fₗ}; αⱼ) 的精确微分。这一点在那些研究热力学的人来说看起来似乎很熟悉。最后,我们留给读者根据 (11.87) 证明

Σₖ ⟨∂λₖ/∂α⟩⟨fₖ⟩ = 0, (11.90)

其中 {⟨f₁⟩, … , ⟨fᵣ⟩} 在微分中保持不变。

显然,现在有一大类新问题可以让机器人来解决。它可以批量地解决这些问题。它首先计算分拆函数 Z,或者最好是计算 ln Z。然后,通过以各种可能的方式对其所有参数对 ln Z 求微分,就可以得到最大熵分布的均值形式的各种预测。这是一个非常简洁的数学过程,当然,大家会明白我们在这里所做的事情。这些关系只是吉布斯带给我们的统计力学的标准方程,但是其中所有的物理学内容都被删除了,只留下数学形式。

实际上,几乎所有已知的热力学定律现在都被视为最大熵理论的简单数学恒等式的特例。这些定律是一个多世纪以来通过多样化、复杂的物理实验和推理得到的。这清楚地表明,这些关系实际上独立于任何特定的物理假设,是扩展逻辑的一种性质。这使得我们对热力学关系为何独立于任何特定物质的性质有了新的认识。吉布斯的统计力学在历史上是最大熵原理的最早应用,并且至今仍然是使用得最多的(尽管它的许多应用者仍然不知道它的一般性)。

通过最大熵的数学形式在物理学之外还有大量其他应用。在第 14 章中,我们将通过此方法为库存控制的非平凡问题提供完整的数值解;在第 22 章中,我们将给出通信理论中最优编码问题的非平凡的解析解。从某种意义上说,一旦我们理解了本章所述的最大熵原理,那么概率论的大多数应用能被视为是在使用它来分配初始概率——无论在技术上称为先验概率还是抽样概率。每当我们在技术上称为先验概率还是抽样概率。每当我们分配均匀的先验概率时,我们都可以说在应用最大熵原理(尽管在这种情况下,结果是如此简单直观,因此我们不需要上述任何数学形式)。正如我们在第 7 章中所看到的,每当分配高斯抽样分布时,这与给定第一和第二阶矩应用最大熵原理相同。我们在第 9 章中看到,在分配二项抽样分布时,这在数学上等价于在更深的假设空间上分配均匀的最大熵分布。