Hammersley Clifford Theorem
Preface
PRML 中 8.3.2 小节简单描述了 Markov Random Fields 的分解特性,其中最核心的部分就是 Hammersley Clifford Theorem, 然而它并没有证明这个定理,只是在末尾的时候提到了这个结论,导致我在阅读中间部分的时候一头雾水。好在我 google 到了一个优雅的证明,顺便翻译在此。
Probabilistic Graphical Models
先随便插点 PRML 中关于概率图模型比较重要的论述。
- 概率图模型用于形象地描述一组随机变量的联合分布
- 可以被看作是对联合分布的一种过滤器
- 如果图 G 中反映出的所有变量间的条件独立性质均在某个分布 P 中满足,则 P 可以通过该过滤器
- 在满足上一条的前提下,如果 P 中真实存在的所有变量间的条件独立性在图 G 上均能反映,则称 G 为 P 的 perfect map
- 概率图模型大致分为两种,有向图和无向图
- 有向图的优点在于联合分布可以很容易地分解为节点属性(也就是条件概率)的乘积
- 然而有向图在反映条件独立性质的时候,并不十分直接(head-2-head)
- 无向图可以直观地反映变量间的条件独立性质,代价是联合分布较难表示,而后文将证明的定理就是为了解决这个问题
- 有向图和无向图的表达能力是不同的
- 换句话说,给定随机变量集合后,能够用有向图 perfect map 的所有联合分布的集合 D 与能够用无向图 perfect map 的所有联合分布的集合 U 并不相同
- 它们与所有该随机变量集合能够形成的联合分布集合 P 的关系如下图:
Markov Random Fields
- 无向图模型
- 图中的每个节点对应一个或一组随机变量
- 图中的连线表示随机变量之间的联系,具有如下属性:
- 变量间的条件独立性容易判断,事实上,假设 A, B, C 为图 G 中的3组顶点集合
- 如果 A 到 B 的每条路线中都至少经过 C 中的一个顶点,则称 A 与 B 在条件 C 下独立
- 记作 A⊥⊥B|C,满足:
P(A,B|C)=P(A|C)⋅P(B|C)
- 考虑顶点 Xi, 记其所有邻顶点集合为 Ni, 令 Di=Ni∪{Xi},A={Xi},B=G/Di,C=Ni
- B 为图中除去顶点 i 及其相邻顶点后的集合,C 为其邻顶点集,A 与 B 中的连线必过 C,于是 P(Xi,XG/Di|XNi)=P(Xi|XNi)P(XG/Di|XNi)
- 根据贝叶斯公式
P(Xi|XG/i)=P(Xi,XG/Di|XNi)P(XG/Di|XNi)=P(Xi|XNi)P(XG/Di|XNi)P(XG/Di|XNi)=P(Xi|XNi)
换句话说,Xi 的条件概率,仅与其相邻顶点的取值相关。以上便是 MRF 的定义。
Gibbs Distribution
- 一个定义在无向图 G 上的联合概率分布 P(X) 被称为 Gibbs 分布 iff:
- 它能够被分解为关于 G 中的团(联通子图)的正函数的积
- 记 CG 为图 G 中所有团的集合,Z=∑x∏c∈CGϕc(Xc) 为归一化因子,即有:
P(X)=1Z∏c∈CGϕc(Xc)
注意到团上的函数之积可以合并,我们可以将 CG 定义为最大团集合,表达能力不变。
Hammersley Clifford Theorem
该定理说的是,MRF 与 Gibss 分布的定义等价。i.e. 对于同样的 G,上述两种定义能够表示的所有联合概率分布 P(X) 的集合相同。下面给出该定理的证明。
Backward Direction
先证明:Gibbs 分布满足 MRF 中通过拓扑引入的所有条件独立特性, 即满足 (1).
通过边缘分布公式,有:
P(Xi|XNi)=P(Xi,XNi)P(XNi)=∑G/Di∏c∈CGϕc(Xc)∑xi∑G/Di∏c∈CGϕc(Xc)
然后将 CG 中的团,依据是否包含 Xi 分为两类:
- Ci={c∈CG:Xi∈c}
- Ri={c∈CG:Xi∉c}
于是将 (3) 中的分子分母均进行分解,得到:
P(Xi|XNi)=∑G/Di∏c∈Ciϕc(Xc)∏c∈Riϕc(Xc)∑xi∑G/Di∏c∈Ciϕc(Xc)∏c∈Riϕc(Xc)=∏c∈Ciϕc(Xc)∑G/Di∏c∈Riϕc(Xc)∑xi∏c∈Ciϕc(Xc)∑G/Di∏c∈Riϕc(Xc)
之所以能够交换求和号与求积号的顺序,是因为 Ci 中的团 c 包含了 Xi, 于是 c 中的所有顶点均在 Di 中,因此求和过程中 ∏c∈Ciϕc(Xc) 保持不变。又 ∑G/Di∏c∈Riϕc(Xc) 与 xi 无关,因此可以被约去,得到:
P(Xi|XNi)=∏c∈Ciϕc(Xc)∑xi∏c∈Ciϕc(Xc)=∏c∈Ciϕc(Xc)∑xi∏c∈Ciϕc(Xc)⋅∏c∈Riϕc(Xc)∏c∈Riϕc(Xc)=∏c∈CGϕc(Xc)∑xi∏c∈CGϕc(Xc)=P(X)P(XG/i)=P(Xi|XG/i)
即得 (1).
Forward Direction
需要证明:如果 (1) 成立,则存在这样的 ϕc(Xc) 使得 (2) 成立。通过构造加以证明,首先定义子集 s⊂G 上的函数:
fs(Xs=xs)=∏z⊂sP(Xz=xz,XG/z=0)−1|s|−|z|
该函数为所有 s 的子集 z 上的函数之积,P(Xz=xz,XG/z=0) 对应于 z 中元素与给定的取值相同,其余元素全为 0 的概率。当 z 与 s 的大小相差为偶数时,对应的指数为1,否则为-1.
容易直到,如果能够证明如下两个性质,则 ϕc(Xc)=fc(Xc) 即满足条件。
- ∏s⊂Gfs(Xs)=P(X)
- 若 s 不是团,则 fs(Xs)=1
对于性质1,考虑某个 z⊂G, 考虑 Δ=P(Xz,XG/z=0) 在1的左边出现的所有因子。它在 fz(Xz) 中出现过,对应的指数为 1,对应的因子为 Δ; 又它出现在 C1|G|−|z| 个“恰包含了 z 以及另1个元素的子集”的函数值中,对应的因子的积为 Δ−C1|G|−|z|; 又它出现在 C2|G|−|z| 个“恰包含了 z 以及另外2个元素的子集”的函数值中,对应的因子的积为 ΔC2|G|−|z| …… 由于 0=(1−1)K=C0K−C1K+C2K+⋯+(−1)KCKK, 1中左侧各个子集 z 对应的因子的总乘积为1,除非 z 取 G,对应的因子即为 P(X).
接下来,通过 MRF 的属性来证明性质2. 对于 s 非团的情况,取其中不相连的两个顶点 a, b.
fs(Xs)=∏w⊂s/{a,b}[P(Xw,XG/w=0)P(Xw∪{a,b},XG/w∪{a,b}=0)P(Xw∪{a},XG/w∪{a}=0)P(Xw∪{b},XG/w∪{b}=0)]−1∗
即考虑 s 中所有子集中 a, b 的出现情况,分为四类,并将对应的因子合并,−1∗ 表示指数无关紧要,因为紧接着将证明等号右边中每个因子的底数为1. 根据贝叶斯法则:
P(Xw,XG/w=0)P(Xw∪{a},XG/w∪{a}=0)=P(Xa=0|Xw,Xb=0,XG/w∪{a,b}=0)P(Xw,Xb=0,XG/w∪{a,b}=0)P(Xa|Xw,Xb=0,XG/w∪{a,b}=0)P(Xw,Xb=0,XG/w∪{a,b}=0)=P(Xa=0|Xw,Xb,XG/w∪{a,b}=0)P(Xw,Xb,XG/w∪{a,b}=0)P(Xa|Xw,Xb,XG/w∪{a,b}=0)P(Xw,Xb,XG/w∪{a,b}=0)=P(Xw∪{b},XG/w∪{b}=0)P(Xw∪{a,b},XG/w∪{a,b}=0)
上式中第二的等式成立是因为:
- 分子分母的右侧因子相同,同时进行了替换
- 取 A={a},B={b},C=G/{a,b},由 A⊥⊥B|C 以及 (0) 得到 P(A|B,C)=P(A,B|C)P(B|C)=P(A|C)=P(A|B=b,C) 即 P(Xa|Xw,Xb=0,XG/w∪{a,b}=0)=P(Xa|Xw,Xb,XG/w∪{a,b}=0), 同理分子的部分也相等。
根据 (5) 容易得到性质2,于是正向的证明完成。