概率论的解释:《概率论沉思录》笔记
前置知识
- 一般的概率论基础
说明
摘要
在概率论(和统计)中有频率学派(Frequentist)和贝叶斯学派(Bayesian)两大流派。后者引入了先验概率和后验概率的概念,在人工智能时代获得了更多的支持。《概率论沉思录》一书的作者采取了更广阔的视角,试图解决直觉相互矛盾的问题,以及揭示先验信息的巨大影响。
本文旨在探讨两个问题:
- 概率论对现实的描述何以可能指导现实活动?
- 统计出的、计算出的概率为何合理?
- 提出合理的假设何以可能?
- 概率论能多大程度地描述现实?
- 当我们掷一个骰子时,我们何时把它看作每面 1/6 概率朝下而忽略材质的不均匀、抛掷的手法、空气的流动?
- 我们应如何掌握这种判断的“把握”?
我们希望建立正确的直觉以系统性地解决下面两个例子之类的佯谬,并展示一些实际的运作方式。
三门问题
一个典型的直觉相互矛盾的问题是三门问题,最早在美国电视节目 Let's Make a Deal 中由主持人 Monty Hall 推广。
参赛者需从三扇门中选择一扇,背后可能是汽车(大奖)或山羊(安慰奖)。然后,主持人会打开一扇未被选择且藏有山羊的门,问参赛者是否要坚持原选择还是换门。
该问题以各种途径传播,引起了极大的争议。
关于模拟的配置说明。
随机源只支持默认随机源 Math.random(),其使用系统熵源,随机算法取决于具体实现,如 xorshift128+,pcg32 及 arc4random_buf
两个方案中,方案一是:虚拟主持人一开始就知晓门的对应,依此选择开哪个门;方案二是:虚拟主持人一开始不知道门的对应,随机从未选的门挑,根据情况决定。
通过上述观察模拟(或计算),可以发现换门则胜利频率为 $\frac{2}{3}$,否则为 $\frac{1}{3}$.
但是,存在一些基于直觉的不同意见:
- 打开门什么都不会影响,因此不合理
- 主持人的行为是存在约束的(即必须打开无车门),这在初始选对、选错时概率不一样,因此结果是合理的
- 换和不换同样是在两个门中选择,因此不合理
- 可以理解为:把两个门合并成一个,因此结果是合理的
Bertrand 悖论
Bertrand 悖论提出的问题是:在单位圆内任意画一条弦,弦长超过 $\sqrt{3}$ 的概率是多少?
存在以下不同的答案
- 先固定一点,再取另一点,结果为 $\frac{1}{3}$
- 先固定弦的斜率,考察弦中点的位置,结果为 $\frac{1}{2}$
- 直接考察弦中点的位置,只能在一个小圆内,结果为 $\frac{1}{4}$
讨论的可能
这里的引用来自《概率论及其应用》的前几页。此书译自 William Feller 所作的经典 An Introduction to Probability Theory and Its Application.
必要的认可
第一个问题涉及了一个更基本的问题——认识论的问题。认识论不在本文讨论范围内。我们不希望陷入这样的问题:
- 使用的逻辑体系是否一定正确?
- 在推导过程中有多大的可能出错,而没有人发现?
- 我是真的理解了这些内容,还是我恰好产生了对它们的自信?
因此,希望读者认可:以某种方式,以概率论对现实的描述指导现实活动是可能的。为此,你或许可以采取以下选择:
- 盲信。时代、文化的变化已经塑造了(大部分时候)足以应对生活的直观认识。
人类的集体直观能力也在进步着 … 同样,现在的学生不会体会到,当概率论还在萌芽的时候,它与某些思维方式、偏见及其他困难的斗争情形。
- 实用主义。概率论是一个(从经验上看/从权威上看/从自己对数学推导的认可上看)好用的模型。
我们所关心的不是归纳推理的形态,而是一种可以叫作是物理概率或者统计概率的事物 … 我们所说的判断不是关于这些的判断,而是关于一个理想实验的可能结果 … 大家必须先承认一个特殊理想实验的想象模型。
- 其它可能的论证。如果你对形而上内容的了解可以支撑。
理想化
进行理想化是有必要的。
测定原子的寿命或人的寿命而没有误差是不可能的,但是为了理论上的目的,我们不妨设想寿命是实实在在的一个数,这样问题就产生了 …… 另一方面,现行的保险业务对于人的可能寿命却不加任何上限,按照寿险死亡率表所基于的公式算出来,千年不死的人在全人类中大约只占 $10^{10^{36}}$ 分之一 …… 使用这种小概率非但没有坏处,而且还可以简化公式,再说,如果我们真地把活一千年的可能性排除掉,我们势必承认一个最大年龄限 $x$ 的存在,说人能活 $x$ 年而不能活 $x$ 年零两秒,这种说法决不会比无限寿命的说法更能讲得通些。
我们将从有限的、理想化的模型开始,之后再考察无限的及不那么理想化的情形。
规则的构建
合情推理原则
假定需要开发一个推理机器人,对合情程度进行推理。我们希望满足如下条件:
- 用实数表示合情程度:从直觉上说,我们需要全序和连续性
- 定性地与常识相符,例如说我们希望可以构成(广义的)布尔代数
- 推理是一致的,也就是:
- 不同的推理方式结果一致
- 会考虑的是所有有关的证据
- 在相同的情形下合情程度相同
定量规则
接下来推导出一些定量的规则:
-
乘法规则
我们希望决定 $A\wedge B$ 为真有两种途径:先决定其一,在接受它的条件下接受另一个。从合情推理原则 3.2 我们可以得出 $(C\implies A\wedge B) = F((C\implies B), (B\wedge C\implies A))$,同样地对 $(D\implies A\wedge B\wedge C)$ 使用合情推理原则 3.1 可推出 $F(F(x, y), z) = F(x, F(y, z))$;此外,$F$ 应当是连续且单调的。
Aczél 在他的函数方程著作中用 11 页推导出了方程的一般解。如果我们进一步要求可微性,则证明可缩短。解被表示为 $F(x, y) = \omega^{-1}(\omega(x)\omega(y))$. -
值域
由乘法规则得出,确定性由 $\omega(Q) = 1$ 表示,进一步约定 $0 \leq \omega(Q) \leq 1$. -
加法规则
考虑那些非真即假的命题,$A\wedge \bar{A}$ 总是假的。通过分析得到 $\exists m>0, \omega^m(B\implies A)+\omega^m(B\implies \bar{A})$,使用代替 $p(x)\equiv\omega^m(x)$ 是符合值域条件的,没有丧失一般性。 -
广义加法规则
由加法规则可进一步推导出 $p(C\implies A\vee B) = p(C\implies A) + p(C\implies B) - p(C\implies A\wedge B)$.
填入数值
下面将使用更简单的符号,用 $P|Q$ 表示 $Q\implies P$,用 $P+Q$ 表示 $P\vee Q$,用 $PQ$ 表示 $P\wedge Q$.
实际上,我们的事实可以形如 $C\equiv (A\implies B)$,这同样可被恰当地赋值符合我们的体系。
我们假设 $B\equiv \left(p(A_iA_j | B) = p(A_i | B)\delta_{i, j}\right)$,其中 $\delta$ 是 Kronecker 符号。则有 $\sum_{i=1}^n p(A_i|B) = 1$,我们需要做的是将信息转换为 $p(A_i|B)$ 的值。
如果这些 $A_i$ 在交换后没有任何区别,为了满足合情推理原则 3.3,唯一的结果是 $p(A_i|B)=\frac{1}{n}$,我们称为无差别原则。
需要注意这来自于合情推理原则。
从现在开始,我们称那些量 $p$ 为概率,在参数是命题时,使用大写字母 $P$.
考察这样一个问题:
一个坛子中有 3 个黑球,7 个白球,它们具有相同的大小和重量。摇动坛子并随机抽取一个球,取出一个黑球的概率是多少?
这个问题联系了现实。我们需要对题目条件进行理想化。
硬币掉下时不一定是正面朝上或反面朝上,它可能是滚掉了,也可能是笔直地站着,但是我们只承认正面和反面是扔硬币以后仅有的可能结果,这样一来,理论要简洁得多了,同时也不影响其应用,这种类型的理想化是实践中标准的处理办法。
类似地,在此问题中,我们只考虑十种互斥的取出球的情况,并且出于无差别原则,它们分配的概率都是 $\frac{1}{10}$.
由此,取到黑球的概率是 $\frac{3}{10}$.
对于现实问题,例如“摸到黑球”,我们可以将其分解为“今天在下雨并且摸到了黑球”和“今天不在下雨并且摸到了黑球”,但是这就成为了“空洞的形式化练习”。我们应当把 $AB$ 视作两者都为真的陈述,$P(AB|C)$ 是一个基本量,不一定可解析为更基本的量(尽管可以用于计算)。
Kolmogorov 公理
Kolmogorov 提出了一种用集合论(和测度论)语言表达概率论的方法。
回顾 Kolmogorov 的公理化定义:
给定集合 $\Omega$,如果 $\mathfrak{F}\subset 2^\Omega$ 满足:
- $\Omega\in\mathfrak{F}$
- 取逆封闭:若 $A\in\mathfrak{F}$ 则
$$\bar{A}\in\mathfrak{F}$$
- 可列并封闭:若 $\{A_n\}_{n\geq 1}\subset \mathfrak{F}$ 则
$$\bigcup\limits_{n=1}^{+\infty} A_n\in\mathfrak{F}$$
则称 $\mathfrak{F}$ 为 $\Omega$ 上的 σ-代数。
$\mathfrak{F}$ 上的概率 $P: 2^\Omega\to \mathbb{R}$ 满足
- 非负:$P(A)\geq 0$
- 规范性:$P(\Omega)=1$
- 可列可加性:对 $\{A_n\}_{n\geq 1}$ 两两不交
$$P\left(\bigcup\limits_{n=1}^{+\infty} A_n\right) = \sum_{n=1}^{+\infty} P(A_n)$$
我们在技术上支持此,但不局限于集合。
初等抽样论
无放回抽样
由于信息的不完全性,我们暂且不能假设分配的概率与实验事实间的关系。
考虑这个模型:
- $B\equiv$ 一个坛子中有 $M$ 个红球,$N-M$ 个白球,每次从中随机抽取一个球,记录其颜色并放在一边;重复 $n\leq N$ 次
- $R_i\equiv$ 第 $i$ 次取出红球
- $W_i\equiv$ 第 $i$ 次取出白球
在取出球后,推理机器的知识状态就会发生变化。
容易推得,共取出 $r\leq n$ 个红球的概率为 $h(r) = \frac{\binom{M}{r}\binom{N-M}{n-r}}{\binom{N}{n}}$,称为超几何分布。
或许会有一些“反因果”的事情在其中发生。如果机器预先知道第二次抽取会取出红球,那么第一次抽取时的概率就会不同(如若 $M=1$ 则第一次不可能抽到红球)。我们不应该认为逻辑的 $\implies$ 与物理的因果一定有关。
如果一个概率分布中,概率只取决于单次试验的结果的出现次数,则称它是可交换的。超几何分布是可交换的,这从物理因果角度无法解释。
而从逻辑推导可以算出 $P(R_k|R_jB) = \frac{M-1}{N-1}, P(R_k|W_jB) = \frac{M}{N-1}$,等同于“搁置”了一个红/白球到后面。
如果机器预先知道的是“后面至少会抽取出一个红球”,但不知道是哪一次,结果是一样的。
作为练习,读者可自行考虑 Fisher-Yates 算法作为例子,参见洛谷日报:随机的艺术。
现在研究超几何分布的极限形式,即确定 $f = \frac{M}{N}$ 并让 $n\to \infty$ 的结果。
我们有 $h(r) = \binom{n}{r} f^r(1-f)^{n-r}$,称为二项分布。
广义超几何分布(有多种颜色的球)在极限情形下会变成多项分布。
相关性校正
在现实中摇动坛子的过程,我们称为“随机化”,目的是让信息更加复杂,并且因信息过于复杂而故意丢弃。
但随机化并不会让等式变得精确,可以直接应用于现实。我们将看到,小的误差会被积累。
例如说,我们假设抽取并放回一个红球会略微增加下一次抽到红球的概率,反之亦然,也就是 $P(R_k|R_{k-1}C) = \frac{M}{N}+\epsilon, P(R_k|W_{k-1}C) = \frac{M}{N}-\delta$.
通过使用矩阵对角化,可以算得 $P(R_k|C) = \frac{(p-\delta)-(\epsilon+\delta)^{k-1}(p\epsilon-q\delta)}{1-\epsilon-\delta}, p=\frac{M}{N}, q=1-p$.
初等假设检验
定义
康德引入了先验一词来表示独立于经验而可以知道真假的命题。但先验概率一词在今天看来是不合适的。
如何将字面上的先验信息转换为数值先验是一个开放的问题,会在书的之后章节中讨论。
令 $X$ 为先验信息,$H$ 为待检验的假设,$D$ 为数据,有 $P(H|DX)=P(H|X)\frac{P(D|HX)}{P(D|X)}$,等式左侧为后验概率,最后一项为似然 $L(H)$.
为了变得无量纲,定义几率是指 $O(H|DX)=\frac{P(H|DX)}{P(\bar{H}|DX)}$.
我们再定义证据是指 $e(H|DX)=10\log_{10} O(H|DX)$,单位为分贝 dB,这符合 Weber-Fechner 定律指出的感知的强度与物理强度的对数有关的现象。
如果 $P(D_2|D_1HX) = P(D_2|HX)$ 我们说 $D_1$ 与 $D_2$ 是独立的,独立并非是物理上的,而是逻辑上推理机器分配的概率。
我们来考虑这样一个例子:先验信息 $X$ 是有 11 台可以生产零件的机器,其中 10 台会生产 $1/6$ 的坏零件,另一台会生产 $1/3$ 的坏零件。一个机器生产的零件被放到同一个盒子中。现在我们的目标是选定一个盒子,判断它是不是那个不良机器生产的。
我们定义 $A\equiv$ 选择了不良机器,令 $B\equiv$ 没有选择不良机器,则初始时有 $e(A|X) = -10 \mathrm{dB}$.
如果从盒子中取出一个部件,它是坏的,则 $B$ 增加的证据是 $10(\log_{10} P(\text{坏}|AX) - \log_{10} P(\text{坏}|\bar{A}X)) \mathrm{dB}$,这在第一次时会使 $A$ 的证据增加 3dB. 这以直接地方式体现了概率“朝某个方向驱动”。
多重假设检验
仍然考虑生产零件的机器的例子。如果我们发现检查了 50 个零件发现全是坏零件,则 $e(A|E)$ 的结果大约是 140dB. 但这是不符合我们的常识的。为此,需要额外引入第三个命题:$C\equiv$ 生产零件的机器出了问题,会产生 99% 的坏零件。
信念
信念强度
I. J. Good 说明了如何逆向使用概率论来测量我们的信念。
如果一个人总是能猜出你背着他写下的数,我们是否会因此考虑他可能有特异功能呢?
对于数字范围 1~10,也许在他猜对 10 个数后我们会考虑这种可能。那就是说,初始的信念程度大约为 -100dB.
不过,即使他连着猜对了 1000 个,我们也不一定会采取这个假设。因为几乎一定有其它假设的可能性更高,比如 -60dB.
拉普拉斯在《关于概率的哲学论文》中提到了这种现象,即:要人们承认自然法则失效,必须提供海量证据。
意见的趋同和分歧
假设有 $A$ 和 $B$ 两人对某个命题 $S$ 有不同的看法,我们期望的是给他们足够多的新信息 $D_1, D_2, \cdots , D_n$,则随 $n$ 增大他们对 $S$ 的观点趋于一致。但是这其实并不总是成立。
假设一开始 $P(S|I_A) \cong 1$ 及 $P(S|I_B) \cong 0$. 接受到数据 $D$ 后,后验概率变为:
$$P(S|DI_A) = P(S|I_A) \frac{P(D|SI_A)}{P(D|I_A)}$$
$$P(S|DI_B) = P(S|I_B) \frac{P(D|SI_B)}{P(D|I_B)}$$
有:
$$\ln \left[\frac{P(S|DI_A)}{P(S|DI_B)}\right] = \ln \left[\frac{P(S|I_A)}{P(S|I_B)}\right] + \ln \left[\frac{P(D|SI_A)P(D|I_B)}{P(D|I_A)P(D|SI_B)}\right]$$
这可以用 $\ln (\text{后验}) = \ln (\text{先验}) + \ln (\text{似然})$ 来描述。
如果 $-\ln (\text{后验}) < \ln (\text{似然}) < 0$,就有两人的观点将趋同。
初等参数估计
离散参数
我们来考虑 Pólya 坛子问题的逆:在我们取 $n$ 个球中有 $r$ 个红球的条件下,估计 $N$ 与 $R$ 的值。
我们用 $I$ 表示先验信息,用 $D$ 表示数据 $(n, r)$,则有:
$$P(N|DI) = P(N|I) \frac{P(D|NI)}{P(D|I)}$$
直觉告诉我们(至少拉普拉斯是这么认为的)数据只会截断不可能值,而可能值的比例不变,即:
$$ P(N|DI) = \begin{cases} k \cdot P(N|I) & \text{ if } N \geq n\\ 0 & \text{ else} \end{cases} $$
如果有更多的信息,则我们可以知道更多的东西。
对 $R$ 来说,我们有:
$$P(R|DNI) = P(R|NI) \frac{P(D|NRI)}{P(D|NI)}$$
选择不同的先验概率 $P(R|NI)$ 会导致完全不同的结果。具体可参考原书。
连续分布
较为琐碎,请参考原书。
正态分布
推导过程
在概率论中似乎有一个普遍的分布,许多分布在各种操作下会趋近于:
$$\varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$$
我们称其为中心/高斯/正态分布。它的规范性(从 $-\infty$ 到 $+\infty$ 的积分结果为 $1$)可由下式说明:
$$ \left(\int e^{-\frac{t^2}{2}} \mathrm{d}t \right)^2 = \iint e^{-\frac{x^2+y^2}{2}} \mathrm{d}x\mathrm{d}y \overset{(x,y)=(r\cos\theta,r\sin\theta)}{=} \iint e^{-\frac{r^2}{2}} r\mathrm{d}r\mathrm{d}\theta \overset{q=\frac{r^2}{2}}= 2\pi \int_0^{+\infty} e^{-q} \mathrm{d}q = 2\pi $$
一般是用累积高斯分布 $\Phi(x)=\int_{-\infty}^x \varphi(t) \mathrm{d}t = \frac{1}{2} [1+\mathrm{erf}(x)]$ 进行计算。
John Herschel 研究恒星位置出现误差的二维概率分布时导出了该分布,基于假设:
- 正交方向上的误差概率独立
- 概率与角度无关
这给出的唯一二维概率密度是圆对称高斯分布。10 年后麦克斯韦给出了同一论证的三维版本。
高斯推导的过程是这样的:我们从 $n+1$ 个观测值 $(x_0, \cdots , x_n)$ 中使用最大似然法估计位置参数 $\theta$. 如果抽样分布因子 $p(x_0\cdots x_n|\theta) = f(x_0|\theta) \cdots f(x_n|\theta)$,似然方程为:
$$\sum_{i=0}^n \frac{\partial}{\partial \theta} \ln f(x_i|\theta) = 0$$
我们定义 $g(u) = \ln f(x|\theta)$,考虑情形:$x_0=(n+1)u$ 且 $x_1=x_2=\cdots=x_n=0$,直觉告诉我们估计值应该是算术平均值 $\hat{\theta} = u$. 现在有 $g'(nu) = ng'(u)$,从而有 $g(u)$ 形如 $\frac{1}{2}au^2+b$,有 $f(x|\theta)$ 具有正态分布的形式。
电气工程师兰登给出了这样的推导:假设噪声电压 $v$ 有概率分布 $p(v|\sigma)$,然后附加一个小量 $\varepsilon$,它具有独立的概率分布 $q(\varepsilon)\mathrm{d}\varepsilon$,则:
$$f(v') = \int p(v'-\varepsilon|\sigma)q(\varepsilon) \mathrm{d}\varepsilon$$
我们将得到的条件是扩散方程:
$$\frac{\partial p}{\partial \sigma^2} = \frac{1}{2} \frac{\partial^2 p}{\partial v^2}$$
解也是正态分布。这解释了正态分布为什么会在自然中频繁出现。
我们在书的之后部分研究最大熵时将发现,使用正态分布表示噪声实际上是在告诉机器人:我们唯一知道的是一阶矩和二阶矩,不要作出其它假设。
正态分布另外的优势将在中心极限定理中体现。
重要性质
正态分布有这样的性质:
- 任何具有单一最大值的光滑函数提高到越来越高次幂将接近高斯函数
- 两个高斯函数的乘积是高斯函数
- 两个高斯函数的卷积是高斯函数
- 高斯函数的傅里叶变换是高斯函数
- 高斯分布的熵高于任何其它具有相同方差的分布的熵
中心极限定理可以通过反复使用卷积得到。