贝叶斯概率 – 12Reads管理百科

历史

贝叶斯概率贝叶斯理论和贝叶斯概率以托马斯·贝叶斯（1702－1761）命名，他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用，很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本，并将之用于解决天体力学、医学统计中的问题，在有些情况下，甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。

Frank P. Ramsey在《数学基础》（1931年）中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充，而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点，将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》（1954年）中拓展了这个思想。

有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。当信任有程度的时候，概率计算的定理测量信任的理性程度，就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值（真或假）的一种扩展。

Harold Jeffreys， Richard T. Cox， Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括[[John Maynard Keynes和B.O. Koopman]]。

变种

贝叶斯概率术语主观概率，个人概率，认知概率和逻辑概率描述了通常成为贝叶斯学派的思想中的一些。这些概念互相重叠，但有不同的侧重。这里提到的一些人物不会自称是贝叶斯学派的。

贝叶斯概率应该测量某一个体对于一个不确定命题的置信程度，因此在这个意义下是主观的。有些自称贝叶斯学派的人并不接受这种主观性。客观主义学派的主要代表是Edwin Thompson Jaynes和Harold Jeffreys。也许现在还在世的主要客观贝叶斯学派人物是杜克大学的James Berger。Jose Bernardo和其他一些人接受一定程度的主观性，但相信在很多实际情况中有使用”先验参照（reference priors）”的需要。

逻辑（或者说，客观认知）概率的推崇者，例如Harold Jeffreys， Rudolf Carnap， Richard Threlkeld Cox和Edwin Jaynes，希望将能够在两个有相同关于某个不确定命题的真实性相关的信息的人计算出同样的概率的技术规律化。这种概率不和个人相关，而只和认知情况相关，因此位于主观和客观之间。但是，他们推荐的方法有争议。批评者对这个声称发起挑战，在关于相关事实的信息缺乏的时候，更偏好某一个置信度是有现实依据的。另一个问题是迄今为止的技术对于处理实际问题还是不够的。

频率概率

贝叶斯概率贝叶斯概率和频率概率相对，它从确定的分布中观测到的频率或者在样本空间中的比例来导出概率。

采用频率概率的统计和概率的理论由R.A. Fisher， Egon Pearson和Jerzy Neyman在20世纪上半叶发展起来。A. N. Kolmogorov也采用频率概率来通过勒贝格积分为测度论中的概率奠定数学基础（《概率论基础》(1933年)）。Savage， Koopman， Abraham Wald和其他一些学者自1950年以来发展了贝叶斯概率。

贝叶斯学派和频率学派在概率解释上的分歧在统计学实践上有重要的结果。例如，在用同样的数据比较两个假设的时候，假设测试理论基于概率的频率解释，它允许基于错误推出数据更支持另外那个模型/假设的概率来否定或接受一个模型/假设（零假设）。出现这种错误的概率称为一类误差，它要求考虑从同样的数据源导出的假想的数据集合要比实际观测到的数据更为极端。这个方法允许论断‘或者两个假设不同或者观测到的数据是误导性的集合‘。相对应的是，贝叶斯方法基于实际观测到的数据，因此能够对于任何数量的假设直接赋予后验概率。对于代表每个假设的模型的参数必须赋予概率的要求是这种直接方法的代价。

应用

贝叶斯概率自1950年代以来，贝叶斯理论和贝叶斯概率通过考克斯定理， Jaynes的最大熵原理以及荷兰书论证得到了广泛的应用。在很多应用中，贝叶斯方法更为普适，也似乎较频率概率能得出更好的结果。贝叶斯因子也和奥卡姆剃刀一起使用。数学应用请参看贝叶斯推论和贝叶斯定理。

有些人将贝叶斯推论视为科学方法的一种应用，因为通过贝叶斯推论来更新概率要求从对于不同假设的初始信任度出发，采集新的信息（例如通过做试验），然后根据新的信息调整原有的信念。调整原有的信念可以意味着（更加接近）接受或者推翻初始的假设。

贝叶斯技术最近被应用于垃圾邮件的过滤上。贝叶斯垃圾邮件过滤器采用电子邮件的一个参考集合来定义什么最初被认为是垃圾邮件。定义了参考之后，过滤器使用参考中的特点来将新的邮件判定为垃圾邮件或有效邮件。新电子邮件作为新的信息出现，并且如果用户在垃圾邮件和有效邮件的判定中发现错误，这个新的信息会更新初始参考集合中的信息，以期将来的判定可以更为精确。

概率

对于贝叶斯概率解释曾有过的一个批评是一个单独的概率赋值不能给出信念的真实性——也即，它有多少科学实证。考虑如下的这些情况：

你有一个装了白球和黑球的盒子，但是不知道它们的数量

你有一个盒子，你从中取了n个球，一半黑，一半白

你有一个盒子，你知道有同样数量的黑球和白球

下一个取出的球是黑球的贝叶斯概率对于所有三种情况都是0.5。Keynes称这为“证据的权重”问题。一个反映这些证据支持的区别的方法是对于这些概率本身赋予概率（所谓的“元概率”）如下：

1. 你有装了白球和黑球的盒子，但是不知道数量情况

令θ = p代表下一球为黑的概率为p这一命题，一个贝叶斯概率论者会赋予一个Β先验分布：

假设取出的球用二项式分布建模，则后验分布P(θ | m，n)，在取出m个黑球和n个白球之后依然是一个Β分布，其参数αB = 1 + m， αW = 1 + n。Β分布的参数的一个直观的解释是两个事件的设想记数。

2. 你有一个盒子，你已经从中取了N个球，黑白各半

令θ = p 代表下一球为黑的概率为p这一命题，一个贝叶斯概率论者会赋予一个Β先验分布，Β(N / 2 + 1，N / 2 + 1)。θ的极大后验概率(MAP估计)是，恰好就是拉普拉斯逐次法则。

3. 你有一个盒子，并且你知道黑球和白球的数量相等

这个情况下，贝叶斯概率论者会定义先验概率为

其它贝叶斯概率论者辩解说概率不一定要是精确的数字。

因为频率解释中没有元概率的容身之地，频率论者必须用其它方式表达证据支持。Cedric Smith和Arthur Dempster分别发展了上下极限。Glenn Shafer进一步发展了Dempster的理论，现在它被称为Dempster-Shafer理论。