概率密度函数估计 -一个渣渣

首先来看贝叶斯决策，贝叶斯分类器就是根据如下贝叶斯公式来设计的。最常用的就是比较后验概率的大小，进行类别决策。（也就是基于最小错误率的分类器，还有其他的比如基于最小风险，NP决策等）。

如何理解呢，说一个例子，比如一个班里面的男女比例为2:1，那么也就是说男生占2/3，女生占1/3。这个呢就叫做类别的先验概率（类别就是男生、女生），对应公式上的p(w)。接着假设这个班上男生翘课的概率为3/4，女生翘课的概率为1/4，那么这个就叫做类条件概率，也就是类别约束（男生或者女生）下，事件（翘课）的概率，对应上面公式的p(x|w)。需要注意：先验概率满足总和为1的约束，类条件概率不满足总和为1的约束。这也很好理解，因为所有的类别都是固定的，那么一个个体总是属于某个类别中的一个，而类条件概率，比如男生缺课和女生缺课是相互独立的事件，则缺课的概率p(x)=2/3 * 3/4 + 1/3*1/4=7/12。因为不存在约束关系，所以也就不满足总和为1的约束。

上面的例子，现在假设有一个人缺课了，但是不知道是男生还是女生，怎么判断？基于最小错误率的贝叶斯分类器就是利用贝叶斯公式，由先验概率和类条件概率计算后验概率，比较大小，然后进行决策。缺课条件下是男生的概率为（2/3 * 3/4）/ 7/12 = 6/7；缺课条件下是女生的概率为（1/3 * 1/4）/ 7/12 = 1/7。也就是说一个人缺课了，它是男生的概率较大。

但是在实际问题中并不都是这样幸运的，我们能获得的数据可能只有有限数目的样本数据，而先验概率和类条件概率都是未知的。根据仅有的样本数据进行分类时，一种可行的办法是我们需要先对先验概率和类条件概率进行估计，然后再套用贝叶斯分类器。

先验概率的估计较简单，1、每个样本所属的自然状态都是已知的（有监督学习）；2、依靠经验；3、用训练样本中各类出现的频率估计。

类条件概率的估计（非常难），原因包括：1、概率密度函数包含了一个随机变量的全部信息；2、概率密度函数可以是满足下面条件的任何函数；3、在很多情况下，已有的训练样本数总是太少；4、当用于表示特征的向量x的维数较大时，就会产生严重的计算复杂度问题(算法的执行时间，系统资源开销等)。总之要直接估计类条件概率的密度函数很难。

于是就出现了概率密度函数的估计问题，这了讨论的主要是对类条件概率的估计。估计的方法分为两大类：

参数估计(parametric)：

参数估计法，样本所属的类别和类条件概率密度函数形式已知，而表征概率密度函数的某些参数是未知的。要求由已知类别的训练数据样本集，对概率密度的某些参数进行统计估计。如：

最大似然估计

Bayesian估计

非参数估计(non-parametric)：

已知样本所属类别，但未知概率密度函数的形式，要求不用模型，而只利用训练数据本身对概率密度做估计。 Parzen窗方法

Kn近邻估计

转载自原文链接, 如需删除请联系管理员。

原文链接：概率密度函数估计，转载请注明来源！