首先来看贝叶斯决策,贝叶斯分类器就是根据如下贝叶斯公式来设计的。最常用的就是比较后验概率的大小,进行类别决策。(也就是基于最小错误率的分类器,还有其他的比如基于最小风险,NP决策等)。
如何理解呢,说一个例子,比如一个班里面的男女比例为2:1,那么也就是说男生占2/3,女生占1/3。这个呢就叫做类别的先验概率(类别就是男生、女生),对应公式上的p(w)。接着假设这个班上男生翘课的概率为3/4,女生翘课的概率为1/4,那么这个就叫做类条件概率,也就是类别约束(男生或者女生)下,事件(翘课)的概率,对应上面公式的p(x|w)。需要注意:先验概率满足总和为1的约束,类条件概率不满足总和为1的约束。这也很好理解,因为所有的类别都是固定的,那么一个个体总是属于某个类别中的一个,而类条件概率,比如男生缺课和女生缺课是相互独立的事件,则缺课的概率p(x)=2/3 * 3/4 + 1/3*1/4=7/12。因为不存在约束关系,所以也就不满足总和为1的约束。
上面的例子,现在假设有一个人缺课了,但是不知道是男生还是女生,怎么判断?基于最小错误率的贝叶斯分类器就是利用贝叶斯公式,由先验概率和类条件概率计算后验概率,比较大小,然后进行决策。缺课条件下是男生的概率为(2/3 * 3/4)/ 7/12 = 6/7;缺课条件下是女生的概率为(1/3 * 1/4)/ 7/12 = 1/7。也就是说一个人缺课了,它是男生的概率较大。
但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。
先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。
类条件概率的估计(非常难),原因包括:1、概率密度函数包含了一个随机变量的全部信息;2、概率密度函数可以是满足下面条件的任何函数;3、在很多情况下,已有的训练样本数总是太少;4、当用于表示特征的向量x的维数较大时,就会产生严重的计算复杂度问题(算法的执行时间,系统资源开销等)。总之要直接估计类条件概率的密度函数很难。
于是就出现了概率密度函数的估计问题,这了讨论的主要是对类条件概率的估计。估计的方法分为两大类:
参数估计(parametric):
参数估计法,样本所属的类别和类条件概率密度函数形式已知,而表征概率密度函数的某些参数是未知的。要求由已知类别的训练数据样本集,对概率密度的某些参数进行统计估计。如:
非参数估计(non-parametric):
已知样本所属类别,但未知概率密度函数的形式,要求不用模型,而只利用训练数据本身对概率密度做估计。 Parzen窗方法
转载自原文链接, 如需删除请联系管理员。
原文链接:概率密度函数估计,转载请注明来源!