百题突击4:1.逻辑回归相比线性回归,有何异同? 2.回1.写出全概率公式&贝叶斯公式 2.朴素贝叶斯为什么“朴素naive”? 3.朴素贝叶斯有没有超参数可以调? 4.朴素贝叶斯的工作流程是怎样的?

琐碎记录 专栏收录该内容
40 篇文章 0 订阅

1.写出全概率公式&贝叶斯公式

https://zhuanlan.zhihu.com/p/78297343
https://www.jianshu.com/p/3ff548a8b3a3

如果事件组B1,B2,… 满足
1) B1,B2…两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,…,且P(Bi)>0,i=1,2,…;
2) B1∪B2∪…=Ω ,则称事件组 B1,B2,…是样本空间Ω的一个划分. 设 B1,B2,…是样本空间Ω的一个划分,A为任一事件,则:

P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) \mathrm{P}\left(\mathrm{A} \mid B_{\mathrm{i}}\right) P(A)=i=1P(Bi)P(ABi)
上式即为全概率公式(formula of total probability)

与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有

P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P\left(B_{i} \mid A\right)=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A \mid B_{j}\right)} P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)

上式即为贝叶斯公式(Bayes formula),Bi 常被视为导致试验结果A发生的”原因“,P(Bi)(i=1,2,…)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2…)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。

2.朴素贝叶斯为什么“朴素naive”?

https://zhuanlan.zhihu.com/p/150641206

在推导5个特征的数据集方程时,我们只需乘以各个特征的所有条件概率,比如P(X1 | Y)P(X2 | Y)….P(X5 | Y)。当我们假设特征相互独立时,我们只能把总的条件概率写成特征的个别条件概率的乘积。这是我们在这里做的“天真”假设,是为了让贝叶斯定理对我们有用。

但是,在现实生活中,当特性彼此独立时,几乎从来没有这种情况。功能中总是有某种依赖关系。例如,如果一个特征是一个人的年龄,而另一个特征是年薪,那么在大多数情况下都有明显的依赖关系。

然而,我们仍然继续把这个定理应用于分类问题,甚至文本分类,它的效果出奇的好!

朴素贝叶斯分类是一种十分简单的分类算法,其思想是朴素的,即:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

之所以被称为“朴素”, 是因为它假定所有的特征在数据集中的作用是同样重要和独立的,正如我们所知,这个假设在现实世界中是很不真实的,因此,说是很“朴素的”。

3.朴素贝叶斯有没有超参数可以调?

https://cloud.tencent.com/developer/article/1474960
朴素贝叶斯是没有超参数可以调的,所以它不需要调参,朴素贝叶斯是根据训练集进行分类,分类出来的结果基本上就是确定了的,拉普拉斯估计器不是朴素贝叶斯中的参数,不能通过拉普拉斯估计器来对朴素贝叶斯调参

4.朴素贝叶斯的工作流程是怎样的?

数据挖掘面试题之:朴素贝叶斯

回答:朴素贝叶斯的工作流程可以分为三个阶段进行,分别是准备阶段、分类器训练阶段和应用阶段。

准备阶段:这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,去除高度相关性的属性(如果两个属性具有高度相关性的话,那么该属性将会在模型中发挥了2次作用,会使得朴素贝叶斯所预测的结果向该属性所希望的方向偏离,导致分类出现偏差),然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。(这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响。)

分类器训练阶段:这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。

应用阶段:这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。
在这里插入图片描述

5.朴素贝叶斯对异常值是否敏感?

不敏感,因为其分类依据是类别概率与类别概率下的样本概率,在类别概率已计算完成的前提下,单独的异常值不会影响对其他样本的估计

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    评论
  • 2
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

相关推荐
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值