300字范文 > Python实现朴素贝叶斯分类器

Python实现朴素贝叶斯分类器

时间：2021-10-25 22:28:02

相关推荐

Python实现朴素贝叶斯分类器

朴素贝叶斯分类器

文章目录

朴素贝叶斯分类器一、贝叶斯分类器是什么？贝叶斯判定准则朴素贝叶斯分类器举个栗子二、相关代码1.数据处理2.生成朴素贝叶斯表（字典）关于如何判断属性的连续或离散性根据朴素贝叶斯表计算预测标签总结

一、贝叶斯分类器是什么？

贝叶斯分类器是以贝叶斯决策论为基础的一类分类器。和频率决策论不同，贝叶斯决策论使用后验概率来计算将某个数据data分类为某一类c的风险概率。对分类任务来说，在所有相关概率都已知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯判定准则

假设对于数据集D，有N种可能的类别标记，即Y={c1,c2...cn,}Y=\{c_{1},c_{2}...c_{n},\}Y={c1,c2...cn,},λij\lambda_{ij}λij是将一个真实标记为cjc_{j}cj的样本误分类为cic_{i}ci的损失，基于后验概率P(ci∣x)P(c_{i}|x)P(ci∣x)可获得将样本x分类为cic_{i}ci所产生的期望损失，即在样本x上的“条件概率”。R(ci∣x)=∑j=iNλijP(cj∣x)R(c_{i}|x)=\sum^{N}_{j=i}{\lambda_{ij}P(c_{j}|x)}R(ci∣x)=j=i∑NλijP(cj∣x)

我们的任务就是寻找一个判定标准h:X→Yh:X\rightarrow Yh:X→Y以最小化总体风险。

R(h)=Ex[R(h(x)∣x)]R(h)=E_{x}[R(h(x)|x)]R(h)=Ex[R(h(x)∣x)]

对于每个样本x，若h能以最小化条件风险R(h(x)|x),则总体风险R（h）也将被最小化。这就产生了贝叶斯判定准则（Bayes decision rule）:为最小化总体风险，只需在每个样本上选择那个能使条件风险R（c|x）最小的类别标记，即h∗(x)=argminc∈YR(c∣x)h^{*}(x)=arg\quad min_{c\in Y}{R(c|x)}h∗(x)=argminc∈YR(c∣x)此时，h∗h^{*}h∗称为贝叶斯最优分类器，与之对应的总体风险R(h*)称为在贝叶斯风险。

具体来说，若目标是最小化分类风险，那么 λij={0ifi=j1otherwise\lambda_{ij}=\begin{cases}0&if\quad i=j\\1&otherwise\end{cases}λij={01ifi=jotherwise

此时条件风险R(c∣x)=1−P(c∣x)R(c|x)=1-P(c|x)R(c∣x)=1−P(c∣x)于是，最小化分类错误率的贝叶斯最优分类器为h∗(x)=argmaxc∈YP(c∣x)(1.1)h^{*}(x)=arg\quad max_{c\in Y}P(c|x)\quad(1.1)h∗(x)=argmaxc∈YP(c∣x)(1.1) ，即对每个样本x，选择能使后验概率P(c∣x)P(c|x)P(c∣x)最大的类别标记。基于贝叶斯定理，P(c∣x)P(c|x)P(c∣x)可写为P(c∣x)=P(c)P(x∣c)P(x)(1.2)P(c|x)=\dfrac{P(c)P(x|c)}{P(x)}\quad(1.2)P(c∣x)=P(x)P(c)P(x∣c)(1.2)，其中，P(c)P(c)P(c)是类“先验（prior）”概率；P(x∣c)P(x|c)P(x∣c)是样本x相对于类别标记c的条件概率。

朴素贝叶斯分类器

不难发现，基于贝叶斯公式来估计后验概率P(c∣x)P(c|x)P(c∣x)的主要难度在于类条件概率P(x∣c)P(x|c)P(x∣c)是所有属性的联合概率，难以从有限的训练集上进行直接计算。为了避开这个坑，朴素贝叶斯分类器的做法是，假设所有属性都互相独立。那么，基于属性条件独立假设，式（1.2）可重写为

P(c∣x)=P(c)P(x)∏i=1dP(xi∣c)(1.3)P(c|x)=\dfrac{P(c)}{P(x)}\prod^{d}_{i=1}{P(x_{i}|c)}\quad(1.3)P(c∣x)=P(x)P(c)i=1∏dP(xi∣c)(1.3)

其中ddd为属性数目，xix_{i}xi为x\mathbf{x}x在第iii个属性上的取值。

由于对于所有类别来说P(x)P(x)P(x)相同，因此基于式（1.1）的贝叶斯判定准则有hnb(x)=argmaxc∈YP(c)∏i=1dP(xi∣c)h_{nb}(x)=argmax_{c\in Y}P(c)\prod^{d}_{i=1}P(x_{i}|c)hnb(x)=argmaxc∈YP(c)i=1∏dP(xi∣c)。

显然，朴素贝叶斯分类器的训练过程就是基于训练集D来估计先验概率P(c)P(c)P(c)，并为每个属性估计条件概率P(xi∣c)P(x_{i}|c)P(xi∣c)。令DcD_{c}Dc表示训练集D种第ccc类样本组成的集合，若有充足的独立同分布样本，则可容易地估计出类先验概率P(c)=∣Dc∣∣D∣P(c)=\dfrac{|D_{c}|}{|D|}P(c)=∣D∣∣Dc∣。

对于离散属性而言，令Dc,xiD_{c,x_{i}}Dc,xi表示DcD_{c}Dc中在第iii个属性上取值为xix_{i}xi的样本组成的集合，则条件概率P（xi∣c）P（x_{i}|c）P（xi∣c）可估计为P(xi∣c)=∣Dc,xi∣∣Dc∣P(x_{i}|c)=\dfrac{|D_{c,x_{i}}|}{|D_{c}|}P(xi∣c)=∣Dc∣∣Dc,xi∣。

对于连续属性可考虑概率密度函数，假定p(xi∣c)N(μc,i,σc,i2)p(x_{i}|c)~\mathcal{N}(\mu_{c,i},\sigma^{2}_{c,i})p(xi∣c)N(μc,i,σc,i2)，其中μc,i\mu_{c,i}μc,i和σc,i2\sigma^{2}_{c,i}σc,i2分别是第ccc类样本在第iii个属性上取值的均值和方差，则有p(xi∣c)=12πσc,iexp(−(xi−μc,i)22σc,i2)p(x_{i}|c)=\dfrac{1}{\sqrt{2\pi }\sigma_{c,i}}exp(-\dfrac{(x_{i}-\mu_{c,i})^{2}}{2\sigma^{2}_{c,i}})p(xi∣c)=2πσc,i1exp(−2σc,i2(xi−μc,i)2)

举个栗子

如上图所示的西瓜数据集，对测试样例编号1进行分类。对于先验概率P(c)P(c)P(c)，有P(好瓜=是)=817P(好瓜=是)=\dfrac{8}{17}P(好瓜=是)=178P(好瓜=否)=917P(好瓜=否)=\dfrac{9}{17}P(好瓜=否)=179

然后为每个属性估计条件概率P(xi∣c)P(x_{i}|c)P(xi∣c)：

P青绿∣是=P(色泽=青绿∣好瓜=是)=38P_{青绿|是}=P(色泽=青绿|好瓜=是)=\dfrac{3}{8}P青绿∣是=P(色泽=青绿∣好瓜=是)=83

P蜷缩∣是=P(根蒂=蜷缩∣好瓜=是)=58P_{蜷缩|是}=P(根蒂=蜷缩|好瓜=是)=\dfrac{5}{8}P蜷缩∣是=P(根蒂=蜷缩∣好瓜=是)=85…

p密度：0.697∣是=p(密度=0.697∣好瓜=是)=12π∗0.129exp(−(0.697−0.574)22∗0.1292)p_{密度：0.697|是}=p(密度=0.697|好瓜=是)=\dfrac{1}{\sqrt{2\pi}*0.129}exp(-\dfrac{(0.697-0.574)^{2}}{2*0.129^{2}})p密度：0.697∣是=p(密度=0.697∣好瓜=是)=2π∗0.1291exp(−2∗0.1292(0.697−0.574)2)

其余属性条件概率略

最后，P(好瓜=是)≈0.063P(好瓜=是)\approx 0.063P(好瓜=是)≈0.063 P(好瓜=否)≈6.80∗10−5P(好瓜=否)\approx 6.80*10^{-5}P(好瓜=否)≈6.80∗10−5

由于0.063>6.80∗10−50.063>6.80*10^{-5}0.063>6.80∗10−5因此将样例1判定为“好瓜”。

二、相关代码

1.数据处理

该数据集是我通过西瓜书上的西瓜数据集随机生成的10000条数据。需要的评论留言。

代码如下（示例）：

import numpy as npimport pandas as pddata=pd.read_csv("DataOrDocu/NewWatermelon2.csv",index_col=0)attributes=data.columnspath="DataOrDocu/PosterProbDict.npy"feature=data[:,:-1]label=data[:,-1]featureTrain,featureTest,labelTrain,labelTest=train_test_split(feature,label,train_size=0.7,random_state=10)labelTrain=np.reshape(labelTrain,(labelTrain.shape[0],1))labelTest=np.reshape(labelTest,(labelTest.shape[0],1))dataTrain=np.concatenate((featureTrain,labelTrain),axis=1)dataTrain=pd.DataFrame(dataTrain,columns=attributes,index=None)dataTest=np.concatenate((featureTest,labelTest),axis=1)dataTest=pd.DataFrame(dataTest,columns=attributes,index=None)

2.生成朴素贝叶斯表（字典）

逻辑很简单，即根据式(1.3)，先计算《好瓜=是|否》的先验概率，即P(好瓜=是)P(好瓜=是)P(好瓜=是)和P(好瓜=否)P(好瓜=否)P(好瓜=否)，并以字典形式返回。然后计算各种条件概率比如P(色泽=青绿∣好瓜=是)P(色泽=青绿|好瓜=是)P(色泽=青绿∣好瓜=是)等等，如果是离散属性，那么保存P(a=ai∣好瓜=是or否)P(a=a_{i}|好瓜=是or否)P(a=ai∣好瓜=是or否)等一系列条件概率；如果是连续属性，那么保存p好瓜,属性ap_{好瓜,属性a}p好瓜,属性a的均值和方差。最后，将生成的字典保存成npy文件，方便后续使用。

关于如何判断属性的连续或离散性

此外，有一个问题其中有一个函数，用于判断某个属性是离散属性还是连续属性，我考虑了2种方案，但实际上并不都是完美的逻辑，只是针对具体的数据集具有逻辑的相对完备性。一是判断数据是否为字符类型，一般字符类型将其判断为离散属性，其他判断为连续属性，但很容易在其他数据集上发现例外；二是计算某属性的所有数据集中包含的值的所有种类，如果种类数量<一定的范围，那么，我即认定为其为离散值，大于该范围的，认定其为连续值。但当遇到稀疏数据时，此类办法也会经常失效。

具体代码如下：

import numpy as npdef PosteriorProbDivided(data,attributes,label,path):priorProba={}length=data.shape[0]labelKinds=KindsGet(data,label) #获取标签的所有类别posterProbTable={}try:for i in labelKinds:dataTemp=data.loc[data[label]==i]tempLength=dataTemp.shape[0]tempPrior=tempLength/lengthpriorProba.update({i:tempPrior})tempAttr = {} # 用于保存所有属性的条件概率for j in attributes:if IfDivideAttr(data,j):tempPosterProb=DivCondiProba(data,j,length)tempAttr.update({j:tempPosterProb}) #将该属性的条件概率保存else:averageVar=ContiCondiProba(data,j) #如果该属性是连续值，那么将该属性的平均值和方差求出，并保存tempAttr.update({j:averageVar})posterProbTable.update({i:tempAttr})try:np.save(path,posterProbTable)except FileExistsError as error:print(error)return priorProbaexcept IndexError as error:print(error)def IfDivideAttr(data,attribute):#第一种判断属性离散还是连续的函数values=np.unique(data[attribute]).shape[0]#获取某一属性的值的种类length=data.shape[0]if values!=0:if values<=length/10:#如果某一属性的取值数量小于等于总数据量的十分之一，即判定其为离散值return Trueelse:return Falsedef IfDivideAttr2(data,attribute): #第二种判断属性离散还是连续的函数return not isinstance(data[attribute],float)def KindsGet(data,attribute): #用于将离散属性的所有值返回if IfDivideAttr(data,attribute):values=np.unique(np.array(data[attribute]))return valuesreturn Nonedef DivCondiProba(data,attribute,length):#计算某一离散属性的条件概率tempAttrValues = KindsGet(data, attribute)tempPosterProb = {} # 用于保存某一属性的后验概率for k in tempAttrValues:tempAttrPoster = data.loc[data[attribute] == k].shape[0] / length # 计算出当某属性a的值为k时，其在标签c上的条件概率P(k|c)，并将其压进列表tempPosterProb.update({k: tempAttrPoster})return tempPosterProbdef ContiCondiProba(data,attribute):#计算某一连续属性的平均值和方差contiValue=data[attribute]contiValue=np.array(contiValue)average=np.average(contiValue)variance=np.var(contiValue)return average,variance

根据朴素贝叶斯表计算预测标签

针对某个数据的每一个属性对应的值，如果是离散属性，那么就从表中获取，如果是离散属性，那么就根据表中的均值和方差计算条件概率。但是区别于式（1.3），在程序中我对连乘做了一个取对数，防止指数爆炸（方正就是防止差距过大）。然后一个判断正确率的函数，单纯计算预测数据中的正确比例。

def PosteriorFind(data,posterProbTabel,priorProba):#用于计算某单个数据的最后标签posterValues=[]#用于保存每一个标签的后验概率bayesProba=0for label in posterProbTabel:for attribute in posterProbTabel[label]:# attrValue=list(attribute.keys())[0]#取出字典键值对中的健if IfDivideAttr2(data,attribute):tempValue=np.log(posterProbTabel[label][attribute][data[attribute]])bayesProba+=tempValueelse:averageVar=posterProbTabel[label][attribute]xi=data[attribute]average,variance=averageVar[0],averageVar[1]tempValue=1/(np.square(2*pi)*variance)*np.exp(-(xi-average)**2/2*variance**2)tempValue=np.log(tempValue)bayesProba+=tempValuelabelKey=label#取出label的keylabelPrior=priorProba[labelKey]bayesProba+=np.log(labelPrior)#将该循环内的标签c所对应的先验概率加入其中posterValues.append(bayesProba)bayesProba=0posterDict=zip(posterValues,list(posterProbTabel.keys()))posterDict=dict(posterDict)bestValue=np.max(posterValues)bestLabel=posterDict[bestValue]return bestLabeldef AccCal(data,label,PosterProbaTabel,priorProba):length=data.shape[0]acc=0for i in range(data.shape[0]):labelPre=PosteriorFind(data.loc[i],PosterProbaTabel,priorProba)if labelPre==data[label][i]:acc+=1ratio=acc/lengthreturn ratio