1-VS-Rest策略
1-VS-Rest策略1-VS-Rest策略概念1-VS-Rest策略是一种机器学习算法的策略,将每个类别作为一个二分类问题来处理,可以用于解决多类分类问题。
在训练时,将需要识别出的类别的数据作为正例,其余数据作为反例。这种训练方式被称为1-VS-Rest,也就是1对其余的策略。
例如,在对绿色、蓝色和红色三种数据进行分类时,分别训练绿色对蓝色和红色、蓝色对绿色和红色、红色对绿色和蓝色三个模型。
如果有N个目标类别,就需要训练N个二分类模型。在使用这些模型时,这N个模型互相独立,互不干扰。对于同一个待预测数据,每个模型都需要计算一遍。
输出识别结果时,可以选择置信度最大的某一个结果,也可以选择置信度超过0.5的多个结果。具体如何选择,与实际的任务相关。
例如,我们要搭建一个新闻分类系统,根据输入的文章内容,输出文章的类别。这时,某偏文章就可能是既是体育新闻,同时还有娱乐属性,因此就需要同时输出这两个类别。
1-VS-Rest策略使用场景1-VS-Rest策略对目标类别,使用一个二分类算法(如逻辑回归、支持向量机等)来训练一个分类器。这样,对于每个类别,都会得到一个独立的分 ...
softmax与sigmoid
softmax与sigmoidsigmoid函数是一种常用的非线性函数,也被称为逻辑函数(Logistic function)。它将任意实数映射到一个介于0和1之间的值。将线性输出z转化为一个概率,这个概率表示样本属于正例的可能性。
在softmax归中,我们使用softmax函数将输出值zk同样转化为概率,这个概率表示样本属于第k个类别的可能性。
当softmax类别数为2时,softmax回归和逻辑回归的输出等价的。
softmax类别数为2公式推导设有两个类别,类别1和类别0,某样本x属于1或0的概率为p(y=1)和p(y=0)。
在逻辑回归中,使用sigmoid函数来预测正例的概率,结果p(y=1)=sigmoid(z)。
在softmax回归中,类别k的概率为,softmax(zk)。根据softmax函数,类别0和类别1的概率分别是softmax(z0)、softmax(z1)。将这两个等式相除,得到p(y=0)/p(y=1)=e^z0/e^z1。
将p(y=0)=1-p(y=1),带入这个式子,得到,(1 - p(y=1)) / p(y=1)= e^(z0 ...
softmax回归
softmax回归在解决多分类问题时,我们可以直接构建一个softmax回归模型,同时对所有类别进行识别。
在softmax回归中,包括了两个步骤。
softmax线性预测:输入一个样本的特征向量,输出多个线性预测结果。
softmax计算类别概率:将上述结果输入到softmax函数,softmax函数会将多个线性输出,转换为每个类别的概率。
softmax线性预测在某多分类问题中,有三个目标类别o1、o2、o3,四个输入特征,x1到x4。
softmax回归会基于输入x,计算o1、o2、o3三个线性输出。
在计算每一个线性输出o时,都会依赖一组w和b参数。我们可以将softmax回归,看做是一个具有多个输出的单层神经网络。
我们可以基于矩阵,计算线性输出o。
例如,在计算o=Wx+b时。W是一个34的权重矩阵。b代表了一个31的偏置列向量。x是4*1的特征向量。
经过计算,会得到3*1的输出结果o。
softmax计算类别概率计算出线性输出o后,将o输入到softmax函数,从而将线性输出o转换为每个类别的预测概率y。
设有n个输出,o1到on。第k个输 ...
Pytorch实现非线性分类
Pytorch实现非线性分类在平面上,包括了3组不同类别的训练数据,分别使用红色、蓝色和绿色表示。它们呈非线性的分布方式。
基于Pytorch深度学习框架,训练一个神经网络模型,将这三组数据分开。并且,我们要将模型产生的分类决策边界,使用橙色进行标记。
安装并导入Pytorch相关的库需要安装 scikit-learn、matplotlib、numpy、torch 库。1234pip install scikit-learnpip install matplotlibpip install numpypip install torch torchvision torchaudio
在代码中导入上述安装好的库12345from sklearn.datasets import make_blobs,make_circlesimport matplotlib.pyplot as pltimport numpy as npimport torch.nn as nnimport torch
分类数据的生成
定义函数make_data 函数传入num,代表每种类别的数据个数。
1234567 ...
非线性分类的决策边界
非线性分类的决策边界绿色曲线代表了正例和负例的决策边界。曲线里面是正例,曲线外面是负例,曲线是个椭圆。
线性分类的决策边界,可以按照直线的绘制方法进行绘制。
分界平面不是线性的,是这种椭圆型状的,又该怎么办呢?
假设使用线性分类的绘制方式。给出x坐标,计算y坐标,再画出曲线。
但现在我们想要画的曲线根本就不是函数,它是绿色的不规则曲线。我们没办法找到一个x对应一个y,所以也就没法用画函数的方法,画出这个绿色的边界。
这种非线性分类的决策边界,需要基于等高线的概念来绘制。
等高线的基本概念等高线,也被称为等值线,它是一种在二维平面上表示三维地形的方法。
例如,下图使用等高线,描述了某座山的地形图。
其中我们使用黑色三角代表山顶,距离山顶最近的一圈是海拔4000米,然后是3500米,3000米等等到0。每一圈都对应了一个高度。
将等高线视为类别的边界我们要将等高线,看做是不同类别的分界面。不同类别的样本,需要看做是不同的高度,这样,就可以基于不同样本点的高度,绘制出一条等高线了。
例如,这里的蓝色圆圈对应的高度是1,红色叉子对应的高度是0,它们之间就自然产生一条绿色的 ...
最小二乘法
最小二乘法最小二乘法的公式,θ=X转置乘X,它的逆矩阵,再乘以X的转置乘y。
最小二乘法怎么使用?又是如何推导出来的?
最小二乘法的使用和推导最小二乘法是解决线性回归问题的常用方法。线性回归用于研究自变量X与因变量Y之间的关系。
例如,设自变量X对应房子面积,Y是房子的价格,我们希望研究面积与价格之间的关系,就可以基于最小二乘法,构建出线性回归模型。
为了弄清楚最小二乘法算法,我们需要先了解线性回归,包括线性回归模型的定义和线性回归模型的代价函数两个内容。
线性回归模型线性回归模型公式设线性回归模型为hθ(x)在该模型中:
θ是模型的参数
x是输入的自变量
n是x的维度
模型根据输入的X,给出预测值hθ(x)。
在面积x与价格y这一问题中,令hθ(x)=θ1x+θ0,它代表价格的预测值。最初参数θ1和θ0是未知的,我们希望通过算法,计算出一组θ1和θ0,使得模型hθ(x)能尽量的准确预测价格y。
线性回归模型图像将已知的8个样本数据,画在坐标系中。接着画出3条直线,每条直线对应一组θ0和θ1。
这时可以观察到,直线3是最好的拟合这些样本的直线,其次是直线 ...