SHOGUN  v3.0.0
机器学习方法

目前Shogun的机器学习功能分为几个部分:feature表示,feature预处理, 核函数表示,核函数标准化,距离表示,分类器表示,聚类方法,分布, 性能评价方法,回归方法,结构化输出学习器。以下是shogun已实现的机器学习 相关算法和类。

Feature表示

Shogun提供多种feature表示。它们分别是:简单feature(参照CSimpleFeatures),它们是标准的二维 矩阵;字符串feature(参照CStringFeatures),它们其实是一个包含多个字符串的列表,每个字符串的 长度不限;稀疏feature(参照CSparseFeatures),它们用于表示稀疏矩阵。

每一种对象

支持下面这些数据类型:

另外还有其它的feature类型。其中有些是基于上面的三种基本的feature类型,如CTOPFeatures (CHMM中使用的TOP Kernel features),CFKFeatures(CHMM使用的Fisher Kernel features) 和CRealFileFeatures(从一个二进制文件获取向量)。请注意,所有feature类型都继承于 CFeatures。更加复杂的类型还有

另外,label由CLabels表示,字母表由CAlphabet表示。

预处理器

前面提到的所在feature类型都可以作预处理,如减去均值或将向量范数标准化为1等。以下是已实现的预处理器:

分类器

在shogun中实现了一系列分类器。它们中有些是标准的二类分类器,有些是一类分类器,有 些是多类分类器。它们中有一部分是线性分类器和SVM。较快的线性SVM分类器有CSGD, CSVMOcas及CLibLinear,它们能处理上百万的样本及feature。

线性分类器

支持向量机(SVM)

距离学习机

回归

支持向量回归(SVR)

其它

分布

聚类

多核函数学习(Multiple Kernel Learning)

核函数

核函数标准化

因为有些核函数对某些SVM来说数值不稳定,它们需要先作一些标准化。

距离

距离用于度量两个对象之间的矩离。它们可以用在CDistanceMachine对象中,如CKNN。 下面是已实现的矩离表示

评价

性能度量

性能度量用于评价预测质量,在shogun中CPerformanceMeasures实现。下面是已实现的 性能度量


SHOGUN Machine Learning Toolbox - Documentation