中心思想
从数据的相似性入手作为切入点完成原始高维数据的低维表示即降维,降维过程中保证相似性误差和最小。简单来说,MDS是一个降维算法,输入的是距离矩阵D,这一点和PCA有所不同,其他的和PCA基本一样:通过正交分解,得到q个特征向量,然后选择前p(p<q)个特征值和特征向量完成的降维[1]。
理解MDS
假如有很多细胞,这些细胞属于不同的种类。但是我们不能观察出来差别,因此我们需要借助其他的手段,比如借助mRNA,假设数据如下图所示:
每一列对应一个细胞中每种基因的转录量。如果做PCA分析,我们能够将原始数据降到二维。高度相关的样本会形成一个Cluster。
MDS和PCA非常相似,PCA入手的角度是通过变量之间的线性相关性完成降维,而MDS是用距离(或者说是相似性),完成降维。为了利用距离进行降维,我们需要知道cell1和cell2之间的距离,cell1和cell3之间的距离,…以及cell2和cell3之间的距离…距离如何刻画?很自然地,我们会采用欧式距离进行刻画。
一旦计算得到距离矩阵,通过矩阵的正交分解,就能够得到降维后的结果。
当使用欧式距离时,PCA的结果和MDS的结果一样,原因在于:采用PCA进行降维时,最佳投影方向对应的就是欧式距离和最小的方向。换句话说,最小化距离(相似性)其实和最大化相关性是一样的。实际上,距离的度量方式有很多种,比如:对数距离、曼哈顿距离、汉明距离等。
MDS和PCA之间的联系和区别
- PCA是基于样本之间的相关性进行的降维
- MDS是基于样本间的距离进行的降维
两者之间的不同仅在于描述样本之间的关系的方式不同,之后的矩阵分解部分,确认特征向量和特征值等完全一样。
应用
1、数据降维
通过对距离矩阵D进行正交分解,完成数据降维。
2、目标识别[2]
通过构造Loss function使得降维之后数据间距离与降维前数据间距离的误差和最小,达到降维的目的。
参考文献
[1] https://blog.csdn.net/Dark_Scope/article/details/53229427
[2] Wang Q, Boyer K L. Feature learning by multidimensional scaling and its applications in object recognition[C]//2013 XXVI Conference on Graphics, Patterns and Images. IEEE, 2013: 8-15.