使用python简单实现三种常见的降维方法：PCA、t-SNE和Umap（降到二维进行可视化）三种常见的降维方法：PCA、t-SNE和Umap

174 阅读 0 评论 115 点赞

我是靠谱客的博主整齐铃铛，这篇文章主要介绍使用python简单实现三种常见的降维方法：PCA、t-SNE和Umap（降到二维进行可视化）三种常见的降维方法：PCA、t-SNE和Umap，现在分享给大家，希望可以做个参考。

三种常见的降维方法：PCA、t-SNE和Umap

1.PCA

主成分分析方法(Principal Component Analysis，PCA)是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

import seaborn as sns
#定义seaborn包
'''seaborn是python中的一个可视化库，是对matplotlib进行二次封装而成，
因为是基于matplotlib，所以seaborn的很多图表接口和参数设置与其很是接近。'''
from sklearn.decomposition import PCA
#导入PCA
X_pca = PCA(n_components=2).fit_transform(train_x_fea)
# n_components为PCA的参数，所要保留的主成分个数n，也即保留下来的特征个数n
# train_x_fea为需要降维的数据
X_pca = np.vstack((X_pca.T, train_y)).T
#把降维后的数据和标签按垂直方向（行顺序）堆叠数组构成一个新的数组
df_pca = pd.DataFrame(X_pca, columns=['1st_Component','2n_Component','label'])
#把降维后的数据和标签进行组合
df_pca.head()
plt.figure(figsize=(6, 6))
#定义输出图像大小
sns.scatterplot(data=df_pca, hue='label',x='1st_Component',y='2n_Component')
#画散点图，定义X/Y轴
plt.rcParams['xtick.direction'] = 'in'
#plt.rcParams主要作用是设置画的图的分辨率，大小等信息
plt.rcParams['ytick.direction'] = 'in'
plt.title('PCA visualization of features')
#定义标题
plt.legend(loc='best')
#在最合适的地方显示便签
plt.savefig('PCA visualization of features.jpg')
#保存图片
plt.show()

2.t-SNE

t-分布领域嵌入算法(t-Distributed Stochastic Neighbor Embedding，t-SNE)是一种降维技术，用于在二维或三维的低维空间中表示高维数据集，从而使其可视化。与其他降维算法(如PCA)相比，t-SNE创建了一个缩小的特征空间，相似的样本由附近的点建模，不相似的样本由高概率的远点建模。

from sklearn.manifold import TSNE
tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(train_x_fea)
X_tsne_data = np.vstack((X_tsne.T, train_y)).T
df_tsne = pd.DataFrame(X_tsne_data, columns=['Dim1','Dim2','label'])
df_tsne.head()
plt.figure(figsize=(6, 6))
sns.scatterplot(data=df_tsne,hue='label',x='Dim1',y='Dim2')
plt.title('T-SNE visualization of features')
plt.legend(loc='best')
plt.savefig('T-SNE visualization of features.jpg')
plt.show()

3.Umap

UMAP（Uniform Manifold Approximation and Projection for Dimension Reduction，一致的流形逼近和投影以进行降维）。一致的流形近似和投影（UMAP）是一种降维技术，类似于t-SNE，可用于可视化，但也可用于一般的非线性降维。

import umap
import
seaborn as sns
umap = umap.UMAP(n_components=2)
X_umap = umap.fit_transform(train_x_fea)
X_umap_data = np.vstack((X_umap.T, train_y)).T
df_umap = pd.DataFrame(X_umap_data, columns=['Dim1','Dim2','label'])
df_umap.head()
plt.figure(figsize=(6, 6))
sns.scatterplot(data=df_umap,hue='label',x='Dim1',y='Dim2')
plt.title('Umap Visualization of features')
plt.legend(loc='best')
plt.savefig('Umap visualization of features.jpg')
plt.show()

可编辑标签的Umap可视化

#使用标签分隔类（监督 UMAP）
import umap
import
seaborn as sns
train_y = pd.DataFrame(train_y)
dic = {0:'non ac4C',1:'ac4C'}
ls = []
for index,value in train_y.iterrows():
arr = np.array(value)[0]
ls.append(dic[arr])
embedding = umap.UMAP().fit_transform(train_x_fea,train_y)
plt.figure(figsize=(6, 6))
sns.scatterplot(embedding[:,0],embedding[:,1],hue=ls,palette='Set1',sizes=10)
plt.gca().set_aspect('equal', 'datalim')
plt.title('Umap visualization of features')
plt.xlabel('umap1')
plt.ylabel('umap2')
plt.legend(loc='best')
plt.savefig('Umap visualization of features.pdf')
plt.show()