聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类,而事先并不知道类别的个数与结构。 最常用的两种聚类方法是层次聚类(hierarchical agglomerative clustering)和划分聚类(partitioning clustering)。在层次聚类中,每一个观测值自成一类,这些类每次两两合并,直到所有的类被聚成一类为止。在划分聚类中,首先指定类的个数K,然后观测值被随机分成K类,再重新形成聚合的类。
对于层次聚类来说,最常用的算法是单联动(single linkage)、全联动(complete linkage )、平均联动(average linkage) 、质心(centroid)和Ward方法。
二、聚类在基因表达数据中的应用
1.基因之间存在共表达
2.共表达的基因可能具有相似的生物功能
3.从具有相似表达谱的基因取推测其功能
4.利用不同基因表达模式对样本进行分类,找到潜在的分子标志物
5.更好的可视化
三、方法
R程序包实现层次聚类分析及可视化。
需要的数据:对应基因表达数据及样品特征信息。
返还的结果:heatmap图,及对应结果意义分析。