Posts /

A tutorial on clustering algorithms

Twitter Facebook
01 Oct 2016

聚类算法指南

[TOC]

Clustering: Introduction

Clustering Algorithms

在本文中,我会介绍四中最常用的聚类算法:

上面的四个算法每一个都属于上面介绍的四类中的一个,按顺序一一对应。

Minkowski Metric

​ 对于高维数据来说,一种流行的度量是Minkowski metric:

​ d表示数据的维度,p=2是,公式退化为欧氏距离。p=1时,退化为Manhattan metric。需要指出的是,如何针对一个具体应用选择度量标准并没有一个统一的准则。一切取决于你的需要。

​ 在很多情况下,数据特征向量的哥哥成分之间并不是直接可比的。它们可能是不连续的值而是标称值,比如长度或者一周的某一天。在这些情况下,我们就需要相应的domain knowledge来制定一个合适的measure。

Biography


Twitter Facebook