• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

模式识别 —— 第五章 数据聚类

武飞扬头像
梦里一声何处鸿
帮助2

模式识别 —— 第五章 数据聚类

距离与相似性度量

距离的四条基本公理

  • d(x,y) >= 0,对于任意的x,y∈P(两点之间的距离大于0)
  • d(x,y) = 0, 当且仅当x=y(相同输入,距离为0)
  • d(x,y) = d(y,x),对于任意的x,y∈P(对称性)
  • d(x,y) <= d(x,z) d(z,y),对于任意的x,y,z∈P(满足三角不等式)

闵可夫斯基距离

学新通

  • q = 1 q = 1 q=1时,为曼哈顿距离
  • q = 2 q = 2 q=2时,为欧几里得距离
  • q q q趋于无穷大时,为切比雪夫距离

学新通

欧式距离

学新通

马式距离

马氏距离实际上是欧氏距离在多变量下的“加强版”,用于测量点(向量)与分布之间的距离。

欧式距离在多变量距离度量方面有局限性,如下图所示,这是是两个变量的简单散点图。左图是两个变量之间不相关,Point 1和Point 2与分布中心的距离相等。右图是两个变量之间呈正相关。

学新通
从几何上说,Point 1和Point 2两个点与分布中心的距离相等(欧几里得距离)。但是,即两点到分布的欧几里得距离相等,但实际上只有Point 1(蓝色)更接近该分布。

这是因为,欧几里得距离仅是两点之间的距离,它不考虑数据集中的其余点的分布情况。因此,它不能用来真正判断一个点实际上与点的分布有多接近。所以我们需要的是更健壮的距离度量标准,该度量标准可以精确地表示一个点与分布之间的距离。

计算公式
向量 x x x到一个均值为 μ \mu μ,协方差为 S S S的样本分布的马氏距离计算如下:

d m a h a l = ( x − μ ) S − 1 ( x − μ ) T d_{mahal} = \sqrt{(x - \mu)S^{-1}(x-\mu)^{T}} dmahal=(xμ)S1(xμ)T

其中, ( x − μ ) (x-\mu) (xμ)本质上是向量与平均值的距离。然后,将其除以协方差矩阵,这实际上是多元变量的常规标准化。如果数据集中的变量高度相关,则协方差将很高。除以较大的协方差将有效缩短距离。同样,如果X不相关,则协方差也不高,距离也不会减少太多。因此,它有效地解决了规模问题以及前文中谈到的变量之间的相关性。

从计算上来说:马氏距离与欧几里得距离相比,有以下不同步骤:

  • 首先将列转换为不相关的变量
  • 缩放列以使其方差等于1
  • 最后,计算出加强版欧几里得距离。

曼哈顿距离

学新通
其实通过平移可知就是三角形的两个直角边长度之和。

学新通

切比雪夫距离

学新通

汉明距离

学新通

例如:
d(10010,10000) = 1
d(abcbc,abdab) = 3

余弦相似度

学新通
余弦相似度与向量的幅值无关,只与向量的方向相关

杰卡德相似系数

学新通

KL散度

学新通
详解传送门

基于距离阈值的聚类算法

近邻聚类法

学新通学新通

最大最小距离算法

学新通学新通

系统聚类法(层次/分级聚类法)

学新通

最短距离法

学新通

最长距离法

学新通

中间距离法(考点)

学新通

这个老师说要考那个公式的推导,推导如下:

Δ \Delta ΔHJK中对于 ∠ \angle HJI即 θ \theta θ进行余弦定理如下:

c o s θ = H J 2 J K 2 − H K 2 2 H J × J K = H J 2 1 4 J I 2 − H K 2 H J × J I ( 1 ) cos\theta = \frac{HJ^2 JK^2 - HK^2}{2HJ\times JK} = \frac{HJ^2 \frac{1}{4}JI^2 - HK^2}{HJ\times JI} (1) cosθ=2HJ×JKHJ2 JK2HK2=HJ×JIHJ2 41JI2HK21

Δ \Delta ΔHJI中同样对 ∠ \angle HJI即 θ \theta θ进行余弦定理如下:

c o s θ = H J 2 J I 2 − H I 2 2 H J × J I ( 2 ) cos\theta = \frac{HJ^2 JI^2 - HI^2}{2HJ\times JI} (2) cosθ=2HJ×JIHJ2 JI2HI22

显然,1式与2式是相同的:

H J 2 1 4 J I 2 − H K 2 H J × J I = H J 2 J I 2 − H I 2 2 H J × J I \frac{HJ^2 \frac{1}{4}JI^2 - HK^2}{HJ\times JI} = \frac{HJ^2 JI^2 - HI^2}{2HJ\times JI} HJ×JIHJ2 41JI2HK2=2HJ×JIHJ2 JI2HI2

解得:
H K = 1 2 H I 2 1 2 H J 2 − 1 4 I J 2 HK = \sqrt{\frac{1}{2}HI^2 \frac{1}{2}HJ^2-\frac{1}{4}IJ^2} HK=21HI2 21HJ241IJ2

重心法

学新通

类平均距离法

学新通

动态聚类方法

K-均值算法 (K-means算法)

学新通例题:
随机取2个点
学新通最近距离聚类
学新通类中心取点
学新通重新最近距离聚类
学新通
重复上述操作至不在变化。

迭代自组织的数据分析算法(ISODATA)

学新通学新通学新通学新通学新通学新通
学新通

谱聚类

啊啊啊,偷个懒吧。反正这章的考题不考这个,嘻嘻。

传送门

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhiaajfg
系列文章
更多 icon
同类精品
更多 icon
继续加载