[吴恩达机器学习笔记]13聚类K-means

时间:2018-09-08 21:48:45   收藏:0   阅读:259

13.聚类

觉得有用的话,欢迎一起讨论相互学习~Follow Me

13.1无监督学习简介

从监督学习到无监督学习

技术分享图片


13.2K均值算法 K-Means Algorithm

  1. 首先选择k个随机的点,称为聚类中心(cluster centroids);
  2. 簇分配(cluster assignment) 对于数据集中的每一个数据,按照距离K个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。
  3. 移动聚类中心(move centroids) 计算 每一个组 的平均值,将该组所关联的中心点移动到平均值的位置。
  4. 重复步骤 2-4 直至中心点不再变化。

    步骤详解

  1. 第一步是随机生成 两点(K点,可改变),这两点被称为 聚类中心(cluster centroids)
    技术分享图片
  2. 簇分配(cluster assignment) 遍历每个样本,然后根据样本到两个不同的聚类中心的距离哪个更近,来将每个数据点分配给两个聚类中心之一,使用\(||x^{(i)}-u_{k}||^{2}\)来计算距离,其中\(x^{(i)}\)表示无标签的样本点,u_{k}表示 簇中心
    技术分享图片
  3. 移动聚类中心(move centroids) 将聚类中心分别移动到各自簇的中心处。即图中 计算所有红点均值 ,然后将红色聚类中心点移动至均值处,蓝色点同理。
    技术分享图片
  4. 重复2-3过程,直到聚类中心不再移动
    技术分享图片

13.3K均值算法损失函数 K-Means optimization objective

定义损失函数变量

  1. 假设有K个簇,\(c^{(i)}\) 表示样本\(x^{(i)}\) 当前所属的簇的索引编号\(c^{(i)}\in(1,2,3...K)\)
  2. \(\mu_k\) 表示 第k个聚类中心 的位置,其中 \(k\in{1,2,3,4...K}\)
  3. 根据以上定义:则\(\mu_{c^{(i)}}\) 表示样本\(x^{(i)}\)所属簇的中心的 位置坐标

    K-means算法的优化目标


13.4K均值算法簇中心的随机初始化 Random initialization

技术分享图片

随机初始化遵循法则

  1. 我们应该选择 K小于m,即聚类中心点的个数要小于所有训练集实例的数量
  2. 随机选择 K 个训练实例,然后令 K 个聚类中心分别与这 K 个训练实例相等

    随机初始化的局限性


13.5K均值算法聚类数K的选择 Choosing the Number of Cluters

原文:https://www.cnblogs.com/cloud-ken/p/9610614.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!