但是按理说单的技术不可能很好地解决所有类型的问题。在本文中我们将介绍这个算法和其他算法。当均值是解决方案时假设我们有以下二维数据集。例如我们假设这些变量是组人的归化体重和身高从到乍看可以清楚地区分组。此信息将用作均值的输入。旦算法收到所需数量的组它遵循的步骤很简单个质心是随机初始化的在本例中个质心。通过计算每个点到每个质心的距离对数据集中的每个点进行分类每个点都属于质心最近的组。
出思想深处的你我向你
对于在步骤中创建的集群质心将重新计算为集群中所有点的平均值。因此得名。重复步骤和直到每次迭代的质心不再有太大变化。有关更多详细信息以及中的简单实现您可以参考这篇文章。正如我们在下图中看到的 菲律宾电话号码数据 设法按预期分割数据集总是最推荐的选项吗答案是不。在某些数据类型中均值就其本质而言无法按预期工作。正如我们所见要使均值正常工作质心即每个聚类的均值必须相距足够远。此外在算法的第点中通过计算每组的均值来重新计算质心。
创作者的生活应用程序
由于质心正好位于集群的中心这迫使集群趋向于圆形。但是如果我们的数据不是圆形的或者质心距离不够远怎么办高斯混合模型如果我们用肉眼看到的组不是圆形的可能不是使用的选项。在以下数据集中我们看到肉眼 多特蒙德名录 可以清楚地区分的个组。这些是椭圆形的而不是圆形的对于这种类型的数据高斯混合模型可能是个不错的选择。使用此算法我们假设点遵循高斯分布。与假设它们是循环的如均值情况相比此假设限制较少。