【机器学习笔记之一】深入浅出学习K

  • 时间:
  • 浏览:1

K-Means主要有另另三个白 最重大的匮乏——都和初始值有关:

2)二维坐标点的X,Y 坐标,实在是有一种向量,是有一种数学抽象。现实世界中统统属性是后能 抽象成向量的,比如,亲戚亲戚我就们的年龄,亲戚亲戚我就们的喜好,亲戚亲戚我就们的商品,等等,能抽象成向量的目的也不后能 让计算机知道某另另三个白 属性间的距离。如:亲戚亲戚我就们认为,18岁的人离24岁的人的距离要比离12岁的距离要近,鞋子这俩 商品离衣服这俩 商品的距离要比电脑要近,等等。

后边这有几个图的大意是亲戚亲戚我就们是为啥会 个逼近中心的,第另另三个白 图以星形的法子 ,第3个图以同心圆的法子 ,第另另三个白 图以菱形的法子 。

我在这里重点说一下K-Means++算法步骤:

1)Minkowski Distance公式——λ后能 随意取值,后能 是负数,也后能 是正数,或是无穷大。

我希望能把现实世界的物体的属性抽象成向量,就后能 用K-Means算法来归类了

摘要:在数据挖掘中,K-Means算法是有一种 cluster analysis 的算法,其主也不来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。

机会你以”K Means Demo“为关键字到Google里查我就查到统统演示。这里推荐另另三个白 演示:http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

算法概要

一般来说,求点群中心点的算法我就很简的使用各个点的X/Y坐标的平均值。不过,我这里想告诉亲戚亲戚我就们另另另三个白 求中心点的的公式:

(1)Minkowski Distance     (2)Euclidean Distance    (3) CityBlock Distance

从上图中,亲戚亲戚我就们后能 看多,A,B,C,D,E是3个在图中点。而灰色的点是亲戚亲戚我就们的种子点,也也不亲戚亲戚我就们用来找点群的点。有另另三个白 种子点,统统K=2。

看多这里,我统统,K-Means算法看来很简单,但会 好像也不在玩坐标点,没法哪些真实用处。但会 ,这俩 算法匮乏统统,还不如人工呢。是的,前面的例子也不玩二维坐标点,的确没法哪些意思。但没法你想一下下面的有几个疑问:

K-Means要解决的疑问

最后给另另三个白 挺好的算法的幻灯片:http://www.cs.cmu.edu/~guestrin/Class/10701-S07/Slides/clustering.pdf

但会 ,K-Means的算法如下:

操作是,鼠标左键是初始化点,右键初始化“种子点”,但会 勾选“Show History”后能 看多一步一步的迭代。

K-Means算法主要解决的疑问如下图所示。亲戚亲戚我就们后能 看多,在图的左边有统统点,亲戚亲戚我就们用肉眼后能 看出来有3个点群,但会 亲戚亲戚我就们为啥会 通过计算机应用tcp连接找出这有几个点群来呢?于是就出现了亲戚亲戚我就们的K-Means算法(Wikipedia链接)

注:这俩 演示的链接都不 另另三个白 不错的K Means Tutorial。

2)Euclidean Distance公式——也也不第另另三个白 公式λ=2的情况汇报

1)机会都不 二维的,是多维的,如5维的,没法,就上后能 用计算机来计算了。

在数据挖掘中,K-Means算法是有一种cluster analysis的算法,其主也不来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。

这俩 算法实在很简单,如下图所示: 

这俩 算法很简单,但会 统统细节帮我提一下,求距离的公式我不说了,亲戚亲戚我就们有初中毕业水平的人都应该知道为啥会 算的。我重点想说一下“求点群中心的算法”。

这另另三个白 公式的求中心点有统统不一样的地方,亲戚亲戚我就们看下图(对于第另另三个白 λ在0-1之间)。

在《k均值聚类(K-means)》 这篇文章中举了另另三个白 很不错的应用例子,作者用亚洲15支足球队的10005年到1010年的战绩做了另另三个白 向量表,但会 用K-Means把球队归类,得出了下面的结果,呵呵。

K-Means的演示

3)CityBlock Distance公式——也也不第另另三个白 公式λ=1的情况汇报

相关的代码我就在这里找到“implement the K-means++ algorithm”(墙)另,Apache的通用数据学库也实现了这俩 算法

实在,也不的业务例子还有统统,比如,分析另另三个白 公司的客户分类,也不后能 对不同的客户使用不同的商业策略,或是电子商务中分析商品这类 度,归类商品,从而后能 使用统统不同的销售策略,等等。