分类与聚类

wsql

浏览: 11790998 次
性别:
来自: 深圳

最近访客更多访客>>

GDGZWQZ

IT_way

qq_33632159

mhx1535

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (14573)

社区版块

存档分类

2013-03 ( 19)
2013-02 ( 15)
2013-01 ( 268)
更多存档...

首先分清聚类和分类的区别：
分类——监督学习算法，需要给定训练数据
聚类——无监督学习算法，无训练数据。

聚类分为层次方法和非层次方法：
层次方法——最后形成一棵tree，每个node或者有k个分支，或者是叶子节点。( 过程似huffman tree)
非层次方法——是一个迭代过程，直至满足某个阀值退出。（主要包括k-mean 和 EM算法）

k-mean算法的步骤：（每个样本只能属于一个聚类）
1）随机选出k个centroid（质心）
2）将每个样本分配给与之距离最近的centroid
3）重新计算centroid
4）重复2） 3）直至centroid所对应的set不变

EM算法：（每个样本可以属于不同的聚类，但概率不同）
理论基础—计算极大似然估计，需要求似然函数的极值。输入是样本，但这个样本并不是完整数据，它只是观测数据。
完整数据（Z）包括观测数据（X）和未知数据（Y）。
log似然函数：ℓ ( θ; Z ) = log p( Z|θ)=log p( X,Y|θ)-----(1)

它的步骤跟EM所代表的单词有关，
E——expectation, 已知：观测数据X，参数θ的当前值θt 未知：Y 对公式(1)求Y的期望，得表达式Q(θ,θt)， Q中不含有变量Y。 M——maximization，对E步得到的Q(θ,θt)求极大值， 即θt+1 =argmax Q(θ,θt ) 每次参数更新会增加非完整似然函数值 重复E、M两步，直至似然函数收敛到局部极大值。 EM会收敛到局部极值，但不保证收敛到全局最优；对初值很敏感，需要一个好的、快速的初始化过程。

k-mean聚类算法如下：

1.从数据点中，随机选取k个数据中心作为初始的聚类中心。例如k=3,则选择3个数据点

2.分别计算每一个点到k个中心点的距离（本文计算的是欧式距离），如果当前计算的数据点离第i个（i=1,2,…,k）中心点最近，则把当前点归到第i类.

3.重新计算k个聚类中心点。计算方式如下，如果第i类有n个数据点，则第i类新的中心为：

4．如果新的聚类中心跟上一次的聚类中心比较变化小于某值算法结束，否则转到第二步。

聚类结果如下：

代码如下：http://download.csdn.net/source/3374443

load gaussdata; %由于我先前生成好了，直接load进来

maxiter = 50;%设定最大频数

iter = 1;

num = size(X,2);%num为数据点个数

index = randperm(num); %产生1到num个数字的一个随机排列

center = X(:,index(1:3)); %选择出3个初始的聚类中心

�nter = X(:,1:3);

old = center;%记录旧的聚类中心

hold on ;

plot(X(1,:),X(2,:),'g.');%绘制数据点

plot(center(1,:),center(2,:),'ro'); %绘制数据中心

title(num2str(iter));%显示迭代步数

hold off;

xnum = size(X,2);

cdim = size(center,2);

while iter<=maxiter

clf;

hold on;

5-39行计算每一个点到k个中心的距离,一个很神奇的技巧，自己想吧，呵呵

sumX = sum(X.^2,1);

sumC = sum(center.^2,1);

XY = (2*X'*center)';

distance = repmat(sumX,cdim,1)+repmat(sumC',1,xnum)-XY;

[v,idx] = min(distance,[],1);%求出数据点到哪一个中心的距离最近

Y = idx;%对数据点进行分类

idx1 = find(idx==1);

idx2 = find(idx==2);

idx3 = find(idx==3);

%下面三行计算出新的聚类中心

center(:,1) = mean(X(:,idx1),2);

center(:,2) = mean(X(:,idx2),2);

center(:,3) = mean(X(:,idx3),2);

title(num2str(iter));

plot_data(X,Y,center);

hold off;

pause(0.1);

error = sum((center(:,1)-old(:,1)).^2,1);%计算迭代中止条件

if error<0.000001

break;

end

old = center;

iter = iter+1;

end

分享到：

Hive安装与配置——深入浅出学Hive | 11.27号－－－－－把oracle设置成归档模式

2012-11-27 16:52
浏览 811
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论