第28卷第1期 2011年2月 邢台职业技术学院学报 Journal ofXingtai Polytechnic College v01.28 No.1 Feb.2011 基于层次迭代思想的聚类算法的研究 柴旭光 (邢台职业技术学院信息工程系,河北邢台054035) 摘 要:聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段 和方法。聚类无论在商务领域,还是在生物学、Web: ̄档分类、图像处理等其他领域都得到了有 效的应用。本文主要研究的是基于迭代思想的聚类算法。 关键词:数据挖掘;聚类分析;层次算法 中图分类号:TP3 1 1 文献标识码:A 文章编号:1008--6129(201 1)Ol—O052—O3 所有的组合并为一个(层次的最上层),或者达到 一聚类是数据挖掘中的一种重要技术,是分析 数据并从中发现有用信息的一种有效手段。通过 聚类,人们能够识别密集和稀疏的区域,发现全 局的分布模式以及数据属性之间有趣的相互关 个终止条件。的方法,也称为自顶向下的 方法,一开始将所有的对象置于一个聚类中。在 迭代的每一步中,一个类被为更小的类,直 到最终每个对象在单独的一个类中,或者达到一 个终止条件。 3.基于密度的方法(density.based method) 绝大多数划分方法基于对象之间的距离进行 聚类。这样的方法只能发现球状的类,而在发现 任意形状的类上遇到了困难。随之提出了基于密 系。聚类分析在客户分类、基因识别、www文 本分类、空间数据处理、卫星照片分析、医疗图 像自动检测等领域有着广泛的应用,[1l而其本身 的研究也是一个蓬勃发展的领域,数据挖掘、统 计学、机器学习、空间数据库技术、生物学和市 场学的发展推动着聚类分析研究的进展,使它已 成为数据挖掘研究中的一个热点。与其他数据挖 掘方法不同,在进行聚类分析前用户一般并不知 度的另一类聚类方法,其主要思想是:只要临近 区域的密度(对象或数据点的数目)超过某个阈 值,就继续聚类。也就是说,对给定类中的每个 数据点,在一个给定的范围的区域中必须至少包 含某个数目的点。这样的方法可以用来过滤“噪 声”孤立点数据,发现任意形状的聚类。【5J 本文通过分析研究以上算法,提出了基于层 次迭代思想的聚类算法。 二、基于层次迭代思想的聚类算法 (一)算法思想 通常情况下,样本空间为无数个分散的个 体,采用传统的分层算法,虽然能找到最终的结 果,但是往往计算量非常大,耗费的时间也非常 多,而采用传统的迭代算法,虽然也能算出密度 道数据集的特征。因此,从某种角度看,聚类分 析是一种无监督的学习过程,是基于观察的学习 而不是基于实例的学习。 一、聚类算法的分类 通常的聚类分析算法可分为如下几种:【2 ̄4】 1.划分方法(partitioning method) 给定一个n个对象或元组的数据库,一个划 分方法构建数据的K个划分,每个划分表示一个 聚类,并且KS_n。也就是说,它将数据划分为K 个组,同时满足如下要求:每个组至少包含一个 对象;每个对象必须属于且只属于一个组,同时 某些模糊划分技术中第二个要求可以放宽。 2.层次方法(hierarchical method) 层次的方法对给定的数据对象集合进行层次 的分解。根据层次的分解如何形成,层次的方法 可以分为凝聚的和的。凝聚的方法,也称为 在一定范围内的聚类集合,但是对样本空间的密 度有一定的要求,[61既不能过于分散,也不能过 于集中,所以并不适用所有的情况。而本文提出 的基于层次迭代思想的算法正好可以弥补层次算 法与迭代算法的不足。 基于层次迭代思想的算法主要是先对样本空 自底向上的方法,一开始将每个对象作为单独的 一个组,然后相继地合并相近的对象或组,直到 收稿El期:2010—11—15 作者简介:柴旭光(1983一),河北邢台人,邢台职业技术学院信息工程系,教师。 52 邢台职业技术学院学报 间进行分层,使其每一层所具有的样本个数都比 较平均,且密度值符合迭代算法所要求的条件, 然后对每层子样本空间进行迭代算法,进而得出 最终的结果。 (二)算法描述 首先对样本空间分层:在给定的样本空间Y 里,寻找“距离”最近的两个子样本结合。 1.有N个样本的集合Zs={Z1,Z2….,ZN)。 2.若想要聚成K1个聚类(事先给定K), 即分成K1层。  ̄k=-S,Ci ̄{Zi),i=l,2,...,N  ̄ifk=K1 thenEND ③找到Ci与Ci之间的距离d(Ci,cj)最小 的一对 ④ci和cj合成一个类Ci,并计算新的Ci 的中心 ⑤去除Ci,k=k-1.goto② 三、基于层次迭代思想的算法程式 通过层次算法的计算,将已知的N个样本 并 集合Zs分成了K1个聚类,即K1层,然后对每个 聚类应用迭代算法,进行更进一步的划分,得出 最终的结果。 1.首先给一些参数: K2:期望分类个数的大致范围 0k:一个类内的最少样本数 Os:关于类内分散程度的参数 0c:关于类问距离(最小)的参数 L:每次迭代允许合并的类数 I:允许迭代的最大次数 № 2.适当选取类中心{z1,z2。…,ZN },Nc:类数;3.分配样本。如果有{i=1,2,...,Nc}; № lIz一 lI-IIZ—Zi l】则Z∈sj,J=1,2,...,N 4.如果sj类样本数Nj<Ok,则取消sj类。 Nc=Nc一1,goto 3); 5.计算类Sj内平均距离: 一 1一 = z, :l,2,..Ⅳc i、j zES J 6.如果叠代次数>I,则转向10);若ⅣC ,√2, 则转向8):其他情况,则转向1o)。 7.对全体样本求类内距离平均值: D:一 l∑Nc .D一j,Ⅳ:兰 8.计算各类中各分量的标准差: =压 ,..一 ,.. k=1,2,..aVj x 为Z∈sj的第i个分量,z 为 的第i个 2011年 第1期 分量, ,为第J类第i个分量标准差。 9.找到各类的标准差最大的分量: 6j一=max 1j,62 .,6崎、,J=1,2,...,Nc 1O.计算所有各类中心的相互距离: Dij=llZi—Zjil,i=l,2,…,Nc一1,j=i+l,…,Nc 11.对于比0c小的Dij从小到大排队。假定 为Diljl Di2j2 …DiLjL 12.按1=1,2,...L的顺序,把Dil_l对应的Zil和 l3.计算Dili1时的Zi,Zj,若至少其中一个是在 本次迭代中合并取得类中心,则越过此项。 14.若叠代次数 I,或参数无改变,则终止。 否则goto(3),需要时可返回(1)修改参 数。 四、实验分析 为了验证上述算法的有效性,设计了基于层 次迭代思想的聚类算法程序,假设样本空间如图 1所示,通过该算法的分类后,结果如图2所示。 可见,该算法能将样本空间分类成有序的聚类集 合。 。 。.=. ・ ..・ . ‘ ・ :.0 .二主 :. .二 . ・.......‘^:..:。 ..‘ ・‘:.・ .:::.。; ・..。:::‘:t .: .. : :;。.:c ‘ ・・.....'’.. ・一・. .‘0 .. ..,....:: .・ .三.. ‘:_.二。 . ‘.二.:‘=.:: .・: 图1样本空间 岛零I 每毒爹 图2聚类集合 53 邢台职业技术学院学报 2011年 第1期 参考文献: 聚类算法『J1.计算机学报,2003,26(5):605~610. 【1】周水庚,范晔,周傲英.基于数据取样的 【4】马帅,王腾蛟,唐世渭等.一种基于参考点和密 DBSCAN算法[J].小型微型计算机系统,2000, 度的快速聚类算法[J】.软件学报,2003,(6). 21(12):1 270 ̄1 274. [5】袁方,周志勇,宋鑫.初始聚类中心优化的 [2】金阳,左万利.一种基于动态近邻选择模型的聚 K—means算法[J].计算机工程,2007,33(3):65--66. 类算法[J】.计算机学报,2007,30(5):756~762. [6】邵峰晶,于忠清.数据挖掘原理与算法[M】.北 [3】行小帅,潘进,焦李成.基于免疫规划的K-means 京:中国水利水电出版社,2003,19 35. Clustering Algorithm of Level Iterated Theory CHAI Xu-guang (Xingtai Polytechnic College,Xingtai,Hebei 054035,China) Abstract:Clustering is a major field in data mining which also is an important method of data partition or grouping.Clsutering now has been applied into various ways in commerce,market analysis,biology,web clsasiifcation nad SO on.This paper mainly studies the clustering algorithm based on the level iterated theory. Key words:data imning;clustering;hierarchical method (责任编辑马骅) (上接第41页) 要原因,增大轴直径是个非常有效的减少应力的 三、结果 措施,同时花键到轴肩过渡阶段的加工工艺需要 由图6所示,花键轴的受力情况比较复杂, 改善,粗大的加工刀痕使应力集中系数增大也会 几乎每个齿都受力,其中花键齿最大一点处应力 导致花键轴断裂。 值达到了728Mpa。而对于20CrMnTiH这种材料, 外花键在扭转和弯曲及压轴力的作用下,将产生 参考文献: 弯曲应力cFn和剪切应力xtn(通常靠近花键收 [1】于志伟,许晓磊,史雅琴.柴油机齿轮轴断裂失 尾处最大),这两种应力合成为当量应力O'V。经 效分析[J].大连海事大学学报,2003,(2). 过查资料,计算得:【ow]=468.32Mpa。 【2]姜涛,刘高远,张卫方.某传动装置主传动轴断 可见经有限元分析的实际等效应力值均明显 裂原因分析[J].机械强度,2004,(S1). 大于所许用的当量应力。 [3】刘永魁.推土机终传动花键轴断裂分析及改进 花键齿的应力最大值的位置位于花键到轴肩 【J1机械工人,2005,(3). 的过渡阶段。 . 【4】王启义.中国机械设计大典(第三册)【M】.南昌: 由图7显示结果可知,增大轴径应力明显减 江西科学技术出版社,2002.60- ̄-63. 少,可以看出花键轴的轴径过小是导致轴断的主 Experimental Study of Fracture Failure about an Automobile Rear Axle Spline Shaft ZHAO Yu-qing (Xingtai Poltyechnic College,Xingtai,Hebei 054035,China) Abstract:An automobile rear axle spline shaft rfacture failure occurs when checking fatigue tests.In this paper, macro—and micro.observation of hte spline shaft is carded on,Pro/E4.0 and fniite element analysis software MSC.Patran nad Mare are applied to analyze,and effective measrues rae proposed from structure. Key words:spline shaft;failrue;fracture damage;finite element analysis (责任编辑王傲冰)