………………………… 科研发 . ((-_ 聚类分析法在医学上的应用研究 中国医科大学 李双良 【摘要】目前,聚类分析作为一种新兴技术手段被应用于国内外医学领域,从不同程度辅助提升了医疗效果。了解聚类分析在医学领域的主要应用,探索它的应用前景及 发展方向有助于各项医务工作的展开。文章通过查阅各种数据库的相关文献,借助文献计量学及sPss,MATLAB软件全面总结出聚类分析在医学领域的主要应用。 【关键词】聚类分析;数据挖掘;数字医疗;应用研究 聚类分析,它是直接比较各事物之间的 性质,将性质相近的归为一类,性质差别较 大的归入不同类的一种多元统计分析方法。 现代化数字医疗的严峻形势对医务人员的要 求越来越高。聚类分析技术在发达国家的应 用已经很广泛,在我国医学领域应用的较晚 使用分类学距离和平均连锁聚成来对心脏病 分类;Jones等通过聚类分析分开两种症状 非常多变而交叠的结肠疾病;zinsser(1964) 使用因子分析和聚类分析区分肾盂肾炎…… 我国精神症诊断标准的制定和残肢 者肌电信号的控制都应用了模糊聚类。 列……,聚类分析这把强大的工具使人类在 疾病治疗的基因水平上迈出了一大步。 五、聚类分析在分子流行病学中的应用 国内国外聚类分析在这方面的研究都己 颇为成熟。典型研究有: l_聚类分析在院内感染性疾病的研究应 但前景广阔。 常用的统计聚类分析方法包括谱系聚类 (hi erarchi ca1 c1ustering)、快速聚类 (K—means)、两阶段聚类(Two—Step)、动态 聚类、最优分割和模糊聚类等。采用k~均值、 k一中心点等算法的聚类分析工具已被加入到许 多著名的统计分析软件包中,如SPSS、SAS、 MATLAB等。国外比较有名的数据挖掘系统有 SAS公司的Enterpri 8e ii11er、IBM公司的 Intelligent Miner.SGI公司的MinerSet、 SPSS公司的Clementine、加拿大Simon Fraser 大学开发的DBMinet等。 通过查阅万方、维普、知网等各种数 据库的相关文献,借助文献计量学及SPSS, MATLAB等软件分析,发现聚类分析在医学领 域的应用主要有以下几个方面。 一、聚类分析在医学影像上的应用 医学图像数据挖掘技术聚类分析是有效 解决医学图像处理与分析的重要手段之~, 它可以揭示正常人体各组织器官影像特征数 据的分布规则和关系,为人体组织器官图像 的自动分类和病变组织图像自动识别开辟新 的途经[ 。 目前的典型研究有: 1.在医学图像灰度密度研究的基础上, 提出基于医学图像带修正系数的密度构造聚 类算法。对现有图像数据挖掘算法加以比较 筛选和改进,深入研究了医学图像数据的核 密度函数、数据分箱和基于数据分箱策略的 密度构方法,使图像更精确。 2.用Matlab语言优化K一均值聚类算法程 序,提高了K一均值聚类算法在医学CT图像分割 上的应用效果、稳定性和质量,减少了程序的 运行时间,为图像的识别处理奠定了基础。 3.将遗传算法与聚类分析两种工具相结 合,应用到医学cT图像分割中。利用遗传算 法搜索的随机性和并行性,克服了K均值聚类 的局部性和对初始聚类中心的敏感性。并且 可以根据分割的要求,合理地调整聚类时的特 征向量和权重。 4.将模糊聚类分析方法引入到医学图像 处理领域,在不断的改进和其他方法的伴随 下,改善算法的速度和处理效果。 5.采用无监督的聚类分析的计算机系统 提高对病灶的MRI x光检查的诊断准确性,作 为计算机辅助诊断病灶x光检查。 二、聚类分析在疾病的诊断和分型上的 应用 在医学中,值得注意的是,某些临床实 体可以有种种原因,如由非常不同的细菌造 成的脑膜炎在临床上可能无可区别;反之, 一种病因可以产生种种体征,症状和病理现 象,例如,梅毒。在当前的数字化医疗时 代,医学聚类分析在疾病的计算机诊断上大 放异彩,解决了很多关于疾病实体和综合征 的诊断和分型的棘手问题 2j。 较早的应用有:Manning ̄1Wstson(1966) 如今发达国家采用统计聚类分析为早期 帕金森疾病分亚型,这种亚型的鉴定对致病机 制假说的提出和治疗策略的制定有重大暗示; 将统计聚类分析方法应用在胃旁路减肥手术 中,来辨别肥胖病人不同的亚型,借此找到阻 碍减肥成功和术后恢复的模式;采用K—means聚 类分析对听力图形进行分类,改善和整合临床 设置中的图形识别,减少由于个体经验而发生 的错误,被用于诊所开发;利用SPSS软件对 203例有随访结果的肿瘤作因子分析和聚类判 别分析,用于讨论乳腺叶状肿瘤的9种病理形 态学特征性参数的诊断价值等等。 三、聚类分析在监测和评价疾病预后上 的应用 聚类分析在国内医疗这方面的应用几乎 为空白,但在国外应用已经很有成效。 发达国家采用凝聚谱系聚类分析将慢性 病的表现症状分解,用来评估慢性病的生活 质量,如肺癌;用聚类分析评估I型糖尿病胰 岛移植后自我监测的血糖指标,观察血糖波 动和预后 ;用聚类分析判断病理指标,如尽 管肝功能保存良好,但低BTR水平仍能表明肝 细胞癌切除患者的早期复发;用几何编码和 聚类分析识别参数来评估和控制II型糖尿病 患者的代谢控制情况,有助于改善他们的监 测和治疗;用聚类分析预测妇女生育年龄的 心血管疾病和代谢风险因素等等。 四、聚类分析在基因靶向治疗上的应用 基因数据标准化处理后可以进行基因聚 类分析,通过基因聚类分析可以考察未知基 因的功能信息或己知基因的未知功能信息。 对基因和样本进行双聚类可以更好地发现基 因表达模式并且具有更清晰的生物学解释 ]。 通过聚类分析,可以获取对种群固有 结构的认识。有利于疾病进行根本的靶向治 疗。同样的,国外聚类分析在这方面的研究 也远远多于几乎空白的国内。 目前根据形态学对肿瘤进行分类有很大 的局限性,而基因表达聚类分析可以利用肿 瘤间不同的基因表达谱进行更精确的肿瘤亚 型分类。在肿瘤新标志基因发现中使用聚类 算法和其它分析方法已经取得很有价值的发 现,使得对肿瘤的机制有了更清晰的解释, 对肿瘤的早期诊断和患者的生存预判提供了 重要的参考。 除了在对肿瘤基因的研究,发达国家还 利用聚类分析研究COPD基因,辨别不同亚型 的带有不同模式的呼吸道疾病和肺气肿的吸 烟患者;用层次聚类分析分析基因突变和某 些疾病预后的关系,如AML(急性粒细胞白血 病)预后和NPM1基因突变的关系;用离散聚 类分析,K—means算法聚类分析和期望最大值 算法来分析大规模离散型国际人类基因组单 核苷酸多态性数据变量;用标准和一致性聚 类分析工具(SC2ATmd)探索MATLAB中的微阵 基因表达数据;用离散的拉普拉斯的聚类分 析方法分析欧洲男士Y染色体的短串联重复序 用(以大肠杆菌为例) 改进并运用基因分型方法,研究临床所 分离到的彩超广谱B内酰胺酶大肠杆菌的分 子流行病学。采用脉冲场凝胶电泳<PFGE>分 析电泳图谱经数据转化后进行聚类分析,计 算各菌株间的相似性系数(SSm),根据SSm进 行单链锁聚类分析,得到相似性系数三角矩 阵,对结果进行分析,以确定菌株间的亲缘 关系_5]。细菌的分子流行病学研究是控制院内 感染的重要基础,它利用分子生物学方法来 判断实验菌株之间的亲缘关系以发现爆发流 行的来源及传播途径。 2.聚类分析在流行病生态学研究上的应用 例:王春晓等根据颈椎病患者的临床表 现设计调查表,收集575例颈椎病患者的症 状”体征”舌脉等信息,采用聚类分析和主 成分分析法对调查表中98个常见症状进行聚 类分析。提示聚类分析和主成分分析用于中 医证型的分类研究具有一定科学性。 3.聚类分析在药效学和药动学上的研究 应用 例:发达国家为快速,方便,可靠的研 究药物对白血病细胞的识别以及用于新药的 临床试验,利用傅里叶变换红外显微光谱结 合无监督谱系聚类分析快速识别白血病细胞 的耐药性和敏感性;他们还证明顺序聚类分 析是有效的heatmap展示抗生素耐药性时空变 化模式可视化的方法;使用基于地理信息系 统的凝聚谱系聚类分析,可以划分出基于时 空的可视化的抗生素耐药模式等等。 六、结语 大量实例证明,聚类分析是可以运用在 医学上的一把利刃,目前对它的应用也只是 冰山一角,它在医学上有很大的应用空间和 光明的前景。现代数字化医疗形势对广大的 医务人员提出了更高的要求,我们应该逐步 接触并掌握好这门先进的工具为医学为病人 更好的服务。 参考文献 【1】杨生友聚类分析在医学图像中的应用D)]兰州大学,2009 『21孙迎.医院信息的数据挖掘与方法研究【A】中华医学 会第十次全国医学信息学术会议论文汇编[c1.2004. 【3]Taldta,M,et a1.,Cluster analysis of self-monitoring blood gtueose assessments in clinical islet cell transplantation for type 1 diabetes.Diabetes Care,2011.34(8):1799—803. [4】Eisen MB,Spellman PT,Brown PO,et a1.Cluster analysis nad display ofgenome—wideexpression patterns[J]Genetics,2 008,95(25):14863—14868. [51康梅,陈超杨,NOrman Hui,陈文昭,过孝静,郑动斌产 超广谱B酰胺酶大肠杆菌的脉冲场凝胶电泳分型研究 四川大学学报(医学版),200435(2]:214—216 作者简介:李双良(1993一),女,辽宁沈阳人,现 就读于中国医科大学,研究方向:聚类分析在医学上 的应用。 电子t||拜一115—