主动式学习策略研究综述
摘 要:近年来,主动式学习策略越来越受到研究者们的关注,并且有了许多重要的研究成果。其核心思想是通过选择有效的训练样本,使得机器学习算法能在使用更少训练数据的情况下,同样能达到良好的性能。首先对有关研究成果进行综述,然后展望未来主动式学习策略可能的应用前景。
关键词:主动式学习;确定性原则;成员性原则;样本选择;支持向量机
中图分类号:g42
随着互联网技术的广泛应用,人们接触到的网络资讯日益膨胀,高效地处理海量信息并从中挖掘出有用信息的需求,显得日益迫切。研究者们提出了各种高效的机器学习算法,通过计算机进行信息处理与挖掘。但是这些机器学习算法的性能,却有赖于训练数据的质量和数量。所以标注训练数据的人工成本往往就成为机器学习算法应用的瓶颈。主动式学习策略提供了一种在保证机器学习算法性能的同时,通过选择有效未标注样本,进而最小化人工标注工作量的方法。主动式学习策略大体上可以分为(1)基于确定性原则[1][2];(2)基于成员性原则[3][4];两类主流方法。它们已经被广泛地应用于网络上的自然语言处理任务。下面将针对这两类现有的主动式学习策略方法及其应用的研究成果进行综述;然后对主动式学习策略的应用研究进行展望。
1 基于确定性原则的主动式学习策略及应用
应用基于确定性原则的主动式学习策略进行机器学习算法训练时,首先需要选择小部分样本进行标注,这些样本被称为种子样本;然后使用这些种子样本训练出初始模型;接着使用初始模型,计算出其它未标注样本的确定性分值,再根据准则从中选择出一部分样本再进行标注;最后重新训练模型,如此反复迭代,直到结束条件满足。
schohn&cohn[1]提出了一种简单的主动式学习策略用于训练支持向量机,极大地提高了支持向量机的泛化能力,并在书面文档分类任务中进行了验证。研究结果发现,只用该主动式学习策略选择出来的小部分样本,训练出来的支持向量机模型,其性能强于使用整个数据库训练出来的模型。总所周知,支持向量机的训练时间随着训练数据量的增加而大幅度增加,因此,该主动式学习策略能更高效地训练高性能的支持向量机模型。tong&koller[2]也应用了该策略进行支持向量机的训练。
基于确定性原则的主动式学习策略已经应用于不同的自然语言处理任务中,比如:语音理解[5],信息抽取[6],多媒体检索[7]等。turetal.[5]将基于确定性原则的主动式学习策略与半监督学习算法相结合,以进一步减少训练模型所需的标注样本,并在语音理解任务中进行了验证实验。基于确定性的主动式学习策略同样也被应用于自动语音识别任务当中[8][9]。 2 基于成员性原则的主动式学习策略及应用
应用基于确定性原则的主动式学习策略进行分类算法训练时
[4][10],首先选取若干组不同的分类算法,使用种子样本进行初始模型的训练;然后使用初始模型对未标注样本进行类别预测,再选取那些被不同算法训练出来的模型预测类别结果差异性的样本,进行人工标注;最后,将新标注的样本放入训练数据库,重新再训练模型,如此反复迭代,直到结束条件满足。
seungetal.[11]提出了一种成员问询投票机制的主动式学习策略。freundetal.[12]进一步分析了这一策略。他们通过从一组随机输入串中过滤信息量高的问询。研究结果显示:如果采用基于两位成员的委员会投票机制算法,它能够取得正向的信息增益,那么其预测误差将随着询问数目的增加而指数式的减小,特别是用于神经网络算法中感知元的学习。
argamon-engelson&dagan[4]将这一策略进行了规范化,并应用于概率框架的分类算法训练当中。进一步他们引入了投票熵值用于量化委员会成员之间的分歧性。最后在词性标注任务中进行了实验验证。该策略的一个不足之处就是为了训练多种不同的分类器,需要将样本的特征集拆分为若干部分。这样,可能使得原本可以用于训练出一个高性能分类器的样本,最后只训练出若干个低性能的分类器。为了克服这一不足,abe&mamitsuka[13]提出了新的基于问询投票机制的策略,即:将问询投票与boosting和封装机制相结合。
3 总结与展望
本文对近年来主动式学习策略应用领域所取得的研究成果进行
了全面的综述。基于主动式学习策略的机器学习算法训练,能够帮助人们尽可能少的标注训练数据,更快速地训练出高性能的机器学习模型。在未来几年中,它将成为本领域研究热点和前沿。如何将该策略应用到更多不同的机器学习算法训练当中,尤其是在大数据背景下,如何克服模型训练效率低下的瓶颈等都将成为研究者关注的主要方向。 参考文献:
[1]g.schohnandd.cohn,lessismore:
activelearningwithsupportvectormachines[c].inmachinelearning-internationalworkshopthenconference-,2000,pp.839-846. [2]s.tongandd.koller,
supportvectormachineactivelearningwithapplicationstotextclassification[j].thejournalofmachinelearningresearch,vol.2,pp.45-66,2002. [3]a.mccallumandk.nigam,
employingeminpool-basedactivelearningfortextclassification[c].inproceedingsoficml,pp.350-358,1998. [4]s.argamon-engelsonandi.dagan,
committee-basedsampleselectionforprobabilisticclassifiers[j].journalofartificialintelligenceresearch,vol.11,pp.335–360,1999.
[5]g.tur,d.hakkani-tr,andr.e.schapiro,
combiningactiveandsemisupervisedlearningforspokenlanguageunderstanding[j].speechcommunications,vol.45,pp.171-186,2005.
[6]d.shen,j.zhang,j.su,g.zhou,andc.tan,
multi-criteria-basedactivelearningfornamedentityrecognition[c].inproceedingsof42thannualmeetingoftheassociationforcomputationallinguistics.associationforcomputationallinguisticsmorristown,nj,usa,2004. [7]s.ayacheandg.qu?enot,
evaluationofactivelearningstrategiesforvideoindexing[j].signalprocessing:imagecommunication,vol.22,no.7-8,pp.692-704,2007.
[8]r.rose,b.juang,andc.lee,
atrainingprocedureforverifyingstringhypothesesincontinuousspeechrecognition[c].inacoustics,speech,andsignalprocessing,1995.icassp-95.,1995internationalconferenceon,vol.1,1995. [9]r.zhanganda.rudnicky,
wordlevelconfidenceannotationusingcombinationsoffeatures[c].inseventheuropeanconferenceonspeechcommunicationandtechnology.isca,2001.
[10]d.cohn,l.atlas,andr.ladner,
“improvinggeneralizationwithactivelearning[j].machinelearning,vol.15,no.2,pp.201-221,1994. [11]h.seung,m.opper,andh.sompolinsky,
querybycommittee[c].inproceedingsofthefifthannualworkshoponcomputationallearningtheory.acmnewyork,n,usa,1992,pp.287-294.
[12]y.freund,h.seung,e.shamir,andn.tishby,
selectivesamplingusingthequerybycommitteealgorithm[j].machinelearning,vol.28,no.2,pp.133-168,1997. [13]n.abeandh.mamitsuka,
querylearningstrategiesusingboostingandbagging[c].inproceedingsofthefifteenthinternationalconferenceonmachinelearning,vol.388,1998.
作者简介:张剑(1982-),男,江西南昌人,助理研究员,博士,研究方向:语音理解、语音文摘、自然语言理解、人工智能;潘晓衡(1983-),男,湖南湘潭人,工程师,硕士,研究方向:机器学习、智能计算、人工智能;袁华强(1966-),男,湖南湘潭人,教授,博士,研究方向:机器学习、人工智能。
作者单位:东莞理工学院工程技术研究院,广东东莞 523808 基金项目:广东省高等学校科技创新项目(2012kjcx0099),2012年广东省自然科学基金博士启动基金(no.s2012040007560),2012年东莞理工学院校博士启动基金(no.zj120408)。