新闻报道文本的情感倾向性研究
来源:华佗小知识
第36卷 第15期 计算机工程 2010年8月 VoL36 No.1s Computer Engineering August 2010 ・博士论文・ 文章编号:1000-3428(2010)i; 02 -_0 — 丽 ——— 西■ 新闻报道文本的情感倾向性研究 昝红英 ,郭明 ,柴玉梅 ,吴云芳 (1.郑州大学信息工程学院,郑州450001;2.北京大学计算语言学研究所,北京100871) 摘要:将机器学习中的经典分类方法与规则方法相结合,用以分析新闻语音文本的情感倾向,并判断其强弱。通过支持向量机分类器来 研究特征选择方法及特征权重计算方法的组合对实验结果的影响。在实验过程中发现适当的结合规则后,实验结果在不同程度上都有了提 高,在KNN和Bayes分类器上做了对比实验,结果证实该方法的普适性。 关健词:机器学习;特征选择;特征权重;支持向量机 Research 0n News Report r】]ext Sentiment Tendency ZAN Hong—ying ,GUO Ming。,CHAI Yu-mei ,WU Yun.fang (1.College of Information and Engineering,Zhengzhou University,Zhengzhou 45000 1; 2.Institute ofComputational Linguistics,Peking University,Beijing 100871) [Abstract]This paper uses machine learning techniques combined with the rules to solve sentiment classiifcation of news text,and researches affection of feature selection and feature weights based on Support Vector Machine(SVM)classifier.Experiments show that combined with the rules,experimental result is improved In order to test universality of the combined method,more experiments based on KNN and Bayes classiifer are done.Results show that combined method does better than not combined OlqeS. [Key words]machine learning;feature selection;feature weight;Support Vector Machine(SVM) 1概述 征句,分析评论句的语义极性和极性强度。文献【5】研究多种 在较长一段时期内,情感一直位于认知科学研究者的视 分类器在中文情感分类中的表现,并且针对不同词性的词做 线之外。直到20世纪末期,情感作为认知过程重要组成部分 特征来测试词性在不同类别文本(如影视、教育、房产、电脑、 的身份才得到了学术界的普遍认同。 手机)的情感分类中的重要性。文献[6】使用朴素贝叶斯和最大 随着互联网的发展而迅猛地发展着,大量的文本充斥着 熵方法进行新闻及评论语料的情感分类研究,通过实验认为 网络。数量已大大超出了手工能够处理的极限。因此,对文 二值作为特征项权重正确率较好,但不足之处就是未用SVM 本的自动分析处理成为一项重要的工作。文本的情感分析成 分类器。 为自然语言处理的研究热点。 3文本情感分析模型 本文主要研究如何利用机器学习的方法结合规则的方法 本文结合使用统计的方法和简单的规则方法来对新闻语 来对新闻文本的正负极性及其强弱进行分类。相比于文本, 料进行情感分类,采用结合规则的方法是基于以下考虑: 比如BLOG的文本,新闻文本有其自身的特点,本文就是抓 (1)规则包含一些语意信息,这是统计所不具备的,且本 住新闻文本的这些特点来抽取规则,并利用这些规则结合机 文人工提取的规则又经过统计方法的筛选以提高规则覆盖语 器学习的方法进行分类。 料的正确率。 2相关研究 (2)统计方法可以整体衡量训练语料中词语出现的频度 现阶段对文本情感的研究总体可分为2类: 及分布等一些统计信息,并且能评价这些词语对分类的贡献 (1)利用语言自身的特点,总结出一套规则,并利用这套 大小。 规则来分析文本的情感” J。 本文用规则的方法对测试语料进行第1次分类,分出规 (2)利用统计学的方法,对文本中出现的词进行统计得出 则能够覆盖的语料。第2次再将剩下的测试语料用统计的方 统计信息来进行情感分析 。J。 法进行分类来提高分类效果。 许多研究者从词、短语、句子,到篇章等多个角度来进 基金项目:国家“863”计划基金资助项目(2007AA01Z198);国家 行探索。例如文献[2IN用点对互信息(PMI)来对词的语义倾 自然科学基金资助项目(60970083);国家社会科学基金资助项目 向进行判断。文献【3]则使用了贝叶斯、最大熵、SVM等算法 fO8CYY0l61 对电影的评价进行分类,其结果显示SVM算法取得了比较 作者筒介:咎红英(1966--),女,副教授、博士,主研方向:自然语 好的效果。 言处理,文本挖掘;郭 明,硕士;柴玉梅,副教授、硕士; 在中文情感分析领域,文献[4]以句子为单位对用户评论 吴云芳,副教授、博士 进行特征标注。将具有多个特征的复杂特征句划分为简单特 收稿日期:2010—02—25 E-mail:iehyzan@zzu.edu.cn 3.1规则提取及其效果 用规则来进行情感分析的关键点在于找到一种可靠的区 分文本情感的方法,尽量保证用规则的正确率。本文根据新 闻事件的性质和给社会带来的影响区分文本的极性,通过对 语料的分析发现新闻文本的极性一般可以由表明这篇新闻报 道性质的句子来定性。所以,提取该句子中能表明本篇极性 的短语对作为备选规则,统计这些搭配在训练集中的分布, 去除在多个类别中出现的搭配,剩余部分作为本文分类的 规则。 为了体现否定词对语意的影响,本文取这些规则前开 : 二 皇 : (A+o×(B+/9)×(A+ ×fC+D) 其中,A、B、C、D的含义如表3所示。 表3公式说明 (3)特征维数的选择 对于大量文本都存在“维数灾难”问题,如何有效地降 3个词的窗口,如果出现否定词或者一些模棱两可的词如: 是不是,是否等,则认为这些规则不适用。提取规则如 低维数并尽可能地减少噪声是文本特征提取的关键问题。在 实验过程中发现,并非特征数量越多效果就越好。 表1所示。 表1提取规列 规则类别 规则 赞扬类删 雾 ’自 . 喜悦类删 蚕 :警 蓁: 黧 姑束、通过验收’ 中性类规则 今日天气 遭?袭击、?船沉没、导致中断、台风登陆、爆发疫情、? 悲哀类规则 气泄露 陷入瘫痪、引发火灾、-…-・ 贬斥 蓑 、 、 新 艚、 规则中的“?”为通配符:“?气泄露”中的“?气”可以 是毒气、氯气等。 规则覆盖语料的实验正确率如表2所示,数据表明利 用规则分离出来的各类语料的正确率除赞扬类外都在 90%以上。 表2规则分离出来的语料的正确率 通过观察语料发现,赞扬类正确率低的主要原因是赞扬 类的一些规则覆盖了喜悦类语料。这种错误不存在极性的差 别,仅是程度的区别,是可以接受的。 3.2统计方法 3.2.1特征选择 常见的特征选择方法有:基于文档频率的特征选择法, 信息增益法, 统计量等,国内外很多学者对各种特征选择 方法进行研究。结果表明在英文文本分类中表现比较好的方 法如:信息增益法(IG)和 统计量(cH1)在不加修正的情况 下,并不适合中文文本分类。因此在本文中对所采用的特征 选择方法做了些限制,例如:去掉停用词,去掉单字词等。 (1)信息增益法 信息增益:依据某特征项f 为整个分类所能提供的信息 量多少来衡量该特征项的重要性,从而决定该特征的取舍。 信息量的大小由熵来衡量: Gain(ti)=Entropy(s)一ExpectedEntropy(S,) (2)X2统计量 统计量:衡量的是特征项t 和类别c,之间的相关程度。 特征项, 对于类别C,的 值表示如下: 从图1看出,特征数量在取500的情况下,所有方案的 正确率都基本趋于稳定且正确率基本达到最大值。 74 粹 器 72 70 68 特征数量/个 图1 分类正确率与特征数量的关系图 3.2.2特征权重计算 特征权重用于衡量特征项r 在文档表示中的重要程度或 者区分能力的强弱。本文所用特征权重计算方法如下: 布尔权重:如果文本中出现该特征则该特征权重为1, 否则为0I表示为 = 。。 绝对词频(TF):特征项在文本中出现的次数。 倒排文档频度(IDF): lb・ N =其中,F/ 是训练集中出现特征项f 的文档数;N为训练集全 部的文档数。 TF.IDF: = ,,×lb 刀 其中, ,表示特征项f 在训练文本D,中出现的频度; , N、 同上。 3.3分类器选择 本文主要以经典的统计分类方法SVM分类器为主,然 后再用Bayes和KNN分类器与规则的方法结合做对比实验, 以验证这种结合的方法的普适性。 4实验与结果分析 4.1语料倚介 实验所用的是从2006年6月5日一2008年6月26日播 报的新闻中的新闻稿做为语料,共计2 287篇,并对这些语 2l一 料在播音员播报新闻时的态度做人工标注为赞扬、喜悦、中 性、悲哀、贬斥5类,见表4。 表4人工校对后语料的统计分布情况 由表4可以看出,本文使用的语料分布极不平衡,其中, 喜悦类占整个语料的57.8%,而贬斥类仅占了4 5%。 4.2结果分析 实验结果如表5所示。 表5各分类器的正确率 (%) 耀颦一 9 8 7 6 5 4 3 2 ● 0 盯 ¨ 结合表5可以看出,SVM及在SVM算法上的改进方法 在新闻语音文本情感倾向计算方面都取得基本令人满意的效 果,在以上实验中,CHI结合IDF和CHI结合Binary的效果 最好,说明文本的情感与一些情感特征词是否出现的关联性 更大,而与该特征词在文本中的词频关系不大。 仅从正确率来评价实验效果似乎有些片面。表6为取实 验效果最好的 和IDF的组合和效果最差的信息增益和TF 组合来对比分析每次实验的召回率及f'l指标。 表6各指标对比 由表6可以看出,加入规则后(RSVM)的实验效果均要优 于SVM算法。语料中喜悦类在数量上占有优势造成喜悦类 的召回率非常高,而贬斥类则相反。贬斥类的F1值最低,而 且结合规则方法对贬斥类基本没有影响,这和贬斥类的语料 22一 所占总语料比例太小有很大关系。 为了检验规则和统计结合方法的普适性,本文在SVM的 基础上做了推广,分别在KNN和Bayes分类器上做实验,结 果如图2所示。 从图2中可以看出,结合规则以后各类的Fl指标都有 了不同程度的提高。SVM算法效果要优于Bayes和KNN算 法,同样地与规则结合后的SVM算法效果也优于与规则结 合后的Bayes和KNN算法。 l r'3结合规则前I I团结合规则后I 一历 霸一l 墨 ∞∽兰 I 雏 ; 望∞ 詈 一— li :‘中性类 ∞赞扬 喜悦j 蟓哀 贬斥 图2 Bayes KNN SVM分类器结合规则后的F1指标对比 5结束语 SVM算法在文本情感分析中取得了基本令人满意的效 果,将规则和SVM分类算法结合后的实验效果又有了进一 步的提升。通过本文的实验可以发现,这种语料分布的极不 平衡性对稀有类的实验效果有很大的影响。如何提高稀有类 的实验效果,并抑制优势类对其他类的影响将是另一个难题。 参考文献 [1]I iu Hugo,Lieberman H,SelKer T A Model of Textual Affect Sensing Using Real—world Know1edge[C]//Pr0c of International Conference on Intelligent User Interfaces.Miami,Florida,USA: [S.n.],2003:125—132. 【2]Tumey P D,Littman M L.Measuring Praise and Critism:Inference of Semantic Orientation from Association[J].ACM Transactions on Intbrmation Systems,2003,2 1(4):3 1 5—346. [3】Pang Bo,Lee Lilian,Vaithyanathan S.Thumbs up?Sentiment Classiifcation Using Machine Learning Techniques[C]//Proc.of Conferenee on Empiifeal Methods in Natural Language Processing. Morristown,NJ,USA:[S.n.],2002:79—86. 【4]潘宇,林鸿飞.基于语义极性分析的餐馆评论挖掘[J].计算机 工程,2008,34(17):208—210. 【5】唐惠丰,谭松波,程学旗.基于监督学习的中文情感分类技术的 比较研究[J1l中文信息学报,2007,21(6):88—94. [6]徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自 动分类[ 中文信息学报,2007,2l(6):95一100. 编辑任吉慧
因篇幅问题不能全部显示,请点此查看更多更全内容