维普资讯 http://www.cqvip.com
商业研究 基于We b的信息过滤模型研究 一徐义峰[摘衢州学院蒋慧新周浩衢州中专 要]信息过滤技术是当前研究的热点。该文简单地介绍了信息过滤中常用的三种模型:向量空问模型、模糊模型和 概率推理模型 3模糊模型 自从模糊集合这一概念被提出之后.模糊集合在实际中得到 布尔逻辑模型,并提出了一种基于概率推理的过滤模型,它能够更好地满足用户的需求。 [关键词]信息过滤一,引言 个性化信息服务中的信息过滤技术试图跟踪和把握用户的潜 在信息需求,比较资源和用户描述文件.对动态信息流进行过滤, 尽量屏蔽无用信息.向用户主动提供信息资源列表,从而提高用 户获取信息的效率。过滤技术是保证个性化信息服务准确性的基 本技术.其面临的基本问题包括:资源特征选取与表达,用户兴 趣的表达与更新以及相似性计算方法。其基本过程为:在同一特 征空间下.建立资源特征向量和用户描述文件:根据用户描述文 件,比较系统内所有资源特征向量与用户描述文件之间的相似 度:把相似度高的资源推荐给用户。信息过滤模型可以分为向量 空间模型、布尔逻辑模型和模糊模型等。不同的检索模型有不同 的过滤方法。 二、过滤模型 1.布尔逻辑模型 布尔模型是一种相对简单的模型,采用布尔代数的方法.用 布尔表达式表示用户提问.通过对文献标识与提问式的逻辑比较 来检索文献的一种模型。在过滤的过程中.它以文献中是否包含 关键词来作为取舍的标准。因此它不需要对网页数据进行深度的 加工。最简单的关键词表可以设计成只有三个字段:关键词 包 括关键词的文献号、关键词在相应文献中出现的次数。过滤时.提 取请求的页面的关键宇提交给系统.系统通过逻辑与、逻辑或、逻 辑非等运算得到包含有关键词的文献.然后根据关键词的重要性 和它在文献中出现的次数来决定文献的排列顺序,从而决定是否 要过滤掉一些页面。在实际应用中.还利用了其他一些因素来优 化返回给用户的结果集。 基于布尔逻辑模型的信息过滤技术其特点是简单.易理解 易实现 易接受 用户操作方便 查全率较好等。但是它的缺点 也很明显.如不能进行相关性排序 无法区分标引词的重要程度 对用户的素质要求较高,和用户交互较少,没有充分利用用户信 息.查准率相对较低等.这些都了布尔模型的应用,也促使 人们不断地提出新的模型。 2.向量空间模型 在一向量空间模型中构造的信息过滤系统中,用字项来标识 文档。如一个包含不健康信息的文档D.用一个m维向量来表示, 其中m是能够用来表示文档内容的字项的总数。给每一个宇项赋 予一个权值.用来表明它的重要程度。该文档D的向量表示为D= (W ,W,,….W )。其中W.表示第i个宇项的权值。在进行信息 过滤的过程中,首先对请求的页面数据进行加工.将其看成是一 个由n个词组成的向量P,然后比较向量P和向量D的相似程度。 通常使用的方法是取两个向量的余弦值,根据它们夹角的大小来 判断相似程度。最后.根据相似程度来决定是否要过滤掉该页面。 广泛的应用。在经典集合概念中.每个元素相对于确定的集合而 言可描述成”非此即彼”.而对于模糊集合.每个元素都有对应于 该集合的一个隶属度.该元素与该集合的关系可用隶属度来表示。 将模糊集合的概念应用到信息过滤中.由于模糊性更能有效地表 示”有关的”.”类似”等概念.更接近于对信息的抽象的理解。每 个领域被定义为一个模糊集.领域关键宇作为集合的元素.它的 隶属函数表示了它与该领域的相关程度。同一个领域关键字可跟 不同的领域有或强或弱的相关性。 在进行信息过滤时.首先对用户请求的页面进行切词处理, 提取核心含义,确立关键词及其运算关系:然后求关键词的分布 矢量与要过滤的主题矢量之间夹角的余弦值.根据所求得的余弦 值是否大于事先所设定的门槛值.从而决定是否过滤掉该页面。 三 基于概率推理的过滤模型 矢量空间模型只能表达用户感兴趣的主题词.不能很好地区 别用户兴趣之间的差异。传统的概率模型是先建立一个领域分类 模型.然后计算所有文档和用户兴趣在这个分类模型上的概率分 布.用该概率分布来表达文档和用户兴趣就可以很好的体现用户 兴趣的多样性,而且易于实现。传统的概率模型虽然能区分用户 兴趣的差异和表达用户兴趣的多样性,但是不能表达用户兴趣的 喜爱程度。因此本文提出的改进的概率模型.不仅能够表达用户 感兴趣的主题词,而且能够表达用户兴趣的程度。 在此概率模型中.假定领域类别的集合为c={c,.C。.……. C ;。其中k为模型的大小,C 表示第k个领域类别,则资源表示为 一个条件概率的矢量:Q--<p(C l d.),P(C,l d ),…….P(c l d.)>。其中d.代表资源i的加权关键词向量.P(C 1 d)表示资源 在类别.中从属度.用.,表示。资源矩阵表示为: Q= 1 用户兴趣的描述不仅利用关键词向量空间模型表达用户兴趣 的主题.而且还利用对用户行为的打分表达用户的类别偏好。用 这种方法描述的用户兴趣描述文件由两部分组成:u =(C,.S,)。其 中s 代表用户的关键词向量.c 代表用户的类别偏好。用户的类 别偏好度向量表示在资源分类的基础上.描述用户对各类别的感 兴趣程度,所有k个用户组成矩阵C。C计算为:a Ca=C C ( …….C )。C 为用户a在类别j中的感兴趣度.即用户a对类别j中所 有资源感兴趣度之和.即:C ai=∑V .(i∈f )。其中V 为用户对 资源 的感兴趣度。用户的很多行为如查询 浏览页面和文章、标 “商场现代化 2006年11月(上旬刊)总第484期 维普资讯 http://www.cqvip.com
商业研究 从关系营销到客户关系管理CRM: 电子商务时代的营销刨新 一刘东辉谷波上海理工大学商学院 [摘 要]CBM(Customer Belationship Management)即客户关系管 理,相对传统的营销理论它既是一种新型的管理思想,从“以客 户为中心”的这个理念上讲,又是对关系营销理论的一种继承和 发展,同时在当前电子商务时代,客户关系管理也是一套具有创 新意义的可操作的企业管理软件和技术,为现代企业创造更多的 表示为:c=[塞]=E三主 苎] 价值。 [关键词]关系营销 客户关系管理 营销创新 对于用户a.计算每项资源i是否符合用户兴趣.先计算资源 一、从传统营销观念到关系营销 向量Q.和用户向量c 之间的余弦相似度:s ,ca) 龋。当 享有”现代营销学之父”之美誉的经济学家Philip Kotler在其经 典著作((Marketing Mmagm ̄t))一书中总结了营销观念发展的五个阶 段.即生产观念/产品观念、推销观念、市场营销观念和社会营销观 sim(Qi.Ca)大于某一阀值时.将top(n)推荐给用户。 念五个阶段(如下图)。生产观念/产品观念以及推销观念的共同之 四 算法 处在于没有真正重视客户的需求.仅把交易看作是营销的基础从而一 输入:用户兴趣模型u。.资源描述模型Q .资源分类k 味追求交易利润最大化.没有把与客户建立和保持广泛密切的关系摆 输出:向用户a推荐N项资源 在重要位置。2O世纪8O年代流行的”大营销”理论则是研究企业在 过程 全球市场进行营销的问题.较之前有所进步的地方在于它强调了企业 For I=1 tO n 必须在与客户的买卖双方的共同利益和目标下.为达到彼此间互助互 根据Q。与c .计算用户a与资源i之间的基于类别的相 利、和谐一致而采取合理的态度和行动。 似度sim(Q .C ) 年代 if sim(Qi.Ca)>W 90年代 根据D 与s .计算用户a与资源i之间基于关键词的相 ∞年代 似度Sim(D..S ) end for for j=1 tO k if C>O aj 对类别j内的资源按照相似性的大小排序.把排序靠前 t 理念的挂晨 的N.项资源推荐给用户a 朗t’岫 豹历史美晨 end for 关系营销是随着大市场营销理念的发展于上个世纪90年代产生 五、结束语 的。并且在以上各个阶段营销思想的基础E对营销过程和营销方式进行 信息过滤技术的出现逐渐受到重视.是源于网络用户对信息 了整合。业界是这样定义关系营销的:关系营销是指企业为了建立、维 获取在数量得到满足后的更高的一种要求。在信息过滤中.除了 系、发展与其运作过程中相关的外部市场和内部市场的长期友好关系. 以上谈到的用户模型与文档表示技术、匹配技术等需要进一步优 而制订详细、适当的营销计划.实施直接、有效的营销活动。 化之外.还应该注意智能过滤Agent和协同过滤等过滤机制在搜 关系营销认为企业的营销活动是一个与消费者、竞争者、供应 索引擎中的应用。 商、分销商、机构和社会组织发生互动作用的过程.正确处理与 这些个人和组织的关系是企业营销的核心.是企业成败的关键.首次 参考文献: 强调了客户关系在企业战略和营销中的地位与作用.而不是单从交易 [1]曾春:信息过滤的概念表示与算法研 D].北京:清华大 利润的层次上考虑。 学,2005 二、c同 出现的背景及其必然性 【2]刘伟成焦玉英:网络信息过滤的方法与相关技术研究[J]. 21世纪迎来了信息经济、网络经济、知识经济的新纪元.信息技 现代图书情报技术,2oo2(4):48--50 术的发展信息技术的发展使得人与人之间的时空距离相对缩短.企业 【5]苏 云 马慧芳:基于Web的信息过滤技术[J].情报技术, 之间、企业与顾客之间的依赖性、相关性也越来越强.彼此之间的交 2005(5):72--76 流和协作更加便利。 “商场现代化 2006年 月(上旬:Ftj)总第484期