基于云计算技术的Web数据挖掘的算法研究
作者:李悦 高晶 雷鸣
来源:《科技资讯》 2014年第18期
李悦1 高晶2 雷鸣2
(1.河北联合大学现代技术教育中心; 2.河北联合大学冀唐学院信息中心 河北唐山 063000)
摘 要:本文提出一种基于云计算的web数据挖掘算法,云计算技术将大数据集与进行数据挖掘的人员分配到多台计算机工作站上进行并行处理。Web数据挖掘是指探寻网络中的大量有用信息进行分析,选择和存储有用的信息。利用云计算技术可以明显提高web数据挖掘的效率。
关键词:云计算技术 Web数据挖掘 map-reduce 算法
中图分类号:G71 文献标识码:A 文章编号:1672-3791(2014)06(c)-0017-01
随着互联网技术的迅猛发展,互联网中存在着大量有用的数据信息,Web数据挖掘就是指如何对互联网上的大量数据中提取出有用的信息,并能再这些信息中挖掘出他们之间的相互关系以及发现新的有用的概念。从而提出对领导者的决策有用的数据分析。如今,互联网数据几乎达到了单机无法处理的地步了,云计算具有非常高的可拓展性,非常适合处理大规模的数据,可以通过并行计算等超强的计算能力来面相海量的数据及复杂过程的计算任务。
1 云计算技术及服务模型
云计算技术是一种近年来新兴起来的共享型的编程架构的方法,是由分布式计算
(Distributed Computing)、并行计算(Parallel Computing)和网格计算(Grid Computing)发展而来。
云计算的基本原理是为互联网用户提供计算、存储、软硬件等服务,利用远程服务器组成的集群,用户可以根据需要以及任务的优先程度,来访问计算机和存储系统。按照需求来提高对软硬件资源的利用率。大大节省了资金以及时间的分配。
云的服务模型包括三大类,分别为:基础设施即服务(infrastructure as a service,IaaS) 、平台即服务(platform as a service,PaaS)、软件即服务(software as a service,SaaS)三大类,如(图1)所示。以IaaS的模式搭建系统平台,形成虚拟化的IT应用基础设施;以PaaS的模式搭建支撑平台,满足IT应用需求;以SaaS的模式搭建应用平台,按照用户需求分发软件授权并提供应用服务。
2 Web数据挖掘
Web数据挖掘是指从Web超链接、网页内容和使用日志中探寻出有用的数据信息的数据挖掘方法。Web数据挖掘与传统数据的挖掘中不同的地方主要有以下三点:(1)Web挖掘的对象是动态的、海量分布的、更新速度很快的非结构化数据库。(2)Web数据挖掘在组成上不只是Web页面上的表面内容还包括其中的超链接结构。(3)传统的针对数据挖掘的数据模型不能在Web数据挖掘中使用。
根据挖掘对象的不同,将Web数据挖掘分为内容挖掘、访问信息挖掘、结构挖掘三个大类。其中,内容挖掘指的是从Web文档中发现并提取有用的信息。内容挖掘又分为文本挖掘和多媒体挖掘;结构挖掘指的是对Web页面的超级链接进行挖掘;而访问信息挖掘指的是从网络访问者与互联网的交互及活动中提取信息。
3 基于云计算技术的数据挖掘平台
3.1 MapReduce算法
MapReduce是一种编程模型,基于云计算的归并算法。借用了函数式的编程语言,还有从矢量编程语言中借来的特性。极大地方便了编程人员将自己的程序运行在分布式系统上。整个模型的计算过程分为映射过程和归并过程。将数据信息拆分成键值对数据进行传递(图2)。
3.2 系统架构
3.2.1 服务层
负责接收客户端的任务要求,并且将挖掘结果传送给客户端。
3.2.2 控制层
在web数据挖掘系统中,所有的web挖掘都有主控节点来负责,是最重要的部分。主控节点首先接收到客户端的要求,根据客户端提交的任务来选择适合的挖掘算法。算法节点会将选择的算法发送到原始数据所在的存储器上。等数据挖掘结束之后,再将结果返回到客户端。
3.2.3 数据挖掘层
数据挖掘层存储了各种算法,这些算法都是基于云计算平台的算法。主控节点获取到客户端的任务,根据不同需求,选择适合的算法。
3.2.4 存储层
在Web数据挖掘中,存储层主要的功能是将Web上收集到的文件解析成XML文件。为了防止系统瘫痪而引起数据瘫痪的问题,数据存储层还能够自动复制XML文件。
存储层存储着用户的原始数据以及挖掘结果,将文件解析成xml文件。即便有时候系统可能会出现问题,也能将数据存储在缓存中,恢复文件。
4 结语
通过Web数据挖掘可以发现互联网上更多有价值的数据信息,特别是如今云计算技术的出现和发展,复杂的计算项目都可以被部署在云平台上,利用并行计算,可以扩展数据存储能力,提高挖掘效率,缩短挖掘时间,获得强大的数据处理能力,从而能更好的面向多方面应用。
参考文献
[1] 方少卿,周剑,张明新.基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究[J].计算机应用研究,2013(2):377-379,395.
[2] 应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013(2):161-1.
[3] 曹忠东.基于信息技术对高校教学管理科学化的研究[J].计算机光盘软件与应用,2012(10):16,18.