您的当前位置:首页正文

第一课 数据挖掘技术的由来

来源:华佗小知识
数据挖掘与知识发现

一. 课程介绍

数据仓库与知识发现课程的教学对象是硕士、博士研究生。数据仓库与知识发现课

程的教学目的是使研究生能够较深入地了解数据仓库技术及知识发现技术,包括其基本理论、涉及的主要算法思想、应用以及当前的最新研究进展。

二. 预备知识

管理信息系统 数据库原理

三. 教材及参考书籍

教材:

1、焦李成,刘芳,缑水平等著,《智能数据挖掘与知识发现》,西安电子科技大学出版社,2006.

参考书目:

1.数据挖掘——概念与技术(中译版), Jiawei Han等著,范明等译,机械工业出版社,2001

2. Ian H. Witten, Eide Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) Morgan Kaufmann, June 2005《数据挖掘—实用机器学习技术(英文影印版)(第2版)》,机械工业出版社,2005

3.Hand, D., Mannila, H., and Smyth, P., Principles of Data Mining, MIT Press; (August 1, 2001)

4.Pang-Ning Tan,Michael Steinbach,Vipin Kumar,Introduction to Data Mining《数据挖掘导论(英文版)》,北京:人民邮电出版社,2006

四. 教学目标

1. 课程设置为硕士、博士研究生(包括在职硕士研究生)的专业学位课,课时

数约为46课时/学期,以每周3个课时较为适宜。 课程以介绍各类数据仓库和知识发现技术为主,以培养学生的科研能力为辅。课程主要包括两方面内容,一方面是各类数据挖掘技术的原理,算法和实际应用,另一部分是数据仓库技术的原理、复杂数据类型的规则挖掘, 主要包括: 关系数据,空间数据,多媒体数据,时序数据,WEB数据等.

2、本课程具体的实现技术中涉及大量的算法,对于这些算法,选择有代表性的内容重点加以讲解,其他算法作为课后阅读交学生自习。有目的地将各种相关算法的原始论文交给学生阅读,有条件时应要求学生进行报告,以提高学生的科研能力。

五. 考核要求

考核方式与评分标准 方式A:

课程考核采用闭卷考试方式。 1.考试成绩:90% 2.平时成绩:10% 方式B:

课程考核采用学期论文加闭卷考试形式。 1.考试成绩: 60% 2.学期论文: 30% 3.平时成绩: 10%。

教材face

第一课 数据挖掘技术的由来

1.1 网络之后的下一个技术热点 1.2 数据爆炸但知识贫乏 1.3 支持数据挖掘技术的基础 1.4 从商业数据到商业信息的进化 1.5 数据挖掘逐渐演变的过程

1.1网络之后的下一个技术热点

我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。如果用芯片集成度来衡量微电子技术,用CPU处理速度来衡量计算机技术,用信道传输速率来衡量通信技术,那么摩尔定律告诉我们,它们都是以每18个月翻一番的速度在增长,这一势头已经维持了十多年。在美国,广播达到5000万户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年。全球IP网发展速度达到每6个月翻一番,国内情况亦然。1999年初,中国上网用户为210万,现在已经达到600万。网络的发展导致经济全球化,在1998年全球产值排序前100名中,跨国企业占了51个,国家只占49个。有人提出,对待一个跨国企业也许比对待一个国家还要重要。在新世纪钟声刚刚敲响的时候,回顾往昔,人们不仅要问:就推动人类社会进步而言,历史上能与网络技术相比拟的是什么技术呢?有人甚至提出要把网络技术与火的发明相比拟。火的发明区别了动物和人,种种科学技术的重大发现扩展了自然人的体能、

技能和智能,而网络技术则大大提高了人的生存质量和人的素质,使人成为社会人、全球人。

现在的问题是:网络之后的下一个技术热点是什么?让我们来看一些身边俯拾即是的现象:《纽约时报》由60年代的10~20版扩张至现在的100~200版,最高曾达1572版;《北京青年报》也已是16~40版;市场营销报已达100版。然而在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”

面对这一挑战,数据挖掘和知识发现(Data Ming and Knowledge Discovering,DMKD)技术应运而生,并显示出强大的生命力。所谓数据挖掘技术,是当代信息服务业的核心技术,是新知识经济时代的支撑技术,与普通的数据分析有质的不同,数据挖掘技术以高度精确和高度可靠的手段从海量数据中挖掘和产生新的知识,成为有力的科学决策依据。(中国科学院数据技术与知识经济研究中心主任石勇) 数据挖掘技术的神奇之处在于:可以准确地预测未来。从小的方面看,可以从商业信息中,预测未来几年客户的需求与流向、潜在的商机和风险。从大的方面看,可以维护以信用为基础的市场经济秩序,可以发现潜在的逃税漏税黑户、潜在的恶意透支黑户,帮助银行规避贷

款风险,可以事先提出黑名单、防范金融犯罪。数据挖掘技术可以在各领域大显神通。对知识型企业建设、决策科学化、国家创新体系建设,都将产生深远影响。 一个成功应用的典型事例是:美国经济在庞大的基数上所以能保持较快增长,就是得益于以数据挖掘技术为核心的信息技术的应用。当前,众多发达国家企业纷纷开展以数据挖掘技术为基础的商业化应用、企业管理。目前,以数据挖掘技术为基础的信用卡分析市场规模已超过2000亿美元。

典型案例

1.2 数据爆炸但知识贫乏

另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 数据挖掘能做什么?

分类 (Classification),预言(Prediction),估值(Estimation) 相关性分组或关联规则(Affinity grouping or association rules) 聚集(Clustering),描述和可视化(Description and Visualization) 分类 (Classification):从数据中选出已经分好类的训练集,在该训

练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

例子: a. 信用卡申请者,分类为低、中、高风险;b. 分配客户到预先定义的客户分片

估值(Estimation):估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

例子: a. 根据购买模式,估计一个家庭的孩子个数; b. 根据购买模式,估计一个家庭的收入; c. 估计real estate的价值

一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

预言(Prediction):通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

相关性分组或关联规则(Affinity grouping or association rules):决定哪些事情将一起发生。

例子: a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)

b. 客户在购买A后,隔一段时间,会购买B (序列分析)

聚集(Clustering):聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 例子: a. 一些特定症状的聚集可能预示了一个特定的疾病; b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。 描述和可视化(Description and Visualization) : 是对数据挖掘结果的表示方式。

1.3 支持数据挖掘技术的基础

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是: - - 海量数据搜集

- - 强大的多处理器计算机 - - 数据挖掘算法

Friedman[1997]列举了四个主要的技术理由激发了数据挖掘的开发、

应用和研究的兴趣:

- - 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;

- - 先进的计算机技术,例如更快和更大的计算能力和并行体系结构;

- - 对巨大量数据的快速访问;

- - 对这些数据应用精深的统计方法计算的能力。

商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用于各种行业;对计算机硬件性能越来越高的要求,也可以用现在已经成熟的并行多处理机的技术来满足;另外数据挖掘算法经过了这10多年的发展也已经成为一种成熟,稳定,且易于理解和操作的技术。

1.4 从商业数据到商业信息的进化

从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。见下表。表中我们可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。 进化阶

商业问题

数据搜“过去五年中计算机、磁带和

IBM,CDC

提供历史

支持技术

产品厂家

产品特点

集 我的总收入是磁盘 性的、静态的数据信息

(60年多少?” 代)

关系数据库(RDBMS),结构

数据访“在新英格兰

化查询语言

的分部去年三

(SQL),ODBC

(80年月的销售额是代) 多少?”

Sybase、Oracle、

在记录级提供历史

Informix、IBM、性的、动态

Oracle、Sybase、

Microsoft 数据信息

Informix、IBM、Microsoft

数据仓“在新英格兰

在各种层

库; 的分部去年三联机分析处理

Pilot、

次上提供

决策支月的销售额是(OLAP)、多维Comshare、

回溯的、动

Cognos、持 多少?波士顿数据库、数据仓Arbor、

态的数据

Microstrategy (90年据此可得出什库

信息

代) 么结论?” 数据挖“下个月波士

高级算法、多处

顿的销售会怎

理器计算机、海

(正在么样?为什

量数据库

流行) 么?”

公司

表一、数据挖掘的进化历程。

SGI、其他初创性的信息提供预测Lockheed、IBM、Pilot、

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 1.5 数据挖掘逐渐演变的过程

数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题.随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在80年代末一个新的术语,它就是数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统

计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。

数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。

因篇幅问题不能全部显示,请点此查看更多更全内容