搜索
您的当前位置:首页正文

数据挖掘技术与关联规则挖掘算法探讨

来源:知库网
Data Base Technique·数据库技术 数据挖掘技术与关联规则挖掘算法探讨 文/周子煜 文丽书。 反映时创立提出的一种算法。关联规则挖掘现 的开始部分上需要仔细进行标记,候选项在进 决策者想要从浩瀚如烟的数 据中寻找有效信息一般会采用数 据挖掘技术,该技术大大解放了 决策者的劳动力,有效缩减了数 据的寻找时间,伴随着科学技术 在主要用于寻找和挖掘数据库中各项目集之间 行数据库扫描时将被逐一添加在这些标记上。 关联性以及内在关系,构成关联规则挖掘算法 数据集划分算法的并行度非常高,通常只需要 主要有两个极为重要的步骤,分别是找寻所有 对数据库进行两次左右的扫描即可,这样I/O 频繁项集和形成强烈的关联规则,首先找寻所 操作次数将明显减少,算法的效率将得到大大 的日渐发达,关联规则j 算法 被提出,该算法的出现能够有效 发现各种有趣的项目集在繁杂的 数据之中产生的关联性,决策者 在该算法的帮助下能够更加深入 的了解数据信息,本文将简要分 析和探讨数据挖掘技术与关联规 则挖掘算法。 【关键词】数据挖掘技术关联规则挖掘算 法 数据挖掘技术的提出使得决策者能够在 最短的时间内对数据信息进行高效筛选,进而 挑选出对决策最为有用的信息,数据挖掘技术 包含着诸多内容,而关联规则挖掘算法就是其 中之一,关联规则挖掘算法能够为决策者分析 出各数据信息之间的深层关系和隐含信息,帮 助决策者作出更加正确科学的决策,由此可见 研究数据挖掘技术和关联规则挖掘算法拥有深 远的意义。 1数据挖掘技术的概述 数据挖掘技术顾名思义,就是对信息进 行深入挖掘处理的一种新型技术,在数据挖掘 技术的推动之下,决策者摒弃了以只能比较低 端的进行联机查询为主的传统技术,选用能够 合理准确分析和预测数据信息,从而能够使得 决策者做出更加准确的判断与合理的决策的数 据挖掘技术。数据挖掘技术的构成主要包括预 测、关联、差异、广义等范围的知识挖掘 比 较常见的数据挖掘方法有当代数学分析法、证 据理论法、不确定性推理法、神经网络Neural Network探索性分析法、遗传算|法Genetic Algorithm、信息聚类分析法等等。. 2关联规则挖掘算法的概述 2.1关联规则挖掘算法的定义 数据挖掘技术中的一项重要组成部分就 是关联规则挖掘,而关联规则现在也是数据挖 掘中最为典型也是最受欢迎的一种。关联规则 挖掘算法的概念最早可以追溯到1993年,是 由Agrawal等人用来对用户购买模式进行有效 有频繁项集又具体是指寻找满足最小支持度的 提升。 频繁项目集,而形成强烈的关联规则具体指的 2.4增量式更新算法 是依据频繁项集中的最小可信度进而形成关联 规则 在关联规则挖掘算法被提出之后,近十 当各类信息数据之间的隐含内容和内在 几年中陆陆续续还有无数的专家学者投入到关 关联性已经被挖掘出来之后,而在数据库或参 联规则挖掘算法的研究之中,他们将许多数学 数上又发现了信息数据之间又有新的关联性, 思维和方法引入其中,好比说随即采样等等, 那么就需要对一致的关联规则进行删除确保数 不仅极大地丰富了关联规则挖掘算法的内容, 据信息的时效性,此时需要用增量式更新算法 与此同时还大大提升了算法的准确度和高效 完成“除旧更新”的工作,现阶段绝大多数的 性。 增量式算法都是在Apfiod算法的基础上进行 2.2经典频繁集算法 适当的演化创新,例如冯玉才等人提出的IUA 和PIUA算法、高峰等人提出的IUAR算法 Apriori算法可以算得上是关联规则挖掘 等等均能够看见Apriori算法的影子,所谓的 中的典型算法。关联规则挖掘中的Apriori算 IURA算法就是需要在数据更新之后产生新的 法为了能够尽量简化运算方法减少计算量, 关联规则,但是是以数据库DB发生同步变化 将关联规则分为两部分从而完成计算,首先 和最小支持与置信度为基础;而ILIA和PIUA Apriori算法要求所有的频繁项集必须是由迭 算法恰恰与IURA算法相反,虽然也是最小支 代检索从数据库搜索得出,其次Apriori算法 持度和置信度但是数据库DB没有发生任何变 要求其中所有的频繁项集中需要形成强烈的能 化时,生成全新的关联规则。 够满足用户最低信任度的关联规则。由此我们 也可以看出,Apriori算法中的关键其实就是 3结论 对所有频繁项集进行深入的挖掘或是分析,当 总而言之,作为决策者的重要帮手之一, 然,在A州0fi算法中也存在弊端,比如说候 数据挖掘技术尤其巨大的作用和意义,随着决 选集的数量比较庞大,再比如数据库需要被反 策者对数据信息的要求越来越高,关联规则挖 复扫描等等,因此该算法并不完美,还有提升 掘算法的出现就是为了能够帮助决策者深入挖 与改善的空间。 掘各类信息数据之间的内在关联性,在现阶段 2.3数据集划分算法 数据挖掘技术当中以关联规则挖掘算法最受欢 迎,本文就是在此背景下对数据挖掘技术进行 Partition算法认为只是基于逻辑的角度是 简要论述并且简单分析两种常见的关联规则挖 可以将整个数据库划分成若干个数据块,且各 掘算法,以期能为相关研究者提供一定的帮助。 个数据块之间相互独立并且能够存入内存,使 得外存在被访问时所需I/O费用能够被有效缩 参考文献 减。该算法将每一个基于逻辑角度下划分的数 …毛国君.数据挖掘技术与关联规则挖掘算 据块看成是生成的一个独立的频集,借助频繁 法研究[D】.北京工业大学,2014. 项集的性质把这些逻辑角度下的数据块生成的 [2】张玺.数据挖掘中关联规则算法的研究与 各个独立频繁集,通过合并的方式将其统一成 改进[D】.北京邮电大学,2015. 为一个庞大的候选项集,对数据库中所有计算 [3】孔芳.数据挖掘技术中关联规则算法的研 项集的支持度进行扫描从而完成最后的全局计 究[D】.江南大学,2015. 数。虽然在Partition算法仅仅只需要扫描两次 数据库,但是最后产生出来的候选项集仍然数 作者单位 量庞大。同样采用数据库划分理念的还有DIC 1.武汉市江汉大学数学与计算机科学学院 算法,与Pa ̄ition算法基本相同的是DIC算法 湖北省武汉市430060 也需要对数据库进行划分,但是不是划分为数 2.武汉市江汉大学商学院 湖北省武汉市 据块而是划分成为几个分区,但是在这些分区 430060 Electronic Technology&Software Engineering电子技术与软件工程·185 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top