研究与开发 基于改进的TrustRank算法的钓鱼网站检测 韩浩,刘博文,林果园 (中国矿业大学计算机科学与技术学院,江苏徐州221116) 摘要:钓鱼检测方式一般只是通过比较网页问特征的相似度判断钓鱼网站,容易被攻击者根据特征提取过程 反检测。因此,提出依据网页之问的关系来检测钓鱼网站,通过设立网页集合、结合钓鱼网站与其他网站问的 链接关系改进TrustRank算法来检测钓鱼网站。实验证明,改进的TrustRank算法可以将钓鱼网站的信任值集中 在一个范围内,并且与其他方法相比具有较低的误判率、漏判率和较高的速度,可以很好地检测钓鱼网站。 关键词:钓鱼网站;TrustRank;网页关系;链接关系 中图分类号:TP182 文献标识码:A doi:10.11959/j.issn.1000—0801.2018046 Detection of phishing websites based on the improved TrustRank algorithm HAN Hao,LIU Bowen,LIN Guoyuan School ofComputer Science and Technology,China University ofMining and Technology,Xuzhou 221116,China Abstract:Anti--phishing methods just generally detect phishing sites based on comparing the similarity of pages fea-- tures,which could be anti—detected when attackers are clear about the extraction process of features.Therefore,a method based on web pages relationship was proposed to detect phishing websites.According to this method,phish— ing websites were detected by an improved TrustRank algorithm which set up a collection of web pages and used he tlink relationship between phishing websites and other websites.Experiments show that he timproved TrustRank algo— rithm Can focus the trust values of phishing websites on some range with the lower false positive rate,the lower false negative rate and the higher speed compared to other methods. Key words:phishing website,TrustRank,web page relationship,lik nrelationship 1 引言 钓鱼网站是网络安全中的一个重大问题,因 钓鱼网站造成的经济损失和社会问题逐年增加。 收稿日期:2017-10-13;修回日期:2018-01—15 2017年6月份,由CNNIC牵头筹建的互联网域名管理 技术国家工程实验室与国际反钓鱼工作组(APWG)、 中国反钓鱼网站联盟(APAC)联合发布的《全球 中文钓鱼网站现状统计分析报告(2016年)》【 】 通信作者:林果园,lingy@cumt.edu.ca 基金项目:江苏省产学研前瞻性联合研究项目(No.BY2016026—04) Foundation Item:Production and Research Prospective Joint Research Project ofJiangsu Province(No.BY2016026—04) 2018046.1 ·87· 显示,2016年我国钓鱼网站数量为147 211例, 3种链接关系作为网站的钓鱼特征; 比2015年增长l50.96%。 ·由于钓鱼网站普遍存在时间短,因此选 常见的检测钓鱼网站的方法有基于页面特征 取网站的注册时间作为网站的一个钓鱼 的检测 ,引、基于URL的检测 , 、基于图像的检 特征; 测[6,71和结合机器学习进行检测[8qo]。除了基于 ·为了避免误判新出现的正规网站,考虑到 URL的检测方法,其他方法都会处理大量的多媒 URL检测的简单性和新出现的网站的 体内容而影响检测效率,并且随着网络钓鱼技术 URL并不会和黑白名单中的网站URL相 的发展,传统的检测方法虽然能够有效地检测出 似度过高,因此,将选取网页的URL与 钓鱼网站,但容易被新的钓鱼技术反检测而影响 白名单中网页的URL相似度作为另一个 检测的准确率。 网站的钓鱼特征。 不法分子往往通过电子邮件、即时通信工具、 短信、论坛或者搜索页面等使受害者访问钓鱼网 2 TrustRank基本原理 站【I¨。从受害者访问不法分子的推广链接到受害 在TrustRank算法中,将网络中的网页依据相 者受到损失过程中,受害者所访问的网站中会出 互链接的关系组织成一个Web图L1 Gw=<尸 >, 现以访问的钓鱼网站为中心链接在一起网站集 其中,P是网络中的网页集合,也就是Web图中 合。而钓鱼者又不得不推广钓鱼网站以使得更多 的顶点集合,R是网页与网页之间的链接集合。 的人访问钓鱼网站,因此以钓鱼网站为中心分析 在Web图G 中,为了表示网页之间的链接关系 其和其他网页之间的链接关系从而检测钓鱼网站 定义R , ∈ 表示网页P到网页g的链接。用Nop 的方法是钓鱼者不容易躲避的。 表示网页P指出链接的数量,即Web图中网页P TrustRank[ 】是通过检测网页间的链接关系并 的出度,用 表示网页P指出的链接,其中, 量化出网页的信任值,从而判断网页性质的算法, i∈(O,No )。用 表示指向网页P的链接的数 谷歌应用TrustRank屏蔽搜索结果中的垃圾页面。 量,即Web图中网页P的入度,用眦f表示指向 虽然钓鱼网站也是垃圾网站,但是TrustRank所考 网页P的链接,其中,i∈(0,Nm)。 虑的因素仅是网页之间的链接关系,并不是针对钓 TrustRank算法是一种半自动分类的方法,用 鱼网站的特征,因此不能够直接检测钓鱼网站。由 于描述网页的信任程度从而对网页进行排名。 此,需要结合钓鱼网站的特征改进TrustRank。 TrustRank假设好的网站很少会链接到坏的网站, 将可以判断一个网站是否是钓鱼网站的网站 但是坏的网站会链接到好的网站以提高自己的信 特征称为网站的钓鱼特征。对于钓鱼网站特征的 任度。TrustRank算法首先设置一个好的网站种子 选取也可以从TrustRank的角度选取,即分析网站 集Sp',即认为集合中的网站是信任度高的网站, 之间的链接关系,这样贴近于TrustRank的算法思 一般将这些网页的初始信任度设置为1,之后将垃 想,可以使选取的钓鱼特征更有效地结合 1 TrustRank算法。因此从以下3个方面考虑提取网 圾网页的信任度设置为0,其他网站设置为去。Z 站的钓鱼特征改进TrustRank算法: 若种子集中的某网页到一个网页所有的路径上都 ·TrustRank是针对链接的网页排序算法,由 不包含垃圾网页,则将此网页信任度设置为1。然 此依据网页间的链接关系归纳出钓鱼网 后采取信任分裂【H]的传播方式传播信任值,信任 站和其他网站的3种链接关系,并量化这 分裂是如果一个网页的信任值为1,且指向n个网 研究与开发 ·88· 页,那么它所指向的每一个网页得到的信任值为 1一网站,但是通常钓鱼网站的链接会出现在知名网 站中,也就是好网站,诸如论坛、贴吧等。对钓 ,由此一个网页的信任值是它从所有链入到它的 ,2 鱼网站分析得出,钓鱼网站与其他网站的关系有 推广、假链接和恶链接3种:推广关系是钓鱼网 站的链接出现在了其他的网站并且该网站的可信 度很高;假链接是指钓鱼网站为了躲避检测,在 网页得到的信任值的总和,信任分裂如图1所示。 好的网页 TR(口)=1 网站中加入自己所假冒网站的链接:恶链接则是 钓鱼网站含有的链接指向另一个钓鱼网站,一般 也是为了躲避钓鱼检测。 3.1直接TrustRank值 对钓鱼网站分析可以得出钓鱼者在推广网站 好的网页 TR(b 1 的时候,通常选取用户数量大的社交网站对钓鱼 网站进行推广。钓鱼网站的存活时间短,但是钓 鱼网站在其他正规网站中的推广链接不容易被删 除,因此随机选取phishtank上的2 000条钓鱼网 站链接并使用网络爬虫爬取含有这些钓鱼网站链 图1中的TR是页面的信任值,TrustRank 算法结合信任分裂由式(1)计算页面的 TrustRank值。 讯 ㈩ 接的网站,分别得出钓鱼网站推广链接的分布情 况,如图2所示。为了显示方便,将网站进行分 成几大类:社交类网站、门户类网站、交易类网 站、游戏类网站、小说类网站、企业政府类网站 和其他类别。 其中,TP(p)是页面的TrustRank值,d为阻尼系 图2中的百分比是此类网站中推广链接的数 数;qi是含有指向网页P链接的第i个网页。 量占总的推广链接的比例。按照数量从多到少排 序依次是:社交类网站、交易类网站、游戏类网 站、小说类网站、门户类网站、企业政府类网站 和其他。可以看出,社交类网站占有很大的比例, 3基于钓鱼特征改进的TrustRank算法 TrustRank算法假设好网站不会链接到坏的 图2推广链接在各类网站的分布情况 ·89· 电 高达97.39%,也就是说钓鱼网站推广的目标网站 自身网页设置链入正规网站的链接,而TmstRank 大都属于社交类网站。进一步对社交类网站分析, 算法并不能对一个网页的出链接做出检测。因此 每个网站所包含的推广链接数相近。然后再多次 提出以下步骤。 随机选取其他的500条钓鱼网站链接,最终发现 步骤1 设立正规网站集合包含易受攻击的 有156个网站包含的钓鱼网站链接数量大并且接 一些网站,正规网站集合的网页来自于Alexa网 近。由此可以得到一个推广网站集合P一,这个集 站中排名靠前的500个网站以及谷歌搜索出的前 合包含这156个网站。 1 000个被经常访问的网站,易受攻击的网站来自 TrustRank算法假设好的网站不会链接到坏 millersmiles的统计。 的网站,但是所分析出的156个网站都是 步骤2计算网页P的URL和正规网站集合 TrustRank值较高的网站,根据此类情况,提出一 中的URL的相似度。 个直接TrustRank值量化钓鱼网站和其他网站的 步骤3计算得出的相似性越高,则网页P 推广关系。直接TrustRank值是只计算网页P和链 是钓鱼网站的可能性越高,因为钓鱼网站为了迷 入网页P的网页之间的信任关系,并且将包含在 惑受害者会提高自己网站的URL与所要假冒的正 推广网站集合中的网页g 的信任度 设置为0, 规网站的URL相似度。 否则信任度 gf)为1,采取信任分裂的方式计算 钓鱼网站会同时采取增加、修改和删除合法 直接TrustRank值,如式(2)所示: 网站的URL中的字符来使自己的网站的URL看 NTR。(p)=(1一 )+ 台i. ̄ S(qi) (2) 起来与合法网站一样。但钓鱼网站又要尽量与其 所假冒的网站的URL相似,因此在对字符操作的 过程中,字符之间的相对位置变化不大。然后提 其中,TRD( )是网页P的直接TrustRank值,qi 出用最长公共子序列匹配的方式匹配URL并计算 是含有指向网页P链接的第i个网页。 匹配度以衡量一个网页URL与正规网站集合中的 直接TrustRank值有一个缺点,就是容易将与 网页的URL的相似度,匹配度越高表明是钓鱼网 推广网站集合中的网页有密切关系的正规网站的 站的可能性越高。 直接信任值降低。因此提出链入网页P的所有网页 假设网页P为要检测的网站,网页 是正规 中不在推广网站集合中的网页占有的比列来改善 网站集合的网页,则网页P的链接相似度J[) 砒。h 直接TrustRank的缺点。因为,正规网站相比较钓 由函数 ch(Up,Uq3决定。 鱼网站而言,与正规网站产生相互间链入链出的网 ch( , )由以下步骤计算得出。 页应该是多样的。因此,当不在推广网站集合中的 Function Umatch(Up,Uqi) 网页占有的比例越高时,说明此网页不是钓鱼网站 的可能性越高。改进后的表达式如式(3)所示: Input:Up, f //输入: 为待检测的网页P的URL,uqf正 TR脚(p)=TRD(p)× (3) 规网站集合中的网页的URL。 Vinp Output:J[)umaI。h 其中,Sinp为指向网页P但不在推广网站集合中 //输出为 和 f的匹配度 的网页的数量。 Begin: 3.2目标链接相似度 Count=O; 钓鱼网站为了躲避检测或者诱导受害者而在 Lqi= f.1ength;//Uqf的长度 研究与开发 ·90· Num=Sum(Uqf)//统计 的数量 其中, 是网站存在的时间,单位为天。由分析 String Maxstr; 得知J[) 和TRph(P)成反比,但是若网页P和网 For f::1 toNum step 1 页gf没有大于2的公共子序列则J[)um 为0,因 { 此不能直接将 match取倒数。而 和J[) 都属 Maxstr=Maxtch( ,Uqf,2)IIg找 于网页的自身特征URL特征和时间特征,因此可 与 f公共子序列Master,最短的子序列长度为2, 以由以上分析得出Dumatch和 1相加后取倒数可以 』P 并存储在Maxstr中; Lma =Maxtch.1ength;//求Maxtch存储 解决D ~h为0的问题。而—— 和TRDp(p)1 + 的数据数量 一Forj:=0 to Maxtch.1ength一1 step 1 是作为TR(p)的权重因子存在的,因此三者直接相 { 乘。由此得出结合钓鱼网站改进后的网页的 String str Maxtch[j]; TrustRank值TRph(P)。 Count+=str.1ength; D[i一1]=count/(L口ixL ); } Dum 。 =Smax(D【])//取数组D中最大数 } Print Du atch (乙 , f)就是统计出己 和 f的所有公 共子序列,然后计算 的每一个子序列长度占 长度的比例之和的平均值,最终匹配完所有的 后取最大的值。因为钓鱼网站的假链接是和自 己的URL相似度高的链接,而正常网站除了白反 链接外,很难和其他网站的URL具有高的相似性。 可以看出D 值越大,网页是钓鱼网站的可能 性越高。 3.3改进的TrustRank 对于网站链出链接包含恶链接的,则先判断 该网站是不是钓鱼网站,若不是则将网站添加到 推广网站集合中。根据第3.1节和第3.2节中的分 析,结合钓鱼网站存活时问短的特征,得出最终 改进的TrustRank值如式(4)所示: TRph(p):TR(p)× xTRDp(P)(4) + n图3 改进的TrustRank钓鱼检测网站的流程 ·91· 图3是基于钓鱼网站链接关系改进的TrustRank 4.2参数确定 检测钓鱼网站的流程,其中黑名单中的网站是 为了确定合适的TRph可以高效地检测钓鱼网 phishtank上的网站的URL集合,白名单为第3.2 站,计算包含钓鱼网站和正常网站的数据集中网 节中的正规网站集合中的网站的URL集合。 页的TR0h值并对其分析。在phishtank网站中随机 4实验与分析 选取500个钓鱼网站计算TRDh,然后随机计算白 名单中的网站和排名较高的网站总共2 500个网 4.1 实验设置 站的TRph值。对这些TRph值进行分析,由于TRph 为了检验基于钓鱼网站链接关系改进的 值的范围分布较大,因此对TR。h值进行归一化处 TrustRank检测钓鱼网站是否有效,实验首先观察 理,因为检测钓鱼网站时只有当前网页的TRDh 改进的TrustRank算法在含有钓鱼网站和正常网 可供参考,因此采取以自身值为基准归一化,如 站的数据集上的准确率和速度,然后分析是否存 式(5)所示: 在一个TRyh范围可以将算法的准确率和速度确 Norma(TRph)=TRpb/(TRph+1) (5) 定在一个稳定和最优的范围内。在此基础上,与 参考文献[14】提出的基于图形挖掘与信念传播的 然后分析由改进得TmstRank得出的归一化 检测方法、参考文献【l5]提出的通过线性分类器 后的TRnh发现分布情况如图4所示。 分析提取的页面异常特征检测方法、参考文献[1 61 从图4中数据分析可得,钓鱼网站的 提出的基于统计机器学习分类器来检测依钓鱼 Norma(TRph)值集中分布在0~0.2中,占总的钓鱼 网站的方法以及参考文献【17]提出的基于易受攻 网站数量的96.4%,0.2~0.3中有10个钓鱼网站, 击网站的URL的相关性检测钓鱼网站的方法这 但是正常网站的数量占实验总网站数量的 4种方法,在另外一个随机选取的数据集上比较 13.76%,数值过高因此舍掉0.2~0_3这个范围,选 准确率和速度。 取0~0.2为钓鱼网站的Norma(TRplh)值的范围,对 对于TmstRank所需要的好的网站的种子集 应的TRph在0~0.25中,因此若网页的TRph在这 spg,采取参考文献[18]的方法确定。推广网站集 个范围则判定网页为钓鱼网页。这个区间内,改 合的初始集合由第3.1节中的156个网站组成并随 进的TmstRank算法检测误判率ET按照式(6) 着对钓鱼网站的检测逐渐增加。 计算为0.53%,漏判率LT按照式(7)计算为O.6%。 Norma(TRph)的值 图4由改进的TrustRank得出的Norma(TRph)分布情况 研究与开发 ·92· ET: ×100% (6) AC= ×100% (8) SNp r SNph Ⅳ LT: ×100% (7) SNP Dr 。= 』Vhm ×100% (9) 其中,ⅣE是将正常网站判定为钓鱼网站的数目, SNp是所有网站的总数目,ⅣL是将钓鱼网站判定 为正常网站的总数目。 其中,AC是检测钓鱼网站的准确率,Ⅳ 是正确 检测出的钓鱼网站的数目, h是钓鱼网站的总 数。D 。是各方法检测钓鱼网站的有效速率,Ⅳh 是除了改进的TrustRank之外的其他方法每小时 正确检测出的钓鱼网站的数目,Ⅳh 是改进的 为了验证对TrustRank改进的有效性,对以上 网站集合的网页按照式(1)计算TrustRank值TR, 然后计算Norma(TR)的值。由TrustRank得出的 Norma(TR)的分布结果如图5所示。从图5中可以 看出,TrustRank并不能将钓鱼网站和正常网站很 好地分开,在每个区问内都分布有很多的正常网 站,在0.1 0.2这个区间,正常网站的数目最少, 但是占总的网站数目的3.63%,远高于改进的 TrustRank值选取0-0.2区间后误判的0.53%。因 TrustRank每小时检测出的钓鱼网站的数目。 作对比所采取的钓鱼网站集合是从 anti—phishing中的黑名单中随机选取的150 000个 钓鱼网站,正常网站则从谷歌搜索和Alexa网站 中随机选取的20 000个正常网站。对于钓鱼网站 集合的处理是随机分为3组,每组包含50 000个 钓鱼网站,然后分别检测每组钓鱼网站集合和正 常网站混合后的检测效果。最终对每组的准确率、 误判率、漏判率、D 分别求和然后求取平均值。 对于参考文献[16]实验中选取的特征为:URL所 在服务器是否是网络虚拟服务器;URL中是否包 含被攻击的特征;URL中的长单词、关键词以及 品牌词。其中,关键词是包含登录、确认、注册 等意思的单词,品牌词是与现有的公司名有关的 单词。训练的样本选取phishtank和anti phishing 的钓鱼网站。表1是5种方法在此方法中检测钓 此,改进后的TrustRank比TrustRank算法能更有 效地检测出钓鱼网站和正常网站。 4.3实验对比 为了验证选取的TRoh值的范围可以有效检测钓 鱼网站,将改进后的TmstRank算法与参考文献[14]、 参考文献[15]、参考文献[16]以及参考文献[17leo 的方法作比较,并计算各种方法的准确率、误判 率、漏判率以及速度并进行比较。其中准确率由 式(8)计算,检测速度由式(9)计算。 Norrnal(TR)的值 图5由TmstRank得出的Norma(TR)的分布情况 2018046—7 ·93· 鱼网站的准确率、误判率、漏判率的平均值对比, 网页的特点,所以具有较高检测准确率和检测速 表2是5组实验中各方法的J[) 值的平均值。 度。但改进的TrustRank算法仍有不足,接下来的 表1 各方法准确率(AC)、误判率(ET) 工作从以下两个方面展开:由于正规网站集合中 以及漏判率(LT)的值 网页的数量很大,可以将改进的TrustRank搭建在 云平台中实现以提高检测的速度;结合机器学习 的方法可以动态地调整选取的TRDh以使检测准确 率更高。 参考文献: 表2各方法的有效速率D I。值 f1]CNNIC.全球中文钓鱼网站现状统计分析报告(2016年) 【R/OL].(2016-01—07)[2017-10·29].http://www.sohu.com/a/ 14765781—352856. CNNIC.Statistical report on current situation of global chinese ifshing website(2016)[R/OL].(2016-01-07)[2017—10—291.http:// www.sohu.com/a/14765781—352856. 【2] SONOWAL G KuPPuSAMY K S.phiDMA—A phishing detection model with multi—filter approach[J].Journal of 从表1的数据可以分析出,改进的TrustRank King Saud University-Computer and Information Sciences, 2O17. 算法的准确率为98.42%,高于其他4种方法的准 【3]MOGHIMI M,VARJANI A Y New rule-based phishing detec- 确率O.89%、0.56%、0.39% ̄D 0.74%。误判率低 tion method[J].Expert Systems with Applications,2016(53): 于其他4种方法0.645%、1.676%、0.67%和 231.242. 【4]TANCL,KANGLC,WONGK S,et a1.PhishwHo:phishing 0.984%。同样漏判率也低于其他4种方法。因此 webpage detection via identity keywords extraction and target 可以得出改进的TrustRank算法能够很好地检测 domain name finder[J].Decision Support Systems,2016(88): 钓鱼网站。 18.27. [5】ZHANG D,YAN Z,JIANG H,et a1.A domain-feature en— 由式(9)可知,当D 的值大于1的时候, hancec ̄ classiifcation model for the detection of Chinese phish— 可以认为所对应的检测方法的检测速度比改进的 ing e-Business websites[J].Information&Management,2014, 51(7):845—853. TrustRank快。但是表2中的数据分别为0.902、 [6】KANG L C,CHANG E H,SZE S N,et a1.Utilisation ofweb- 0.887、0.851和0.809,都低于1,因此这4种方 site logo for phishing detection[J].Computers&Security, 法的检测速度都低于改进的TrustRank算法,由此 2015(54):16—26. 【7】JA1N A K,GUPTA B B.Phishing detection:analysis of visual 可以得出改进的TrustRank具有较高的检测速度。 similarity based approaches[J].2017(4):1—20. 【8]VARSHNEY G,MISRA M,ATREY P K.A phish detector using 5结束语 lightweight search features[J].Computers&Security,2016(62): 213—228. 基于对钓鱼网站链接的分析以及钓鱼网站存 [9】RAJAB K D.New hybrid feanlres selection method:a case study 在时间短的特点,分别计算了网页的直接 on websites phishing[J].Security&Communication Networks, 2017(2):1-10. TrustRank值、目标链接相似度以及钓鱼网站存在 【10】HADI W ABURUB ALHAWA ̄S.A new fast associative 时间,然后结合TrustRank值改进得到网页的TRDh classification algorihtm for detecting phishing websites[M]. 来判断一个网页是否是钓鱼网站。因为结合钓鱼 Netherlands:Elsevier Science Publishers,2016. [11]RATHORE S,SHARMA P K,LOIA et a1.Social network 网站的特征以及TrustRank本身的基于链接分析 securiyt:issues,challenges,threats,and solutions[J].Infor- 2018046.8 nlatlon Sciences.20 l 7. Technical report[R]Stanford University.2004 [1 2]SOUSA J,RIBEIRO L,MARQUFS A S,et al Locating leaks with tmstrank algorithm support[J].Water.20 1 5,7(4):l 378—1 40 1. 【作者简介】 韩浩(1993), ,Il一… 、 人 竹机 [1 3]刘Iq『.I J二十r J是j- 合内棒特… Tr.ustRank钾‘法改进…. 计馆机】 LIU 』改汁,2Ol 3,34(4):1276—1 279 科 J披术 院侦l t-,1 {l』l宄 ‘ 为 i ,ZHANG H X.1lnprovelllent of TrustRank algoritlun based 011 combination of content feattu‘esl J Computler t'.,ngi— neering and Design,2013,34(4):I 276 1 27'4 臼 友个。 [I 4】ZOU GANG PEI B,et al Wcb Phishing detection based on graph mining[C]//IEEE International( onferellce on('on1一 puter and Conwnunications.Jul l一2,2【)l 7.Japur India.1 isca— taway:IEEE Press.20 I 7 刘博文(1993), 钓frl 站卡=:j=洲乃 【lI J _,-…I、 、l 人 il竹 [I 5]宋_IJj秋 唬 J J‘般感 }l】=的 机科 、j : J技术 院顺l .1  ̄Jt5g …乃 £ 心安令。 人造 l 人0 叫[王、201 3,53(b):903—907 SONG M Q.CAO X Y Detection method ol’phishing site based O11 sensitive feature[J].Journal oI’Dalian Unversity of Technol— ogy,20 1 3,53(6):903—907 [1 6]ZHANG J.PAN Y-WANG ,et al t JRI based gateway side phishing detection mcthod[C]//TI‘usfcol11/bjgdafasc/lspa Aug l_4,201 7,Sydney,Australia Piscataway:IEEE Press,201 7: 268.275. 林果园(1975一), , 矿业人 1 导帅、 汁 机科学 j技术 院刚 授、 息发个系1i仃、信息嵌 赶凑 1 fF,1 [1 7】XUE LI YAO et al Phishing sites detection based on 委 全刚 Url c0m lation[c]//Intemational Conference O11 Cloud Compu- ting and Intelligence Systems,20 1 6 Beijing Clifna.New Pis— cataway:IEEE Press 20l6:244—248 究 向为叫 。 IIJ 个、移动 个=、 暇及 发个=、云汁 及 发个、J J 似 月 务、矿 系统及其 『1 81 GYONGYI Z,GARCIA—M H.Seed Selcotion iI1 TrustRank 息 救个 安 坝卅贫乏三化 20l8046—9