搜索
您的当前位置:首页正文

基于领域本体的学习资源语义检索模型

来源:知库网
第25卷第7期2008年7月 

计算机应用研究

ApplicationResearchofComputersVol.25No.7Jul.2008

基于领域本体的学习资源语义检索模型

牛 强,邱 波,夏士雄,周 勇,张 磊

(中国矿业大学计算机科学与技术学院信息科学系,江苏徐州221008)

3

摘 要:为解决e2learning领域内学习资源的有效检索,提出了一个基于领域本体的e2learning学习资源语义检索模型。用Protégé构建了教育技术领域本体,通过对检索方法的研究分析和算法实现,开发了基于本体语义检索原型系统;并由对比全文检索和基于本体的语义检索两种方法的查准率,证明了基于本体的语义检索方式,在一定程度上能解决目前传统检索中存在的不足。关键词:e2learning;学习资源;领域本体;语义检索

中图分类号:TP391   文献标志码:A   文章编号:100123695(2008)0721977202

Researchondomainontology2basedsemanticretrievalmodeloflearningresources

NIUQiang,QIUBo,XIAShi2xiong,ZHOUYong,ZHANGLei

(Dept.ofInformationScience,SchoolofComputerScience&Technology,ChinaUniversityofMining&Technology,XuzhouJiangsu221008,China)

Abstract:Tofacilitatetheeffectiveretrievaloflearningresources,thepaperproposedadomainontology2basedmodelof

learningresources.EducationtechnologyontologywasconstructedbyProtégé.Throughstudyingandanalyzingtheretrievalmodelandrealizingthealgorithm,aprototypesystemwasdeveloped.Precisionratiooffull2textretrievalandontology2basedretrievalwascalculatedseparatelyandthelatterwasmoreaccurate.Itisprovedthatthesystemcanovercometheshortcomingsoftraditionalretrievalatacertainextent.

Keywords:e2learning;learningresources;domainontology;semanticretrieval

  目前正在研究和使用的信息检索技术可以分为三类[1],即全文检索、数据检索和语义检索(知识检索)。其中:全文检索是基于词语的机械匹配,比较好地保证了检索的查全率,但是查准率不能令人满意;数据检索是基于一定的格式和结构对特定字段的检索,但是这种方法要求人工基于特定的字段对信息资源进行标志,检索的效果取决于标志方法的优劣以及用户对标识字段的理解;语义检索则是基于知识的、语义的匹配,在提高检索的查准率和查全率方面都有很好的表现。

本文以解决e2learning领域内学习资源的有效检索为目标,研究以本体作为知识组织方式实现语义检索的方法,设计了基于领域本体的学习资源语义检索模型,开发了教育技术领域学习资源语义检索系统,该系统在一定程度上实现了复杂概念层次下的语义检索。

习资源语义检索模型(DOSRM)主要由三大模块组成,即分词、

语义和检索(图1)。

DOSRM模型的第一步就是对用户输入的查询语句进行分

词,取出查询中的中心词,然后将它们递交给语义模块。语义模块对递交过来的查询进行分析,并将查询请求Q1,2,…,n分为两个部分:a)在本体库中所覆盖到的关键词Q1l,2,…,n;b)不在本体库中的其他单词Q2l,2,…,n。语义模块开始在本体库中查找到Q1,2,…,n的语义描述,为检索模块提供了比一般检索方式更准确丰富的信息内容,然后把语义描述交给检索模块得到检索结果Resultl。Q2l,2,…,n则直接传递给检索模块,得到检索结果Result2。最后返回给用户的结果是Result1与Result2的和。过程如图2所示。

 基于领域本体的学习资源语义检索模型的框架

本体最早是个哲学概念,本意是本体论或存在论。关于本体的定义,最著名并被引用得最为广泛的是由Gruber提出的

[2]“本体是概念化的明确的规范说明”。领域本体是面向特定

领域,用于描述领域知识的概念模型,并要求模型中的概念在某个特定领域或范围内是公认的。领域本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义[3]。基于领域本体的学

 模型关键技术研究

1 教育技术领域本体的构建

领域本体实际上是一张机器可读的相关领域的术语(概念)及其关系的词表,它的作用是使人们对相关领域内的术

收稿日期:2007207217;修回日期:2007210211  基金项目:国家自然科学基金资助项目(50674086);高等学校博士学科点专项科研基金资助项目(20060290508);江苏省社会发展科技计划(BS2006002)

作者简介:牛强(19742),男,博士研究生,主要研究方向为数据挖掘与知识获取(niuqiang@vip.163.com);邱波,硕士研究生,主要研究方向为数据融合技术;夏士雄,教授,博导,主要研究方向为数据处理与信息融合;周勇,博士,主要研究方向为遗传算法与系统优化;张磊,博士,主要研究方向为智能数据分析与处理.

・1978・计算机应用研究第25卷

语、规则达到共同认识。从图1可以看出,本体库是用户提问语义和计算机检索语义取得一致的核心,因此构建本体并将其序列化是模型的关键。模型采用OWLDL[4](Web本体语言、

[5]

描述逻辑语言)描述本体,由Protégé2000对其进行管理。

OWLDL主要从以下四个方面表示本体术语及其间的关系:

a)类及类层次结构(子类和超类的关系)。类的定义除了

直接定义(计算机软件、操作系统、Windows、图形界面和用户)以外,还可以通过描述逻辑(如析取、合取、否定等)或属性约束进行定义。

b)个体。表示本体中最具体的对象,如WindowsXP、Get2

flash、Office2000等。

c)属性及其值。类属性的定义实际是对类个体的特征描

FunctionQuery(query_concept)

Begin

Concepts=直接匹配本体概念核心词汇Ci的记录集;If(ETO中存在与Ci等价的本体概念Cj)

Concepts=Concepts+满足等价概念Cj的记录集;Else

If(ETO中存在Ci的子概念集C_CHILD_S)Concepts=Concepts+满足子概念集C_CHILD_S的记录集;Else

If(ETO中存在Ci的父概念集C_PARENT_S的记录集)

Concepts=Concepts+满足父概念集C_PARENT_S的记录集);用户筛选Concepts并提交;Else

提示用户:“查询结果为0条匹配记录!”;ReturnConcepts;End述,其类型分为对象属性和数据类型属性,由具体的类确定,操作系统可以从界面、用户、任务等几个方面来描述。d)类和类、类和个体、属性间的关系。它们之间的关系可通过约束和描述逻辑来表小。下面给出教育技术领域本体构造的部分代码,此部分代码表示教育技术领域中的Media概念下有DigitalMedia、Re2

gularMedia和SystemMedia三个子概念。〈owl:Classrdf:ID=\"DigitalMedia\"〉〈rdfs:subClassOf〉〈owl:Classrdf:ID=\"Media\"/〉〈/rdfs:subClassOf〉〈/owl:Class〉〈owl:Classrdf:ID=\"RegularMedia\"〉〈rdfs:subClassOf〉〈owl:Classrdf:ID=\"Media\"/〉〈/rdfs:subClassOf〉〈/owl:Class〉〈owl:Classrdf:ID=\"SystemMedia\"〉〈rdfs:subClassOf〉〈owl:Classrdf:ID=\"Media\"/〉〈/rdfs:subClassOf〉〈/owl:Class〉

 原型系统实现和实验结果分析1 系统实现

系统部署如图3所示:系统管理员、普通用户(教师和学生),其他用户通过本单位局域网、广域网等,经过防火墙访问应用服务器上的应用,应用调用数据库服务器中的相应数据。

1 实验结果分析

一般而言,查准率(precisionratio)和查全率(recallratio)是检索系统评价的两个最基本的指标。查全率测试往往需要一个比较稳定的测试集。这样的测试集由文档集、提问集和提问的相关文档集组成,测试集合构造非常费时费力。因此笔者侧重对基于本体的检索模型的查准率进行定量分析。

选取《教育技术》期刊元数据记录100条为实验数据。其中:关于课程的15篇,关于教育技术理论的20篇,关于教育技术活动的15篇,关于教育技术组织的10篇,关于教育技术媒体的10篇,其他类的20篇。精确查询条件为教育技术领域的各分领域共选择五个提问词组成一个提问词集合,这五个提问词分别是:{Internet,CAD,媒体,课程,教室}。基于提问词集合,这里的查准率是平均查准率,平均查准率是五个提问词查准率的算术平均。具体来讲,就是计算给定文档临界值处的平均查准率,如检出相关文档数为10、15、20、30时的平均查准率。对比全文检索的结果和语义检索的结果数据如表1所示。

表1 检索结果数据表

文档数临界值

全文检索平均查准率基于本体检索平均查准率

100.450.8

150.480.75

200.30.5

300.20.6

1 主要算法实现

本节首先用自然语言描述了基于ETO的语义检索算法,再给出算法中关键部分查询扩展函数的实现。1)基于ETO的语义检索算法的自然语言描述

输入:查询请求Q

输出:检索的结果ResultBegin//算法开始Result={}//清空Result1={}//清空Result2={}//清空//分词

Begin

分词,取出中心词;

中心词分类,属于本体的置于Q1,不属于本体的置入Q2;

对Q1进行语义获取(解析子类、Instances,排除disjointsclasses等);

End;

//使用本体进行查询扩展后(即语义获取),将扩展结果置入Q1//对每一个检索对象进行下面操作Begin

使用本体进行查询扩展;

若Q1不为空,则使用Q1进行全文检索,得结果集Result1;

若Q2不为空,则直接使用Q2进行全文检索,得结果集Result2;Result=Result1+Result2;End;

End//算法结束

  结果表明基于本体的检索,查准率和查全率明显高于全文检索,在一定程度上克服了传统关键字检索查准率不高的缺点。

 结束语

将本体引入e2learning学习资源管理中增强了资源发现的智能性和实用性。本文提出了基于领域本体的学习资源语义检索模型,研究了模型的关键技术包括领域本体的建立和语义检索算法的实现,开发了教育技术领域学习资源语义检索原型系统,通过对比全文检索和基于本体的语义

(下转第1982页)

2)查询扩展函数的实现

・1982・

(图4):

计算机应用研究第25卷

a)峨眉山资源本体层,包括峨眉山基本地质资源、地形地

貌等子本体,是领域本体;

b)峨眉山珍稀兽类本体层(图5),包括小熊猫子本体层;c)峨眉山植物本体层,包括冷箭竹子本体层、大箭竹子本体层;

d)峨眉山水系本体层,包括线状水系(溪流)子本体层。

 结束语

本文研究了基于本体论的空间分析在生物保护领域的应用问题。实践表明:面向山地生物多样性保护的资源本体空间分析为建立生态资源动态监测机制提供了切实可行的空间分析功能;揭示了保护对象与生境的存在状态、破碎程度和变化趋势之间的内在关系;为实现生态资源动态监测由定性描述到

小熊猫生活于在海拔1600~3800m之间的混交林和竹林等高山丛林之中,喜食冷箭竹、大箭竹,夜晚栖居在溪流和山泉附近的利用枯树洞或岩石洞所筑成的巢穴中。针对这一生态特征;系统对其监控区域的选择作如下空间分析:a)X=“小熊猫子本体”∈“峨眉山珍稀兽类本体层”;

b)Y=“1600≤海拔子本体≤3800”∈“地形地貌子

定量分析提供了有力的数学工具;为科学的生物保护预测和决策提供了合理可靠的依据。作为一项新兴的资源保护技术,本体论在本领域的应用研究还将继续深入,今后的工作将着重在以下两个方面:建立更加完善的本体分层机制;引入粗糙数学,建立基于粗糙Mereotopology的、更符合自然状态的空间分析机制。参考文献:

[1]江洪,马克平,张艳丽,等.基于空间分析的保护生物学研究[J].

本体”;

c)FL(X,Y)=ϖZ(ZPY∧XPZ)得区域Z:小熊猫适宜生存的峨眉山地理位置(较好位于)“万佛顶→千佛顶→普贤塔→太子坪→雷洞坪→大乘寺”一线,海拔高度2341m→2796

m→2545m;

d)加入X′={“冷箭竹子本体”“华西箭竹子本体”“大箭

植物生态学报,2004,28(4):5622578.

[2]郭仁忠.空间分析[M].北京:测绘出版社,2000:425.

[3]BENNETTB.Acategoricalaxiomatizationofregion2basedgeometry

[J].FundamentalInformaticae,2001,46(122):1452158.[4]康德.纯粹理性批判[M].韦卓民,译.武汉:华中师范大学出版

竹子本体”“峨眉开口箭竹子本体”}∈“峨眉山植物本体层”;

e)Y′={“龙池”“大溪河”“大道河”“黑龙江”“碗店子沟”“干沟”“白龙江”}∈“峨眉山水系本体层”;

)=ϖZ′(Z′)得区域Z′f)FL(X′,Y′PY′∧X′PZ′:“千佛顶→普贤塔→太子坪→雷洞坪”一线,海拔高度2341m→2545m;)&O(r(Z),r(Z′))→O(Z,Z′):小熊猫适宜生g)U(Z,Z′存环境应与冷箭竹、溪流所处区域覆盖;

h)空间分析结果:对峨眉山小熊猫资源动态监测的一个重点区域为“千佛顶→雷洞坪”一线。

注:系统录入数据来自《中国动物志》《中国植物志》《中国濒危动物名录》《峨眉山》《乐山市年鉴》。

系统空间分析结果如图6所示。在此基础上,系统综合运用3S技术,对选定区域内小熊猫生存的空间位置、范围以及依存的地形和气候等生境条件进行重点监控,全面了解其生境的存在状态、破碎程度和变化趋势,进行有效的自然保护。

(上接第1978页)检索两种方法的查准率,证明了基于本体的语

社,2000:2432247.

[5]MENNISJL,PEUQUETDJ.Aconceptualframeworkforincorporating

cognitiveprinciplesintogeo2graphicaldatabaserepresentation[J].IntJGeographicalInformationScience,2000,14(6):5012520.[6]SMITHB.Mereotopology:atheoryofpartsandboundaries[J].Data

andKnowledgeEngineering,1996,20(3):2872303.

[7]黄茂军,杜清运,杜晓初.地理本体空间特征的形式化表达机制研

究[J].武汉大学学报,信息科学版,2005,30(4):3372340.

[8]DONNELLYM.Aformaltheoryforreasoningaboutparthood,connec2

tion,andlocation[J].ArtificialIntelligence,2004,160(122):1452172.

[9]DONNELLYM,SMITHB.Layers:anewapproachtolocatingobjects

inspace[C]//ProcofCOSIT.Berlin:Springer2Verlag,2003:46260.[10]SUGUMARANV,STOREYVC.Ontologiesforconceptualmodeling:

theircreation,use,andmanagement[J].Data&KnowledgeEngi2neering,2002,42(3):2512271.

自然科学版,2002,38(5):7302733.

[4]HARMELENF,HENDLERJ,HORROCKSI,etal.OWLWebontolo2

gylanguagereference.WorldWideWebConsortium[EB/OL].(2004).http://www.w3.org/tr/owl2ref.[5]

TheProtégéontologyeditorandknowledgeacquisitionsystem[EB/OL].(2005).http://protege.stanford.edu/.

[6]王洪伟,吴家春,蒋馥.基于本体模型的信息检索机制研究[J].情

义检索方式在一定程度上能解决目前传统检索中存在的不足。但如何在一个分布式、异构的网络知识环境下实现完全意义的语义检索是一个挑战,笔者将在以后的研究中予以关注。参考文献:

[1]GUARINON,MASOLOC,VETEREG.OntoSeek:Contentbasedac2

cesstotheWeb[J].IEEEIntelligentSystems,1999,14(3):70280.

[2]CRUBERCTR.Atranslationapproachtoportableontologies[J].

KnowledgeAaluisition,1993,5(2):1992220.

[3]邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报:

报学报,2004,23(1):329.

[7]李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,

2005,24(6):7082712.

[8]黄红华.基于ontology的知识检索[J].情报杂志,2005,24(1):

1222124.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top