数据库开发与研究 新世纪图书馆2o12年第2期 中文数据库实现分类主题一体化检索的可行性 及对策研究 宋乐平(燕山大学图书馆) 【摘要】 论文对中国知网系列数据库、万方数据知识服务平台和维普资讯网三大中文数据库的分类检索及主题检索 现状进行研究,分析在中文数据库中实现分类主题一体化检索的必要性与可行性,并在数据库现有的分类和主题检索功能的 基础上,进一步探讨实现分类主题一体化检索的方法。 【关键词】 中文数据库;分类法;主题法;分类主题一体化 【Abstracts】This paper researches the present situation ofclassiifcation retrieval and subject retrieval about CNKI、WANFANG DATA and VIP,analyses the necessity and feasibiliyt of realizing the classiifcation-subject integration in Chinese database.According to the current foundation,this paper discusses the methods to realize hte classiifcation—subject integration in Chinese database. 【Keywords】Chinese atdabase;Classiifcation;Subject indexing;Classiifcation—subject integration 1 引言 分类语言和主题语言都有天生的优势和不足,分类语言 是以学科、专业来聚类信息的,以一定的标记符号作为排序 库的检索功能,为用户提供更为优质的服务。 2 中文数据库的分类主题检索现状 2.1分类检索现状 在分类检索方面,中国知网系列数据库提供了两种方 工具,用等级结构显示类目体系之间的关系;而主题语言是 以事物、对象来集中信息的,以表达文献主题的受控语词做 检索标识,以字顺为主要检索途径,用参照系统揭示词汇之 间的关系。分类语言系统性强,查全率高,但不能充分揭示细 式。一种是“中图分类法”导航方式,体现在中国知网镜像版 的跨库检索界面中,该中图分类法导航按照《中国图书馆分 类法(第四版)》(以下简称《中图法》)为主要依据设置分 小专深主题,不能进行多角度检索;主题语言特指性好,查准 率高,但不能从学科的范畴进一步缩小检索范围,所以存在 一类体系。用户可逐层点击类目名称,查看浏览类目的下位类 及其相关类目的信息;也可以在选定类目的前提下,通过检 定的误检率。因此,无论是分类语言还是主题语言都无法 索词实现分类类目限定检索。第二种是“中图分类号”检索 方式,体现在中国知网中心网站的跨库检索和一些涉及中图 分类的单库检索中,用户可以选择此检索入口直接进行分类 检索。 单一地满足信息检索的多样化需求。分类的族性检索和主题 的特性检索反映了人类思维的两个方面,将两者结合起来, 可弥补各自的不足,促进检索系统整体功能的发挥ll_ 。 中国知网系列数据库(http:llwww.cnki.net/)、维普资讯 网(hnD://Ⅵ .cqvip.corn/)和万方数据知识服务平台(http: //www.wanfangdata.tom..cn/)是目前国内比较有代表性的三 个中文数据库,收录的资源比较丰富,检索功能也比较完善, 在用户中有一定的影响力,笔者以这三个中文检索系统为研 究对象,对其分类检索和主题检索现状进行分析,探讨了在 中文数据库中实现分类主题一体化检索的可行性及相应对 策,以期在实践工作中利用相关的研究成果进一步改善数据 维普资讯网提供了快速检索、传统检索、高级检索和分 类检索等多种检索方式。在传统检索方式下设置有分类导航 途径和分类号检索入口,其分类导航仅用于浏览分类和实现 分类限定检索,无法直接进行类目逐层点击检索。在高级检 索界面中设置有分类号检索项,并提供了“查看分类表”的 扩展按钮,点击可获得整个《中图法》的分类体系,用户可在 分类体系中选择一个或多个类目进行检索,当选中多个类目 时,系统会以“逻辑或”的方式将多个类目组合起来进行检 79 新世纪图书馆2o12年第2期 索。维普资讯网还专门提供了分类检索方式,该方式按照 《中图法》提供了比较完备的分类体系,具体操作方法与高 级检索方式下的分类号检索相似。 万方数据知识服务平台在检索主界面上提供了《中图 法》的22个基本大类,点击任一个分类类目均可获得该数 据库所收录的有关此类目的所有类型的文献资源,还可在大 类检索的基础上利用检索词实现二次检索。与此同时,该检 索系统还按照《中图法》的基本大类对每一次检索结果进行 了聚类分析,方便用户从分类角度进一步精炼检索结果。另 外,万方数据知识服务平台在其跨库检索页面中提供了“中 图分类号”检索项,在经典检索方式下,提供了“中图分类” 检索项,用户可直接输入分类号进行检索。 2.2丰题检索现状 主题检索的效果主要取决于词汇之间等同关系、相关关 系和等级关系的控制程度,三大中文数据库的主题检索现状 如下。 (1)同义控制。中国知网系列数据库的同义控制功能主 要表现在三个方面。一是“中英文扩展检索”选项。选中该项 后,系统会把包含有检索词中文形式或英文形式的所有文献 命中输出。二是通过推荐字面匹配相似词的方式为用户提供 帮助。用户输入检索词进行检索时,系统会在检索结果下方 列出“当前检索词的相似词”,其中包含有检索词的同义词。 三是当用户输入检索词,点击检索框后方的扩展按钮“臼” 时,弹出的与中心词相关的扩展词列表中有时也会有同义词 出现。 维普资讯网在同义控制方面的研究比较深入。~是在传 统检索方式下提供了“同义词”选项,在选中该项的前提下进 行检索,系统会首先输出检索词的同义词。二是在高级检索方 式下提供了‘查看同义词”扩展按钮,基本功能和操作方法与 传统检索方式下的同义词选项相同。具体操作时,当用户选中 一个或多个同义词并点击确定后,这些同义词会以“逻辑或” 的形式与检索词组合起来,实现同义词检索的功能。 笔者在万方数据知识服务平台中未发现可以实现同义 词检索的途径,而且在同样的限定条件下,使用“电脑”和 “计算机”两个词检索时所获得的结果数量不同,由此可见 检索系统本身尚未具备同义词检索的功能。 (2)相关揭示。三大中文数据库中只有中国知网系列数 据库对词汇之问的相关关系进行了一定程度的揭示。在利用 中国知网系统进行检索时,检索结果下方显示了“当前检索 词的相关词”。这些“相关词”是基于中国知网全文语料库、 通过字面组配和词汇同现率来实现相关控制的,可以跨越学 科限制,体现词汇之间的关联。 (3)等级显示。从笔者的检索实践来看,三个中文数据 数据库开发与研究 库检索系统均未实现主题标识之间的等级关系控制。 3 中文数据库实现分类主题一体化检索的可行性分析 从上面的分析可以看出,三大中文检索系统在分类检索 和主题检索方面都做出了不少努力。 在检索系统的分类体系构建方面,三大中文数据库都设 置了分类导航检索功能。其中维普资讯网的分类检索方式和 高级检索方式下“查看分类表”功能所提供的分类体系比较 完整,基本上能够满足系统分类检索的需求;中国知网镜像 版的跨库检索页面所提供的中图法导航,按照等级关系以树 状目录形式逐层揭示下级类目,类目揭示比较详细,有的已 经深入揭示到了8级,为用户采用分类导航方法检索文献提 供了很大便利;万方数据知识服务平台也列出了《中图法》 的22个基本大类,并对检索结果进行了基本大类的聚类分 析。在分类号检索方面,三个中文数据库都设置了分类号检 索入口,方便用户利用分类号检索相关文献,而且维普资讯 网高级检索界面上所提供的分类号检索途径,实现了类名和 类号的相互对应,上下位类展开方式也比较合理,方便用户 把握整个分类体系灵活地进行扩检和缩检。 三大中文数据库在主题检索方面也做出了一些努力。在 同义词控制方面,除万方数据知识服务平台外,维普资讯网 基本上实现了同义词检索的功能;中国知网系列数据库中的 “中英文扩展检索”功能也初步具备了同义词检索的雏形, 而且该系统提供的相似词和扩展词有时会涵盖同义词,其具 体的揭示方式也值得我们借鉴。在相关控制方面,中国知网 系列数据库通过相似词推荐功能揭示了字面匹配的相关词 汇,又通过同现率分析揭示了有内在联系的相关词汇,提高 了系统的主题检索能力。 虽然三大中文数据库的分类检索能力未得到充分的开 发,主题标识之间的关系也没有充分揭示,但三大检索系统 在分类和主题方面所做出的努力已经为系统实现分类主题 一体化检索提供了相应的基础,我们可以在此基础上进一步 完善检索系统的分类检索功能和主题检索功能,进而建立分 类标识与主题标识之间的关联。由此可见,在中文数据库检 索系统中实现分类主题一体化检索是可行的。 另外,从情报语言学的角度看,分类法和主题法的基本 原理是一致的,都是运用概念分析手段,逐步对文献内容主 题加以限定,来达到准确标识的目的,不同之处则体现在揭 示事物的角度、体系结构、标记符号、组织方式和主要功能 上,所以将两者结合起来,可以弥补各自的不足,充分发挥两 种语言的优势_3_。因此,在中文数据库检索系统中实现分类 主题一体化检索也是必要的。 数据库开发与研究 4实现中文数据库分类主题一体化检索的方法探讨 分类主题一体化的实质,就是在类名和主题词之间建立 对应关系,形成可相互转换、相互控制的语义网络,用户除了 可以独立进行分类和主题检索并随意转换检索方式外,还能 通过分类和主题的相互限定改变检索范围,达到最佳的检索 效果。对于检索系统而言,理想的分类主题一体化应该能够 实现两者的直接结合,也就是在使用检索词进行检索时,除 了列出相应检索结果的同时,界面上还应当列出相应的分类 检索路径,这样可方便用户根据检索词所处的分类体系进行 扩检和缩检;当用户采用分类途径进行检索时,在检索结果 界面上应当列出该类目所对应的主题词,并能将所对应的主 题词按照词问关系组织起来。一般情况下,要实现检索系统 的分类主题一体化检索需要做好以下三个方面的工作 。 4.1进一步完善中文数据库的分类检索能力 4.1.1构建结构简明的知识分类体系 要实现中文数据库分类主题一体化的检索功能,构建一 个结构简明的知识分类体系是非常重要的。这个分类体系应 该能够涵盖各个知识领域,能够通过对数据库中资源的系统 分类,实现对整个检索系统信息资源的宏观控制。所以在构 建中文数据库的分类结构时一般要考虑到检索系统的目标 用户群,以及检索系统所要提供的信息服务内容。三大中文 数据库已有的中图法分类体系都是以《中图法》的主要类目 为依据构建的,除万方数据知识服务平台未对《中图法》进 行细分外,其他两个数据库的分类导航体系都与《中图法》 基本保持一致。再加上三大中文数据库都是学术型文献信息 检索系统,其收录的信息资源比较规范,学科性较强,而且其 目标用户群大多也是为了获得专业学术信息而进行检索的, 与《中图法》的编制理念一致,所以《中图法》的类目体系对 中文检索系统而言还是比较适用的。 维普资讯网在分类检索方式下提供的《中图法》分类体 系类目设置比较完备,类目展开形式也比较合理,所以可以 考虑将此体系以“中图法导航”的形式引入中国知网系列数 据库、万方数据知识服务平台和维普资讯网的各个检索界面 中,以保障检索系统在实现逐层点击分类检索的同时,实现 分类限定检索的功能。在分类导航类目的展开方式上,仍然 可以借鉴维普资讯网分类检索方式下分类体系的类目展开 方式,让分类号和类目对应起来,同时显示类目的上位类和 同位类,并通过类目前面的折叠符号“田”、“日”和“曰”来 判断类目是否还有下位类,从而帮助用户从整体上把握类目 在整个分类体系中所处的位置。 将《中图法》引入中文数据库时,还要根据中文数据库 检索系统自身的特点和所收录资源的情况,采取相应的调整 新世纪图书馆2012-g% ̄2期 措施优化分类结构。首先,在类目的设置上要详略得当,突出 重点。要本着易用、实用和适用的原则,使类目体系适应并反 映大型数据库检索系统的信息资源特征。详细设置发展充 分、资源丰富的类目,适度简化资源较少的类目。其次,类目 调整时要保证所设置的类目能够覆盖系统收录的所有资源, 使不同类型的文献都能在分类体系找到确切的归类,同时还 要类尽其用,尽量避免设置用处不大的类目。再次,要保证分 类体系的严整性,在调整分类法的类目结构时,可以剔除没 有文献收录的类目,对文献资源涉及的新事物及时设类,并 根据学科的发展情况及时调整类目设置。最后,还可以通过 超链技术的引入,对类目关系及相关资源进行多维揭示,使 文献分类体系与当前的数字化环境结合起来。 4.1.2改进分类号的检索功能 三大中文数据库的分类号检索入口对用户的检索能力 要求过高,因为熟练掌握分类体系,确切知道自己所检索内 容的分类号对用户来说不太现实,所以该检索入口实际上无 法使用。而且在使用分类号检索时,由于系统对检索结果没 有任何提示,所以用户无法了解该类目在分体体系中的位 置,不利于用户进一步调整检索策略。针对这些问题,可以考 虑在数据库中引入基于后控制理念的分类表,来改进分类号 的检索功能,具体内容已有详细说明 l,此处不再赘述。 4.2建立智能化的后控制词表 4.2.1后控词表中词汇的选取问题 建立后控制词表的目的是要实现作者语言与用户检索语 言的控制和转换,转换时可以引入标引语言,即主题词。主题 词是建立分类主题一体化索引的基本要素,也是联结作者语 言和用户语言的重要纽带。在建立后控词表后,可以利用自动 标引系统把作者语言转换为相应的标引语言,同时利用查询 系统将用户语言转换为标引语言,使用户语言与作者语言通 过标引语言达到最佳的匹配,为用户的信息检索提供方便。 在编制中文数据库检索系统的后控词表时,为了保证该 后控制词表能够合理处理检索系统中主题标识之间的关系, 实现主题词与检索词的控制和转换,可以借鉴北京大学硕士 陈旭关于广播电视新闻检索系统中后控词表的处理方法嘲, 在词表中设置-,ee词。一种是用于等级结构显示的标准词, 即主题词;一种是用于检索的标准词的等同词,包括作者语 言、用户语言以及该标准词的所有同义词、近义词等;还有一 种是用于体现相关关系的字面匹配相似词。在这样的后控词 表系统中,标准词起着构建后控词表、在分类主题一体化词 表中与分类类目对应、在文献标引过程中与作者语言联结、 在检索过程中与用户语言联结等作用,与非标准词一样同时 具有入口词和检索词的功能,只是标准词可用于等级显示和 分类检索途径显示,而等同词只用于检索,从检索的角度来 新世纪图书馆2o12年第2期 看,它们的作用是相同的。 在标准词的选词上,主要选择每个中文数据库检索系统 所收录的资源中可以表达一定内容对象的有实际检索意义 的叙词,因为叙词是从自然语言中精选出来的、经过严格处 理的词语,组配功能强,能够准确、专指地揭示各种主题内 容,可以通过灵活组配进行多途径检索,并能够适当控制词 量的增长,另外还便于与分类体系对应。对于检索意义不大, 但能够起到族性检索作用的少数词汇,可以只作为虚设的标 准词,例如:“机构”、“人物”这样的词,它们本身并没有检 索的意义,但是利用它们可以统率数量众多的机构名称和人 名,所以可列为标准词。对于有检索意义但含义过于宽泛的 词,则不收为标准词。例如“我国”、“全国”等词语,在整个 中文数据库中出现的频率非常高,用于检索的话,会检索出 数量非常巨大的文献集合,加重了用户的挑选负担,所以不 列为标准词。 标准词的等同词主要选择一些同义词、近义词以及作者 和用户常用的语言,目的在于方便用户能够根据自己的检索 习惯找到所需要的文献。作者在写文章时所列举的关键词、 用户在检索时所采用的检索策略都可以作为等同词收录时 的借鉴,而且这些资源会随着检索系统文献数量和用户利用 量的增加而动态变化,因此这也是不断完善和丰富后控词表 的重要来源。 4.2.2后控词表在数据库中的实现形式 关于后控词表的具体编制方法,已有不少文献进行了比 较深入的探讨 。 。。,笔者在此主要结合中文数据库的主要特 点和用户的检索需求,对其在中文数据库中具体的实现形式 进行分析 。 在同义控制方面,可将中国知网系列数据库中的扩展按 钮“ ”引入各个中文数据库中,具体显示形式可描述如下: 当用户输入一个检索词,点击扩展按钮“圈”后,使弹出的窗 口中既包含基于同义控制的“同义词”,又包含基于全文语 料库词汇同现率的“交叉相关词”。这种同义词显示方式可 以帮助用户根据自己的需要选择一个或多个同义词实现概 念检索,同时还可以通过交叉相关词的推荐扩展检索思路。 当用户需要进行逻辑组配检索时,可以在为每个检索词选定 同义词或者交叉相关词的基础上进行检索,从而在保障检索 系统查全率的同时提高系统的查准率。 在相关揭示方面,可以充分利用分面分类的思想,在学 科领域词汇集中的基础上,进行字面匹配相关词的揭示,具 体显示形式可描述为:当用户输入一个或多个检索词点击检 索时,系统在输出检索结果的同时,将后控词表中与检索词 具有相同词素的词汇以“当前检索词的相关词”的形式显示 在检索界面上,为用户提供借鉴。因为这些字面匹配相关词 82 数据库开发与研究 是在分类分面的基础上根据中文词汇的字面联系进行控制 的,所以可以有效避免同义词以及与检索词关联不大的词汇。 在等级显示方面,可通过在后控词表的基本分面中建立 分类等级结构来实现,具体显示形式可描述为:当用户输入 检索词进行检索时,系统在列举检索结果的同时,在检索结 果界面上显示包含检索词及其所处分面中的上下位词和同 位词的词表等级树,为用户调整检索策略提供参考。当用户 使用一个检索词检索到的信息较少时,可以考虑使用其上位 词进行扩检;当检索的文献数量过多时,可以利用其下位词 进行缩检。 总体上来讲,当用户不需要实现同义控制时,可输入检 索词直接点击检索;当用户需要实现概念检索时,可在输入 检索词后点击“ ”按钮进行扩展。此时,检索系统会在输出 检索结果的同时,在页面上列出“当前检索词的相关词”以 及关于该检索词的词表等级树。同义控制、相关揭示和等级 显示三种控制方式是一个统一有机的整体,结合起来能够很 好地揭示词汇之间的关联。 4.3构建分类主题一体化索引实现一体化检索 在前两步完成的基础上,要想实现分类主题一体化,就 需要在分类体系和控制词表之间建立系统联系,即建立分类 主题一体化索引将分类语言和主题语言结合起来,使检索系 统既可以使用自然语言直接检索,还可以在分类限定的基础 上进行语词检索,从而实现分类与主题的兼容互换。 分类主题一体化索引的构建过程如下。首先,以经过修 订增补的《中国分类主题词表》作为纽带,将优化改进的中 文数据库分类体系和依据中文数据库资源特点所构建的后 控制词表结合起来,建立一个类名与标准词即主题词对应的 基本框架,使每一类名下都对应一批主题词。其次,通过标准 词与其它具有标引检索价值的等同词的关联,建立标准词与 各种等同词或相关词的对应关系,达到利用标准词控制其它 等同词或相关词的目的。然后,通过标准词的纽带作用,将索 弓1中的类名与各种具有检索价值的关键词对应起来。另外, 中文数据库中所收录的文献资源本身都有关键词和分类号, 可以把关键词和分类号作为建立分类主题索引的有效补充。 这样就能够利用分类主题一体化索引连接整个检索系统的 分类体系和后控词表,实现分类与主题的结合。 在实现了分类主题一体化检索的情况下,当用户在使用 自然语言词汇进行检索时,系统首先会将该检索词在后控词 表中进行检索,找到该检索词所对应的标准词,从而找到该 标准词所对应的其他形式的检索词(包括作者和用户常用 的同义词、近义词形式),并通过扩展按钮列举出来,供用户 选择;与此同时,检索系统会利用标准词在分类主题一体化 索引中检索,在输出检索结果的同时,将该(下转第33页) 业务研究 新世纪图书馆2012年第2期 和方法[J].数字图书馆技术论坛,2008(1):92-94 推送服务[J】_图书情报工作,2010(1):125~129 6宋玉忠.Web抽取技术在数字图书馆中的应用[J].四川图 15欧阳烽.web数据挖掘与高校数字图书馆个性化服务 书馆学报,2009,3(169):46-49 [J].现代情报,2008(1):103-107 7钱强,李英.数据挖掘技术在图书馆读者分析中的应用.图 l6高巨山.数字图书馆构建中的数据挖掘应用研究[J1.图书 书情报工作fJ],2009.6:121~124 馆工作与研究.2009(4):20---21 8 张智刚,郭淑艳.数字图书馆读者信息挖掘系统构架的建 l7徐杰飞.数字图书馆个性化服务研究综述[J].情报探索, 设[J].长春师范学院学报(自然科学版),2010(8):149~151 20l0(6):1 16-1 18 9徐原青.基于读者满意度的数据挖掘在数字图书馆中的 l8马文峰.数字图书馆个性化信息服务的探索[J].图书馆杂 应用[J].图书馆学刊,20O9(7):107~l09 志,2003,(5):30-32 l0潘小枫.数据挖掘技术及其在数字图书馆建设中的运用 19奉国和.新技术思想与数字图书馆发展研究[J].图书与情 [J】.图书馆理论与实践,2006(4):105~106 报.2010(2):6%73 11王艳.数据挖掘在数字图书馆中的应用[J].现代图书情报 20数据挖掘[EB/OL].http://baike.baidu.corn/view/7893.htm# 技术,2002(5):8~10 sub7893.201 1—04.22. 12张英,赵艳君.数字图书馆中多媒体数据挖掘的体系结构 (作者信息:李文阔,辽宁师范大学管理学院硕士研究生,邮 和方法[J].现代情报,2008(1):92-94 编:116029;李永先,辽宁师范大学管理学院教授、研究生导 13李咏梅.数字图书馆个性化信息服务研究[J】.现代情报, 师,邮编:116029。收稿日期:2011-05—30。) 2010(3):51-53 编校:彭 飞 14 熊拥军,陈春颖.基于关联挖掘技术的数字图书馆个性化 (上接第82页)检索词所对应的标准词在分类体系中所处 书馆工作与研究,2003(4):2~7 的上下位类关系显示出来,方便用户根据检索词所处的分类 5 宋乐平冲文数据库分类检索能力研究[J].图书馆学研究, 体系灵活地扩检和缩检。当用户采用分类途径进行检索时, 2010(2):63— 66 有三种情况:一是利用分类导航逐层点击检索,系统会直接 6 陈旭.文本检索系统中的后控词表研究——后控制技术 输出某一分类类目在检索系统中对应的文献资料;二是进行 在广播电视新闻检索系统中的应用[D].北京:北京大学, 分类限定检索,系统会在类目限定的基础上,重复上述使用 2002. 自然语言词汇检索的过程;三是使用分类号进行检索,可利 7金海燕.应用于动态自动聚类的受控词典研究[D】.北京: 用扩展按钮弹出一个窗口,体现出该分类号所对应的类目及 北京大学.2006. 其上下位类的情况,使用户对该类目的情况有个大体了解, 8宋乐平.中文数据库主题检索能力比较研究[J】.图书馆学 然后利用分类号和标准词的对应关系,在输出相应检索结果 研究.2010(6):52 ̄55 的同时,在界面上列出该类目所对应的所有主题词,并将所 9维普资讯网[EB/OL].http:llwww.cqvip.com/2010・09—15. 对应的主题词按照词间关系组织起来,为用户再次检索提供 10中国知网[EB/OL].http:llwww.edu.cnki.neg2010—09—20, 参考依据。这种分类与主题结合的检索方式能够扬长避短, 1 1 万方数据知识服务平台[EB/OL].http://www.wanfang.com. 发挥两种检索方法的优势,提升中文数据库的检索功能,从 cn/2010.10.05. 而为用户带来更大的检索便利。 (作者信息:河北秦皇岛燕山大学图书馆馆员,邮编: 参考文献 066004。收稿日期:201 1-06.15。) 1 吴才唤.网络信息资源组织中的若干矛盾与分类主题一 编校:彭飞 体化思想[J].情报杂志,2005(3):102~104 2李育嫦.网络信息组织中的分类法与主题法[J].情报资料 工作.2004(3):3 1-33 3贺群焱.谈分类主题一体化fJ].理论界,2005(4):l80~181 4王知津,肖洪.网络信息组织对传统信息组织的借鉴 .图 33