跨数据库文献检索统一平台的实现
添加时间: 2007-4-11 3:28:21 作者: 系统工程师认证参考 阅读次数:126 来源: http://www.d9soft.com
1.引言
本世纪以来,人类创生的信息量高速增长,据估计,70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种,每年发表的科技论文总数近500万篇,并呈指数式增长,真可谓信息浩如烟海。随着互联网的快速发展,通过 网络 提供服务的以缩微品、声像带、磁盘、光盘等形式记录的非纸信息急剧上升,电子资源日益增多,数据库种类越来越丰富。
如何从这浩如烟海的信息中找出所需信息,就成为信息检索的重任。信息化的多样性、数据库种类的形式不一、平台的差异性这些都对文献检索带来了许多困难。随着国家教育部要求在部分高校开设“文献检索与利用”课程,各高校图书馆数字化 建设 的大力投入、情报单位信息化建设的研究深入,这方面的工作也取得了一定的成绩。但存在的问题也不少,几乎所有的数据库都有自己独特的检索系统,用户每使用一种数据库,都必须重新进入和使用一种不同的检索系统,使人感到不胜其烦。往往又找不到所要的信息。这样用户的使用成本大大增加,降低了用户的积极性。因此,不少用户提出能不能开发一个兼容各种数据库的无所不包的检索和阅读的统一平台。
本文就从文献检索系统的现状进行分析,通过文献检索数据库的种类、数据库类型、用户使用方式等分析,提出系统开发的解决方案及平台实现技术,提出跨数据库文档检索统一平台的实现构思。
2.跨数据库文献检索现状分析
2.1文献检索的数据库种类分析
文献检索按数据实体区分有全文,文摘,索引,主题等;存储方式有数据库,文件系统等;数据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归属上有自建,购买和免费等;数据的内容形式上又有图书、期刊、事实数据等。对用户而言,要查到所需学科的各种资料,在分散的资源中,他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面和检索策略。即使这样,他也很可能遗漏了某些数据库。费时费力但是查全率较低。
按数据发布形式区分有主要有专用服务器/客户端和web发布两种方式。专用服务器/客户端模式主要应用在目前的opac,z39.50,某些光盘数据库系统等方面。互联网的发展使web发布方式成为信息发布的主流方式,也成为跨平台文献检索系统主要面对的处理对象。但是每种产品在用户界面,检索点,检索策略和显示方式上千差万别。同是电子图书,“超星”、“书生”和“apabi”都有各自的检索特点:“超星”的检索点是书名、作者、出版社和出版日期;“书生”多了isbn、丛书名和摘要;“apabi”又多了关键词、全面检索和全文检索等检索点。电子图书如此,那么电子期刊之间、期刊与图书及其它资源间的差异就更显而易见了。这固然给用户带来了不适应感,也缺少标准、统一的功能平台。
2.2数据库类型分析
数据库类型涵盖文献型、事实型和数值型以及全文数据库,数据记录包括论文、期刊、报告、标准、专利、商情等多种类型。按学科资源分类有综合、生物学、电子技术与信息科学、工业技术、农业科学、医药卫生、文史哲、经济、政治与法律、教育与社会科学、生活服务等数据库。例如数据库中国期刊全文数据库、中国重要会议论文全文数据库、中国图书全文数据库。按语种分中文数据库、外文数据库。国内主要综合类标准数据库的有nstl、万方数据。而国外主要综合类标准数据库有perinorm、世界标准服务网。
2.3用户使用方式分析
这方面服务对象主要有系统企事业单位、科研单位、商检质检、技术监督部门、标准的研究人员及其他。其用户包罗万象。
跨数据库文献检索统必须能够为专业用户提供特别的检索服务。系统提供了多种资源定位和查找方式,如通过学科来定位要检索的资源, 按中西方资源名称的首字母浏览, 通过关键词查找资源, 每一资源有简介。用户可按学科、按数据库名称、按文种同时检索多个平台上的信息。用户也可选择单个数据库, 针对某种具体资源进行个性化检索。可检索字段有篇名、作者、issn、文摘、来源; 限制条件有出版时间、排序方式(时间、题名) 。可以查看检索历史。所以,系统要做到灵,满足不同用户不同业务的需求。
现今跨数据库文献检索系统有多种类型,都有各自的特点和适用范围,但是在结构和应用上尚不能达到真正的统一资源整合发布要求,不能准确、快速、完整地提供给用户的信息,如虚假信息、污秽信息、冗余信息等。
3.统一检索平台实现的基本方案
3.1 通过数据库中间件与不同的数据库连接
本方式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据库的独立访问请求,通过标准(odbc、ole、jdbc和ado.net)或非标准的数据访问接口(api)对原始数据库进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。
这种方式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据库的原文发布服务;但应用局限于原始数据库必须提供访问接口,而且由于各数据库的速度问题而影响到用户得到结果的时间。另外中间件的开发和获取各数据库后的数据整合策略和技术需要合理规划。
3.2 运用元搜索引擎的基本 原理
元数据整合方式是目前应用较多的跨平台系统。元搜索引擎主要运用于网页信息搜索,而现有各种电子资源数据库都提供相应的客户端接口,因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。
元搜索引擎是通过对多个全文数据库按一定标准(如dc)进行标引后,组成一个元数据集,通常用数据库方式储存。通过一个发布系统(web服务器)与客户端进行交互。用户看到的是一个集成后的多数据库查询系统,得到的是对原始数据的描述信息。通过一个特定连接,用户可以直接从原始数据库中得到原文数据。
3.3 不同数据库间的格式转换。
即将各种异构数据库的部分数据导入一个数据库系统中。其优点:一是检索反应速度快。二是不会因个别数据库访问失败而影响整体检索效率。其缺点:一是收录的数据库数量不能太多。基于这种模式的技术,只能实现对有限数据库的集中和检索。二是涉及版权问题。要将商业数据库的数据导入生产一个新的集成数据库并提供服务,需获得源数据库供应商的授权,否则,可能引起版权的纠纷。
4.系统平台的统一实现
4.1 利用webservice服务实现跨数据库的检索
webservice是dcom/corba等分布式计算体系的发展,其使用基于xml的soap协议作为平台无关的通讯机制,通过uddi进行定位。
webservice的输入输出均是标准xml格式的数据,这就为异构数据库检索结果的处理提供了方便,可对返回的数据进行排序、去重处理、提供统一格式的检索结果等。
webservice具有强大的二次开发能力。现在 微软 、ibm都提供了完善的webservice开发系统。可以方便的开发自有特色数据库的webservice接口。而且只要对相应的webservice进行简单的引用就可以根据自己需求自行设计跨数据库库检索系统。这一点是现有的跨数据库库检索系统都无可比拟的。
完善的信息源标识功能。由于数据源很多,跨数据库库检索系统一次只能向有限个数据源提交检索请求,在数据库较多的情况下,不能全由使用者行选择数据库,这样就涉及数据库检索服务的自动选择问题。解决此问题需对各个搜索服务进行必要的描述,以方便检索程序对其进行选择操作。当前webservice主要通过uddi进行标识。uddi提供标准化的、透明的、专门描述web服务的机制,具有发布各种web服务描述信息的能力。利用uddi为标识检索服务提供了一种行之有效的方法,检索系统可以根据uddi信息有效地选择数据源。现有的跨库检索系统则基本都要求使用者自行选择数据库。
webservice提供了解决跨库检索问题的基本框架,但只有各个数据库提供者提供符合统一标准的信息检索服务,才能实现跨库检索功能。为此,我们分析了现有的多种数据库及一些元数据标准,提出了一个标准的检索服务框架,主要定义了搜索服务的输入输出标准及出错处理机制。各个数据库均可据此框架发布标准的webservice检索服务。标准检索服务框架和openurl及http、openurl的关系如图1所示。

图1 标准检索服务框架和openurl及http、openurl的关系图
我们结合一些现有的实现异构检索的方法提出了图1 所示的系统平台实用性方案。其基本 思想 为1 将现有的一些数据库检索方法转换为标准的检索服务。例如目前大多数据库仅提供web客户端检索,可以通过简单的数据转换将其封装成一种web服务。而对于本地自有的一些数据库则利用odbc等接口编制标准检索服务;2 各个检索服务的描述信息(uddi)由我们自行定制并保存在本地服务器上,以供检索时使用。同时对于以后购买的数据库,原则上要求其提供标准的检索服务及其标识信息。

图 2 异构数据库统一检索系统
图2中数据接口 管理 模块负责与uddi库及各个数据源的通讯,执行数据库的选择操作,并将查询请求传送到不同的检索服务;信息处理程序则对返回的数据进行排序、去重等处理;用户接口管理模块接受用户的查询请求并发送统一格式的检索结果,并且负责身份认证等工作。
4.2 统一平台跨数据库检索系统开发所用的技术
统一平台要通过web页面提供 网络 用户服务。目前开发所采用的技术主要是 微软 的asp 技术、asp.net、jsp 技术和j2ee。asp 一般使用 java script 或vbscript语言,jsp 是一种规范,理论上可以使用任何语言,一般使用的是java 语言,两者都可以用来开发动态网页。都是以<> 作为标记符,嵌在html 中。两者都可以使用组件,asp 使用的是com ,jsp 使用的是javabean ;两者都提供一些内建对象,如application ,request 和response 等。
asp 技术与jsp 技术的主要区别:两者工作 原理 不同,asp页面每次请求都要由服务器重新解释执行,而jsp 只是在第一次请求时被编译转化为java 字节码,其后一直驻留在服务器内存,所以jsp 在速度上比asp 要快一些;asp 通过ado 技术可以访问任何支持ole db 和odbc 的数据库,jsp 通过jdbc 实现对后台数据库的访问;asp 技术主要使用在微软的系统平台上,jsp 可以运行于大多数流行的操作系统平台和web 服务器。
asp.net 是microsoft.net 技术框架的一部分,它不是对asp 技术的简单改进,与asp 技术相比它具有多语言支持、平台独立性和可移植性、高效性、分离代码和html 模板、丰富的服务器控件、简化的服务器配置和实施等优点。
j2ee 是一个平台,它是为开发 企业 多层分布式应用提供服务器端和客户端支持而设计的。j2ee 又是一个标准,它主要包括j2ee 规范、ejb 规范、servlet 规范和jsp 规范。jsp 在j2ee里是用在表示逻辑层。
4.3 访问控制和身份验证
访问控制是为了限制访问主体(或称为发起者,是一个主动的实体,如用户、进程、服务等) 对访问客体(需要保护的资源) 的访问权限,从而使计算机系统在合法范围内使用;访问控制机制决定用户及代表一定用户利益的程序能做什么及做到什么程度。
由于文献中的数字资源都是花费了大量的 人力 和物力自己 建设 或者购买得到的,再加上知识产权的保护,所以一般都是只对一定范围的用户开放。我们可以采用基于ip 限制的访问控制,或者基于通过ip 或用户名加密码来验证。
4.4 系统集成的种类和数量
目前文献数据库收藏的数字资源主要有书目信息、电子书、电子期刊、学位论文、音频、图形、图像和视频等。电子期刊是数字图书馆中数量和种类最多的资源,所以统一检索系统对电子期刊的支持力度也最大。目前市场上的统一检索系统在支持的资源种类上仍有很多欠缺。我们应该尽可能地提供更多的种类和数量。
4.5 系统的参数设置
系统参数设置一般包括检索条件、检索范围、每页显示记录数、排序方式和最大检索时间。检索条件包括字段选择和检索方式,可供检索的字段主要有题名、作者、出版社、关键词、刊物名、摘要、全文、学科等,检索方式是指简单检索还是复杂检索。简单检索就只是按一个字段检索;复杂检索一般可以同时设置三个字段,字段间可进行and、or 和not 运算。检索范围是指选择数据库或数据源;排序方式是指检索结果按什么顺序显示,一般可选择时间、相关度、作者等。最大检索时间由于网络堵塞或数据源关闭等原因经常会造成检索不能完成,通过设置此参数,可防止系统一直处于连接数据库或数据源状态。
4.6 用户界面
一个设计优良的界面不但可以大大提高用户的检索效率,而且还可以减轻服务器端的负载。一个优秀的系统至少包括一个主界面和一个帮助界面,通过主界面可完成检索范围和检索参数的设置;也可以包含有中文检索界面、西文检索界面、学科列表、登陆用户信息、系统介绍和帮助。同时系统应该提供良好的提示信息,如当鼠标放在数据库名字上面,就应该同时显示数据库的有关信息。
4.7 显示结果
检索结果页面一般都包括三部分:一个是被检索数据库的检索状态,一个是显示记录的表格,还有其他检索信息。
5.平台意思
跨数据库文献检索统一平台的实现提高了数据库文献的使用效率,为用户提供统一的检索功能。对文献信息资源进行十分有用的检索研究,促进了信息化 建设 ,提高了文献资源整体化建设目标的实际运作能力,资源的充分开发及利用能力,并且大大扩展了电子资源检索效率,可为学科导航或虚拟咨询建设等提供完善的数据保障。最终受益于广大用户。
上一篇文章: 数据库原理各章节简答题总结 下一篇文章: 小议数据库主键选取策略
相关文章:
相关软件:

