相关元数据自动获取方法
图书相关元数据分布于不同的数据库管理系统中,有的系统数据更新频繁,如OPAC书目和随书光盘数据,差不多每天都有新增。有的系统数据很少更新,如购买的电子图书,可能一年才新增一两次,所以对不同的系统元数据集成采用不同的方法。
对OPAC书目数据,一般图书自动化管理系统都提供了Z39.50数据接口,可通过这个接口从系统中及时获取书目元数据,并导入预索引数据仓储。对电子图书元数据的获取,需从电子图书馆数据库中导出元数据,并且在元数据中包含全文的链接方式。一般电子图书数据库系统后台为通用数据库(如SQLServer数据库),通过对其数据结构分析后,可直接获取元数据。对于随书光盘系统,提取的元数据除了基本的字段外也应包含光盘数据的URL下载地址,如目前图书馆常用的汉能、麦达等光盘管理系统,后台数据库均采用SQLServer2000,通过编写程序可实现对其元数据的定期自动获取。
数据的归并、去重和增强
对获取到的各种图书相关资源元数据,由于不同的类型或同一类型的数据存在重复和信息不完整等问题,在进入数据仓储时需要对数据进行格式规范、归并、去重和数据增强。数据格式规范的目的是要做到数据格式的统一,以方便数据的查重,如规范ISBN号、价格、出版时间、语种、版次、主要责任者和其他责任者等。如ISBN号统一为10位和13位两种,出版时间统一为YYYY-MM-DD格式,对主要责任者和其他责任者分别存贮在不同字段中,版次统一为数字格式。数据归并是将不同类型的图书资源合并为一条记录。对同一种图书,如同时存在OPAC书目、电子图书或随书光盘,需合并为一条记录,并提供各对象的链接地址。数据去重是将各种资源中重复的记录删除。
用户体验增强在图书文献资源检索中,用户体验是一种以用户(或读者)为中心,在资源获取过程中读者的心理感受。文献资源发现系统中用户体验的好坏直接关系到资源的利用率和读者的满意度。对图书相关文献获取用户体验方面,可采用Baidu检索模式或WEB2.0技术来增强用户体验,通过以下功能来达到增强用户体验效果:
(1)统一检索与相关度排序:在同一检索界面里同时完成对OPAC图书、电子图书和随书光盘的统一检索,检索结果合并显示并按相关度进行排序。
(2)分面(Facet)功能:通过分面过滤有OPAC书目的图书、有电子全文的图书和有光盘的图书,也可通过分面限定作者、主题、图书分类、馆藏、出版年、语种等。在按图书分类分面时,还可依据图书馆采用的分类体系,系统自动转化为具体分类名称的描述。
(3)全文链接服务:通过全文链接服务迅速定位到馆藏、全文下载和光盘下载。
(4)应用糅合(Mashup):在图书详细信息中,提供与网络上图书封面、网络摘要、网络目次和网络书评等各种资源和服务的混搭,做到无缝集成。
(5)全文检索:检索时能支持中外文分词检索,检索词能实时提示、同音词纠错、相关词提示、热搜词排行和相关文章提示等。
(6)个性化功能:资源发现系统能与图书馆统一认证系统集成,检索返回的结果,读者可以将其保存到电子书架,添加标签、评论,推荐或发送给其它读者,并可保存检索历史。