一方面,资源的异构性使得读者对这些资源的获取需要分别进入各个资源检索系统。如能为这些资源系统提供统一的检索途径,读者输入检索词后,检索到的OPAC书目、电子图书和随书光盘等信息在同一个界面上返回给读者,这将极大的方便读者获取图书相关资源,使得读者不必进入各自的系统进行检索,而快速地获得信息。另一方面,资源信息的分散性使得各个独立的图书资源服务系统信息不全,单个的资源系统并不能充分地揭示图书信息。当读者检索到某个数据库系统中的信息后,并不知道其它资源系统中是否存在相关的信息。
分散异构的图书相关资源的发现和获取问题,已成为网络时代图书馆文献资源服务的一大障碍。近年来,资源发现与获取已成为数字图书馆发展的热点之一,在2010年教育部高校图工委信息技术应用年会上,有学者提出资源发现系统是资源整合的高级阶段。
目前已有的几种发现系统如ExLibris的Primo,OCLC的FirstSearch,然而其主要是针对外文学术资源的发现与获取,针对中文文献资源的发现与获取产品还未成熟。本研究基于预索引元数据仓储,对图书馆图书相关系统的数据进行全面收割和重新索引,将OPAC书目、电子图书、随书光盘数据无缝融合在一起,并从网络中获取信息来丰富这些数据,实现图书相关文献的资源发现与获取。
发现与获取系统实现的目标图书相关资源发现系统采用基于预索引元数据仓储模式,把资源对象的元数据自动收割到本地仓储中,进行归并和查重处理后,在统一平台中发布并为读者提供快速、简洁和易用的资源服务。
其目标是要使得读者在统一的环境下,不但能快速地发现资源,并能方便地获取到资源。在图书相关资源统一发现方面,能涵盖图书馆的所有馆藏图书,包括本馆的OPAC书目、电子图书和随书光盘,以及图书馆订购或通过其它方式拥有使用权限的远程图书资源。对本地的数字资源的元数据通过收割程序定期自动收割到发现系统中,并进行统一的规范化、去重和归并处理,建立全文索引。
对于订购或有使用权限的远程资源,则通过第三方API接口收割相关信息。在图书相关资源统一获取方面,对于本馆物理馆藏,系统提供实时馆藏状态查询,可以具体到单册的状态。对于本馆数字资产(如本馆电子图书和随书光盘),系统根据来源数据库的不同,分别提供不同的在线查看全文或详细信息0的链接。对于远程资源(如Google电子图书、Douban书评等),系统提供全文阅读的链接或在检索结果详细页中嵌入对方的书评等信息。
基于预索引元数据仓储的图书相关资源
发现系统架构基于预索引元数据仓储的图书相关资源发现系统架构,系统揭示图书馆的书目数据、常用的电子图书数据库和随书光盘信息,以及Google、Douban等网上图书相关信息,其元数据通过数据同步网关定期自动收割到预索引数据仓储,收割到仓储中的数据同时进行自动归并、去重和增强操作。在预索引数据仓储中的数据对外提供全文检索服务,实现从图书资源发现到资源获取的真正一站式查询。对于查询结果的图书详细信息,除了提供全文链接、光盘下载地址和馆藏信息外,还嵌入其它网站的图书封面、目录、书评等信息。读者的检索信息以日志的形式进行保存,供统计分析和挖掘。
预索引元数据仓储数据结构
预索引元数据仓储主要实现对OPAC书目、电子图书和随书光盘元数据的集成管理,包括对其进行预索引,供前端读者对图书相关资源的快速获取。它包含了DC的15个基础核心元数据信息,在全文链接元素组合中体现了资源所包含的类型、来源和相关性。