随着互联网技术的发展,数字图书馆建设也取得了长足发展,建立支持多种格式的数字对象的数字仓储成为当今图书馆界的一大课题。国外的一些科研机构基于METS示准、MODS示准建立了一些针对某一类格式的数字tlAchre这些数字仓储仅针对文本、图像、音视频等一类数字对象提供服务,并且不能够为其他数字仓储所收割,具有一定的局限性。
笔者在研究开源项目Reat的基础上,提出基于Reat工具包构建以存储iftifjeg格式为主的数字对象仓储,提供数字对象浏览、检索服务,以及作为本地数据仓储数据源通过资源整合格式转化导入中心数据仓储,可以被OA服务提供方收割。
ResCarta是由Resarta公司开发,基于ReCara示准,能够解决METS文档创建、管理、查看、全文检索开放源码的项目。RS>na目前可以处理FDF含图像)PDF(含图像和文本)TFFPEG格式的文件,其发展前景则是支持音视频等多媒体类型文件。ResCat工具包主要由元数据生成器(MetadataCetcnTO)数据格式转换器(DaaCovesinT 1)、元数据文本编辑器(TexualMetadataEdO)、集合分类管理器(CllecticnsMnge)、索引生成器(Indexe)且成。
储,基于METS架构,采用MODS乍为描述性元数据,支持对PDF文档、TF/PEG图像存储,是一种新型的加工标引方式。采用Resat加工数字对象和建立数字对象仓储具有以下的优点:使用ReCra数据格式转换器对对象文件加工标引时,可以将对象文件的部分字段(如标题、作者)自动带入,实现部分自动标引的功能。
吏用R*a数据格式转换器对对象文件进行格式转换过程中,同时生成符合MET际准的XML文档,为同时收割对象数据提供了可能。
(3通过ReCra文档编辑器可以对对象文件的局部进行标引,精确自动定位,实现全文检索。
整个加工标引的过程都是可视化的,便于操作。
ReCr项目开放源代码,Rem标准支持包括音视频在内的多媒体文件格式具有很好的可扩展性。
2ReCara数字仓储的建立流程如所示。
将本地的源文件(包括PDFTFFPEG)通过ReCra元数据生成器生成其元数据信息metadatax,l利用ReCat数据格式转换器进行转换并存入本地ReOt数字仓储。ReCar数字仓储中的文件,通过Ret元数据生成器修改其元数据信息,利用ReCar元数据文本编辑器对文本局部关键字进行编辑。通过Resar集合分类管理器为数字仓储中的文件添加集合分类,并利用Rsat索引生成器创建Resar集合的Luen索引。
21元数据生成器文件的Metadr文件。ReCra准规定了对于单篇专1描述必需的数据字段,包括标题(Til)卷号(Volume仅用于描述连载期刊、书目)、(Abrc)RS>na元数据生成器提供了按文件、按目录两种元数据生成方式。按文件生成:对于当前目录下,每篇文件都是一个单独的文件,可以单独进行编目,生成其元数据,主要用于对多页PDF图像的处理;按目录生成:即当前目录下,所有文件作为一个对象整体,对其进行编目,生成相关的元数据,多用于电子扫描的书籍、出版物。
Res>r元数据生成器为用户加工源文件提供了一个可视化的界面,不仅可以通过界面进行录入编目,而且支持对象文件在同一界面以分页形式显示,对对象文件进行编辑、修改。
22数据格式转换器Rsat数据格式转换器是Recat工具包的核心,所有源对象数据必须经过数据格式转换才可以进行文本编辑、建立集合分类、建立索引、Wb发布。
Rsat数据格式转换器可以将TFFPEGFDF含图像汲PDF(含图像和文本)格式的文件转换为Recat标准规定的数据存储格式。转换格式后,每个文件将按照路径单独生成一个文件夹,由元数据meadaam和对象文件以TFF格式存储。
Rsat标准规定了Recat数据存储结构分为三层。在RCDAT01数字仓储中,顶层为仓储机构标识符(nttinIdentifier)、聚类(Aggregator)、文件标识符(RotIdentife)'例如,本地仓储机构标识符为bPdlb聚类为EBk01文件标识符为如所示:建立本地Resat数字仓储,规定本地仓储机构标识符为btif聚类为8位编码,前3― 5位为集合类别,包括E1DjNAtmgeEbo四个集合,后几位为序列号;文件标识符为8位序列号,从00000001开始递增。
Rsat数据格式转换器同样提供了按文件、按目录两种转换的方式,与Recat元数据生成器标引方式对应。按文件转换:即在进行转换时,需要先创建该文件的元数据Meadaa言息,然后再进行转换;按目录转换:即将需要转换的文件单独存储于一个目录下,而该文件的元数据Meadaa言息已经由ReCata元数据生成器生成,直接在该目录下读取meaaam就可以获得。
如所示,Resat数据格式转换器管理界面清晰、简单,按来源类型区别,提供了包括单篇专著刊(Sell)三种资源类型的模板,转换完毕自动生成目标文件,同时在目标文件中可以通过选择自动提取题名、作者等信息,在转换过程中显示监控信息。
ReCat数据格式转换器管理页面23元数据文本编辑器使用Resat的元数据文本编辑器可以添加、修改或删除检索(检索存储于TFF图像文件中)。未经OR光学字符识别)扫描文件的文本数据需要进行文本编辑,否则不能进行定位检索。还可以根据需要增加,或根据OCR的扫描编辑现有的文本数据。
通过光学字符识别过的原始文本将写入到TFF标签中(Tg=5688(1638))。其位置数据是经过坐标界定的一串数值。以图像左下角为原点,xy的直为单位像素(72PP分辨率)。每个词的位置由其左上角坐标p(xy)和右下角坐标p(xy)**确定。
Recat的元数据文本编辑器提供了按页进行编辑的方式,即对文件的每一页分别进行文本编辑,保存后的文本内容(包括关键字、坐标序列值、字体、字号)都以Ta的方式存于TFF文件中。
24集合分类管理器和索引生成器Recat集合分类管理器用来对文件进行分类管理,可以添加或删除集合,在集合中添加、删除Rescat仓储中的文件,修改文件的元数据信息。
利用Recat集合分类管理器编辑完成后,Rescra仓储中所有对象的元数据信息及其所属分类将保存在meadaaxml文件中,位于该文件的RCDA- Recatt据存储结构示意图TA)1根目录下。meadtm文件符合METS示准规范。该metadataxm包含METS头标、描述性元数据、结构图三个部分。MET头标描述METS文件本身的元数据创建者、编辑者信息。描述性元数据部分包含了每个分类下的文件元数据信息。结构图表明了仓储的层次结构,链接了内容文件的结构元素和属于每个元素的元数据。
用于存储提交的学位论文对象数据;NAtfc合用于存储本地的期刊资源;mage集合用于存储本地生成的图像文件;Ebool集合用于存储本地的电子书籍资源。
ReCat索引生成器用于创建ReCat集合的Luen嗦引。若改动ReCat集合的内容,即修改了CollecOi的mtadt皿文件信息,则需要建立新的索引,以便能够准确地进行Luen检索。
3ReCait数字仓储与数字图书馆系统的服务集成笔者利用ReCat工具包,设计了数字仓储的应用服务方式,如所示:象发布到互联网上,用户可以通过互联网浏览文件的元数据信息、查看对象文件、进行全文检索。
件转换格式,将原来的以MODS描述元数据转换为以DC描述元数据的XMI格式,发布到0A:数据提供方,供中心或远端A服务提供方通过OAPIMH方式进行元数据收割。中心或远端OA服务提供方收割到元数据信息后经过解析,可以以链接的方式访问本地MET数据提供方,查看其需要的对象文件。
31本地发布的we服务rsat数字仓储we服务主要分为:标题浏览和简单检索。标题浏览页面以集合分类的方式浏览本地数字仓储中的所有文件。“点击查看元数据”“点击查看全文”可以分别对该文件的元数据信息和全文进行浏览。点击标题则进入全文查看页面,查看对象文件的图简单检索通过集合过滤条件,在全部或者指定集合内,对指定的关键字进行检索,检索结果显示在结果浏览页面。为对指定关键字“数字图书馆”进行检索所返回的结果页面。
Retweb简单检索及返回结果点击文章标题,进入全文浏览界面,工具栏中包含放大、缩小、旋转、翻页、打印等功能,可以对对象文件的每一页进行操作,并可以在全文中进行关键字检索。
如所示,对该文进行以“高级检索”为关键字的全文检索,返回检索结果页*0007*、“0047*并以高亮部分突出。
32与OA:元数据收割系统的集成服务通过批处理脚本将ReCat据库中集合的medtm文件转换格式,生成以DO描述元数据的片,进行全文检索。标题浏览界面如所示:XMI格式,发布到本地OA数据中心仓储。
在进行metadtxm文件DC格式转换前,需要先配置本地数据提供方信息,包括发布的Web应用网址(west)、查看动词(seweweb)0八元数据数据提供方的动词(oaVeb)、网址(aisite)、路径(oaibase)。本地数据提供方配置信息如下所示:编写Pr脚本语言,依据MOS与DC的映射关系,将Collection的meadaaxn以本地A数据提供方所支持的DC描述格式重新输出,命名格式为:仓储下ET集合中编号为00000001的文件其DC格后以OAIDC格式描述的元数据信息如下所示: 在利用ReCra工具包开发数字仓储的过程中,笔者深刻感受到应重视对开源软件的利用,利用开源软件可以节省软件的开发成本,提高效率。同时开源软件也存在本地化和再开发的问题,如在利用ResC>t元数据文本编辑器时,OCR对中文的识别功能还有待加强。目前,对Ret工具包的研究尚处于初级阶段,随着研究的进一步深入,基于Ret建立数字仓储也将日趋实用化。
网页评论共有0条评论