 |
数字方志建设与思考
发布时间: 2009-6-11 11:24:29 作者:王荟 |
|
| “数字方志”项目是采用数字图书馆的模式整理、加工地方志(旧志)资源的古籍数字化项目。不同于以往影像或全文为核心的古籍数字化项目,它是一个知识网络,核心在于依据统一的标准对方志内容进行深度挖掘与整合,强调重组后的信息资源的有序化和关联性,而非简单地改变方志的载体形态。“数字方志”的建设为古籍数字化开辟了一条崭新的道路,丰富了中国数字图书馆建设的实践。
一、地方志文献特征
地方志文献具有鲜明的地域性、资料性、综合性和延续性特征。包罗万象的内容和新、旧志书之间从形式到内容的继承关系又使它有别于其他地方性文献。地方志记载一个地区自然、社会、人文的历史和现状的各个方面。从天文地理、名胜古迹、物产资源、民族宗教、方言俗语、金石碑刻到政治经济、科学文化、典章制度、著名人物、重大事件等等,只要在当地有影响的人、事、物,统统属于它的记述范围。同时由于社会发展,地方的情况不断变化更新,使这种更新,不是另起炉灶,新编志书与旧志之间从内容到形式都存在继承关系。他们纵向揭示历史演变的连续性,横向反映各个门目的联系性。每一部地方志都以记述最近一段时间本地区的情况为主,同时又将前次修志的重要成果予以继承,并更正前次修志的错误。这样,地方志除了具有上述特征外,它在涵盖的地域和记述的内容上还具有交叉性,另外,地方志在其几百年的流传、收藏过程中,又形成了许多新的知识信息(例如批注、序、跋等),地方志的上述特点决定了每种地方志内容既自成体系,又彼此关联。
为了充分揭示地方志地域性、综合性、资料性、连续性、交叉性,数字方志设计的总体思路是遵循数字图书馆的建设要求,以地方志文献提供为基础,实现知识提供与文献提供相结合。
二、数字方志的总体结构
数字方志采用什么样的结构模式,是建设之初首先遇到的问题。我们一改传统的文献开发是围绕确定的题目组织文献的观念,将数字方志资源库定位于将方志的内容部分或全部迁移到资源库内,再进行合理的组织。
传统图书馆的理论与方法辅以计算机和网络技术,使得图书馆的文献提供能力和水平已经有了很大的提高,数字方志应充分利用现有的技术优势,同时开拓创新,尝试以知识提供为目标,建设数字方志。基于以上思考,数字方志由文献提供和知识提供两部分组成,文献提供部分由影像库、全文库和书目库组成,在影像库用户可以阅读志书原文,进行版本校勘等,在全文库用户可以进行全文检索,而在书目库由于标引到篇目,因此可以实现书目和篇目检索。影像库、全文库、书目库和书目检索、全文检索最大限度地实现文献提供。同时,为了多角度地对地方志中包含的信息进行重新组织,将资源库内的数据作为基础知识单元,通过数据之间的相互链接构成多维的知识网络。我们根据地方志的特点和对用户群体的调研,抽取了地方志中的基础信息,如人、事、物,设计了人物资源库、事件资源库、地名资源库、景观资源库、文献资源库、插图资源库、民俗资源库、物产资源库共8个专题资源库。
从可实现性考虑,文献提供部分(包括影像库、全文库、书目库和书目检索、全文检索)建设周期较短,实现难度较小,有大量的标准和案例可供参考借鉴;而知识提供部分(包括8个专题资源库和资源库检索、语义网络、智能检索)建设周期长,实现难度大,缺少可供参考借鉴的标准和案例,需要较长时间的摸索。同时考虑到知识提供必须以文献提供为基础,而文献提供也必将向知识提供方向转化。因此,数字方志建设也是分步实施的。首期要完成影像库、全文库、书目库和书目检索、全文检索,实现文献提供;在此基础上,积累经验,制定标准,进行专题资源库建设,最终实现知识提供的目的。
(一)影像库建设数字方志资源库的第一步是建设好数字方志影像库。影像是运用计算机保持与反映古籍原貌的最佳方式,同时也是制作全文文本库的基础和专题资源库的重要知识源。我们从国家图书馆分馆所藏的1949年前纂修约6000多种线装古旧地方志书中精选了跨越明、清、民国3代,覆盖全国14个省市的2864种各类志书,选取图像分辨率为300dpiI,图像模式为RGB模式(24位真彩),对所选志书逐页进行全文扫描。分别选择TIFF格式用于保存,JP2格式用于网络传输。为保护知识产权,我们还利用水印技术,对数字化后的影像进行了处理。为了方便用户阅读,我们本着准确、客观、实用的总原则,编制了包括志书的书名、卷册名和篇目名的三级目录,用户可以通过目录的指引,直接翻检到所需卷册或篇目。在影像库用户除了阅读原书,还可以做多幅影像的比较即版本较勘。
(二)全文库通过人工录入或OCR(Optical Character Recognition)将全文影像库中的志书影像转换成文本存人计算机,再配合相应的检索引擎实现全文检索。由于旧志书内容包罗万象,无法进行OCR识别,所以,数字方志全文转换采用的是人工录入的方法。在全文转换过程中,虽然可以在一定程度上进行文字规范,但是对于志书中出现的人名、地名、乐谱、图例,金石和方言用字,GBK或GBl8030--2000无法满足要求。因此,数字方志采用ISO/IEC 10646—1:2000(Unicode 3.0),支持7.1万汉字,并按认同标准在不造成原文歧义的情况下,对部分集外字进行了认同规范,对出现在人名、地名、金石、方言等集外字或暂时无法确认字意的集外字,都做自造汉字(占用自定义码位)处理,无法识别的字用“口”代替。地方志在其长期的流传过程中,形成了版本类型多样、版式情况复杂(包括各种不规则表格、图文混排等)的特点,各种删改、批注、点校也很难处理。数字方志采用有限版式还原,尽可能保持原有版式。
(三)专题资源库的建库原则是以原书内容为基础,按照元数据标准进行规范化处理,多角度、多途径地丰富、补充、扩展原书内容,将原来分散或不完整的方志信息集合起来,形成地方志知识网络。专题资源库彼此相连,并且都与影像库和全文库相链接。专题资源库的检索条件可以单独使用,也可以多个检索条件组配,进行复合检索。在专题资源库,用户根据需要,从一个知识点人手检索,就可以方便、快捷地跳转到影像库、全文库或不同的专题资源库,检索到与人口知识点相关的各种信息,从而为用户节省大量的精力和时间。随着资源库内数据的累积,数据间链接的增加,整个知识空间也将不断扩大,知识提供的能力会逐步增加。
三、数字方志的资源组织结构
从资源组织的角度观察,志书本身可以看作是一个实体容器,地方志的资源信息就是这个容器的内容。而这个内容的组织不是无序的,是志书编纂者依据志书的组织结构(体例)精心组织在一起,它的基础单元是志书的篇目。如果从知识提供的角度观察,将数字方志资源库或某一个专题资源库也视为一个概念容器,它的基础单元又是什么?或者说资源库内每条数据的内容是什么呢?
传统的文献开发是围绕确定的题目组织文献,而我们既然将数字方志资源库定位于将方志的内容部分或全部迁移到资源库内,再进行合理的组织,那么,基础单元的选择就显得尤为重要。该资源库不宜太大,也不能太小。如果资源库设计的可以容纳多类资源,其库结构就一定要有良好的通用性,适应各类资源,这样的库结构要么相当庞大,对每类资源只有部分适用,无法体现每类资源的特性。如果资源库设计太小,只能容纳很小一类,必然导致资源库数量的膨胀,势必产生大量的库与库之间的链接,使得检索效率下降,带来严重的‘‘迷路问题”,另一方面也会加大资源设计的难度和复杂性,增加不必要的建设成本。根据地方志资源的特点,它所有的内容都围绕地、人、事、物展开,因此,我们初步选择了人物、事件、地名、景观、文献、插图、民俗、物产作为8类基础单元,组成专题资源库。
例如:在方志中查找与旅游资源开发相关的信息,可以以景观库数据为核心,与相关的人物、事件、文献、插图、民俗、物产库数据相结合,就能够较为全面地反映旅游资源的全貌,以及与之相关的信息。再比如方志中的艺文志是专门记载本地区历代的有影响、有价值的著作、文章的年代、作者、卷目和内容提要,记载金石的年代、作者、文字、形状,也有专门编辑诗文的,它在地方志中是一个专门的门类,但在数字方志资源库中,艺文志中的信息资源将按其所属的基础单元分别归人书目库、人物库、文献库、景观库等专题资源库。
理想的资源库的结构还应体现资源的多方面属性,依据资源库的一个或几个字段可以向下划分为多个库,因为这些资源库是动态生成的,并没有实体的库存在,称之为虚拟库。这些虚拟库能够再依据等于中规则进行组合生成新的虚拟库。例如,需要得到法律虚拟库,首先从人物库、事件库、文献库分别依据关键词向下划分得到法律人物虚拟库、法律事件虚拟库、法律文献虚拟库,再将这三个虚拟库进行组合,得到法律虚拟库,对用户而言,依据他们的要求生成的虚拟库才是他们真正需要的,即用户自定义(自定制)资源库。同时,如果这些虚拟库是有一定价值或能够多次复用,只要记录其生成规则就能够再次获得,能够很好地支持虚拟参考咨询,而且会随着资源库的完善而同步更新。
四、数字方志的资源库结构
资源库的库结构设计既要体现资源的多方面属性,又要考虑资源库的加工效率与可实现性。从资源和数据管理的角度考虑,库结构包括以下5类字段:
基础字段:记录的是被著录资源客观的、原始的特征,其著录的内容是被著录对象的自然属性,既没有打上流传领域的烙印,也不掺杂著录者的主观判断和评价。基础字段是结构化数据,包括字符、日期、数值等,具有有限长度或固定格式。
分类字段:是著录者依据一定标准,对被著录资源内容的学科属性或其它特征进行的分门别类的揭示。该类字段由分类号和非控主题词组成。
描述字段:包括两个方面,一种是客观描述,是对基础字段结构化数据内容的补< |
|
 |
|
相关新闻 |
|
 |
|
|
|
 |
|
|