 |
中国地方志(旧方志)资源库的设计与展望
发布时间: 2009-6-17 10:52:16 作者: |
|
| 对于资源库技术的设计和展望,我们应该着手去逐步实现。
根据方志内容特点和用户需求,方志资源库设计成由一个全文影像库,一个OCR数据库和八个专题子库组成。
用户既可通过全文检索进入全文影像库或OCR库,也可通过“跨库检索”、“字段联接”和“词语置标标引”等方式进入各个专题子库,再通过8个专题子库跨库进入全文影像库或OCR库,该方法实现了不同专题库中的字段及字段中的内容的链接。
1 全文影像库:就是将国图分馆所藏的1949年前编纂刊行约6000余种地方志书进行全文扫描,即志书的数字化处理,全文影像库并没有改变原有的信息组织,它只是对纸制志书的载体形式进行了一次平面转移,即将纸制旧志通过扫描处理,变成可在网上阅读的电子书。在全文影像库用户除了阅读原书,还可以做多幅影像的比较即版本校勘。(最多4幅图像同时显示)。
2 OCR数据库:OCR是英文Optical Character Recognition 的缩写。意为“光学字符识别”,也可简称为文字识别。通俗地说就是计算机认字,是一种文字自动输入方法。它的作用是将全文影像库中的志书影像转换成文本格式再进行切词标引,按设计要求规定标引到志书中的“标目”。在OCR数据库中,用户不但可以阅读到旧志的原文,还可以对志书进行全文检索,也可进行精确到“标目”的词组检索。同时用户还可以根据需要进行个性化处理,例如添加标记、注释,选择自己需要的内容进行编辑、复制,对文本形式的不同版本的影像进行多屏幕比较研究等。
以上两个库内容的外延都没有超出志书提供的内容。而只是将原书载体形式做了转换,以电子图书的形式显现。
3 八个专题子库:八个子库的建库原则是以原书为基础,按照元数据标准进行规范化处理,多角度、多途径地丰富、补充、扩展原书内容,将原来分散或不完整的方志信息集合起来,形成地方志知识网络。八个专题资源库彼此相连,并且都与全文影像库和OCR库相连接,专题资源库的检索条件可以单独使用,也可以两个检索条件组配,进行复合检索。在专题资源库,用户根据需要,从一个知识点入手检索,就可以方便、快捷地跳转到全文影像库、OCR库或不同的专题资源库,检索到与入口知识点相关的各种信息,从而为用户节省大量的精力和时间,最大限度地为用户提供个性化的服务。
(1)地名资源库
地名资源库的建设分为两步:首先建立志书名称中涉及到的方志地名资源库,其次再逐步扩大地名收录范围,建成为更大规模的中国地名资源库。地名库中的规范地名是依据2002年国家行政区划表及有关规则进行规范处理后的地名。客观地名是规范地名以外该地历史上通行或常用的地名。地名异名包括客观地名的又名、别名、俗称、简称等。规范地名与客观地名相互参见。用户可根据需要选择入口词。该库的基本内容包括:规范地名、客观地名、规范地名的异名、地名隶属关系、地名沿用时间(朝代)、地名简介(沿革、变迁情况)、地名文化(相关人物、事件、景点和插图名称等)、周边地名、所辖地名、影像原文和OCR原文等。以苏州为例,商代末年始建吴国。秦统一中国后,在此地置吴县,后或称吴郡,或称吴州,到隋代始称苏州;宋代升为平江府,元代治平江路,明代改为苏州府。清代沿袭明制,并将苏州府城定为江苏省治。依据地名规范原则,此条地名数据的规范地名选“苏州”,行政区划单位是“市”客观地名是“苏州、吴县、平江、平江”,但行政区划单位分别是“府、县、府、路”规范地名“苏州市”与客观地名“苏州府、吴县、平江府、平江路”之间具有相互参见关系,规范地名的异名为吴郡、吴州,它们与规范地名“苏州”之间是单纯参见关系,当用户以“吴郡”、或“吴州”做入口词,检索“苏州”时,机器会自动指引到规范地名“苏州”条目下,检索到它的相关信息。
(2)人物资源库
凡出现在方志人物、选举、职官等篇目中的有较详细传记资料的人物(现暂定传记文字应不少于150个汉字),按照元数据标准进行规范处理,通过“单纯参见”或“相互参见”建立规范人名与非规范人名(又名)之间的联系。人物资源库基本内容包括:规范人名、又名(字、号、别名、笔名、室名等)、性别、籍贯(出生地)、民族、生卒年、主要活动年代、人物关键词、分类、相关信息等。一般人物以其“名”作规范名称,知名人物以人们熟悉的通行名称作规范名称。例如清代著名藏书家黄丕烈,字绍武,又字绍甫,号荛圃,别号荛夫、老荛、复翁等,室名学耕堂、百宋一廛、龟巢。在人物资源库中,此条数据的规范名称选黄丕烈,而其字、又字、号、别号、室名等则入“又名”字段,同时在规范名称(黄丕烈)与又名(字、又字、号、别号、室名等)之间建立单纯参照关系,用户可从黄丕烈的任一名或字、号入口检索,机器自动指引到规范名称———黄丕烈,检索出与他生平相关的信息。用户还可以通过相关人物字段检索到和黄丕烈同时代的苏州另外三个著名藏书家周锡瓒(字香岩)顾之逵(字抱冲)、袁廷(字寿阶)的相关情况。通过跨库链接检索到黄丕烈的著作(作品库)以及和他有关的地名、事件、插图、景点、研究文献等),用户也可以根据需要回全文影像库或OCR库查看原文。人物资源库多侧面、多角度地描述被传人物。
(3)事件资源库
事件资源库收录了志书大事记篇或杂记中记载的重大事件。内容包括灾祥、战事等。依据元数据标准,对事件资源进行规范著录、标引。事件资源库基本内容包括:事件名称、发生时间、地点、事件简介、分类、关键词、相关信息(相关人物、事件、地名、作品、景点、志书、文献等)、影像原文、OCR原文和出处等。
例如清光绪二十四年(戊戌年,1898),以康有为为代表的资产阶级维新派发动了资产阶级政治改良运动,即著名的“戊戌变法”又称“百日维新”。此条数据的规范名称选用“戊戌变法”,事件又名为“百日维新”,规范名称与事件又名之间是参见关系,用户不论是从规范名称“戊戌变法”还是从事件又名“百日维新”都能检索到事件信息。用户还可以通过分类号、关键词等途径检索事件信息。通过相关信息(相关人物、地点、作品、景点等)跨库了解戊戌变法的代表人物康有为等的生平事迹、康有为的著述、事件发生地北京的情况,也可以返回全文影像库或OCR库查看在志书中的记载。
(4)作品资源库
该库收录了方志艺文志、人物志中记载的著述、诗词、游记、散文、墓铭志等作品,依据元数据标准进行规范著录、标引。它与研究文献资源库的区别在于作品库的内容一定出自志书,所做的补充和扩展都是为了保证志书的作品的完整性而进行的。例如:《武功县志》上有关于骆宾王的记载,而艺文志中他的诗文作品收集的又不全,这时为了保证有关骆宾王诗文作品在作品库中的完整性,可以从志书其他方面进行补充和完善。
作品库内容包括:作品题名、作者、作品出处、出版情况(包括出版者、出版地、出版日期)、现存版本、发表时间或历史时期、关键词、分类、原文(图片资料、视频、音频资料)等、作品出处、提要和制作信息,并增加了相关地名、人物、事件、作品、景点、插图、研究文献、影像原文和OCR原文链接,使作品资源库内容更丰富、充实。以著名藏书家黄丕烈的著述为例,用户通过作品库不但可以检索到《苏州府志》著录的黄丕烈的著述:百宋一廛书录、百宋一廛赋注、士礼居诗抄二卷、还可以十分方便地检索到作品主人其他方面的信息,如研究文献《黄丕烈评传》。
(5)插图资源库
插图资源库将志书中的舆地、器物、肖像、景观和营造等类插图,依据元数据标准进行规范著录、标引,建立插图资源库。该库内容包括:插图代码、名称、版框尺寸、出处、关键词、分类、相关链接(包括相关人物、地名、事件、景点、文化民俗、研究文献等)、图象信息(包括图像格式、图像文件大小、尺寸、分辨率和色彩深度等)。用户可通过插图名称、关键词、分类号等途径,检索到志书插图并能自动连接到同一志书的其他插图。还可以通过“原图”、“原文”按钮或输入URL网址与全文影像库、OCR库链接。
(6)景观资源库
该库将方志中记载的名胜景观,依据元数据标准进行规范著录、标引,建立景观名称和它的又名之间的相互参见关系,并在该库中增加了景观图片、视频、音频资料,相关人物、事件、作品、地名和研究文献等信息,使景观内容更丰富、充实。该库内容包括:景点名称、位置、景观介绍(包括文字、图片、音频、视频)、分类、关键词、景观文化(包括相关人物、事件、作品、地名、研究文献等)、周边景观、下层景观并可以链接到影像原文或OCR原文。
(7)目次资源库
该库记载国家图书馆志书收藏信息。依据元数据标准,对志书题名和志书中的卷次篇目进行规范处理。通过该库用户不但可以检索到志书书目,还可以对书中的卷次篇目进行检索。目次资源库的基本内容有:志书名称,目次名,版本项、载体形态、相关信息(地名、人物、事件)等。
(8)研究文献资源库
收录后人对志书、志书版本、志书内容(相关人物、事件、地名等)的评论、研究、考证论文、论著。依元数据标准进行著录、标引。该库基本内容有:文献名称、作者信息(责任描述、工作单位)、原文、分类、关键词、文献发表时间、发表刊报、相关链接(包括相关事件、人物、作品、志书、地名、插图、文献)、影像原文、OCR原文等。
全文影像库,OCR数据库和八个专题子库相互关联,互为依托,构成数字方志资源库的主体。为了更好地说明方志资源库的内部结构,我们以陕西省《武功县志》为例 |
|
 |
|
相关新闻 |
|
 |
|
|
|
 |
|
|