以下是小编收集整理的地方历史文献存取、检索的趋势以及遇到的问题,本文共3篇,欢迎阅读与借鉴。

篇1:地方历史文献存取、检索的趋势以及遇到的问题
地方历史文献存取、检索的趋势以及遇到的问题
摘 要 阐述缩微技术和数字影像技术所提供的资料保存方法、策略和其中产生的问题。主要介绍丹麦图书馆等文献机构在提供书目记录的同步电子存取方面所进行的卓有成效的合作。对获取数字化的源文献中信息的有效方法―――索引和领域特定检索点进行了探讨。
关键词 地方文献 文献保存 提供途径 趋势 问题
一、导论
地方历史文献的首要用户应该是系谱专家以及研究地方文献的历史学家。在历史上,正是由于对这些材料的需要,在很多国家、州或者是省份、县以及乡镇都形成了相当数量的家谱和地方志学会。这些学会的职责就是收集书面资料、图片、大事记以及其他的古代器具,然后通过图书馆、博物馆以及发行出版物的方式,把这些资料提供给研究人员使用。也存在着这么一种情况,那就是这些学会以及馆藏后来就发展成了政府档案馆②。近年来,一些图书馆和档案馆开始创建家谱和地方志阅览室③,以此来满足系谱专家以及研究地方文献的历史学家进行研究的需要。
直到,国际图联(IFLA)专业图书馆部下设了地方志和家谱小组,地方志和家谱的重要性才开始得到认同。这个小组的使命是:“……提供给从事地方文献和家谱的图书馆员一个在国际信息界发言的机会,为专家和图书馆、档案馆、博物馆以及其他相关的学会、机构之间的交流提供便利,鼓励扩大地方志和家谱文献的收藏,改善服务。”④我今天想与大家分享的信息均来自国际图联大会年会期间地方志和家谱小组组织的讨论会。
二、存取方式、策略以及出现的问题
上个世纪,引入新技术作为历史文献收集、存取和提供检索方式的趋势在不断进步。20世纪上半叶,作为存取和检索文献中所含信息的方式,图书馆、博物馆和档案馆(以下简称为“信息提供机构”)开始采用缩微技术。随之而来的是20世纪80年代之后,人类进入数字时代。数字时代以所谓“新媒体”的出现为典型特征,具体表现为如下形式:计算机技术、电子数据库、光学介质以及因特网和万维网。由此,在决定自身距离数字时代的差距以及何时步入数字时代的时候,对于如何管理馆藏传统资源,信息提供机构会面临一些重大的决择,经受严峻的考验。这里,只强调几个与信息提供机构所采用的存储方式和策略相关的问题,并着重阐述缩微技术以及数字化技术。
如上所述,缩微技术是一种成熟的存取技术。如果采用国际通用标准的话,缩微技术能够保证档案的品质。如果在理想状态下使用、存储,保存在银盐缩微胶片(Imagesonsilverfilm)之上的图片可以满足1的使用需求。然而,对于缺少经费的图书馆和档案馆来说,提供空间和理想的存储条件所需要的开支问题就会显得更加重要。
数字成像是一项新的快速发展的技术。由于软硬件的升级,现在抓取的图片在五年后可能就变得不可读。目前数字存取仍然不稳定,如果存储在质量较差的光盘上,其寿命不过几个月而已。
为确保数字图片的存取,信息提供机构可能采取的策略如下:(1)存储在同一个服务器上的不同驱动器中;(2)存储在不同的服务器或者镜像中;(3)通过计算机输出胶片进行复制。由于需要定期把原有内容移入新的软硬件上,再加上不断更新的管理技术,前两种策略都会涉及到重复投入费用的问题。就当前来说,第三种策略使原始图像抓取的费用翻倍。从长远的角度来考虑,有人认为存取图片的费用会比把数字图片转化成缩微胶片的费用低,这是因为减少了存取费用。然而这一观点的支持者们一般都忽视了如下两部分费用:一般管理费用以及从事存取工作的IT工作人员的工资费用。
存取“数字原生资源”以及纸质文档的数字图片所面临的挑战,已经成为政府机构以及其他信息提供机构所关注的重大问题。因此,各国中央政府均在加大投入以解决这些问题。比如说,美国国会拨款9980万美元用于资助美国国会图书馆的国家数字信息基础设施和存取项目②。美国国家档案和文件管理局(NARA)刚刚宣布奖励万美元给两个主要的机构,以支持他们在接下来的五年里找到可行的解决办法③。因此,我们应该对于数字图片存档的未来充满希望。
三、提供检索并加以管理
图书馆和档案馆有责任为读者或者用户提供馆藏信息的访问途径。在此,我只是突出强调以下两种信息:书目数据和源文档。
1 访问书目数据
过去,人们对于书目数据的访问仅仅限于查阅书目卡片或者浏览图书馆和档案馆的书目单。然而,在数字时代,在线检索书目数据以及通过信息提供机构的网站进行检索已经变成现实。万维网为不同机构之间共享书目数据以及为读者提供对于大多数图书馆/档案馆的馆藏的同步检索提供了便利。
随着计算机的广泛应用,人们使用计算机能力的增强,加之资源丰富的网站的不断出现,使信息搜集者更多地把因特网和万维网作为信息的首要来源。在数字时代的虚拟世界里,图书馆/档案馆之间的物理障碍正在消失。信息搜集者不在乎他们是从什么机构去获取信息,关键在于他们要得到信息。
对于这一现象的认知引导各个机构在提供对于馆藏书目数据的检索途径上进行合作。一个最近的事例就是丹麦的“北日德兰半岛文化历史数据库(NOKS)”。这个数据库通过一个单一的网络门户为读者提供访问以下机构馆藏的途径,包括北日德兰县的3个历史档案馆,3个文化历史博物馆,2个艺术博物馆以及县中央图书馆。整个工程耗时1年,利用经费14.3万欧元。书目数据的访问量达到11.5万条。
这种合作必须建立在不同种类的机构平等参与的基础之上。各种机构分别有一些根据档案馆、图书馆或者博物馆编目原则编写的书目数据。因为目标是提供跨机构的同步检索,所以这些书目数据必须采用统一的格式,或者必须找到一个能够连接不同编目系统的办法。
北日德兰半岛文化历史数据库采用的办法较为实用,他们利用现存的书目数据,通过连接所有参与机构的相同的主题词,实现预期的对于不同系统的同步检索的目标。因此,比如在图书馆系统搜索相关主题词“关注老年人”(careofseniorcitizens)同样也会获得档案馆的关于“老年人”(elderlypeople)的书目数据以及博物馆的关于“老年人”(seniorcitizens)的书目数据。
2 访问源文档
索引。简化检索的要求紧随着新电子传播工具的出现而出现。然而,要对数字图片里面的信息进行检索,我们必须首先建立图片的索引。索引方式可以是全文的、域的或者是两者合二为一④。全文检索需要返回到包含所查询的内容的每一张图片,这样的话,读者在真正找到自己需要的信息之前,就需要浏览很多不相关的图片。域检索只是查询那些被域数据特别标注的图片。这种方法,如果使用得当的话,可以使搜索更快,更准确;然而,如果使用全文检索,可以发现一些随机的.有用的相关信息,而域检索却会漏掉这些信息。
全文检索只有满足如下两种条件的一种才成为可能:数字化的原文可以转化成被光学字符识别(OCR)软件识别的文本;或者原文是打字键入的。直到现在,光学字符识别软件只适用于识别已排字的或者印刷的文档。全文索引之所以更快、更经济是因为电脑可以完成,同时也需要手工编辑。光学字符识别软件对于进行那些系谱专家和历史学家非常感兴趣的手写文档的搜索就不是那么可靠了。这也就意味着,要制作全文索引,原文必须是打字键入的。虽然这项工程的规模以及成本看上去可能非常巨大,但是韩国正在采用这种方式,通过重新键入来制作传统家谱的数字化版本。
制作域索引是一项手工操作过程,需要灵活选择,使用一致的关键词。这种检索的制作费用要比在OCR帮助下制作全文索引昂贵,却比手工输入数据创建可搜索文本便宜。因此,选择使用何种索引,需要综合考虑如下因素:潜在读者的检索需求,文档的类型(印刷的还是手写的)以及制作索引的费用。
著录。传统的检索点,如:作者、标题、主题对于源文档提供了很高水平的检索点,但是查找到包含真正所需信息的文档的概率较低。数字化历史文献的用户需要这些书目数据包含更多的“粒度”(指“著录”)。
对于制作数字图片的索引来说,一种可能的办法就是制作对于特殊用户群体所需要的源文档的元数据,也就是学科―――专业主题(domain-specificaccesspoints)。比如说,一个西方人要做家谱研究,现在正在查找目标个体一生中的重要事件(出生、婚姻以及死亡)的信息,这些事件发生在不同的时间、地点。如果源文档中的数据元素,如姓名、地点、日期等己经是源文档著录的检索点,搜索成功的概率就能得到极大的提高。
现存编目标准以及元数据标准不支持这种书目数据描述。地方历史文献提供机构需要进行游说,以便把学科―――专业主题检索点或者“著录款目”写入这些标准中。
3 管理对于数字源文档的访问
数字时代的到来为用户创造了前所未有的快捷、全面检索信息的机会。但是随之也带来了新的问题。比如说,在美国,系谱专家以及当地历史学家很感兴趣的档案均收藏在县法院里。法院里的档案是公用的,也就是说公众有权力使用。然而,对于那些曾经使用法院档案的研究人员来说,他们知道,在法院里查找自己所需要的特定档案是非常困难的。因为这些档案通常是随便摆放的,而且缺乏足够的搜索帮助手段。也就是说,档案和信息实际上是不可检索的。即使是这些资料被缩微化处理之后,检索信息的难度依然很大。然而,如果这些书目数据经过数字化处理,编制索引并提供到万维网上,访问就会变得容易、快速、普遍。但是这样一来,信息的隐匿性就会减低,就可能更多地限制或者禁止公众访问法院档案的呼声。
由于恐怖主义以及利用假身份进行盗窃行为的增加,人们对于个人身份数据隐私的关注显著增强。然而,一般来说,盗贼并不是为了窃取受害人的身份而进行研究。研究表明,大多数利用假身份进行盗窃案例的涉案人是家庭成员或者是陌生人。家庭成员可以在家中查看受害者驾照或者是信用卡上面的个人信息;陌生人通常是通过窃取邮件,或者在因特网上骗取个人信息。尽管只有少量的利用假身份进行盗窃案例与使用从家谱资料中获取的信息有关,如出生日期、死亡记录等用户可以免费获得的公众领域的文件,万维网上包含这些信息的电子数据库、索引以及图片的可访问性还是引起了人们的恐慌。
另一个人们关注的问题是:对于散发和复制这些记录的控制减弱,以及在这些记录以电子文本提供访问后存在被更改的可能。
4 数据隐私权法律以及规定
信息提供机构有责任遵守所处地区的数据隐私权法律。如果没有这种法律,各个机构有责任制定自己的数据隐私权政策,以此来保护人们的身份信息。
信息提供机构在立法和制定政策的过程中采取建设性的干涉,这种“干涉”有时对于保护用户访问历史档案的合法权利是适当的,也是必要的。他们需要关注那些旨在保护隐私权的立法提案或者规定。如果法律描述不准确,这些措施就可能会矫枉过正,从而禁止访问那些本身不需要被保护的档案和信息。下面的事例发生在美国乔治亚州。最近乔治亚州讨论的一项议案旨在限制对于二战老兵的退役档案的访问。然而,根据其表述,对于1776年美国独立战争以来的相似记录的访问都将被屏蔽。幸运的是,一位档案馆员注意到这个问题,并与议案的发起者一起修改了提案,从而既实现了其真正的目的,又保留了人们对与历史文献的访问权利。
5 数据安全
数据提供机构有责任保证其提供访问的源文档内容的安全性或者是完整性。这可以通过数字图片上的水印或者其他方式实现。比如说,在韩国,当数字家谱出版机构签署协议,来对一些世系机构提供的家谱进行数字化的时候,他们必须同意保护原文的措词不被修改。方式有二:只向用户提供原文的图片;屏蔽对于原文的下载。
6 数字权管理
上面提到的很多问题都可以通过数字权的主动管理来解决。必须制定政策来鉴别用户,定义他们的使用权限。通过使用软件可以管理用户对于文件和信息的访问、下载以及复制。后者也适用于模拟控制印刷品,或者如果必要的话,能够提供更多的控制。
电子商务部门开发的数字权管理软件(DRM)可能并不适用于图书馆和其他信息提供机构。商务数字权管理软件设计用于保护创作者和数字内容出版者的权利,而不是保护用户权利。他们通常涉足于当前流通量较大的资料,可能不会考虑公共领域的文件或者图书馆向读者提供的“流通量较小”的资料。
信息提供机构和读者统一体应该开发自己的数字权管理标准和管理软件,使得图书馆既能兑现与电子出版者之间的合同,又能在版权法下保护图书馆用户的权利,管理图书馆制作的数字内容的传播和使用,继续履行图书馆的传统职能,如馆藏数字资源以及类似资料的外借、归档和存储。研究开发一个有效的数字权管理系统并进行执行和维护,所需的费用非常高。因此,以合作方式解决图书馆的这一问题可能是最切实可行的办法。
四、总述
随着新技术应用于历史资料的收集、保存以及检索,图书馆以及其他信息提供机构在馆藏的管理方面都面临着重大的抉择,经受着严峻的考验。就保存技术和策略而言,缩微无疑是一种可行的选择(如果能适当地进行存储的话);但是对于很多图书馆来说,费用也许太高。数字成像是一项新的正在不断进步的技术。保存技术对于政府机构和信息提供机构来说,是薄弱环节,当然也是他们重要的科研课题。
随着新技术应用于历史资料的收集、保存以及检索,图书馆以及其他信息提供机构在馆藏的管理方面都面临着重大的抉择,经受着严峻的考验。就保存技术和策略而言,缩微无疑是一种可行的选择(如果能适当地进行存储的话);但是对于很多图书馆来说,费用也许太高。数字成像是一项新的正在不断进步的技术。保存技术对于政府机构和信息提供机构来说,是薄弱环节,当然也是他们重要的科研课题。
就提供对于图片的有效检索来说,索引是一种必要的工具。要决定选择何种索引方式,必须综合考虑读者的需求,文档的格式以及费用问题。在编目中使用学科―――专业主题检索点和制作数字图片的元数据,这两种方式可能会提供一种比较经济的选择。
在数字时代,信息提供机构必须要与立法者以及政策制定者合作,从而在保护个人身份数据隐私的同时,能够保证读者访问历史文献的合法权利。他们必须采取相应的措施来保证已经数字化了的源文档的完整性(integrity)数字权管理政策以及技术可以用来解决源文档数字化中产生的大多数问题。
(沙其敏 博士 美国犹他家谱学会)
〔出处〕 国家图书馆学刊第1期
篇2:地方研究文献数据库主题检索初探
一、地方研究文献数据库的数据源
地方研究文献数据库是中文文献信息资源数字化的重要组成部分。地方研究文献是指本地与外地出版的某一地域或区域的内容的文献,建立地方研究文献数据库是为了使用户全面了解某一地域或区域的社会生活、经济、文化等信息,便于用户进行地方研究。
篇3:地方研究文献数据库主题检索初探
1.资料性文献。例如地方志、文史资料等,史料、年鉴、统计资料、政府出版物(白皮书、蓝皮书等)。在我国,历代纂修的各地区资料性文献很丰富,广西省1988年出版的《广西方志提要》,收录1950年以前出版志250种。广东省1950年以前历代编修的地方志达800多种, 80年代以来新修省、市、县地方志已出版1000多种,规划出版专业性地方志5000多种。
2.论文、论著包括地方研究丛书、丛编、报刊上发表的论文和会议论文、调研报告、论文集等。例如有关南海及南海诸岛的《南海海区综合调查研究报告》、《南海海洋生物研究论文集》,据不完全统计, 1993-1994年南海海洋科学方面的70多篇论文,发表在20多种期刊上。此类文献很多是全国或省市社会科学研究项目的科研成果,为领导决策提供理论依据,为社会主义建设服务。例如,《广西社会经济情势考察研究报告集》一书是国务院下达的《西南地区国土资源综合考察和发展研究》项目中的广西部分研究成果。广西壮族自治区制订广西十年规划和“八五”计划时,采纳了《广西对东南亚开放战略研究》报告中提出的一些对策和建议。
3.政策性文献和法令法规例如,地方性党政会议及文件,领导人讲话、文章等,地方法令法规也可在此范畴内。这是发展地方经济的重要政策法令依据,是重要文献类型,一般全文收入。
4.新闻媒介的消息报导随着地方报刊的种数与版面激增,中央和地方新闻媒介大量报导各地的各类消息,例如《广州日报》设立珠江三角洲的专版,《南方日报》设立广州的专版。此类信息内容广泛,时间性强,及时报导要闻以及地方不同阶段的热门话题。
二、地方研究文献的主题
地方研究文献的主题与文献的类型、文献的内容、数据库收录范围及库容量等均有密切关系。
地方研究文献的类型多样,信息量大,文献的主题包含历代社会的内容,更多的是反映当代社会生活的各方面,与学科(或专业性)文献以及新闻信息相比较,其主题范围更广泛,而且年代更久远。另一特点,不同地区不同时期社会生活中的热点有异,文献内容即论述、报导的问题有较强时效性,有的信息的生命力也有时间限制。例如,香港新机场建设和运营之初,引起社会极大关注,一个月内香港出版的报章杂志报导有关新机场的消息与评论数百条,现在这方面的报导就很少。
地方研究文献数据库既有书目数据库(数据形式为书目、索引、文摘),也有全文数据库,而且全文数据库和多媒体技术发展很快,文献信息资源数字化技术的发展,使数据库建库方式,同一数据库中数据的形式等均发生变化。地方研究文献数据库应比较全面地反映该地区社会的发展,包括历代政治、经济、文化教育、科学技术,自然现象、历史事件、地理及名胜古迹、风土人情以及机构、人物等。数据形式包括二次文献、全文以及图像(包括地图等)、音像。用户可按需要查阅、下载或打印数据库中某一主题的全部文献。建库方式的变化,既可从某一文献部门自建库,也可联合建库,甚至跨地区、跨国合作建库。
文献资源数字化建设,文献数据库建库技术的发展,以及用户文献检索的需求的变化,对检索语言、文献主题的处理技术以及MARC格式等提出了更高的要求。海量文献、建库速度与质量的提高,要求录入和主题处理技术有较大的突破。目前汉字录入和扫描技术的进步,录入速度大大加快。但主题标引已成为建库的“瓶颈”,加上主题表编制与管理技术的滞后,直接影响建库的速度和质量,难于满足文献检索的需要。为此,张琪玉、侯汉清、张涵等国内著名专家和同行都在探讨解决的办法,提出了一系列建议,例如大量编制自然语言词表;设计分类表――叙词表转换系统,实现网络环境下情报检索语言兼容互换;利用主题表开发研制自动标引检索系统,实现自动标引等。这些建议都是有益的探索,对于地方研究文献数据库的建库技术的改进和提高有重要参考价值。
笔者从事地方研究文献数据库建库工作多年,结合建库实践提出一点不成熟的看法。
三、地方研究文献主题处理技术的改进措施
文献主题的处理技术可分为两部分:一是主题标引工作;二是词表的编制与管理。
1.主题标引工作
目前的文献主题标引工作人为因素太多。首先是标引规则的限制,几乎每个文献数据库都制订主题标引规则,内容包括:选用的信息和标引的内容范围;标引深度(标引多少主题词,主题词的汉字数目限制等);标引词的选择,主题标引方式(自由标引还是选用主题表);对文献主题采用整体标引或分析标引;标引词的著录方式;不同类型或题材、体裁文献的标引规则;人名、地名、时间因素等有关规定……为了保证同一主题标引一致性,规则的制订尽量详细具体。这样一来,标引人员工作时受到很大制约,需熟记标引规则并按此处理文献主题。标引是为了检索,然而如果表达文献内容远远超过标引规则的规定(例如规定15个主题词),不但造成标引的困难,而且主题或标引词选取不当将影响文献的检索利用。
其次是标引人员对文献内容理解及主题分析等方面的限制,标引规则要求标引人员主题分析和给标引词等均应考虑用户的检索需要和检索习惯。事实上没有一个标引人员能够全面了解用户的检索兴趣和要求,更无法预计将来用户的检索兴趣和要求。例如文献中标引人员可能认为某一内容不是中心内容,论述或研究的主要问题不进行标引,可是这部分内容对于某些用户却十分重要,在历史研究或历史人物研究等方面,往往根据文献中的不显眼的线索(几句话或一张照片)溯根寻源,得出意想不到的收获。
第三是主题的描述,由于主题表的使用和标引规则(特别是组配规则等)的制订,描述主题的词语与文献使用的语言、检索者使用的词语往往不一致,在同义词和复合概念的表达方面尤为突出。当前文献量激增,文献主题及用词变化较大,增加了标引工作的难度,影响主题标引的速度和准确程度。
因此,主题标引工作的改进势在必行。对于地方研究文献数据库来源,全文检索本身可自动抽词,二次文献库也可采用自动(或半自动)抽词与词表调控相结合的方式,标引时不硬性规定主题或主题词数量,而是视文献中具有检索意义的内容。所谓词表调控,主要是语义控制和分词的人工干预。
2.词表的编制与管理
检索词和标引词的一致,同义词的.规范,以及主题的扩检功能是文献数据库检索效率的重要保证。从这个角度考虑,词表对于地方研究文献数据库仍是十分重要的。然而目前词表的编制和管理技术已远远满足不了建库的要求,必须进行改进。
①改变词表内容滞后于文献主题发展的状况
词表的编制到出版使用需要一段时间,在我国词表的修订起码经过三五年时间,而文献内容随着社会发展,学术研究的进步变化很大。笔者1992年赴香港进行文献研究及编制港澳研究主题表达四个月,利用80年代至1992年香港报纸杂志收入主题词3000多个,以及数以千计的人名、地名等专有名词。经过检验(词频统计),该表基本能满足港澳研究文献主题标引的需要。然而在建港澳研究数据库过程中,经过三年左右,新增主题词达2000个,表中部分主题词则甚少使用,说明香港、澳门社会发展对文献主题的影响。因此需及时对主题词表进行调整,提高词表的即时性。
主题词的增删调整可应用统计方法加上人工干预。首先应统计主题词的使用频率,同时考虑时间因素,因为每一地区都有时效性很强的社会现象或信息,有的信息生命力很弱,主题标引用词的时效性也相应很低。
②词表管理技术主要是语义控制,例如全称与简称、外来语与中译名、标点符号的使用、同义词和上下位概念的处理等。词表管理应有专人负责。笔者对港澳研究主题词表的编制过程中,特别对同义词和英汉对照的处理进行大量工作,由于港澳方言特殊化,语词规范显得特别重要。
③词表结构的改进,词表中相当部分的主题词比较稳定,这部分词应作为第一层次(第一级)的词,不需经常调整,对于有一定规模的数据库,第一层次的词比较容易确定,应作为规范化词语,第二层次(第二级)的词是有可能调整的词,词表管理人员应及时对这一层次的词进行技术处理,例如与第一层次的词作同义词对应,或上下位属的显示等。
地方研究文献数据库的建设,词表(包括标引技术)、检索软件和索引是三个重要因素,其中文献主题的处理技术对文献检索影响尤为突出。许多技术问题尚待改进。
〔出处〕 一代宗师――纪念刘国钧先生百年诞辰学术论文集
★检索报告
文档为doc格式