欢迎来到千学网!
您现在的位置:首页 > 实用文 > 其他范文

中小型图书馆文献数字化的困难和策略探讨

时间:2022-05-24 18:38:26 其他范文 收藏本文 下载本文

【导语】下面是小编整理的中小型图书馆文献数字化的困难和策略探讨(共8篇),欢迎大家阅读借鉴,并有积极分享。

中小型图书馆文献数字化的困难和策略探讨

篇1:中小型图书馆文献数字化的困难和策略探讨

中小型图书馆文献数字化的困难和策略探讨

中小型图书馆的数量在我国占绝对优势,通过分析中小型图书馆数字化建设的必要性和困难,提出通用文献资源的'共享共建和地方特色文献资源数字化的政府支持两条策略.

作 者:萧玮瑛  作者单位:中国农业科学院农业信息研究所,北京,100081 刊 名:农业图书情报学刊 英文刊名:JOURNAL OF LIBRARY AND INFORMATION SCIENCES IN AGRICULTURE 年,卷(期): 22(7) 分类号:G250 关键词:中小型图书馆   地方文献   数字化   策略  

篇2:湖州市图书馆地方文献数字化构想

湖州市图书馆地方文献数字化构想

[摘要] 本文分析了湖州市图书馆的特色馆藏――湖州书库进行数字化的有利条件,并对地方文献数字化进行了初步构想。

地方文献工作是公共图书馆业务工作中最具特色的组成部分,是公共图书馆有别于其它类型图书馆的特征。市(地)公共图书馆的地方文献馆藏,经过二十年来建设,已具一定规模,初成体系,相对于省、县两级公共馆,在本地出版物的完整性上优势明显。综合国外图书馆数字化建设的实践和方案,莫不把馆藏核心文献的数字化作为重点,而地方文献均被各市(地)公共馆视为馆藏核心文献。市级馆往往有数个与地方经济特色和传统优势领域相配套的藏书建设重点,但随着产业结构的调整和信息来源的多元化,原有的重点藏书,如今乏人问律,造成有限资源的极大浪费;市级馆有限的经费和多层次的读者构成也决定了其藏书重点不可能实现对该领域文献的完整收藏,这样又如何在资源有序分配、文献共建共享的体系中发挥作用?而地方文献却始终在地方经济文化建设中发挥着不可替代的作用。区域性和全国的文献信息资源共建共享体系刚刚起步。由于没有进行现有文献信息资源的普查,各市级馆已应允承担的共建共享藏书建设方向尚不明确。唯有地方文献工作,因其地域职责明确,故已建立了全省地方文献工作协作网,分工编制出版了《浙江省公共图书馆新编地方志联合目录》,全省地方文献的联合目录也已提上日程。尽管这一实践是以印刷文本为主要载体而进行的,但也为数字形式的资源共建共享进行了成功的探索。相当一部分地方文献的知识产权,由文献作者自主,市(地)图书馆可以依靠和著作权拥有者之间的良好沟通,获得使用授权。

基于上述思考,笔者认为地方文献是市(地)公共图书馆独有的优势资源,现结合湖州市图书馆所进行的湖州书库数字化尝试,谈谈市级馆以其地方文献工作为切入点的数字化建设。

湖州市图书馆为落实知识工程,根据上级文化主管部门的建议而创设了湖州书库,试图在充实内涵,拓展服务外延的基本业务思路上营造适应知识创新时代的地方文献工作新局面。湖州书库数字化建设的目的是,以独到的数字化地方文献资源,实现文献信息资源的共建共享,参与乡邦文化建设,加强海内外同乡联谊,服务更为广泛的读者群体。

湖州书库的数字化过程业务量极大。无论是书库的文献积累、读者群的涵盖、数字化建设的软硬件支持:还是专业人员的培养补充,都需从图书馆资源中进行合理配置,日积月累,持之以恒,方可有所建树。尤为重要的是,数字化不仅仅是文献存储的数字化,而是整个地方文献工作思路的转轨定位。为此,湖州市图书馆依据自身定位,确立了湖州书库数字化尝试的实施方向和实施步骤。

1.原有业务工作的网络延伸

1.1依托网络,宣传介绍地方文献工作。湖州市图书馆在自己的主页上设立了“湖州书库”、“湖州风情”、“书目查询”等链接主题、将湖州书库的地方文献工作职能、文献收藏基本情况、文献征集内容和湖州社会经济文化特色制作成图文并茂的信息页,宣传介绍地方文献工作。

1.2书目上网。湖州市图书馆建成的“网上书目查询系统”目前已收录馆藏地方文献2080种,《地方文献篇名析出目录》和《地方期刊篇名目录》将结合各特色数据库的制作以渐进方式完成。

1.3参予网上联合编目。目前,湖州当地的出版物多以购买书号、本地刊印的方式发行,故湖州市图书馆得以在第一时间即获得有关文本。图书馆可以把对地方文献的及时编目作为参予网上联合编目重要措施。

1. 4各类型特色数据库的建设。过去,湖州市图书馆与湖州地方特色相配套的二次文献和目录、索引在专题服务工作中成效显著。现在,我们以市场为导向正在将已编和在编的专题资料,如“竹文化与竹资源开发利用”、“笔文化”、“湖州历代名医医案医方”、“湖州山水胜迹”等制作成特色数据库上网。同时将选取部分馆藏基本文献,如《湖州人物志》、《湖州府志)、《湖州市志》等,以全文数据库的形式上网。

1.5网上文献征集。一方面,我们将及时跟踪“浙北信息港”上有关地方文献的出版发行动态;同时,我们以网上读者联谊的方式,加强与读者、作者的联系,促进文献征集。另一方面,我们将积极扮演文献信息交换集散地的角色,通过网络搜寻读者需求的地方文献资料,下载补充馆藏,实现文献信息资源提供馆、中介馆和读者三者间的利益共享。

2、数据库建设的市场化运作

当前,我国的社会主义市场经济运行体制尚处在构建阶段,市(地)公共图书馆建设特色数据库必须遵循效益评估、量入为出、共建共享、有偿使用的市场化原则。

2.1地方特色数据库建设的效益评估。湖州市图书馆根据市场需求、馆藏专题文献量、经济效益和社会效益,以及国内相近主题数据库的编制情况对几个可能的选题进行了市场调研和评估,最后确立“竹文化与竹资源开发利用”、“笔文化”两个专题为地方特色数据库的优先建设方向。而原本馆藏文献较为丰富,又与“丝绸之府、鱼米之乡”的地域经济特色相吻合的“丝绸”、“淡水鱼养殖”选题,则因已存在相同主题专业数据库,而不予开发,仅纳入“虚拟湖州书库”的信息指南库中。

2.2数据库建设的多方协助和利益共享。仅凭市(地)公共图书馆有限的资源去建设有一定规模、可以占领市场的特色专题数据库,实际上是十分困难的`。湖州市图书馆在了解到“中国竹乡”安吉县的竹类产业因竹制品加工粗放、品种单一、市场营销不畅而陷于停滞状态的情况后,联合市科协、市林业局、安吉县图书馆、安吉竹子博物馆等单位,曾筹备建立“竹资源开发利用研究会”,并开始建设“竹文化与竹资源开发利用数据库”,委托有关单位吸纳数据库用户。

2. 3地方特色专题数据库的有偿使用。由于我们尚未解决数据库有偿使用、权限设置问题,故目前仅采用了已建数据库部分数据上网的方式,读者利用需到湖州书库上机进一步查询。

别外,我馆针对认才信息资源库网络开发,及时建设“读者人才资源库”,根据个人资料的存储空间占用情况收取不同的费用,以分享本地的市场份额。

3.虚拟湖州书库

湖州市图书馆引入了“虚拟图书馆”这个全新理念,将“虚拟湖州书库”视为湖州书库的一个组成部分,试图以对网上与湖州相关资料的虚拟占有,来拓宽湖州书库的服务范围。由于尚未获得足够的技术支持,“虚拟湖州书库”目前的工作模式是:由工作人员在网上漫游,寻找与湖州相关的信息,根据主页内容加以分门别类并附以简要提示,形成一个小规模的分类网址库。“虚拟湖州书库”的发展方向,应当是一个有主题搜索软件支持、可进行自动链接的、网上与湖州相关资料主页的信息指南系统。

4,以乡情为纽带组织网上读者联谊活动

知识经济时代,读者群就是图书馆的资源。湖州书库在建立伊始,就以乡情为纽带,加强海内外湖籍人士与家乡的联系,服务地方经济文化建设。为此,湖州市图书馆成立“网上书友联谊会”,建立“外地湖籍专家学者名录”数据库、筹建“读者人才资源库”。同时还将于近期推出一份网络杂志《湖州书库简讯》,开设藏书介绍、菰城掌故、名人传记、山水胜览、乡情似水、留言板等栏目,以乡情为纽带,借助网络,加强与海内外读者间的联系。

参考文献

1.程小澜等. 构建浙江省文献信息资源共建共享体系的总体思考. 北京图书馆馆刊,(4)

2.黄晓斌. 论网络化虚拟图书馆的资源共享.中国图书馆学报,1999(3)

3.李万健. 关于电子图书馆的全面探讨.中国图书馆学报,(5)

4.沈红芳,杨道良.论数字图书馆.中国图书馆学报,1999(1)

5.叶鹰等.数字图书馆建设探讨.图书馆杂志,1999(8)

6.刘年娣等. 国内数字化图书馆研究与建设. 图书馆杂志,1999(4)

〔出处〕 图书馆研究与工作 (3)

篇3:浅谈数字化图书馆

随着21世纪的到来,数字化已经成为新世纪的代名词,数字化图书馆的建设更是迫在眉睫,在这个信息繁杂的网络时代,随着电子出版物的盛行,数字图书馆将居于首位,数字化图书馆是把数字化技术及其信息融入图书馆,并提供有效的服务,图书馆数字化建设包括信息的采集、编目、流通以及电子化的技术服务,数字化图书馆的出现可以为用户提供快速、准确地文献信息服务功能.

作 者:刘嘉铭 作者单位:哈尔滨市图书馆,黑龙江,哈尔滨,150086 刊 名:黑龙江史志 英文刊名:HEILONGJIANG SHIZHI 年,卷(期):20xx “”(7) 分类号:G25 关键词:数字化 图书馆 研究

篇4:浅谈数字化图书馆

将古籍中的语言文字及图形转化成能为计算机所识别的数字符号,以此来制成古籍文献书目数据库以及古籍全文数据库,即对古籍进行数字化管理。这也将是今后图书馆古籍管理的一个发展的必然趋势。

一、古籍数字化管理的必要性

1、古籍数字化管理有利于古籍的保护,解决藏与用的矛盾

古籍经过几千年的辗转流传至今,往往具有唯一性并且不可再生,因此在保护古籍方面除了提高古籍的保存技术使其免受损坏外,也应借助现代化的科学技术,让这些珍贵的文化遗产得以永久的保存。另正是由于古籍的唯一性以及不可再生性,因此它们不仅具有罕见的文化价值,而且还有珍贵的文物价值。因此图书馆为了避免古籍遭受破坏,往往重藏轻用,造成藏与用的`矛盾,不利于古籍文化的传播。

2、古籍进行数字化管理,可使古籍中蕴藏的特有信息资源得到充分利用

古籍的目录的分类、编排与检索方法与现代的都不同,如果用传统的手工检索方法来检索古籍,不仅速度慢,而且查全、查准率也较低,很可能会花费好几个小时甚至几天来查找一个人或事,或者一段引文。如果引进数字化管理,便可改进古籍的检索方式。从而更有利于对古籍中所蕴藏的特有信息资源进行开发,提高了阅读古籍的广度和深度,使古籍得到了充分的利用。

二、古籍数字化管理方法

1、古籍书目数据化及古籍全文的数据化

(1)古籍书目及古籍全文数据化方法及注意事项

古籍数量大,语言繁琐,而且在分类排架和管理上都不同于一般的图书,检索方法也很复杂,很多古籍犹如天书,极大的影响了读者阅读利用古籍文献的积极性。利用计算机技术,建立古籍书目数据库,便简化了古籍书的检索方法,而且新增了许多检索途经让读者对图书馆内古籍藏书一目了然。古籍全文数据库的建立,便可方便读者更简单的阅读古籍资料,并可快速准确全面的找到所需的资料。因此,古籍书目数据化及古籍全文数据化是实现古籍数字化的必要条件。

古籍书目数据化是指以书目内容:书名、责任人、版本、卷数、刻印年代、藏地等为数字化对象,对古籍的存储做源数据描述。古籍全文数据化是指以揭示古籍内容为目的,对古籍全文进行数字化处理,从而方便读者全文阅读、检索或进行智能分析。

古籍全文数字化有三种形式:一是图像版全文数字化即将古籍书页原文扫描成图像后进行存储,为读者提供相关阅读、检索服务;二是文字版数字化即将古籍书页转换成文本文字形式后进行存储,为读者提供相关阅读、检索服务;在文字版数字化中遇到生僻字可通过photoshop 等造字程序进行造字,然后再利用windows系统自身带的输入法编辑器进行生僻字的输入;三是图文版数字化,即图像版和文字版的结合,它是最理想的古籍数字化模式。

古籍数字化后的数据格式繁多,除了常见的xt、doc、html以外,还有pdf、exe、wdl、pdg、ebk、edb等,而这些格式的文件大多要自己单独的阅读器才能阅读,这样极不利用户对古籍的使用,以及古籍数字化后的资源共享,阻碍了古籍数字化的发展,因此图书馆在进行古籍数字化工作时,应建立统一的数据格式,如文本格式可采觅PDF格式,图片格式的资料可采用TIFF,JPEG格式,以方便读者使用。

(2)古籍数字化存储相关技术支持

为了保证古籍的原汁原味,在对古籍数据化存储时,就要以图片格式进行存储,这些图片又不可进行压缩,从而导致古籍数据库异常庞大,常用的磁盘储存器很难实现。这时可根据图书馆古籍数据库的大小采用机器手光盘库或机器手磁带库这样的第三级存储器,如果第三级存储器也不能满足,便可采用SAN(存储区域网络)战略。存储区域网络即位于服务器后面的存储网络,它是一个主要负责存储传输的后端网络,所有服务器均可通过此网络对存储介质任意读取及写入,并可将多个系统连接到存储设备以及子系统。此方案可采用千兆以太网,其网速与光纤路径技术相当,且价格相对较低,建设周期相对较短。

篇5:馆藏文献优先数字化的策略思考

数字化活动的主要目的是提高对图书馆馆藏的获取,或通过提供数字化拷贝,保护珍贵或易损的馆藏文献。鉴于此,笔者认为以下各类文献应当优先考虑数字化。

1.1 优先数字化有利于国家和民族的知识积累、传播与创新

这一优先数字化原则是以符合本国利益、传播本国文化为目的的。考察许多国家数字图书馆的网页,都可以明显地感觉到这一点。例如,美国国会图书馆就是优先将美国1774年至1955年间各类历史、文化、史料性文献数字化,并通过因特网向全世界讲述美国的历史、战争与文化发展(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,(2))。日本也是优先将本国主要的学术刊物(含人文科学、自然科学、工程科学等)优先数字化,并通过因特网向全世界展现自己的文化、科学与技术水平。

因而,我国应当优先数字化本国的文化遗产,将被各类图书馆收藏的,由我国作者撰写的,其著作的有价值部分,与我国社会、政治、文化、科学及经济有关的内容优先数字化;本国的文化和科学领域具有代表性的出版物可考虑优先数字化。这些由本国人产生的,反映本国各方面活动的文献数字化后,通过因特网可在全世界传播中华民族文化与展现本国的科学技术水平。

1.2 优先数字化具有较高价值的本国文献

只有将具有较高价值的本国文献数字化,才有可能吸引国内与国外用户,只有这类资源才有可能在国际市场上具有竞争力;只有将具有较高价值的文献数字化,这类文献才可能为用户长期存取。具有长期利用价值的数字文献,才有可能使数字化初投资与其产生的效益相符。因而,我们必须将具有较高的文化价值、艺术价值、史料价值与研究价值的文献资源优先数字化,必须将本国的文化和科学领域具有代表性的出版物优先数字化。

[1] [2] [3]

篇6:馆藏文献优先数字化的策略思考

【内容提要】本文讨论了我国馆藏文献优先数字化的原则与宜于优先数字化的文献类型。作者认为馆藏文献优先数字化的原则是:具有较高价值的本国文献,不受版权约束的文献,以及馆藏文献的缩微胶片拷贝。考虑到用户需求,技术支持以及经济成本,作者提出了优先数字化的文献类型:非文字类型的文献,OCR识别率高的文字文献。

【摘  要  题】信息资源建设

【关  键  词】馆藏……

随着信息手段革命与信息内容革命两次巨大的跳跃性发展,全球掀起了数字图书馆建设的浪潮。数字图书馆的出现,引发了一场全球范围内的文化媒介迁移运动,促使许多国家把本国的文化遗产大规模转换成数字形态,以扩充数字图书馆的“内容”资源,以便为未来的“内容市场”竞争奠定基础。数字图书馆的“内容”资源是刺激与满足人们对文化内容需求的'关键,人们对内容需求的革命性增长将推动技术革命的进一步发展,从而有力地促进国家信息化进程。

由上可见,数字图书馆建设使我们的信息产业发展战略更加明确:以内容的创造来带动技术的发展,以民族文化产业的发展来拉动信息产业的跃升,从而有力地推动国家信息化进程,在整个战略中,文化资源的数字化成为了核心行动。

图书馆历来承担着保存和传播人类文化遗产与知识的关键职能,它丰厚的馆藏闪烁着中华民族悠久历史与灿烂文化的光辉,是世界各国久久仰慕的。将图书馆馆藏文献数字化,通过英特网让世界共享,不仅为中华文化在数字形态下再现辉煌提供了一次历史机遇,而且这笔巨大资源本身对国际市场就具有无比的吸引力。然而,受财力、物力以及当前技术能力的限制,我们暂不可能将这大量的文化瑰宝全部数字化,只能分期分批、有步骤有选择地进行数字化工作,逐步将中华民族文化推向世界文化市场。优先数字化哪类馆藏文献才有可能在全球用户市场上具有竞争力?在当前技术环境与资源配置情况下,制定什么样的数字化策略才最经济与可行?这两个问题是所有从事馆藏文献数字化的同行所共同关注的,也是本文的研究主题。

篇7:馆藏文献优先数字化的策略思考

数字化活动的主要目的是提高对图书馆馆藏的获取,或通过提供数字化拷贝,保护珍贵或易损的馆藏文献。鉴于此,笔者认为以下各类文献应当优先考虑数字化。

1.1 优先数字化有利于国家和民族的知识积累、传播与创新

这一优先数字化原则是以符合本国利益、传播本国文化为目的的。考察许多国家数字图书馆的网页,都可以明显地感觉到这一点。例如,美国国会图书馆就是优先将美国1774年至1955年间各类历史、文化、史料性文献数字化,并通过因特网向全世界讲述美国的历史、战争与文化发展(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,(2))。日本也是优先将本国主要的学术刊物(含人文科学、自然科学、工程科学等)优先数字化,并通过因特网向全世界展现自己的文化、科学与技术水平。

因而,我国应当优先数字化本国的文化遗产,将被各类图书馆收藏的,由我国作者撰写的,其著作的有价值部分,与我国社会、政治、文化、科学及经济有关的内容优先数字化;本国的文化和科学领域具有代表性的出版物可考虑优先数字化。这些由本国人产生的,反映本国各方面活动的文献数字化后,通过因特网可在全世界传播中华民族文化与展现本国的科学技术水平。

1.2 优先数字化具有较高价值的本国文献

只有将具有较高价值的本国文献数字化,才有可能吸引国内与国外用户,只有这类资源才有可能在国际市场上具有竞争力;只有将具有较高价值的文献数字化,这类文献才可能为用户长期存取。具有长期利用价值的数字文献,才有可能使数字化初投资与其产生的效益相符。因而,我们必须将具有较高的文化价值、艺术价值、史料价值与研究价值的文献资源优先数字化,必须将本国的文化和科学领域具有代表性的出版物优先数字化。

1.3 优先数字化使用频率中、高的馆藏文献

数字图书馆发挥的社会效益与经济效益的大小,可以通过被访问的次数多少来衡量。只有将用户需求大的文献优先数字化,才可能提高数字图书馆被访问的频率。使用频率中高的馆藏,一般损坏风险也大。将这类文献优先数字化,可直接降低由于多次使用而给这类文献带来的损坏或丢失的风险,也促成了对这类文献的保护。

1.4 优先数字化进入公有领域的文献或不受版权法保护的文献

图书馆数字化活动应遵守知识产权法。对大多数图书馆而言,版权所有资料占馆藏的主要部分。数字化受知识产权保护的文献,需要与产权所有人协商。大多数情况下,协商版权许可是要付出高额费用的。例如,IBM在准备制作有关“哥伦布”的光盘时,仅为得到版权拥有者的同意,就花掉了100万(注:Michael  Lesk.Going  Digital.Scientifi  American,Mar.)。

目前,在我国大多数数字资料上网不收费或收费低微的情况下,如果将大量受版权保护的资料数字化,图书馆是承担不起支付著作权人的费用的。因而,我国馆藏文献数字化初期的活动,应主要集中在版权期满或不受版权制约的文献上。

世界各国对作者版权的保护期是有限制的,我国著作权法第21条规定,公民的作品,其发表权和著作财产权的保护期为作者终身及去世后50年,截止于作者去世后第50年的12月31日;如果是合作作品,截止于最后去世的作者去世后的第50年的12月31日。电影、电视、录像和投影作品的发表权、著作财产权的保护期为50年,截止于作品首次发表第50年的12月31日。照此,170年前发表的论著(即1832年以前的论著)或50年以前公开发表的音像制品,是可以考虑优先数字化,而不涉及版权问题。在此时期之后出版的文献,均应仔细地检查、核实其是否仍受知识产权约束。

我国知识产权法规定,不受著作权保护的对象有:法律、法规,国家机关的决议、决定、命令和其他具有立法、行政、司法性质的文件,及其官方正式译文;时事新闻;历法、数表、通用表格和公式等不受版权法保护。对于这类不受版权法保护,具有长期使用价值的文献,可以考虑优先数字化,例如国家制定的有关法律、法规等。

1.5 可考虑优先数字化缩微胶片文献,以充分利用已有的成果

由于多方面原因,缩微胶片文献应当优先数字化。

1.5.1 缩微胶片文献内容具有较高的研究价值。我国缩微胶片文献,大多是80年代初,在文化部主持开展的“抢救祖国文化遗产”的工程中形成的。为了有组织、有计划地将我国濒临损毁的、有长期保存价值的文献缩摄为胶片拷贝,近40个公共图书馆与文献收藏单位对本馆本地区的历史文献进行了全面调研。将具有长期保存价值的重要文献,分期分批地制作成缩微拷贝。现今,有重要史料价值的建国前的旧报纸、旧期刊以及古籍善本已经制作成缩微拷贝。目前,有重要价值的普通古籍、革命文献以及建国以

前出版的平装书、建国初期的报纸、期刊等仍在缩摄中,这些重要文献预期在前缩摄完毕。

由此可见,馆藏文献的缩摄拷贝凝聚了我国重要文献的内容。

1.5.2 数字化缩微胶片有利于克服阅读障碍,便于用户存取。以缩微胶片为载体的文献,利用起来十分不方便。例如,在提供利用前,需要查出所需文献的缩微胶卷盒号,而从这一卷含有成百上千页的文献中,用阅读器逐页查出所需文献,操作环节多,周期长,利用起来极不方便。所以尽管缩微胶片文献上藏珍聚宝,利用者却寥寥无几。将缩微胶片的模拟影像转换为以数字信息(数字图像或数字文本)后,可以用多种途径为用户提供服务,实现快速方便地检索与查阅,为世界共享中华文化提供了工具。

1.5.3 缩微胶片文献转换为数字信息,也减少了缩微胶片文献因复制和利用带来的损坏,实际上是对缩微胶片文献的保护。

1.5.4 缩微胶片的原件不宜再作数字化处理,制作缩微拷贝的大多数文献,由于年代久远,绝大多数处于急待抢救状况。即使保存状况较好的文献,其纸张也存在不同程度的劣化。近代出版物,如旧报纸、旧期刊中许多因纸张严重变质已无法继续流通,如果再对这些文献直接进行数字化处理,许多脆化的文献就会由此而损毁。

实验表明,用缩摄影像数字系统将缩微影像转换为数字影像,要比其纸质原件经平板扫描仪扫描后转换为数字信息快6倍(注:邵杰.“缩微胶片影像数字化转换及应用”在京通过鉴定.中国档案,(8))。可见,将缩微胶片文献数字化不仅避免了对原件的损坏,还节省了数字化的人力与时间。

将缩微胶片转换为数字图像文献的技术早已成熟,自1991年以来,OCLC的保存资源公司就已经扫描了多种格式的缩微胶片。实践证明,今天的技术已经可将所有标准胶片上的模拟信息转换为高质量的双色或灰色的数字影像(注:刘铁庄.美国图书馆资料从缩微胶片到数字化存取的转变.国家图书馆馆刊,(1))。

1.5.5 扫描缩微胶片要比直接数字化其原件,获取的信息更完整。按照缩摄中心的要求,文献缩摄前必须进行一系列的补配、加工与整理工作。例如,建国前的旧报纸,保存至今绝大部分已残缺不全,许多善本也破损严重。缩摄前,许多图书馆到全国各地图书馆或其他文献收藏单位对这类文献已经进行过补缺与修补,以及逐页检查、整理、修补和著录等一系列前期工作。尽管许多报刊能补齐的是极少数,但绝大多数文献经过补缺后,明显地提高了自身史料价值。有些重要报纸,长期破坏严重,经过大规模补缺,大多充实了内容。又如,对于古籍善本,在缩摄前还请了研究古籍的行家负责古籍善本著录标板的校编等。因而,直接对缩摄胶片进行数字化要比对其原件数字化,所获取的信息更完整、更充实。

由上可见,优先将缩微胶片文献转换为数字文献,无论从哪个角度分析都是十分有必要的。

2 宜于优先数字化的文献类型

馆藏文献的数字化除需要大量的人力、物力与财力外,还需要成熟的技术支持。尽管在馆藏文献数字化方面,我们已经取得不少成果,但许多问题仍在探索之中。我们优先数字化的对象应是具有成熟的技术支持、具有成功的经验可以借鉴,并且其转换经费还得合理。对于一些文献对象数字化后,其存取格式不为用户所认同,或在当前技术条件下进行数字化可能投资过大的,都应暂缓数字化。

当前,模拟转换后的文献大多可用两类格式进行存取,一类是图像格式,另一类是文本格式。这两类格式各有弊利,并各适于不同类型的文献。在制定优先数字化策略时,我们必须对这些问题进行认真分析。

2.1 存取格式与实现方式分析

通过对传统文献进行扫描或数码相机拍摄就可以得到传统文件的数字图像拷贝。数字图像文献的最大优点是可以保存文献原貌;制作技术相对简单、制作成本相对低。其最大的缺点是占用存贮空间较大,影响传递速度,但通过压缩技术的不断提高,这个问题不会是影响数字图像利用的主要问题。其关键的问题是,尽管可以制作一些检索工具提高对数字图像文献的检索速度,但目前的技术只能检索到检索词所在的.页面,不能像文本文件那样可以逐词、逐字检索到该字、词所在的句、段。这种存取格式最适于传统图片、图形文献,以及其他必须保存文献原貌的文献。

以文本方式存储文献信息的最大优势是可以通过检索系统实现模糊检索和逻辑检索,其检索深度直到所需查询的检索词所在的字句,查全率、查准率高,且检索速度快。其最大的缺点是不能保留文献的原貌以及原文献的字体,转换成本高,转换速度慢。对于以文本格式转换馆藏文献的不足,我们是可以回避的。例如,对一些不需要必须保留文献原貌的,只需要保留内容信息的文献可选取这种方式转换,但是该转换成本与转换速度是我们目前无法克服的。

目前将传统文献转换为文本格式文献主要有两种方式,一是键盘输入。用键盘录入文献内容不仅转换速度慢,录入过程中还会出现较多的文字错误,需要较大的校对工作量,无法实现工业化的资源生产。因而键盘录入方式对于大量传统文献的数字化转换工作,是没有经济可行性的。二是先转换成图像文件后再通过OCR软件将其变为文本格式。它是利用扫描仪和OCR软件(OCR:光学字符识别)。拟转换的文献先用扫描仪扫描,再用OCR软件识别,便可以将传统文献转换为可编辑加工的文本文件了。

中文OCR光学字符识别是一种文字文稿的自动输入方式,将一份文献的数字图像输入计算机,计算机取出每个文字和图像,并将其转换为汉字的编码。它不再需要敲击键盘,就可以将传统文献转换为数字文本文件。

我国从70年代末就开始研究OCR技术,到80年代中期,中文OCR已可识别上万个汉字,识别率在90%左右的软件已相当多,可以说中文OCR软件在模数转换中已经走向了实用。例如,“汉王OCR录入系统”可实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率较高,速度快、还能实现横校、纵校与对比校等。

然而,对于馆藏文献的数字化而言,由于汉字的复杂性,OCR对各类中文文献的识别远难于英文与数字的识别,如果识别率低于90%,OCR在馆藏文献数字化的实践中就会失去意义。因为过多的错误会花费大量精力和时间去校对,这会抵消OCR技术带来的效率,特别对于以下几类文献,OCR技术目前尚不能成功地解决问题:

2.1.1 含有繁体手写汉字的古籍文献

由于当前OCR还不能识别大字符集的繁体手写汉字,因而这类古籍文献如果想要数字化为文本格式,最大困难在于OCR识别后的校对工作。由于古籍还需要很多研究古籍的专家来对文本进行核对,因而失去了使用OCR的积极意义。

2.1.2 简繁混排的中文文献

这类文献识别率低,目前所有中文OCR都将识别字典分为简体字集和繁体字集来提供给用户,而对20世纪30年代至70年代的大量简繁汉字混合使用的印刷品,无论用户选择简体还是繁体,其识别率都极低。

2.1.3 专业性强的中文文献

这类文献误识率高,现有中文OCR基本上以GB2312-80的一级汉字作为基本字符集,对专业性较强的印刷品识别率不高。

2.1.4 难于机检的汉字文献

即使汉字库的容量非常之

大,在具体工作中,仍然有一些文字无法用字库中的汉字检索,如古代钟鼎文、甲骨文、篆字或其他图形汉字等。这些还有待于技术的进一步的开发,例如,近几年来,华东师大中国文字研究与应用中心正在大力开展古文字信息化处理研究,现已突破了计算机处理古文字的一系列难题。不久前开发出了“金文资料库”和“金文字库”,实现了严格意义上的金文的计算机文字处理等,使之既能最大限度地反映古文字原貌,又能快速地深入到句、段进行检索(注:文其.古文字信息化处理的可喜进展.光明日报,2002-05-22)。

综上所述,考虑到图书馆文献的多样性,以及用户对不同类型文献不同检索要求以及当前技术的可行性,必须提出优先数字化的文献类型的选择问题。将一些由于技术问题暂不能达到满意的检索效果,或利用当前技术将其转换为用户欢迎的格式可能费用过高的文献对象,暂缓考虑数字化。等待技术的发展或经验的累积再进行这类文献的转换工作,可能会更恰当、更现实。为此,笔者提出了优先数字化的文献类型设想。

2.2 优先数字化的文献类型

鉴于以上分析,笔者建议以下类型文献可以优先考虑数字化:

2.2.1 直接转换为图像文献就可以满足用户存取需求的对象,可优先数字化。

传统文献可以以多种方式转换为数字图像文献,例如,直接扫描、拍摄文献原件,或扫描其缩微拷贝等。其转换技术简单,转换成本相对较低,因而国际上目前的数字资源中,图像数据库与全文数据库的比例大约是9∶1(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。只要给每一图像文件赋一个文件名,并与对应的索引工具相链接,通过查找索引条目就可以直接得到该图像文件。因而,凡不必制作文本文件就可以满足用户需求的文献对象,均可以考虑优先数字化。这种类型文献主要有:图形或图像文献,书法篆刻,版画,名人手迹,印章,简、帛、金石铭文,拓片,甲骨文等。

(1)图形图像文献

图形图像文件是基本不以或完全不以文字记录信息,而是以图像或图形等形象化语言揭示人、物与事等的非文字文献。比起文字文献来,图形图像更鲜明、更直观、更生动。这类文献对象如图录、图片与版画等。

图录主要是用图形、图像或附以简要文字,反映各种事物、文物、人物、艺术、自然博物及科技工艺等形象的文献。图录包括地图和历史图谱、文物图录、人物图录、艺术图录、科技图谱等。图录有的编集各种历史图片资料,汇编各种绘图资料,或是摹绘、摄制和编集各种文物、人物、自然博物及科技工艺资料等,对于历史研究、文艺工作、工艺制作及科学技术研究都有重要的参考价值。

与图录文献不同,图片文献(包括照片与插图等),它们大多并未汇编为一集,而分散在不同文献之中。特别是照片,随保存时间延长,画面逐渐发黄,颜色消退,质地变脆;许多图片文献由于年代久远、存放分散而鲜为人知,使许多有史料价值的图片,湮没在浩瀚书海中。因而,无论从保存、利用还是管理的角度考虑,这类文献都需要优先数字化。

法国十分重视图形图像文献的数字化工作,早在上个世纪末,法国图书馆与各城市精品藏书馆合作,将原本分散于法国各地的古书的艺术插页用彩色高分辨率扫描入CD-R光盘中,送至国家图书馆新馆汇集后上网,让全世界与法国共享法国文化艺术精品,博得很高声誉(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。

(2)文字形体具有特殊价值的文字文献

有些文字文献,除文字表述的内容有价值外,其文字形体特征也具有重要的研究价值或欣赏价值,如果将其以全文本形式数字化,不仅费用太高而且将丢失字型本身所含有的重要价值。这类文献更宜于数字化为数字图像。因而,这类文献宜于优先数字化,例如金文、甲骨文或其他图形文字,简、帛、金石铭文,拓片,书法篆刻,名人手迹,印谱等。

2.2.2 OCR识别率高的文字文献

只要调制好扫描输入的技术指标,OCR的识别率可达90%以上的文字文献可考虑优先数字化为全文本文献,利用检索系统提供多途径检索。这一选择原则主要是基于数字化的成本与技术的可行性考虑的。一般说来,学术期刊、报纸文献以及现代书刊比较其他古籍文献来讲,OCR识别率较高。

【参考文献】

1 陈天伦.缩微工作十年.图书馆研究与工作,1997(1)

2 李健.我国图书馆的缩微工作.中国图书馆学报,1997(3)

3 任永芳.中文OCR与图书资料的再制作.江苏图书馆学报,(3)

4 凌山.OCR汉字识别技术.工程设计、CAD与智能建筑,(6)

5 National  Library  of  Australia  Digitization  Policy.2000~,http:www.nla.zov.ou/plicv.html(访问时间2002/6/6)

6 张伟云.大陆缩微技术应用与研究现状概述.中国图书馆学报,1997(2)

篇8:刍议高校图书馆纸质文献数字化加工业务外包

刍议高校图书馆纸质文献数字化加工业务外包

业务外包即“资源外取”.简述了高校图书馆纸质文献数字化加工业务外包的`必要性,论述了高校图书馆纸质文献数字化加工业务外包的优势,列举了福建师范大学图书馆纸质文献数字化加工外包中存在的问题.

作 者:张毅 宋萍 ZHANG Yi SONG Ping  作者单位:福建师范大学图书馆,福建省福州市,350007 刊 名:河北科技图苑 英文刊名:HEBEI SCI-TECH LIBRARY JOURNAL 年,卷(期):2009 22(4) 分类号:G251.5 关键词:图书馆   院校图书馆   纸质文献数字化   文献数字化加工   加工业务外包  

湖州市图书馆地方文献数字化构想

浅谈数字化图书馆

浅淡民办高校图书馆的数字化建设

公共图书馆地方文献的小册子

图书馆地方文献信息资源的管理模式

我国图书馆地方文献研究综述

图书馆数字化建设中著作权合理使用的价值和必要性

吉林省图书馆地方文献搜集四十年

图书馆地方文献的征集与利用

试议图书馆地方文献收藏工作

《中小型图书馆文献数字化的困难和策略探讨(精选8篇).doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

点击下载本文文档