- CADAL数字图书馆知识标准规范及应用研究
- 刘柏嵩
- 5179字
- 2020-06-28 08:34:49
1.4 信息组织的相关标准
1.4.1 相关标引标准
标引分为分类标引和主题标引,相对应的,标引的标准也分为分类法和主题词法。
1.4.1.1 分类法
基于分类法的标引标准发展较早。早在1876年,杜威就创立了《杜威十进分类法》(Dewey Decimal Classfication, DDC),可以说是开辟了图书分类法的新纪元。1901年,美国《国会图书馆图书分类法》(Library of Congress Classification, LCC)首次发表大纲,至1962年正式出齐,成为一种通用的图书分类法,在20世纪被广泛应用。
目前,在全世界使用最广泛的是《国际十进分类法》(Universal Decimal Classification, UDC),又称“通用十进制分类法”,是国际通用的多文种的综合性的文献分类法。《国际十进分类法》由奥特莱和拉封丹在《杜威十进分类法》的基础上编制而成,1899年起陆续以分册形式出版,1905年汇编成《世界书目手册》,1927年的法文增订版更名为《国际十进分类法》。现UDC由国际文献联合会(Fédération Internationale de Documentation, FID)统一负责其日常管理事务,并主持对其的修订工作。UDC是欧洲第一部文献分类表,也是世界上规模最大的一部文献分类法。它最早提出概念分析和组配原则,被称为分面组配式分类法的先驱。由于UDC多语种、多版本,类目详细、组配灵活、标引能力强,因而不仅适用于成册文献的分类和排架,还能满足单篇文献的分类要求;不仅适用于手工检索,还被成功地应用于机器检索,从而成为一种国际通用的情报检索语言之一。20世纪80年代后期,全世界已有50多个国家使用UDC,用户总数超过10万个。英国、匈牙利和西班牙把UDC定为国家标准,苏联则规定UDC为类分科技文献的分类法。许多国家出版的期刊论文和特种技术资料都标有UDC类号。中国国家标准(GB)上也标有UDC的类号。
在成立初期,图书馆使用各种不同的分类法,其中较常用的有《人大法》《科图法》等。1975年,《中国图书馆图书分类法》(以下简称《中图法》)问世,它是中华人民共和国成立后,我国编制出版的一部具有代表性的大型综合性分类法,出版后就被各类图书馆所广泛使用。1980年,《中图法》第2版修订出版。1990年,《中图法》第3版修订出版。1999年,《中图法》第4版修订出版。修订后的《中图法》第4版增加了类分资料的类目,并与类分图书的类目以“+”标识进行了区分,因此正式改名为《中国图书馆分类法》。《中图法》第4版全面补充新主题,扩充类目体系,使分类法跟上科学技术发展的步伐。同时,规范类目,完善参照系统、注释系统,调整类目体系,增修复分表,明显加强类目的扩容性和分类的准确性。2001年,《中图法》第4版出版了电子版。2010年9月,《中图法》出版了第5版。此次修订幅度较大,新增1631个类目,停用或直接删除约2500个类目,修改类5200多个。《中图法》自出版以来,就得到了广泛应用,全国各级各类图书馆96%都在使用,它成为分类法的事实标准,实际占有国家标准分类法的地位。
1.4.1.2 主题词法
相比分类法,主题词法的发展较晚。1974年出版的《单语种叙词表编制和发展准则》(ISO 2788—1974)是第一个正式的国际标准。
在我国,全国文献工作标准化技术委员会是一个基础性的文献标准化工作组织,其第五分会是主题标引分技术委员会。该委员会自成立以来,在标引标准化建设方面取得了一些显著进展。到目前为止,已作为国家标准批准颁布的有五项:GB/T 13745《学科分类代码》、GB 3860—1995《文献叙词标引规则》、GB 13190《汉语叙词表编制规则》、GB 15147《文献多语种叙词表编制规则》,以及GB 15418《档案文献标引规则》。
《汉语主题词表》是我国第一部大型的综合性叙词表,1980年出版以后,所确立的词表结构体系和词汇基础都得到了广泛的认可,为其他词表的编制起到了规范作用,大大地推进了图书馆的标准化工作。
1.4.2 基于元数据的信息资源描述标准
元数据,即数据的数据,是用来描述数字化信息资源并确保这些数字化信息资源能够被计算机自动辨析、分解、提取和分析归纳的一种框架或一套编码体系。
基于元数据的信息资源描述标准目前使用最广泛的有两种:一种是使用较早的元数据标准——机读目录标准(MARC),一种是描述网络信息资源的元数据标准都柏林核心元数据(DC)。
1.4.2.1 机读目录标准(MARC)
MARC的全称为machine readable catalogue,中文名称为机器可读目录,是图书馆自动化系统之间传输和交换机读目录数据时共同遵循和使用的标准记录格式。它规定了书目数据在机读介质上的表示和标识方法,实现了对书目数据的描述、存储、交换、处理及检索。MARC是目前世界上历史最悠久、发展最成熟,同时使用最为广泛的一种元数据标准。
各个国家为了适应自己国家著录信息的需要,都制定了相应的MARC,故MARC的格式众多,但这些格式都是在USMARC, MARC 21, UNIMARC的基础上发展起来的,中国的机读目录格式称为CNMARC。下面分别对这四种MARC格式进行介绍。
1.USMARC
USMARC,即美国机读目录标准,原来也称为LCMARC,是由美国国会图书馆在20世纪60年代开始制定的。1966年,其制定出了MARCⅠ标准。经过一年多的试用,在MARCⅠ的基础上,美国国会图书馆于1968年又制定出了MARCⅡ标准。到1971年,美国国家标准学会批准LCMARC为《书目数据交换磁带美国国家标准》(ANSI 239.2—1971), LCMARC从此被称为USMARC。
USMARC所依据的国际标准是ISO 2709—1996《信息和文献 信息交换格式》。ISO 2709规定了机读目录记录的基本结构,它规定MARC记录由一些具有字段指示符的变长字段组成,它的结构包括记录头标区、记录目次区、记录数据区和记录分隔符。由于ISO 2709适用于各种文献类型和语言,具有很大的灵活性,因此它的颁布很快在世界图书情报界得到普遍应用,成为制定各种机读目录格式的基础。随着各文献机构自动化建设的发展,许多国家和地区以及国际组织都采用ISO 2709所规定的地区及组织的标准机读目录通讯格式。
2.MARC 21
MARC 21是由美国国家图书馆和加拿大国家图书馆于1999年在USMARC和CAN/MARC的基础上合作制定的,它是为响应网络时代而产生的一种通用的、开放性的资料格式。MARC 21包含五大部分,即书目数据MARC 21格式(MARC 21 format for bibliographic data)、规范数据MARC 21格式(MARC 21 format for authority data)、分类数据MARC 21格式(MARC 21 format for classification data)、团体信息MARC 21格式(MARC 21 format for community data)和馆藏数据MARC 21格式(MARC 21 format for holdings data)。
3.UNIMARC
UNIMARC,即国际机读目录标准,是国际图联(International Federation of Library Associations and Institutions, IFLA)于1971年开始设计的一种通用的机读目录格式,其目的是为了实现各国机读目录的共享。IFLA于1977年正式出版了《通用MARC格式》,即UNIMARC第1版,1982年出版了UNIMARC第2版,1991年出版了与之配套的《UNIMARC规范格式》。UNIMARC可以描述各种类型的文献,具有很好的灵活性,因此被很多国家和地区所使用。
4.CNMARC
CNMARC,即中国机读目录标准,由北京图书馆编制,在1992年先出版了《中国机读规范格式(试用本)》。1996年,北京图书馆对原试用本进行修订,正式出版了《中国机读目录格式使用手册》(CNMARC)。
CNMARC是依据UNIMARC编写的,遵循ISO 2709国际标准。正如《中国机读目录格式使用手册》所指出的,CNMARC“主要用于中国国家书目机构同其他国家书目机构以及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目数据”。
CNMARC虽然依据UNIMARC编写,但是根据我国信息资源的情况和用户的实际需求,增加和删减了一些字段,同时在编排格式和体系结构上也遵循了我国国家标准的编写习惯。
1.4.2.2 都柏林核心元数据(DC)
DC元数据是1995年3月在美国都柏林举行的第一届元数据研讨会上确定的13个元素的元素集,后又扩展到15个元素,即题名、主题、描述、来源、语种、关联、覆盖范围、创作者、出版者、其他责任人、权限、日期、类型、格式和标识。这15个元素具有可选择性、可重复性和可扩展性。DC元数据是在计算机和网络的自动搜索、标引、索引、检索等研究成果的基础上,充分吸纳图书情报界的分类、编目、文摘等经验发展起来的。它是描述、支持、发现、管理和检索网络资源的信息组织方式,元素的结构化和层次性是其最大的特点。它支持字段检索,提供对特定资源足够全面的描述信息,使用户不用真正链接到检索资源本身就能对信息资源有全面的了解。
1.4.3 网络信息资源标引标准
随着计算机网络技术以及通信技术的发展,网络信息资源的数量呈几何级增长,已经成为信息资源的主体,因而网络信息资源标引也成为现代信息资源标引中首先要解决的问题,其标准也在传统标准的基础上产生了新的变化。
1.4.3.1 MARC在网络环境下的发展
为了适应网络信息资源的发展,MARC在网络环境下的发展主要表现在以下两个方面:
一方面,MARC扩充和增加了字段,如增加了307字段描述文献检索或文献时间,用51b字段描述计算机文件类型或数据注释,增加856字段描述网络信息资源的地址等。
另一方面,与标记语言XML相结合,形成XMARC。XML是在SGML的基础上发展起来的一种可扩展的标记语言,它保留了SGML系统中的核心部分,使其具有很好的适应性和可扩展性,同时又省去了SGML中复杂而很少用到的部分,简化了SGML,使其具有很好的灵活性和实用性,方便其使用和推广。XML的元素不是事先定义的,使用者可根据自己的需要定义文件元素集合,并按自己的要求把这些元素表现出来。
XML在信息资源组织与检索方面应用广泛,XML与MARC结合形成的XMARC,推动了信息资源组织方式与结构在理论上的巨大变革以及在实际应用中的发展。
1.4.3.2 网络信息资源标引标准的发展方向
传统的信息资源标引标准是使用统一的分类法,而在网络环境下,网络信息资源与传统的文献信息资源相比,表现出动态性、随意性和多维性的特点,使得传统分类方法在网络信息资源标引中存在以下局限性:一是不能表现网络信息的动态性。网络信息是实时更新、实在变化的,具有高度的动态性,而传统分类方法的稳定性在组织网络信息资源时反而限制了信息表达的更新,从而不能及时反映出信息的动态变化。二是不能表现网络信息的随意性。网络信息多而杂,并不会按照固定的格式来体现,而传统分类方法的严谨性与这种随意性相冲突,它的高度规范化的标识并不易把类型庞杂、范围广泛且彼此关联的网络信息表示出来。三是不能表现网络信息的多维性。网络信息具有多维性,它是多元的、交互式的,而传统分类方法一维性的表示方法不易体现这种多维性。
由此可见,传统的信息资源标引标准的分类法在网络环境下有其局限性,其适应性是学术界争论的一个问题。目前,网络信息资源的分类方法主要有两种:一种是采用传统的分类方法;另一种是采用自创的分类体系。大多数提供网络信息检索的搜索引擎或门户网站都采用自创的分类体系进行信息组织。这些自创的分类体系充分考虑了网络信息动态性、随意性和多维性的特点,能把实时的、彼此间具有关联性的信息提供给用户,满足用户的需要。但是这些分类体系也存在不足,主要表现在类目设置缺乏规律性、大类设置不全、类目设置不科学、类目级数不合理、部分类目名称不规范等方面。由于这些分类体系都各自为政,使得用户在使用不同的网站时,就会带来理解上的困难,同时也不利于网络信息资源的共建和共享。
在网络环境下,要解决各搜索引擎和门户网站自创分类体系所带来的问题,就需要改变目前的分类方法和分类体系。我们可以以传统分类体系为基础,吸收已有的网络分类体系的经验和成果,以促进信息共享为目的,构建统一的网络信息分类体系,实现网络信息资源标引的标准化。这种标准化将以通用化、兼容化,以及以用户为中心作为发展的方向。
1.通用化
通用化是网络信息资源标引标准发展的首要趋势。网络是一个跨越国界、多种语言共存的虚拟世界,在网络世界中信息资源的共建和共享是网络发展的必然趋势;而要做到共建和共享,使用国际通用的标准就是必要的基础条件。原因包括如下两方面:其一,不同的标准会使同类的资源信息表现出不同的形态,这样会大大地增加信息资源的共建和共享的难度;而采用通用的标准则与之相反,会使信息资源的共建和共享更易实现。其二,网络使用户能够更加便利地获取信息,如果采用各自为政的标准而舍弃通用标准,则会大大增加用户在使用不同网站时获取信息的难度。因此,为了更好地实现网络信息资源的共建和共享,需要做到网络信息资源标引标准的通用化。
2.兼容化
兼容化是网络信息资源标引标准发展的必然趋热。首先,制定通用化的标准,需要对原有的各种分类方法进行兼容,使其能用统一的表现方式标引出用户所需要的信息。目前,世界上已有相关单位对现有的几种大型的分类法进行兼容化操作,如UDC与DDC正在计划合作编制地区表,希望在国家及地区概念的表达上取得一致。其次,标引标准的分类法与主题法也在进行兼容,形成分类主题一体化。虽然网络信息大多是以主题来聚类的,但信息分类也是必不可少的,而分类法在网络上的使用,更是推动了主题法与分类法的兼容。最后,在上文中我们也已提到,很多网站都有自己的分类体系,存在着无法兼容的问题,给用户查找信息带来很大的不便。因此,使得网络信息资源标引标准具有兼容性,对规范网络信息资源的建设、方便用户使用等具有重要的意义。
3.以用户为中心
以用户为中心是网络信息资源标引标准发展的最终趋势。网络信息资源标准的通用化与兼容化,最终目的都是为了让用户能够更加方便、更加快捷地获取和使用网络信息资源。未来的信息服务和信息组织必将更加重视以人为本,使用户以最小的努力从最有效的信息组织方式和服务中得到所需的信息。因此,以用户为中心是实现网络信息组织标准化的根本出发点,也是网络信息资源标引标准发展的最终趋势。