《图书馆关联数据孵化小组:数据集、属性值词汇及元数据元素集》是W3C发布的Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets(2011-2-25)中文译本。文中存在的译法不当和错误之处,欢迎批评指正。请发邮件 lxmsmile2006@gmail.com

翻译说明:

译者:
娄秀明,同济大学图书馆

更新时间:2012年5月1号


W3C W3C Incubator Report

图书馆关联数据孵化小组:数据集、属性值词汇及元数据元素集

W3C孵化小组报告 2011年10月25号

当前版本:
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/
最新版本:
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
作者
Antoine Isaac, 欧盟和阿姆斯特丹自由大学, 荷兰
William Waites, 爱丁堡大学(信息学院), 英国
Jeff Young, CLC联机计算机图书馆中心, 美国
Marcia Zeng, 肯特州立大学, 美国 (W3C特邀专家)

参见翻译.


摘要

2010年5月至2011年8月W3C图书馆关联数据孵化小组(W3C Library Linked Data Incubator Group)获得认可期间,定义自己的使命是“通过带动更多的人参与语义网活动--特别是关注图书馆及相关领域关联数据活动,应用现有的先导活动,确定未来合作发展的轨迹,以此促进图书馆数据在万维网上的互操作”。在关联数据[LINKEDDATA]中, 数据的表达采用统一标准,包括用于描述事物之间的关系的资源描述框架(RDF)和统一资源标识符(URIs, 或者"网址")等标准。

关于数据集、属性值词汇及元数据元素的报告是对小组主旨报告的补充。本报告以用例中数据的收集为基础,此外,专家组对其进行了补充。本文档是对当前关联数据发展现状的总结,特别是关于图书馆关联数据方面做出的努力。

文档概况

此部分介绍了该文档发布时的情况,该文档也可能会被其他文档取代。 孵化小组最终报告的列表,详见 W3C技术报告索引

该报告作为W3C孵化活动成果的一部分而由W3C发布,但并不等于该文档由W3C认可,也不等于说W3C将投入资源以解决由该文档所提出的问题。参与孵化小组及发布孵化小组报告对W3C的成员都是有益的。

孵化小组的目的是生产能在免税基础上被应用的产品,这正如W3C专利政策所定义的。孵化小组的参与者均同意根据W3C专利政策许可协议而提供许可,即允许W3C今后在某W3C推荐文件(W3C Recommendation)中采用孵化小组报告的部分内容。

目录

1 介绍:范围与定义

本文档由W3C 图书馆关联数据孵化小组制定,意在试图确定在图书馆领域创建或者消费关联数据的有用资源集合。本文档试图为初学者了解图书馆关联数据概貌提供途径,为专家快速浏览或者复习提供好的研究途径。孵化小组的最终报告表 明关联数据在任何领域的成功应用依赖于实践者标识、重用或者与已有数据集和数据模型建立关联的能力。图书馆关联数据的成功应用也不例外。对于复杂多变的图 书馆数据,标识尤为重要,在撰写本报告时,已有许多图书馆数据资源作为可用的关联数据。我们希望本报告对那些致力于从事本项任务的人有所帮助。

本文档的另一目的是为关联数据社区了解图书馆社区处理数据时的专业观点、应用的资源和术语提供了机会。同时,帮助图书馆及信息科学专业人士将传统情况同关联数据概念对应起来。在先前的图书馆术语注释活动中 ,我们已经确认了以下几类相关的资源,他们彼此间不是相排斥的(在文档中表现更为明显)。

本报告为实践者发现、了解和利用元数据元素集、属性值词汇和数据集方面案例提供了切入点。本报告主要以孵化小组收集的用例 为基础。我们没有打算穷尽所有图书馆关联数据“云”的相关资源。我们希望本报告是作为对那些已完成的工具列表(如语义网搜索引擎 (像 SindiceFalcons)),其他调查(如关联开放词汇)或者注册服务(如开放元数据注册, Schemapedia 或数据中心(Data Hub))的补充,这将激动人心。我们鼓励读者利用那些资源,就像今天我们为数据中心注册服务(Data Hub registry)所做的。

2 数据中心的图书馆关联数据

数据中心(Data Hub)是一个数据注册机构。在该网站上,人们可以共享所有类型的相关数据包,也可以合作对其进行描述。虽然数据中心注册服务本身不是关联数据服务,但它包含的信息都有一个关联数据版本 。数据中心的大多数数据都使用关联数据形式描述的。

数据中心的数据包按照小组分类,小组是由社区管理。该数据中心管理LOD云中各个组成成员的信息,也包含子集图书馆关联数据---包含上述定义的图 书馆数据集和属性值词汇。那些小组的参与者在使用标签描述数据中心所包含的数据包方面达成共识。本文档,下面的列表,包含信息有:数据的规格、资源案例、 获取方法(例如SPARQL协议 和 RDF 查询语言 (SPARQL) 终端)),最为重要的是同其他数据包的关联,参见:

在数据中心添加新的数据包帮助提高知名度:这是一个具有代表性的数据包列表。遵循LOD和图书馆关联数据小组的规则,保证了其同其他数据包的关联正 常归类,也被视为是日益增长的关联数据集的一部分。这里列出的数据集都将出现在图片和可视化程序里,可视化也是关联数据研究的一部分。保证数据归类的一致 意味着我们可以创建工具更深入的了解数据的本质及如何更好的将他们组织在一起。这种认识过程很重要,可以很容易的确定某一特定数据包适合或者适用于某个既 定的任务,因此创建数据比使用数据容易的多。

为了进一步说明上述内容,请参考下图:

Snapshot of the graph of interrelated Library Linked Data sets from the Data Hub

更新的快照,参见: http://semantic.ckan.net/group/?group=http://ckan.net/group/lld

颜色鲜亮的圆圈描述的数据包是数据中心中图书馆关联数据小组的。灰色圆圈描述的数据包是与小组关联的但不是图书馆关联数据小组的组成成员(他们一般是数据中心关联开放数据云小组的成员)。圆圈的大小和线条的粗细分别与数据量的大小及外联数量相关(对数的缩放原理)。

该图由逻辑算法自动生成,代表了本报告发布时,数据中心中图书馆关联数据小组的现状。这已经比我们刚开始的工作有了很大的改变了,我们希望在不久将来会有更大的不同。例如,在我们开始撰写本报告时,国会图书馆名称规范文档才刚刚发布,处在边缘地带并且没有什么关联资源,但是在未来的几个月可能会发生变化。

考虑到目前开放关联数据云图的爆炸式增长,该图也表明了复杂多变的Web链接的呈现具有一定的困难。然而,图书馆关联数据存在的被高频率关联的数据包是显而易见的,很多是与非来自图书馆的数据集关联地,如DBpediaGeoNames被高频率的关联。很明显,与其他非中心点数据关联也是相当普遍的:虽不是枢纽地带,但是也非常有用。

3 已发布的数据集

本章节列出了本报告撰写时, 图书馆关联数据小组在数据中心提供的所有数据集(大部分是书目记录),更多详细信息,读者可以点击下面每个页面的链接。

BibBase
BibBase.org方便科学出版物在互联网上传播。
英国国家书目 (BNB)
英国国家书目作为关联数据发布,外联的资源包括:虚拟国家规范文档(VIAF),、美国国会主题词表(LCSH)、 Lexvo((提供关于语言、字符、单词、人类语言其他相关信息的信息http://www.lexvo.org/))、 地理名称(GeoNames)、 MARC 国家和语言代码、 Dewey.info(杜威分类法的关联数据版本http://dewey.info/)、RDF 书籍整合等....
Calames
Calames 是法国档案和手稿的学术联合目录,由ABES维护。
美国编年史(Chronicling America)
美国编年史提供了获取美国历史信息的报纸,并可以选择数字化报纸页面。 它包含了14万份报纸和 320万个页面
剑桥大学图书馆数据集#1
这是 COMET项目第一个主要的成果, 受剑桥大学图书馆和CARET的联合信息系统委员会(JISC)基金赞助。
data.bnf.fr - 法国国家图书馆
data.bnf.fr 收集了法国国家图书馆不同数据库的数据, 创建了关于作者和作品的Web页面,并将提取的数据做成RDF视图。
苏格兰登山委员会期刊1-36卷
苏格兰登山俱乐部期刊1890-1901年1至36卷的数字化档案,由斯特拉斯克莱德大学的阿兰.道森(Alan Dawson)创建,受苏格兰登山信托的基金(Scottish Mountaineering Trust)支持。
CrossRef 数字对象标识解析
(译者注:CrossRef起源于由美国出版者协会(AAP)、国际数字对象标识符基金会(IDF)、美国国家研究创新公司(CNRI)以及多家出版商共 同参与研究与开发的DOI—X实验项目)数字对象标识 (DOI) 是永久标识策略,已有约3000个出版者用DOI标识他们的文档,这其中大部分都是学术出版物。
Europeana关联开放数据
data.europeana.eu pilot 是 Europeana成果的一部分, Europeana意在将元数据作为关联开放的元数据发布到Web上。目前提供 350万条元数据。
Freebase
Freebase包含世界上的所有信息的开放数据库。由社区创建,并服务于社区----免费供人查询、贡献资源、搭建应用或者整合到自己的网站中。
匈牙利国家图书馆 (NSZL) 目录
OPAC 、数字图书馆和相应的规范数据作为关联开放的数据。
关联的期刊数据库
关联的期刊数据库是一个数据集,该数据集来自数据孵化器,孵化器整合的期刊数据由CrossRef,、Highwire 出版社和国立医学图书馆提供。
lobid.图书馆及相关机构的索引
lobid-organisations 为图书馆机构的提供了 URIs ,基于对图书馆及相关机构已存在的有良好基础的国际标准标识(ISIL)之上。
lobid.书目资源
lobid-resources提供获取关于书目资源(如书、文章、pdfs等)元数据的服务。目前提供700多万条记录。
medline
采用RDF格式描述 Medline 目录。190万篇文章的信息,通过文献标识与 http://dx.doi.org/ 关联,通过有期刊标识与 http://crossref.org/ 关联。
挪威科技大学特藏文献集
数字化历史手稿被保存在挪威科技大学特藏室(NTNU)。
开放图书馆
为曾经出版的每本书做一个Web页面。目前从各个目录库中整合约200万条记录。
17世纪荷兰印刷书籍拍卖目录中英语类书籍列表
荷兰印刷书籍拍卖目录的英语语种部分所列的书是学者和神学者的文献集合。
ePrints3 机构档案集合 (RKBExplorer)
具有一定数量的ePrints3档案的关联数据版本。
ECS Southampton EPrints
由EPrints 服务器产生实时数据,不同于RKB Explorer服务。
Sudoc书目数据
Sudoc是法国学术联合目录,由ABES维护, 包含 100万条书目记录。
Talis 平台中开放图书馆数据的镜像
使用来自开放图书馆JSON的数据栈建模,提供SPARQL终端和开放检索界面(具有RSS1.0输出)
theses.fr
theses.fr是法国学位论文搜索引擎,由ABES维护。
西南图书馆集团的关联数据服务
使用RDF发布一定数量的书目资源: 西南图书馆集团的书目数据, 黑森林州的书目数据, 图书馆信息系统及其他。
萨塞克斯大学读物列表
通过大学读物列表搜索引擎,获取可用资源的关联数据版本。
20世纪新闻档案出版
有300多万个文档,主要按照人物、公司、其他法人机构、产品及与经济相关的主题发布。

4 属性值词汇

4.1 已发布的属性值词汇

本部分阐述了属性值词汇,这些词汇是作为可用的关联数据,或者在作为与某个孵化小组用例相关的资源所提到属性值词汇。

每个词汇的简单介绍的款目都赋予链接。此外,属性值词汇所涉及的孵化小组收集的用例也在每个条目下列出。

4.1.1 分类系统

杜威十进制分类法 (DDC)

杜威十进制分类法简表是一个比较适中的数据集,它包含杜威十进制分类法的基本大类,它提供了与具有3种语言的删节14版(分配类号和标题)对应的具有11语言的三级类目表。

通用十进制分类法(UDC)

通用十进制分类法(UDC)是个适合多领域的多语言分类体系。UDC简表(Summary)描述了从UDC体系中抽取了大约2000个类目。[1]

4.1.2 标题表与主题规范文档

美国国会标题表 (LCSH)

LCSH是一个作为印刷出版的及作为关联数据的一个综合性标题表。规范标题可以通过国会图书馆规范和词汇服务获取。

百科全书及统一字母的规范内容索引 (RAMEAU)

RAMEAU主题标引词汇用于法国国家图书馆标引(BnF)。起始于魁北克大学主题标引存储的研发,继承了美国国会主题词表(LCSH)。RAMEAU通过TELplus项目实现关联数据的发布

德国国家图书馆(SWD)

该受控词汇系统由德国国家图书馆(DNB)管理,配合各种图书馆网络工作。SWD列出的关键词由“关键词目录规则”(RSWK)定义。[2]

日本国立国会图书馆标题表(NDLSH)

国立国会图书馆件名标目表列出的主题词适用于日本国立国会图书馆目录,主要包括论题标引词和一些适当的名称标引词。[3]

4.1.3 名称规范数据

虚拟国际规范文档 (VIAF)

VIAF 是世界上多个国家图书馆的联合项目,将参与机构的名称规范文档整合成一个单一的名称规范服务。在本文档撰写时,已经有18家组织参与,发布了21个关于个人、机构及会议名称的规范文档。[4]

盖蒂联盟艺术家名称列表(ULAN)

ULAN是一个结构化的词汇,包含了225,000多个名称及关于艺术家和建筑师的传记和书目信息,包括大量的变更题名、笔名及其他语言名称。

虽然 ULAN 本身尚未作为关联数据发布,但其作为盖蒂研究所成果的一部分被纳入VIAF 中。

美国国会图书馆名称规范文档 (LC/NAF)

LC/NAF提供人物、机构、事件、地点及题名名称的规范数据,根据不同的编目规则,在过去的几十年里创建超过8亿条描述记录。LC名称的正式名称是名称规范构成(NACO)规范文档,是参与者共同努力的结果,在合作过程中参与者要遵循一致的标准和规则。

GeoNames

GeoNames理数据库包含了超过10万个地理名称。75万个独一无二的地理特性,28万个有人居住的地方及55万个变更题名。 [5]

4.1.4 叙词表

STW 经济学叙词表

该词表提供了关于经济主题的词汇,其内容也涉及到覆盖法律、社会学或政治和地名名称方面的技术术语。[6]

AGROVOC

AGROVOC是一个多语种结构化的受控词表,由联合国粮农组织(FAO)发布 ,该词表的设计覆盖了农业、林业、渔业、食品及相关领域的术语。[7]

Eurovoc

Eurovoc 是一个多语种多学科的词表,覆盖了欧盟的所有活动,特别是欧盟的会议活动。其所包含的款目涉及到24种语言(在撰写本报告时)。[8]

图片资料叙词表 (TGM)

国会图书馆的图形资料词表包含了超过7000个主题术语,用于标引图片所展示或者所反映的主题,包含了650个类型/风格术语,用于标引照片、版画、设计图、ephemera及其他类别的类型。[9]

4.1.5 其他类型受控词汇

DCMI 类型词汇

都柏林核心元数据活动 (DCMI) 通用的跨领域的列表提供的术语,可以作为资源类型元素的属性值词汇,用于标识资源的类型。

MARC 相关关系代码 (也包含于元素集中)

MARC (机读目录)的Relators术语提供了一个属性列表,用于描述名称和书目资源之间的关系。

PRONOM

PRONOM 为文档格式、软件产品及其他用于支撑永久获取电子记录和其他数字化对象(如文化、历史或者商业价值)的技术架构的技术信息在线注册。[10]

知识共享协议集(CC)

知识共享协议提供了一个基础框架,该框架有一套版权许可证和工具组成,这些版权许可证和工具用于平衡著作权中规定的“授权”。[11]

来自 LoC的保存性词汇

提供了两个主要词表。 保存事件是保存性事件的概念体系,即是保存库中数字化对象的活动保存等级 是一个关于保存等级地位的概念体系,即属性值指定了何种背景下的一套保存选项设置是合适的。

4.1.6补充资源

Wordnet

WordNet是一个英语词汇数据库,包含的名词、动词、形容词和副词按照认可的同义词归类(称为“同义词集”)。每个同义词集描述了不同的概念。同义词集通过概念-语义和词汇关系内联[12]. Wordnet由阿姆斯特丹大学发布为关联数据

Freebase (也包含于数据集中)

Freebase 是一个开放的可共享的结构化数据集,通过Freebase API 平台获取和处理数据。Freebase从很多渠道导入开放的数据资源,如:Wikipedia、MusicBrainz、和其他 [13]。注意Freebase 本质上是一个数据集,但是其包含了大量的参考资源,这些资源中的部分资源可以在某些用例中作为属性值词汇使用。

DBpedia

DBpedia 从 Wikipedia中抽取结构化信息。 DBpedia数据集为300多万个实体赋予了标签和摘要,有一半归为本体,包含了成千上万个指向图片、外部Web页面及其他RDF数据集的链接[14]. 同 Freebase相似, DBpedia 可以被看作通用数据集,但是它所描述的一些实体—地点、人物,“类目”—在一些用例中可作为参考属性值词汇使用。

4.2 工作进展或者与用例相关的进展

水产科学与渔业(ASFA)叙词表

本词表用于水产科学和渔业摘要的标引(ASFA),摘要和标引服务覆盖了世界文化,具体包括科学、技术、管理、海洋保护、半咸水、淡水资源、环境,还包括他们的社会经济和法律问题。

渔业参考元数据

渔业参考元数据系统存储了渔业类的所有相关分类系统(如物种、国家、水域、商品、渔船、渔具等),这些信息可以为联合国粮农组织描述渔业报告所用,如渔业捕捞和生产时间表、物种现存列表。

国家农业图书馆农业叙词表与术语表

农业叙词表与术语表是提供英语及西班牙语的农业术语在线词汇工具,由USDA 国家农业图书馆 (NAL)提供。农业主题范围在NAL农业词表里得到广泛定义,包含支撑生物学、物理学及社会科学方面的术语。词表中定义的术语被单独作为农业术语发布。[15]

盖蒂艺术与建筑叙词表(AAT)

一个多语种受控词表,用于艺术、建筑、装饰艺术、档案材料、物质文化的标引、编目、检索以及作为研究工具。

医学主题词表 (MeSH)

一个综合性受控词表,由医学国家图书馆(NLM)制定,用于生物医学和健康类相关的信息或者文件标识。西班牙和法语版的MeSH作为在BioPortal作为语义网本体提供。挪威翻译版的 MeSH由挪威科技大学发布成关联数据。MeSH的其他版本,通过简单知识组织系统(SKOS)编码的, 通过OCLC 术语服务提供。

Iconclass

该分类法系统用于各种媒体(如油画、素描和照片)图片的主题描述和归类。

盖蒂地理名称叙词表 (TGN)

一个覆盖世界地理信息的结构化词汇,有130多万个地理名称, 包含俗名和历史名称、坐标、地理类型、描述注释,侧重于艺术和建筑研究的重要地位。

4.3 与图书馆关联数据相关的,但用例未提到的属性值词汇

纽约时报主题词

纽约时报使用了大约30,000个标签标识时代主题页面。那些标签 (分为'人物', '组织', '地点', '描述') 发布成了关联数据,并且和Freebase、 DBpedia、GeoNames建立了映射。

MARC国家代码表

MARC国家代码列表标识了目前的国家实体,美国的州郡、加拿大和澳大利亚的省市及地区、英国的岛国及国际公认的属国。款目包括了其同ISO 3166 codes对等代码的参引。

MARC语言代码表

MARC语言代码列表提供了3个字符的小写字母的字符串,用于语言或者语言类型标识。 在某些地方,交叉引用了 ISOs 639-1, 639-2639-5

MARC 地域代码表

MARC 地理区域代码列表用于标识独立的国家,第一位是国家的政治划分,地区、地理特征、外太空、天体。列表包含了550多个不同的代码。[16]

5 元数据元素集

本节列出的元数据元素集是2010-2011年图书馆关联数据小组收集的用例中提到的(cases gathered by the Library Linked Data group in 2010-2011)。包含了很多与RDF相关的词汇,这些词汇适合那些想重用已有的语义网技术在图书馆领域创建或者转化数据的实践者。

那些RDF词汇使用RDF Schema (RDFS)和OWL本体语言(OWL Web Ontology Language)建模语言提供的结构进行描述的。除了被视为是维护者提供的文档,本体也可以视为是使用通用的本体创建和可视化的工具,例如ProtégéManchester 本体浏览器OWL Sight 或者实时 OWL 文档环境 (LODE)(参见: LODE中呈现的项目描述本体 (DOAP) )。

对每个元素集,我们给出了人类-可读的网站,并显示了相应的RDF命名域,命名域有共同的前缀缩写,使用XML命名域声明语法。我们也提供或者重用 简短的描述,关注元素集主要范围或者应用领域。我们经常强调设计元素集特征的重要决策,包括元素集是否与其他元素集关联的声明及其与图书馆传统应用之间的 关系。孵化小组收集的用例也作为相关用例列在每个款目下。

为了更好的描述,本部分给出了一个由元素集生成的标签云,该标签云图摘自Paul Walk创建的网站:

Metadata Element Set Tag Cloud

注意本标签云是针对元数据元素集特定应用背景的快照。 特别之处在于每个标签的大小直接与其应用的个例数量相关,个例由图书馆关联数据孵化小组收集。除了基于孵化小组用例的分析外,图书馆关联数据社区成员应该帮助维护数据集和属性值词汇列表的准确和更新,如数据中心关联数据小组,因此元素集的应用可以得到衡量。一个精确的专业领域版本的关联数据开放数据应用分析可以帮助社区开发者明确开发思想,确定哪些元素集被广泛应用,哪些很少被应用。

元数据元素集之间的关联对于实践者可能比较有用,这些实践者愿意跨词汇集重用数据或者让他们的数据可以被更多其他社区使用。顶层映射和约束性交互 (UMBEL) 系列首先描述了来自受欢迎的关联数据词汇的类之间的关系。关联开放词汇致力于这类信息收集的生成和自动化实现。对于范围更广的元数据元素集,如都柏林核心, 基于现有的机器-可读的(本体)定义,关联开放词汇提供了更加详细的同其他元素集关系的视图。

5.1 作为 RDF 词汇已发布的元数据元素集

本小节列出在撰写报告时现有的相关本体(OWL 或 RDFS)。 为了帮助读者明确本章节了内容,我们首先介绍了来自于图书馆、档案馆、信息社区的元数据元素集。然后介绍了产生于其他社区的相关元素集。本目录可能有点武 断,因为许多词汇可能已经涉及到跨社区的工作。然而,我们相信这展示关联数据方法的巨大潜能,元素集可以独立于原先设定的规则,在任何地方可以共享重用或 者扩展多样化的元素集。

自于图书馆、档案馆、情报组织的元数据元素集

DC与DCMI元数据

Dublin Core都柏林核心元数据元素 最初的属性---15个描述信息资源的通用属性---使用http://purl.org/dc/elements/1.1/命名域标识。在2004年RDFS定稿之前,正如2000年在RDF属性中的声明,那些属性缺乏对范围((rdfs:range)的定义,允许他们可以同字符属性值或者成熟的RDF资源配套使用。

DCMI元数据术语的第二个命名域-- http://purl.org/dc/terms/, 包含同"非限制性" /元素/1.1/ properties一样的15个属性,另外增加了rdfs:range约束条件,增加了几十个附加属性。"限制性" /术语/ 属性同"非限制性" /元素/1.1/ 属性的互操作于子属性关系(rdfs:subPropertyOf)同时应用。

开放档案计划OAI - 对象重用与交换 (OAI-ORE)

OAI对象重用和交换模型定义了Web资源整合描述的元素,形成了复杂的数字化对象,例如期刊文章、不同的数字化变更情况及附加资料。此外,还提出 了“资源地图”机制,用于说明和描述那些整合资源的元数据源,当资源被包含在各个不同的整合器中时,“代理”描述了某特定整合资源里的给定资源。

简单知识组织系统 (SKOS)

SKOS提供了描述概念体系基本结构和内容的模型,概念体系如:叙词表、分类法、主题词列表、分众分类及其他相似的受控词表[17]。SKOS的一些属性(特别是标签和注释属性)刻意不提供rdfs:domains,目的使其可以为其他资源重用。

SKOS标签扩展 (SKOS-XL)

SKOS-XL 是 SKOS的扩展,用于支持概念附属实体词汇的描述。使skos:Concepts,标签具体化,形成了比较成熟的RDF资源。使它们可以进一步的做好注释或者支持他们的关联应用,即"isTranslationOf" 属性。

MARC相关关系代码 (也包含于属性值词汇中)

MARC相关关系词汇提供的属性列表,用于描述名称和书目资源之间的关系。

CIDOC概念参考模型 (CRM)

CIDOC对象定位概念参考模型 (CRM) 由国际博物馆理事会(ICOM)开发,用于文化机构对象的描述和描述间的互操作。可以使得事件与对象、人物、地点及更多的概念关联。

取代 OWL-描述逻辑 (OWL-DL) 版 的OWL 1 和 2) 可在如下地址获取:http://erlangen-crm.org (命名域 http://erlangen-crm.org/current/) 和 http://bloody-byte.net/rdf/cidoc-crm/ (命名域: http://purl.org/NET/cidoc-crm/core#).

DC都柏林馆藏描述词汇

DCMI 馆藏描述社区 任务组开发了都柏林核心馆藏纲要和多个词汇集。他们的工作基于图书馆项目文献描述体系的研究支持 (RSLP)

书目记录的功能需求 (FRBR)及相关本体

FRBR 是一个概念参考模型,是由国际图联组织 (IFLA) 开发的,提供一个框架,用于描述用户所需求的书目数据中的相关数据 (FRBR 最终报告,2.1章节) ,并且确定他们之间的关联关系。 详细信息见这里

IFLA的“FRBR家族”由3个概念模型组成,覆盖了书目记录和规范记录的相关方面。每个模型定义了实体、属性及关系,在 开放元数据注册都有包含到:

RBR 最终报告描述了“实体-关系”模型,是其他一些本体应该的本源。

国际标准书目描述 (ISBD)

来自国际标准书目描述 (ISBD) 联合版本的类与属性的初步注册。ISBD (详细信息见 这里)对于任何类型书目资源的描述都有用和适用。

元数据规范描述体系RDF版本(MADS/RDF)

MADS/RDF 为名称(个人、企业、地理等)、叙词表、分类法、主题词系统和其他受控属性值列表的应用所设计的。MADS/RDF 本体同SKOS之间建立了映射关系

GND词汇

为了提供关联数据服务,德国国家图书馆创建了命名域,致力于规范资源的详细描述 (Gemeinsame NormDatei, GND)。这是一套类和属性集,特别之处在于弥补了SKOSRDA 词汇的不足 。


来自其他专业领域的词汇

关于朋友的朋友 (FOAF)

FOAF是得到广泛应用的本体,用于描述人物同其他人物和网络资源的之间的关系。

互联数据集词汇(VoID)

VoID是基于RDF的体系,用于描述关联数据集。 通过 VoID 发现和应用关联数据集可以得到充分的发挥。一个VoID数据集是一个数据的集合,由单一的提供者发布和维护,作为可用的RDF,也可以访问,例如:通过参引HTTP URIs或者SPARQL endpoint.

书目本体 (BIBO)

BIBO 可以作为引用本体或者文档分类本体,或者是采用RDF描述任何书目实体的一个方式。

顶层映射和约束性交互层 (UMBEL)词汇

顶层映射和约束性交互层 (UMBEL) 参考概念数据集从OpenCyc 本体派生而来。 它包含数以千计的连贯的结构化的关联的概念,并广泛适用于为任何知识领域,提供定位节点。UMBEL 词汇 提供类及属性描述概念知识。其试图作为构件领域本体的基础 [18]。任何时候尽可能的重用外部词汇。

vCard

vCard (RFC2426)定义vCard本体 是描述商业名录文档的。

Lexvo.org 本体

Lexvo 名称由古希腊 λεξικόν (lexicon) 和 拉丁(词汇)派生而来 [19]。该本体提供词汇为语种、单词、字符、其他与人类语言相关的对象定义全局性URIs 。

可交换图片文件格式 (EXIF)

这是一个适用于 EXIF的RDF体系 — 图片标准,主要支持技术性元数据,通常嵌在图片文件中(如: JPEG 文件), EXIF 说明 的每个关键部分直接映射与其对应的属性。为了保存原EXIF说明(例如, 像素组成和地理位置)中的元数据的类型“键”,也做了一些努力,例如EXIF OWL本体[20]

开放溯源模型(OPM)

开放溯源模型是描述和共享源信息的通用模型。由轻量级的开放溯源模型词汇 (对源数据的基本描述)和更富于表达的开放溯源模型 OWL 说明 (配合推理应用)组成。

音乐本体

"音乐本体说明提供了在语义网中描述音乐(如艺术家、相册、音轨)的主要概念和属性"。是将 FRBR 的特质应用到音乐领域。

知识共享权利表示语言 (CC REL)

CC REL 采用RDF描述权利许可证。

引用类型本体 (CiTO)

CiTO,一种 SPAR本体, 是一个极小的本体,在研究性文章中描述参考引文。

项目描述 (DOAP)

项目描述 (DOAP) 用于描述软件类的词汇,特别是开源项目。

W3C地理词汇

根据WGS84标准,这个小型本体致力于空间对象的地理位置(经度、维度、海拔)描述。

语义关联的在线社区 (SIOC)

SIOC 核心本体用于描述在线社区及他们的活动 (如: 留言板、维基、博客等)。

Schema.org词汇

Schema.org是一个架构型数据集,允许网页设计者在他们的网页中嵌入结构化元数据,通过主要搜索引擎 Bing, Google, 和 Yahoo消费。Schema.org 满足了来自不同领域的描述需要。因此,它重复了来自其他元素集的许多元素,未能抓住图书馆数据的丰富性。然而,它可以将关于图书馆的简单信息同它们拥有的 信息进行交换,这正如 Eric Hellman在博客帖子中所描述的。

Open Graph

Facebook的开放图 "协议" 用于描述可能引起社会化网络中其他成员感兴趣的资源(电影、图书等)。 它的主要目的是允许网站包含RDFa 混搭,同“喜欢”按钮结合使用,可以同Facebook的服务数据交换网页中提到的对象数据。

W3C媒体资源本体

媒体资源本体为媒体资源定义了元数据属性核心集,并附有同已存在的元数据格式集合之间的元素映射关系。其主要针对网络上的媒体资源,而不是那些仅限于本地档案馆或者博物馆中可获取的资源。

5.2 正在制定的RDF词汇

档案描述的通用国际标准 (ISAD(G))

档案描述的通用国际标准定义了档案附注查找应该包含的元素。

Europeana数据模型(EDM)

Europeana数据模型是致力于文化对象元数据描述及文化对象数字化描述访问方法的描述。在数据整合背景下,文化对象可能比较复杂,多个数据提 供者可能提供对于对象的不同视觉。EDM的重用, 扩展或者受其他元素集影响,特别是受 开放方案计划—对象重用与交换(OAI-ORE)、 都柏林核心(Dublin Core), 简单知识组织系统(SKOS)、 和 CIDOC 概念参考模型(CRM)。

编码档案背景 – 机构、人物与家族 (EAC-CPF)

EAC-CPF 致力于为档案材料提供规范的描述信息,包括:“人物(是记录的创作者、用户或者主题)、机构、家族的标识和特征及其他们之间的关系[21]”。 并且成果编码档案描述Encoded Archival Description (EAD) 标准用于辅助档案检索的描述。

EAC-CPF核心概念区分代理和身份标识:

MARC21

MARC (机读目录)在图书馆元数据交换过程中起着重要作用。 版本完整的 MARC21元素 通过开放元数据注册 Open Metadata Registry发布,是低损耗将MARC21转换成RDF的基本方式。 在此之前, MarcOnt 活动 创建了 OWL 本体 ,包括了一个小的MARC元素的子集,与其他本体相关。

保存性元数据: 执行策略 (PREMIS)

PREMIS 定义了保存性元数据元素核心集,受数据字典支持,广泛应用于数字化保存活动中。

编码档案描述(EAD) 和其他面向档案的元素集

EAD 是辅助编码档案查询的标准,采用扩展标记语言(XML)格式。

注意 LOCAH 元素集 是 EAD的一部分, 介绍了其他元素,LOCAH参与者发现这些元素对档案文献集数据发布为关联数据非常有用。读者可能对由Aaron Rubinstein 维护的轻量级Archival词汇感兴趣,这些词汇用于档案及与其相关的命名实体描述。

5.3 用例中尚未提供RDF词汇的元数据元素集

艺术作品描述目录 (CDWA)

艺术作品描述 (CDWA) 目录包含了532个大类和子类目,用于艺术作品、建筑、其他文化资料 、团体作品集及相关图片的描述和检索。包含这些元素的简单子集 CDWA Lite已经完成。

EBU P/元语义元数据体系 (P/META)

为广播产业中相关节目的描述提供了一套标准词汇。

SPECTRUM

频谱(SPECTRUM )是由英国的发起的标准,用于管理博物馆藏品,内容从对象描述性元数据到贷款信息。

元数据对象描述体系 (MODS)

MODS包含MARC21字段的子集,使用基于语言的标签而不是数字符,在一些用例中从MARC21书目格式中重组了元素。MODS采用XML描述。

文本编码活动 (TEI) 指南

"电子文本编码和交换指南"是描述各种文学和语言学在线研究和教学的标准。

5.4 与图书馆领域相关但用例中未提到的非RDF词汇的元数据元素

视觉资源协议核心目录 (VRA Core)

视觉资源协会核心目录(VRA Core) 指定了一套核心目录,用于视觉文化作品及其相关图片描述记录的创建。

公共广播元数据字典 (PBCore)

PBCore该元数据标准用于描述媒体资源,包括数字化和模拟两种资源。PBCore XML 体系规定 (XSD)定义了 PBCore的内容和结构。元素集及相关属性值词汇可在 开放元数据注册获取。

致谢

图书馆关联数据孵化小组成员Monica Duke、Ed Summers、 Bernard Vatant对本文档提出了修改意见。

在本文档发布时,数据中心的图书馆关联数据小组(LLD Data Hub group)由Karen Coyle、 Adrian Pohl、 Ross Singer和Lars Svensson维护。感谢所有为本文档做出贡献的所有人。