近几年,大数据相关技术迅速发展成为各界关注热点.在发达的互联网技术环境下,云计算技术和大数据技术逐渐渗透到文化领域中,以跨度时间长、保存时间久、地域跨度大、涉及领域多、数据来源广和数据标准杂为主要特征的文化数据与其他行业的数据有着较大区别,研究和建设具有融合功能的文化大数据平台成为目前研究焦点.文化与大数据的结合是文化生产与科学技术的深度融合[1].文化大数据是一个随着文化实践的多元发展而不断变化的动态开放的数据生态系统,它具有海量(数据总量大)、多样(数据类型多)、快速(处理要求快)、不确定性(数据冗余高)和价值性(潜在价值大)等大数据的共识性特征[2];同时,文化大数据来源多元化、数据类型多样化,导致了文化机构之间数据不互通、文化数据质量低劣等问题.文化资源数据的特点如下.a. 不同于其他行业,文化行业中的数据保存时间久,数据寿命跨度长,例如遗产、文物和艺术品等相关数据会一直保存,不会清除和消失;b. 文化信息服务的提供,需要大量在线或实时数据分析处理,如计算以时间为中心的文化演进进程和以事件为中心的文化传播轨迹;c. 文化大数据的存储形式多样,包含各种结构化、非结构化和半结构化的数据,如文本、图像、音视频和三维模型等;d. 文化大数据对社会文化、国家文化教育和传播都发挥着不可替代的作用,其价值不可估量;e. 文化大数据具有明显的多态性、不完整性、跨域性、时间性、冗余性和版权保护性的特点.一方面,从不同的服务系统来看,图书馆、博物馆和美术馆等各种文化机构已经建立起各自的数据系统,这些数据系统由于地理上相互隔离从而形成物理上的数据孤岛;另一方面,不同的文化机构站在各自的角度对数据进行理解和定义,从而使得同一数据会产生不同的含义,这就产生了逻辑上的数据孤岛.融合多源异构的大数据平台通过元数据整合打破物理上和逻辑上的数据孤岛,构建起集成化、融合化的大数据平台.由于不同地区建设的文化数字化系统标准不一,无法实现文化系统数据标准上的统一,基于以上问题文化大数据平台由此而生.本研究通过提供文化聚合平台,解决了文化的区域性固有属性的缺点;通过提供文化检索平台,可以更方便地进行文化研究和追踪溯源;通过提供开放式的文化资源共享,可以提高文化的复用价值和文化的创作价值.1 代表性文化大数据平台文化大数据平台用来提供单一资源访问接口,通常将不同地区的图书馆、博物馆和档案馆等相关文化机构的数据库作为平台数据的重要来源.这些平台根据是否跨域一般可以分为非跨域型文化数据平台和跨域型文化数据平台两大类型.a. 非跨域型文化数据平台非跨域型文化数据平台主要从文化对象数字化这个应用出发,考虑如何将文化对象转换为数字化对象进行存储,代表性的文化数据平台有以下几种.美国记忆(American Memory)[3]是美国国家数字图书馆项目(NDLP)第一阶段的项目,NDLP的主要任务是在1994~2000年期间实现数百万文化对象的数字化,美国记忆负责将国会图书馆的大量原始历史资料进行数字化转化.欧盟主持建设的i-Treasures[4],Terpsichore Project[5]和WhoLoDancE[6]三个项目主要目的是保护和传播非物质文化遗产,特别专注于唱歌、跳舞、传统手工艺(陶艺)和音乐的数字化保存和创作.Terpsichore Project注重欧洲民间舞蹈等非物质文化遗产在设计方面的交互.WhoLoDancE更注重于舞蹈的动作捕捉,在不同舞蹈之间进行相似性搜索.日本文化在线系统[7]由日本外务省运营,主要提供日本文化、观光旅游、社会、历史和自然等许多不同领域高度可靠的信息.国内典型的文化数字化平台主要有以下几种:中国非物质文化遗产网[8]由中华人民共和国文化和旅游部和中国艺术研究院主办的公益性非物质文化遗产保护专业网站;数字敦煌[9]项目以文物保护理念为指导,利用先进的科学技术对敦煌石窟及相关文物进行收集、加工和存储,并将数字化的照片、视频、3D数据和其他文学数据集成到存储库中;搜韵[10]是诗词的专业网站,主要提供古诗词的收录和检索,同时也收录了7000多本电子古籍.b. 跨域型文化数据平台跨域型文化数据平台主要从数据聚合这个应用出发,考虑如何将地理分散、数据库相互独立的数字化文化资源聚合,从而形成一个统一资源访问入口或者门户网站.世界数字图书馆(WDL)[11]是美国国会图书馆的重要项目,通过将不同国家的国家图书馆联系起来,形成发现和检索一站式入口的能力,以缩小国家内部和国家之间的数字鸿沟.WDL内容包括书籍、手稿、地图、报纸、期刊、印刷品、照片、录音和电影.欧盟支持搭建的Europeana[12]和澳大利亚国家图书馆的Trove[13]是比较典型的跨域文化数据平台.国内典型的跨域文化平台有中国国家数字图书馆建设的文津搜索[14].该系统有效整合了国家图书馆自建数据库和部分已购买了服务的各类数字资源,实现了资源的一站式发现与获取,使图书馆内的封闭资源能够对网络用户开放.本研究通过对国内外典型的多源异构文化大数据融合平台的调查研究,分析了多源异构文化大数据融合平台建设的关键技术,为文化大数据平台的建设提供思路.详细调研了Europeana及Trove的体系架构和关键技术,并对文化大数据平台的数据模型、数据聚合进行了研究,给出了多源异构大数据平台的一般架构和数据流程图,对多源异构文化大数据平台面临的挑战和发展方向进行了阐述.2 基于数据融合的文化大数据平台数字资源发现平台在国家范围内集合了图书馆、博物馆、档案馆等相关文化遗产机构的大量数字资源,为公众提供了一站式访问服务[15].在跨域面向融合多源异构的文化大数据平台中比较有代表性的有欧盟Europeana平台和澳洲的Trove平台.对这2个平台的系统架构和关键技术做主要分析.2.1 Europeana平台Europeana平台是基于欧盟委员会“i2020:Digital libraries”战略研发的,整合了欧洲27个成员国的国家图书馆和文化机构等的图书、期刊、档案、图片和音频资料等数字资源,成为全世界公众了解欧洲文化遗产的新渠道[16].通过Europeana网站,可以在线获得来自欧洲约4 000个机构的数百万种文化遗产资源.截至2020年初,Europeana提供了5.8×107种数字对象(书籍、音乐和艺术品等)的访问权限.Europeana项目建设采用基于公有云和私有云混合基础架构使机构之间能够轻松共享文化资产.Europeana总体架构如图1所示,Europeana由面向客户端的分布式前端服务和后端系统组成,部署在两种类型的云上:计算云用于为前端和后端服务提供计算能力;存储云(NoSQL数据库和分布式文件系统)用于为计算云中部署的服务提供存储能力. Europeana提供以下的功能.10.13245/j.hust.210216.F001图1Europeana总体架构图 a. 唯一标识符服务:在本地标识符(由数据提供者提供)和Europeana范围内的全局标识符之间创建映射,是文化数据在聚合空间中的唯一身份.b. 元数据和内容服务:为元数据记录及具有多种表示形式和版本的内容对象提供增删改查操作.c. 通知服务:提供内部服务和外部客户端之间的通信机制.对数据库内容的更改操作,通知服务机制支持按客户端的请求需求和向已注册客户端推送通知.d. 数据注释服务:数据记录有多种表示形式,每个表示形式有多种版本,数据注释服务提供与存储和访问数据记录的实体有关的任何其他信息.e. 认证授权服务:提供用户及系统身份验证和授权的功能.f. 日志服务:提供记录用户或系统操作功能.g. 异步消息服务:为系统服务之间的数据交换提供内部消息传递机制的功能.h. 数据处理服务:通过数据的提取、转换和加载流程完成元数据、内容服务和数据注释服务的功能要求.2.2 Trove平台Trove平台于2008年8月由澳大利亚国家图书馆创建,目的是为公众创建一个统一的门户网站,整合澳大利亚境内的档案、手稿、图片、音乐、舞蹈、图书馆资源、PANDORA网络档案、ARROW发现服务和报纸测试服务等.Trove平台的目标是建立澳大利亚国家图书馆、各种类型图书馆及数百家文化机构的合作联盟,共同进行元数据的聚合,建设国家范围内日益增长的全文数字资源库并提供整合服务,以便为澳大利亚创造知识遗产数据库.Trove总体架构如图2所示.总体上分为数据采集层、数据存储层、元数据聚合层、搜索引擎层和用户接口层.数据采集层分为澳大利亚图片和澳大利亚国家图书馆收割器(NLA Harvester).其中NLA Harvester通过网络爬虫和用户接口将采集的数据保存到文档数据库(TeraText)中,然后通过开放文档预研(OAI)协议传输数据到NLA.NLA Harvester部分负责获取整合澳大利亚图片、澳大利亚舞蹈、澳大利亚音乐和澳大利亚研究在线等数据.元数据聚合层存储不同来源的元数据,然后与搜索引擎层共同响应用户接口层的请求,最后完成相应任务.Trove通过聚合帮助用户进行搜索,提供更广泛的资源访问,通过改进相关性排名和搜索优化提高资源发现的容易性,通过内容和元数据注释为用户服务.10.13245/j.hust.210216.F002图2Trove总体架构图Trove使用Lucene对元数据和全文进行索引和搜索,并使用Apache Solr(一种使Lucene的常用功能易于使用的web服务).Trove使用了四个Lucene索引,即主索引、网络档案索引、报纸内容文章索引和主题索引,通过不同模块的搜索引擎实现速度更快、更灵活可靠且可扩展性更强的搜索服务.Trove汇聚了不同的元数据资源,具体内容为:a. 澳大利亚国家书目数据库书目和权威记录;b. 澳大利亚研究在线和澳大利亚图片;c. 面向全球大学和其他学术开放资源知识库的联合目录OAIster;d. 互联网档案项目中开放库的元数据,该项目旨在为世界上每一本书形成一个网页,Trove只收集那些链接到全文的记录;e. HathiTrust[17]的元数据,HathiTrust是由多个学术机构共同拥有和管理、由印刷品转化而来的图书馆资料数字档案;f. Wikipedia的标签.3 多源异构文化大数据融合平台一般架构与关键技术3.1 一般架构针对多源异构文化领域数据所具有的容量大、多样性、非结构化和冗余度大等特点及实际业务中快速开展大数据分析处理的应用需求,提出支持横向扩展,具有分布、并行和高效等特点,且面向服务的支持多源异构文化数据融合的文化大数据一般平台体系架构,如图3所示.总体架构主要由计算云和存储云的云服务组成.根据数据流向分为数据生产层、数据存储层、数据计算层和数据应用层.10.13245/j.hust.210216.F003图3融合多源异构的文化大数据平台系统架构图数据生产层:主要通过不同途径和渠道获取多源异构文化数据或者元数据,文化的获取对象可以由数据采集系统和扫描设备采集、博物馆数据库、文化馆数据库、展览馆数据库、档案馆数据库和一些数字化博物馆数据构成.扫描采集数据是指通过专业扫描设备对历史文物进行扫描建模,生成数字化数据,也可以通过数据输入端进行手工输入数据.第三方平台数据库是指博物馆、文化馆和展览馆等可以共享或公开其文化数据库,通过授权许可或者购买等方法以API(应用程序接口)数据接口形式将其数据或元数据收割到本系统数据库中.除此之外,还可以通过网络爬虫技术获取互联网上公开的文化数据及元数据.数据存储层:主要功能不仅包含上述数据导入功能,元数据数据模型的处理也是存储的重要部分.通过不同方式和渠道获取到的多源异构文化数据由ETL模块处理,完成对数据进行相关的清洗工作.数据计算层:主要包含元数据关联模块和语义关联模块,为元数据的语义匹配和智能检索推荐等应用提供技术支撑.元数据关联模块包含元数据检索和元数据关联技术.该模块主要为文化创作、文化移植和文化关联提供技术支撑.语义关联模块包含图像语义匹配技术和启发式搜索,在此基础上可以将推荐、分类、推理和预测在文化中得到应用.元数据的定义和聚合是数据清洗过程之后重要的工作,关键技术包含元数据属性定义、元数据的数据模型选择和元数据聚合的规则.元数据属性定义是指文化包含哪些属性和关系.元数据的数据模型通常有资源描述框架(RDF)、开放链接数据(LOD)、可扩展标记语言(XML)、数据目录词汇(DCAT)和模式标记集合(schema.org)等几种常用的数据模型.元数据的聚合规则是完成数据模型的转换规则定义和元数据的合并空间规则定义.数据应用层:实现应用价值的数据应用层由前端可视化界面和不同的数据处理引擎组成.数据处理主要包含文化融合引擎、文化API引擎、文化分析引擎和和文化检索引擎.与此同时还负责数据门户的可视化模块,并且提供数据安全、网络安全、系统安全和数据容灾备份等安全性应用.如图4所示,在数据获取模块中,使用表述性状态传递(representational state transfer,REST) API协议将不同来源的多源异构文化数据或元数据收割到平台中.原始数据经过预处理后存储到HBase数据库,同时须要对收割的元数据进行相应解析和聚合处理,该功能主要由元数据解析模块和元数据聚合模块共同完成.元数据解析模块通过规则发布、规则解析、属性解析和属性填充完成元数据的预处理工作,为元数据的聚合提供数据支撑.元数据聚合模块将之前预处理的元数据进行汇聚和融合,该过程主要包括数据收割、模型描述、模型对齐和数据聚合.最后将聚合后的数据导入到关系型数据库(MySQL)、非关系型数据库(Cassandra)或图数据库(Neo4j)中.关系型数据库数据规整,便于管理;非关系型数据库便于处理键值查询;图数据库便于发现元数据的关联关系,更好地部署基于知识图谱相关的应用.数据模型可以采用RDF,LOD,DCAT和schema.org等,文化对象的元数据若是采用RDF格式,则关系型数据库、非关系型数据和图数据库三种数据集之间可以互相转换.计算引擎(Spark)相关模块主要完成数据检索和数据计算,搜索引擎选择Elasticsearch或者Apache Solr.10.13245/j.hust.210216.F004图4融合多源异构的文化大数据平台流程图3.2 关键技术a. 元数据聚合关键技术RDF格式是各个机构的数据能否成功聚合的重要因素,但目前基于RDF格式的数据集成系统依然无法完成元数据聚合的任务.元数据聚合的目是允许基于RDF格式集成异构数据源,尤其是在不同数据源之间建立桥梁.文献[18]提出一种通用语言xR2RM,用于描述各种类型的数据源与任意RDF表示形式的对齐(映射).xR2RM开展了将CSV和XML转换为RDF格式的工作,一定程度解决了数据模型对齐的问题.b. 文化图像检索关键技术文本嵌入是提取图像特征的基本组成部分.嵌入算法的有效性与大规模应用中训练和维护各种嵌入结果的成本之间的权衡是一个巨大挑战.文献[19]提出了一种称为PinText的多任务文本嵌入解决方案.基于学习到的语义向量,通过平均用户的词向量得到用户查询的嵌入向量,然后通过Hadoop作业或Kubernetes集群上的图像进行哈希处理,从而实现统一的最近邻居搜索.文献[20]提出了一种多任务深度度量学习系统,该体系能够获得一个统一的图像嵌入,为浏览和搜索提供更好的推荐.针对文物等相关遗产的图像搜索技术几乎处于萌芽阶段,将较为先进的图像搜索技术与文化大数据相结合,可以让文化大数据发挥更大的价值.4 多源异构文化大数据平台面临的挑战在文化资源大数据平台的生命周期内,数字资源的采集、管理、存储、计算及安全性都面临着前所未有的挑战,具体如下.a. 文化对象元数据属性自动标注在文化大数据中,每个文化对象的元数据包含的属性越多,在检索和上层应用越能提供更多准确的信息,但在海量的文化资料中,依靠人工方法实现大量文化资源元数据的属性标注是不切实际的.特别是在文化大数据领域,急需相关自动标注的方法或有效手段,现有的一些方法也难以融入文化数字化研究的体系中,因此须要研究适合的技术方法来开展文化大数据领域中的自动化标注.b. 跨域多源异构文化数据的检索在检索方面,如今是在一个“即买即得”的即时访问获取电子资料的世界里[21].终端用户希望文化大数据平台提供描述内容的元数据与数据,对于跨域的多源异构文化大数据系统来说,无法评估检索死角问题的严重性.文化资源的数据最显著特点是跨地域、跨领域、跨系统和跨类型数据库,如何高效检索跨域数据库是一个巨大挑战.c. 跨域多源异构文化数据的版权保护从文化数据源头角度来说,文化数据的版权可以描述为文化资源出版权问题,而在大数据出版中,元数据是出版内容可靠性和合法性的基础,是大数据出版的根基[22].元数据除了具有数据的描述功能之外,还具有管理功能,它记录了数据各个阶段的信息,包括数据来源、版本信息、著作权人、每次使用和阅读的记录等与版权相关的信息.为了确保文化对象数据的真实性、准确性和可靠性及每个文化对象元数据的管理信息是不可以被篡改和删除的,元数据中版权信息的规范也是须要考虑的重要问题.d. 文化数据的溯源在融合多源异构文化数据形成文化大数据平台过程中,会涉及到海量数据频繁的交互共享,随之就会不断涌现出数据的安全性和溯源问题,如非法窃取数据、非法使用数据和泄漏数据等.对于文化数据的保护和溯源目前主要体现在保密性和完整性两个方面,一般方法包括加密、签名、权限控制和加密处理.但目前的研究中针对文化数据溯源的研究少之又少,如何通过有效方法追查到数据的流向和相关源头是研究的关键问题.5 结语本研究从多源异构的文化行业应用出发,介绍了文化大数据的概念与特点,对文化大数据平台的研究现状进行了总结,分析了具有代表性的Europeana和Trove多源异构文化大数据平台,提出了融合多源异构文化大数据平台的一般体系架构,在深入研究现有文化大数据平台的基础上,提出了一般大数据文化平台的架构方案和数据流程图.本研究提出的一般文化大数据平台还有须要改进和完善之处,如数据模型数量较少、搜索和任务处理尚未支持冷热元数据分离等.但从技术和应用的角度对文化大数据相关问题进行了剖析,能够为该领域的研究者提供有价值的参考.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读