文章刊发于:出版广角 . 2025 (10)
作为中华民族优秀典籍传承的载体——中国流散在国外的古籍善本数量庞大,种类繁多。[]通过数字化方式进行虚拟性回归,是海外中华古籍回归的大趋势。不过,由于不同国家和地区缺乏统一的古籍著录标准和文献分类方法等,技术水平和需求条件等情况各异,亟待取长补短,协同开展中华古籍数字化工作,构建可持续的国际合作模式。
本文中的中华古籍包括1911年辛亥革命以前,以及1911年至1949年间在中国编撰的、具有重要历史文化研究意义的文献。[]古籍数字化是利用数字技术对已存古籍进行再现和加工,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,形成古籍文献书目数据库、古籍全文数据库等, 以达到利用和保护古籍的目的。[]服务生态系统理论强调服务主导逻辑 而非传统商品主导逻辑,不仅关注实现组织自身和合作伙伴的利益, 而是关注所有参与者利益, 以促进服务生态系统持续健康。中华古籍数字化是促进人类文明传承共享与世界各国文化产业发展的重要工作,追求所有参与者共同利益,以实现共建共享。基于服务生态系统理论,中华古籍数字化的国际合作主体在制度环境、技术条件、用户需求等因素驱动下形成多元主体结构,通过资源整合、服务交换和数字技术研发等活动,构建价值共创模式。
一、中华古籍数字化国际合作驱动因素
本文考察海内外相关国家、地区在古籍数字化方面的制度环境支持状况,探究国内外先进的古籍数字化技术条件和用户需求情况,理清环境动因,为分析主体结构和行为模式奠定基础。
1.倡导全球文献资源共享和文化遗产保护的制度环境
中华古籍数字化工作是否与海内外相关主体所处制度环境相契合,决定了国际合作生态系统能否可持续运行。
一方面,中华古籍作为一种文献资源,其数字化国际合作是建立在绝大部分国家、地区对于全球文献资源共享这一原则的基本遵循之上。图书馆、出版社等文献典藏机构在为人们提供信息方面发挥重要作用。然而,没有任何一家馆藏机构拥有用户所需全部信息,故跨国界的文献资源共享是有必要的。部分国际组织在这方面发挥了积极作用。例如,国际图联(IFLA)文献传递与资源共享委员会发起“新冠肺炎疫情期间及以后加强数字资源共享”(HERMES)计划,已经推动30多个国家的图书馆参与到当地和国际开放资源共享实践中。[]
另一方面,大量珍贵的中华古籍属于对中国乃至全人类都有重要历史、学术研究价值的文化遗产。部分中华古籍已被联合国教科文组织列入《世界记忆(国际)名录》,增强了各国保护、利用中华典籍的统一认识。在“世界记忆计划”框架下,部分国家已制定文献遗产藏品开发、保存和获取政策。此外,2015年,联合国教科文组织通过《关于保存和获取包括数字遗产在内的文献遗产的建议书》,要求会员国竭尽所能,采取一切适当措施保护本国文献遗产,并鼓励会员国应另一会员国要求,参与国际合作,用数字化等方式保护濒危文献遗产。[]在该框架下,众多会员国参与到文献遗产保护与数字化利用中来。
2.支持跨国协作的古籍数字化技术条件
目前,中国已经能够运用自然语言处理技术,开展资源识别、文本基础性加工、知识元标引与知识挖掘等中华古籍数字化基础性工作。不过,现在国内外缺乏大规模、高质量、深度标注的古籍语料库,特别是古今汉语平行语料库,影响模型训练效果,需要各国协同搭建相关高质量语料库。[]实际上,国际范围内已具备大规模语料库跨国协同操作的基础技术条件。在构建公共语料库方面,欧洲文化遗产协作云(ECCCH)作为欧盟委员会数字人文基础设施,能够基于多模态古籍文献数据,使用语义技术生成可扩展数据模型和存储库,分析不同国家和机构的相关数据存档监管报告和归档义务,以实现各地存储库的互联互通,并尽可能实现半自动化等,[]为构建全球中华古籍数字化公共语料库提供多模态技术协同与AI驱动的技术范式。在技术标准方面,国际上目前已经形成通用的资源描述与检索的编目标准RDA、国际图像互操作框架IIIF、资源描述的通用数据框架RDF等规范,以满足数字环境下各国古籍资源著录、检索、存储、共享的新要求。这都为各国协同搭建古籍语料库提供了有力的技术条件支持。
3.追求典藏保护、学术研究与文化教育的多元化用户需求
根据国际范围内用户群体的不同,古籍资源库等数字化产品需要满足的用户需求基本包括三类:其一,典藏单位人员的文化保存需求。图书馆等古籍典藏单位人员通常要基于大规模古籍等文献资源,开展信息采集、编目、加工、保存与修复等工作,在古籍图像资源精准识别、智能编目与内容自动分类等方面具有较高技术服务需求,亟待引入高质量的深度学习模型,提升工作效率;其二,研究人员的学术研究需求。国外从事汉学研究的学者通常将域外汉籍作为最基础的文献支撑,国内从事古籍整理、中国古代文学等领域研究的人员也需要以大量、可靠的古籍资料为基础。这些学者出于研究目的,往往需要通过全面的文献集成服务来实现“广罗异本”,通过细致的古籍自动校勘、注释、辨伪与辑佚服务来实现“求是”与“会通”,通过深度知识挖掘服务来实现“辨章学术、考镜源流”;[]其三,一般民众的教育学习需求。从国际范围来看,一般用户往往是中华古籍爱好者或者受传统文化教育者,倾向于阅读经典善本古籍,重视内容资源的可读性与生动性,对自动翻译、知识可视化等多元化信息服务的需求较强。
二、中华古籍数字化国际合作主体结构
中华古籍数字化国际合作主体由微观层、中观层、宏观层构成。微观层是图书馆、互联网公司等机构和用户二元互动的结构。中观层是海内外高校、图书馆等直接利益相关者多元互动的结构。宏观层是涉及政府部门、基金组织等广泛社会经济参与者的互动结构。理清多层次互动结构,能够为进一步分析参与者的行为模式等奠定基础。
1.政府部门、基金组织等广泛社会经济参与者的互动结构
政府部门在中华古籍数字化工作中,始终发挥显著作用。自我国2007年初正式启动“中华古籍保护计划”后,众多机构积极响应,开展古籍普查、联合目录构建、古籍数字资源库建设等工作。其中,中国国家图书馆于2015年启动“海外中华古籍调查暨数字化合作项目”,主持建设了“中华古籍善本国际联合书目系统”,已累计录入三十余家海内外图书馆所藏3481种古籍善本等。[]
部分基金组织为中华古籍数字化工作提供了重要资金支持。例如,大英图书馆发起的“国际敦煌项目”作为全球所藏敦煌和丝绸之路文献数字化的国际合作项目,绝大部分职员薪水、设备、教育项目、会议等方面花销都依靠外部基金支持。其中,英国中英友好信托基金(SBFT)从1997年开始,为前往大英图书馆整理所藏敦煌遗书等文献的中国学者与修复保护专家提供差旅补助。这项资助一直持续到目前。正是有这些基金组织等支持,各国参与机构才能持续开展本地所藏敦煌文献数字化与保护,并使全球研究人员受益。
2.海内外图书馆、出版社、技术公司等利益相关者多元互动的结构
中国的图书馆、出版单位、高校、技术公司等机构在参与国际合作过程中,通常以数字化的经验与技术,与国外机构合作进行古籍数字化作业,并以数字化方式取得复制品及其使用权利,达到合作发展、资源共享目的。
中国国家图书馆作为国内开展中华古籍数字化国际合作的引领者,主要承担古籍数字化文献数据库创建、维护与数据质量控制等工作。例如,在与日本东洋文化研究所合作过程中,国家图书馆负责创建与维护“东京大学东洋文化研究所汉籍全文影像数据库”,为国际范围内读者提供免费学术研究参考之用;众多出版单位致力于海外中华古籍普查与整理工作,具体举措包括编纂海外古籍收藏目录为专题书目,汇编散藏海外的珍贵典籍成丛书,以及建设海外古籍专题数据库等。其中,中华书局影印出版了著名医史文献专家郑金生主编的《海外中医珍善本古籍丛刊》。古联(北京)数字传媒科技有限公司通过对其进行数字化加工,形成专题数据库“海外中医古籍库”;一些互联网企业、高校等,也发挥其技术、科研等优势,参与到海外古籍数字化回归工作中。例如,在“汉典重光”古籍数据平台建设项目中,由阿里巴巴达摩院、四川大学等单位联合寻觅流散海外的中国古籍,与部分海外机构开展合作。如加州大学伯克利分校提供所藏中华古籍的扫描图片和编目数据,达摩院技术团队与四川大学专家联合推动数字化加工和平台发布工作等。这种数字人文资源平台建设项目,有助于推动全球范围内汉学、历史学等领域学术研究的进步,实现海内外高校、图书馆、技术公司等单位的共同愿景。
3.图书馆等机构和用户二元互动的主体结构
图书馆或技术公司等机构通常作为搭建古籍文献资源平台的主体,力求为典藏单位人员、教学科研人员、学生和普通民众等用户提供便利的资源服务。海内外多数收录中华古籍数字资源的平台都能针对国际范围内研究使用者等需求来优化其资源库平台内容组织方式、网站内容授权制度、影像图片分辨率和检索功能等,以保证资源兼具可获得性与可解读性。例如,加州大学本部图书馆的中文善本特藏数字馆藏可供世界范围内研究人员等自由开放使用,使用户可免费下载古籍文献影像内容PDF文件。而且,该图书馆提供MARC21等机读目录国际标准著录格式信息,以及BibTeX、RefWorks、RIS等多种文献管理格式信息,有利于馆际资源共享与研究使用者跨平台管理文献;哈佛大学燕京图书馆的中文善本特藏、中国海事资料、中国古地名词典等数字馆藏均采取开放存取模式,供全球公众免费阅读等。
三、中华古籍数字化国际合作模式发展建议
在制度环境、技术条件和用户需求的驱动下,国际范围内诸多主体机构通过资源整合、服务交换和数字技术研发等方式,参与到中华古籍数字化工作中。当前的国际合作主要由中国提供专业人力、资金等资源,在国外的数字资源和关联数据库技术等支持下展开,尚未形成较成熟的国际合作模式。[]研究从服务生态系统理论视角,立足于构建资源共享、价值共创的中华古籍数字化生态,提出国际合作模式发展建议,为相关政府部门、馆藏单位、出版社、技术公司等予以参考。
1.从典藏机构间一对一合作模式转向多元主体协作模式
当前,部分典藏机构出于资源整合与服务交换目的,初步形成了一对一国际合作发展模式,以中国国家图书馆承担建设的东京大学东洋文化研究所汉籍全文影像数据库为代表。在这种模式下,通常由国内机构提供资金、技术、人力等支持,国外典藏单位提供中华古籍的扫描图片和编目数据等,双方共同完成古籍数字化工作,共享数字资源。然而,仅靠少数机构所打造的古籍文献库等数字化产品在资源规模、内容类型与服务方式等方面都存在局限性。只有运用统一的制度规范与技术等操作性资源,凝聚高校、图书馆、出版社、技术公司等多元主体力量,促使参与者们共同更新制度,引进新的参与者,产生更多价值共创成果,才能实现价值最大化。因此,中华古籍数字化工作不应局限于典藏机构间一对一合作模式,需从以下三个层面逐步构建起更加高效的多元主体协作模式。
其一,在国家层面,应健全中华古籍数字化分工合作机制。目前,国内已在文化和旅游部、教育部、国家新闻出版署等政府部门主导下,形成国家图书馆、全国高等院校古籍整理研究工作委员会等事业单位发动,各馆藏单位、高校、科研院所、出版社等执行的全国性合作联盟网络。不同联盟参与主体可结合古籍数字化产业链各环节要求和自身特色,明确主攻方向,进行专业分工与整合。其中,中华古籍数字化产业链上游环节主要包括数字化项目规划和内容选择等活动。政府部门作为古籍数字化项目规划工作主体,应加强协调各方合作关系,通过设立中宣部、文化和旅游部、教育部等相关部委的联席会议等方式,将各部委原有相关平台归口统一到指定平台上。并且,应深入开展用户需求、古籍资源存藏情况调研工作,以此为基础,识别并分析可实施的重点工程项目。图书馆、出版社等古籍资源存藏与整理机构,适宜承担数字化内容选择环节工作,应从文化传承、文献特色与资源可获取性等角度考虑,选取亟待进行数字化开发的古籍内容和版本;中华古籍数字化产业链中游涉及政府部门、高校、科研院所、行业组织等主体,主要包括数字化内容组织与保存环节。当前,国内缺乏统一、完善的古籍数字化标准体系,严重制约数字化内容组织与保存活动顺利开展。建议在国家标准化管理委员会指导下,由新闻出版、档案、文物等主管部门牵头,联合高校、科研院所等多方力量,借鉴国外实行的国际图像互操作框架IIIF、资源描述与检索的编目标准RDA等规范,以及国家图书馆、中国出版集团等先进单位的宝贵实践经验,共同健全古籍数字化在图像采集、元数据制作、语义关联、长期保存等方面的国家标准。同时,设置管理监督办法,以保障各主体严格遵循统一标准,确保流程化、规范化操作;中华古籍数字化产业链下游环节主要涉及数字化应用活动,包括实现古籍的检索、共享、知识服务等功能。该环节不仅需要技术公司提供先进的数字化技术和工具,加强古籍知识的深度开发和增值利用,而且需要其与图书馆、博物馆等机构合作,共享资源和技术,开发相关应用和产品。此外,应倡导社会组织、学术机构、志愿者等社会力量参与古籍数字化宣传推广活动,提高公众对该项工作的认识和关注度。
其二,在区域层面,可依托“一带一路”等合作框架,建立统一的中华古籍数字化平台,以集成各机构的古籍资源,实现开放共享。在平台建设初期,建议联合越南、蒙古、俄罗斯等在汉学研究、古籍收藏方面有深厚基础的“一带一路”国家,依托各国财政支持,并积极寻求海内外文化、教育、出版等领域企业赞助,通过专项资金和公益基金等形式,保障平台基础设施建设和基本运维,确保古籍目录、书影及部分文本免费开放,以满足公众文化需求。建议各国成立联合项目组,共同制定规划,采用中国《古籍印刷通用字规范字形表》(GB/Z 40637-2021)国家标准等,形成区域内统一标准体系,并协作参与馆藏中华古籍数字化对象的遴选和平台建设的规范化工作。随着平台进入稳定运营阶段,应逐步引入商业化运作模式。为促进该模式实施,宜建立古籍内容资源分级开放策略,对于古籍目录、低精度书影、已进入公有领域的古籍文本,可在数字化平台完全开放;对于高精度古籍图像、未经校对的原始OCR文本、特定机构的珍贵资源,采取受限开放方式。用户需注册后方能获取阅读内容;对于最新的学术注释、深度整理的古籍数据库等,实行授权访问措施,并将其联同高阶数字人文工具包、会员订阅等作为付费增值服务,确保平台可持续发展。
其三,在国际层面,建议针对特定主题的中华古籍,联合全球藏有相关资源的机构,开展专题性数字化项目建设。中国作为中华古籍发源地,应在国际范围内大力推广自身所积累的古籍数字化实践经验,积极承担项目主要工作。根据全国古籍整理出版规划领导小组印发的《2021-2035国家古籍工作规划》,要“结合学术文化发展需要,分领域、分专题推进集成性古籍资源库建设,重点建设古代文学、历史文献、写本文献……等专题数据库”[]。其中,多数专题的中华古籍资源广泛散佚在全球各地,亟待整合,以实现古籍数字化面向专业领域的垂直发展。为系统推进专题性中华古籍数字化项目建设,项目承担方应寻求与联合国教科文组织合作,共同收录和展示散佚在全球各地的相关珍贵文化典籍、手稿等资源,以促进世界范围内文化遗产的保护、研究与共享。项目团队还应积极参与国际标准化组织中与元数据、图像格式等相关的技术委员会工作,致力于将特殊字符处理、版本著录规范等体现中华古籍特点的技术要求转化为国际标准,以保障跨国资源共享活动顺畅运行。
2.从相对封闭的古籍语料库构建模式转向更加开放的数据流通模式
古籍语料库建设区别于古籍全文库的数字化转录,需要对古籍进行句读、分词、词性标注等数据化加工,将其从数字文本形态转变为可深度利用的数字资源。目前中华古籍语料库成果数量不足,语料资源分散,合作模式相对封闭,建设过程多以单个机构或项目为单位,缺少跨机构、跨领域的协同共建机制,导致重复劳动和数据孤岛现象突出。中华古籍语料库建设需要整个社会和行业持续关注和投入,采用更加开放的数据流通模式。具体来讲,应重视以下工作:
一方面,中国应推动构建中华古籍语料国际联盟,形成可协同演化的数据标注机制。具体来讲,建议通过国际学术交流项目、联合研究课题等方式,培育和建设古籍语料标注专业人才队伍。大量人力投入是通用语料标注的基本要求。中华古籍文本中存在常见异体字、特殊排版等现象,使得古籍语料标注工作复杂性远高于通用文本,不仅涵盖文本结构标注、实体识别与关系抽取等,而且涉及古籍编排规范、异体字处理、训诂注释等高专业性的知识标注活动,需要国际范围内具备人类历史、文化、科学等相关知识背景的专业人员开展跨学科协作。为保障数据标注工作规范开展,联盟组织应制定中华古籍语料标注在实体定义、语义标注等方面的统一标准,明确标注范围、层级与方法,统一数据结构与字段格式等。同时,应引入专家同行评审机制,组建由语言学、文献学等多学科专家组成的专业委员会,对重点语料进行逐级审核与分级认证,以增强语料库试点成果的推广价值与跨机构通用性。[]
另一方面,应制定古籍语料数据共享与激励制度。中华古籍语料国际联盟应建立兼顾公共利益与权利保护的数据共享与版权管理机制,包括健全数据安全管理制度,包括版权确权、授权管理、敏感信息识别与处理等,确保语料在收集、处理和使用过程中的安全性。并且,探索建立语料流通的激励机制,通过设立多边合作的语料共享基金,设计公平透明的语料贡献价值评估体系及潜在收益分享机制,提升古籍出版社、图书馆和高校等语料贡献机构在学术共同体和市场中的声誉与影响力等,保障数据要素收益在国家、权利主体、社会公众之间合理流动,共享语料资源与开放利用成果。
3.从基础的数据库服务模式转向体系化的综合性古籍知识服务模式
现在,全球诸多图书馆、科研所等机构基于典藏资源建立了中华古籍数据库平台,但多停留在题录检索和内容影像阅读等基础服务层面,对不同用户群体的差异化需求缺少衡量,未实现多层面、多角度的综合性古籍知识服务。因此,相关建设主体应根据不同类型用户需求,从基础的数据库服务模式升级为体系化的综合性古籍知识服务模式。
其一,面向典藏单位人员用户,提供定制化的古籍数字化知识整合等技术服务。国际范围内有关技术公司、科研院所等机构等应积极参与中华古籍数据库平台建设,组建专门团队,针对该类用户在信息采集、编目、加工等古籍数字化知识整合工作中产生的个性化服务需求,研发定制化、可高效协同的技术和工具,提供古籍图像资源精准识别与内容自动分类等智能辅助服务,以及在线协同编校等功能,以切实满足用户的文化保存需求。
其二,对于学术研究人员用户,提供专业化的古籍数字化知识建构等科研服务。在开放科学背景下,世界各地相关政府机构、基金组织、高校与技术公司等多元主体应联合构建大型中华古籍数字化学术服务数据库平台,不仅满足用户对古籍文献集成的基础服务需求,而且应深入挖掘其在自动注释与知识挖掘等方面的科研需求,提供更加专业、精细的服务,包括基于文本可视化技术协助用户开展特定专业领域古籍数字化知识建构,基于语料库技术辅助用户进行电子化专题古籍研究和古籍整理等服务。
其三,面对一般民众用户,提供多元化的古籍数字化知识利用等阅读服务。海内外从事中华古籍数字化相关工作的出版社、图书馆等机构,应结合全球中华古籍爱好者、受传统文化教育者等一般民众的阅读习惯和知识利用需求,开发古籍大众阅读服务数据库产品,注重利用AR、VR等媒体技术打造多样化内容形态,借助大数据等技术提供古籍知识推荐、协同注解、在线社区交流、阅读批注共享等丰富的增值服务。并且,可借鉴中华书局籍合网的任务众包模式,[]在全球范围内组织广泛的普通用户群体参与到在线古籍整理与传播工作中去,提升古籍知识利用效率。
四、结语
大量中华古籍或以古代外交使节往返收购携带等自然文化交流形式传播海外,或以国际文物贩子走私等非正常渠道流失,或在战争中被劫掠,至今仍散落在海外学术机构、图书馆、博物馆等处,国际范围内多元主体亟须联合开展古籍数字化工作,使其成为构建人类命运共同体的文化基础设施。如今,中华古籍数字化国际合作主体已在制度环境、技术条件和用户需求等因素驱动下,形成了多层次互动结构,并初步形成了典藏机构间一对一合作等发展模式。未来,应当向更为高效的多元主体协作模式、更加开放的数据流通模式和更成体系化的综合性古籍知识服务模式转变,以深入推进全球中华古籍资源整合、技术协同与服务创新。