当前位置:网站首页 > 书目文献

数字人文研究的发展趋势

史睿

  当代学者必须面对这样的现实:我们正处在一个传统媒介文献和数字文献交错并行的时代,这个时代的学者必须同时具备处理两种文献的能力才能从事学术研究。
  
  传统媒介文献大家都非常熟悉,不再胪列;数字文献大致可分为三类:传统纸本文献的数字影像、数字编码的全文文本、结构化的数据库或知识库。处理传统媒介文献,人类已经积累了数千年的经验,而处理数字文献则是一个新命题。
  
  研究如何利用数字文献以解答人文学术问题,并探求如何,可称为数字人文研究。这是一个崭新的跨学科的研究领域,从事这个领域的学者往往来自传统人文学科、图书情报学、语言学、计算机学等学科,有着不同的学术背景,他们固然对于这个领域各有贡献,但不同学科之间的鸿沟仍然难以逾越。
  
  其实传统人文学术为我们提供了多种知识管理解决方案,最新的解决方案可能就蕴涵在古老的文献之中,我们今天应该善加继承、利用。需要特别强调的是,电子文献不会天然比传统媒介有优势,其至少存在两个方面的缺陷,一是文本准确率,一是检索的查全率、查准率。纸本文献必须达到万分之一以下的差错率才能出版,而目前既有电子文献远低于这个水平。又,利用检索工具书,纸本文献可以达到很高的查全率和查准率,目前还没有哪种数据库或知识库超过纸本文献既有的水平。人文学者有责任总结人类既有的知识管理策略和人文学术方法论,并积极普及推广,同时也要积极学习统计学、计算语言学、计算机科学和网络技术,提出更为明确的应用需求,寻求成熟而适用的方法以实现智能化的数字人文方法;而科学家们也要破除傲慢的现代中心观和科学主义偏见,积极学习并继承人类社会积累了数千年的有效知识。
  
  关于数字人文研究的基础理论,笔者19年前发表了《论中国古籍的数字化与人文学术研究》(《北京图书馆馆刊》1999年第2期,第28-35页),十二年前发表《索引与知识发现》(《中国索引》2006年第1期,第2-9页)和《古籍数字资源的知识库建设解析》(《数字图书馆论坛》2006年第12期,第1-4页,与程佳羽合作),这些文章提出数字人文研究的基础是建立通用的词汇级的本体,转化、集成传统文献检索工具,建立基于本体的神经网络式的知识管理系统,提供语义网的智能知识服务。
  
  最近几年越来越多的同行认同我的观念,但我当年思考的问题目前还没有引起人文学术研究领域的重视,尚未形成共识,故有必要著文申述。笔者认为,数字人文研究应有两个层面的基本要素:即知识本体和知识网络,用传统词汇概括,相当于“辞典”和“索引”。知识本体如同辞典,是指一个不可再分的意义的规范表达形式及其权威解释;知识网络如同索引和索引的综合体,包括各种类型检索工具,例如范畴索引、主题词表、人物关系索引(传记索引、交往索引、世系表)、年表、地图、书目等等,知识网络把这些索引中的同一意义的标目提取出来,加以综合归纳,形成反映知识自身关联的网络,人文学者可以循此网络进行无限的知识运算,包括聚类、筛选、比较、统计、推理。
  
  对传统媒体承载的知识进行以上两方面的加工,我们就能实现关键词级的知识管理,真正突破传统媒体的限制,学术研究就变得更为便利和深入。传统媒体的限制是指旧媒体将知识分割于不同的物理载体之中,比如说这本书的知识很难与另一本书的同类知识关联,这种检索工具很难跟另一种检索工具互通,而学术研究则要求尽可能地联系各方知识,便于重新组合和运算。学者重组知识的能力越强,创造力也就越强。计算机和网络把我们带入一个新媒体时代,所有知识都变成比特,而比特之间并无物理区隔,已连为一体了。我们处理这些信息的办法是相同的,且范围更广、计算更快、应用更方便,只是问题在于怎么管理它们,怎么制订一个标准把它统合起来。
  
  近代学术史于此给予我们启迪:上世纪30年代开始,哈佛燕京学社在北京建立引得编纂处(今北京大学校内),这是现代学术史上极具关键性的大事件。当时不仅引得编纂处出版了系列古籍索引,还有中法汉学研究所的系列“通检”,以及国立北平图书馆的《国学论文索引》《清代文集篇目分类索引》《石刻题跋索引》,稍后出版的有谭其骧主编的《中国历史地图集》。这些引得、通检、索引、地图看起来是普通的学术出版物,实际是中国学术现代性转型的重要表现。此前的学术研究依赖个人的记忆、功力和视野,有了上述这些索引工具,便能聚合学术共同体的成就,形成有序有效的社会知识积累和传播,中国从此跨入了现代学术的大门。
  
  中国学术界今天面临的情况跟上世纪30年代引得编纂处时代的情况完全一样,正处在向新学术转变与跨越的门槛上,即利用新媒体、新技术实现更为深入新颖的知识重组,甚至代替学者的部分重复性和基础性工作。而且有意思的是,目前北京大学中国古代史研究中心、台北“中央研究院”历史语言研究所、哈佛大学燕京学社三个机构在燕京大学旧地正在实施的“中国历代人物资料数据库”项目(简称CBDB),正如同新媒体时代的新“引得”事业。
  
  看起来好像我们经过一个历史循环,又到了一个新的起点,我们从地理原址这个起点重新出发,再次谋求突破和飞跃。更为重要的是,今天世界学术格局和上世纪二三十年代有着显著的不同:当初中西学术的差异是近代学术与前近代学术之间的差异,我们只有跟随学习;而如今中西的人文学术研究都面临着新媒体、新技术带来的机遇和挑战,显然站在了同一起跑线上,如何应对,中西双方可以咸有贡献,而并不需要跟随西方亦步亦趋,反而可以基于中文文献的特征提出更优的解决方案,推动人文学术的发展。
  
  当人类更多使用这样的新媒体进行人文学术研究的时候,我们可以发现,这建立了更为平等的知识学习渠道,无论身处何地,都最便捷地学到人类世代积累的知识,不再因为信息渠道受阻——例如没有条件获取承载知识的图书、期刊——而丧失学习机会;同时,这将人文学者从简单的资料汇总、筛选和推理中解放出来,提高了学术研究的门槛,督促学者从事更为思辨性和创造性的研究。
  
  预测到这样的前景和挑战,我们人文学者要有必要的准备,既要充分利用已有的数字人文成果,避免研究中信息缺失和知识缺失的陷阱,垫高殖厚学术研究的基础;又要在传统媒体上发表学术成果之外,全力支持网络基础设施建设,将自己的成果转移并记录到可资人类永久地、平等地利用的知识体系之中,以求学术的永续发展。
  

原载:《文汇学人》
收藏文章

阅读数[159]
百年·红楼梦 网络文化与文学研究
网友评论 更多评论
如果您已经注册并经审核成为“中国文学网”会员,请 登录 后发表评论; 或者您现在 注册成为新会员

诸位网友,敬请谨慎网上言行,切莫对他人造成伤害。
验证码: