[26] 参见:https://ora.ox.ac.uk/objects/uuid:c0c281cd-4c2d-46ea-94b0-f7758cf0c3e6。_墈·书¨屋`晓,说?枉· ,已?发*布¨醉,薪¨蟑′劫-
唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥[1]
徐力恒
一 引言
由于计算机及网络技术的普及,文献类历史数据库的便捷性、整合性和全面性,历史学者在研究中使用数据库的情况日渐普遍。作为搜集史料的一种方法,历史学者一般能熟练地在各种全文数据库进行关键词检索,尤其是把古籍材料变成电子文本的数据库。然而,对于其他可用于研究的数据库,大多数学者是陌生的。作为中国史领域中发展历程较长,也比较重要的“中国历代人物传记资料库”(下称CBDB)的项目成员之一,笔者希望通过讨论这个大型的基础数据库的发展,引发学界对这项开放的学术资源的兴趣和讨论。CBDB的操作原理跟全文数据库不一样,而且不少学者未必了解CBDB近年处理历史资料的进展和特点,故有本文的写作。,2?0¢2!3!t*x·t,.+c/o?m¢由于CBDB项目网站已经提供了说明文件,所以本文重点不在介绍项目基本情况和历史,而侧重探讨项目组在近年致力充实的唐代资料部分,尤其是我们近三年工作的进展。[2]
“中国历代人物传记资料库”是由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、台湾中研院历史语言研究所共同主持的学术数据库。该项目的目标在于系统地收录中国历史上所有重要的传记资料,整理成数据,并免费公开,供学术研究之用。截至目前,该数据库共收录超过37万人的传记资料。这些人物资料既可在线查询,又可全部下载,以便用户离线时在计算机使用。这些数据除了可以作为历史人物研究的参考资料以外,亦可用于统计分析、地理空间分析与社会网络分析等用途,是利用计算机辅助历史研究的基本工具。
当前,这个数据库为每个人物的条目都设了多种数据栏目类别,尽可能详细地记录其中信息,并且以相互关联的表格保存,即按照人名、时间、地址、职官、入仕途径、著作、社会区分、亲属关系、社会关系、财产、事件等进行保存。*躌?4.墈/书_ ¨首\发-需要强调的是,这个数据库的最大优势不仅是作为人物资料的参考,而且是作为一套可供批量分析的数据来使用。换言之,学者固然可以把CBDB当作一部电子版的历史人物辞典来使用——当我们想了解某个历史人物,可以利用人名检索,找出关于他的信息。但是,和一般对人物数据库的理解不一样的是,CBDB既不提供一篇篇的人物小传,也不包含古籍的全文。它提供的是多个相互关联的表格,把人物信息整理出来,放入其中,以便学者进行批量分析。用户通过对数据库进行查询,可以获得大批人物信息。其中关键的是,这些查询除了利用人名,也可以利用人名以外的各种信息,例如地名、官名,甚至是亲属关系、社会关系等,查出一批人物的资料,供学者参考和分析。而且检索条件可以设定多种,在一次查询中就能加入相对复杂的检索条件。
建立这种数据库结构的目标不单是史料的电子化,更重要的是为了达到史料的“数据化”。史料的电子化是把古籍材料转化成电子文本。至于史料的数据化,意指在进行电子化之后,还更进一步,把史料整理成能被电脑程序使用和分析的格式,相互连接,建成数据库。换言之,数据化是对数字化的拓展与推进。[3]数据化工作产出的数据不仅可以用于全文检索,还可以用来进行更多样的查询和分析,并可灵活地导出到其他软件,以便进行批量处理,或用不同方式来呈现,如统计表格、电子地图等。每当提及对数据库的利用,都容易让人联想到量化分析,不过数据化的目标其实不限于产生用于量化分析的数据,还可以产生用于其他分析方法的数据。通过对研究资料进行数据化,人文学者可以更有效率、更系统地解决既有的学术课题,也可以通过数据发现一些新的问题。关于这些话题,我将在本文介绍CBDB项目工作时举例说明。
2015年起,由罗杰伟(Roger E.Covey)先生创立的唐研究基金会(Tang Research Foundation)为CBDB项目提供了资助,