An Attempt at Integrating Historical Sinographic Data into CHISE
CHISE(문자 정보 서비스 환경, CHaracter Information Service Environment)는 라벨이 부여 된 유향 비순환 그래프(Directed Acyclic Graphs: DAGs)에 기반한 기계 판독 가능 형식을 통해 문자에 관한 다양한 지식을 기술한 문자 온톨로지(CHISE 문자 온톨로지)를 활용함으로써, 범용 문자인코딩에 의존하지 않고 문자 처리를 수행하기 위한 환경이다. 이는 Unicode와 같은 범용 문자인코딩에 대해 메타시스템의 역할을 한다고 할 수 있으며, 특정 한자 자형에 대응하는 부호 위치를 탐색하거나, 아직 부호화되지 않은 문자의 성질을 미리 기술해 두고 그 성질을 활용하여 검색 가능하게 하는 등의 작업이 가능하다. CHISE 문자 온톨로지에서는 한자에 대해 주로 문자 자체와 문자인코딩에 관련된 정보를 중심으로 데이터 정비를 진행해 왔다. 그러나 한자를 적절하게 파악하고 기술하기 위해서는, 한자를 읽고 쓰는 사람들로 이루어진 해석 공동체의 양상과 그 규범 의식의 변천에 주목하는 것이 중요하다고 할 수 있다. 이를 위해서는 각 시대와 지역에서의 자형 용례를 수집하여 문자 온톨로지에 연계하는 작업이 중요하다. 또한 CHISE에서는 한자의 이체자 정보와 관련자 정보 를, 그것이 놓인 도메인과 전거 정보를 부여할 수 있는 형태로 기술할 수 있도록 하고 있다. 그러나 이러한 틀을 활용하여 이체자 관계의 기술에 구체적인 전거 정보를 부여하기 위해서는, 고자서와 각종 텍스트에 나타나는 용례를 수집하여 데이터화하고 이를 기계 판독 가능한 형태로 기술할 필요가 있다고 할 수 있다. 본고에서는 CHISE에 대해 개설하는 한편, 「한자 자형 규범사 데이터세트」(Hanzi Normative Glyphs: HNG)의 역사적 한자 자형 용례 데이터, 「헤이안(平安) 시대 한자 자서 종합 데이터베이스」(Integrated Database of Hanzi Dictionaries in Early Japan: HDIC)의 게시 자형 데이터 및 고자서 주문(注文) 데이터, 「자료 횡단적 한자음·한어음 데이터베이스」(Database of Historical Sino-Japanese Readings: DHSJR)에 수록된 헤이안(平安) ·가마쿠라(鎌倉) 시대 이 후 일본 문헌 자료에 나타나는 한자음 ·한어음 데이터, 그리고 교토대학교 인문과학연구소 소장 갑골문자와 설문해자(説文解字)의 데이터 등을 CHISE에 통합하려는 시도에 대해 서술한다.
CHISE (CHaracter Information Service Environment) is an environment designed for character processing that does not rely on general-purpose character encodings. It does so by using a character ontology (the CHISE Character Ontology) that is based on labeled Directed Acyclic Graphs (DAGs) and describes a wide range of knowledge about characters in a machine-readable format. It can be said to function as a meta-system with respect to general-purpose character encodings such as Unicode, making it possible, for example, to locate the code point corresponding to a given Sinographic character glyph, or to describe the properties of characters that have not yet been encoded and enable them to be searched using those properties. In the CHISE Character Ontology, data curation for Sinographic characters has so far focused primarily on information related to characters themselves and to character encodings. However, in order to apprehend and describe Han characters appropriately, it is important to pay attention to changes that occurred over time in the conventional practices of the interpretive communities of people who read and wrote Sinographic characters. To this end, it is essential to collect examples of character forms used in different periods and regions and to link them to the character ontology. Moreover, while CHISE enables information on variant characters and related characters of a given Sinographic character to be described in a form that allows domain information and source references to be attached, providing concrete source evidence for the description of relationships among variant characters within this framework requires collecting usage examples from ancient character dictionaries and texts belonging to an array of genres, converting them into data, and representing them in a machine-readable form. This paper provides an overview of CHISE and, at the same time, describes an attempt to integrate into CHISE a range of related resources: (1) historical usage data of Sinographic character forms from the Hanzi Normative Glyphs (HNG) database; (2) data from displayed characters forms and annotations in ancient character dictionaries contained in the Integrated Database of Hanzi Dictionaries in Early Japan (HDIC); data on phonetic pronunciation of Sinographic characters and Chinese phonetics appearing in Japanese textual sources from the Heian and Kamakura periods onward, as recorded in the Database of Historical Sino-Japanese Readings (DHSJR); as well as data about characters from oracle bone script and the Sŏlmun haech’a | Setsumon kaiji | Shuowen jiezi 説文解字 held by the Institute for Research in Humanities, Kyoto University.
CHISE (CHaracter Information Service Environment) は、ラベル付き有向非循環グラフ に基づく機械可読形式によって文字に関するさまざまな知識を記述した文字オントロジー (CHISE 文字オントロジー)を用いることで、汎用文字符号に依存することなく文字処 理を行うための環境である。これは Unicodeのような汎用文字符号に対するメタシステム の役割を果たすものといえ、ある漢字字体に対応する符号位置を探したり、まだ符号化さ れていない文字の性質を記述しておきその性質を使って検索可能にするといったことが可 能である。 CHISE 文字オントロジーでは漢字に対して主に文字や文字符号に関わる情報を中心に データ整備を進めてきたが、漢字を適切にとらえ記述するためには、漢字を読み書きする 人たちの解釈共同体のありようやその規範意識の変遷に着目することが重要といえる。そ のためには各時代・地域の字体用例を収集し文字オントロジーに紐付けることが重要であ る。また、CHISE では漢字の異体字情報や関連字情報を、それが置かれたドメインや典 拠情報を付与可能な形で記述可能にしているが、この枠組を用いて異体字関係の記述に具 体的な典拠情報を与えるためには、古字書や各種テキストでの用例を収集しデータ化して 機械可読記述する必要があるといえる。 本稿では、CHISE について概説するとともに、「漢字字体規範史データセット」(HNG) の歴史的漢字字体用例データ、「平安時代漢字字書総合データベース」(HDIC)の掲出字体 データおよび古字書注文データ、「資料横断的な漢字音・漢語音データベース」(Database o f Historical Sino-Japanese Readings;DHSJR) が収録する平安・鎌倉期以降の日本の文献資料に現われる漢字音・漢語音のデータ、京都大学人文科学研究所所蔵甲骨文字や説文解字 のデータなどを CHISE に統合する試みについて述べる。