논문 상세보기

CHISE における歴史的漢字情報統合の試み CHISE에서의 역사적 한자 정보 통합 시도

An Attempt at Integrating Historical Sinographic Data into CHISE

  • 언어JPN
  • URLhttps://db.koreascholar.com/Article/Detail/447919
구독 기관 인증 시 무료 이용이 가능합니다. 15,600원
단국대학교 한문교육연구소 (Han-character Education Research Center)
초록

CHISE(문자 정보 서비스 환경, CHaracter Information Service Environment)는 라벨이 부여 된 유향 비순환 그래프(Directed Acyclic Graphs: DAGs)에 기반한 기계 판독 가능 형식을 통해 문자에 관한 다양한 지식을 기술한 문자 온톨로지(CHISE 문자 온톨로지)를 활용함으로써, 범용 문자인코딩에 의존하지 않고 문자 처리를 수행하기 위한 환경이다. 이는 Unicode와 같은 범용 문자인코딩에 대해 메타시스템의 역할을 한다고 할 수 있으며, 특정 한자 자형에 대응하는 부호 위치를 탐색하거나, 아직 부호화되지 않은 문자의 성질을 미리 기술해 두고 그 성질을 활용하여 검색 가능하게 하는 등의 작업이 가능하다. CHISE 문자 온톨로지에서는 한자에 대해 주로 문자 자체와 문자인코딩에 관련된 정보를 중심으로 데이터 정비를 진행해 왔다. 그러나 한자를 적절하게 파악하고 기술하기 위해서는, 한자를 읽고 쓰는 사람들로 이루어진 해석 공동체의 양상과 그 규범 의식의 변천에 주목하는 것이 중요하다고 할 수 있다. 이를 위해서는 각 시대와 지역에서의 자형 용례를 수집하여 문자 온톨로지에 연계하는 작업이 중요하다. 또한 CHISE에서는 한자의 이체자 정보와 관련자 정보 를, 그것이 놓인 도메인과 전거 정보를 부여할 수 있는 형태로 기술할 수 있도록 하고 있다. 그러나 이러한 틀을 활용하여 이체자 관계의 기술에 구체적인 전거 정보를 부여하기 위해서는, 고자서와 각종 텍스트에 나타나는 용례를 수집하여 데이터화하고 이를 기계 판독 가능한 형태로 기술할 필요가 있다고 할 수 있다. 본고에서는 CHISE에 대해 개설하는 한편, 「한자 자형 규범사 데이터세트」(Hanzi Normative Glyphs: HNG)의 역사적 한자 자형 용례 데이터, 「헤이안(平安) 시대 한자 자서 종합 데이터베이스」(Integrated Database of Hanzi Dictionaries in Early Japan: HDIC)의 게시 자형 데이터 및 고자서 주문(注文) 데이터, 「자료 횡단적 한자음·한어음 데이터베이스」(Database of Historical Sino-Japanese Readings: DHSJR)에 수록된 헤이안(平安) ·가마쿠라(鎌倉) 시대 이 후 일본 문헌 자료에 나타나는 한자음 ·한어음 데이터, 그리고 교토대학교 인문과학연구소 소장 갑골문자와 󰡔설문해자(説文解字)󰡕의 데이터 등을 CHISE에 통합하려는 시도에 대해 서술한다.

CHISE (CHaracter Information Service Environment) is an environment designed for character processing that does not rely on general-purpose character encodings. It does so by using a character ontology (the CHISE Character Ontology) that is based on labeled Directed Acyclic Graphs (DAGs) and describes a wide range of knowledge about characters in a machine-readable format. It can be said to function as a meta-system with respect to general-purpose character encodings such as Unicode, making it possible, for example, to locate the code point corresponding to a given Sinographic character glyph, or to describe the properties of characters that have not yet been encoded and enable them to be searched using those properties. In the CHISE Character Ontology, data curation for Sinographic characters has so far focused primarily on information related to characters themselves and to character encodings. However, in order to apprehend and describe Han characters appropriately, it is important to pay attention to changes that occurred over time in the conventional practices of the interpretive communities of people who read and wrote Sinographic characters. To this end, it is essential to collect examples of character forms used in different periods and regions and to link them to the character ontology. Moreover, while CHISE enables information on variant characters and related characters of a given Sinographic character to be described in a form that allows domain information and source references to be attached, providing concrete source evidence for the description of relationships among variant characters within this framework requires collecting usage examples from ancient character dictionaries and texts belonging to an array of genres, converting them into data, and representing them in a machine-readable form. This paper provides an overview of CHISE and, at the same time, describes an attempt to integrate into CHISE a range of related resources: (1) historical usage data of Sinographic character forms from the Hanzi Normative Glyphs (HNG) database; (2) data from displayed characters forms and annotations in ancient character dictionaries contained in the Integrated Database of Hanzi Dictionaries in Early Japan (HDIC); data on phonetic pronunciation of Sinographic characters and Chinese phonetics appearing in Japanese textual sources from the Heian and Kamakura periods onward, as recorded in the Database of Historical Sino-Japanese Readings (DHSJR); as well as data about characters from oracle bone script and the Sŏlmun haech’a | Setsumon kaiji | Shuowen jiezi 説文解字 held by the Institute for Research in Humanities, Kyoto University.

CHISE (CHaracter Information Service Environment) は、ラベル付き有向非循環グラフ に基づく機械可読形式によって文字に関するさまざまな知識を記述した文字オントロジー (CHISE 文字オントロジー)を用いることで、汎用文字符号に依存することなく文字処 理を行うための環境である。これは Unicodeのような汎用文字符号に対するメタシステム の役割を果たすものといえ、ある漢字字体に対応する符号位置を探したり、まだ符号化さ れていない文字の性質を記述しておきその性質を使って検索可能にするといったことが可 能である。 CHISE 文字オントロジーでは漢字に対して主に文字や文字符号に関わる情報を中心に データ整備を進めてきたが、漢字を適切にとらえ記述するためには、漢字を読み書きする 人たちの解釈共同体のありようやその規範意識の変遷に着目することが重要といえる。そ のためには各時代・地域の字体用例を収集し文字オントロジーに紐付けることが重要であ る。また、CHISE では漢字の異体字情報や関連字情報を、それが置かれたドメインや典 拠情報を付与可能な形で記述可能にしているが、この枠組を用いて異体字関係の記述に具 体的な典拠情報を与えるためには、古字書や各種テキストでの用例を収集しデータ化して 機械可読記述する必要があるといえる。 本稿では、CHISE について概説するとともに、「漢字字体規範史データセット」(HNG) の歴史的漢字字体用例データ、「平安時代漢字字書総合データベース」(HDIC)の掲出字体 データおよび古字書注文データ、「資料横断的な漢字音・漢語音データベース」(Database o f Historical Sino-Japanese Readings;DHSJR) が収録する平安・鎌倉期以降の日本の文献資料に現われる漢字音・漢語音のデータ、京都大学人文科学研究所所蔵甲骨文字や説文解字 のデータなどを CHISE に統合する試みについて述べる。

목차
한국어 초록
目 次
Ⅰ. はじめに
Ⅱ. 漢字の特徴
Ⅲ. 漢字における文字の同一性
Ⅳ. CHISE
Ⅴ. Chaon モデル
    1. 文字素性の表現
    2. 文字間の関係の記述
Ⅵ. 字形と字体の包摂
Ⅶ. 漢字構造記述
    1. 機能的漢字構造と皮相漢字構造
    2. 機能的漢字部品と部品の生産性
    3. 複数の漢字構造
    4. 多粒度漢字構造記述
Ⅷ. 説文小篆と現代漢字の対応
    1. 説文小篆と現代漢字の対応
    2. 同系と同構造、構造対応の階数
Ⅸ. 文字符号と字書と用例
Ⅹ. 漢字字体規範史データセット
    1. 字体の包摂概念の基礎としての漢字字体史研究
    2. 旧 HNG-DB の停止と復元
    3. HNG のデータセット化
    4. HNG のデータ構造
    5. CHISE での表現
ⅩⅠ. 異体字関係と古字書
    1. 異体字関係と字種・形態素
    2. 異体字関係の表現
    3. 古字書の注文とその指示対象の関係の記述
ⅩⅡ. 平安時代漢字字書総合データベース
    1. HDIC の CHISE での表現
    2. HDIC 代表字形オブジェクト
    3. HDIC 字体オブジェクト
    4. 漢字音オブジェクト
    5. 文献オブジェクト
    6. 引用箇所の表現
ⅩⅢ. 資料横断的な漢字音・漢語音データベース (DHSJR)
    1. DHSJR と CHISE をどう繋げるか
ⅩⅣ. 実装
    1. 楷書系字体の収録
    2. 古漢字系字体の収録
    3. HDIC の収録
    4. 異体字関係の実装
    5. 包摂関係のドメイン
    6. 文献オブジェクトと作者オブジェクトの実装
    7. 注文テキストの構造化と文字オントロジーへの統合
    8. Web サービス
ⅩⅤ. DHSJR の収録
    1. 資料(文献)情報
    2. 単字
    3. 漢語
    4. 字音注記
    5. CHISE との連携
ⅩⅥ. おわりに
References 參考文獻
日 文 摘 要
ABSTRACT
저자
  • 모리오카 토모히코(국문학연구자료관) | MORIOKA Tomohiko (National Institute of Japanese Literature)