본고는 단국대학교 부설 한문교육연구소에서 개발 중인 특수 어휘 매칭 툴을 구동시켜 어휘 데이터의 문제점과 개선 방향을 논의하기 위해 작성되었다. 한문교육연구소 개발 어휘 매칭 툴은 최종적으로 한문 고전 텍스트를 토크나이징(Tokenizing) 하기 위한 것이며, 특수 어휘의 매칭은 전체 텍스트를 토크나이징을 하기 위한 첫 단계라고 할 수 있다. 이 어휘 매칭 툴 실행 결과를 MARKUS 자동 마크업과 비교함으로써 매칭 툴과 그 데이터의 장단점을 분석하고, 이 과정에 발견된 문제점에 대해 보완할 수 있는 방향을 제시하였다. 한문교육연구소 어휘 매칭 툴은 한문고전에 특화된 도구로서 중요한 역할을 할 수 있으며, 앞으로 한문 고전의 토크나이징 에도 기여할 것으로 기대된다. 하지만 현재 상태에서는 여러 가지 보완이 필요하다. 우선, 한국 고유의 지명과 인명 데이터를 추가할 필요가 있다. 현재 데이터는 주로 중국의 어휘에 집중되어 있어 한국 고유 어휘가 부족한 상황이다. 추가 어휘데이터를 구축함으로써 해결할 수 있을 것으 로 보인다. 또 별칭의 매칭 문제 등을 해결할 필요가 있다.
The Hausdorff distance is commonly used as a similarity measure between two-dimensional binary images. Since the document images may be contaminated by a variety of noise sources during transmission, scanning or conversion to digital form, the measure should be robust to the noise. Original Hausdorff distance has been known to be sensitive to outliers. Transforming the given image to grayscale image is one of methods to deal with the noises. In this paper, we propose a Hausdorff distance applied to grayscale images. The proposed method is tested with synthetic images with various levels of noises and compared with other methods to show its robustness.