본 연구는 관광 관련 서비스 분야에 필요한 특수 목적 중국어(CSP) 교육과정 개 발을 위한 첫 단계로 AI 데이터 기반으로 구축된 구어체 병렬 코퍼스에서 CSP 어휘 리스트를 선정하여 용어색인과 어휘다발(n-gram)등을 분석하였다. 어휘리스트 어휘 규모는 토큰 수 총 304, 228개와 타입 수 17, 286개로 나타났으며, 어휘 누적 증가율 을 분석하면 2-Gram과 3-Gram의 어휘다발이 가장 많았고, 실무 현장에서 가장 많 이 활용되고 있음을 알 수 있었다. 본 연구에서 구축된 특수 목적 관광 중국어 어휘 리스트는 실제 교육 자료로 제공하여 관광 중국어 학습자와 교수자에게 실용적으로 사용될 수 있을 것이라 기대한다.
본고는 단국대학교 부설 한문교육연구소에서 개발 중인 특수 어휘 매칭 툴을 구동시켜 어휘 데이터의 문제점과 개선 방향을 논의하기 위해 작성되었다. 한문교육연구소 개발 어휘 매칭 툴은 최종적으로 한문 고전 텍스트를 토크나이징(Tokenizing) 하기 위한 것이며, 특수 어휘의 매칭은 전체 텍스트를 토크나이징을 하기 위한 첫 단계라고 할 수 있다. 이 어휘 매칭 툴 실행 결과를 MARKUS 자동 마크업과 비교함으로써 매칭 툴과 그 데이터의 장단점을 분석하고, 이 과정에 발견된 문제점에 대해 보완할 수 있는 방향을 제시하였다. 한문교육연구소 어휘 매칭 툴은 한문고전에 특화된 도구로서 중요한 역할을 할 수 있으며, 앞으로 한문 고전의 토크나이징 에도 기여할 것으로 기대된다. 하지만 현재 상태에서는 여러 가지 보완이 필요하다. 우선, 한국 고유의 지명과 인명 데이터를 추가할 필요가 있다. 현재 데이터는 주로 중국의 어휘에 집중되어 있어 한국 고유 어휘가 부족한 상황이다. 추가 어휘데이터를 구축함으로써 해결할 수 있을 것으 로 보인다. 또 별칭의 매칭 문제 등을 해결할 필요가 있다.