기계 학습을 이용한 한국어 문장 경계 인식

임희석

논문 상세보기

기계 학습을 이용한 한국어 문장 경계 인식

Korean Sentence Boundary Detection Using Machine Learning Technique

임희석

언어KOR
URLhttps://db.koreascholar.com/Article/Detail/267962

구독 기관 인증 시 무료 이용이 가능합니다. 4,300원

미디어와 공연예술 연구

제1권 (2006.12)
pp.38-49

청운대학교 방송·예술연구소 (Broadcasting & Arts Research Institute)

초록

본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최 근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스 코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다. 문장 경 계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있 는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하 였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 98.82%의 문장 정확률과 99.09%의 문장 재현율을 보였다.

This paper proposes a Korean sentence boundary detection system which employs k-nearest neighbor algorithm. We proposed three scoring functions to classify sentence boundary and performed comparative analysis. We uses domain independent linguistic features in order to make a general and robust system. The proposed system was trained and evaluated on the two kinds of corpus; ETRI corpus and KAIST corpus. As experimental results, the proposed system shows about 98.82% precision and 99.09% recall rate even though it was trained on relatively small corpus.

키워드

기계학습 문장경계인식 kNN

저자

임희석(한신대학교 컴퓨터정보소프트웨어학부 교수) | Heui-Seok Lim

같은 권호 다른 논문