논문 상세보기

문서 분류에서 단어의 통계 정보를 이용한 특징 선택 기법의 비교

Comparison of Feature Selection Methods using the Statistics of Words in Text Categorization

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/368175
구독 기관 인증 시 무료 이용이 가능합니다. 4,000원
대한안전경영과학회 (Korea Safety Management & Science)
초록

정보 검색 분야의 문서 분류에 기계 학습 기법을 적용할 때 발생하는 가장 큰 문제는 문서를 패턴으로 표현할 때, 하나의 패턴이 가지는 특징의 수가 기계 학습 기법에서 처리할 수 있는 범위를 넘어서는 것이다. 이러한 문제를 해결하기 위하여 특징 선택 기법은 패턴을 구성하고 있는 특징 중에서 실제 문서 분류에 많은 영향을 주는 특징만을 선택하여, 기계 학습 기법에서 쉽게 처리할 수 있을 정도의 패턴을 구성하게 한다. 본 논문에서는 이러한 특징 선택 기법 중에서 IG(Information Gain), Gini index, Relief-F, DF(Document Frequency)를 비교하였다. 실험 결과 문서들에 포함된 모든 고유 단어를 특징의 길이로 하여 패턴을 구성했을 때보다 특징 선택 기법을 적용하여 고유 단어 중 일부를 특징으로 패턴을 구성할 때 기계학습에서 더 향상된 분류 성능을 보였다

목차
요약
 1. 서론
 2. 특징 선택 기법
  2.1 Information Gain(lG)
  2.2 Gini
  2.3 Relief-F
  2.4 Document Frequency(DF)
 3. 학습 기법
 4. 실험 결과 및 분석
  4.1 실험 방법
  4.2 분류 성능 실험
 5. 결론
 참고문헌
저자
  • 임윤택 | Rim Yun-Taek
  • 윤충화 | Yoon Chung-Hwa