의사 결정 나무 알고리즘은 관심이 되는 집단을 몇 개의 소집단으로 분류하거나 특성을 예측하기 위한 데이터 마이닝 분석 기법중 하나이다. 이 기법은 각 업종별 특성을 분석하여 업종별 차이점을 찾기 위해 사용되었다. 여기에서 사용되어진 의사결정 알고리즘으로는 C4.5알고리즘을 사용하였다. 트리는 이득율(Gain Ratio)에 의해서 Top-Down방식으로 구성하게 되었다. 본 연구에서 사용된 데이터는 2003년, 2004년에 발생 되어진 데이터로 총 25,159개의 데이터를 대상으로 정제과정을 거쳐 24,887개의 데이터를 사용하였고, 한 개의 종속 변수와 8개의 독립 변수로 이루어져 있다. 총 222개의 트리 노드가 만들어 졌고 최종 노드(Leaf Node)는 총 151개가 생성되었다. 생성된 트리 결과에 대한 정확성 측정을 위해 정확도(Accuracy), 오분류 확률(Misclassification Rate)을 계산하였다.
In general, data mining has iterative processes with the following five steps: Data Selection, Cleansing, Transformation, Mining, Interpretation. Among these steps, steps of data selection and cleansing are performed to classify data. There are two types of data, continuous data and discrete data. Discrete data has a classified structure and it is easy to obtain rules from data. However, there are no general rules for classified method of data in continuous data. So, the result of data analysis will be differed from the classified method of data in continuous data. This research presents a methodology that can obtain the rules from data and classify data according to situations in DBMS (Data Base Management Systems).