이 연구의 목적은 머신러닝 분석방법을 활용하여 대학생의 소속 학과 만족도에 영향을 미치는 주요 요 인을 분석하여 대학생의 진로지도와 중도탈락 예방 관련 정책 및 제도 수립을 위한 기초 연구 자료를 제 공하기 위함이다. 이를 위해 한국교육고용패널 (KEEP )자료의 4년제 대학 진학생 1,298명을 연구대 상으로 머신러닝 분석방법인 로지스틱 회귀분석과 랜덤포레스트 방법을 통하여 분석을 진행하였다. 주요 분석 결과는 다음과 같다. 첫째, 대학 입학년도에는 대학 생활 관련 변수 이외에도 고등학교 재학 시기 및 고등학교 졸업 후 진로 계획과 관련한 설명변수들이 중요도 상위 10개 항목 중 상당수를 차지하였으며, 입학년도와 졸업년도를 제외한 기간에는 전공 학습과 진로활동에 대한 변수들이, 졸업년도에는 취업준비 및 교육훈련 경험 등이 로지스틱 회귀분석과 랜덤포레스트 분석 결과에서 공통적으로 높은 중요도를 기록하였다. 둘째, 두 분석방 법에 따른 학년별 중요도 상위 10개 변수의 일치도는 63.3%로 나타났다. 셋째, 로지스틱 회귀분석과 달리 랜덤포레스트 분석에서는 설문의 응답자가 다수의 척도를 사용하여 응답한 설명변수들이 중요도 상위 10 개 설명변수에 포함된 경우가 상대적으로 많았다. 이 연구는 교육패널 자료를 단일 분석방법이 아닌 두 가지 머신러닝 방법을 사용하여 공통 요소를 도출하고, 결과의 비교를 시도했다는 점에 의의가 있다.
Depression is one of the most important psychiatric disorders worldwide. Most depression-related data mining and machine learning studies have been conducted to predict the presence of depression or to derive individual risk factors. However, since depression is caused by a combination of various factors, it is necessary to identify the complex relationship between the factors in order to establish effective anti-depression and management measures. In this study, we propose a methodology for identifying and interpreting patterns of depression expressions using the method of deriving random forest rules, where the random forest rule consists of the condition for the manifestation of the depressive pattern and the prediction result of depression when the condition is met. The analysis was carried out by subdividing into 4 groups in consideration of the different depressive patterns according to gender and age. Depression rules derived by the proposed methodology were validated by comparing them with the results of previous studies. Also, through the AUC comparison test, the depression diagnosis performance of the derived rules was evaluated, and it was not different from the performance of the existing PHQ-9 summing method. The significance of this study can be found in that it enabled the interpretation of the complex relationship between depressive factors beyond the existing studies that focused on prediction and deduction of major factors.
본 연구는 정맥의 서식지 관리 및 보전을 위한 기초자료를 제공하고자 수행하였다. 18개의 중점조사지역에서 지형, 서식지 환경을 고려하여 각 지점별로 개발지, 계곡부, 임도 및 능선 3가지 서식지유형으로 총 54개의 고정조사구를 선정하였다. 조사는 2016년부터 2018년까지 겨울철을 제외한 계절별(5월,8월, 10월)로 수행하였다. 서식지 유형별로 관찰된 조류를 자기조직화지도(SOM)를 활용하여 분포 패턴을 분석한 결과, 총 4개의 그룹으로 분류되었다(MRPP, A=0.12, p <0.005). 자기조직화지도 그룹별 종수와 개체수, 종다양도 지수를 비교분석한 결과 종수와 개체수, 종다양도 지수 모두 Ⅲ번 그룹에 가장 높게 나타났다(Kruskal-Wallis, 종수: x2 = 13.436, P <0.005; 개체수: x2 = 8.229, P <0.05; 종다양도: x2 = 17.115, P <0.005). 또한 그룹별 지표종 분석과, 서식지 환경 특성을 파악하기 위해 토지피복도를 랜덤 포레스트 모델에 적용하여 분석한 결과, 4개 그룹간의 서식지환경이 구성하는 비율과 지표종에 차이를 보였다. 지표종 분석은 Ⅱ번 그룹을 제외한 3그룹에서 총 18종의 조류가 지표종으로 확인되었다. 본 연구에서 자기조직화지도 를 활용하여 4개 그룹으로 분류된 결과를 기초로 랜덤 포레스트 모델과 지표종 분석을 적용하였을 때 그룹별 지표종 구성과 그룹별 서식지 특성과 상호 연관성을 보였다. 또한 그룹별 우점하는 서식환경에 따라 관찰된 종의 분포패턴과 밀도가 뚜렷하게 구분이 되었다. 자기조직화지도와 지표종분석, 랜덤 포레스트 모델을 함께 적용한 분석은 서식지 환경에 따라 조류 서식 특징파악에 유용한 결과를 도출할 수 있을 것으로 판단된다.
본 연구의 목적은 적지적수 판단에 있어 최근 분류 예측에 활용되고 있는 랜덤포레스트 기법의 적용 가능성을 살펴보는데 있다. 즉, 수종별 조림 적지 판단에 있어 랜덤포레스트 기법을 소개하고 적지적수 도를 작성하여 적용성을 판단하고자 한다. 그 결과 랜덤포레스트 기법의 예측 정확도는 낙엽송 89.29%, 편백 73.89%로 높은 편으로 나타났다. 변수 중요도는 두 개의 수종 모두 표고, 경사, 방위의 순으로 영향력이 높은 것으로 나타났으며 지형, 토성, 토양형이 낮은 영향력을 보였다. 적지적수도 작성 결과, 낙엽송은 경상남도 중부를 제외한 대부분 지역이 가능지와 적지로 나타났으며, 편백은 경상남도의 북동부 지역이 적지로 나타났다. 랜덤포레스트 기법은 적지적수도 작성뿐만 아니라 산림 분야에서 적용되어 왔던 다양한 형태의 분류 및 예측 연구에서 활용 가능성이 높을 것으로 사료된다.