2019년 12월, 상주-영천 고속도로 상행선에서 도로 노면 결빙에 의한 연쇄추돌사고로 48명의 사상자가 발생하였다. 이에, 국토교통부 는 2020년 1월 결빙 취약구간 선정기준을 마련하여 결빙 취약구간 403개소를 지정하고, 결빙 취약구간을 대상으로 2022년까지 1,699억 원의 예산을 투입하여 결빙사고 예방사업을 계획하였다(BAI, 2021). 하지만, 결빙 취약구간 선정기준에 대해 적정성 검토가 이루어지 지 않아 그 신뢰성과 실효성이 충분히 검증되지 않았다. 본 연구에서는 국가교통정보센터의 노드·링크(Node·Link) 체계를 기반으로 전국 고속국도 및 일반국도의 특성정보(시설, 선형구조, 기상, 교통 등)를 GIS(Geographic Information System) 데이터로 구축하였다. 최근 5년 결빙사고 발생이력이 있는 도로구간(Link)을 확인하고 Random Forest 알고리즘을 통해 도로 특성정보의 결빙사고에 대한 변수 중요도(Feature Importance)를 분석했다. 이를 통해 결빙사고와 각 인자의 상관성을 파악하여 ‘결빙 취약구간 평가 세부 배점표’의 항목별 배점을 수정, 보완함으로써 평가표의 신뢰성을 제고한다.
이 연구의 목적은 머신러닝 분석방법을 활용하여 대학생의 소속 학과 만족도에 영향을 미치는 주요 요 인을 분석하여 대학생의 진로지도와 중도탈락 예방 관련 정책 및 제도 수립을 위한 기초 연구 자료를 제 공하기 위함이다. 이를 위해 한국교육고용패널 (KEEP )자료의 4년제 대학 진학생 1,298명을 연구대 상으로 머신러닝 분석방법인 로지스틱 회귀분석과 랜덤포레스트 방법을 통하여 분석을 진행하였다. 주요 분석 결과는 다음과 같다. 첫째, 대학 입학년도에는 대학 생활 관련 변수 이외에도 고등학교 재학 시기 및 고등학교 졸업 후 진로 계획과 관련한 설명변수들이 중요도 상위 10개 항목 중 상당수를 차지하였으며, 입학년도와 졸업년도를 제외한 기간에는 전공 학습과 진로활동에 대한 변수들이, 졸업년도에는 취업준비 및 교육훈련 경험 등이 로지스틱 회귀분석과 랜덤포레스트 분석 결과에서 공통적으로 높은 중요도를 기록하였다. 둘째, 두 분석방 법에 따른 학년별 중요도 상위 10개 변수의 일치도는 63.3%로 나타났다. 셋째, 로지스틱 회귀분석과 달리 랜덤포레스트 분석에서는 설문의 응답자가 다수의 척도를 사용하여 응답한 설명변수들이 중요도 상위 10 개 설명변수에 포함된 경우가 상대적으로 많았다. 이 연구는 교육패널 자료를 단일 분석방법이 아닌 두 가지 머신러닝 방법을 사용하여 공통 요소를 도출하고, 결과의 비교를 시도했다는 점에 의의가 있다.
In this study, the machine learning which has been widely used in prediction algorithms recently was used. the research point was the CD(chudong) point which was a representative point of Daecheong Lake. Chlorophyll-a(Chl-a) concentration was used as a target variable for algae prediction. to predict the Chl-a concentration, a data set of water quality and quantity factors was consisted. we performed algorithms about random forest and gradient boosting with Python. to perform the algorithms, at first the correlation analysis between Chl-a and water quality and quantity data was studied. we extracted ten factors of high importance for water quality and quantity data. as a result of the algorithm performance index, the gradient boosting showed that RMSE was 2.72 mg/m³ and MSE was 7.40 mg/m³ and R² was 0.66. as a result of the residual analysis, the analysis result of gradient boosting was excellent. as a result of the algorithm execution, the gradient boosting algorithm was excellent. the gradient boosting algorithm was also excellent with 2.44 mg/m³ of RMSE in the machine learning hyperparameter adjustment result.
Depression is one of the most important psychiatric disorders worldwide. Most depression-related data mining and machine learning studies have been conducted to predict the presence of depression or to derive individual risk factors. However, since depression is caused by a combination of various factors, it is necessary to identify the complex relationship between the factors in order to establish effective anti-depression and management measures. In this study, we propose a methodology for identifying and interpreting patterns of depression expressions using the method of deriving random forest rules, where the random forest rule consists of the condition for the manifestation of the depressive pattern and the prediction result of depression when the condition is met. The analysis was carried out by subdividing into 4 groups in consideration of the different depressive patterns according to gender and age. Depression rules derived by the proposed methodology were validated by comparing them with the results of previous studies. Also, through the AUC comparison test, the depression diagnosis performance of the derived rules was evaluated, and it was not different from the performance of the existing PHQ-9 summing method. The significance of this study can be found in that it enabled the interpretation of the complex relationship between depressive factors beyond the existing studies that focused on prediction and deduction of major factors.
본 연구의 목적은 적지적수 판단에 있어 최근 분류 예측에 활용되고 있는 랜덤포레스트 기법의 적용 가능성을 살펴보는데 있다. 즉, 수종별 조림 적지 판단에 있어 랜덤포레스트 기법을 소개하고 적지적수 도를 작성하여 적용성을 판단하고자 한다. 그 결과 랜덤포레스트 기법의 예측 정확도는 낙엽송 89.29%, 편백 73.89%로 높은 편으로 나타났다. 변수 중요도는 두 개의 수종 모두 표고, 경사, 방위의 순으로 영향력이 높은 것으로 나타났으며 지형, 토성, 토양형이 낮은 영향력을 보였다. 적지적수도 작성 결과, 낙엽송은 경상남도 중부를 제외한 대부분 지역이 가능지와 적지로 나타났으며, 편백은 경상남도의 북동부 지역이 적지로 나타났다. 랜덤포레스트 기법은 적지적수도 작성뿐만 아니라 산림 분야에서 적용되어 왔던 다양한 형태의 분류 및 예측 연구에서 활용 가능성이 높을 것으로 사료된다.
This study examined the effects of environmental factors on the abundance of black pine bast scale (BPBS), Matsucoccus thunbergianae Miller and Park, in coastal disaster prevention forest stands composed mostly of Japanese black pine. Geographical factors, soil conditions and forest stand conditions were measured to evaluate the hazard rating for the occurrence of BPBS from 35 plots in the coastal forest stands. To assess the hazard rating, a combination of a self-organizing map (SOM), which classified the samples according to their characteristics, and a random forest model, which predicted the probability of the occurrence of BPBS from SOM results, was used in this study. Our results showed that major factors determining the abundance of BPBS were climate, tree size, and tree health. BPBS was more common in low latitude coastal forests, suggesting that warmer conditions were favorable to BPBS population buildup. Tree size also influenced the abundance of BPBS, which was higher in forests composed of larger trees (greater DBH). Finally, BPBS was also more abundant in areas with high soil salinity and clay-loam soil, and north-facing slopes where tree vigor was lower.
본 연구에서는 SWAT 모형과 random forest를 이용하여 미래 기후변화에 따른 한강유역(34,148 km2)의 수생태계 건강성을 평가하였다. 국립 환경과학원에서 8년간(2008~2015년) 봄철(4~6월)에 모니터링한 부착돌말류 지수(TDI), 저서형 대형무척추동물지수(BMI), 어류평가지수(FAI)는 0~100점, A~E등급으로 평가되며, 이를 본 연구에서 사용하였다. 수생태 건강성에 영향을 미치는 변수로는 수질(T-N, NH4, NO3, T-P, PO4)과 수온을 선정하였으며, 수질 오염도가 낮은 경우에는 수생태계 건강성 점수가 광범위하게 분포되지만 수질 오염도가 높은 경우 수생태계 건강성 점수가 낮아지는 역상관관계를 확인하였다. 기계학습의 분류 분석 기법 중 하나인 random forest 모델을 이용한 세 개의 수생태 건강성 지수 등급 분류 결과 정밀도, 재현율, f1-score 모두 0.81 이상의 예측 정확도를 나타내었다. 기상청의 HadGEM3-RA RCP 4.5와 8.5 시나리오를 적용한 미래 SWAT 수문, 수질 결과 기저유출의 증가로 인해 질소 계열 수질 농도는 기준년도 대비 최대 43.2% 증가하였고, 지표유출 감소로 인해 인 계열 수질 오염도는 최대 18.9% 감소하는 것으로 분석되었다. 미래 FAI, BMI의 등급은 개선되는 경향을 보이지만 TDI는 등급이 악화되는 것으로 나타 났다. 이를 통해 TDI는 질소 계열 수질에 민감하고 FAI, BMI는 인 계열 수질에 더 민감하다고 판단하였다.