Temporal Changes in the Contributions of Determinants for DO and TOC Using XGBoost Prediction and SHAP Analysis: A Case Study in the Saemangeum Estuarine System
본 연구에서는 2011년부터 2024년까지 새만금 지역의 4개 주요 지점(만경강, 동진강, 신시갑문, 가력갑문)에서 수집된 수질 자료 를 이용하여 용존산소(DO)와 총유기탄소(TOC) 예측을 위한 XGBoost 기반 모델을 구축하고, SHAP 분석을 통해 변수별 상대적 설명력을 평가하였다. 모델은 DO에서 R² 0.89–0.95, TOC에서 0.88–0.95의 높은 예측 성능과 낮은 평균제곱오차(MSE)를 보여, 예측의 신뢰성을 확 인하였다. SHAP 분석 결과, 하천 지점에서는 pH와 수온이 DO 예측에서 가장 높은 설명력을 보였고, 염분의 영향은 미미하여 외해수 유입 이 제한적임을 나타냈다. 반면, 기수 지점에서는 수온이 DO 예측의 주요 요인으로, 염분은 보조 요인으로 작용하였다. 연도별 분석에서는 하천 지점에서 pH의 기여도가 2016년 이후 감소하고 수온의 비중이 2019년 이후 다소 높아지는 경향이 일부 나타났으나, 전체적으로는 명 확한 증가·감소 추세가 확인되지 않았다. TOC 예측에서는 하천 지점에서 COD와 chlorophyll-a가, 기수 지점에서는 chlorophyll-a와 염분이 상 대적으로 중요한 설명 변수로 확인되었다. COD의 기여도는 2017–2018년에 낮았다가 2019–2021년에 높아진 후 최근 다시 감소하는 등 일부 연도에서 변동이 나타났으나, 뚜렷한 장기 경향은 관찰되지 않았다. 이러한 결과는 연도별로 변수의 상대적 설명력에 세부적인 변동 은 존재하지만 전체적으로 일관된 추세는 아직 확립되지 않았음을 보여준다. 이처럼 연도별 변동성과 불확실성이 공존하는 환경에서, XGBoost와 SHAP을 결합한 접근법은 각 변수의 상대적 중요도와 시기별 변화를 정량적으로 평가할 수 있는 유용한 분석 틀을 제공한다.
This study developed XGBoost-based models to predict dissolved oxygen (DO) and total organic carbon (TOC) using water quality data collected from four major sites in the Saemangeum area (Mangyeong River, Dongjin River, Sinsi Sluice Gate, and Garyeok Sluice Gate) from 2011 to 2024. The models demonstrated high predictive performance, with R² values ranging from 0.89 to 0.95 for DO and from 0.88 to 0.95 for TOC, In addition, mean squared errors (MSE), were low, which confirmed the reliability of the predictions. The relative explanatory power of each variable was quantitatively evaluated using SHAP analysis. At the riverine sites, pH and temperature showed the highest explanatory power for DO prediction, while salinity had only a minor effect, indicating limited seawater intrusion. In contrast, at the brackish sites, temperature had the largest explanatory contribution to DO prediction, with salinity acting as a secondary variable. The interannual analysis revealed that the explanatory contribution of pH decreased after 2016 and that of temperature increased slightly after 2019 at the riverine sites; however, no clear increasing or decreasing trend was identified overall. To predict TOC, chemical oxygen demand(COD) and chlorophyll-a were relatively important explanatory variables at the river sites, whereas chlorophyll-a and salinity were major explanatory variables at the brackish sites. The explanatory contribution of COD was lower in 2017– 2018, increased during 2019–2021, and then decreased again recently, with interannual variations but no distinct long-term trend. These results show that, despite the year-to-year variations in the relative explanatory power of individual variables exist, no consistent trend has yet emerged, implying that the Saemangeum system is still undergoing gradual stabilization process. In such an environment, where interannual variability and uncertainty coexist, combining XGBoost with SHAP provides a useful framework for quantitatively assessing the relative importance of predictors and their temporal variability.