논문 상세보기

하수처리장 유출수 수질 예측을 위한 최적 파이프라인 설계: 블록 시계열 교차 검증 기반 베이지안 최적화 KCI 등재

Bayesian optimization with blocked time series cross validation for wastewater quality prediction

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/444524
구독 기관 인증 시 무료 이용이 가능합니다. 4,500원
상하수도학회지 (Journal of the Korean Society of Water and Wastewater)
대한상하수도학회 (Korean Society Of Water And Wastewater)
초록

하수처리장 유출수의 수질 예측은 수질 사고의 사전 대응 및 처리장의 안정적인 운영을 위해 필수적인 요소이다. 최근 머신러닝을 활용한 예측 모델링에서 예측 성능 향상과 과적합 방지를 위해 다양한 교차 검증법과 하이퍼파라미터 최적화 기법이 활용되고 있으나, 하수처리장 데이터는 시간적 의존성과 급격한 변동성이 내재되어 있어 과적합에 취약하고 안정적인 모델 구축에 어려움이 따른다. 본 연구에서는 이러한 데이터 특성을 효과적으로 반영할 수 있는 최적의 모델링 파이프라인을 구축하고자 하였으며, XGBoost 모델을 기반으로 유출수 내 총질소 농도를 예측하였다. 예측 성능 평가 지표로는 평균 제곱근 오차(Root Mean Square Error, RMSE), 결정계수(coefficient of determination, R2), RMSE 오차 개선율(the rate of improvement on RMSE, RIRRMSE) 그리고 계산 시간을 사용하였다. 기본적인 Hold-out 방식의 성능을 기준으로 K-fold, 시계열 교차 검증(Time Series Cross Validation, TSCV), 블록 시계열 교차 검증(Blocked Time Series Cross Validation, BTSCV) 기법의 예측 성능을 분석한 결과, BTSCV는 인접한 데이터만을 고려하는 방식으로 시간적 의존성과 급변 특성을 효과적으로 반영하여 가장 높은 RIR(36.37%)을 기록하였다. 또한, 하이퍼파라미터 최적화(그리드 서치와 베이지안 최적화) 기법과의 다양한 교차 검증법의 조합을 통해 모델 성능과 과적합 방지 효과를 분석한 결과, BTSCV와 베이지안 최적화의 결합은 짧은 계산 시간(364.64초)과 함께 가장 높은 RIR(64.93%)을 보였으며, 훈련 및 평가 데이터 간 성능 차이도 최소화되어 일반화된 예측 모델로서의 효과성이 입증되었다. 따라서 본 연구는 하수처리장 시계열 데이터의 특성에 적합한 BTSCV와 베이지안 최적화 기법을 결합한 모델링 파이프라인 전략을 제안하며, 향후 실시간 수질 모니터링 및 하수처리장 운영 효율성 제고에 기여할 수 있을 것으로 기대된다.

Predicting effluent quality in wastewater treatment plants (WWTPs) is difficult due to nonlinear and time-dependent characteristics, often leading to overfitting. Cross validation and hyperparameter optimization are commonly used to prevent model overfitting. However, few studies have explored methods suited to the specific characteristics of WWTP data. This study aims to develop an optimal modeling pipeline for predicting total nitrogen (TN). The XGBoost model was applied, and its performance was evaluated using root mean square error (RMSE), coefficient of determination (R2), rate of improvement on RMSE (RIRRMSE), and computation time. To identify cross-validation methods appropriate for WWTP data, Hold-out was compared with K-fold, Time series cross validation (TSCV), and Blocked time series cross validation (BTSCV). By focusing only on nearby time points and excluding distant data, BTSCV showed the highest RIR (36.37%). This structure helps reflect the sequential nature of WWTP data. To assess the impact of different combinations of cross validation and hyperparameter optimization techniques (Grid search and Bayesian optimization), this study compared their effectiveness in improving prediction performance and reducing overfitting. Bayesian optimization with BTSCV achieved a 64.93% RIR with 364.64 seconds of computation, while also minimizing the performance gap between the training set and test set. This study proposes that combining BTSCV and Bayesian optimization provides an effective modeling pipeline for WWTP effluent prediction. This modeling pipeline can also support real-time monitoring and improve plant operations.

목차
요약문
ABSTRACT
1. 서 론
2. 연구방법
    2.1 입력자료
    2.2 예측 모델 및 평가 지표
    2.3 교차 검증 (cross validation)
    2.4 모델 하이퍼파라미터 최적화
3. 결과 및 토의
    3.1 입력자료 현황
    3.2 교차 검증법 결과
    3.3 모델 최적화 결과
4. 결 론
사 사
References
저자
  • 박형주(한양대학교 건설환경공학과학과, 한양대학교 기후변화-재난재해 대응형 디지털 건설공학 인재양성팀 (BK21 FOUR)) | Hyeongju Park (Department of Civil and Environmental Engineering, Hanyang University, Developing a team response using digital construction to mitigate disasters related to climate change (BK21 FOUR), Hanyang University)
  • Young Mo Kim(한양대학교 건설환경공학과학과, 한양대학교 기후변화-재난재해 대응형 디지털 건설공학 인재양성팀 (BK21 FOUR)) | 김영모 Corresponding author
  • 심규대(GS건설 미래기술원 환경솔루션연구팀) | Kyudae Shim (Environment Solution Research Team, Research Institute of Future Technology, GS Engineering & Construction)
  • 이상철(고려대학교 생명과학대학 환경생태공학부) | Sangchul Lee (Division of Environmental Science & Ecological Engineering, College of Life Sciences & Biotechnology, Korea University) Corresponding author