과도한 조류 발생은 수생태계 교란과 수질 악화를 초래하는 대표적인 환경 문제로, 효과적인 관리와 대응을 위해 정확한 예측이 필요하다. 우리나라는 사계절의 기후 특성이 뚜렷하며, 수온이 상승하는 하절기에 조류 발생이 집중되는 경향을 보인다. 이에 따라 실시간 모니터링 자료는 대부분 저농도 상태가 유지되어 데이터 불균형 문제가 발생한다. 본 연구에서는 chlorophyll-a 농도를 기준으로 하천 현장의 조류 발생 수준을 Class 1 (Chl-a ≤ 10 ㎍/L), Class 2 (10 < Chl-a ≤ 50 ㎍/L), Class 3 (Chl-a > 50 ㎍/L)와 같이 3개의 class로 구분하고, 대표적인 앙상블 머신러닝 모형인 extreme gradient boosting (XGB) 알고리즘을 이용하여 조류 발생 수준을 예측하는 분류 모형을 구축하였다. 데이터 불균형 해소를 위해 생성형 인공지능 기반 알고리즘인 conditional generative adversarial network (CGAN)과 전통적인 데이터 보강 알고리즘인 synthetic minority over-sampling technique (SMOTE), 그리고 딥러닝 기반 기법인 autoencoder (AE)를 활용한 3가지 데이터 보강 알고리즘을 활용하여 데이터의 불균형을 개선한 자료를 생성하고 이를 XGB 모형에 적용하여 성능 변화를 비교하였다. 분석 결과 macro average 기준으로 원본 데이터를 사용한 모형의 recall은 0.606이었으나 SMOTE, AE 및 CGAN의 recall은 각각 0.666, 0.682, 0.720으로 크게 개선되었고, F1 score도 데이터 불균형 해소를 통해 약 7–13%의 성능이 향상되는 등 전체적으로 데이터 불균형 해소로 모형의 성능이 향상되었으며 CGAN이 가장 우수한 성능 개선 효과를 보이는 것으로 나타냈다. 본 연구의 결과를 통해 데이터 불균형 해소를 통한 머신러닝 모형 성능 개선 가능성을 확인하였다.
Excessive algal bloom is one of the major environmental issues that disrupt aquatic ecosystems and deteriorate water quality, making accurate prediction essential for effective management. In Korea, where the four seasons are distinct, algal blooms tend to increase as water temperature rises. As a result, real-time monitoring data are mostly distributed in low ranges, leading to a class imbalance problem. In this study, algal bloom levels in rivers were classified into three categories based on chlorophyll-a (Chl-a) concentrations: Class 1 (Chl-a≤10 μg/L), Class 2 (10<Chl-a≤50 μg/L), and Class 3 (Chl-a>50 μg/L). A classification model was then developed using extreme gradient boosting (XGB), a representative ensemble machine learning algorithm. To mitigate data imbalance, a generative artificial intelligence-based conditional generative adversarial network (CGAN) was employed along with the traditional synthetic minority over-sampling technique (SMOTE) and an autoencoder (AE), a deep learning-based method. Datasets with reduced imbalance were generated by each method and subsequently applied to an XGB model to compare changes in model performance. The analysis showed that the macro average recall of the model using the original dataset was 0.606, whereas recall values with SMOTE, AE, and CGAN increased to 0.666, 0.682, and 0.720, respectively, and the F1 score also improved by approximately 7–13% through data imbalance mitigation, where the CGAN showing the best improvement. The results indicate the potential for enhanced machine learning model performance through data imbalance mitigation.