과도한 조류 발생은 수생태계 교란과 수질 악화를 초래하는 대표적인 환경 문제로, 효과적인 관리와 대응을 위해 정확한 예측이 필요하다. 우리나라는 사계절의 기후 특성이 뚜렷하며, 수온이 상승하는 하절기에 조류 발생이 집중되는 경향을 보인다. 이에 따라 실시간 모니터링 자료는 대부분 저농도 상태가 유지되어 데이터 불균형 문제가 발생한다. 본 연구에서는 chlorophyll-a 농도를 기준으로 하천 현장의 조류 발생 수준을 Class 1 (Chl-a ≤ 10 ㎍/L), Class 2 (10 < Chl-a ≤ 50 ㎍/L), Class 3 (Chl-a > 50 ㎍/L)와 같이 3개의 class로 구분하고, 대표적인 앙상블 머신러닝 모형인 extreme gradient boosting (XGB) 알고리즘을 이용하여 조류 발생 수준을 예측하는 분류 모형을 구축하였다. 데이터 불균형 해소를 위해 생성형 인공지능 기반 알고리즘인 conditional generative adversarial network (CGAN)과 전통적인 데이터 보강 알고리즘인 synthetic minority over-sampling technique (SMOTE), 그리고 딥러닝 기반 기법인 autoencoder (AE)를 활용한 3가지 데이터 보강 알고리즘을 활용하여 데이터의 불균형을 개선한 자료를 생성하고 이를 XGB 모형에 적용하여 성능 변화를 비교하였다. 분석 결과 macro average 기준으로 원본 데이터를 사용한 모형의 recall은 0.606이었으나 SMOTE, AE 및 CGAN의 recall은 각각 0.666, 0.682, 0.720으로 크게 개선되었고, F1 score도 데이터 불균형 해소를 통해 약 7–13%의 성능이 향상되는 등 전체적으로 데이터 불균형 해소로 모형의 성능이 향상되었으며 CGAN이 가장 우수한 성능 개선 효과를 보이는 것으로 나타냈다. 본 연구의 결과를 통해 데이터 불균형 해소를 통한 머신러닝 모형 성능 개선 가능성을 확인하였다.
본 연구에서는 Romanoff(1957)의 실측 데이터를 사용하여 머신러닝 기반 상수도관의 부식 깊이를 예측하였다. 이를 실제 상수도관망에 적용하여 누적피해도를 분석하였다. 예측한 부식깊이를 사용하여 누적피해도를 분석하였으며 MCS(Monte Carlo Simulation)를 적용한 누적피해도와 비교 분석하였다. 부식깊이 예측모델에 따른 부식깊이를 분석한 결과 MLP-ReLU 모델이 가장 부식속도가 가장 빠르며 MLP-sigmoid가 가장 부식속도가 느렸다. 천안시 신방동과 성환읍 상수도관망에 MCS를 적용한 누적피해도 분석법과 머신러닝을 적용한 누적피해도를 비교 분석하였다. 신방동에서는 두 분석법 모두 2번 상수도관이 먼저 사용 한계에 도달하였으며 성환읍에서는 4번 상수도관이 가장 먼저 사용 한계에 도달하였다. 사용 한계에 가장 먼저 도달한 상수도관은 다른 상수도관보다 사용 년수가 오래되었거나 수압이 높은 것으로 확인되었다. MCS를 적용한 누적피해도 분석 결과 신방동의 경우 45년 만에 사용 한계를 초과한 반면 성환읍의 경우 47년 만에 사용 한계를 초과했다.
The prediction of satisfactory orthodontic treatment outcomes can be very challenging owing to the subjectivity of orthodontists’ judgment, along with the inherent difficulties when considering numerous factors. Therefore, this study introduced a deep learning-based method for predicting orthodontic treatment outcomes based on the image-to-image translation of dental radiographs using the Pix2Pix model. This proposed method addresses the aforementioned issues using a Pix2Pix-based prediction model constructed from adversarial deep learning. Patient datasets and prediction models were separated and developed for extraction and non-extraction treatments, respectively. The patients’ radiographs were pre-processed and standardized for training, testing, and applying the Pix2Pix models by uniformly adjusting the degree of blackness for the region of interest. A comparison of actual with Pix2Pix-predicted images revealed high accuracy, with correlation coefficients of 0.8767 for extraction orthodontic treatments and 0.8686 for non-extraction treatments. The proposed method establishes a robust clinical and practical framework for digital dentistry, offering both quantitative and qualitative insights for orthodontists and patients.
This study developed a QSAR regression model using the XGBoost machine learning algorithm to predict the acute aquatic toxicity of highly hazardous PCBs. EC50 values for Daphnia magna were obtained from QSAR Toolbox 4.7. Input features consisted of approximately 3,000 molecular descriptors and fingerprints generated from official structure data using RDKit and the Morgan algorithm, excluding mixtures. The dataset was split into training and test sets (7 : 3) based on 500,000 randomized seeds, and the most balanced combination was selected using Kolmogorov-Smirnov and Wilcoxon rank-sum tests. Z-score standardization was applied based on the training set, and the XGBoost model was trained using 5-fold cross-validation with grid search optimization. The final model showed excellent predictive performance (R2 =0.97, RMSE= 0.19). A simplified model using only the top 10 predictive molecular features retained approximately 95% of the original accuracy while improving interpretability and efficiency. The model was applied to 38 PCB compounds lacking EC50 values, and the predicted values showed a statistically similar distribution to the measured group, with only minor differences in a few structural fingerprints. These results demonstrate the applicability of XGBoost-based models for reliable toxicity prediction and offer a promising alternative approach for assessing the environmental risk of untested PCBs.
This study aimed to develop a model for accurately predicting the acute aquatic toxicity (48h- EC50) of chlorine disinfection by-products (DBPs). DBPs have caused environmental risks, but experimental toxicity data are difficult to obtain due to time, cost, and ethical constraints. Therefore, a deep learning model was developed using actual concentration-based data. Toxicity data for 139 aliphatic chlorinated compounds were from the OECD QSAR Toolbox and from aquatic toxicity test results provided by the japan ministry of the environment. Various concentration criteria, including nominal and measured concentrations, were encoded as additional inputs, and EC50 values were augmented via log transformation and structural string modifications to overcome small data limitations. The directed message passing neural network (D-MPNN) model, which considers bond directionality, was applied to reflect structural complexity accurately. Also, this model effectively reflected subtle structural differences and showed stable performance even with limited data. Comparisons between models with and without concentration criteria revealed that the model considering all concentration criteria had superior predictive accuracy. This result shows that concentration criteria are a critical factor in toxicity prediction. This study suggests a baseline model that works reliably even with small datasets reflecting realistic concentration criteria, showing its potential use for replacing some experiments and for screening toxic substances.
강풍에 대한 피해가 증가하면서 시설물의 취약도를 예측하여 대응하는 것이 필요하다. 이때, 풍속의 변동성을 고려하여 확률 론적 예측이 필요하여 물리 기반 인공신경망(PINN) 기반의 기초적인 확률론적 예측 모델을 개발하였다. 입력변수를 마르코프체인 몬 테카를로 시뮬레이션을 통해 랜덤 샘플링하여 이를 PINN 모델로 입력하고, 물리식 기반의 손실함수를 통해 신호등을 대상으로 취약 도를 예측하였다. 모델을 통해 예측한 결과 신호등에서 파손이 발생할 수 있는 신호 접합부와 지면 접합부에 대해 확률적으로 취약도 를 산출할 수 있었고, 이를 기반으로 신호 접합부가 더 취약함을 확인할 수 있었다. 기초 모델로 물리식 만을 기반으로 예측하여 얻은 결과로 추후 실측 데이터를 통해 학습과 검증을 거쳐야하나 충분히 강풍에 의한 시설물 취약도를 예측할 수 있으며 이러한 예측에 확 률론적 모델이 유용함을 확인하었다.
In this study, chemicals with acute toxicity experimental data were selected as research subjects, and compareed the model derived from statistical analysis and QSAR open-source programs. The physical and chemical properties, dynamic behaviors, and toxicological estimates of the chemicals were calculated using Mordred, a molecular descriptor calculation program based on RDKit. LD50 was set as the toxicity comparison target for each chemical, and independent variables or factors with similarity to independent variables were estimated from the molecular descriptors calculated through Mordred. Molecule descriptors composed of independent variables were compared to predictions from QSAR open-source models, A regression model was created with the selected molecule descriptors and compared with predictions from QSAR programs, confirming high accuracy for specific functional groups. The QSAR model created in this study considers the characteristics and experimental values of each chemical, and provides evidence for selecting variables when constructing toxicity data for machine learning applications.
Machine learning (ML) techniques have been increasingly applied to the field of structural engineering for the prediction of complex dynamic responses of safety-critical infrastructures such as nuclear power plant (NPP) structures. However, the development of ML-based prediction models requires a large amount of training data, which is computationally expensive to generate using traditional finite element method (FEM) time history analysis, especially for aging NPP structures. To address this issue, this study investigates the effectiveness of synthetic data generated using Conditional Tabular GAN (CTGAN) in training ML models for seismic response prediction of an NPP auxiliary building. To overcome the high computational cost of data generation, synthetic tabular data was generated using CTGAN and its quality was evaluated in terms of distribution similarity (Shape) and feature relationship consistency (Pair Trends) with the original FEM data. Four training datasets with varying proportions of synthetic data were constructed and used to train neural network models. The predictive accuracy of the models was assessed using a separate test set composed only of original FEM data. The results showed that models trained with up to 50% synthetic data maintained high prediction accuracy, comparable to those trained with only original data. These findings indicate that CTGAN-generated data can effectively supplement training datasets and reduce the computational burden in ML model development for seismic response prediction of NPP structures.
하수처리장 유출수의 수질 예측은 수질 사고의 사전 대응 및 처리장의 안정적인 운영을 위해 필수적인 요소이다. 최근 머신러닝을 활용한 예측 모델링에서 예측 성능 향상과 과적합 방지를 위해 다양한 교차 검증법과 하이퍼파라미터 최적화 기법이 활용되고 있으나, 하수처리장 데이터는 시간적 의존성과 급격한 변동성이 내재되어 있어 과적합에 취약하고 안정적인 모델 구축에 어려움이 따른다. 본 연구에서는 이러한 데이터 특성을 효과적으로 반영할 수 있는 최적의 모델링 파이프라인을 구축하고자 하였으며, XGBoost 모델을 기반으로 유출수 내 총질소 농도를 예측하였다. 예측 성능 평가 지표로는 평균 제곱근 오차(Root Mean Square Error, RMSE), 결정계수(coefficient of determination, R2), RMSE 오차 개선율(the rate of improvement on RMSE, RIRRMSE) 그리고 계산 시간을 사용하였다. 기본적인 Hold-out 방식의 성능을 기준으로 K-fold, 시계열 교차 검증(Time Series Cross Validation, TSCV), 블록 시계열 교차 검증(Blocked Time Series Cross Validation, BTSCV) 기법의 예측 성능을 분석한 결과, BTSCV는 인접한 데이터만을 고려하는 방식으로 시간적 의존성과 급변 특성을 효과적으로 반영하여 가장 높은 RIR(36.37%)을 기록하였다. 또한, 하이퍼파라미터 최적화(그리드 서치와 베이지안 최적화) 기법과의 다양한 교차 검증법의 조합을 통해 모델 성능과 과적합 방지 효과를 분석한 결과, BTSCV와 베이지안 최적화의 결합은 짧은 계산 시간(364.64초)과 함께 가장 높은 RIR(64.93%)을 보였으며, 훈련 및 평가 데이터 간 성능 차이도 최소화되어 일반화된 예측 모델로서의 효과성이 입증되었다. 따라서 본 연구는 하수처리장 시계열 데이터의 특성에 적합한 BTSCV와 베이지안 최적화 기법을 결합한 모델링 파이프라인 전략을 제안하며, 향후 실시간 수질 모니터링 및 하수처리장 운영 효율성 제고에 기여할 수 있을 것으로 기대된다.
This study aims to quantitatively evaluate the life cycle carbon emissions of continuously reinforced concrete pavements on Korean expressways. The analysis focuses on assessing the effect of the changes in pavement design life and maintenance frequency on total carbon emissions to provide a basis for effective carbon reduction strategies. In accordance with ISO 14040 and ISO 14044, carbon emissions were calculated using actual design documents, including bills of quantities and unit price lists. National emission factors were applied to each life cycle stage, including the maintenance stage that was modeled based on the standard maintenance scenarios of the Korea Expressway Corporation. The study also conducted a scenario-based evaluation to examine the impact of extending the pavement design life from 20 to 30 years on maintenance-related emissions. The usage stage accounted for the largest share of total emissions, followed by the material production and maintenance stages. Notably, repeated asphalt overlay maintenance contributed significantly to emissions. Extending the design life reduced the number of high-emission maintenance activities, leading to a significant reduction in the total life cycle emissions. Extending the pavement design life and optimizing maintenance cycles were effective strategies for reducing the life cycle carbon emissions in road infrastructure. Furthermore, applying eco-design principles—such as incorporating recycled aggregates or low-carbon cement during the design stage—could further enhance sustainability. Future research should include various case studies and support the development of standardized national life cycle inventory databases for road infrastructure systems.