The application of machine learning in concrete technology has expanded rapidly, yet its reliability is often constrained by limited experimental data, heterogeneous testing conditions, and inconsistencies across published studies. This study investigates the integration of machine learning and synthetic data augmentation to predict the compressive strength of concrete incorporating biochar as a partial replacement for cement. An experimental dataset was compiled from peer-reviewed journal articles indexed in Web of Science, focusing on biochar-modified concrete mixtures. Input variables included cement content, fine and coarse aggregates, biochar dosage, water to binder ratio, superplasticizer content, and curing age, with compressive strength as the target variable. Extreme Gradient Boosting was adopted due to its strong performance on nonlinear tabular data. Model performance was evaluated using the mean absolute error (MAE), mean squared error (MSE), and coefficient of determination (R²), alongside five-fold cross-validation. Hyperparameter optimization was performed using Optuna. To address data scarcity, a synthetic dataset of 1000 samples was generated using ChatGPT. the large language model approach relied solely on natural language prompts. Only feature definitions and the target variable were provided, without exposing the original data or implementing data generation algorithms. Three modeling strategies were examined. First, model trained and tested solely on experimental data achieved a testing R² of approximately 0.91. Second, model trained on synthetic data and evaluated exclusively on experimental data showed reduced generalization, achieving a testing R² of about 0.42, indicating pronounced domain shift effects. Third, synthetic and experimental data were combined through data augmentation and jointly modeled, a testing R² of 0.93 was achieved. The result showed that the use of LLMs for augmentation improved the performance of the model.
본 연구는 항만물류 분야의 산업 설비에 대한 머신러닝 기반 예지정비 시스템 개발을 목적으로 수행되었다. UCI Repository의 Dataset을 활용하여 10,000개의 데이터 포인트를 분석하였으며, 설비 고장 발생 여부를 예측하는 이진 분류와 고장 유형을 분류하는 다중 클래스 분류 과제를 수행하였다. 데이터 전처리 과정에서 클래스 불균형 문제 해결을 위해 SMOTE 기법을 적용하였고, StandardScaler를 이 용한 정규화를 수행하였다. 주성분 분석을 통해 온도 변수, 기계 출력, 공구 마모가 주요 예측 변수로 확인되었다. 로지스틱 회귀, K-최근 접 이웃, 서포트 벡터 머신, 랜덤 포레스트, XGBoost 등 다섯 가지 머신러닝 알고리즘을 적용하여 성능을 비교하였다. 분석 결과, KNN은 상대적으로 낮은 성능을 보였으나 빠른 응답속도를 제공하였고, XGBoost가 모두에서 최고 성능을 보였으며, 이진 분류에서 F1 점수 0.958, 다중 클래스 분류에서 0.989를 달성하였다.
This study compares the shear behavior of anisotropic magnetorheological elastomers (MREs) using natural rubber (NR) and silicone rubber (Si) as matrices. The effects of magnetic flux density and compressive pre-stress on the shear modulus were experimentally investigated. Results showed that silicone-based MREs exhibited a 10–20% higher magnetorheological effect than NR-based ones due to stronger particle–matrix bonding and stable chain alignment under magnetic fields. In contrast, NR-based MREs showed greater stiffness variation under compressive stress, attributed to strain-hardening and volumetric constraint effects. These findings indicate that matrix selection significantly governs the magneto-mechanical response: silicone MREs are suitable for precision control and sensing, while NR MREs perform better in high-stress damping systems. This study provides fundamental insight for tailoring MREs according to design requirements.
With the rapid expansion of renewable energy deployment, power systems are increasingly exposed to issues such as higher output variability. Photovoltaic generation, as the most widely installed variable renewable energy source both domestically and internationally, exhibits significant fluctuations due to weather conditions. These characteristics lead to operational challenges including increased curtailment, higher reserve requirements, and even risks of large-scale outages. This study aimed to improve the accuracy of photovoltaic power generation forecasting by developing a data quality control procedure for meteorological data collected at a PV plant. The quality-controlled data were used as inputs to SVM and XGBoost, resulting in improved forecasting accuracy, with MAPE decreasing from 7–10% to 6.32% and 6.08%, respectively. The results demonstrate that meteorological data quality control significantly enhances PV forecasting performance and can contribute to distributed energy resource operation and curtailment mitigation strategies.
본 연구는 무인기로 촬영한 다중분광 영상으로부터 취득한 반사값을 통해 산출된 식생지수로 콩(Glycine max (L.) Merr.)의 경태를 추정하는 머신러닝 회귀모델 개발을 목표로 한다. 연구 대상은 경상남도 밀양시 국립식량과학원 남부작물부 실험포장에서 2022년 6월 20일과 2023년 6월 24일에 파종한 선풍 품종의 콩이며, 관행구와 처리구로 나누어 재배하였다. 생육조사는 2022년 8월 20일과 9월 20일, 2023년 8월 21일과 9월 25일에 수행하였고, 영상은 2022년 8월 22일과 9월 21일, 2023년 8월 22일과 9월 20일에 촬영하였다. 촬영된 영상으로부터 5가지 반사값을 추출하여 9가지 식생지수를 산출하였다. 모델 구축에는 Ridge Regression (RR)과 LASSO Regression (LR), Random Forest Regression (RFR)과 K-Nearest Neighbor Regression (KNR)을 사용하였고, 단계적 변수 선택법을 사용하였다. 훈련과 검증의 비율은 8:2, 7:3, 6:4로 설정하였고, 모델은 R2, RMSE, MAPE로 평가하였다. 단년차 월별 모델의 경우, 8월과 9월 모두 2023년의 모델이 좋은 모델로 선정되었다. 다년차 월별 모델의 경우, 환경적 조건에 편중되어 군집화 현상이 나타나는 경우(8월)와 통계적으로 유의한 차이가 있음에도 불구하고 군집화 현상이 나타나지 않는 경우(9월)가 확인되었다. 따라서 월별 모델에 비해 성능은 낮지만 군집화가 발생하지 않고, 더 많은 샘플 수를 가진 전체 통합 모델을 최적 모델로 선택하였고, Calibration에서 R2=0.916, RMSE=0.683mm, MAPE=5.644%, Validation에서 R2=0.708, RMSE=1.002mm, MAPE=8.957% 의 성능을 나타내었다.
As renewable energy penetration continues to increase, the output variability and forecasting uncertainty of photovoltaic generation have emerged as major operational risks in power systems. This study establishes a sensor-based data quality control procedure to ensure the reliability of meteorological data collected at a PV plant. For temperature, humidity, and wind speed, a four stage QC process physical range check, persistence check, step change check, and median filtering was applied. Solar radiation, which exhibits strong temporal and distributional characteristics, was processed using a three-stage QC procedure consisting of physical range, step change, and frequency distribution checks. Using the quality-controlled meteorological data, PV generation forecasting was performed with SVM and XGBoost models. As a result, the MAPE values improved to 6.32% for SVM and 6.08% for XGBoost after QC application. The findings confirm that meteorological data quality control significantly enhances PV forecasting accuracy and can support future strategies for distributed energy resource management, curtailment mitigation, and power system risk reduction.
본 연구는 부식에 취약한 강재의 대체 보강재로써 주목받는 CFRP 보강재의 피로 예측에 머신러닝을 적용하는 것이 타당한지 검토하였다. 이를 위해 선행 연구의 피로 시험 결과를 바탕으로 섬유-체적 비율 40, 50, 60, 80%의 데이터를 수집하였으며, 이 중 40, 50, 60% 섬유 함침율을 학습 데이터, 80% 섬유 함침율을 검증 데이터로 활용되었다. 머신러닝 학습에는 랜덤 포레스트 알고리즘 이 활용되었으며, K-폴드 교차 검증을 통해 알고리즘 내부의 하이퍼파라미터를 추정하였다. 그 결과, 최종 하이퍼파라미터는 결정 나무 200, 최대 깊이 20등으로 결정되었다. 해당 하이퍼파라미터를 적용한 피로 성능 예측 결과, 전반적으로 0.92∼0.97의 높은 결정 계수를 보여 충분한 예측 성능을 기대할 수 있을 것으로 나타났지만, 예측값과 실험값을 비교하는 산점도 분석 결과에서 3 mm 변위 수준의 예측값이 약 117만 사이클의 MAE를 보였다. 이는 적은 표본 수로 인해 학습 데이터에 과적합 되었음을 의미하는 명백한 증거 이며, 향후 지속적인 연구를 통해 개선할 필요가 있다.
하수처리장의 안정성과 효율성의 향상을 위해 스마트 기술 도입이 요구되고 있으나, 운영 데이터베이스 구축에 있어 계측의 신뢰성과 연속성 확보에 어려움이 있다. 활성슬러지 모델은 하수처리장의 디지털트윈으로 활용되며, 유입수 성상이 동일하더라도 다양한 운전 조건에 대한 데이터를 생산할 수 있다. 본 연구에서는 실측 데이터와 시뮬레이터 기반 합성 데이터를 통합하여 하수처리장 질소 농도 예측 머신러닝 모델을 구축하였다. A2O 공정의 호기조를 대상으로 기체상 N2O 및 액상 NH4 + 농도를 측정하였으며, 내부반송량, 외부반송량 등 운전인자를 포함한 운영데이터베이스를 구축하고 분석하였다. 확보한 실측 데이터를 기반으로 운영 특성을 분석하고, Sumo4N 모델을 활용하여 다양한 운전 조건에서의 합성 데이터를 생성하였다. 이후 두 데이터를 통합하여 데이터 증강을 수행함으로써, 실측 데이터의 양적 한계를 보완하였다. 모델 학습을 위한 입력 변수로는 외부⋅내부 반송량, 폭기량, 온도, 유입 질소 부하, pH를 선정하였으며 호기조의 N2O, NH4 +과 방류수 TN 농도를 예측하기 위한 머신러닝 모델을 개발하였다. 모델 학습에는 Lasso Regression, Random Forest, k-NN, SVR 알고리즘을 적용하여 성능을 평가하였다. 그 결과 SVR 알고리즘이 모든 질소 성분 예측에서 가장 우수한 성능을 보였으며, 개발된 모델 모두 R² ≥ 0.75의 높은 예측 성능을 나타내었다. 이는 시뮬레이터 기반 데이터 증강을 통해 기체상 및 액상 질소의 통합 제어를 위한 머신러닝 모델 구축의 가능성을 시사한다.
상수도 관망은 지하에 매설되어 있어 노후화로 인한 누수, 파손, 부식 등의 문제가 지속적으로 발생하고 있으며, 상수도 관망에서의 노후도 평가와 정비는 수돗물 안전성과 서비스 안정성을 확보하기 위한 중요한 과제 중 하나이다. 본 연구는 상수도 관망에서의 노후도를 효율적으로 평가하기 위해 모든 간접⋅직접평가 인자를 조사하지 않고도 최소한의 주요 평가 인자만으로 실제 직접평가 등급에 근접한 예측 결과를 효율적으로 도출할 수 있는 머신러닝 기반 상태평가 절차와 모델을 제안하였다. 상수관로 상태평가 모델은 랜덤 포레스트와 SHAP 해석기법을 결합한 머신러닝 기반 상태평가 절차를 제안하였으며, 28개 지자체의 강관과 주철관에 대한 간접⋅직접평가 데이터를 대상으로 SHAP-based feature importance 순위가 낮은 평가 인자부터 단계적으로 제거하여 주요 평가 인자를 도출하였다. 결과적으로 강관의 경우 내부 슬라임 분포면적 비율, 수질부식성, 매설연수, 최대 및 외면 부식깊이 비율, 내⋅외면 도장재 손상 비율, 외면 부식 면적 비율, 파손건수, 토양 산화환원전위 및 함수율로 11개의 평가 인자가 주요 인자로 선정되었고, F1 Score는 0.9273이었다. 주철관의 경우 CML 중성화도, 최대 부식깊이 비율, 내부압력, 외부 토압으로 4개의 평가 인자가 주요인자로 선정되었고, F1 Score는 0.6188이었다. 주요 평가 인자만으로도 직접평가 등급에 근접한 예측 결과를 도출할 수 있었으며, 이를 통해 효율적인 상수관로 상태평가를 위한 머신러닝 기법 적용 가능성을 확인할 수 있었다.
전기추진 선박의 추진축계 이상상태는 심각한 선박 운항 장애를 초래할 수 있으므로, 추진 시스템의 상태를 정확히 진단하고 사전에 예방 유지보수를 수행하는 Prognostics and Health Management(PHM) 기술의 필요성이 증가하고 있다. 본 연구에서는 전기추진 선박 의 추진축 이상상태를 조기에 감지하고 진단하기 위하여 진동 데이터를 기반으로 한 머신러닝 기반 PHM 시스템의 개발과 성능 평가를 수행하였다. Land-Based Testing System(LBTS) 시스템에서 수집된 정상 상태와 축 정렬 이상 상태(0.5 mm, 1.0 mm, 1.5 mm)의 진동 데이터를 활용하여 데이터 전처리 및 특성 추출을 수행하였다. 연구에서는 Fully Connected Neural Network(FCNN) 및 Convolutional Neural Network(CNN)을 적용하여 이상 상태를 진단하는 모델을 개발하고 비교 분석하였다. FCNN 기반 모델은 단순한 구조로 빠른 학습이 가능 하여 실시간 모니터링에 적합한 반면, CNN 모델은 미세한 상태 변화를 효과적으로 탐지하는 데 탁월한 성능을 보였다. 성능 평가 결과 FCNN 모델은 평균 95% 이상의 정확도를 나타냈으며, CNN 모델은 이보다 더욱 향상된 성능을 제공하였다. 본 연구를 통해 개발된 진동 기반 PHM 시스템은 전기추진 선박 추진축 이상상태를 효과적으로 조기에 진단할 수 있는 능력을 입증하였다. 이러한 연구 성과는 전기 추진 선박의 안전하고 효율적인 운항을 위한 신뢰성 높은 유지보수 전략 수립에 중요한 기여를 할 것으로 기대된다. 향후 연구로는 데이 터 품질 개선 및 추가적인 딥러닝 모델 적용을 통한 성능 향상을 목표로 한다.
과도한 조류 발생은 수생태계 교란과 수질 악화를 초래하는 대표적인 환경 문제로, 효과적인 관리와 대응을 위해 정확한 예측이 필요하다. 우리나라는 사계절의 기후 특성이 뚜렷하며, 수온이 상승하는 하절기에 조류 발생이 집중되는 경향을 보인다. 이에 따라 실시간 모니터링 자료는 대부분 저농도 상태가 유지되어 데이터 불균형 문제가 발생한다. 본 연구에서는 chlorophyll-a 농도를 기준으로 하천 현장의 조류 발생 수준을 Class 1 (Chl-a ≤ 10 ㎍/L), Class 2 (10 < Chl-a ≤ 50 ㎍/L), Class 3 (Chl-a > 50 ㎍/L)와 같이 3개의 class로 구분하고, 대표적인 앙상블 머신러닝 모형인 extreme gradient boosting (XGB) 알고리즘을 이용하여 조류 발생 수준을 예측하는 분류 모형을 구축하였다. 데이터 불균형 해소를 위해 생성형 인공지능 기반 알고리즘인 conditional generative adversarial network (CGAN)과 전통적인 데이터 보강 알고리즘인 synthetic minority over-sampling technique (SMOTE), 그리고 딥러닝 기반 기법인 autoencoder (AE)를 활용한 3가지 데이터 보강 알고리즘을 활용하여 데이터의 불균형을 개선한 자료를 생성하고 이를 XGB 모형에 적용하여 성능 변화를 비교하였다. 분석 결과 macro average 기준으로 원본 데이터를 사용한 모형의 recall은 0.606이었으나 SMOTE, AE 및 CGAN의 recall은 각각 0.666, 0.682, 0.720으로 크게 개선되었고, F1 score도 데이터 불균형 해소를 통해 약 7–13%의 성능이 향상되는 등 전체적으로 데이터 불균형 해소로 모형의 성능이 향상되었으며 CGAN이 가장 우수한 성능 개선 효과를 보이는 것으로 나타냈다. 본 연구의 결과를 통해 데이터 불균형 해소를 통한 머신러닝 모형 성능 개선 가능성을 확인하였다.
본 연구에서는 Romanoff(1957)의 실측 데이터를 사용하여 머신러닝 기반 상수도관의 부식 깊이를 예측하였다. 이를 실제 상수도관망에 적용하여 누적피해도를 분석하였다. 예측한 부식깊이를 사용하여 누적피해도를 분석하였으며 MCS(Monte Carlo Simulation)를 적용한 누적피해도와 비교 분석하였다. 부식깊이 예측모델에 따른 부식깊이를 분석한 결과 MLP-ReLU 모델이 가장 부식속도가 가장 빠르며 MLP-sigmoid가 가장 부식속도가 느렸다. 천안시 신방동과 성환읍 상수도관망에 MCS를 적용한 누적피해도 분석법과 머신러닝을 적용한 누적피해도를 비교 분석하였다. 신방동에서는 두 분석법 모두 2번 상수도관이 먼저 사용 한계에 도달하였으며 성환읍에서는 4번 상수도관이 가장 먼저 사용 한계에 도달하였다. 사용 한계에 가장 먼저 도달한 상수도관은 다른 상수도관보다 사용 년수가 오래되었거나 수압이 높은 것으로 확인되었다. MCS를 적용한 누적피해도 분석 결과 신방동의 경우 45년 만에 사용 한계를 초과한 반면 성환읍의 경우 47년 만에 사용 한계를 초과했다.
강화학습은 지속적으로 변화하는 환경에서 최적의 해결책을 제시할 수 있도록 구현되는 머신러닝 알고리즘으로 시간 및 조건에 따라 변화하는 시스템의 최적화에 우수한 성능을 보이는 장점을 가지고 있다. 따라서, 최근 운영 조건과 시간에 따라 변화하는 상하수도 시설 및 취수원 등 현장 물환경 관리 최적화에 강화학습을 적용하기 위한 연구에 대한 관심이 높아지고 있다. 본 연구에서는 강화학습이 상하수도 시설 및 물환경 관리에 적용된 사례를 분석하였다. 상하수도 시설의 운영시 시설 운영의 목적에 맞는 처리수 수질을 유지하면서 운영에 필요한 에너지 소비 및 비용을 최소화하는 노력이 중요하다. 강화학습은 데이터에 기반한 반복적인 분석을 통해 시스템 운영의 최적 조건을 학습할 수 있으며, 다양한 연구 사례에서 강화학습의 적용을 통해 상하수도 시설 등의 운영 효율 개선이 가능함을 보여주었다. 하수처리 시설의 경우 강화학습을 활용하여 운영비의 많은 부분을 차지하는 폭기조 산소 공급과 내부 반송 펌프 운전을 최적화할 수 있으며, 정수장의 경우 약품 투입량 절감 등을 통해 운영비 절감 효과를 달성할 수 있음을 확인하였다. 또한, 용수 공급망과 저류조 운영의 최적화를 통해 상수도 및 하천 현장의 오염 발생을 저감할 수 있음을 알 수 있었다. 본 연구를 통해 강화학습을 활용하여 기존의 경험에 기반한 시설 운영 방식의 한계를 개선하고 상하수도 시설 운영 및 물환경 관리 효율 향상에 기여할 수 있음을 확인하였다
This study developed a QSAR regression model using the XGBoost machine learning algorithm to predict the acute aquatic toxicity of highly hazardous PCBs. EC50 values for Daphnia magna were obtained from QSAR Toolbox 4.7. Input features consisted of approximately 3,000 molecular descriptors and fingerprints generated from official structure data using RDKit and the Morgan algorithm, excluding mixtures. The dataset was split into training and test sets (7 : 3) based on 500,000 randomized seeds, and the most balanced combination was selected using Kolmogorov-Smirnov and Wilcoxon rank-sum tests. Z-score standardization was applied based on the training set, and the XGBoost model was trained using 5-fold cross-validation with grid search optimization. The final model showed excellent predictive performance (R2 =0.97, RMSE= 0.19). A simplified model using only the top 10 predictive molecular features retained approximately 95% of the original accuracy while improving interpretability and efficiency. The model was applied to 38 PCB compounds lacking EC50 values, and the predicted values showed a statistically similar distribution to the measured group, with only minor differences in a few structural fingerprints. These results demonstrate the applicability of XGBoost-based models for reliable toxicity prediction and offer a promising alternative approach for assessing the environmental risk of untested PCBs.
목적 : 본 연구는 지역사회 거주 장애 노인을 대상으로 개인-환경 간 상호작용을 반영한 거주 적합성(Livability) 평가에 기반하여 결정 트리 기반 머신러닝 알고리즘의 결과를 활용하여 가정환경 수정 중재를 제공하고 효과성을 검증하고자 하 였다. 연구방법 : 연구참여자는 지역사회 거주 장애 노인 9명이었으며, 중재는 총 4회기(주 1회, 40분)로 구성되었다. 거주 적합 성(Livability Scale), 작업수행능력(COPM), 목표성취(GAS), 삶의 질(WHOQOL-BREF)은 사전, 사후, 추적의 세 시점 에서 평가되었으며, 추적 평가는 중재 종료 3개월 후에 실시되었다. 중재는 Livability Scale을 활용하여 결정 트리 기반 머신러닝 알고리즘(Random Forest)을 활용한 변수 중요도(feature importance)로 거주 부적합 항목을 식별하여 중재의 우선순위로 활용하였다. 분석은 세 시점에서 반복측정된 자료를 SPSS 26.0을 사용하여 Friedman 검정 및 Bonferroni 사후 비교를 통해 분석하였다. 결과 : 분석 결과, 거주 적합성의 환경, 작업, 수행 영역과 작업수행능력, 목표성취도, 삶의 질의 하위 영역에서 통계적으 로 유의미한 향상이 나타났다. COPM 만족도는 모든 시점에서 유의하게 증가하여 중재 효과의 지속 가능성을 확인하였다. 결론 : 가정환경 수정에서 개인–환경 상호작용을 반영한 정량적 평가와 머신러닝 기반의 예측 모형을 활용하여 중재의 실 효성을 높일 수 있는 실증적 근거를 제공한다. 이를 통해 장애 노인을 포함한 다양한 취약계층을 위한 맞춤형 주거 중재 및 정책 개발에 기초자료로 활용될 수 있을 것이다.
본 연구는 환경 요인을 바탕으로 절화용 국화 생장 예측을 위한 최적의 모델을 개발하는 것을 목표로 하였다. 이를 위해 13개의 모델(Linear Regression, Lasso Regression, Ridge Regression, ElasticNet Regression, K-Nearest Neighbors (KNN), Support Vector Regression (SVR), Neural Network, Decision Tree, Random Forest, XGBoost, AdaBoost, CatBoost, Stacking)의 성능을 R2, MAE, RMSE를 평가 지표 로 비교하였다. 단일 모델 중에서는 Decision Tree가 가장 우수한 성능을 보였으며, R2값은 0.90에서 0.91 사이였다. 앙 상블 모델 중에서는 CatBoost가 가장 높은 성능을 보였으며 (R2=0.90~0.92) Random Forest와 XGBoost 또한 유사한 성 능을 보였다. 전체적으로 트리 기반 앙상블 모델이 국화 생장 예측에 적합한 모델로 나타났다.