상수도 배관에서 누수 또는 이상을 감지하는 기계학습 및 인공신경망 분류 모델에 대한 연구가 활발히 진행되어 왔다. 그러나 누수음 데이터는 시간과 환경에 따라 계속 변동하기 때문에, 입력 데이터의 변화에도 일정 수준 이상의 분류 성능을 유지하는 분류 모델을 찾는 데 어려움이 있다. 본 연구에서는 모델 선택과 초매개변수 조정보다 데이터 전처리 방법이 분류 성능 향상에 더 큰 영향을 미친다는 점에 주목했다. 변동성이 큰 누수음의 특징을 효과적으로 추출하기 위해 푸리에 변환 및 MFCC(Mel-Frequency Cepstral Coefficients)를 사용하였으며, 일부 정보가 중복될 가능성을 고려하여 다중공선성에 덜 민감한 트리 기반 모델을 사용해 누수음의 분류 성능을 평가했다. 연구 결과, 푸리에 변환과 MFCC를 결합한 데이터 세트를 사용했을 때 LightGBM 모델의 분류 정확도가 84.62%로 나타났으며, 각각의 전처리 방법을 단독으로 사용했을 때보다 더 높은 성능을 달성하였다. 이 결과는 두 전처리 방법의 상호 보완적 특성이 분류 성능 향상에 기여했음을 입증하며, 상수도 관망 누수 탐지 시스템 개발에 중요한 기여를 할 것으로 기대된다.
Research on machine learning and neural network classification models for detecting leaks or anomalies in water distribution pipelines has been actively conducted. However, leakage noise data vary significantly over time and across environmental conditions, making it challenging to develop models that maintain consistent classification performance despite input data variations. This study emphasizes that data preprocessing methods have a greater impact on improving classification performance than model selection or hyperparameter tuning. To effectively extract features from highly variable leakage noise, Fourier transform and Mel-frequency cepstral coefficients (MFCC) were utilized. Additionally, a tree-based model, less sensitive to multicollinearity, was employed to evaluate classification performance. The results demonstrated that combining Fourier transform and MFCC features improved the classification accuracy of the LightGBM model to 84.62%, outperforming each preprocessing method used independently. This finding highlights the complementary strengths of these preprocessing techniques in enhancing classification performance. The proposed approach is expected to make a significant contribution to the development of robust water distribution pipeline leak detection systems.