기후변화로 서리의 계절적 발생 시점은 지연되고 있다. 반면에 국내 주요 사과 산지의 서리 발생 빈도는 오히려 증가하고 있어 정밀한 사전 예측의 필요성이 커지고 있다. 본 연구는 노지 과수원 환경을 대상으로, 서리 발생 여부를 예측하는 다중 시간스케일 기반의 인공지능 모델을 제안하였다. 최근 10년간(2014-2025년) 경상북도 안동 기상대의 시간별 관측 97,758건을 사용하였으며, 6·12·24시간의 멀티윈도우 입력으로 단기 급변(복사냉각), 일일 주기성, 장기적인 대기 순환 패턴을 동시에 반영하였다. 모델링은 XGBoost, CNN, XGB-CNN 앙상블로 구성하였으며, 학습-검증-테스트를 70-20-10%로 분할하였다. 성능 평가로 XGB-24h는 ROC-AUC 0.977, PR-AUC 0.921, FPR 0.039로 높은 분별력과 낮은 허위경보를 보였다. CNN-24h는 Recall 0.941로 놓침 최소화에 유리하나 FPR이 상대적으로 높았다. 제안한 앙상블은 두 축을 절충하여 Accuracy 0.932, Recall 0.859, FPR 0.046, MCC 0.809, PR-AUC ≈0.919를 달성했고, Brier 0.056으로 확률 보정도 가장 우수했다. 성능 최적화를 위해 소프트 보팅 앙상블 모델의 가중치(ω)와 서리판정의 임계값(θ)을 대상으로 2차원 grid search를 수행한 결과, 앙상블 성능 조정 시 가중치(ω)보다 임계값(θ)이 핵심 파라미터임을 확인 하였다. 본 연구는 다중 시간스케일과 앙상블에 계절별 동적 임계값(θ) 정책을 적용할 경우 추가적인 성능 개선이 가능함을 시사하며, 지역 일반화의 한계를 고려해 향후 다양한 지역·기후 조건에서의 현장 실증 연구를 통해 재현율(Recall) 중심의 성능향상을 지속적으로 개선하고자 한다.
Climate change has led to a delayed onset of seasonal frost. However, the frequency of frost events in major apple-producing regions of Korea has increased, underscoring the necessity of reliable advance prediction. We propose an artificial intelligence(AI) model for open-field orchards that exploits multi-timescale for frost prediction. The dataset includes 97,758 hourly observations from the Andong weather station(STN=136) in Gyeongsangbuk-do from 2014 to 2025. Multi-window inputs of 6, 12, and 24 hours simultaneously capture short-term rapid changes (radiative-cooling), diurnal cycles, and long-term atmospheric circulation patterns. The modeling framework consisted of XGBoost, Convolutional Neural Networks(CNNs), and an XGB-CNN soft-voting ensemble. Data are split into training/validation/test sets at a ratio of 70/20/10%, respectively. Performance evaluation showed that XGB-24h achieved high discrimination and a low false alarm rate with an ROC-AUC of 0.977, a PR-AUC of 0.921, and an FPR of 0.039. CNN-24h obtained the highest recall of 0.941, which minimized missed events but resulted in a relatively higher FPR. The proposed ensemble balanced these factors, achieving an Accuracy of 0.932, a Recall of 0.859, an FPR of 0.046, an MCC of 0.809, a PR-AUC of Approximately 0.919, and the best probability calibration with a Brier score of 0.056. To optimize performance, a two-dimensional grid search was conducted on the soft-voting ensemble model's weight(ω) and the frost detection threshold(θ). This revealed that weight was a more critical parameter than threshold for adjusting ensemble performance. This study suggests that applying multi-timescale inputs, ensembling, and season-specific dynamic threshold policies can further enhance performance. Recognizing limitations in geographical generalization, future work aims for continuous improvement in Recall-centric performance through field validation studies under various regional and climatic conditions.