논문 상세보기

RTD-YOLO: 하천 및 하구 수역 부유 쓰레기 모니터링을 위한 실시간 인스턴스 세그멘테이션 모델 KCI 등재

RTD-YOLO: A Real-Time Instance Segmentation Model for Monitoring Floating Trash in River and Estuarine Waters

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/450064
구독 기관 인증 시 무료 이용이 가능합니다. 4,300원
해양환경안전학회지 (Journal of the Korean Society of Marine Environment and Safety)
해양환경안전학회 (The Korean Society Of Marine Environment & Safety)
초록

본 연구에서는 하천 및 하구 수역의 부유 쓰레기를 실시간으로 탐지하기 위한 인스턴스 세그멘테이션 모델 RTD-YOLO(River Trash Detection-YOLO)를 제안한다. 수면 영상 기반 부유 쓰레기 데이터는 수면 반사, 배경과의 높은 유사성, 객체 간 중첩, 불규칙한 경계, 소형 객체 비중 증가 등 일반 목적 벤치마크 데이터셋과 다른 특성을 가진다. 본 연구에서는 동일한 데이터셋과 동일한 학습 및 평가 조건 에서 Ultralytics 공식 배포 모델인 YOLOv8-Seg, YOLO11-Seg, YOLO26-Seg의 성능을 비교 분석하고 그 중 가장 우수한 성능을 보인 YOLO26-Seg 아키텍처를 기반으로 RTD-YOLO를 설계하였다. 제안 모델은 입력 해상도 1280 환경에서 주요 특징 단계인 P3 및 P4의 검출 및 분류 표현력을 강화하고 P5 기반 의미 정보를 instance segmentation fusion 기반 구조로 재주입하는 semantic bridge와 segmentation 입력 정렬 구 조를 도입하였다. 실험 결과 RTD-YOLO는 YOLO26-Seg 대비 정밀도 8.52%, 재현율 10.85%, mAP@50 8.61%, mAP@50:95 9.62%의 상대적 성능 향상을 보였다. 추론 시간은 14.13 ms/img에서 15.98 ms/img로 증가하였으나 실시간 운용에는 충분한 수준을 유지하였다. 또한 공식 YOLO 버전 간 성능 변화와 비교할 때 제안 모델에서 보다 큰 성능 개선 경향이 확인되었다. 이는 부유 쓰레기 탐지와 같이 배경 간섭과 클래스 혼동이 큰 환경에서는 일반 목적 탐지 구조의 직접 적용보다 데이터 특성을 고려한 탐지·분류 중심의 구조 설계가 효과적일 수 있음을 시 사한다.

This study proposes RTD-YOLO (River Trash Detection-YOLO), a real-time instance segmentation model for detecting floating trash in river and estuarine waters. Floating trash imagery acquired from water surfaces exhibits characteristics that differ from general-purpose benchmark datasets, including strong surface reflections, high background similarity, overlapping objects, irregular object boundaries, and a high proportion of small objects. In this study, the performance of Ultralytics' official models, YOLOv8-Seg, YOLO11-Seg, and YOLO26-Seg, was compared using identical datasets and training conditions. Based on the model that demonstrated the best performance, the YOLO26-Seg architecture was selected as the baseline for designing RTD-YOLO. The proposed model enhances detection and classification representations at the P3 and P4 feature levels for 1280-resolution inputs and introduces a semantic bridge that reinjects P5-level semantic information using an add fusion structure, along with a segmentation input alignment structure. Experimental results show that RTD-YOLO achieves relative improvements of 8.52% in precision, 10.85% in recall, 8.61% in mAP@50, and 9.62% in mAP@50:95 compared with YOLO26-Seg. Although the inference time increased from 14.13 ms/img to 15.98 ms/img, the model maintains sufficient performance for real-time operation. Compared with the performance variations observed across official YOLO versions, the proposed model shows a larger margin of improvement. These results suggest that in environments with strong background interference and class ambiguity, such as floating trash detection, redesigning detection and classification structures tailored to the data characteristics can be more effective than directly applying general-purpose architectures.

목차
요 약
Abstract
1. 서 론
2. 연구 방법
    2.1 데이터셋 구성
    2.2 실험 설정
    2.3 성능평가 지표
    2.4 기준 모델 선정
    2.5 RTD-YOLO 설계
3. 연구 결과
4. 결 론
References
저자
  • 진상엽(주)지오시스템리서치 예보사업부 선임) | Sang-Yeup Jin (Senior Engineer, GeoSystem Research Corp., Dept. of Forecast, Gyeonggi 15870, Korea)
  • 최흥배((주)지오시스템리서치 예보사업부 상무) | Heung-Bae Choi (Executive Director, GeoSystem Research Corp., Dept. of Forecast, Gyeonggi 15870, Korea) Corresponding author
  • 김종범((주)지오시스템리서치 연안관리부 상무) | Jong-Beom Kim (Executive Director, GeoSystem Research Corp., Dept. of Coastal Management, Gyeonggi 15870, Korea)
  • 송용식((주)지오시스템리서치 부사장) | Yong-Sik Song (Vice President, GeoSystem Research Corp., Gyeonggi 15870, Korea)