Development of a Text-Guided Annotation System for Object Segmentation Training Data in Crop Images Based on the Segmentation Anything Model 3
농업 분야 컴퓨터 비전(Computer Vision) 기술 확산으로 고품질 학습 데이터 확보가 필수적이나, 기존의 수동 데이터 구축 방식은 많은 시간과 비용이 소요되는 한계가 있다. 이에 본 연구는 최신 멀티모달 파운데이션 모델인 SAM3(Segment Anything Model 3)를 기반으로 반자동 어노테이션 시스템을 개발하였다. 제안 시스템은 (1) 텍스트 프롬프트 기반 객체 인 식, (2) SAM3 기반 정밀 마스크 생성 및 학습 가능한 폴리곤 좌표 변환, (3) 사용자 검증의 3단계로 구성되며 GUI로 구현 되었다. 600장 이미지 평가 결과, SAM3는 92.9%의 매칭률 과 0.790의 평균 정밀도(mAP)를 달성하였으며, 데이터셋 구 축 시간을 수동 작업 대비 96~98% 단축시켰다. 이는 SAM+ CLIP, Grounding DINO+SAM 등 기존 파운데이션 모델 대 비 정확도와 효율성 모든 면에서 월등한 성능이다. 본 연구는 파운데이션 모델의 제로샷 성능을 활용해 농업 데이터 레이블 링 효율을 개선하고 관련 AI 연구 가속화에 기여할 것으로 기 대된다.
With the widespread adoption of computer vision technology in agriculture, securing high-quality training data has become essential. However, existing data construction methods are limited by the substantial time and cost required. In this work, we develop a semi-automatic annotation system that integrates SAM3 (Segment Anything Model 3), a state-of-the-art multimodal foundation model. SAM3(Segment Anything Model 3). The proposed system is implemented in a GUI environment and consists of three stages: (1) object recognition based on text prompts, (2) generation of precise masks and their conversion into trainable polygon coordinates, and (3) quality assurance through user verification. In performance evaluations using 600 images, SAM3 achieved a matching rate of 92.9% and a mean Average Precision (mAP) of 0.790, reducing dataset construction time by 96-98% compared to manual annotation. These results demonstrate superior performance in both accuracy and efficiency compared to baseline foundation models such as SAM+CLIP and Grounding DINO+SAM. This study highlights how the zero-shot capabilities of foundation models can drastically improve agricultural data labeling efficiency and accelerate related AI research.