논문 상세보기

인공지능 데이터 증강과 환경 요인 분석을 통한 작물 표현형 예측 기법 연구 KCI 등재

A Study on Crop Phenotype Prediction by Integrating Environmental Data Collection and AI-Based Data Augmentation Techniques

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/449304
구독 기관 인증 시 무료 이용이 가능합니다. 4,000원
생물환경조절학회지 (Journal of Bio-Environment Control)
한국생물환경조절학회 (The Korean Society For Bio-Environment Control)
초록

전 세계 식량 안보는 기후 변화와 인구 증가로 인해 점점 더 위협받고 있으며, 이를 해결하기 위해서는 유전체학, 표현형 학, 인공지능을 통합한 첨단 육종 전략이 필요하다. 본 연구는 유전자형 데이터 증강과 반지도 학습을 활용하여 토마토 육종 에서의 표현형 예측 정확도를 향상시키는 것을 목표로 한다. 총 192종의 토마토 계통을 온실 환경에서 재배하며, 과중, 높 이, 너비, 경도, 당도 등 5가지 주요 형질에 대한 유전자형, 표 현형, 환경 데이터를 수집한다. 제안된 1차원 합성곱신경망 기반의 유전자형 데이터 증강 프레임워크는 원본 데이터셋을 확장하고, 라벨이 안된 데이터를 효과적으로 활용하기 위한 수도 라벨링 전략을 도입한다. 또한, 온도, 습도 등 환경 변수 는 생육 기간 동안의 통계적 특징값을 추출하여 모델 입력에 통합함으로써 재배 조건을 보다 현실적으로 반영하였다. 표 현형 예측은 트리 기반 및 딥러닝 아키텍처를 포함한 다양한 모델을 통해 수행되었으며, 서로 다른 네트워크 구조에 따른 성능을 비교 및 평가한다. 실험 결과, 유전자형 데이터 증강은 전반적으로 예측 성능을 향상시켰으며, 특히 LightGBM과 CatBoost와 같은 트리 기반 모델에서 가장 큰 개선 효과를 보 였다. 또한 최신 딥러닝 모델과의 비교 실험을 통해 제안된 접 근법의 강건성을 확인한다. 이러한 결과는 제안된 방법이 데 이터가 제한된 육종 환경에서도 실질적인 성능 향상을 달성할 수 있는 효과적인 전략임을 보여주며, 향후 멀티오믹스 및 환 경 데이터와의 통합을 통해 확장 가능한 디지털 육종 프레임 워크로 발전할 가능성을 제시한다.

Global food security challenges require advanced breeding strategies that integrate genomics, phenomics, and artificial intelligence. This study aims to improve phenotype prediction accuracy in tomato breeding by leveraging genotype data augmentation and semi-supervised learning. A total of 192 tomato accessions were cultivated under greenhouse conditions, and genotypic, phenotypic, and environmental data were collected for five key traits: fruit weight, height, width, firmness, and brix. We propose a 1D CNN-based genotype augmentation framework to expand the original dataset and a pseudo-labeling strategy to effectively utilize unlabeled data. Environmental variables such as temperature, humidity, and others were integrated through statistical feature extraction over the growth period to better reflect cultivation conditions. Phenotype prediction was performed using 18 regression models, including both tree-based and deep learning architectures, and the impact of different network structures was comparatively evaluated. Results show that genotype augmentation consistently improved predictive performance, with tree-based models such as LightGBM and CatBoost exhibiting the largest gains. Additional comparisons with state-of-the-art models confirmed the robustness of the proposed approach. These findings providing a practical strategy for data-limited breeding scenarios and scalable integration with multi-omics and environmental datasets.

목차
Abstract
서 론
딥러닝 기반의 표현형 예측 모델
    1. 환경 데이터 수집
    2. 유전형-표현형 데이터 세트
    3. 유전형-표현형 데이터 생성
    4. 표현형 예측 모델
    5. 실험 결과
결과 및 고찰
적 요
사 사
Literature Cited
저자
  • 변성우(한국전자기술연구원 전북지역본부 디지털혁신지원센터 선임연구원) | Sung-Woo Byun (Senior Researcher, Digital Innovation Support Center, Korea Electronics Technology Institute (KETI), Jeonju, Jinju 52828, Korea)
  • 최지호(한국전자기술연구원 전북지역본부 디지털혁신지원센터 선임연구원) | Jiho Choi (Senior Researcher, Digital Innovation Support Center, Korea Electronics Technology Institute (KETI), Jeonju, Jinju 52828, Korea)
  • 여욱현(경상국립대학교 농업생명과학대학 지역시스템공학과 조교수) | Uk-Hyeon Yeo (Assistant Professorr, Department of Agricultural Engineering, (Institute of Smart Space Agriculture (ISSA)), Gyeongsang National University, 501, Jinju-daero, Jinju, 52828, Republic of Korea) Corresponding author