논문 상세보기

고밀도 SNP 칩 유전자형 데이터 기계학습 기반 반려견 품종 식별 유전마커 선발 KCI 등재

SNP Marker Selection for Dog Breed Identification from Genotypes of High-density SNP Array and Machine Learning

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/377905
구독 기관 인증 시 무료 이용이 가능합니다. 4,000원
농업생명과학연구 (Journal of Agriculture & Life Science)
경상대학교 농업생명과학연구원 (Institute of Agriculture & Life Science, Gyeongsang National University)
초록

개(Canis lupus familiaris)는 인간의 소외 현상을 개선하고, 공동체 생활 의식 향상에 기여하는 반려동물이다. 반려견 품종을 명확히 관리하는 것은 유전병을 감소시키거나, 형질 개량, 종 다양성 유지 등을 위해 중요하다. 본 연구에서는 고밀도 SNP 칩 유전자형 데이터와 기계학습 기술을 이용하여, 유전자형 데이터에 기반한 품종 식별이 가능한지, 가능하다면 최소 몇 개의 유전마커로 품종 식별을 유의하게 수행할 수 있는지 확인하기 위하여, 반려견 11 품종 226두의 23K SNP 칩 데이터를 분석하였다. 9종의 기계학습 다중범주 분류 알고리즘과 2종의 특징 선택 방법의 성능을 비교하여, 선형 서포트 벡터 머신 분류기와 주성분 분석 특징 기여도를 이용한 특징 선택 방법을 이용했을 때, 11종의 반려견 품종을 90% 이상 정확도로 식별하였으며, 이 때 40개의 유전마커가 필요함을 확인하였다. 최종 선발 된 40개의 반려견 품종 식별 유전마커는 타 질병 예측 마커와 결합하여 유전자 검사 키트로 제작될 수 있으며, 반려견 품종 관리 및 질병 관리 기술로 유용하게 활용될 수 있을 것이다.

Dog (Canis lupus familiaris) is a member of genius Canis that forms part of the wolf-like canids, and it has been evolved to diverse domestic breeds since 100 thousand years ago. Practical dog breed identification has been emerged to important part of pet industry such as genealogical certificates. From 11 dog breeds, 226 dogs and 23K SNP genotypes, we selected minimal SNPs of breed identification using machine learning algorithms including multiclass classification and feature selection. With 100 times of random choice of 70% data for training and 30% testing, we evaluated 9 classifiers’ accuracies and 2 methods of feature selection. Linear SVM and PCA weighted feature selection showed the best accuracy of classification. Finally, we selected SNP markers and it could identify 11 breeds with approximately 90% accuracy, when having 40 SNP. This marker set is expected to be useful for dog breed and disease management by integration with disease markers.

목차
초록
ABSTRACT
서론
재료 및 방법
    1 고밀도 SNP 칩 데이터 확보 및 기초 분석
    2 기계학습과 정확도 측정
    3 특징 선택
결과 및 고찰
    1 주성분분석
    2 전체 유전마커를 이용한 다중범주 분류
    3 특징 선택 방법 비교
    4 선발된 유전마커 수에 따른 정확도 비교
    5 고찰
References
저자
  • 김형용((주)인실리코젠) | Hyung-Yong Kim (Insilicogen, Inc.)
  • 최봉환(농촌진흥청 국립축산과학원) | Bong-Hwan Choi (National Institute of Animal Science)
  • 오태윤((주)인실리코젠) | Taeyun Oh (Insilicogen, Inc.)
  • 강병철((주)인실리코젠) | Byeong-Chul Kang (Insilicogen, Inc.) Corresponding author