개(Canis lupus familiaris)는 인간의 소외 현상을 개선하고, 공동체 생활 의식 향상에 기여하는 반려동물이다. 반려견 품종을 명확히 관리하는 것은 유전병을 감소시키거나, 형질 개량, 종 다양성 유지 등을 위해 중요하다. 본 연구에서는 고밀도 SNP 칩 유전자형 데이터와 기계학습 기술을 이용하여, 유전자형 데이터에 기반한 품종 식별이 가능한지, 가능하다면 최소 몇 개의 유전마커로 품종 식별을 유의하게 수행할 수 있는지 확인하기 위하여, 반려견 11 품종 226두의 23K SNP 칩 데이터를 분석하였다. 9종의 기계학습 다중범주 분류 알고리즘과 2종의 특징 선택 방법의 성능을 비교하여, 선형 서포트 벡터 머신 분류기와 주성분 분석 특징 기여도를 이용한 특징 선택 방법을 이용했을 때, 11종의 반려견 품종을 90% 이상 정확도로 식별하였으며, 이 때 40개의 유전마커가 필요함을 확인하였다. 최종 선발 된 40개의 반려견 품종 식별 유전마커는 타 질병 예측 마커와 결합하여 유전자 검사 키트로 제작될 수 있으며, 반려견 품종 관리 및 질병 관리 기술로 유용하게 활용될 수 있을 것이다.
Dog (Canis lupus familiaris) is a member of genius Canis that forms part of the wolf-like canids, and it has been evolved to diverse domestic breeds since 100 thousand years ago. Practical dog breed identification has been emerged to important part of pet industry such as genealogical certificates. From 11 dog breeds, 226 dogs and 23K SNP genotypes, we selected minimal SNPs of breed identification using machine learning algorithms including multiclass classification and feature selection. With 100 times of random choice of 70% data for training and 30% testing, we evaluated 9 classifiers’ accuracies and 2 methods of feature selection. Linear SVM and PCA weighted feature selection showed the best accuracy of classification. Finally, we selected SNP markers and it could identify 11 breeds with approximately 90% accuracy, when having 40 SNP. This marker set is expected to be useful for dog breed and disease management by integration with disease markers.