A machine learning-based algorithms have used for constructing species distribution models (SDMs), but their performances depend on the selection of backgrounds. This study attempted to develop a noble method for selecting backgrounds in machine-learning SDMs. Two machine-learning based SDMs (MaxEnt, and Random Forest) were employed with an example species (Spodoptera litura), and different background selection methods (random sampling, biased sampling, and ensemble sampling by using CLIMEX) were tested with multiple performance metrics (TSS, Kappa, F1-score). As a result, the model with ensemble sampling predicted the widest occurrence areas with the highest performance, suggesting the potential application of the developed method for enhancing a machine-learning SDM.
본 연구에서는 토마토 MAB에 활용하고자 토마토 7 품종의 genome-wide SNPs 데이터베이스를 구축하고, MAB를 위한 분자마커 선발 프로그램을 개발하였다. 토마토 전사체 데이터를 NCBI-SRA에서 다운로드 하여 in silico 분석으로 SNP를 추출하였다. 전사체 데이터에서 추출된 SNP를 재료로 7 품종의 토마토 계통을 이용해 총 21개 교배조합별 SNP 분자마커를 선발하였고, primer가 이용 가능한 마커를 이용하여 데이터베이스를 구축하였다. 마커를 선발하기에 앞서 염색체의 분획으로 두 가지 방법을 사용하였는데, 물리적 거리에 따른 분획과 유전거리에 따른 분획 방법이다. 물리적 거리를 이용한 분획은 각 염색체를 동일한 크기의 5개의 구획으로 나누고, 한 구획 당 교배조합별 차이를 보이는 3개의 SNP를 선발하였다. 교배조합이 바뀔 때마다 이용 가능한 SNP가 자동으로 primer 정보와 함께 제공되도록 하였다. 유전거리를 반영한 분획 방법은 각 염색체의 유전적 거리를 측정하여 물리적 거리에 차등을 두어 염색체 구획을 설정하였다. 즉 재조합이 자주 일어나는 염색체 양끝 말단 부분은 구획을 조밀하게 나누어 MAB 마커 또한 많이 할당하여 자세히 조사하도록 구성하였다. 유전거리에 따른 마커 선발에는 1,924개의 tomato- EXPEN 2000 map 분자마커와 SNP 마커를 이용하였다. 교배조합별로 이용할 수 있는 마커를 12개 염색체 상에 그래픽적으로 제공함으로써 사용자가 쉽게 이해하고 이용할 수 있는 MAB 위한 마커 선발 프로그램을 개발하였다. 이러한 토마토 MAB용 분자마커를 제공하는 프로그램은 실제적인 여교잡 선발 육종에 적용하여 분자마커의 활용을 높이고, 육종효율을 증진시킬 것이다.
Backcrossing is a plant breeding method most commonly used to incorporate one or a few genes into an adapted or elite variety. To facilitate MAB (marker-assisted backcrossing) in a practice breeding program, we developed a SNP database and a program for providing selected markers for background selection from genome-wide SNPs of seven tomato accessions downloaded from NCBI-SRA. We identified 425,935 SNPs among 21 parental combinations with data from seven transcriptomes and developed a SNP database. To select the optimized number of markers for background selection, we divided 12 chromosomes according to physical length and genetic length. Initially, each chromosome was equally divided into five blocks according to physical length, and three SNPs were positioned per block. Additionally, we applied the genetic distance calculated from the recombination rate because the frequency of recombination can vary greatly among chromosomal regions. When considering genetic distance, each chromosome was divided into fifteen blocks unequally and one marker composed of EXPEN-2000 was positioned per block. The program for background selection was designed to be simple and easy to use, and it is available at http://tgsol.seeders.co.kr/ index.php/tg/mab. When the user selects the parental combination, the program provides selected markers with primer information. The value of this program for tomato breeding will further increase if more accession numbers are added to the database.