차세대 염기서열 분석(Next Generation Sequencing, NGS)은 대량의 병렬 데이터 생산으로 유전체의 염기서열 을 고속으로 분석하는 기술이며, 이 기술은 바이러스 유전체 분석에도 광범위하게 사용되고 있다. 하지만, 바이 러스의 전장 유전체가 100kb를 넘을 경우, 동일한 raw data라도 분석 방법 및 소프트웨어 그리고 매개변수 (parameter)에 따라 유전체의 크기와 구조가 다르게 결정된다. 따라서 유전체가 큰 바이러스 분석 시, 최적화된 NGS 분석 방법을 선택하는 것이 중요하다. 본 연구는 장수풍뎅이 누디바이러스(Oryctes rhinocerous nudivirus, 120kb) 유전체를 기반으로, 다양한 Assembly 소프트웨어(metaviralSPAdes, metaSPAdes, velvet, shovill, Geneious, megahit)를 사용하여, 최적화된 NGS 분석 방법을 고안하였다. Assembly 소프트웨어에 따라 바이러스 유전체 크기와 특징(Single Nucleotide Polymorphism, Insertion&Deletion, repetitive genomic variants)의 차이를 확인하였 다. Assembly 소프트웨어 간의 차이가 있는 염기서열은 Sanger sequencing을 통해 재확인하여, 참조 유전체 (reference sequence)를 구축하였다. 이 참조 유전체를 기반으로 가장 정확한 Assembly 소프트웨어와 parameter를 평가하였다. 본 연구는 분석 방법에 따라 달라지는 유전체의 특성을 이해하고, 바이러스 유전체를 정확하게 구축 하는 분석 파이프라인을 제공할 것으로 기대된다.
The predator-prey interaction in freshwater ecosystems is a crucial area in the ecological study field and one of example to find such interaction is to investigate stomach contents. However, traditional method through visual inspection often induce misidentification, as it depends critically on intactness of physically visible data. In this study, we utilized Next-Generations Sequencing (NGS) technology to test the applicability stomach content analysis and overcome such limitation. NGS was applied to analyze the stomach contents of the Hemibarbus labeo, Tachysurus fulvidraco, and Plecoglossus altivelis collected in the lower part of Nakdong River. As a result, T. fulvidraco had a higher number of Animalia operational taxonomic units (OTUs) intake rate than H. labeo. At the same time, P. altivelis had higher number of Plantae OTUs intake rate than T. fulvidraco and higher Protozoa OTUs intake rate than H. labeo respectively. Therefore, NGS technology application enable to overcome traditional method’s limitation and discover hidden interspecific interaction which can further be used in appropriate habitat assessment.
본 연구는 우리나라 해안에서 널리 서식 중인 해양 자원 중 하나인 전복(Haliotis discus hannai) 의 차세대염기서열분석 데이터 기반으로 선별한 신규 펩타이드의 항암 활성을 평가한 연구이 다. 펩타이드의 항암 활성은 교모세포종 세포주인 SNU-489에서 농도 의존적으로 처리 시간에 비례하여 증가하였으며, 200 μM로 48시간 처리하였을 때 암 세포 사멸율이 67%로 가장 높게 나타났다. 반면 정상 세포인 HaCaT에서 가장 높은 세포 사멸율은 18%로 농도 의존적이었으나 처리 시간과는 무관하였다. 또한 신규 펩타이드의 항암 메커니즘 과정을 밝히기 위해 세포자 멸괴사(Necroptosis) 관련 유전자의 발현 변화를 qRT-PCR 방법을 통해 검증하였다. RIPK3는 신 규 펩타이드 처리군에서 200 μM 처리 시 9배 이상 발현 증가, MLKL는 100 μM 처리군에서 대조군 대비 2배 이상 유의미하게 발현이 증가되었다. 이러한 결과로 미루어 볼 때, 전복 유래 신규 펩타이드는 암 세포 특이적으로 세포 독성을 가지며, 세포자멸괴사 메커니즘을 통해 암 세포 사멸을 일으키는 것으로 추측되므로 신규 펩타이드가 추후 교모세포종 치료제의 후보 물질로 활용될 수 있을 것으로 사료된다.
Colon cancer is one of the most common malignant tumors, but there are still a few validated biomarkers of colon cancer. Exosome-mediated microRNAs (miRNAs) have been recognized as potential biomarkers in cancers, and miRNAs can regulate a variety of genes. Recently, Fusobacterium nucleatum was discovered in the tissues of human colon cancer patients. Its role in colon cancer was highlighted. F. nucleatum may contribute to the progression of colon cancer through the mechanism of exosome-mediated miRNAs transfer. However, the exosomal miRNAs regulation mechanism by F. nucleatum in colon cancer is not well known. Thus, we performed next-generation sequencing to investigate the overall pattern of exosomal miRNAs expression in the colon cancer cell culture supernatant. We have confirmed the alterations of various exosomal miRNAs. In addition, to investigate the function of exosomal miRNAs, a Kyoto Encyclopedia of Genes and Genomes analysis was performed on the target genes of changed miRNAs. Potential target genes were associated with a variety of signaling pathways, and one of these pathways was related to colorectal cancer. These findings suggested that F. nucleatum can alter exosomal miRNAs released from colorectal cancer cells. Furthermore, exosomal miRNAs altered by F. nucleatum could be potential biomarkers for the diagnosis and therapy of colon cancer.
유전자 친자확인시험법은 동일 종 내에서도 개체를 식별 할 수 있는 강력한 분자진단체계이다. 반달가슴곰 우수리아 종(Ursus thibetanus ussuricus)은 한반도를 비롯한 중국, 러시아 등지에 분포하나, 우리나라에서는 지역적으로 절멸된 것으로 추정되고 있으며, 현재는 멸종위기야생생물Ⅰ급으 로 지정되어 있고, 북한, 러시아, 중국 등에서 재도입되어 종복원이 진행 중에 있다. 본 연구는 우리나라에 재도입된 반달가슴곰집단의 친자확인, 가계도 작성, 미확인개체 추적 등 방사개체의 관리에 요구되는 분자진단체계의 구축을 위하여 차세대염기서열분석법을 통해 결정한 반달가슴곰 전 장유전체 서열(whole genome sequence, WGS)에서 미세 부수체(microsatellite, MS) 마커 개발을 목적으로 하였다. 전장유전체 서열은 총 12개체의 혈액 DNA를 이용하여 결정하였고, 결정된 서열에서 총 1,730,507개의 단순반복서열(simple tandem repeat, STR)의 정보를 발굴하였다. 이 중 반복단위(repeat unit)의 길이가 2-6 nt로 구성된 STR은 총 5,954개였다. WGS 상에서 검출된 STR의 관찰이형접합율(observed heterozygosity, Ho)을 고려하여 총 97종을 1차 선정하였다. 부-모-자 유전자형의 멘델유전(mendelian inheritance)을 만족하는 48종의 마커를 반달가슴곰 전체 집단에 적용하여 시험하였고, 중합효소연쇄반응(polymerase chain reaction, PCR)을 통해 유전자형을 결정하였다. 유전 자형의 다양성지수와다형정보량(polymorphic information content, PIC), 동일개체출현율을 고려하여 최종 15종의 MS 마커 세트를 구성하였다. 분석결과, 전체 집단에서 출현한 평균 대립유전자의 수는 6.267개였으며, 기대이형접합율(expected heterozygosity)는 평균 0.7242을 나타내었다. 평균 PIC는 0.6718, 동일개체 출현율은 1.867×10-14 수준으로 높았으나, 부권부정율은 0.00337로 다소 낮은 수준을 보였다. 재도입된 1세대집단 전체에서는 평균 대립유전자 수 5.867개, 평균 기대이형접합율 0.7217, 평균 PIC 0.6573을 나타내었고, 후손 전체에서는 평균 대립유전자 수 5.933개, 평균 기대이형접합율 0.7140, 평균 PIC 0.6554를 나타내었다. 하지만, 후손집단을 2세대와 3세대로 구분했을 때, 2세대는 평균 대립유전자 수 5.867, 평균 기대이형접합율 0.722, 평균 PIC 0.657, 3세대는 평균 대립유전자 수 4.467, 평균 기대이형접합율 0.694, 평균 PIC 0.601을 나타내어 세대가 진행될수록 대립유전자의 수와 기대이형접합율, PIC 모두 감소하는 경향을 나타내었다. 최종 선정된 15개의 MS 마커체계를 이용하여 반달가슴곰 집단에 대한 미확인 개체 추적, 친자확인 등을 시험하였다. 최근 포획된 개체들 중에서 개체명이 확인되지 않았던 4개체는 자연출생 2세대, 3세대, 전파발신기가 탈락된 방사 1세대로 확인 되었다. 또한 동일성검사 결과 올해 5월 교통사고를 당한 반달가슴곰은 KM-53이며, 올해 출생한 새끼 반달가슴곰들에 대한 검사를 통해 2개체가 인공수정에 의해 출생한 것으로 확인되었다. 이상의 결과들은 본 연구에서 확립한 MS 마커의 조합이 자연방사와 자연출생 개체들로 구성된 반달 가슴곰 집단의 개체관리를 위한 분자마커체계로 유용하게 이용될 수 있음을 보여주고 있다. 또한 본 연구를 통해서 확립된 MS 마커들은 현재 지리산과 수도산에 서식하고 있는 반달가슴곰 집단의 개체관리, 미확인 개체 추적, 친자확인 등 유전자분석에 활용될 수 있을 것으로 기대되며, 아울러 향후 유전적 다양성 증진, 집단간 교류개체 선정 등에도 필요한 유전 정보를 제공할 수 있을 것이다. 결론적으로 반달가슴곰 전장유전체 서열을 토대로 마련된 분자진단체계는 향후 반달가슴곰의 보호와 생태복원을 위한 종복원에 기여할 것으로 기대된다.
저어새의 먹이생물을 파악하기 위해 2010년 6월부터 2014년 6월까지 인천 남동유수지에서 저어새의 토사물 시료를 채집하여 현미경 관찰 및 차세대염기서열 (NGS) 기법으로 분석 하였다. 저어새의 먹이생물은 어류, 갑각류, 다모류, 곤충류로 구성되어 있었으며, 주로 저어새는 어류와 갑각류를 섭이하는 것으로 나타났다. 최우점 먹이생물은 풀망둑 (Acanthogobius hasta)이었으며, 이 외에도 길게 (Macrophthalmus abbreviates), 징거미새우류 (Macrobrachium sp.), 칠게 (Macrophthalmus japonicus), 각시흰새우 (Exopalaemon modestus), 참 갯지렁이 (Neanthes japonica)가 우점 먹이생물로 출현하였다. 이들 먹이생물은 번식지 인근지역인 송도갯벌과 시화호에서 흔히 발견되며, 저어새는 채식지로써 이들 지역에 대한 의존도가 높을 것으로 판단된다. 현미경과 NGS로 분석한 일부 먹이생물에서 차이를 보였는데, 이는 토사물 내 먹이생물은 저어새의 위 내에서 분해되어 현미경 분석을 통한 형태학적 분류 특징을 찾기 어려웠던 반면, NGS 분석은 유전자를 통해 분류가 가능하기 때문에 형태학적 분석의 결과보다 높은 종 다양성을 보인 결과이다.
The small brown planthopper (SBPH), Laodelphax striatellus Fallén (Hemiptera: Delphacidae) is one of the major insect pest against rice, Oryza sativa L. in Korea. High density of SBPH could cause severe damage on rice plant by directly sucking and indirectly transmitting viral pathogens, Rice stripe virus and Rice streaked dwarf virus. As a preliminary study for de novo whole-genome sequencing of SBPH, we investigated 6 transcriptomes isolated from different developmental stages, sex, and tissue (egg, 1st ~ 3rd nymphs, 4th ~ 5th nymphs, female and male adults, salivary gland). Clean-sequence data of 19.3 Gb were obtained from total 47.8 Gb raw data after adaptor and quality trimming (Q30) and overlapped reads joining. As a suitable assembler, Bridger was selected based on the results of reference mapping (93.45%) and CEGMA completeness (95.97%). Finally, we obtained 158,207 reads (size range: 201 ~ 22,162 bp; Mean size: 1,048.04 bp; N50: 2,417 bp) after clustering the assembly results by CD-HIT-EST (similarity threshold: 99%). Based on these results, we are conducting further studies such as transcript expression pattern among different developmental stages and gene annotation.
Next Generation Sequencing을 이용한 분석 서열을 기반으로 매미나방의 Microsatellite loci 탐색 및 marker 개발을 수행하였다. 매미나방의 Genomic DNA 서열 분석은 MiSeq Sequencer (Illumina)의 1/8 plate를 이용하여 실시하였다. 판독된 유전자 서열의 길이는 총 3,974,358,483 bp로 평균 248.58 bp로 구성된 총 15,988,036 개의 분석 단편이 확보되었으며, 이를 CLC workbench를 이용하여 총 367,397,618 bp로 조합하였다. 조합된 Genomic DNA 서열을 대상으로 반복서열길이 2~4 bp, 반복횟수 4회 이상의 조건으로 총 1,864 개의 Microsatellite loci를 탐색하였다. 이 중 반복횟수 6회 이상의 430 loci에 대한 marker 제작 가능성을 TM 55.5~56.5℃, GC contents 30% 이상, primer length 18~22 bp의 조건으로 Primer3을 이용하여 분석하였으며, 총 207 개의 marker를 제작하였다. 선별된 207개 marker 중 150개 마커에 대해 일반 올리고 primer set를 제작하여 PCR을 통한 유용성 평가를 실하였으며, 그 결과 총 29개의 마커에 대한 유효성이 확인되어 Genotyping 용 형광 dye인 FAM을 부착한 분석용 마커로 제작하였다. FAM을 부착한 마커에 대한 PCR 효율 검사를 통해 최종적으로 10개 마커를 선별하여 한국 4개 지역(Korea 1, Korea 22, Korea 26, Korea 31) 및 러시아(Vladivostok), 몽고(Shagaarnur) 각 1개 지역의 개체군을 대상으로 유전적 구조 분석을 수행하였다. 유전적 유사도를 평가하기 위하여 Fst Pairwise UPGMA tree를 분석한 결과, Korea 1과 러시아 개체군, Korea 22와 Korea 26 개체군의 유전적으로 유사도가 높은 것으로 나타났으며, Korea 31과 몽고 개체군은 유사도의 기부에 위치하는 것을 확인할 수 있었다. 또한, Baysian Algorithm을 기반으로 한 유전적 구조 분석에서도 각 개체 및 개체군의 구조는 UPGMA tree 동일한 양상을 나타내는 것으로 확인되었다. 따라서, 현 연구를 통해 개발된 매미나방의 Microsatellite 마커는 한국을 비롯한 인근 지역의 지역적 개체군 분석을 가능하게 할 수 있을 것으로 판단되며, 결국 식물검역에서 매미나방의 유출 국가 및 지역에 대한 판별 분석에 유용할 수 있을 것이다.
Next Generation Sequencing을 이용한 분석 서열을 기반으로 매미나방의 Microsatellite loci 탐색 및 marker 개발을 수행하였다. 매미나방의 Genomic DNA 서열 분석은 MiSeq Sequencer (Illumina)의 1/8 plate를 이용하여 실시하였다. 판독 된 유전자 서열의 길이는 총 3,974,358,483 bp로 평균 248.58 bp로 구성된 총 15,988,036 개의 분석단편이 확보되었으며, 이를 CLC workbench를 이용하여 총 367,397,618 bp로 조합하였다. 조합된 Genomic DNA 서열을 대상으로 반복서열 길이 2~4 bp, 반복횟수 4회 이상의 조건으로 총 1,864 개의 Microsatellite loci를 탐 색하였다. 이 중 반복횟수 6회 이상의 430 loci에 대한 marker 제작 가능성을 TM 55.5~56.5℃, GC contents 30% 이상, primer length 18~22 bp의 조건으로 Primer3 을 이용하여 분석하였으며, 총 207 개의 marker를 제작하였다. 선별된 207개 marker 중 150개 마커에 대해 일반 올리고 primer set를 제작하여 PCR을 통한 유용 성 평가를 실하였으며, 그 결과 총 51개의 마커에 대한 유효성이 확인되어 Genotyping 용 형광 dye인 FAM을 부착한 분석용 마커로 제작하였다. 현재는 PCR 을 통한 결과만을 이용하여 유용성 평가를 실시하였다. 추후 분석용 마커를 이용하 여 Genotyping을 통한 유용성 평가를 수행할 예정이다. 주요 검역 해충으로 알려져 있는 매미나방의 Microsatellite 마커의 개발은 한국을 비롯한 인근 지역의 지역적 개체군 분석을 가능하게 할 수 있을 것으로 판단되며, 결국 식물검역에서 매미나방 의 유출 국가 및 지역에 대한 판별 분석에 유용할 수 있을 것이다.
The rapid advances in next generation sequencing (NGS) technologies have brought about huge improvement in sequencing throughput for affordable prices and revolutionized genomics researches. Nowadays, whole genome draft sequence for mid-sized genomes such as insects' can be obtained in a couple of months. And the gene space in action can be easily determined by whole transcriptome sequencing, even when the reference genome sequence is not available. In this workshop, experiences at Macrogen with NGS technology for whole genome sequencing and whole transcriptome sequencing will be presented focusing on insect researches, employing Illumina Hiseq2000 and/or Roche 454 platforms.
Chironomus riparius, a non-biting midge (Chironomidae, Diptera), is extensively used in aquatic ecotoxicological studies for assessing acute and sub-lethal toxicities of contaminated sediments and for water monitoring due to their widespread occurrence, short life-cycle, easy to be reared in the laboratory, physiological tolerance to various environmental conditions. To date, the endpoints used for monitoring such effects in C. riparius are based on a small number of specific biomarkers and measurements of organism level effects, such as survival and reproduction. Genomic-based techniques based on expression analysis of genes are important tools for investigating molecular level effects caused by exposure to environmental pollutants, which will provide the ability to detect mechanisms of action and subsequent adverse cellular level effects and associated with different types of toxicity. As a pre-requisite for genomic based ecotoxicological studies knowledge on the C. riparius transcriptome is important but despite its ecotoxicological importance, no large scale transcriptome analysis of C. riparius has been done so far. Therefore, to gain a better understanding of C. riparius transcriptome, we recently developed Expressed Sequence Tags (ESTs) sequencing project on C. riparius larvae using 454 pyrosequencing. Sequencing runs, using normalized cDNA collections from fourth instar larvae, yielded 20,020 expressed sequence tags, which were assembled into 8,565 contigs and 11,455 singletons. Sequence analysis was performed by BlastX search against the National Center for Biotechnology Information (NCBI) nucleotide (nr) and uniprot protein database. Based on the gene ontology classifications, 24% (E-value ≤1-5) of the sequences had known gene functions, 24% had unknown functions and 52% of sequences did not match any known sequences in the existing database. Sequence comparison revealed 81% of the genes have homologous genes among other insects belonging to the order Diptera providing tools for comparative genome analyses. Targeted searches using these annotations identified genes associated with essential metabolic pathways, signaling pathways, detoxification of toxic metabolites and stress response genes of ecotoxicological interest. The results obtained from this study would eventually make ecotoxicogenomics possible in a truly environmentally relevant species, C. riparius. Various C. riparius ecotoxicity studies using stress response genes developed from 454 sequencing will be presented in the conference.
With the advent of the genomics era powered by DNA sequencing technologies, life science is being transformed significantly and biological research and development have been accelerated. Environmental biology concerns the relationships among living organisms and their natural environment, which constitute the global biogeochemical cycle. As sustainability of the ecosystems depends on biodiversity, examining the structure and dynamics of the biotic constituents and fully grasping their genetic and metabolic capabilities are pivotal. The high-speed highthroughput next-generation sequencing can be applied to barcoding organisms either thriving or endangered and to decoding the whole genome information. Furthermore, diversity and the full gene complement of a microbial community can be elucidated and monitored through metagenomic approaches. With regard to human welfare, microbiomes of various human habitats such as gut, skin, mouth, stomach, and vagina, have been and are being scrutinized. To keep pace with the rapid increase of the sequencing capacity, various bioinformatic algorithms and software tools that even utilize supercomputers and cloud computing are being developed for processing and storage of massive data sets. Environmental genomics will be the major force in understanding the structure and function of ecosystems in nature as well as preserving, remediating, and bioprospecting them.
Background: Adenophora triphylla var. japonica (Regel) H. Hara shows vegetative growth with radical leaves during the first year and shows reproductive growth with cauline leaves and bolting during the second year. In addition, the shape of the plant varies within the same species. For this reason, there are limitations to classifying the species by visual examination. However, there is not sufficient genetic information or molecular tools to analyze the genetic diversity of the plant. Methods and Results: Approximately 34.59 Gbp of raw data containing 342,487,502 reads was obtained from next generation sequencing (NGS) and these reads were assembled into 357,211 scaffolds. A total of 84,106 simple sequence repeat (SSR) regions were identified and 14,133 primer sets were designed. From the designed primer sets, 95 were randomly selected and were applied to the genomic DNA which was extracted from five plants and pooled. Thirty-nine primer sets showing more than two bands were finally selected as SSR markers, and were used for the genetic relationship analysis. Conclusions: The 39 novel SSR markers developed in this study could be used for the genetic diversity analysis, variety identification, new variety development and molecular breeding of A. triphylla.
Background : Adenophora triphylla var. japonica (Regel) H. Hara shows vegetative growth by radical leaf until 1 year after sowing and shows reproductive growth during the second year and there is a characteristic of bolting by turning into cauline leaf. In addition, the phenotypes of plants varies even though they are belonging to the same species. For this reason, there is a limit for the classification of the species by the method of visual examination. Methods and Results : Simple sequence repeat (SSR) markers were developed based on the genomic sequence of A. triphylla using next generation sequencing to prepare the basis of molecular breeding and analyze the genetic diversity. Ninety-five primer sets including tri-, tetra- and penta-nucleotide motif types were randomly selected and they were applied to mixed genomic DNA and finally 39 primer sets showing from two to four bands were selected and used for genetic relationship analysis. Conclusions : Using the next generation sequencing, 39 polymorphic SSR markers were developed.
Background : The advancement of next-generation sequencing technology dramatically reduces the cost for sequencing and it contributes to create a new research environment that utilizes large amount of genome sequences to answer many biological questions. With this new research trend, reference genome sequences of several major crops have been released to the research community and utilized in various researches in agriculture. Coupled with molecular breeding technology, NGS based genome research will possibly allow selecting a new plant material possessing useful traits in early stage and efficiently developing a superior cultivar. Methods and Results : The objectives of this research are to collecting various genetic variations (SNPs, indels and TE mediated variations) in major and minor crops, to develop molecular markers using NGS based genomic data (resequencing, GBS, transcriptome), and to develop a visualization tools to enhance the utility of the NGS data. Currently major analysis pipelines have been developed to detect SNPs, indel and polymophic SSRs using whole genome and transcriptome data, and a pipeline for identification of MITE insertion polymorphism is under development. In addition to that, for orphan crop, we also implemented an efficient and robust method to assemble a complete chloroplast, mitochondria and 45S rDNA using low coverage whole genome data in order to develop an inter- and intra-specific molecular barcode markers. Conclusion : NGS provide a new level of researches in many crop plants. Large amount of genomic information provides an opportunity to understand domestication and genetic variations, and to develop a better crop for future.
Background : Medicinal crop has been used in the traditional Asian medicinal methods. From ancient times, various kinds of medicinal crop are being cultivated in East Aisa including Korea, China and Japan. In Korea, they used a variety of medicinal plants in folk medicine and oriental medicine since ancient times. Molecular markers can be widely used in a variety of settings such as effective-loci estimation, genetic-diversity characterization, allelic-effect studies, gene-flow studies, quantitative-trait locus (QTL) mapping, and evolutionary studies. The genetic analyses of crops require large numbers of useful molecular markers for genetic or QTL identification, comparative mapping and breeding. Studying the genetic diversity and genetic relationship of crops can assist breeders. Crop genetics within a breeding program enable the economic and effective cultivar development. We tried to develop a variety of molecular markers from Angelica gigas genomic sequences for genetic studies and breeding. Methods and Results : A. gigas resources cultivated in Republic of Korea were collected. Fresh leaves were ground with liquid nitrogen and gDNA was extracted using a DNeasy Plant Mini kit (Qiagen, Valencia, CA, USA). We sequenced the whole genomes of five A. gigas accessions using Illumina HiSeq 2500 platform and identified genomic Simple Sequence Repeat (SSR) and InDel markers. DNA amplification was conducted using the PCR system (Bio-Rad T-100 Thermal Cycler). PCR products were separated by capillary electrophoresis on the ABI 3730 DNA analyzer (Applied Biosystems) and Fragment analyzer automated CE system (Advanced Analytical Technologies, Ankeny, IA, USA). Conclusion : We developed novel SSR and InDel markers from A. gigas genomic sequences for further genetic studies and breeding.