基于全基因組測序的人類(lèi)遺傳學(xué)研究中,獲取包含SNP、InDel、SV、CNV等基因組變異信息是研究的基礎工作及關(guān)鍵目標。以Pacbio和Nanopore為代表的三代測序技術(shù)以及讀長(cháng)長(cháng)的特點(diǎn)在人及動(dòng)植物基因組研究中獲得大量應用。
什么是“人—三代重測序”?
“人—三代重測序”是指基于三代測序技術(shù)對樣品進(jìn)行人全基因組測序,利用獲得的10kb~20kb長(cháng)reads與人參考基因組進(jìn)行比對分析,可以精準開(kāi)發(fā)得到樣品與參考基因組或者樣品間的DNA序列的遺傳變異,如結構變異(Structural Variation,SV)和拷貝數變異(copy number variations, CNV)等,而這些大片段的序列變異的檢測是二代重測序無(wú)法做到的。
為什么要做“人—三代重測序”?
利用開(kāi)發(fā)得到SV、CNV可以應用到個(gè)體或群體間的差異性分析、疾病或癌癥領(lǐng)域的HLA、STR等研究中。三代重測序以其長(cháng)讀長(cháng)(可直接跨越大片段結構變異;可直接跨越串聯(lián)重復區域、高GC區域、高度同源區域、高度多態(tài)性區域)、無(wú)需PCR擴增(避免PCR擴增引入的錯誤)等優(yōu)勢,成為挖掘人基因組遺傳變異信息的全新策略。
“人—三代重測序”信息分析流程
采用Nanopore測序,將測序得到的原始數據進(jìn)行質(zhì)量評估并過(guò)濾得到Clean?Reads,用于后續的生物信息學(xué)的分析。生物信息分析流程圖如下:

Nanopore全基因組重測序生物信息分析流程圖
部分分析結果展示
1、數據質(zhì)控
Nanopore測序數據下機后,將其數據轉換為fastq格式,用于后續質(zhì)控分析。原始fastq數據經(jīng)進(jìn)一步過(guò)濾接頭、過(guò)濾短片段、過(guò)濾低質(zhì)量reads后,得到總的數據集。

Nanopore數據長(cháng)度分布圖
2、變異檢測
基因組結構變異,SVs,通常指的是長(cháng)度大于50bp的大片段結構變異,包括許多類(lèi)型,如缺失(DEL)、插入(INS)、重復(DUP)、倒位(INV)、拷貝數變異(CNV)等,它們在個(gè)體和群體水平上促進(jìn)了人類(lèi)基因組的多樣性和進(jìn)化。相比SNP,SVs在變異基數中所占比例更多,對基因組的影響更大,一旦發(fā)生變化,往往會(huì )給生命體帶來(lái)重大影響。越來(lái)越多的證據表明,SVs與許多人類(lèi)疾病有關(guān),如神經(jīng)發(fā)育疾病、心血管疾病和癌癥等。因此,系統地分析人類(lèi)基因組中的 SVs 對于生物學(xué)和臨床研究至關(guān)重要。
本次分析采用長(cháng)讀長(cháng)納米孔測序,更有可能涵蓋整個(gè)結構變異體和/或重復區域,從而獲得更加準確的結構變異體,加深對結構變異以及結構變異在疾病、進(jìn)化和遺傳多樣性的作用的理解。

結構變異circle圖
3、重復序列分析
微衛星標記(microsatellite),又被稱(chēng)為短串聯(lián)重復序列(short tandem repeats, STRs)或簡(jiǎn)單重復序列(simple sequence repeats, SSRs),是均勻分布于真核生物基因組中的簡(jiǎn)單重復序列,由2~6個(gè)核苷酸的串聯(lián)重復片段(核心序列)串聯(lián)重復組成,其重復單位的重復次數在個(gè)體間呈高度變異性并且數量豐富。目前已發(fā)現重復序列和40多種神經(jīng)肌肉和神經(jīng)退行性疾病等疾病有關(guān),包括眾所熟知的精神發(fā)育遲滯疾病—脆性X染色體、神經(jīng)退行性疾病—亨廷頓舞蹈癥、脊髓小腦性共濟失調癥等,此外微衛星不穩定性MSI也是許多癌癥基因組特征。由于重復序列的擴張引起的疾病稱(chēng)為重復序列擴張疾病,當然有些重復序列縮短也能引起疾病。其發(fā)病機制與這些重復的微衛星序列的重復次數相關(guān)。利用三代長(cháng)讀長(cháng)數據,可用來(lái)檢測衛星序列重復次數。

Repeat結果統計表
4、HLA分型
主要組織相容性復合體MHC區域位于6號染色體的短臂上,是人類(lèi)基因組上*復雜的區域之一(約4Mb),呈現出高度的多態(tài)性(有著(zhù)超過(guò)10,000個(gè)等位)。其編碼的分子參與抗原遞呈,制約細胞間相互識別及誘導免疫應答。人類(lèi)白細胞抗原(HLA)編碼基因是 MHC 的一部分,是迄今已知基因中等位基因多態(tài)性*高的基因復合體,也是不同個(gè)體進(jìn)行器官或組織細胞移植時(shí)發(fā)生排斥的主要成分。
與 HLA 相關(guān)的疾病多達100多種,涉及自身免疫性疾病、免疫缺陷性疾病、過(guò)敏性疾病、感染類(lèi)疾病、代謝性疾病等,如糖尿病、類(lèi)風(fēng)濕性關(guān)節炎,銀屑病、強直性脊柱炎、重癥肌無(wú)力和哮喘等。同時(shí),HLA在器官和骨髓等移植中起到至關(guān)重要的作用,也與許多藥物的嚴重不良反應相關(guān)。因此,進(jìn)行HLA 分型,有利于免疫相關(guān)疾病的研究、疫苗和藥物靶向人群篩選、種族進(jìn)化的研究、組織和器官移植等。
本次分析對樣品的 HLA-A,HLA-B,HLA-C 基因進(jìn)行單倍型鑒定。將測序的Nanopore?reads與已知的HLA等位比對來(lái)識別候選的等位,接下來(lái)通過(guò)與候選等位的多重比對獲取一致序列,最后通過(guò)將一致序列與參考數據庫比對獲取每個(gè)樣品最終的單倍型。

樣品單倍型統計表

不同分辨率下的等位基因的多樣性
總結
(1)通過(guò)三代重測序對人基因組進(jìn)行SV、CNV等變異檢測,系統分析人全基因組的結構變異。
(2)三代測序技術(shù)讀長(cháng)長(cháng),可輕松跨越基因組低復雜度區域,且無(wú)GC偏好性,利用三代長(cháng)讀長(cháng)數據,更有利于檢測STRs。
(3)二代測序技術(shù)受讀長(cháng)的限制,會(huì )導致 HLA 分型數據不明確,三代測序憑借其長(cháng)讀長(cháng)特點(diǎn),能夠顯著(zhù)提高HLA分型的準確性。
所見(jiàn)即所得!以上分析內容均可在百邁客云(http://www.biocloud.net/)“全基因組重測序Nanopore分析平臺”實(shí)現!更有“更新結題報告和個(gè)性化分析”等免費售后定制化!同時(shí)我們也在響應廣大科研人員的分析需求,進(jìn)一步實(shí)現分析內容多元化,歡迎大家持續關(guān)注!

百邁客專(zhuān)利技術(shù)《基于三代測序平臺的全基因組重測序分析平臺》


京公網(wǎng)安備 11011302003368號