英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
發(fā)表雜志:Mol. Psychiatry,2020年1月
影響因子:11.973
在人腦中,與精神分裂癥相關(guān)的基因組區域富集了在神經(jīng)發(fā)育過(guò)程中表現出不同異構體使用的基因,RNA剪接是將遺傳變異與精神疾病聯(lián)系起來(lái)的關(guān)鍵機制。剪接圖譜在大腦中特別多樣,很難準確識別和量化。短讀長(cháng)RNA-Seq方法不能準確地重建和定量大多數轉錄物和蛋白質(zhì)異構體,為解決這一挑戰,本文將long-range PCR和nanopore全長(cháng)轉錄組測序與一種新的生信分析流程結合。
CACNA1C是一種精神危險基因,編碼電壓門(mén)控鈣通道CaV1.2,CACNA1C基因很大而且很復雜,至少有50個(gè)注釋外顯子和31個(gè)預測的轉錄本。它的大小和復雜性使得用標準的基因表達方法準確鑒定和量化轉錄本變得極其困難,本文在人腦中鑒定了CACNA1C的全長(cháng)編碼轉錄本,識別了38個(gè)新的外顯子和241個(gè)新的轉錄本,對異構體多樣性的詳細了解對于將精神病學(xué)基因組發(fā)現轉化為病理生理學(xué)見(jiàn)解和新的精神藥理靶點(diǎn)至關(guān)重要。
樣本:來(lái)自利伯腦發(fā)育研究所儲存庫的三名成年捐贈者的尸檢腦組織(提取小腦、紋狀體、背外側前額葉皮質(zhì)、扣帶回、枕葉和頂葉皮質(zhì)的RNA,并進(jìn)行逆轉錄)
測序方法:使用PCR擴增CACNA1C全長(cháng)CDS,使用MinION進(jìn)行測序
分析流程:https://github.com/twrze/TAQLoRe
1、CACNA1C有很多外顯子和異構體
由于CACNA1C的復雜性,本文使用了兩種互補的方法來(lái)鑒定轉錄本:外顯子水平和剪接位點(diǎn)水平的分析,分析流程見(jiàn)補充圖2。該方法共鑒定了251種存在于人腦中獨特的CACNA1C轉錄異構體,其中241種是新的,包括使用新的外顯子,新的剪接位點(diǎn)和連接。

在CACNA1C基因座內總共注釋了39個(gè)潛在的新外顯子,其中38個(gè)在至少2個(gè)人或組織中被識別,并在每個(gè)文庫中得到至少5條nanopore reads的支持(圖2A)。通過(guò)PCR和Sanger測序確認了新的外顯子與其周?chē)淖⑨屚怙@子之間的剪接連接,從而驗證了四個(gè)新的外顯子。這種新的外顯子的成功驗證提供了很高的可信度,即通過(guò)納米孔測序鑒定的新的外顯子是真實(shí)的,并且被整合到CACNA1C轉錄本中。表達量最高的10條轉錄本中,有9條是新的且其中有8條被預測保持CACNA1C閱讀框架,這表明這些最豐富的新轉錄本中有一些編碼功能不同的蛋白質(zhì)異構體(圖2B,C)。這些結果表明,新的CACNA1C轉錄本表達豐富,數量也很多,目前的注釋缺少許多最豐富的CACNA1C轉錄本。

通過(guò)設置轉錄本的高置信度,在6個(gè)大腦區域確定了90個(gè)高可信的CACNA1C轉錄本,包括7個(gè)先前注釋的(GENCODE V27)和83個(gè)新的(補充圖3)。7個(gè)新的高置信度轉錄本包含新的外顯子,而其余76個(gè)包含以前未描述的連接和連接組合。

上述外顯子水平的轉錄本鑒定方法為鑒定新的外顯子和表征全長(cháng)轉錄本結構提供了穩健和保守的手段。使用了更為保守的依賴(lài)于連接處無(wú)錯誤映射所支持的連接的識別,以及規范剪接位點(diǎn)的方法,確定了497個(gè)新的剪接位點(diǎn),其中393個(gè)由至少10條reads支持,這些剪接位點(diǎn),在篩選了至少24條reads支持的轉錄本后,鑒定了195個(gè)轉錄本,其中111個(gè)被預測為編碼的。
2、CACNA1C亞型在不同腦區的表達譜不同
小腦、紋狀體與皮質(zhì)等組織觀(guān)察到了CACNA1C轉錄本差異,但在不同個(gè)體之間的表達是相似的。在小腦中觀(guān)察到了明顯的轉錄本表達轉換;在小腦之外,ENST00000399641是主要的轉錄本,而在小腦中,ENST00000399641和CACNA1C n2199的表達水平相似。

3、預測新isoforms對CaV1.2蛋白模型的影響
CACNA1C編碼CaV1.2 的主要成孔亞基。鈣孔由24個(gè)跨膜重復序列組成,由細胞內環(huán)連接成4個(gè)結構域(I-IV)(圖4A)。在我們鑒定的83個(gè)新的外顯子水平的轉錄本中,51個(gè)可能編碼功能性的CaV1.2通道?;疑娇虮硎拘碌?、框架內的插入和刪除的位置(值表示包含每個(gè)isoforms的reads的平均比例)。使用兩種分析方法(外顯子水平和剪切連接水平)鑒定變體的情況,外顯子水平計數用于得出豐度(紅色文本);僅使用剪接位點(diǎn)水平方法鑒定的變體用藍色文本表示。包含三個(gè)微缺失的蛋白質(zhì)異構體的數量:(I)在I-II接頭中,(Ii)在IV4-5接頭中,以及(Iii)在IV3-4接頭中先前報道的微缺失(圖4B)。

長(cháng)讀長(cháng)測序技術(shù)的快速發(fā)展為準確獲得轉錄多樣性提供了可能,因為每一條read都包含一個(gè)完整的轉錄本。這對于具有復雜模型的基因尤其重要。由于CACNA1C剪接產(chǎn)生的CaV1.2蛋白對現有的鈣通道阻滯劑表現出不同的敏感性,因此有可能選擇性地針對疾病相關(guān)的CACNA1C亞型和/或那些在大腦與外周差異表達的CACNA1C亞型,提供既更有效又更無(wú)外周副作用的新型精神藥物。綜上,這些觀(guān)察結果證明了ONT長(cháng)讀長(cháng)測序對于準確描述轉錄本結構和選擇性剪接的重要性。
參考文獻:
Clark Michael B,Wrzesinski Tomasz,Garcia Aintzane B et al. Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain.[J] .Mol. Psychiatry, 2020, 25: 37-47.
]]>

隨著(zhù)農業(yè)面積的減少和人口的增長(cháng),糧食危機正成為一個(gè)日益嚴重的問(wèn)題。沙漠約占地球陸地表面積的三分之一,是貧瘠的環(huán)境,幾乎沒(méi)有降水,通常有干燥和堿性土壤,因此對大多數植物和動(dòng)物的生活條件都很不利。然而,一些沙漠地區仍可以種植一些作物。洞察這些物種的環(huán)境適應和經(jīng)濟特征,有助于在不同的沙漠地區種植和繁殖這些作物,這可能有助于緩解世界糧食危機。
開(kāi)心果(p.vera,2n=30,圖1a)雙子葉植物綱、無(wú)患子目和漆樹(shù)科,是起源于中亞和中東的腰果家族成員。它是一種沙漠植物,對鹽漬土有很高的耐性。開(kāi)心果最近成為第五大堅果作物,除了具有經(jīng)濟、營(yíng)養和藥用價(jià)值外,對非生物脅迫也有很強的適應能力,被認為是一種能耐受干旱和鹽堿脅迫的物種,是干旱和鹽堿區重新造林的理想選擇。
盡管基因組測序的快速發(fā)展有助于發(fā)現許多作物馴化和改良的遺傳基礎,但關(guān)于開(kāi)心果的研究卻很少。據估計,開(kāi)心果的基因組大小約為600 MB,雜合率高。Moazzzam Jazi等人利用全基因組轉錄組,通過(guò)對照和鹽處理兩個(gè)開(kāi)心果品種的比較,發(fā)現了耐鹽性相關(guān)的標記物和應激反應機制。
在本研究中,為了更好地了解開(kāi)心果馴化的分子進(jìn)化歷史,研究人員組裝了開(kāi)心果的基因組草圖,并對107個(gè)全基因組進(jìn)行了重測序,包括93個(gè)馴化和14個(gè)野生的開(kāi)心果以及35個(gè)不同野生黃連木屬物種。整合基因組和轉錄組學(xué)分析顯示,擴張的基因家族(如細胞色素P450和幾丁質(zhì)酶)和茉莉酸(JA)生物合成途徑可能參與應激適應。比較群體基因組分析顯示,開(kāi)心果大約在8000年前被馴化,馴化的關(guān)鍵基因可能是那些涉及樹(shù)木和種子大小的基因,這些基因經(jīng)歷了人工選擇。這些基因組序列應該有助于未來(lái)的研究,以了解沙漠作物的農業(yè)和環(huán)境相關(guān)特性的遺傳基礎。
開(kāi)心果(P.vera)二代測序denovo:
測序材料:開(kāi)心果栽培種“Batoury”;Illumina Hiseq 2500[包括兩種類(lèi)型小片段文庫(270 bp和500 bp)]和六種類(lèi)型 mate-pair文庫(3 kb、4 kb、8 kb、10 kb、15 kb和17 kb);PacBio sequel
重測序:107個(gè)開(kāi)心果(93個(gè)馴化+14個(gè)野生)、35個(gè)不同野生黃連木屬物種;Illumina;
轉錄組:A:鹽處理:Ohadi(根:salt treatment 3 rep vs control 3 rep;葉:salt treatment 3 rep vs control 3 rep);B:野生型和馴化型:Ohadi和Sarakhs[根:Sarakhs (wild 3 rep) vs Ohadi (control 3 rep);葉:Sarakhs (wild 3 rep) vs Ohadi (control 3 rep)];
注:Ohadi與Sarakhs分別代表Pistacia vera的不同品系,Ohadi被認為是馴化型,Sarakhs是野生型)。
1.?開(kāi)心果的基因組進(jìn)化
利用Illumina Hiseq 2500平臺組裝了569.12 Mb的開(kāi)心果基因組草圖,Contig N50為20.69kb和Scaffold N50為768.39 Kb。為了提高連續性,進(jìn)一步通過(guò)PacBio sequel系統組裝了671 MB的基因組草圖,ContigN50為75.7 Kb,Scaffold N50為949.2 Kb?;蚪M質(zhì)量與先前報道的植物基因組相一致,有助于一些令人信服的數據分析。裝配尺寸略大于估計的基因組尺寸,這可能是與開(kāi)心果的高雜合度(1.72%)有關(guān)。轉座因子占開(kāi)心果基因組的70.7%,其中46.75%為L(cháng)TR(長(cháng)末端重復轉座)。CEGMA分析表明,96.94%的核心蛋白編碼基因被恢復。BUSCO評估表明有94.51%完整的基因模型。
作者首先進(jìn)行了比較基因組研究,以評估該物種的古歷史。利用9個(gè)植物基因組單拷貝家族基因的系統基因組分析表明,開(kāi)心果在58百萬(wàn)年前從柑橘中分離并在105百萬(wàn)年前從毛果楊中分離出來(lái)。4DTV結果表明,開(kāi)心果基因組在其與這些物種的分化之后沒(méi)有經(jīng)歷譜系特異性的全基因組復制。文中還通過(guò)將開(kāi)心果基因組與基礎被子植物無(wú)油樟基因組進(jìn)行共線(xiàn)性分析,表明每個(gè)無(wú)油樟區域最多有三個(gè)開(kāi)心果區域,而每個(gè)開(kāi)心果區域最多有兩個(gè)毛果楊區域(圖1b)。共線(xiàn)性分析支持這樣一個(gè)結論:開(kāi)心果中沒(méi)有發(fā)生譜系特異性基因組復制,但它們與真雙子葉植物中發(fā)生的γ復制相同,而毛果楊經(jīng)歷了譜系特異性基因組復制事件。

為了揭示開(kāi)心果表型(如耐鹽性)的遺傳基礎,利用OrthoMCL通過(guò)識別不同植物之間獨特和共同的基因家族來(lái)研究基因家族的進(jìn)化。開(kāi)心果與擬南芥、柑橘、雷蒙德氏棉、葡萄相比有9735個(gè)共有基因家族,而含有1381個(gè)基因的707個(gè)開(kāi)心果有特基因家族。對這些基因進(jìn)行GO與KEGG富集分析,并都發(fā)現了許多與“防御反應”有關(guān)的基因,其中包括許多包含NB-ARC domain和NBS-LRR domain的基因。這種基因以植物抗病性著(zhù)稱(chēng),對開(kāi)心果的防御反應具有相當重要的意義。
接下來(lái),作者研究了開(kāi)心果基因家族的擴張和收縮(圖1c)。由于很難從基因家族規模的收縮或與未在該參考基因組中成功組裝的基因有關(guān),這里只分析了擴展的基因家族。對擴展基因家族的基因富集分析發(fā)現,它們在代謝類(lèi)別中豐富,如萜類(lèi)、黃酮類(lèi)、倍半萜類(lèi)和生物堿的生物合成?;蚣易宓臄U展發(fā)生在長(cháng)期進(jìn)化之后,并推動(dòng)了黃連木屬和柑橘屬之間的進(jìn)化差異,而不是開(kāi)心果從野外馴化的非常短期的進(jìn)化。因此,我們認為上述基因的擴展可能與野生黃連木中有機化合物的代謝有關(guān)。野生黃連木的植物化學(xué)篩選發(fā)現了許多植物化學(xué)物質(zhì),如生物堿、黃酮、香豆素、甾醇、單寧、萜類(lèi)和倍半萜類(lèi)。
此外,豐富的術(shù)語(yǔ)“氧化還原過(guò)程”包含許多細胞色素P450基因,這些基因編碼參與多種功能復雜代謝途徑的蛋白質(zhì),并在多個(gè)過(guò)程中發(fā)揮重要作用,特別是在應激反應中發(fā)揮作用。在187個(gè)細胞色素P450基因中,我們發(fā)現許多可能具有耐鹽功能。例如,透水性研究發(fā)現,CYP94家族基因表達水平的升高可減輕水稻的茉莉酸反應,增強水稻的耐鹽性。在開(kāi)心果的這些擴張基因家族中,有14個(gè)CYP94基因。大豆中,CYP82A3參與茉莉酸和乙烯信號通路,增強對鹽堿和干旱的抗性,開(kāi)心果擴張基因家族中有20個(gè)CYP82基因成員。毛果楊CYP714A3的異位表達增強了水稻的耐鹽性,開(kāi)心果擴張基因家族中有10個(gè)CYP714A基因。因此,一些細胞色素P450基因可能與開(kāi)心果的耐鹽性有關(guān)。
進(jìn)一步研究開(kāi)心果的耐鹽性潛在遺傳機制,研究者進(jìn)行了鹽度實(shí)驗。開(kāi)心果砧木(P.vera?L.cv.Ohadi)的葉和根在正常條件和鹽度條件下進(jìn)行RNA測序。使用Tophat-Cufflinks-Cuffdiff?pipeline,在鹽水條件下處理的植物與對照之間表現出差異表達,鑒定214和461蛋白質(zhì)編碼基因分別在葉和根組織中(ncontrol = 3, nsalinity = 3, corrected P < 0.05,)?;蚋患治霭l(fā)現許多差異表達基因(31個(gè)基因)參與到“氧化還原進(jìn)程”中(圖2a,b)。像比較基因組分析一樣,該類(lèi)別中的15個(gè)基因是細胞色素P450基因,特別是CYP74A(即AOS),其編碼細胞色素P450 CYP74基因家族的一個(gè)成員,其起到丙二烯氧化物合酶(AOS)的作用。這種酶催化茉莉酸酯合成中的第一步[即茉莉酸(JA)]。AOS中每千堿基外顯子的表達片段(FPKM)值在葉片中從對照中的近0增加到鹽水條件下的2163.75,在根中從對照中的1.87增加到鹽水處理的87.74。研究者還發(fā)現了7個(gè)差異表達的基因(ChiC, TT4, ILL6, MYB108, MYB6, PRB1, and TIFY5A)被富集到“茉莉酸反應”中。以前的研究表明,干旱和高鹽度導致水稻葉片和根部JA含量增加。鹽度處理可以增加濕地物種鳶尾(Iris hexagona)中的內源JA水平。茉莉酸酯激活植物對生物脅迫(即病原體攻擊)和非生物脅迫(即鹽)的反應。在此,用鹽水處理增加了在葉和根中參與茉莉酸反應的這些基因的表達水平(圖2c)。這些基因的表達增加(例如,AOS作為酶催化茉莉酸酯合成中的第一步)應該增加茉莉酮酸酯的合成,因此,它們很可能被開(kāi)心果用于應對鹽脅迫。
差異表達的基因富集到“幾丁質(zhì)結合”,其中四種基因編碼幾丁質(zhì)酶(CHIB, EP3, ChiC, AT2G43590)。植物幾丁質(zhì)酶涉及多種生物系統。植物中的一些幾丁質(zhì)酶是針對環(huán)境脅迫(如高鹽濃度,寒冷和干旱)而表達的,并且可以通過(guò)植物激素如乙烯,茉莉酸和水楊酸來(lái)上調。例如,基因ChiC編碼V類(lèi)幾丁質(zhì)酶,其表達可由茉莉酸和擬南芥鹽度引起的脅迫來(lái)誘導。研究者的轉錄組學(xué)分析表明,編碼幾丁質(zhì)酶的基因和參與JA生物合成途徑的基因可能有助于開(kāi)心果適應鹽水環(huán)境。

為了研究開(kāi)心果的種群歷史和適應性進(jìn)化,研究者對107個(gè)開(kāi)心果基因組進(jìn)行重測序,包括93個(gè)品種和14個(gè)野生開(kāi)心果,平均測序深度為6-8X。作者還重新測序了來(lái)自不同近緣種的35個(gè)基因組,包括P.mutica,P.khinjuk,P.integerrima和P. palaestina。用stringent GATK pipeline,發(fā)現14.77百萬(wàn)個(gè)單基因變異位點(diǎn),其中2.42百萬(wàn)個(gè)在基因區。使用鄰近法和最大似然法的系統發(fā)育分析清楚地分離了5種不同的種群,即?P.vera, P.mutica, P. khinjuk, P. integerrima, and P. palaestina。通過(guò)TreeMix程序在一些物種之間檢測到漸滲的信號,這表明雜交可能在自然界中的不同近親之間發(fā)生,并且與植物中被發(fā)現的普遍雜交一致。然而,從其他開(kāi)心果物種到馴化的開(kāi)心果沒(méi)有檢測到漸滲,這種現象來(lái)源于野生的P. vera(圖3)。

基于重測序數據,研究人員推測了這些物種的有效群體大小的變化,并發(fā)現在 Pleistocene期間發(fā)生了瓶頸事件,且在 ~200 kyr前,有效群體大小增加。系統發(fā)育樹(shù)顯示馴化和野生開(kāi)心果之間的分離(圖4a)。利用δaδi推算野生和馴化開(kāi)心果的分化時(shí)間在 ~8000年前,這與早在公元前6750年就表明開(kāi)心果種子是一種常見(jiàn)的食物這一考古記錄相似。為了深入了解開(kāi)心果種質(zhì)之間的遺傳關(guān)系,研究人員進(jìn)行了兩項經(jīng)典分析:群體結構和主成分分析(圖4b,c)。這些分析清晰的顯示栽培種質(zhì)分為兩個(gè)群。栽培種Group I的LD最高,栽培種Group II和野生開(kāi)心果的LD衰減值相近。Group II包括 Qazvini,Italiaei和Badami
Zarand在內的5種類(lèi)型的個(gè)體,且這些種質(zhì)被記錄為古代具有種子的材料(圖4d)。與系統發(fā)育樹(shù)一致,這三個(gè)品種含有較高比例的野生血統(圖4e),這些結果支持了其兩步馴化的過(guò)程,初步馴化,然后通過(guò)作物育種進(jìn)行改良。

群體核苷酸多態(tài)性θπ分析揭示了馴化型種質(zhì)的核苷酸多態(tài)性低于野生型種質(zhì),通過(guò)分析發(fā)現,栽培種質(zhì)中基因組上的一些區域的多態(tài)性降低,這些區域可能含有受到人工選擇的基因。此外,研究人員鑒定了栽培型和野生型樣品分化水平增加的區域。在馴化和野生的開(kāi)心果之間,在基因組上約有9.2 Mb的區域被鑒定為具有高水平的群體分化。栽培種間遺傳多樣性降低,且超過(guò)95%的閾值。遺傳多樣性減少的區域和群體分化增強的區域在馴化或育種過(guò)程中經(jīng)歷了選擇性清除。共計有665個(gè)基因定位在該區域。研究人員定位了受正向選擇的候選基因,其可能與馴化過(guò)程中重要的表型進(jìn)化相關(guān)。在開(kāi)心果馴化的過(guò)程中,其樹(shù)形大小經(jīng)歷了人工選擇(圖5a)。研究人員發(fā)現了基因SAUR55(圖5b),編碼生長(cháng)素應激蛋白,在植物的生長(cháng)過(guò)程中發(fā)揮重要的作用,其在開(kāi)心果的人工選擇下進(jìn)化而來(lái)。除此之外,基于也和根的轉錄組數據分析結果顯示,馴化種與野生種相比,基因SAUR55表現出了顯著(zhù)增加的表達水平(圖5c)。這些結果與在其它作物(如水稻和小麥)中生長(cháng)素應激性基因的選擇性清除的研究結果一致,并揭示了在作物馴化期間類(lèi)似特征性狀的人工選擇。果實(shí)重量是作物馴化和育種期間最重要的特征之一,包括開(kāi)心果。在栽培種中,品種成分與果實(shí)重量呈正相關(guān)(圖4e)。這支持了一個(gè)結論,在開(kāi)心果中,果實(shí)重量的人工選擇發(fā)生在馴化與人工選擇期間。研究人員指出,基因CYCD7-1在人工選擇的進(jìn)化下,野生種和馴化的栽培種之間具有高度的群體分化特征。該基因編碼D型細胞周期蛋白,控制細胞分裂及種子發(fā)育過(guò)程中的生長(cháng)率。CYCD7-1基因的過(guò)表達包括在胚胎和胚乳中的細胞增殖和細胞增大,其在擬南芥中導致種子過(guò)度生長(cháng)?;?em>CYCD7-1在花粉和早期發(fā)育中顯示特殊表達,但在葉和根中沒(méi)有表達。因此,有希望在未來(lái)的實(shí)驗中比較野生型和馴化型開(kāi)心果在花粉和早起發(fā)育時(shí)期CYCD7-1基因的表達,研究人員提出在CYCD7-1基因上進(jìn)行的人工選擇可能會(huì )改變開(kāi)心果的重量。

本研究為開(kāi)心果的局部適應和馴化提供了遺傳學(xué)基礎。黃連木屬物種基因組序列有助于未來(lái)的研究,以了解沙漠作物農藝和環(huán)境相關(guān)性狀的遺傳基礎。
摘要概述
A high-quality, chromosome-scale Tartary buckwheat genome sequence of 489.3 Mb is assembled. A new buckwheat lineage-specific whole genome duplication is discovered. The reference genome facilitated the identification of many new genes predicted to be involved in rutin biosynthesis and regulation,aluminum stress resistance, and in drought and cold stress responses.
研究背景
苦蕎也叫苦蕎麥(Fagopyrum tataricum)是蓼科蕎麥屬作物,雖然我們習慣認為它屬于麥類(lèi),但其實(shí)他并非禾本科而是蓼科??嗍w性喜陰濕冷涼,多種植于高山地域,一般垂直分布為海拔1200~3500m。所以苦蕎具有很高的抗逆性,尤其是在抗寒和抗干旱方面??嗍w是藥食兩用的作物,苦蕎麥性味苦、平、寒, 有益氣力、續精神、利耳目、降氣寬腸健胃的作用。能降血壓、降血糖、降血脂, 改善微循環(huán)等作用, 又稱(chēng)“三降”食品。其主要藥用成分為蘆丁,該文章也對蘆丁的生物合成進(jìn)行了研究。
測序材料
韃靼蕎麥(Fagopyrum tataricum cv. Pinku1),2n=2X=16;
測序方法
Illumina、BioNano、PacBio、Hi-C、fosmid
研究?jì)热?/span>
1.基因組組裝和注釋
苦蕎通過(guò)K-mer預估基因組大小約為489Mb,流式細胞儀預估為540Mb。共組裝出來(lái)489.3Mb的基因組序列,共8778個(gè)Contigs,Contig N50=550.7kb。通過(guò)Hi-C數據將436.4Mb的序列錨定到8條染色體上(定位比例為89.18%)。然后再通過(guò)光學(xué)圖譜數據進(jìn)行校正。三代數據的準確性通過(guò)二代評估為99.96%,并且在基因區具有更少的錯誤存在。
共預測得到33366個(gè)基因,平均每100Kb具有6.8個(gè)基因。非編碼RNA注釋結果為278 miRNAs, 1,395 tRNAs, 455 rRNAs, and 518 snRNAs。通過(guò)注釋已組裝基因組的50.96%為重復序列,其中LTR的比例占全基因組的38.64,包含Gypsy (30.52%) 和 Copia (5.48%)。

圖1 苦蕎基因組circle圖
2.系統發(fā)育和全基因組復制事件分析
苦蕎與擬南芥、可可、大豆、葡萄、楊樹(shù)、馬鈴薯、番茄以及單子葉的水稻和玉米構建系統發(fā)育進(jìn)化樹(shù),見(jiàn)下圖。此外還進(jìn)行基因家族聚類(lèi)分析,找出共同和特有的基因家族。

圖2 苦蕎系統發(fā)育進(jìn)化樹(shù)
通過(guò)苦蕎與擬南芥、苦蕎與甜菜進(jìn)行分析,通過(guò)Ks計算發(fā)現苦蕎經(jīng)歷了全基因組復制事件,近期是在下圖0.84-0.92之間,而更古老的一次復制發(fā)現在64.42~70.77 Mya。而全基因組復制事件的發(fā)生,也導致了很多與抗逆相關(guān)基因家族的擴張或者保留。這也與后期苦蕎的抗逆性有一定關(guān)系。

圖3 苦蕎全基因組復制事件
3.參與蘆丁合成基因的鑒定
蘆丁的生物合成具有特殊的意義,而苦蕎被認為是這種有益的類(lèi)黃酮的主要食物來(lái)源??喔墒w麥營(yíng)養生物質(zhì)中含有3%的蘆丁。通過(guò)比較基因組以及不同生長(cháng)部位的轉錄組測序,發(fā)現原來(lái)所不知道的全長(cháng)蛋白CHI(FtPinG0002790600)和f3h(FtPinG0006662600)。

圖4 蘆丁生物合成途徑的研究
4.苦蕎抗逆性研究
該研究還發(fā)現苦蕎中存在大量與植物耐鋁、抗旱和耐寒相關(guān)的新基因,其中產(chǎn)物包括一些轉運蛋白以及相關(guān)的轉錄因子。
小編總結
本文研究了苦蕎的基因組測序,除了三代測序還通過(guò)光學(xué)圖譜和Hi-C技術(shù)進(jìn)一步提升基因組的組裝質(zhì)量。通過(guò)比較基因組學(xué)研究明確了苦蕎的系統發(fā)育地位,以及通過(guò)全基因組復制事件的研究發(fā)現了抗逆基因的擴張和保留。其中結合轉錄組測序對蘆丁的生物合成途徑進(jìn)行了研究。
該研究由山西農科院農作物品種資源研究所喬治軍研究員團隊聯(lián)合中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所梁承志研究員團隊及華南農農業(yè)大學(xué)王俊教授團隊共同完成,其中百邁客只參與了其中部分研究,再次祝賀各位老師取得好的成績(jì)。
參考文獻
The Tartary buckwheat genome provides insights into rutin biosynthesis and abiotic stress tolerance.
]]>The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection.
一 ?研究背景

圖1.蕓薹屬禹氏三角(From Wikipedia)
異源四倍體芥菜(AABB)屬于十字花科蕓薹屬,是重要經(jīng)濟作物,主要包括菜用和油用芥菜兩大類(lèi)群,種植范圍較廣,經(jīng)濟價(jià)值較大。菜用芥菜主要分布在中國等東亞國家和地區,油用芥菜主要分布在印度等南亞國家和地區。芥菜是“禹氏三角”中重要的一員,由白菜和黑芥雜交后加倍而來(lái),至少發(fā)生了三次古多倍化事件,因此非常具有研究?jì)r(jià)值。但是由于其為異源多倍體,相關(guān)的全基因組測序工作一直很難開(kāi)展。來(lái)自浙江大學(xué)、北京百邁客等單位的團隊共同合作,利用新的測序技術(shù)(PacBio+BioNano),成功的組裝出高質(zhì)量的芥菜基因組圖譜,為進(jìn)一步改良芥菜的農藝性狀提供了基礎,為多倍體物種遺傳育種提供了新的方向。同時(shí),也從多角度論證了芥菜A亞基因組起源問(wèn)題,揭示了多倍體亞基因組間同源基因表達與選擇機制。
二 ?研究方法
1、組裝
基于文章設計,我們選取菜用芥菜的一個(gè)變種(榨菜),使用二代測序和三代測序相結合的方法進(jìn)行初步組裝,然后利用光學(xué)圖譜進(jìn)行校正,得到了一版高質(zhì)量的芥菜基因組,其中contig N50 由 28Kb 提升到61Kb ,scaffold N50 由710k 提升到1.5Mb.基因組完整性達到85%。另外我們還利用二代測序技術(shù)組裝了一版黑芥的基因組,基因組大小為591Mb,完整度為68%。
然后利用遺傳圖和光學(xué)圖譜對A、B亞基因組進(jìn)行區分,整體掛載效果非常好,A為91.48%,B為72.32%。利用光學(xué)圖譜和遺傳圖譜對基因組進(jìn)行區分,為其他多倍體物種基因組研究提供了參考。
2、基因組注釋情況
在高質(zhì)量的基因組的情況下,我們采用從頭+同源+轉錄組結合的方法在芥菜基因組中獲得了80050個(gè)編碼蛋白的基因,其中有97.8%的基因可以注釋到Nr庫。另外黑芥基因組預測出來(lái)49826個(gè)編碼蛋白的基因,其中94.7%可以注釋到Nr。重復序列部分芥菜A基因組中重復序列比例為44.25%,B為52.37%。芥菜基因組特征情況見(jiàn)下圖:

三 ?研究結果
1、芥菜A亞基因組起源問(wèn)題
芥菜的基因組是異源四倍體(AABB),在“禹氏三角”中由白菜(AA),黑芥(BB)雜交后加倍形成,在演化過(guò)程中變異類(lèi)型非常豐富。問(wèn)題是油用芥菜的AA和菜用芥菜的AA是來(lái)自同一個(gè)亞種,還是來(lái)自多個(gè)亞種呢,這個(gè)問(wèn)題就是A亞基因組的起源問(wèn)題。

如上圖,a中對芥菜A、白菜A、甘藍型油菜A進(jìn)行共線(xiàn)性分析,可以發(fā)現其是高度共線(xiàn)的。
我們對10個(gè)菜用的芥菜、7個(gè)油用的芥菜,5個(gè)甘藍型油菜基因組、27個(gè)白菜基因組(多亞種)進(jìn)行了重測序分析,并繪制如上圖b中的進(jìn)化樹(shù)。從b圖中可以看到芥菜全部聚在一起,沒(méi)有出現分散的情況,說(shuō)明芥菜中A的基因組是來(lái)源于同一個(gè)亞種,屬于單系起源。
C圖中對同源物種和芥菜進(jìn)行了進(jìn)化樹(shù)構建,并計算了芥菜分化的具體時(shí)間為3-5萬(wàn)年。
除了從群體的角度研究了芥菜亞基因組A起源問(wèn)題,還從PCA聚類(lèi)和Fixed SNP角度驗正了單系起源的結論。
2、基因表達的dominance現象
由于芥菜基因組是異源四倍體,也就是說(shuō)基因組中存在兩套非常相似的亞基因組,那么在基因表達的過(guò)程中,位于兩套亞基因組上的等位基因的表達模式是怎么樣的呢,是一起表達,是相互抑制,還是一方占主導?

通過(guò)計算等位基因的表達量,發(fā)現在不同的時(shí)期,不同組織之間,發(fā)現存在dominance基因,存在dominance的基因經(jīng)受的選擇壓力大于Neutral基因(不存在dominance現象,功能非常重要,純化作用較強,不輕易突變),但是小于Subordinate基因(作用不重要,純化作用較小,易丟失)。
3、油用芥菜和菜用芥菜的選擇與分化
通過(guò)菜用和油用芥菜群體進(jìn)行選擇清除分析,發(fā)現dominance的基因被篩選出來(lái)的比例較高,同時(shí)結合轉錄組數據,這部分基因在油用和菜用兩個(gè)群體中差異表達。同時(shí)通過(guò)上面的分析發(fā)現與硫苷,脂類(lèi)代謝顯著(zhù)相關(guān)并且存在dominance的基因組,這些基因在油用菜用群體中有各自獨特基因分型。

四 ?文章亮點(diǎn)
1. 多倍體復雜基因組解決方案:二代+三代+光學(xué),組裝出高質(zhì)量復雜基因組;
2. 多個(gè)角度證據解決芥菜亞基因組A亞基因組單系起源/雜交起源爭論:Asubgenome phylogenetic tree,PCA, polymprphism and fixed SNP;
3. 通過(guò)構建群體模型及貝葉斯方法評估多倍體芥菜形成時(shí)間上下限,為新多倍體物種形成時(shí)間估算提供新方法;
4. 從不同發(fā)育時(shí)期,不同組織,不同處理條件,不同進(jìn)化時(shí)期多個(gè)角度系統分析異源多倍體dominance 現象;
5. 通過(guò)油用菜用群體選擇角度識別vegetable- and oil- use B. juncea 分化選擇區域,發(fā)現與硫苷,脂類(lèi)代謝顯著(zhù)相關(guān)并且存在dominance的基因組,這些基因在油用菜用群體中有各自獨特基因分型;
6. 首次找到dominance gene 與潛在農藝性狀選擇相關(guān)性的證據,為多倍體物種遺傳育種提供了新的方向和基因候選材料。
五 ?摘 要
The Brassica genus encompasses three diploid and three allopolyploid genomes, but a clear understanding of the evolution of agriculturally important traits via polyploidy is lacking. We assembled an allopolyploid Brassica juncea genome by shotgun and single-molecule reads integrated to genomic and genetic maps. We discovered that the A subgenomes of B. juncea and Brassica napus each had independent origins. Results suggested that A subgenomes of B. juncea were of monophyletic origin and evolved into vegetable-use and oil-use subvarieties. Homoeolog expression dominance occurs between subgenomes of allopolyploid B. juncea, in which differentially expressed genes display more selection potential than neutral genes. Homoeolog expression dominance in B. juncea has facilitated selection of glucosinolate and lipid metabolism genes in subvarieties used as vegetables and for oil production. These homoeolog expression dominance relationships among Brassicaceae genomes have contributed to selection response, predicting the directional effects of selection in a polyploid crop genome.
六 ?參考文獻
[1] The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection.
]]>
2016年8月15日,《自然-遺傳學(xué)》(Nature Genetics)雜志在線(xiàn)發(fā)表了中國農業(yè)科學(xué)院蔬菜花卉研究所王曉武研究組和北京百邁客生物科技有限公司合作的研究成果。借助重測序技術(shù)以及蕓薹屬祖先的染色體核型(translocation Proto-Calepineae Karyotype,tPCK),他們對蕓薹和甘藍的形態(tài)型的平行和趨同進(jìn)化現象進(jìn)行了深入研究,該研究最主要的成果是國際上首次發(fā)現全基因組三倍化事件是導致蕓薹類(lèi)物種的形態(tài)型多樣化以及趨同馴化的原因;此外挖掘出兩個(gè)重要的商業(yè)性狀——葉片結球性狀和塊莖形態(tài)性狀的重要調控基因,為今后的分子育種工作提供遺傳基礎。
蕓薹屬包括三個(gè)二倍體物種:蕓薹(Brassica rapa)、黑芥(B. nigra)和甘藍(B. oleracea),這三個(gè)基本種經(jīng)過(guò)兩兩雜交又產(chǎn)生了四倍體的歐洲油菜(B. napus)、非洲油菜(B. carinata)和芥菜(B. juncea),這就是“禹氏三角”。隨著(zhù)人工馴化和持續的育種工作,這些物種產(chǎn)生了高度多樣化的形態(tài)型,例如結成球狀的葉片、膨大的塊莖(或根部、頂芽、腋芽等)。有意思的是,某些物種的形態(tài)型,盡管是在不同的地區獨立培育而成,但卻表現出相似的表型特征,這便是趨同馴化的結果。

圖1.蕓薹屬禹氏三角(From Wikipedia)
導致蕓薹屬種內形態(tài)型多樣化以及種間趨同馴化的機制是什么?這是科學(xué)家們一直在探討的問(wèn)題。然而蕓薹屬的起源進(jìn)化歷史也是相當的“波折”——蕓薹屬的祖先是一個(gè)具有7條染色體的二倍體,在約1200萬(wàn)年前發(fā)生過(guò)一次全基因組三倍化事件,該事件導致一個(gè)具有42條染色體的古六倍體物種出現。隨后這個(gè)六倍體物種的基因組發(fā)生了廣泛的二倍體化——有時(shí)候一條染色體的一段區域轉移到另一條染色體上,有時(shí)候某個(gè)區域會(huì )丟失,更有時(shí)候連整條染色體都會(huì )消失。最終六倍體的又變回了二倍體的“模樣”,形成了現在的蕓薹屬二倍體物種分類(lèi)格局?!绱藦碗s的進(jìn)化歷史自然帶來(lái)不少的阻礙,所幸的是,借助于不斷發(fā)展的高通量測序技術(shù)和生物信息分析方法,科學(xué)家們能夠從基因組層面解析物種的進(jìn)化機制成為可能。
在這項研究中,王曉武研究組選擇不同形態(tài)型的蕓薹199株和甘藍119株作為實(shí)驗材料,這些材料包括不同地理區域分布的13個(gè)蕓薹及9個(gè)甘藍亞群,其中涉及葉片結球型(56份大白菜,45份卷心菜),以及塊莖膨大型(54份大頭菜及19份苤藍)。應用的是Illumina?Hiseq2000測序平臺,350bp插入片段文庫,每個(gè)個(gè)體的平均測序深度均大于8X。

圖2. 系統發(fā)育樹(shù)構建
為了調查不同形態(tài)的品種的馴化歷史,應用兩個(gè)群體共有的6707個(gè)SNP位點(diǎn)構建系統發(fā)育樹(shù),如圖2所示,蕓薹可以分成6個(gè)組,其中蕪菁(turnip)和野油菜(sarsons)等位于系統發(fā)育樹(shù)基部;大白菜(Chinese cabbage)位于最遠端,表明馴化歷史最短。甘藍群體可以劃分成7個(gè)組,其中卷心菜(cabbage)位于最遠端。從進(jìn)化樹(shù)不難看出,大白菜和卷心菜雖然具有相似的葉片結球特征,卻是不同的祖先經(jīng)過(guò)平行或趨同馴化產(chǎn)生的;相類(lèi)似地,蕪菁和苤藍具有相似的塊莖膨大特征,也同樣是平行或趨同馴化的結果。
分別對蕓薹和甘藍種內結球和不結球的群體進(jìn)行分析——主要通過(guò)ROD和PiHS兩個(gè)指數,共同篩選具有正選擇信號的基因區域。結果顯示蕓薹中有20個(gè)區域是ROD和PiHS共同定位到的,甘藍中是18個(gè)。進(jìn)一步對這些區域進(jìn)行基因注釋和富集,發(fā)現4個(gè)與植物激素應答相關(guān)的GO類(lèi)別,這些植物激素對葉片形狀和極性非常重要;此外還發(fā)現影響葉片弧度的一些基因同樣受到正選擇。
進(jìn)一步檢測古六倍體的亞基因組對蕓薹和甘藍結球性狀的平行或趨同進(jìn)化的影響,作者將兩個(gè)物種的基因組打碎成基因單元,再根據已知的祖先染色體核型,將上述基因單元重排和串接,分別構建出蕓薹的三個(gè)亞基因組一致序列和甘藍的三個(gè)亞基因組一致序列。重新進(jìn)行PiHS分析后,發(fā)現蕓薹的不同亞基因組之間存在4個(gè)平行選擇信號的區域,甘藍存在4個(gè);同時(shí)蕓薹和甘藍的相同亞基因組之間存在著(zhù)15個(gè)受到趨同選擇的區域。
隨后針對塊莖膨大性狀進(jìn)行的研究亦獲得了類(lèi)似的結果。由此證明,蕓薹族祖先的全基因組三倍化事件可能對蕓薹屬性狀平行或趨同進(jìn)化的造成深遠的影響,這一發(fā)現在國際上尚屬首次。

圖3. ?蕓薹(左)和甘藍(右)亞基因組的選擇信號檢測
參考文獻
ChengF.?et?al.?(2016).?“Subgenome?parallel?selection?is?associated?with?morphotype?diversification?and?convergent?crop?domestication?in?Brassica?rapa?and?Brassica?oleracea.”?Nat?Genet?advance?online?publication.
]]>