WGCNA簡(jiǎn)介
WGCNA(Weighted Gene Co-Expression Network Analysis, 加權基因共表達網(wǎng)絡(luò )分析),是用來(lái)描述不同樣品之間基因關(guān)聯(lián)模式的系統生物學(xué)方法??设b定表達模式相似的基因集合(module),解析基因集合與樣品表型之間的聯(lián)系,繪制基因集合中基因之間的調控網(wǎng)絡(luò )并鑒定關(guān)鍵調控基因。要了解 WGCNA, 首先需要理解什么是基因共表達網(wǎng)絡(luò )。我們定義每個(gè)節點(diǎn)為一個(gè)基因,在不同樣本中存在表達共性的基因處于同一個(gè)基因網(wǎng)絡(luò ),而基因之間的共表達關(guān)系一般由它們之間的表達相關(guān)系數衡量。WGCNA 算法首先假定基因網(wǎng)絡(luò )服從無(wú)尺度分布,并定義基因共表達相關(guān)矩陣、基因網(wǎng)絡(luò )形成的鄰接函數,然后計算不同節點(diǎn)的相異系數,并據此構建分層聚類(lèi)樹(shù)(hierarchical clustering tree),該聚類(lèi)樹(shù)的不同分支代表不同的基因模塊(module),模塊基因共表達程度高,而分屬不同模塊的基因共表達程度低。最后探索模塊與特定表型或疾病的關(guān)聯(lián)關(guān)系,最終達到鑒定基因網(wǎng)絡(luò )的目的。
結果說(shuō)明
1. 基因共表達網(wǎng)絡(luò )熱圖分析
WGCNA的核心步驟其實(shí)就是通過(guò)對TOM矩陣進(jìn)行分層聚類(lèi),TOM (Topological overlap matrix)即為把鄰接矩陣轉換為拓撲重疊矩陣,以降低噪音和假相關(guān),獲得的新距離矩陣,可以用來(lái)計算基因之間關(guān)聯(lián)程度?;赥OM矩陣,圖A中的行和列均代表基因,灰色模塊為無(wú)法分配到初級模塊中的基因,樹(shù)枝的頂端為核心基因,顏色越深代表TOM值越高。熱圖中方塊的顏色越深(紅)表示共表達相關(guān)性越高,越淺(黃)表示相關(guān)性越弱。

2. 模塊間相關(guān)性熱圖
下圖展示模塊與模塊間的相關(guān)性。橫軸縱軸分別代表不同的模塊,相關(guān)性越弱則呈現藍色,相關(guān)性越強則呈現紅色。

3. 模塊與性狀間的熱圖
模塊與性狀相關(guān)性熱圖:下圖展示模塊與給定性狀的相關(guān)系熱圖。某一性狀與某一模塊的相關(guān)性越接近 1 的絕對值,很可能此性狀與模塊的基因功能相關(guān)。橫軸代表著(zhù)性狀,縱軸代表著(zhù)模塊(下圖中我們沒(méi)有選擇性狀,所以展示的是樣品的名稱(chēng))。

4.基因表達量的樣本系統聚類(lèi)樹(shù)
基于基因表達量的樣本系統聚類(lèi)樹(shù): 在聚類(lèi)中歐氏距離求兩點(diǎn)的距離,聚類(lèi)中用類(lèi)平均法(average)計算集合之間的距離。同一枝上的樣本具有更高的相似性。

5.樣本系統聚類(lèi)樹(shù)及相關(guān)性狀熱圖
在基因表達量的樣本系統聚類(lèi)樹(shù)的基礎上我們添加了熱圖,樣本與性狀之間的相關(guān)性越高熱圖中模塊顏色也會(huì )越深。例如我們將熱圖左邊的T01看作是性狀標簽,它與分支樣本TP01的熱圖模塊呈現紅色,說(shuō)明性狀T01與樣本T01的相關(guān)性非常高。

6.基因的系統樹(shù)圖及性狀相關(guān)性熱圖
基因的系統樹(shù)圖及性狀相關(guān)性熱圖主要分為三個(gè)部分:第一個(gè)部分為基因聚類(lèi)繪制的聚類(lèi)樹(shù),分枝代表基因;第二部分為基因聚類(lèi)樹(shù)根據不同的聚類(lèi)對應到的不同模塊;第三部分為性狀的熱圖,如圖中T01~T06為性狀,對應熱圖中的顏色越深,說(shuō)明該模塊中的基因與該性狀的相關(guān)性越高。

7.樣品 PCA 分析二/三維圖
PCA分析橫坐標代表著(zhù)第一主成分,縱坐標代表第二主成分,可以根據圖看出在第一主成分方向上樣本的距離越近,說(shuō)明它們的主成分越相近,相關(guān)性越高。


8.基因網(wǎng)絡(luò )模塊
基因網(wǎng)絡(luò )模塊主要分為三個(gè)部分:第一部分為基因的聚類(lèi)樹(shù);第二部分為根據基因聚類(lèi)樹(shù)劃分的不同模塊;第三部分為根據第二部分模塊進(jìn)行了矯正,最后結果為校正后的模塊。

9.模塊COG/KEGG/GO二級分類(lèi)圖
將每一個(gè)模塊中的基因繪制了跟它功能相關(guān)的COG/KEGG/GO分類(lèi)富集圖。
在COG富集分析中橫軸代表功能分類(lèi),縱軸代表基因頻數。
在GO富集分析中橫軸代表GO term,左側縱軸代表基因占比,右側為基因的數目。
在KEGG富集中縱軸代表路徑,橫軸代表注釋到的基因數目



GSEA介紹
基因集富集分析(GSEA: Gene Set Enrichment Analysis),可以在沒(méi)有先驗經(jīng)驗存在的情況下根據所有基因表達情況對所有基因進(jìn)行富集分析。一般的差異分析通常只集中關(guān)注于一些顯著(zhù)的上調或下調基因,而這會(huì )遺漏部分差異表達不顯著(zhù)卻有重要生物學(xué)意義的基因。而GSEA不會(huì )設置差異閾值,能夠檢測出微弱但是一致的趨勢。其輸入數據包含兩部分:一為已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義);二是表達矩陣 (也可以是排序好的列表)。
軟件會(huì )對基因根據其與表型的關(guān)聯(lián)度從大到小排序,然后判斷基因集內每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內基因的協(xié)同變化對表型變化的影響。
結果說(shuō)明
百邁客中的GSEA分析采用KEGG通路以及GO的BP、CC、MF分支的基因集作為感興趣的基因集合,以每個(gè)差異分組的log2FC作為背景基因集的打分來(lái)分析感興趣基因集合的富集情況,最后控制pvalue<0.001,FDR 圖片

GSEA計算中幾個(gè)關(guān)鍵概念
1、計算富集得分 (ES, enrichment score)。ES反應基因集成員(差異基因)在排序總基因列表的兩端富集的程度。計算方式是,從總基因集的第一個(gè)基因開(kāi)始,計算一個(gè)累計統計值。當遇到一個(gè)落在差異基因里面,則增加統計值。遇到一個(gè)不在差異基因里面,則降低統計值。
2、每一步統計值增加或減少的幅度與基因的表達變化程度(更嚴格的是與基因和表型的關(guān)聯(lián)度,可能是fold-change,也可能是pearson corelation值,后面有介紹幾種不同的計算方式)是相關(guān)的,可以是線(xiàn)性相關(guān),也可以是指數相關(guān) (具體見(jiàn)后面參數選擇)。富集得分ES最后定義為峰值。正值ES表示基因集在列表的頂部富集,負值ES表示基因集在列表的底部富集。
3、評估富集得分(ES)的顯著(zhù)性。通過(guò)基于表型而不改變基因之間關(guān)系的排列檢驗 (permutation test)計算觀(guān)察到的富集得分(ES)出現的可能性。若樣品量少,也可基于基因集做排列檢驗 (permutation test),計算p-value。
4、多重假設檢驗校正。首先對每個(gè)差異基因子集計算得到的ES根據基因集的大小進(jìn)行標準化得到Normalized Enrichment Score (NES),隨后針對NES計算假陽(yáng)性率。(計算NES也有另外一種方法,是計算出的ES除以排列檢驗得到的所有ES的平均值)Leading-edge subset為對富集得分貢獻大的基因成員。
從前文中我們了解到GSEA分析的目的是要判斷差異集基因(基于先驗知識的基因注釋信息,某個(gè)關(guān)注的基因集合)中的基因是隨機分布還是聚集在排序好的總基因集的頂部或底部(這便是富集分析)。與GO富集分析的差異在于GSEA分析不需要指定閾值(p值或FDR)來(lái)篩選差異基因,我們可以在沒(méi)有經(jīng)驗存在的情況下分析我們感興趣的基因集,而這個(gè)基因集不一定是顯著(zhù)差異表達的基因。GSEA分析可以將那些GO/KEGG富集分信息中容易遺漏掉的差異表達不顯著(zhù)卻有著(zhù)重要生物學(xué)意義的基因包含在內。

蛋白網(wǎng)絡(luò )互作
蛋白質(zhì)互作網(wǎng)絡(luò )(protein protein interaction network,PPI network)是由蛋白通過(guò)彼此之間的相互作用構成,來(lái)參與生物信號傳遞、基因表達調節、能量和物質(zhì)代謝及細胞周期調控等生命過(guò)程的各個(gè)環(huán)節。系統分析大量蛋白在生物系統中的相互作用關(guān)系,對了解生物系統中蛋白質(zhì)的工作原理,了解疾病等特殊生理狀態(tài)下生物信號和能量物質(zhì)代謝的反應機制,以及了解蛋白之間的功能聯(lián)系都有重要意義。在生物醫藥領(lǐng)域有助于從系統的角度研究疾病分子機制、發(fā)現新藥靶點(diǎn)等等。
主要主要是基STRING數據庫提取目標基因集的互作關(guān)系。對于數據庫中未收錄信息的物種,使用BLAST軟件,將目的基因與數據庫中的蛋白質(zhì)進(jìn)行序列比對,尋找同源蛋白,根據同源蛋白的互作關(guān)系對構建互作網(wǎng)絡(luò )。構建完成的蛋白質(zhì)互作網(wǎng)絡(luò )可導入Cytoscape軟件進(jìn)行可視化。
圖片
結果說(shuō)明
如圖中的節點(diǎn)為蛋白質(zhì),邊為互作關(guān)系?;プ骶W(wǎng)絡(luò )中節點(diǎn)(node)的大小與此節點(diǎn)的度(degree)成正比,即與此節點(diǎn)相連的邊越多,它的度越大,節點(diǎn)也就越大。節點(diǎn)的顏色與此節點(diǎn)的聚集系數(clustering coefficient)相關(guān),顏色梯度由綠到紅對應聚集系數的值由低到高,聚集系數值越高表示此節點(diǎn)的鄰接點(diǎn)之間的連通性越好。邊(edge)的寬度表示此邊連接的兩個(gè)節點(diǎn)間的互相作用的關(guān)系強弱,互相作用的關(guān)系越強,邊越寬。沒(méi)有的組合代表沒(méi)有互作關(guān)系。
圖片
百邁客轉錄組測序服務(wù)針對不同樣品類(lèi)型采用全面解析mRNA信息的策略,不僅能獲得樣本的轉錄本結構和轉錄豐度信息,還能探究相關(guān)基因結構變異(SNP、CNV、SV、 Indel等)。此外,百邁客云的生物大數據分析平臺,可以深入挖掘差異表達基因,完成多種高級分析內容,例如上文提到的WGCNA、GSEA、PPI等內容,為您提供全面、高效的生物信息分析以及整合利用公共數據庫的解決方案。
歡迎點(diǎn)擊下方按鈕聯(lián)系我們,我們將免費為您設計文章思路方案。


京公網(wǎng)安備 11011302003368號