高通量測序技術(shù)的 飛速發(fā)展與生物數據的爆炸式增長(cháng)推動(dòng)基因組學(xué)研究進(jìn)入了大數據時(shí)代。王向峰教授主要從事植物基因組學(xué)、生物信息學(xué)和系統生物學(xué)方面的研 究。將大數據技術(shù)運用到植物基因調控網(wǎng)絡(luò )構建、重要農藝性狀基因挖掘、基因注釋與功能預測等植物科學(xué)研究中,并最終與育種實(shí)踐相結合,開(kāi)發(fā)分子設計育種模 型、軟件、數據庫,為我國育種家服務(wù),是他的課題組長(cháng)期努力的目標。談到課題初衷時(shí),王向峰說(shuō)道:“人類(lèi)健康與醫學(xué)領(lǐng)域中‘大數據’技術(shù)體系已逐步建立起 來(lái),但‘大數據’如何應用到農業(yè)生產(chǎn)與育種產(chǎn)業(yè)還需要一定時(shí)間的摸索。與‘精準醫療’、‘智慧醫療’的理念類(lèi)似,以大數據技術(shù)為依托的‘√準育種’、‘智 慧農業(yè)’等體系的建立與發(fā)展是全球農業(yè)發(fā)展的未來(lái)方向。相對于小樣本量數據,大數據具有積累速度快(Velocity)、數據規模大(Volume)、數 據類(lèi)型多樣(Variety)這三個(gè)‘V’的特征。大數據并非體現在數據物理存儲上的‘大’,而是體現于信息量的‘全’和數據特征的‘雜’。這對植物學(xué)與 農業(yè)相關(guān)科研機構建立統一的大數據計算構架、大數據存儲與管理方案、大數據挖掘方法與流程提出了巨大的挑戰?!蓖跸蚍暹€談到“科研人員與小型機構本身難以 應付這一挑戰,而云技術(shù)的出現為科研領(lǐng)域提供了解決方案,研究者可以通過(guò)網(wǎng)絡(luò )很方便的按照分析需求從云平臺服務(wù)商那里獲取廉價(jià)且靈活擴展的計算資源,從而 滿(mǎn)足大數據存儲、管理、分析的要求?!?br />

新興技術(shù)云計算
云 計算作為新興的IT技術(shù),允許用戶(hù)通過(guò)網(wǎng)絡(luò )方便的隨時(shí)獲取基礎計算資源,而無(wú)需添置與維護昂貴的用于大數據存儲與分析的高性能計算硬件資源,采用虛擬化技 術(shù)可實(shí)現計算資源的快速擴展,用戶(hù)可以根據自己的存儲分析需求,快速調整資源配置,經(jīng)濟靈活。王向峰談到:“不難想象,未來(lái)基因組學(xué)分析、高通量測序數據 分析、以及各類(lèi)高通量生物學(xué)計算都將通過(guò)云計算與云存儲等制定化服務(wù)及統一的分析流程的方式完成,而無(wú)需科研人員自己構建本地的計算平臺與分析流程?!?br /> 在過(guò)去幾年的時(shí)間里,王向峰的研究團隊致力于對已發(fā)表的公共數據的整合性挖掘以及開(kāi)發(fā)基于機器學(xué)習等現代信息技術(shù)的大數據分析方法。關(guān)于大數據如何服務(wù)于 植物科學(xué)研究,王向峰以基于公共數據庫構建植物基因表達調控網(wǎng)絡(luò )為例進(jìn)行了介紹。傳統方法依據單一數據集中基因的共表達趨勢推測基因間潛在的調控模式,但 這一方法并不能直接說(shuō)明表達模式相似的基因之間是否真實(shí)的存在直接的靶向調控關(guān)系?;诖髷祿木W(wǎng)絡(luò )構建是借助公共數據庫中收錄的所有類(lèi)型的數據為基因間 功能關(guān)聯(lián)與調控關(guān)系尋求證據,多類(lèi)型數據包括:植物中保守順式調控元件序列數據、使用高通量測序技術(shù)得到的Chip-Seq數據、轉錄因子結合位點(diǎn)數據、 基因共表達數據、蛋白質(zhì)互作數據,以及科研文獻記載的知識型數據等。在獲得整合型數據后,采用適合大數據分析的機器學(xué)習的策略構建分類(lèi)模型、回歸模型、決 策模型等手段探索數據間的關(guān)聯(lián)與規律,從而提高預測基因調控關(guān)系與挖掘重要功能基因的z確性。
關(guān)于大數據技術(shù)在√確農業(yè)中的應用前景
王向峰談到:“與國外的大型農業(yè)集團和育種公司相比,我國的農業(yè)生產(chǎn)信息化管理,基因工程與基因組育種等方面十分薄弱;現代農業(yè)必須以數據驅動(dòng) (data-driven)的管理模式為依托,通過(guò)降低農業(yè)生產(chǎn)成本、提高耕作效率、降低農業(yè)生產(chǎn)的風(fēng)險,使農民從農業(yè)種植中獲得更大的利潤?!标P(guān)于植物 基因組學(xué)與生物信息學(xué)研究如何與育種產(chǎn)業(yè)相結合,王向峰繼續談到:“目前植物科學(xué)研究與育種應用研究在一定程度上是脫節的,科研工作者要意識到無(wú)論基因組 測序還是現在的大量的全基因組關(guān)聯(lián)分析(GWAS)研究都是以最終服務(wù)于農業(yè)生產(chǎn)與育種實(shí)踐為目的。農作物育種的本質(zhì)是通過(guò)雜交等手段把優(yōu)良基因進(jìn)行合理 組配而實(shí)現改變作物農藝性狀的目的,大數據技術(shù)正是銜接植物科學(xué)與育種應用的樞紐,將基礎研究產(chǎn)生的生物學(xué)知識與數據轉化為分子設計育種的科學(xué)依據,最終 推動(dòng)傳統的‘經(jīng)驗育種’向高效、定向、低成本的‘√確育種’的轉變?!?br />
“我們一直在國內尋求與具有生物信息學(xué)背景的云平臺提供商開(kāi)展植物科學(xué)與分子育種大數據研究,借助云技術(shù)聯(lián)合開(kāi)展大數據處理、存儲、管理等方案,以及開(kāi)發(fā) 基于機器學(xué)習的大數據分析新方法。百邁客是主要從事農業(yè)高通量基因組測序與生物信息分析的服務(wù)商,率先推出了用于高通量測序與生物信息分析的商業(yè)化云計算 平臺——百邁客生物云平臺。我們將會(huì )把現有大數據分析流程與軟件逐步移植部署到國內這類(lèi)成熟的商業(yè)化生物云計算平臺,為國內植物科學(xué)研究與育種家們提供服 務(wù),全面提高我國植物基因組學(xué)研究與分子育種研究的實(shí)力。最后希望與國內的同仁們共同努力推動(dòng)農業(yè)大數據的發(fā)展,將科學(xué)研究與農業(yè)應用相結合,實(shí)實(shí)在在的 指導農業(yè)生產(chǎn)與育種研究,惠及農民大眾,讓他們的辛勤勞作獲得更大的收益?!蓖跸蚍遄詈罂偨Y到。

王向峰教授簡(jiǎn)介
王向峰,中國農業(yè)大學(xué)教授,博士生導師。2007年獲北京大學(xué)生物信息學(xué)博士學(xué)位,之后在耶魯大學(xué)、哈佛大學(xué)完成博士后階段工作;2010年在美國亞利桑 那大學(xué),農業(yè)與生命科學(xué)學(xué)院任終身制助理教授;2014年作為“青年千人計劃”被人才引進(jìn)到中國農業(yè)大學(xué)工作,現任農學(xué)院作物基因組學(xué)與生物信息學(xué)系系主 任。課題組主要從事植物基因組學(xué)、生物信息學(xué)和系統生物學(xué)等方面的研究,發(fā)表論文三十余篇。
參考文獻:
1、Chuang Ma, MingmingXin, Kenneth A. Feldmann, and XiangfengWang.Machine learning-based differential network analysis: a study of stress-responsive transcriptomes in Arabidopsis.Plant Cell. 2014, 26(2):520-37.
2、Chuang Ma, Hao Helen Zhang, XiangfengWang.Machine learning for Big Data analytics in plants.Trends in Plant Science. 2014, 19(12):798-808.


京公網(wǎng)安備 11011302003368號