生物信息學(xué)的發(fā)展和基因組學(xué)的發(fā)展是緊密聯(lián)系的,基因組學(xué)更偏向于科學(xué),生物信息學(xué)更偏向于技術(shù),兩者緊密結合共同發(fā)展。生物信息學(xué)和基因組學(xué)的發(fā)展又和 測序技術(shù)的發(fā)展緊密聯(lián)系,特別是NGS技術(shù)的出現,測序成本大幅下降,完成一個(gè)人類(lèi)基因組的測序從最初的30億美元下降到如今的1000美元,從而大大促 進(jìn)了這兩個(gè)學(xué)科的發(fā)展。我國的組學(xué)方面的研究和應用是走在世界前列的,這與幾代科學(xué)家的努力是分不開(kāi) 的。
我很有幸在基因組學(xué)在國內剛起步的時(shí)候就進(jìn)入這個(gè)行業(yè),畢業(yè)時(shí)“三證齊全”(生命科學(xué)的學(xué)位證、計算機四級證和英語(yǔ)六級證),在2001年進(jìn)入了生物信息行業(yè)。這些年也見(jiàn)證了這個(gè)行業(yè)的發(fā)展。

生物信息學(xué)和生物大數據發(fā)展的歷程
我把生物信息工具開(kāi)發(fā)模式的發(fā)展分成三個(gè)階段:第一個(gè)階段:genome center唱獨角戲。在這個(gè)方向剛興起的初期,人才儲備較少,產(chǎn)出數據的成本也很大,只有少量的國家支持的genome center可以從事這方面的系統研究,做生物信息開(kāi)發(fā)的目的也比較明確,就是為了完成基因組中心所承擔的一些重大國家科研課題,對生物信息開(kāi)發(fā)的要求是 “quick and dirty”,很少考慮程序的重復利用,做好當前數據的分析即可,這也是在當時(shí)歷史環(huán)境下的一種必然,畢竟有太多山頭要打,沒(méi)有時(shí)間做打掃戰場(chǎng)的事情。第 二個(gè)階段:NGS技術(shù)的出現和基因科技服務(wù)公司的崛起。當很多科學(xué)家看到了有那么多空白的山頭待開(kāi)發(fā),同時(shí)數據產(chǎn)出的成本也大幅降低情況下,科學(xué)家們對組 學(xué)研究都躍躍欲試,科技服務(wù)的市場(chǎng)需求就出現了,同時(shí)經(jīng)過(guò)多年的人才儲備,也有了一定數量的技術(shù)人員,為科技服務(wù)公司的出現打下了人的基礎。兩者一拍即 合,科技服務(wù)行業(yè)蓬勃發(fā)展。這個(gè)階段生物信息開(kāi)發(fā)注重的是“pipeline”,這樣能提高服務(wù)的效率,讓公司能更好的發(fā)展。第三個(gè)階段:大數據的積累和 豐富多樣的個(gè)性化分析需求。隨著(zhù)NGS技術(shù)的不斷發(fā)展,測序成本不斷降低,數據積累也越來(lái)越快,同時(shí)隨著(zhù)科學(xué)家對數據理解的深入,大大開(kāi)拓了科學(xué)家的思 路,各種個(gè)性化的數據分析想法大量涌出腦海,“personalized”成為了這個(gè)階段的生物信息開(kāi)發(fā)要滿(mǎn)足的關(guān)鍵需求。
在進(jìn)入第三個(gè)階段后,隨著(zhù)海量數據的產(chǎn)出和大量個(gè)性化分析需求的出現,原有的“quick and dirty”和“pipeline”模式的生物信息開(kāi)發(fā)就體現的比較低效,科學(xué)家們?yōu)榱说玫絺€(gè)性化分析的結果往往要付出很大的資金投入、溝通成本和學(xué)習成 本。要讓科學(xué)家更好的關(guān)注科學(xué),讓工程師更多的關(guān)注技術(shù)開(kāi)發(fā),讓工程師們不重復開(kāi)發(fā),生物云平臺是優(yōu)化生物信息生態(tài)系統的一個(gè)有效方式,也是生物信息未來(lái) 發(fā)展的趨勢。我們已經(jīng)開(kāi)始進(jìn)入生物信息的云計算時(shí)代。
生物云在生態(tài)系統中的定位和作用
生物云的生態(tài)系統包括哪些人及其之間的關(guān)系?隨著(zhù)測序成本的大幅下降,手頭有基因大數據的科學(xué)家越來(lái)越多,圍繞著(zhù)大數據挖掘的從業(yè)人員也越來(lái)越多,一個(gè)生 物大數據管理和挖掘的生態(tài)系統正在形成。在這個(gè)生態(tài)系統中,包括以下幾方面的人員:生命科學(xué)或醫學(xué)科學(xué)家,生物信息科學(xué)家,科研機構的生物信息技術(shù)工程 師,科技服務(wù)公司的生物信息技術(shù)工程師,系統軟件和硬件供應商。在這個(gè)生態(tài)系統中,各自有著(zhù)不同的定位。生命科學(xué)或醫學(xué)科學(xué)家,關(guān)心科學(xué)問(wèn)題,對生物信息 工具本身不是很感興趣,能解決他們的科學(xué)問(wèn)題的,就拿過(guò)來(lái)用。生物信息科學(xué)家,注重分析方法的創(chuàng )新,提高分析方法的效率和√確度,關(guān)心方法本身的專(zhuān)業(yè)性, 對于用戶(hù)體驗層面思考較少??蒲袡C構的生物信息技術(shù)工程師,具體分析課題組PI的項目分析,基本是“quick and dirty”模式,追求項目的效率,不太關(guān)心開(kāi)發(fā)工具的重復利用??萍挤?wù)公司生物信息工程師,往往負責某研究方向的分析,“pipeline”模式居 多,關(guān)心分析的自動(dòng)化程度,以能處理更多的項目。對于個(gè)性化分析的提煉有一定的意愿。系統軟件和硬件供應商,包括測序相關(guān)和計算相關(guān),更多是想提高硬件的 使用效率和銷(xiāo)量。在這個(gè)生態(tài)系統里,大家根據自己的特點(diǎn)會(huì )有不同的形式來(lái)處理生物大數據挖掘和管理的問(wèn)題。對于較大的課題組來(lái)說(shuō),即有生命科學(xué)或者醫學(xué)領(lǐng) 域的科學(xué)家,又有生物信息科學(xué)家和工程師,往往會(huì )選擇自建生物信息分析硬件平臺,自成系統的進(jìn)行數據分析。對于沒(méi)有生物信息背景人員的課題組,會(huì )考慮和有 生物信息背景的科學(xué)家進(jìn)行科研項目合作,或者和科技服務(wù)公司進(jìn)行科研外包合作。
生態(tài)系統目前存在的問(wèn)題?目前的這種合作形式存在較大的問(wèn)題:1、海量的基因大數據放在數據庫中,科學(xué)家不方便拿到符合自己需求的整合數據庫和分析工具, 分導致大量的基因數據沉睡在哪里,不能很好的挖掘出其中的價(jià)值2、生物信息工程師的重復開(kāi)發(fā)嚴重,浪費了工程師大量經(jīng)歷,導致整體的開(kāi)發(fā)效率低下。目前從 事生物信息開(kāi)發(fā)的工程師也有一定的數量,但開(kāi)發(fā)產(chǎn)出卻比較有限,很多工程師從業(yè)了好幾年時(shí)間都沒(méi)有開(kāi)發(fā)一個(gè)標志性的工具,主要就是掉到重復開(kāi)發(fā)的漩渦里 了,去年開(kāi)發(fā)過(guò)的內容,今年再重復開(kāi)發(fā)一遍,明年再重復開(kāi)發(fā)一遍,沒(méi)有系統的規劃和積累。3、生物信息工程師開(kāi)發(fā)的工具往往只能自己使用。在現有的評價(jià)體 系里面,一個(gè)生物信息工程師如果要證明自己的水平,往往需要發(fā)表學(xué)術(shù)論文來(lái)證明。從論文的角度比較關(guān)注技術(shù)創(chuàng )新和理論創(chuàng )新,這樣就導致了,工程師往往對技 術(shù)創(chuàng )新本身感興趣,不注重用戶(hù)需求和體驗,導致開(kāi)發(fā)的工具科學(xué)家們無(wú)法方便的上手使用。4、生物信息分析能力的培養和評價(jià)體系不夠完善,基本靠自學(xué),開(kāi)發(fā) 人員水平不容易評定,魚(yú)龍混雜。5、工程師開(kāi)發(fā)的工具很多,但缺少渠道分享自己的分析工具,主要是生物信息工具無(wú)法獨立傳播,需要部署在服務(wù)器上,對于大 多數科學(xué)家來(lái)說(shuō),拿到一個(gè)分析工具后,要想使用需要配備各種硬件和系統人員,挑戰較大,所以需要有更簡(jiǎn)單的發(fā)布和使用這些工具的渠道??偨Y起來(lái)就是,生物 信息分析工具的開(kāi)發(fā)和生物數據的積累各自為戰,缺少連接,缺少分析工具共享、數據共享和經(jīng)驗共享的平臺,從而大大影響了整體生物大數據挖掘和管理生態(tài)系統 的效率。
生物云(BioCloud)是解決這一系列問(wèn)題的一種有效手段?;ヂ?lián)網(wǎng)技術(shù)的發(fā)展,特別是云技術(shù)的發(fā)展為生物大數據的管理和挖掘提供了更好的技術(shù)支撐。今 天我們處在信息發(fā)展的第三平臺,所謂第三平臺,指的是以移動(dòng)設備和應用為核心,以云計算,移動(dòng)網(wǎng)絡(luò ),大數據分析,社交網(wǎng)絡(luò )技術(shù)為依托的新格局。此前,IT 市場(chǎng)已經(jīng)經(jīng)歷了兩個(gè)平臺,分別是20世紀60年代開(kāi)始的以主機和終端為主的第一代平臺和80年代開(kāi)始的以PC為核心,以局域網(wǎng)、服務(wù)器、互聯(lián)網(wǎng)為依托的第 二平臺。從第一平臺到第三平臺,面向的用戶(hù)數更多,和人的距離也更近,每一個(gè)獨立的人,都有可能變成第三平臺里的用戶(hù)或者說(shuō)是企業(yè)的客戶(hù)。因此,對于IT 服務(wù)供應商而言,也意味著(zhù)更多的機遇。在信息發(fā)展的今天,如何圍繞云計算、移動(dòng)設備、大數據分析,社交來(lái)促進(jìn)基因科學(xué)領(lǐng)域的發(fā)展。生物云平臺是互聯(lián)互通, 共享的平臺,生物云時(shí)代的到來(lái)是歷史發(fā)展的必然和趨勢。
生物云的出現,能大大優(yōu)化整個(gè)生態(tài)圈,提高科研協(xié)作的效率。生物云既屬于科學(xué)家也屬于工程師,科學(xué)家在這里能管理和挖掘好自己的數據,工程師在這里能發(fā)布 自己的工具對接用戶(hù),既能改進(jìn)科學(xué)家的科研效率,也能改進(jìn)工程師的開(kāi)發(fā)效率和傳播效率,是現有生態(tài)系統的革命性的補充和完善。而且大家都不再需要為了底層 復雜的IT計算資源,并行化計算,系統運維等問(wèn)題擔心。
百邁客生物云平臺介紹
百邁客云從2014年5月開(kāi)始開(kāi)放試用到2015年10月份正式商用。對于廣大的科研用戶(hù)而言,百邁客生物云是一個(gè)完 整的交鑰匙(Turn-Key)解決方案,用戶(hù)只需要開(kāi)通云平臺賬號,就有了屬于自己的生物信息分析平臺,科學(xué)家們可以利用這個(gè)平臺進(jìn)行生物信息的學(xué)習, 培訓,科研項目的分析以及生物信息軟件的開(kāi)發(fā)。使得自己的實(shí)驗室以較小的成本就能獲得和別的實(shí)驗室投資幾百萬(wàn)平臺一樣的分析能力。而且這個(gè)平臺具有很好的 彈性,無(wú)需維護,可以按需購買(mǎi)和使用。
對生物信息開(kāi)發(fā)者而言,百邁客云提供了集成化的環(huán)境和友好的API,開(kāi)發(fā)者可以將自身開(kāi)發(fā)的軟件發(fā)布到云平臺。對科技服務(wù)供應商而言,百邁客云平臺是一個(gè) 很好的推廣與應用平臺。對科研院所而言,百邁客云平臺是一個(gè)集科研與教學(xué)為一身的平臺,能大大提高科研成果的產(chǎn)業(yè)轉化。對于百邁客企業(yè)自身而言,云平臺的 自主創(chuàng )新之路顯得水到渠成,百邁客從科技服務(wù)起步,6年多的成長(cháng)之路,積累了上萬(wàn)個(gè)測序項目經(jīng)驗,同時(shí)有龐大的數據產(chǎn)出,這些真實(shí)有效的大數據背后蘊藏著(zhù) 無(wú)限的可能,面對客戶(hù)、面對大數據、面對生態(tài)系統中的問(wèn)題,生物云平臺開(kāi)發(fā)有利用價(jià)值的工具,整合測序積累的大數據,研發(fā)兩者之間的高度匹配規律,此時(shí) 呈現給用戶(hù)的是一款好用的生物云平臺。
百邁客云使得生物信息的分析對生物學(xué)家,醫學(xué)研究者變得透明,可重復,這些對于科研來(lái)說(shuō)是必不可少的。同時(shí),百邁客云能大大節省成本,用同樣的經(jīng)費能做更 多的樣品測序,完成更多的數據分析和解讀。而且,百邁客云使得測序后的數據“活”起來(lái),在云平臺進(jìn)行數據的共享,管理和分析更加方便。未來(lái),百邁客云將在 科研協(xié)作上為用戶(hù)提供更多的便利。
百邁客云注重創(chuàng )新和引入人才,我們沒(méi)有簡(jiǎn)單的抄襲國外的同類(lèi)產(chǎn)品,立志做全球基因大數據的挖掘,管理和科研協(xié)作整合平臺的品牌。百邁客云創(chuàng )新性的引入 了可讀化報告的自動(dòng)生成和個(gè)性化數據的分析。公共數據和文章在后臺與NCBI同步,更加方便用戶(hù)對文章,數據的共享和使用。百邁客云從一開(kāi)始就是自建數據 中心,使得所有的系統和軟件更加可控和可以針對性的進(jìn)行優(yōu)化,未來(lái)將支持主流的公有云,使得百邁客云的擴展性和靈活性得到更好的保障。此外,百邁客云采用 訂閱的方式進(jìn)行銷(xiāo)售,更加方便用戶(hù)的預算和更多的使用。
百邁客云的團隊,是由一批來(lái)自海內外的專(zhuān)家和學(xué)者組成的。核心管理團隊來(lái)自VMware,Microsoft,華大基因。首席技術(shù)官是美籍華人,在硅谷有 近20年的開(kāi)發(fā)管理經(jīng)驗。產(chǎn)品經(jīng)理曾在英國留學(xué),一直擔任一線(xiàn)的生物信息學(xué)研究。還有很多在生物信息,人工智能,Spark方面的開(kāi)發(fā)人員。同時(shí)百邁 客云聘請了近20位的科研顧問(wèn)指導產(chǎn)品的發(fā)展方向。
對用戶(hù)而言何為高效
在第一點(diǎn)中提到,科學(xué)家們?yōu)榱说玫絺€(gè)性化分析的結果往往要付出很大的資金投入、溝通成本和學(xué)習成本。從近些年的行業(yè)發(fā)展進(jìn)程中發(fā)現,基因+云計算的成功融合帶來(lái)了轉變,不管是傳統的生命科學(xué)領(lǐng)域還是現在精準醫療、人工智能、基因測序等產(chǎn)業(yè)中任何一方面的發(fā)展背后都需要海量數據能力的支持。
記得剛入行的時(shí)候就曾有科學(xué)家預言,21世紀是生物學(xué)世紀,假如過(guò)去生命科學(xué)曾得益于引入物理學(xué)、化學(xué)和數學(xué)等學(xué)科的概念、方法與技術(shù)而得到長(cháng)足的發(fā)展, 那么,現在生命科學(xué)將以特有的方式“云計算”向自然科學(xué)及計算機科學(xué)致敬,但那個(gè)時(shí)候,也就短短的十幾年時(shí)間科學(xué)家們還未能預言出基因+云計算的理念,產(chǎn) 業(yè)發(fā)展之快,可見(jiàn)一斑。發(fā)展之快的另一原因我想還有基于云平臺的業(yè)務(wù)價(jià)值+需求,隨著(zhù)測序成本的降低,大量數據的涌出快速推進(jìn)了云平臺的發(fā)展,對于多數企 業(yè)而言,挑戰與機遇大都并行而來(lái),2014年對關(guān)于開(kāi)展高通量基因測序技術(shù)臨床應用政策的重新開(kāi)閘,展現了國家對基因產(chǎn)業(yè)的支持態(tài)度,也就是在這個(gè)時(shí)段, 百邁客的云平臺測試版正式上線(xiàn),在生物信息工具開(kāi)發(fā)模式的第一和第二個(gè)階段,對于科研工作者來(lái)說(shuō),如果研究某個(gè)物種或疾病,都要各處翻閱大量文獻比對大量 基因數據,而且研究信息不夠集中散落在各個(gè)地方,甚至還需要學(xué)會(huì )很多種分析工具,這勢必占據了科研道路上大部分時(shí)間,云平臺的業(yè)務(wù)需求就顯得尤為重要,科 研工作者可能以前要花掉幾個(gè)月甚至更長(cháng)的時(shí)間完成的工作,如果采用云平臺處理,使用工具一臺個(gè)人電腦即可,再花上品一杯茶的時(shí)間就可以得到相應的數據分析 結果。時(shí)間成本效率的大大提高勢必會(huì )提升研究經(jīng)費使用率,探索中也為科研體系資金的良性運轉帶來(lái)些許的改變。整體而言,用戶(hù)更加需要一個(gè)平臺,能幫助其了 解特定研究領(lǐng)域的發(fā)展趨勢,找到所需的論文和可用的數據,更加方便的進(jìn)行科研思路的交流,數據分析的可視化解讀和科研的協(xié)作。大大縮短過(guò)去需數月時(shí)間的科 研工作到一周左右,大大提高行業(yè)的數據整合和數據使用率。大數據的管理和挖掘,這也正是百邁客云努力的方向。
縱觀(guān)歷史與經(jīng)濟發(fā)展歷程,任何行業(yè)都經(jīng)歷著(zhù)興衰更替是一種恒定不變的規律,生命科學(xué)與計算機科學(xué)(云計算,大數據分析,機器學(xué)習)高度的雙向滲透和綜合承 載著(zhù)研究技術(shù)和手段的革新使命,且促使生命科學(xué)向更高層的研究領(lǐng)域突破,“大生態(tài)、大環(huán)境”不再遙遠!鄭洪坤:生物云讓中國基因大數據管理和挖掘生態(tài)系統 更加高效


京公網(wǎng)安備 11011302003368號