生命科學(xué)是當今世界上最熱門(mén)的學(xué)科之一。隨著(zhù)高通量測序技術(shù)的迅猛發(fā)展,科學(xué)界也開(kāi)始越來(lái)越多地應用高通量測序技術(shù)來(lái)解決生物學(xué)問(wèn)題。比如,用從頭測序 (de novo sequencing)獲得該物種的參考序列,為后續研究和分子育種奠定基礎;對有參考序列的物種,進(jìn)行全基因組重測序(whole genome resequencing),在全基因組水平上掃描并檢測突變位點(diǎn),發(fā)現個(gè)體差異的分子基礎。在轉錄組水平上進(jìn)行全轉錄組測序(whole transcriptome resequencing),從而開(kāi)展差異表達基因分析、可變剪接、編碼序列單核苷酸多態(tài)性(cSNP)等研究;或者進(jìn)行小分子RNA測序(small RNA sequencing),通過(guò)分離特定大小的RNA分子進(jìn)行測序,從而發(fā)現新的microRNA分子。在轉錄組水平上,與染色質(zhì)免疫共沉淀(ChIP)和 甲基化DNA免疫共沉淀(MeDIP)技術(shù)相結合,從而檢測出與特定轉錄因子結合的DNA區域和基因組上的甲基化位點(diǎn)。目前,高通量測序也開(kāi)始廣泛應用于 尋找疾病的候選基因上。
與sanger測序相比,高通量測序的顯著(zhù)特點(diǎn)就是數據產(chǎn)出量增大,隨之而來(lái)的統計學(xué)信息增多。曾有人用“找針”來(lái)形容兩代測序的區別,sanger測序 是在黑暗的環(huán)境中找針,高通量測序是把燈點(diǎn)亮后找針。高通量測序的大量數據輸出及復雜的統計學(xué)信息,就是照亮黑暗的明燈。那么,我們就先來(lái)了解一下高通量 測序的基本原理和數據分析的基本流程。
現在市場(chǎng)上占優(yōu)勢的高通量測序方法是Solexa法。它是一種基于邊合成邊測序技術(shù)(Sequencing-By-Synthesis,SBS)的新型測 序方法。通過(guò)利用單分子陣列實(shí)現在小型芯片(FlowCell)上進(jìn)行橋式PCR反應。由于新的可逆阻斷技術(shù)可以實(shí)現每次只合成一個(gè)堿基,并標記熒光基 團,再利用相應的激光激發(fā)熒光基團,捕獲激發(fā)光,從而讀取堿基信息。

數據分析流程根據建庫的類(lèi)型和研究目的的不同而各有差別,現以有參轉錄組信息分析流程為例來(lái)說(shuō)明高通量數據分析的基本流程。
高通量測序數據以FASTQ格式來(lái)記錄所測的堿基讀段和質(zhì)量分數。數據產(chǎn)出后,對樣品測序獲得的Reads進(jìn)行統計,通過(guò)統計各樣品Reads長(cháng)度、數 量、堿基數以及GC含量等指標,評估數據量是否滿(mǎn)足信息分析要求。之后對原始數據進(jìn)行質(zhì)量評估,過(guò)濾低質(zhì)量數據,應用各種序列比對軟件遮蔽數據中不屬于表 達基因的贗象序列,去除鑲嵌克隆,最后獲得高質(zhì)量的數據再進(jìn)行后續組裝和分析。對于有參轉錄組數據分析,首先將所有測序讀段mapping到參考基因組 上,與參考基因組進(jìn)行比對分析,挑選出匹配好的所有讀段,同時(shí)進(jìn)行讀段的基因定位,這些信息都將用于后續分析。
后續數據分析主要有基因的結構分析、表達分析和新基因分析?;蜃⑨屖抢蒙镄畔W(xué)方法,將未知基因序列在公共數據庫進(jìn)行相似性搜索比對,通過(guò)與數據庫中已知基因序列的同源性比對,來(lái)推測未知基因的功能。

目前,除了個(gè)別實(shí)驗室具有高通量測序數據分析能力外,通常情況下,數據分析工作需要由專(zhuān)業(yè)的機構或公司來(lái)完成,這種形式存在幾個(gè)弊端:
1、根據客戶(hù)的不同分析需求,收費標準不同。數據的基礎分析結果不能完全滿(mǎn)足科研需要,而個(gè)性化分析又需要支付高額的分析費用;
2、分析結果和預判結果存在差異時(shí),需要經(jīng)過(guò)反復溝通,反復修改,才可能達到分析目的;
3、數據的利用率低,一次分析后,所用數據基本處于擱置狀態(tài),再利用的可能性低,大量的自測數據和公有數據無(wú)法再利用;
4、項目完成周期較長(cháng),有可能會(huì )因分析公司業(yè)務(wù)量的變化而付出更多的等待時(shí)間?,F在,完成高通量數據分析工作,我們有了第三種選擇-–百邁客云。

百邁客云(BMKCloud)是一個(gè)基于基因大數據的挖掘、管理和科研協(xié)作的整合平臺??梢允共痪邆渖镄畔⒎治龌A的用戶(hù),快速掌握獨立的生物信息分析能力,實(shí)現高通量數據的深度解讀。
百邁客云提供:11大生物信息分析平臺(重測序、外顯子、轉錄組、非編碼RNA等),基本分析+個(gè)性化分析,輕松實(shí)現原始數據到生物學(xué)問(wèn)題準確解讀的轉化;158款數據分析工具,涵蓋數據處理,文件操作,序列比對,基因注釋和圖表制作等,滿(mǎn)足個(gè)性化數據分析需求。
百邁客云不僅僅是一個(gè)數據分析平臺,更是一個(gè)挖掘研究思路的平臺??蛻?hù)通過(guò)在數據模塊中檢索跟自己研究相關(guān)的公共數據,然后通過(guò)分析平臺進(jìn)行數據的挖掘和解讀,即可從中提煉科研思路,站在科學(xué)研究的前沿。
2016年3月,作為BMKCloud公共數據庫項目的一部分,動(dòng)物、植物、微生物、參考基因組、疾病和宏基因組高通量測序數據庫正式上線(xiàn)。百邁客云的合 作伙伴現在可以在BMKCloud上免費訪(fǎng)問(wèn)六大數據庫了。2016年4月1日,伴隨著(zhù)BMKCloud的全新改版,數據庫的公共數據可以直接導入用戶(hù)目 錄“我的數據”中,利用BMKCloud上的分析平臺進(jìn)行各項基礎分析和個(gè)性化分析,這極大加速了利用公共數據進(jìn)行研究的步伐。更加令人期待的是,腫瘤和 腫瘤細胞系高通量測序數據庫也在緊鑼密鼓地籌劃中,不久之后也會(huì )在BMKCloud云平臺上與廣大用戶(hù)見(jiàn)面。BMKCloud公共數據庫項目建立的目的也 是讓科研工作者更高效、更快速的利用公共數據,提高公共數據的利用效率。使大數據的挖掘不僅僅局限于癌癥的研究,能夠在動(dòng)物、植物、微生物等研究中都得到 很好的利用??蒲泄ぷ髡呖梢愿鶕锓N、類(lèi)型、研究性狀、研究結果、測序方法等設置快速檢索感興趣的數據,所有數據均可一鍵導入我的數據中保存。然后利用百 邁客提供的11大數據分析平臺和158款工具進(jìn)行數據的深度挖掘,高效、快速的挖掘基因大數據。
百邁客云從2014年5月開(kāi)始開(kāi)放試用到2015年10月份正式商用。對于廣大的科研用戶(hù)而言,百邁客生物云是一個(gè)完 整的交鑰匙(Turn-Key)解決方案,用戶(hù)只需要開(kāi)通云平臺賬號,就有了屬于自己的生物信息分析平臺,以云治云,用“百邁客云”撥開(kāi)生命疑云,“百邁客云”已經(jīng)成為進(jìn)行基因大數據的分析的常用平臺。


京公網(wǎng)安備 11011302003368號