在今年一月,美國副總統拜登在瑞士達沃斯世界經濟論壇的科學家小組討論中提出了一系列攻克癌癥的具體要求。其中,怎樣通過大數據的收集、分析與應用來研究、預防與治療癌癥成為了一個格外引人注目的話題。
基因大數據分析技術能從海量基因數據中挖掘出與疾病、藥物相關的基因信息,為藥物開發、疾病診療提供了新思路,因此,大數據對于癌癥研究具有不容忽視的積極作用。然而除了數據的巨大體量之外,大數據研究還具備其他的特點。
當Keith Perry教授還在休斯頓安德森癌癥中心工作的時候,他便提出了大數據不僅僅在于大,大數據研究還應該包含一下三個特征:數據類型的多樣性,數據產出的速度以及數據集成的程度。“目前,由于具體研究項目與研究部門的不同,我們絕大多數的數據都是相對孤立的。”Perry認為相對孤立數據的集成將在極大程度上發揮這些數據的潛力。
深圳市華因康高通量技術研究院院長盛司潼博士在“2015大數據技術與產業應用大會”上就曾指出:醫療領域大數據的核心主要包括研發數據、診療數據、醫保數據和患者行為感官數據。隨著臨床檢測技術的不斷發展,醫療領域大數據也在不斷增長,并且已達到ZB范疇。基因作為人體遺傳物質中最小的功能片段,指導蛋白質的合成,并指導著人體一切生命活動。一個人一生包括基因組、轉錄組、表觀組、宏基因組及外部環境等總共有超過10TB的數據量。因此,從基因層面去進行大數據挖掘能夠為醫療領域帶來更多的新突破。
隱蔽的缺陷
目前,一些科學家正致力于將分散的測序數據加以整合,創造性地利用已有數據對臨床治療進行指導。
Nevann Krogan教授認為與大部分遺傳學家所認識到的情況相比,基因學已經在事實上使我們更加接近了癌癥治療的革命。
醫療本身有其發展的規律和方式,隨著基因測序技術的發展、測序成本的降低及數據分析方法的進步,精準醫療正逐漸成為新興的疾病治療和預防方法。精準醫療的實現,還需要基因大數據的支撐,而實現基因大數據的前提,則需要測序技術助力。
盡管測序數據猶如潮水般上漲,基因檢測在癌癥治療實踐過程的突破仍然進展緩慢。這一現象存在的一大重要原因就是大量堆積的新數據僅僅能夠證明癌癥驚人的多樣性,甚至僅僅是一種單一的腫瘤就包含著上千種基因突變。這種情況下就更需要研究人員能夠準確分辨出基因突變與疾病的有效相關性。
大數據分析與應用
在2015年的UCSD基因組學節上,Trey Ideker 博士指出對癌癥基因的大量測序已經證實了超過2萬個癌癥相關基因,但是由于基因相互作用網絡相關知識的缺乏,這些癌癥基因信息的有效分析便顯得十分困難。正如Ideker博士所說的“沒有任何兩個癌癥病人的腫瘤在基因水平有著完全相同的組成。”
在2013年出版的Nature Methods上,Ideker博士及其同事指出癌癥基因組圖譜計劃(The Cancer Genome Atlas ,TCGA)與國際癌癥基因組協會(the International Cancer Genome Consortium ,ICGC)已經開始了對數千個腫瘤樣本的基因信息多層次系統性分析。
基因大數據分析可應用于疾病預測、診斷及治療。通過測序技術結合大數據應用,可對腫瘤進行更精準的分子分型,從而為腫瘤患者制定精準的治療方案提供參考。不僅如此,通過測序技術還可獲知個體基因遺傳背景,進而知曉個體罹患疾病的易感程度。如與遺傳性乳腺癌/卵巢癌綜合征(HBOC)相關的BRCA1與BRCA2基因,利用基因測序技術檢測乳腺癌患者或高危人群BRCA1與BRCA2基因突變情況,能準確全面判斷受檢人群的基因突變情況,有效指導腫瘤的早期干預。
在2016年4月4日,作為全球領先的基因測序系統解決方案提供者—華因康基因,就已經加快步伐,率先與基因大數據臨床分析、注解服務的全球領航者-Vishuo合作,在新加坡共同簽署戰略聯盟合作協議,共創“基因測序+精準醫療大數據”模式。
Vishuo目前已收錄 200種疾病、750種治療方案以及1200種生物標記的核心產品iCMDB?大數據庫。在這一"基因測序+精準醫療大數據"的戰略聯盟下,華因康將向市場全面推出自主創新的臨床專用基因測序系統,將高端的基因測序技術普惠于大眾。與Vishuo一起,共同推動以PSTAR和iCMDB?為技術依托的精準醫療基因測序、分析、注解系統解決方案在臨床中的廣泛應用。