新聞 > 科教 > 正文

新方法使用普通電腦組裝基因體只需幾分鐘

麻省理工學院(MIT)和法國巴斯德研究院(Institut Pasteur)合作開發了一套全新的組裝基因序列的方法,僅需使用普通的個人電腦,組裝整套基因序列速度比現在最先進的方法快近百倍,所用的資源只需五分之一。

這份9月4日發表於《細胞·系統》(Cell Systems)的研究說,研究人員從語言學模型獲得啟發,如果按照單詞、而不是使用字母組合語言,速度會快很多。

這份研究的作者之一麻省理工學院數學教授伯傑(Bonnie Berger)說:「這種快速組裝基因體的能力對於評估腸道微菌變化、細菌感染相關的疾病有重要作用,能夠快速進行治療,挽救生命。」

2003年由世界多國科學家合作組裝完成第一份人類的基因序列,耗資27億美元,花了十幾年的時間才完成。之後至今,雖然基因測序成本在降低、耗時在減少,但是由於涉及的數據量大、算法複雜,現在仍然需要很強大的電腦、耗時幾天才能完成。

伯傑和同事借鑑了語言學的模型,在現有德•布魯因圖(de Bruijn graph)的基礎上,他們開發了最小空間化德•布魯因圖(minimizer-space de Bruin graph,簡稱mdBG),使用核苷酸短序列,而不是單個的核苷酸。

「我們的最小空間化德•布魯因圖只儲存整套核苷酸的一小部分,但是卻能保留整個基因體的結構,所以這個方法比傳統的德•布魯因圖效率高出好幾個數量級。」

研究人員用這個新方法挑戰組裝果蠅基因、以及美國太平洋生物科學公司(PacBio)提供的人體基因數據,並以現今為止最準確的HiFi數據作為標準。

結果顯示,使用這個新方法所花的時間比其它基因體裝算法少了33倍,電腦記憶體(RAM)少用了8倍。從軟體的角度比較,這套算法比Peregrine組裝法快了81倍,記憶體少用18倍;比hifiasm組裝法快338倍,記憶體少用19倍。

之後,研究人員還用這個方法為661,406個細菌基因體建立索引,這份數據是目前為止同類中最大型的一份。他們發現,掃描整個數據集找到抗菌耐藥基因只需13分鐘,如果用常規的序列對照方法則需要7個小時。

責任編輯: 李華  來源:大紀元 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2021/0924/1651085.html