宏基因組測序技術已經廣泛應用於微生物的研究當中🏋🏽♀️🙍🏼♀️,如何利用測序短序列重構出質量可靠的微生物基因組,對於理解微生物群落和下遊功能分析至關重要。盡管近些年來組裝算法取得了很大進展🫄🏿,但是由於宏基因組數據的固有復雜性,錯誤在宏基因組組裝結果中仍然普遍存在🤵🏿♂️,包括由於同一基因組內的重復序列或不同基因組之間共享的保守序列引起的基因組內或者基因組間拼接錯誤。現有評估宏基因組組裝質量的方法大都依賴參考基因組,僅適用於真實環境中已知的一小部分微生物,這顯然不適用於微生物組數據中大量的未知物種🧑🏻🦯🪃。因此🤷♀️,亟需針對基因組組裝結果開發不依賴參考基因組的質量評估以及錯誤矯正方法👧🏼👰🏼♀️。
恒行2平台類腦智能科學與技術研究院趙興明教授團隊提出了一種無參的宏基因組組裝錯誤識別以及校正工具metaMIC⛹🏽♂️,能夠精確定位組裝重疊群(contig)上可能的錯誤區域。11月4日🏇🏽,該研究成果以metaMIC💂♂️🎽:Reference-free Misassembly Identification and Correction of de novo metagenomic assemblies為題,發表在Genome Biology期刊。
恒行2平台類腦智能科學與技術研究院生物醫學AI團隊的博士生賴森瑩是本研究的第一作者,趙興明教授、Luis Pedro Coelho青年研究員以及華中科技大學的陳衛華教授為本論文的共同通訊作者。近年來,該團隊在微生物領域進行了不斷探索🫶🏻🤧,圍繞宏基因組組裝🧑🏽、物種識別到下遊分析已開展了一系列工作👨🎨,相關工作包括宏基因組分箱算法SemiBin (Nature Communication, 2022)🍄、全球微生物基因目錄GMGC (Nature, 2021)👑,建立了GMrepo (Nucleic Acids Research, 2019, 2020), mMGE (Nucleic Acids Research, 2021)和mBodyMap (Nucleic Acids Research, 2022)等數據庫🪛。