最近,美國洛斯阿拉莫斯國家實(shí)驗室(LANL)的一個(gè)遺傳學(xué)小組和一國際財團聯(lián)合提出了一套旨在闡明可公開(kāi)獲取的基因測序數據信息的質(zhì)量標準。新標準最終可使遺傳研究人員開(kāi)發(fā)出更有效的疫苗,或有助于公共健康部門(mén)或安全人員更迅速地應對潛在的公共衛生突發(fā)事件。
在最新一期的《科學(xué)》雜志上,LANL遺傳學(xué)家帕特里克·錢(qián)恩和他的同事提出了6個(gè)基因組測序數據標簽,可將基因測序數據按其完整性、準確性以及由此帶來(lái)的可靠性進(jìn)行歸類(lèi)。這些標簽可在公共數據庫中獲取,而目前使用的標簽僅為兩個(gè)。此項成果的重要性在于,研究人員必須每天使用這樣的數據,以對未知遺傳數據和已知生物體的遺傳數據進(jìn)行相互參照,而有了這樣的新的分類(lèi)標準,數據的獲取與對比工作的效率將大大提高!
每個(gè)生物體的細胞內都有DNA,由4個(gè)分子構建模塊(或稱(chēng)堿基對)組成,堿基對排成特定序列時(shí)就可構成基因。這些基因序列可包含對生物體有益或有害的遺傳指令;蚪M研究人員編目了數以千計的基因數據,并將其放在公眾數據庫中以供其他研究者使用。 然而,由于基因數據的復雜性,公共數據庫中的遺傳信息范圍從粗略到精致一概都有。過(guò)去,這些基因數據常被歸類(lèi)為“草圖”和“成品”兩大類(lèi),給基因數據的準確性留下了太多的不確定性。
錢(qián)恩表示,在過(guò)去幾年里,基因測序技術(shù)已取得重大進(jìn)步,公眾可獲得的基因數據已呈爆炸性增長(cháng),每天產(chǎn)生的堿基對序列數據量要比過(guò)去幾年產(chǎn)生的數據量還要多幾十億次。不同的測序技術(shù)具有不同的精確度。一個(gè)序列中的高度不確定性可能會(huì )引導研究人員走向一條耗時(shí)長(cháng)達一年甚至數年的錯誤道路。因此,有必要建立一個(gè)標準,為研究人員提供對遺傳測序數據質(zhì)量的明確評估。
錢(qián)恩聯(lián)合了大大小小的數個(gè)基因組測序中心,如美國能源部聯(lián)合基因組研究所、桑格研究所、人類(lèi)微生物群系項目Jumpstart聯(lián)盟測序中心、密歇根州立大學(xué)以及安大略省癌癥研究所等,共同提議將現有的測序數據分類(lèi)從兩大類(lèi)充實(shí)為6大類(lèi)。這6個(gè)標準涵蓋了從代表公眾提交最低要求的“標準草圖序列”到代表最高標準的“完成序列”,而“完成序列”的驗收標準是每10萬(wàn)個(gè)堿基對中最多只能包含一個(gè)錯誤。
LANL基因科學(xué)小組負責人、聯(lián)合基因組研究所LANL研究中心主任克里斯·戴特表示,該項研究的目的是為了讓所有主要的基因組中心和基因組研究小組都能用上符合其需要的分類(lèi)基因組測序數據。而為了盡可能保證基因組序列的完整性,一些較小的研究中心也可采用這個(gè)分類(lèi)等級來(lái)建立和提交其研究成果,以幫助其他科學(xué)家了解既已完成的工作。(馮衛東)
Copyright ©1999-2025 chinanews.com. All Rights Reserved