分享一篇發(fā)表在Nature Methods上的文章,文章標(biāo)題“Geometric deep learning of protein–DNA binding specificity”,文章的通訊作者是來(lái)自南加州大學(xué)的Remo Rohs教授,其課題組致力于DNA結(jié)構(gòu)方面的研究。
預(yù)測(cè)蛋白質(zhì)與DNA的結(jié)合特異性是一項(xiàng)必要而又充滿挑戰(zhàn)的任務(wù)。一方面,它有助于我們理解基因調(diào)控,了解蛋白質(zhì)靶向特定DNA序列的結(jié)構(gòu)機(jī)制;另一方面,蛋白質(zhì)能夠以不同特異性與多種DNA序列結(jié)合,但相應(yīng)的結(jié)構(gòu)信息卻并非總是可及。本文,作者基于幾何深度學(xué)習(xí)方法提出了DeepPBS模型,用于預(yù)測(cè)蛋白質(zhì)-DNA的結(jié)合特異性。DeepPBS以蛋白質(zhì)-DNA復(fù)合物結(jié)構(gòu)作為輸入,以預(yù)測(cè)的DNA上每個(gè)位置的核苷酸偏好性作為主要輸出。作者利用二分圖的方法分別處理蛋白質(zhì)和DNA結(jié)構(gòu)。蛋白質(zhì)以重原子圖表示,而DNA結(jié)構(gòu)以成對(duì)稱螺旋(sym-helix)表示。需要指出的是,在對(duì)稱螺旋的表示中,DNA的序列信息并非必需的。DeepPBS以平均絕對(duì)誤差作為評(píng)估指標(biāo)。具體而言,對(duì)于給定長(zhǎng)的DNA序列,計(jì)算每個(gè)位置處目標(biāo)核苷酸與預(yù)測(cè)核苷酸概率的絕對(duì)值,最后求取平均。作者在不同蛋白質(zhì)家族上測(cè)試了DeepPBS上的表現(xiàn)。模型對(duì)于不同蛋白質(zhì)家族并未呈現(xiàn)明顯的傾向性,對(duì)于結(jié)構(gòu)較少的家族如熱休克因子蛋白,模型也表現(xiàn)良好。在模型應(yīng)用上,作者指出DeepPBS也可接受預(yù)測(cè)的蛋白質(zhì)-DNA復(fù)合物結(jié)構(gòu)。同時(shí),可以將模型的預(yù)測(cè)結(jié)合特異性作為反饋,進(jìn)一步優(yōu)化DNA序列,以增強(qiáng)蛋白質(zhì)-DNA的結(jié)合特異性。另外,在針對(duì)特定DNA序列的蛋白質(zhì)支架設(shè)計(jì)過程中,DeepPBS也能夠提供有益的幫助。原文鏈接:https://doi.org/10.1038/s41592-024-02372-wDOI:10.1038/s41592-024-02372-w