推薦一篇發(fā)布在Science上的文章,文章標(biāo)題“Predicting protein-protein interactions in the human proteome”。文章的通訊作者是來自德克薩斯大學(xué)西南醫(yī)學(xué)中心的叢倩老師。其課題組主要從事蛋白質(zhì)復(fù)合物結(jié)構(gòu)建模等領(lǐng)域的研究。

蛋白質(zhì)互作在多種生物過程中至關(guān)重要。多個數(shù)據(jù)庫(UniProt、BioGRID、STRING等等)綜合提供了超過100萬對PPI,然而這些數(shù)據(jù)庫中的高置信PPI的交集卻只有不到4000對。目前已經(jīng)開發(fā)了綜合共進(jìn)化分析與結(jié)構(gòu)預(yù)測模型的計(jì)算方法以預(yù)測PPI。然而,受限于計(jì)算資源和動物基因組數(shù)量,準(zhǔn)確預(yù)測人蛋白質(zhì)組中的PPI仍較為困難。本文,作者在此前RF2-lite的基礎(chǔ)上開發(fā)了RF2-PPI,它能夠在維持預(yù)測表現(xiàn)與AF2相當(dāng)?shù)耐瑫r實(shí)現(xiàn)20倍的預(yù)測加速,從而為篩選人蛋白質(zhì)組中的PPI打下基礎(chǔ)。
為豐富MSA中的共進(jìn)化信號,作者從真核基因組中挖掘尚未被注釋為蛋白質(zhì)序列的編碼基因。由這些基因預(yù)測而得的蛋白質(zhì)序列包含超過兩萬個物種,顯著拓展了UniRef100數(shù)據(jù)庫(約3000物種)。由此構(gòu)建MSA被定義為omicMSA。omicMSA在MSA深度上具有提升,并且能夠增強(qiáng)RF2-PPI模型(基于RF2架構(gòu)的輕量化版本)、AF2模型對PPI的預(yù)測表現(xiàn)(信噪比1:1000)。

另一方面,為實(shí)現(xiàn)與AF2模型相當(dāng)?shù)谋憩F(xiàn),作者引入了AFDB單體蛋白的域間互作(domain-domain interaction, DDI)作為擴(kuò)充的數(shù)據(jù)集進(jìn)一步訓(xùn)練RF2lite,得到RF2-PPI。作者認(rèn)為這種單蛋白的結(jié)構(gòu)域之間的界面與不同蛋白之間的互作界面是相似的。結(jié)果表明,將colabMSA替換為omicMSA實(shí)現(xiàn)了7個百分點(diǎn)的提升,而引入DDI數(shù)據(jù)集訓(xùn)練則實(shí)現(xiàn)了近11個百分點(diǎn)的提升,最終表現(xiàn)與AF2(相差5個百分點(diǎn))接近。

利用RF2-PPI,最終從超過2億對蛋白質(zhì)中篩選得到近2萬對蛋白質(zhì)互作,預(yù)計(jì)的準(zhǔn)確性為0.9,召回率0.1~0.2。作者亦從中分析發(fā)現(xiàn)了與GPCR、免疫相關(guān)的PPI。
總而言之,作者基于基因組數(shù)據(jù)和AFDB單體蛋白的域間互作數(shù)據(jù),發(fā)展了RF2-PPI模型,完成了人蛋白質(zhì)組中蛋白質(zhì)互作的預(yù)測。
本文作者:ZF
責(zé)任編輯:MB
DOI:10.1126/science.adt1630
原文鏈接:https://doi.org/10.1126/science.adt1630













