今天為大家推薦一篇發(fā)表ACS. Cent. Sci.上的文章:Deep Learning for Prediction and Optimization of Fast-Flow Peptide Synthesis,文章的通訊作者是來自麻省理工的Bradley L. Pentelute和Rafael Go?mez-Bombarelli,Pentelute教授專注的方向是蛋白質(zhì)工程與藥物遞送,而Bombarelli教授則是從事計(jì)算輔助的合成方法學(xué)研究。
固相肽合成(SPPS)是人工合成多肽的重要手段,與基因重組表達(dá)相比,SPPS合成的肽不受序列與氨基酸種類的限制,因此使用范圍更廣。然而,SPPS涉及多個(gè)步驟的重復(fù)反應(yīng),對(duì)時(shí)間和體力的消耗非常大。近年來,流式化學(xué)技術(shù)的發(fā)展催生了自動(dòng)合成儀化學(xué)平臺(tái)的設(shè)計(jì)與使用,作者的實(shí)驗(yàn)室就設(shè)計(jì)了一個(gè)自動(dòng)化的快速流式肽合成儀(AFPS),可以實(shí)現(xiàn)高效自動(dòng)的SPPS。但是,合成過程中出現(xiàn)聚集等副反應(yīng)的問題仍未得到解決。為了提高產(chǎn)率,作者設(shè)想通過算法對(duì)自動(dòng)合成進(jìn)行實(shí)時(shí)的優(yōu)化。為了實(shí)現(xiàn)這一設(shè)想,作者需要這種算法可以在合成條件與產(chǎn)率之間建立準(zhǔn)確的聯(lián)系,這一目標(biāo)可以通過深度學(xué)習(xí)來實(shí)現(xiàn)。但是,有效的深度學(xué)習(xí)需要大量高質(zhì)量且標(biāo)準(zhǔn)化的數(shù)據(jù),這意味著不能簡單地從出版的資料中收集這些數(shù)據(jù),因?yàn)樗鼈兪遣煌瑯?biāo)準(zhǔn)的且不一定可重復(fù)。為了獲得統(tǒng)一標(biāo)準(zhǔn)的高度可重復(fù)的數(shù)據(jù),作者用AFPS在相同的優(yōu)化參數(shù)下做了大量的脫保護(hù)合成步驟,獲得了35427個(gè)獨(dú)立的UV-Vis檢測數(shù)據(jù)。作者將每個(gè)合成反應(yīng)中的前體序列和引入的氨基酸都用指紋圖譜編碼成類似條形碼的形式,這些條形碼包含氨基酸的側(cè)鏈、酰胺鍵和保護(hù)基等所有關(guān)鍵亞結(jié)構(gòu)的信息。作者將這些條形碼信息和對(duì)應(yīng)的合成參數(shù)(包括反應(yīng)溫度、流速、偶聯(lián)試劑等)作為輸入,肽合成中Fmoc去保護(hù)的UV-Vis跡線的積分、高度和寬度作為輸出,這些變量是衡量反應(yīng)是否成功的重要標(biāo)準(zhǔn)。作者在用收集到的數(shù)據(jù)訓(xùn)練了深度神經(jīng)網(wǎng)絡(luò)模型后,用該模型預(yù)測的UV-Vis跡線與實(shí)驗(yàn)所得數(shù)據(jù)在誤差允許范圍內(nèi)是相匹配的。

作者使用該模型預(yù)測了聚集與序列的關(guān)聯(lián)性,聚集是SPPS中發(fā)生的最重要的副反應(yīng)之一,但是聚集與肽段序列之間的關(guān)系尚不明確。發(fā)生聚集的特點(diǎn)是UV-Vis峰變得更平更寬,作者用寬高比對(duì)這一特征進(jìn)行量化定義,并用訓(xùn)練的模型準(zhǔn)確判斷出了GLP-1在添加Ala18后發(fā)生的聚集。為了進(jìn)一步了解聚集與序列間的關(guān)聯(lián),作者用該模型預(yù)測了PDB中8000余種蛋白質(zhì)可能的聚集行為,發(fā)現(xiàn)芳基和較大側(cè)鏈的氨基酸最容易導(dǎo)致聚集。作為驗(yàn)證,作者將選定的對(duì)待合成肽進(jìn)行了單點(diǎn)突變并用模型判斷了所有突變體的發(fā)生聚集的可能性;隨后用實(shí)驗(yàn)合成了其中幾個(gè)肽并將產(chǎn)率與模型預(yù)測進(jìn)行了比較,二者是相符的。

最后,作者用該模型的預(yù)測結(jié)果作為指導(dǎo)去優(yōu)化了AFPS自動(dòng)合成過程中的參數(shù),從而對(duì)于除了Trp之外的所有氨基酸都獲得了一個(gè)新的偶聯(lián)配方。實(shí)驗(yàn)證明在優(yōu)化的條件下大多數(shù)氨基酸的偶聯(lián)產(chǎn)率都提高了,但包括Trp在內(nèi)的幾種氨基酸仍有進(jìn)一步優(yōu)化的空間。綜上,作者利用一個(gè)深度學(xué)習(xí)模型對(duì)流式肽合成的產(chǎn)率進(jìn)行了預(yù)測并用該模型指導(dǎo)了合成條件的優(yōu)化。作者希望未來該模型能夠?qū)崿F(xiàn)在合成過程中的實(shí)時(shí)調(diào)控,即根據(jù)上一步合成的表征信息自動(dòng)給出下一步合成的最佳優(yōu)化條件。
本文作者:TZY
責(zé)任編輯:LYP
原文鏈接:https://pubs.acs.org/doi/abs/10.1021/acscentsci.0c00979
原文引用:DOI:10.1021/acscentsci.0c00979