酸解離常數(shù)(pKa)是最重要的有機(jī)化學(xué)基礎(chǔ)數(shù)據(jù)之一,是衡量化合物解離氫質(zhì)子能力的熱力學(xué)標(biāo)度,其在合成化學(xué)、生物化學(xué)、藥物化學(xué)、精細(xì)化工等諸多領(lǐng)域均有重要應(yīng)用。雖然目前已有近兩萬個化合物的35000個pKa實驗數(shù)據(jù)被報道(iBond數(shù)據(jù)庫統(tǒng)計),但受限于化合物穩(wěn)定性、溶解性等多方面限制,眾多重要化合物的pKa數(shù)據(jù)仍然缺失,并且目前大部分pKa測定是在水相進(jìn)行的,對于合成化學(xué)及精細(xì)化工極其重要的有機(jī)溶劑中pKa數(shù)據(jù)極其匱乏。因此,開發(fā)化合物水相以及有機(jī)相pKa數(shù)據(jù)的精確預(yù)測方法是當(dāng)前工業(yè)和學(xué)術(shù)界都廣泛關(guān)注的熱點問題。最近,清華大學(xué)化學(xué)系基礎(chǔ)分子科學(xué)中心的羅三中研究團(tuán)隊依托ibond數(shù)據(jù)庫豐富全面的pKa數(shù)據(jù),采用機(jī)器學(xué)習(xí)策略開發(fā)了pKa全局預(yù)測模型,為快速獲得可靠的pKa數(shù)據(jù)提供了解決方案。

iBond數(shù)據(jù)庫是由清華大學(xué)程津培院士領(lǐng)銜創(chuàng)建的全球最權(quán)威的鍵能數(shù)據(jù)庫,其收集了文獻(xiàn)報道的兩萬余種化合物的約三萬五千個準(zhǔn)確pKa數(shù)據(jù)。研究團(tuán)隊對iBond數(shù)據(jù)庫中已有數(shù)據(jù)進(jìn)行了系統(tǒng)整理標(biāo)記,形成了種類豐富、溶劑分布廣泛、數(shù)據(jù)分布合理的數(shù)據(jù)集。在自此基礎(chǔ)上,團(tuán)隊引入了結(jié)合化合物結(jié)構(gòu)特征和物理化學(xué)性質(zhì)的SPOC描述符對化合物進(jìn)行精確描述,并采用當(dāng)前流行的XGBoost和神經(jīng)網(wǎng)絡(luò)算法構(gòu)建了高精度預(yù)測模型。該預(yù)測模型可以實現(xiàn)不同溶劑中化合物pKa的同時預(yù)測,并能夠?qū)Π∣-H、N-H、C-H在內(nèi)的各種不同酸性氫進(jìn)行準(zhǔn)確的pKa預(yù)測,精度可達(dá)到0.87pK單位。團(tuán)隊分別選擇了若干藥物分子和小分子催化劑對水相及有機(jī)相的預(yù)測能力進(jìn)行了測試,研究表明對藥物分子的水相pKa預(yù)測的平均誤差可低至0.44,對有機(jī)小分子有機(jī)相pKa預(yù)測的平均誤差則在1 pK單位左右。

該成果以“Holistic Prediction of pKa in Diverse Solvents Based on Machine Learning Approach”為題發(fā)表在國際著名期刊德國應(yīng)用化學(xué)上(Angew. Chem. Int. Ed.),論文第一作者為楊騏博士,通訊作者為清華大學(xué)羅三中教授和張龍副研究員。同時論文成果以網(wǎng)站形式開放給學(xué)術(shù)界使用(http://pka.luoszgroup.com)。

來源:清華大學(xué)













