機器學習在這裡擅長什麼
藥物設計中的機器學習是 QSAR 強大的後代:它用靈活的模型——隨機森林、梯度提升、神經網絡、直接讀取分子的圖模型——從大型資料集中學習規律。它建立在相同的化學資訊學表示之上(描述符、指紋、分子圖),能捕捉對線性方程而言過於糾纏的關係。它最可靠的勝利在於性質預測。
ADMET 預測是日常主力:在分子被合成之前,就標記出可能的溶解度、滲透性、代謝穩定性或 hERG 風險的模型。這些預測並不完美,但很便宜,因此能讓你把成千上萬個想法過濾成一份合理的短名單。這門功夫是誠實的記帳:追蹤模型在留出化合物上的準確度、尊重它的適用域,並且絕不讓一個看似自信的數字凌駕於明確的實驗資料之上。
補全缺失結構,發明全新結構
兩個與機器學習相鄰的工具擴展了基於結構的設計。當你的標靶沒有實驗結構時,同源模型(如今還有深度學習的結構預測)會基於一個相關蛋白的已知結構構建近似的三維模型——若有相近模板,足以用於提出假說,若沒有則不可靠。而結合位點預測會掃描一個表面,提示口袋——甚至是變構口袋——可能位於何處,把你指向你本可能錯過的可成藥空腔。
最引人注目的前沿是生成式化學和 de novo 設計:這些模型會朝著目標性質提出全新的分子,而不只是為你提供的分子評分。它們能探索廣闊的化學空間,提出非顯而易見的骨架。但它們必須被約束,否則會發明出不穩定、無法合成或荒謬的東西。把生成器與硬性過濾——可合成性、預測的 ADMET、對接——配對,才能把一台聰明的點子機器變成一台有用的機器。
把這一切折回循環之中
本系列中沒有任何單一工具能獨自設計出一款藥物。它們的價值在於加速設計–合成–測試循環:每一輪迭代產生想法、預測其行為、合成最有希望的、測量真相,並把真相反饋回來以磨快下一輪的模型。計算真正的角色是讓每一個循環更便宜、更聰明——每承諾一個上實驗台的想法,就在電腦裡先測十個。
而且目標從來不只是活性。真正的候選物必須滿足多參數優化——同時權衡親和力、選擇性、溶解度、滲透性、代謝穩定性和安全性。你所認識的整套計算工具——對接、QSAR、MD、FEP、機器學習、ADMET 預測——存在的意義就是比單靠合成與測試更快地穿越這個多維權衡。