真實工作流中的機器學習與生成式設計

機器學習在這裡擅長什麼

藥物設計中的機器學習是 QSAR 強大的後代：它用靈活的模型——隨機森林、梯度提升、神經網絡、直接讀取分子的圖模型——從大型資料集中學習規律。它建立在相同的化學資訊學表示之上（描述符、指紋、分子圖），能捕捉對線性方程而言過於糾纏的關係。它最可靠的勝利在於性質預測。

ADMET 預測是日常主力：在分子被合成之前，就標記出可能的溶解度、滲透性、代謝穩定性或 hERG 風險的模型。這些預測並不完美，但很便宜，因此能讓你把成千上萬個想法過濾成一份合理的短名單。這門功夫是誠實的記帳：追蹤模型在留出化合物上的準確度、尊重它的適用域，並且絕不讓一個看似自信的數字凌駕於明確的實驗資料之上。

補全缺失結構，發明全新結構

兩個與機器學習相鄰的工具擴展了基於結構的設計。當你的標靶沒有實驗結構時，同源模型（如今還有深度學習的結構預測）會基於一個相關蛋白的已知結構構建近似的三維模型——若有相近模板，足以用於提出假說，若沒有則不可靠。而結合位點預測會掃描一個表面，提示口袋——甚至是變構口袋——可能位於何處，把你指向你本可能錯過的可成藥空腔。

最引人注目的前沿是生成式化學和 de novo 設計：這些模型會朝著目標性質提出全新的分子，而不只是為你提供的分子評分。它們能探索廣闊的化學空間，提出非顯而易見的骨架。但它們必須被約束，否則會發明出不穩定、無法合成或荒謬的東西。把生成器與硬性過濾——可合成性、預測的 ADMET、對接——配對，才能把一台聰明的點子機器變成一台有用的機器。

把這一切折回循環之中

本系列中沒有任何單一工具能獨自設計出一款藥物。它們的價值在於加速設計–合成–測試循環：每一輪迭代產生想法、預測其行為、合成最有希望的、測量真相，並把真相反饋回來以磨快下一輪的模型。計算真正的角色是讓每一個循環更便宜、更聰明——每承諾一個上實驗台的想法，就在電腦裡先測十個。

而且目標從來不只是活性。真正的候選物必須滿足多參數優化——同時權衡親和力、選擇性、溶解度、滲透性、代謝穩定性和安全性。你所認識的整套計算工具——對接、QSAR、MD、FEP、機器學習、ADMET 預測——存在的意義就是比單靠合成與測試更快地穿越這個多維權衡。