真实工作流中的机器学习与生成式设计

机器学习在这里擅长什么

药物设计中的机器学习是 QSAR 强大的后代：它用灵活的模型——随机森林、梯度提升、神经网络、直接读取分子的图模型——从大型数据集中学习规律。它建立在相同的化学信息学表示之上（描述符、指纹、分子图），能捕捉对线性方程而言过于纠缠的关系。它最可靠的胜利在于性质预测。

ADMET 预测是日常主力：在分子被合成之前，就标记出可能的溶解度、渗透性、代谢稳定性或 hERG 风险的模型。这些预测并不完美，但很便宜，因此能让你把成千上万个想法过滤成一份合理的短名单。这门功夫是诚实的记账：跟踪模型在留出化合物上的准确度、尊重它的适用域，并且绝不让一个看似自信的数字凌驾于明确的实验数据之上。

补全缺失结构，发明全新结构

两个与机器学习相邻的工具扩展了基于结构的设计。当你的靶点没有实验结构时，同源模型（如今还有深度学习的结构预测）会基于一个相关蛋白的已知结构构建近似的三维模型——若有相近模板，足以用于提出假说，若没有则不可靠。而结合位点预测会扫描一个表面，提示口袋——甚至是变构口袋——可能位于何处，把你指向你本可能错过的可成药空腔。

最引人注目的前沿是生成式化学和 de novo 设计：这些模型会朝着目标性质提出全新的分子，而不只是为你提供的分子打分。它们能探索广阔的化学空间，提出非显而易见的骨架。但它们必须被约束，否则会发明出不稳定、无法合成或荒谬的东西。把生成器与硬性过滤——可合成性、预测的 ADMET、对接——配对，才能把一台聪明的点子机器变成一台有用的机器。

把这一切折回循环之中

本系列中没有任何单一工具能独自设计出一款药物。它们的价值在于加速设计–合成–测试循环：每一轮迭代产生想法、预测其行为、合成最有希望的、测量真相，并把真相反馈回来以磨快下一轮的模型。计算真正的角色是让每一个循环更便宜、更聪明——每承诺一个上实验台的想法，就在计算机里先测十个。

而且目标从来不只是活性。真正的候选物必须满足多参数优化——同时权衡亲和力、选择性、溶解度、渗透性、代谢稳定性和安全性。你所认识的整套计算工具——对接、QSAR、MD、FEP、机器学习、ADMET 预测——存在的意义就是比单靠合成与测试更快地穿越这个多维权衡。