机器学习在这里擅长什么
药物设计中的机器学习是 QSAR 强大的后代:它用灵活的模型——随机森林、梯度提升、神经网络、直接读取分子的图模型——从大型数据集中学习规律。它建立在相同的化学信息学表示之上(描述符、指纹、分子图),能捕捉对线性方程而言过于纠缠的关系。它最可靠的胜利在于性质预测。
ADMET 预测是日常主力:在分子被合成之前,就标记出可能的溶解度、渗透性、代谢稳定性或 hERG 风险的模型。这些预测并不完美,但很便宜,因此能让你把成千上万个想法过滤成一份合理的短名单。这门功夫是诚实的记账:跟踪模型在留出化合物上的准确度、尊重它的适用域,并且绝不让一个看似自信的数字凌驾于明确的实验数据之上。
补全缺失结构,发明全新结构
两个与机器学习相邻的工具扩展了基于结构的设计。当你的靶点没有实验结构时,同源模型(如今还有深度学习的结构预测)会基于一个相关蛋白的已知结构构建近似的三维模型——若有相近模板,足以用于提出假说,若没有则不可靠。而结合位点预测会扫描一个表面,提示口袋——甚至是变构口袋——可能位于何处,把你指向你本可能错过的可成药空腔。
最引人注目的前沿是生成式化学和 de novo 设计:这些模型会朝着目标性质提出全新的分子,而不只是为你提供的分子打分。它们能探索广阔的化学空间,提出非显而易见的骨架。但它们必须被约束,否则会发明出不稳定、无法合成或荒谬的东西。把生成器与硬性过滤——可合成性、预测的 ADMET、对接——配对,才能把一台聪明的点子机器变成一台有用的机器。
把这一切折回循环之中
本系列中没有任何单一工具能独自设计出一款药物。它们的价值在于加速设计–合成–测试循环:每一轮迭代产生想法、预测其行为、合成最有希望的、测量真相,并把真相反馈回来以磨快下一轮的模型。计算真正的角色是让每一个循环更便宜、更聪明——每承诺一个上实验台的想法,就在计算机里先测十个。
而且目标从来不只是活性。真正的候选物必须满足多参数优化——同时权衡亲和力、选择性、溶解度、渗透性、代谢稳定性和安全性。你所认识的整套计算工具——对接、QSAR、MD、FEP、机器学习、ADMET 预测——存在的意义就是比单靠合成与测试更快地穿越这个多维权衡。