为什么大多数苗头是谎言
一次初筛会产生一份苗头清单,而其中大部分是噪声。假阳性是指看起来有活性、却并未按你所期望的方式作用于靶点的化合物。几个经典的罪魁祸首值得记住名字。聚集体形成微小的胶体颗粒,把蛋白质裹挟起来,非特异性地抑制几乎一切。反应性化合物不加区分地对蛋白质进行化学修饰。还有些分子在检测的波长处吸收或发射光,根本不碰蛋白质就骗过了检测器。
这些机制之所以阴险,是因为它们能产生漂亮、看似高效的量效曲线。一个化合物可以给出干净的IC50,却仍然对你的靶点毫无真实作用。这正是为什么单凭一个数字永远定不了任何事;你必须追问这个化合物是如何产生那个数字的,而不只是它有多大。
PAINS与结构警示
PAINS——泛检测干扰化合物——是一些子结构,它们在彼此无关的筛选中反复作为苗头出现。它们的滥交性源自上述坏行为:氧化还原循环、共价反应性、金属螯合、荧光。经过整理的PAINS过滤器会自动标记这些子结构,而一个被标记的化合物在你信任它之前,应当受到认真的额外审视。
一套有纪律的分类流程
分类是一门手艺:把一份冗长、肮脏的苗头清单,变成几个值得投入真正化学工作的系列。目标是又快又省地淘汰坏苗头,好让稀缺的精力只用在能存活下来的分子上。下面的顺序大致是按"最便宜且最具区分力"优先排列的。
- 用新称量、重新纯化的固体——而非原始板上的样品——重新确证效力。许多"苗头"在这一步就蒸发了。
- 做去垢剂测试和一个反向筛选,揭露聚集体和检测干扰假象。
- 施加PAINS和结构警示过滤器;对任何被标记的东西去调查,而非自动删除。
- 用一种正交的、了解机制的方法确证结合——生物物理学手段或一个靶点结合读数。
- 按骨架对幸存者聚类,寻找早期的构效关系和良好的配体效率;只推进系列,而非孤立的单个分子。
对一个真正苗头最深刻的检验,是可解释的构效关系:当对分子做出小而合理的改动、效力随之朝合理方向移动时,你几乎可以肯定自己正结合在一个真实的结合位点上。一个孤零零的高效化合物,没有任何类似物,周围的构效关系平坦或混乱——这恰恰是会浪费掉一年时间的那种东西。诚实的分类,正是把原始苗头清单转化为下一个学习轨道将要优化的、值得信赖的先导化合物的过程。