分类与陷阱：PAINS、假阳性与真苗头

为什么大多数苗头是谎言

一次初筛会产生一份苗头清单，而其中大部分是噪声。假阳性是指看起来有活性、却并未按你所期望的方式作用于靶点的化合物。几个经典的罪魁祸首值得记住名字。聚集体形成微小的胶体颗粒，把蛋白质裹挟起来，非特异性地抑制几乎一切。反应性化合物不加区分地对蛋白质进行化学修饰。还有些分子在检测的波长处吸收或发射光，根本不碰蛋白质就骗过了检测器。

这些机制之所以阴险，是因为它们能产生漂亮、看似高效的量效曲线。一个化合物可以给出干净的IC50，却仍然对你的靶点毫无真实作用。这正是为什么单凭一个数字永远定不了任何事；你必须追问这个化合物是如何产生那个数字的，而不只是它有多大。

PAINS与结构警示

PAINS——泛检测干扰化合物——是一些子结构，它们在彼此无关的筛选中反复作为苗头出现。它们的滥交性源自上述坏行为：氧化还原循环、共价反应性、金属螯合、荧光。经过整理的PAINS过滤器会自动标记这些子结构，而一个被标记的化合物在你信任它之前，应当受到认真的额外审视。

一套有纪律的分类流程

分类是一门手艺：把一份冗长、肮脏的苗头清单，变成几个值得投入真正化学工作的系列。目标是又快又省地淘汰坏苗头，好让稀缺的精力只用在能存活下来的分子上。下面的顺序大致是按"最便宜且最具区分力"优先排列的。

用新称量、重新纯化的固体——而非原始板上的样品——重新确证效力。许多"苗头"在这一步就蒸发了。
做去垢剂测试和一个反向筛选，揭露聚集体和检测干扰假象。
施加PAINS和结构警示过滤器；对任何被标记的东西去调查，而非自动删除。
用一种正交的、了解机制的方法确证结合——生物物理学手段或一个靶点结合读数。
按骨架对幸存者聚类，寻找早期的构效关系和良好的配体效率；只推进系列，而非孤立的单个分子。

对一个真正苗头最深刻的检验，是可解释的构效关系：当对分子做出小而合理的改动、效力随之朝合理方向移动时，你几乎可以肯定自己正结合在一个真实的结合位点上。一个孤零零的高效化合物，没有任何类似物，周围的构效关系平坦或混乱——这恰恰是会浪费掉一年时间的那种东西。诚实的分类，正是把原始苗头清单转化为下一个学习轨道将要优化的、值得信赖的先导化合物的过程。