技术文章
TECHNICAL ARTICLES评判数据标准的指标
也许是历史传统的问题, Rint (Rsym,Rmerge)被选中了作为评判数据标准的指标。甚至在很多不是很专业的书里,学生们都被告知Rint 需要低于多少,I/σ高于多少才能表示数据可用。于是乎,这些数值变成了评判数据质量所谓的金标准。可是当提问Rint 是什么意义时,跟什么因素相关时,大多数同学却卡在了那里。可能Rint在大多数同学眼里就是个发表文章的门槛数值,具体是什么意义已经不再重要。不然就不会有那么多同学追问着怎么把Rint修下去,或者解决掉所谓的“错误"。
诚然Rint本身的意义并不复杂。它的公式也看起来一目了然,表示着合并等效衍射点之间的误差。Rint值越低,通常表示着数据的精度越高。然而这是有一定的前提条件的。Rint实际上并不是一个很好的评判数据质量的指标。毕竟绝大多数数据都是通过Scale校正获得。过度的Fitting,以及刻意排除太多的衍射点都可以获得人为的更低的Rint(以及更高的I/σ)。而这些刻意追求的数字对结构精修并无意义,反而会导致精修的结果失真。甚至一些数据处理的软件会去迎合同学们的这种“追求",去“美颜"数据,让大家“喜闻乐见",然而有时掉进了坑里,却浑然不知。Rint同时也受到数据收集的多重度的影响。过低的多重度,会让衍射点没有其它等效点可以进行比较,自然Rint就会很低,甚至接近于0,然而却毫无意义(结构甚至都无法解析)。而高多重度的数据,由公式决定了Rint自然会升高,反而成了大家不喜欢看到的数值。但是不管怎么解释,很多同学仍然不以为然,原因只是Checkcif不检查多重度,但是对Rint却有“严格"的门槛(而实际上大多数Rint高的问题是分辨率的问题)。同样的I/σ也是一样,不同的误差模型的算法,自然得到的数值会大有不同。调高I/σ自然也是大家喜闻乐见的事情,比如故意降低σ,删除更多的衍射点也会让I/σ看起来更高。然而这些美颜的数据,对结构精修却毫无意义。
对于多重度对Rint的影响,Rmeas解决了这个问题,所以对于蛋白晶体学倾向于用Rmeas。此外现在还有CC1/2 来表征数据质量。不过在化学晶体学界似乎对这两个数值并不感冒。也许是通常衍射太强,不需要更宽松的指标。这些指标在APEX4里都能轻松看到。
实例分析
比如前两天讲座的时候提到的一个数据,大家投票的结果在意料之中。超过一半的同学都认为质量更高的数据是A。如果这是不同的数据还情有可原,然而这是同一套数据,同样的结构模型。或许是颜色的误导,让同学们失去了基本的判断力。A为什么会看起来更好看,因为Reject了很多数据。完整度表观上只下降了2%,而实际上却高达30%的数据被reject,Multiplicity极大的下降。保留下来的衍射点自然站在了一边,虽然看起来更精确,却丢失了准确。自然结构精修的结果就会反过来打脸。追求某些数字,对结构解析和精修本身毫无意义。结构精修的质量作为评判数据质量的指标才更加合理。比如R1,健长的精度,残余的电子峰等。
▲图1 Better Data Quality A or B?
除了软件处理造成的假象,有时候会遇到一些看起来数值质量很高,却怎么也精修不好的数据。比如有严重的无序,莫名的Q峰。这时候专注于结构精修,会百思不得其解。从衍射图上才会发现更多的端倪。孪晶自然不需要多做解释,而另外一些问题则更加的隐蔽,单纯从hkl上其实发觉不了任何问题。因为单晶的数据还原并不是还原的所有的信息,而是通过晶胞截选而来。而很多时候,“晶胞"不能反映衍射的全部信息,自然会丢掉很多原本的衍射细节。比如很多Smear的信号,Modulation的信号,衍射点形状的信号。这些信息都不会在hkl文件中体现。普通的结构精修自然也无法全部的反映晶体的实际状况。
▲图2 丢失的衍射信息 A,衍射点间的弥散信号 B,衍射的背景弥散,C,Modulation (Precession Image)
结论
所以数据质量的评估,从来都不是单个指标,固定的标准。从衍射图到数据处理,到结构精修,每一步的细节都在告诉着我们的数据可能出现的问题。真实的数据才会有真实的结构,刻意为了迎合某些死板的标准,不惜去“美颜"甚至伪造数据,也就背离了科学研究。
-转载于《布鲁克X射线部门》公众号
扫一扫,关注公众号
服务电话:
021-34685181 上海市松江区千帆路288弄G60科创云廊3号楼602室 wei.zhu@shuyunsh.com