技術文章
TECHNICAL ARTICLES評判數據標準的指標
也許是曆史傳(chuan) 統的問題, Rint (Rsym,Rmerge)被選中了作為(wei) 評判數據標準的指標。甚至在很多不是很專(zhuan) 業(ye) 的書(shu) 裏,學生們(men) 都被告知Rint 需要低於(yu) 多少,I/σ高於(yu) 多少才能表示數據可用。於(yu) 是乎,這些數值變成了評判數據質量所謂的金標準。可是當提問Rint 是什麽(me) 意義(yi) 時,跟什麽(me) 因素相關(guan) 時,大多數同學卻卡在了那裏。可能Rint在大多數同學眼裏就是個(ge) 發表文章的門檻數值,具體(ti) 是什麽(me) 意義(yi) 已經不再重要。不然就不會(hui) 有那麽(me) 多同學追問著怎麽(me) 把Rint修下去,或者解決(jue) 掉所謂的“錯誤"。
誠然Rint本身的意義(yi) 並不複雜。它的公式也看起來一目了然,表示著合並等效衍射點之間的誤差。Rint值越低,通常表示著數據的精度越高。然而這是有一定的前提條件的。Rint實際上並不是一個(ge) 很好的評判數據質量的指標。畢竟絕大多數數據都是通過Scale校正獲得。過度的Fitting,以及刻意排除太多的衍射點都可以獲得人為(wei) 的更低的Rint(以及更高的I/σ)。而這些刻意追求的數字對結構精修並無意義(yi) ,反而會(hui) 導致精修的結果失真。甚至一些數據處理的軟件會(hui) 去迎合同學們(men) 的這種“追求",去“美顏"數據,讓大家“喜聞樂(le) 見",然而有時掉進了坑裏,卻渾然不知。Rint同時也受到數據收集的多重度的影響。過低的多重度,會(hui) 讓衍射點沒有其它等效點可以進行比較,自然Rint就會(hui) 很低,甚至接近於(yu) 0,然而卻毫無意義(yi) (結構甚至都無法解析)。而高多重度的數據,由公式決(jue) 定了Rint自然會(hui) 升高,反而成了大家不喜歡看到的數值。但是不管怎麽(me) 解釋,很多同學仍然不以為(wei) 然,原因隻是Checkcif不檢查多重度,但是對Rint卻有“嚴(yan) 格"的門檻(而實際上大多數Rint高的問題是分辨率的問題)。同樣的I/σ也是一樣,不同的誤差模型的算法,自然得到的數值會(hui) 大有不同。調高I/σ自然也是大家喜聞樂(le) 見的事情,比如故意降低σ,刪除更多的衍射點也會(hui) 讓I/σ看起來更高。然而這些美顏的數據,對結構精修卻毫無意義(yi) 。
對於(yu) 多重度對Rint的影響,Rmeas解決(jue) 了這個(ge) 問題,所以對於(yu) 蛋白晶體(ti) 學傾(qing) 向於(yu) 用Rmeas。此外現在還有CC1/2 來表征數據質量。不過在化學晶體(ti) 學界似乎對這兩(liang) 個(ge) 數值並不感冒。也許是通常衍射太強,不需要更寬鬆的指標。這些指標在APEX4裏都能輕鬆看到。
實例分析
比如前兩(liang) 天講座的時候提到的一個(ge) 數據,大家投票的結果在意料之中。超過一半的同學都認為(wei) 質量更高的數據是A。如果這是不同的數據還情有可原,然而這是同一套數據,同樣的結構模型。或許是顏色的誤導,讓同學們(men) 失去了基本的判斷力。A為(wei) 什麽(me) 會(hui) 看起來更好看,因為(wei) Reject了很多數據。完整度表觀上隻下降了2%,而實際上卻高達30%的數據被reject,Multiplicity極大的下降。保留下來的衍射點自然站在了一邊,雖然看起來更精確,卻丟(diu) 失了準確。自然結構精修的結果就會(hui) 反過來打臉。追求某些數字,對結構解析和精修本身毫無意義(yi) 。結構精修的質量作為(wei) 評判數據質量的指標才更加合理。比如R1,健長的精度,殘餘(yu) 的電子峰等。
▲圖1 Better Data Quality A or B?
除了軟件處理造成的假象,有時候會(hui) 遇到一些看起來數值質量很高,卻怎麽(me) 也精修不好的數據。比如有嚴(yan) 重的無序,莫名的Q峰。這時候專(zhuan) 注於(yu) 結構精修,會(hui) 百思不得其解。從(cong) 衍射圖上才會(hui) 發現更多的端倪。孿晶自然不需要多做解釋,而另外一些問題則更加的隱蔽,單純從(cong) hkl上其實發覺不了任何問題。因為(wei) 單晶的數據還原並不是還原的所有的信息,而是通過晶胞截選而來。而很多時候,“晶胞"不能反映衍射的全部信息,自然會(hui) 丟(diu) 掉很多原本的衍射細節。比如很多Smear的信號,Modulation的信號,衍射點形狀的信號。這些信息都不會(hui) 在hkl文件中體(ti) 現。普通的結構精修自然也無法全部的反映晶體(ti) 的實際狀況。
▲圖2 丟(diu) 失的衍射信息 A,衍射點間的彌散信號 B,衍射的背景彌散,C,Modulation (Precession Image)
結論
所以數據質量的評估,從(cong) 來都不是單個(ge) 指標,固定的標準。從(cong) 衍射圖到數據處理,到結構精修,每一步的細節都在告訴著我們(men) 的數據可能出現的問題。真實的數據才會(hui) 有真實的結構,刻意為(wei) 了迎合某些死板的標準,不惜去“美顏"甚至偽(wei) 造數據,也就背離了科學研究。
-轉載於(yu) 《布魯克X射線部門》公眾(zhong) 號
掃一掃,關(guan) 注公眾(zhong) 號
服務電話:
021-34685181