NEJM聲明 New Guidelines for Statistical Reporting in the Journal(傳送門)
內容大概是,NEJM的編輯部跳出來發文提醒大家說:
『過去這一年想必大家都發現了吧!發現我們刊登的文章已經明顯減少P值的使用!』
其實我根本沒發現.........(坦誠)
在2017年胸腔年會中"大數據對醫學研究的影響"這一堂演講中也提到過一樣的問題。
大數據使的P值變好看了!但是卻也讓P值逐漸喪失價值............
P值雖然很好用,但是P值的過度使用,會樂觀的誤導研究成果!
P值常會遇到的問題,本文列舉重點如下:
●隨著大數據時代來臨,資料數目越來越龐大,P值越來越容易小於0.05,甚至小於0.01或0.001都不是難事!
譬如我舉例的這個肺結核研究,探討胃癌病人胃切除後的肺結核感染風險,研究C的P值最漂亮(<0.001)!但是他的Risk其實是最低的!!數字很大但是風險反而是最低的!
●P小於0.05並不就意味著研究成功,譬如這個例子,Tarceva在胰臟癌的臨床試驗上P值達到統計學上的有意義!(<0.05),但是事實上只讓病人的存活增加了10天!
所以不光是追求P值有意義,更應該探討實際上臨床的治療意義!
也就是Statistical significance or Clinical Significance!
討論Effect size更重要!
●P值0.05顯著,就是安全的嗎?
P值0.05,代表研究的結果出錯的機會,20次中會有1次出錯!
可是在研究過程中,研究者因為希望研究的結果是顯著,
問題一:一次不顯著,我多做幾次研究不就好了!
有錢的公司真的可以這樣搞!可以使用多收案或者是多做幾次重複的研究,來使得統計結果顯著!
過去在抗憂鬱藥物的RCT研究中,就已經被發現有許多Negative result的RCT沒有被發表!而Positive研究99%都被發表了!!
問題二:一次探討好幾個outcome!而這時出現的這個問題叫做多重檢定!
過去我們常常看到一篇大論文會檢定出幾十個P值!檢定出來幾十個outcome!
但是如果此時還是使用P值0.05時,多重結果中至少有一個結果出錯的機會就大幅上升!
如果多重檢定還每一次檢定都還是用p值0.05來看,這樣是會有問題的!此時如何好好分配alpha值,就是很重要的手續了!
●P值不使用、問題就不存在了嗎?
NEJM編輯部表示,希望多重檢定的時候,就不要使用P值,使用信賴區間(95% CI)去呈現!
其實這樣仍然沒有解決目前的問題,95信賴區間其實就P值0.05的有效區間不是嗎?
到頭來問題仍是沒有解決,此時我們就應該用更客觀的解度來評估研究結果是否可信!
是否只是一個P值有意義的研究結果?而是臨床意義不大!
●P值越小<0.01,0.001,0.0001,結果就是安全的嗎?
非也!因為P值也無法探討研究設計的錯誤(Bias),P值越小不代表Bias就不存在!
其實最重要的是要研究設計是否正確!是否使用正確的方法去探討研究所要回答的問題!
最後蘇醫師用馬克吐溫說過的名言來提醒大家:
世界上有三種謊言:謊言、該死的謊言、統計數字!
結論:P值仍然很重要,問題的核心在於研究設計與檢定方式,而問題不單單只是P值該不該0.05而已~
沒有留言:
張貼留言