在許許多多的醫(yī)療器械臨床試驗中,我們設(shè)計方案、入組受試者、采集研究數(shù)據(jù),整個過程漫長而艱辛,所有的努力都是為了最后那個簡單的P值或者置信區(qū)間上。
在許許多多的醫(yī)療器械臨床試驗中,我們設(shè)計方案、入組受試者、采集研究數(shù)據(jù),整個過程漫長而艱辛,所有的努力都是為了最后那個簡單的P值或者置信區(qū)間上。那么P值和置信區(qū)間代表什么意思呢?為什么我們要做計算P值或置信區(qū)間來做統(tǒng)計推斷呢?
首先我們要弄清楚兩個概念,置信度和置信區(qū)間 :
置信度:以測量值為中心,在一定范圍內(nèi),真值出現(xiàn)在該范圍內(nèi)的幾率。一般設(shè)定在2σ,也就是95%,95%是通常情況下置信度(置信水平)的設(shè)定值。
置信區(qū)間:在某一置信度下,以測量值為中心,真值出現(xiàn)的范圍。 我們在論文里經(jīng)??吹紺I,CI是置信區(qū)間,一定概率下真值得取值范圍(可靠范圍)稱為置信區(qū)間。其概率稱為置信概率或置信度(置信水平)
在講P值和置信區(qū)間之前,我們先講講樣本與總體。
在《醫(yī)學(xué)統(tǒng)計學(xué)》中,根據(jù)研究目的而確定的同質(zhì)觀察單位的全體成為總體。觀察單位,又稱個體,是統(tǒng)計研究中的基本單位,他可以是一個人、一個器官、一個細(xì)胞。
比如調(diào)查某公司某一天來上班的所有員工的體重,那么一個員工就是一個觀察單位,所有員工就是一個總體。同一家公司、同一天形成了同質(zhì)的基礎(chǔ)。在這個例子中的總體是一個“有限總體”,他規(guī)定了時間、范圍里有限個觀察單位。
但是在臨床試驗中,大多數(shù)情況下我們的總體是“無限總體”,是沒有辦法觀察到所有觀察單位的。比如研究某透析器對慢性腎衰竭患者的肌酐清除率,這里同質(zhì)的基礎(chǔ)是慢性腎衰竭的患者,但是患者的總數(shù)在理論上是存在的,但是真正是多少我們無法得知。在這種情況下,我們只能抽取其中的部分患者進(jìn)行研究。這部分隨機抽取的患者稱為樣本,我們通過樣本信息推斷總體特征。
當(dāng)檢驗水準(zhǔn)為雙側(cè)0.05時,大多數(shù)情況下P<0.05是我們希望看到的結(jié)果。但是P值本身的含義是什么呢?
以兩組間的差異性檢驗為例,P值指的是,如果試驗組療效和對照組療效相同(來自一個總體),那么得到現(xiàn)有這么大的差別或更大差別的可能性。
打個比方,研究某微波消融設(shè)備A與另外一種微波消融設(shè)備B在治療肝臟腫瘤的療效,受試者隨機分組至A組或B組,分別采用設(shè)備A和設(shè)備B進(jìn)行治療,兩組各100人。
表1 兩種微波消融設(shè)備首次消融成功率的比較
A組首次消融成功率為96%,B組首次消融成功率為88%,采用Pearson χ2 計算P值為0.0371。結(jié)合P值的定義,說明如果A組和B組的首次消融成功率是一樣的,那么得到96%-88%=8%這樣的差別或大于8%的差別的概率為0.0371。0.0371<0.05,說明不太可能得到現(xiàn)有這么大或者更大差別的結(jié)果了,這種差別不是樣本抽樣偶然性導(dǎo)致的,可能是兩組總體不同導(dǎo)致的,所以可以推斷A組和B組的總體首次消融成功率不同。
置信區(qū)間是推斷兩組差別所在的范圍,如果置信區(qū)間包含0,則可以認(rèn)為兩組間差異無統(tǒng)計學(xué)意義,否則差異有統(tǒng)計學(xué)意義。接上述例子,兩組樣本的率差為8%,其雙側(cè)95%置信區(qū)間為(0.31%,16.18%),那么兩個總體的率差會在這個范圍內(nèi)。這個置信區(qū)間不包含0,所以可以認(rèn)為A組和B組的總體首次消融成功率不同。
需要注意的是置信區(qū)間意味著95%的情況下可以估計到總體率差,還有5%的情況可能估計不到。比如我們在總體中隨機抽取100份樣本,每份樣本中有2組,每組100人分別使用設(shè)備A和設(shè)備B,并計算置信區(qū)間。那么有95份樣本的置信區(qū)間包含總體率差,有5份樣本未包含總體率差。而不是指“該區(qū)間有95%的可能包含總體率差,有5%的可能不包含”。
統(tǒng)計推斷是樣本信息推斷總體特征的方法,P值和置信區(qū)間是統(tǒng)計推斷直觀的表現(xiàn)形式。
在抽取的樣本中,A組首次消融成功率為96%,B組首次消融成功率為88%,如果只從樣本的結(jié)果來看確實是A設(shè)備比B設(shè)備要好。但是我們不知道這個8%的優(yōu)勢,是由抽樣的偶然性造成的呢,還是兩組的總體確實不同。我們的研究不僅僅是研究這個樣本,尤其是藥品或醫(yī)療器械的臨床試驗,我們是要通過樣本計算P值和置信區(qū)間,從而推斷出在總體的人群當(dāng)中A設(shè)備的療效比B設(shè)備要好。這就是計算P值和置信區(qū)間的意義。