好想告訴你的醫學統計-平均數、中位數與盒鬚圖
2021-02-06
![](https://0aa9013d64.clvaw-cdnwnd.com/1093e786ffe431098ac496920b49f7d2/200000260-e9613e9616/math-work-ga3cee094c_640.jpg?ph=0aa9013d64)
研究想探討某個疾病發生率跟年齡的關係,所以蒐集了11隻患病的狗做分析。如果我們將患犬的年齡從小到大依序排列可以得到下列的表格:
![](https://0aa9013d64.clvaw-cdnwnd.com/1093e786ffe431098ac496920b49f7d2/200000254-d234ed2351/6c4d1500-b1c4-4fd1-aba3-257c6b7063f0.jpg?ph=0aa9013d64)
這邊可以帶出幾個統計常用的名詞,首先是平均數(Mean)。平均數的算法很簡單,以這個範例而言,如果我們想知道患犬年齡的平均數,講白話些就是平均年齡(mean age),那麼我們只要把所有狗的年齡加起來再除以11就可以得到平均年齡為7.3歲。接著是中位數(Medium),它代表的意義是一組數據如果依大小順序排列,那麼排在正中間的那個數字就是中位數;另外我們也可以把整個順序分為4個等分(Quartile),排在1/4的地方的數字稱作第一四分位數(Q1),排在3/4的數字稱作第三四分位數(Q3)。根據這種方式,排在中間的中位數也可被稱作第二四分位數(Q2),因為2/4就是1/2嘛!如果我們想讓病犬年齡分布用更視覺化的方來呈現,這時候就可以用下面的盒鬚圖(box and whisker plot)來表示:
![](https://0aa9013d64.clvaw-cdnwnd.com/1093e786ffe431098ac496920b49f7d2/200000256-e8bb8e8bbb/939c9990-c477-4a7f-b541-ac3c435ac9c5.jpg?ph=0aa9013d64)
盒鬚圖顧名思義就是由一個盒形及上下延伸的鬚線所組成。盒子的底部代表第一四分位數,頂端就代表第三四分位數,而盒子內的橫線則是代表中位數。盒子的高度稱作四分位距(Interquartile range; IQR),也就是Q3減掉Q1所得到的數字。盒子上下方的鬚線則代表這組數據中「比較有參考意義」的最大與最小值,這邊必須要強調參考意義這四個字,因為如果單看數字的話你可能會有個疑問:年齡最小值不是編號1的2歲嗎?怎麼會變成編號2的4歲?一般來說盒鬚圖的鬚線是分別從Q1及Q3的地方上下延伸1.5倍IQR的距離,然後再從這個範圍內決定最大最小值,這種目的是要凸顯出離群值(outlier),也就是跟整體數據差異過大的極端數值;離群值在盒鬚圖上大多都是用圓圈來表示。不過我也有看過一些paper上的盒鬚圖最大最小值並不完全符合上述的方式(例如下面的圖),如果有人知道這其中的秘密的話歡迎留言幫忙補充。
![](https://0aa9013d64.clvaw-cdnwnd.com/1093e786ffe431098ac496920b49f7d2/200000258-8aa8f8aa91/215946fb-a271-4663-a4dc-52931d5cd671.jpg?ph=0aa9013d64)
節錄自Statistical analysis regarding the effects of height and weight
on life span of the domestic dog. doi:10.1016/j.rvsc.2006.06.005