級内相関係数、κ係数

級内相関係数の種類

ICC1

1人の検者が検査・測定を複数回繰り返したときの信頼性（精度，再現性）。

ICC2

検者間信頼性。

ICC3

検者間信頼性。ICC2は検者を母集団から任意に抽出したことを想定する方法で（random）、ICC3は特定の検者に意味を持たせる（fixed）ことを想定する方法。

これらのICC1〜3には、1回測定した値を用いる場合とk回（複数回）測定した値の平均値を用いる場合があり、1回測定した場合はICC1、ICC2、ICC3、k回測定した場合はICC1k、ICC2k、ICC3kと表現する。

[1] Psych package – CRAN.R-project.org – psych.pdf（pp189）

[2] 土屋政雄 – 再検査（再テスト）信頼性のための級内相関係数(ICC)(3):Rで算出

[3] 対馬栄輝研究室 – 信頼性指標としての級内相関係数

[4] 日本理学療法士協会 – 級内相関係数（ICC）　intraclass correlation coefficients

[5] 統計学備忘録 since2016 – 級内相関係数 ICC

級内相関係数の計算

パッケージpsychに含まれるICC関数を用います。

R Console

> set.seed(123);st1 <- round(rnorm(20, mean=21, sd=7)) # 正規分布に従うサンプルデータを20個生成する。 
> set.seed(123);st2<-round(st1 + runif(20, min=-5,max=10)) # st1から少し（-5から+10）ずれるようにst2を生成。 
> set.seed(123);st3<-round(st2 + runif(20, min=-10,max=5)) # st2とは反対に（-10から+5）ずれるようにst3を生成。
> st.dat <- data.frame(st1, st2, st3) # st1、st2、st3をデータフレーム形式にまとめる。
> library(psych) #パッケージpsychを呼び出す。
> ICC(st.dat) # ICC関数で級内相関係数を計算。
Call: ICC(x = st.dat)

Intraclass correlation coefficients 
                         type  ICC  F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.76 10  19  40 5.2e-10        0.57        0.88
Single_random_raters     ICC2 0.76 11  19  38 3.2e-10        0.57        0.89
Single_fixed_raters      ICC3 0.77 11  19  38 3.2e-10        0.59        0.89
Average_raters_absolute ICC1k 0.90 10  19  40 5.2e-10        0.80        0.96
Average_random_raters   ICC2k 0.90 11  19  38 3.2e-10        0.80        0.96
Average_fixed_raters    ICC3k 0.91 11  19  38 3.2e-10        0.81        0.96

 Number of subjects = 20     Number of Judges =  3
# 該当するICCを利用する。

MEMO

パッケージirrに含まれるicc関数を用いても計算できるようです。

κ係数

級内相関係数は量的データの信頼性を評価する指標ですが、名義尺度や順序尺度の信頼性を評価するためにはCohenのκ（カッパ）係数というものを用います。Cohenのκ係数は基本的には2人の検者間の信頼性を評価します。

パッケージirrに含まれるkappa2関数により計算できます。

R Console

> st1 <- c(1,2,3,1,2,3,1,2,3,1) # 検者1の評価値。順序尺度を仮定。
> st2 <- c(1,2,3,2,2,3,2,2,3,1) # 検者2の評価値。2つほど検者1と異なる。
> st <- data.frame(st1,st2) # 2つのベクトルをデータフレームにまとめる。
> library(irr) # パッケージirrを読み込む。
> kappa2(st, "squared") # kappa2関数を用いる。順序尺度なので重み付けを行うためのオプション"squared"を付ける。
 Cohen's Kappa for 2 Raters (Weights: squared)

 Subjects = 10 
   Raters = 2 
    Kappa = 0.836 

        z = 2.77 
  p-value = 0.00554

MEMO

κ係数の評価は目安は、Landis and Koch (1977)による以下のものや、

0.0〜0.2: わずかに一致(slight agreement)
0.21〜0.40 まずまずの一致(fair agreement)
0.41〜0.60 中等度の一致(moderate agreement)
0.61〜0.80 かなりの一致(substantial agreement)
0.81〜1.0 ほぼ完全、完全一致(almost perfect or perfect agreement)

Krippendorff (1980)による以下のもの

0.67未満　評価しない(discounted)
0.67〜0.80　不確かな結果(conclusions tentatively)
0.80以上　明確な結果(definite conclusions)

があるようです。

κ係数の重み付けについて

名義尺度と順序尺度では一致しない場合の意味合いが異なります[2]。kappa2関数には重み付けをする方法としてオプションで”equal”か”squared”を付ける方法があります[3]。[1]の説明を見ると”squared”の方が順序尺度の特徴をよく表現できるように感じました。

[1] 井出草平の研究ノート – コーエンのκ係数

[2] 大阪大学腎臓内科 – κ係数によるreproducibilityの評価

[3] irr package – kappa2