未来はキミドリイロ

サイコメトリックアイドルを目指す心理学徒の勉強部屋です。勉強・趣味などについて書いています。

【書評】靜哲人 (2007). 基礎から深く理解するラッシュモデリング 項目応答理論とは似て非なる測定のパラダイム.

IRT(項目反応理論)についての書籍は多数ありますが,Raschモデルに特化した書籍というのは見たことがなかったので,買って読んでみました(買ったのはだいぶ前なので,積本を消化したかたちになりますが……)。

本書の章立ては次のようになっています。

はじめに

第1部 数学的準備

第1章  加算記号
第2章  確率
第3章  指数と対数
第4章  微分

第2部 テスト理論の基礎

第5章  平均・分散・共分散
第6章  古典的信頼性

第3部 ラッシュ測定理論

第7章  ラッシュモデルの導出
第8章  ラッシュモデルの姿
第9章  受験者能力と項目難度の分離
第10章 受験者能力と項目難度の推定
第11章 情報・誤差・信頼性
第12章 データのモデルへの適合度
第13章 多カテゴリーの項目
第14章 ラッシュモデルと項目応答理論

ラッシュモデルは多くのIRT関連本では1PLモデル(1母数ロジスティックモデル)として位置づけられ,項目反応理論における2PLなどの下位モデルであるとされています。
しかしながら,サーストン系IRTモデルとRaschモデルとでは数学的表現は類似しているものの成立した経緯が大きく異なり,したがってモデルとデータの関係について取る立場も大きく異なります。*1

そうした状況の中で,本書はRaschモデルが「項目反応理論とは似て非なる測定のパラダイム」であることを主張し,わかりやすく説明をしている一冊であるといえましょう。

Raschモデルは言語テスト系の方々からは今もアツい支持を得ているようで,本書の著者である靜先生も英語関係の学問領域の方であるようです。

Raschモデルの特徴は「客観測定(objective measurement)」という言葉で表現されることが多いです。
というのも,IRTではデータをモデルにフィットさせるように(とは本書の言葉)識別力や当て推量などのパラメータを追加し,データをよりよく説明できるモデルを利用するという意味でデータ本位ですが,一方でRaschモデルではモデルに適合しないデータが得られた場合は項目などをより鍛えるべきだ,のようにモデル本位の考え方をします。

その意味で,従来のモデリングが行う「データにモデルを合わせる」という考え方とは真逆の「モデルにデータを合わせる」という考え方は測定のパラダイムシフトである,というのが副題の示す事柄であるわけです。


書評と銘打っているので個人的な感想をいくつか。

まずはモデルの導出についてですが,非常にわかりやすく丁寧です。
具体例をふんだんに用いて説明がなされており,式展開も省略がほとんどないので(一部好みの問題で納得できない式変形はありますが)文系人間であっても問題なく追えるように思います。
不要な方は読み飛ばせばいいと思いますが,第一部として数章を割いて数学的準備をしてくれています必要な方にとってはありがたいですね。
統計的な予備知識のある方は第6章までは読み飛ばして,第7章から読まれても問題はないように思います。
ただ,古典的信頼性の話などはわかりやすく,自分としても再確認したものがありましたので既習の方にも一読の価値はあるかと思いました。

モデルの数式的な導出だけでなく,被験者能力や項目母数の推定についても数値例を豊富に載せて,わかりやすく書かれていました。
エクセルで計算例を多く提示している点も,イメージがしやすくなるためわかりやすさに寄与していると言えるでしょう。
エクセル部分は個人的には天丼な印象だったので,最初はきちんと追いかけたものの2回目からはざーっと流してしまいましたが。

Raschモデルの入門書として,またテスト理論の復習としてよい一冊だと思いますが,そんな本の中に多カテゴリーについてもきちんと触れてあるのは好感が持てました。

この本の一番のキモともいうべきは最終章である第14章の,「ラッシュモデルと項目応答理論」という部分なのだと思いますが,ここは私としてはあまりピンときませんでした。
著者のアツい思いは十分に伝わってくるのですが,「客観測定」という言葉やデータとモデルの関係に対する考え方の違いは説明されれば,「まあそうかな」という感じなのですが,いかんせん主張が強すぎるように感じられて一歩引いてしまいました。
私自身も本書を手に取ったときには,RaschとIRTは歴史的経緯が違うのだから別物なはずだと思っていたはずなのですが,読んでいたときの心情としてはそこまでアツく主張するほどのものなのだろうかという疑問や気持ち悪さのほうが大きかったように思います*2

特に,個人的にわかりにくかったのは最後の章における項目識別力(本書では弁別力と呼んでいます)が全項目で等しいという制約について述べている部分です。
ここは後で考えてみると,得られるデータはガットマンパタンが望ましく,したがってレベルの高い/低い受験者が困難度の低い/高い項目について期待される反応でないものをとることは望ましくない。
言い換えれば,項目同士の関係が受験者の能力で変わるようなことはあってはならない*3ので,項目特性曲線が交わるのは都合が悪い,したがって平行=全項目で識別力が等しいという制約が必要になる。
こんなロジックなんだと書評を書きながら気づきました。
この部分の説明については,積読をしていたからかはわかりませんが,最終章が言葉足らずであるように思われます。

また,索引がないことについては個人的に不満が残りました。


さて,本書の主張と概ね同意見であり,RaschモデルとIRTとは異なるものであると思っているはずなのにこのモヤモヤは何であろうか,と疑問に思ったので手元のIRT関連本をのぞいてみて,すこしだけすっきりしたのでそれについても簡単に述べておきます。

次に述べる事柄については,加藤・山田・川端 (2014) の『Rによる項目反応理論』を引用・参照しました。

Rによる項目反応理論

Rによる項目反応理論

  • Raschモデルの考え方は「モデルは常に正しい。その正しいモデルに合うデータを持ってくることが肝要だ」

つまり,測定における理想をモデル化したものであり,現実の測定も理想であるRaschモデルに近づけるべきであるという主張です。
そのために項目を選定・吟味し,モデル制約を満たす測定を行っていこうというわけです。
guessingやslipといったパラメータはデータをうまく説明するために恣意的に付け足されたものである,と靜(2007)*4は述べます。

  • Raschモデルは「不変性(invariance)」を強く強調する立場

不変性とは古典的テスト理論と項目反応理論の差異ともいうべき特徴で,次の2点を満たすことを言います。

  1. 項目パラメタが,テストを受けた受験者集団に依存せずに推定される
  2. 能力パラメタが,テストに用いた項目に依存せずに推定される

すなわち,項目や能力が相互に依存せず,分離されていることを指します。

これを以てRaschモデルでは,モデルにフィットしていれば測定の客観性が担保される,という主張をしていると靜(2007)は述べます。
しかし,加藤・山田・川端2(2014)が引用している村木(2011)は,IRTにおける識別力パラメータを例に,それらに標本の影響が全くないわけではないことを述べて,パラメータの普遍性あるいは不変性を強調しすぎることには警鐘を鳴らしています。
Raschモデルの場合にはモデルへのデータのフィットを考えることでこの問題に一定の意思表示をしているものとは思われますが。


モヤモヤを解決するために脇道にそれましたが,閑話休題,書評をまとめたいと思います。
本書に関する個人的な感想を次のように箇条書きしてみました。

  • モデルの導出が丁寧である
  • 推定の説明もわかりやすく,エクセル計算の提示によりイメージがしやすい
  • 索引,お願いします
  • 最終章ではアツい主張がみられる(すこし言葉足らずな印象を受けました)
  • 入門書としては,数学的準備も完備されており良い


以上,僭越ながら書評でした。

*1:どこかのタイミングで,両モデルの成立というか導出というかについては軽くまとめたいと考えています。

*2:もちろん個人の感想であり,特定の人物・領域などに向けた悪口ではありません。

*3:2PL以上のIRTでは識別力が各項目で異なるため,項目1と項目2の難しさが受験者のレベルによって異なるということが許容される

*4:書評を書いている「本書」にあたります。加藤・山田・川端(2014)の引用部での記述時に紛らわしさがないようこの表現を用いました。