（心理学的）測定上の困りごと

　以前，「測定の問題」という記事を書きました。APS Observerが出している「Measurement Matters」という記事を読んだ感想です。せっかくであれば全文訳したいと思い，著者（Eiko I. Fried & Jessica K. Flake）と，APS（Association for Psychological Science）に翻訳の許可を依頼しました。

　先日，両者から無事許可が下りたので，その全文訳を以下にて掲載いたします。

　原記事の意味は損なわないようにしながらも，できるだけ日本語として読みやすくなるように努めました。ですので，多少言葉を足したところがあります。原記事（英文）には誰でもアクセスできるので，私の訳のミス等ありましたら，ご指摘いただけますとありがたく存じます。

　また，全文訳と書きましたが，謝辞と引用文献・参考文献は訳していません。これらに関しては原記事をご参照ください。原記事の出典は以下の通りです。

Fried, E. I., & Flake, J. K. (2018). Measurement matters. APS Observer. Retrieved from https://www.psychologicalscience.org/observer/measurement-matters (September, 30, 2021)

（心理学的）測定上の困りごと

286日にわたる長く寒い旅路を経て，1999年9月23日，マーズ・クライメイト・オービターは目的地に到着しました。しかし，その人工衛星はミッションを開始することなく，大気中で崩壊してしまいました。というのも，あるソフトウェアモジュールがアメリカで広く使われている単位に基づいて計算した結果を，メートル法を前提とした別のモジュールに受け渡したからでした。それから4年後，ライン川をまたいで建設していたドイツとスイスをつなぐ大きな橋を，両側から接合しようとしたことがありました。工事現場の人たちを驚かせたのは，両側をくっつける際に，54 cm（21 in）の高さの違いがあったことです。理由は簡単で，片側は北海からの高さ，もう片側は地中海からの高さという異なる海面からの測定結果が建設する際に使われていたからでした。

人工衛星を宇宙に送り出すという最大級に科学的な試みの一環においてさえ，測定上の困りごとが起こる場合があります（そして，ときに悲惨な結果がもたらされます）。心理学も，よりオープンで厳格な科学へと研究文化を移行しようとする中で，同じ状況に陥っています。現状，このような移行の中で，測定に関する話題はほとんど無視されています。測定の質は統計的実践よりもさらに根本的なので，残念な状況です。どれほど高度で申し分のない倹約的な統計モデルであっても，測定が不十分であれば，どうしようもありません。

心理学において測定は困難を極めます。というのも，測定したいものが直接的に観察できないことが多いからです。バスで隣り合った人の身長は直接観察することができても，知能，外向性，抑うつなどの目に見えない心理学的属性については見抜けないことがほとんどです。構成概念の妥当性検証（ある構成概念を測定する道具が実際にその構成概念を測定していることを示すこと）は，簡単なことではありません。心理学的構成概念は観察が難しいだけでなく，複雑でもあります。海抜を計算する際にどの海を基準にするかを決めることは比較的簡単ですが，知能，外向性，抑うつを明確に定義することはやりがいのある困難な作業です。これらの構成概念には，さまざまな行動，知覚，主観的経験，環境の影響，生物学的素因が含まれます。そのため，これらの構成概念を理解したり測定したりする方法は様々です。

本稿では，心理学的測定の軽視について取り上げ，それが心理科学の再現可能性に対する近年の取り組みに対していかに深刻な（ただし，あまり認識されていない）脅威をもたらすかを説明します。その後，今後の展望としていくつかの提案をします。

問題点：測定の軽視

外向性のような心理学的構成概念を測定する際，心理学者は複数の項目を用いた質問票をよく利用します。項目を合計して得点を算出し，合計得点が当該人物の構成概念上での立ち位置を表していると仮定されます。「ポールは外向性尺度で高い得点であった」ことから，ポールは非常に外向的であると予想されます。このような推論は，心理測定をすれば簡単に得られるわけではなく，その推論を裏付ける妥当性の証拠^[1]が必要です。そのためには，(1)どのような項目が尺度に含まれるべきかに関する適切な理論，(2)十分な心理測定的性質（信頼性，次元性など）を示す尺度，（3）あると予想される集団間差や因果関係を捉えるかたちで，予想される方向にほかの構成概念と関連する（収束的妥当性，弁別的妥当性など）尺度の3つが求められます。尺度がこれらの規準を満たしている場合にのみ，実質的な推論が可能となります。

[1]妥当性と測定を心理学でどのように定義するのが最も良いのかについて，古くから続く哲学的議論があります。妥当性理論の詳細な議論は本稿の範囲を超えていて，詳しくはほかで説明されています（たとえば，American Educational Research Association, American Psychological Association, & National Council on Measurement in Education, 2014; Borsboom, Mellenbergh, & van Heerden, 2004; Kane, 2013）。今回は，レーヴィンガー（Loevinger, 1957）の構成概念の妥当性検証に関する発展的な研究に基づく妥当性を前提とします。

残念ながら，心理学研究の多くの領域では，妥当性の証拠が不足しています。たとえば，抑うつは，年間1,000件以上の調査研究で評定されており，様々な分野（心理学，精神医学，疫学など）で，アウトカム，予測因子，調整因子，共変量として用いられています。抑うつの重要度を評価する尺度は，ここ100年の間で280種類以上が開発され，研究で使用されてきました。よく使われている抑うつの諸尺度では，50以上の異なる症状が取り上げられており，尺度間での内容の重複はあまりありません。たとえば，最も引用されている尺度 the 20-item Center of Epidemiological Studies Depression scale （Radloff, 1977; 約41.300件の引用）にある諸症状の1/3は，そのほかのよく使われる尺度には含まれていません。結果として，尺度の違いによって結論が異なることが，臨床試験で幾度となく証明されています。たとえば，最近の臨床試験で，全身温熱療法が抑うつの治療に効果的かどうかを調べるために，4つの異なる尺度で患者に質問をしました。その結果，4つの尺度のうち1つだけがプラセボ群に比べて温熱療法群で有意な改善を示していました。残念なことに，その著者らは，効果がなかった3つの結果について論文内では言及せず，補足資料として報告しました。これは重要な教訓です。すなわち，複数の測定法の結果を比較することでより頑健な洞察が得られますが，p-hacking，fishing，あるいはそのほかの疑わしい研究実践（questionable research practices）への扉も開かれます。

まだまだあります。大うつ病は，DSM-5の現場試験で評定されたすべての精神疾患の中で評定者間信頼性が0.28であり，最も低かったものの1つでした。一般に抑うつ尺度は，その多次元性と，経時的な測定不変性の欠如とを考慮せずにモデル化されることが多いです。このような理論的・統計的な測定上の問題は，オービターの場合と同様に，調査研究の結論を歪め，推論（科学者の現実の行動と科学における資源配分に影響を及ぼすもの）を間違わせるという重大な帰結をもたらす可能性があります。

心理学研究において測定という営みが不十分であるのは，なにも抑うつだけではありません。特定領域のレビューでも同様の問題が指摘されており（たとえば，感情：Weidman, Steckler, & Tracy, 2016），私たちの最近の研究によれば，不十分な営みは多くのトピックや領域にわたっています。2014年のJournal of Personality and Social Psychology誌の掲載論文から35の実証論文をサンプルとして取り出し系統的にレビューしたところ，心理学的構成概念の測定を目的とした尺度が433個ありました。これらのうち，約半数は妥当性検証について触れていませんでした。多くの尺度では，心理測定的性質としてクロンバックのαだけが報告されており，1/5の尺度では心理測定的情報がまったく報告されていませんでした。単純化すれば，実践的には，妥当性の証拠には，(1)なにもない，(2)αのみ，(3)引用（おそらく妥当性の証拠を報告している別の論文を引用すること），(4)多くの証拠（様々な形式で示される）の4つの階層があります。加えて，抑うつの研究と同様に，研究者の裁量も確認されました。すなわち，論文の著者らは，複数の尺度を使って1つの構成概念を測定したのに，特定の1つの尺度を使う場合にその根拠を示していませんでした。また，尺度の修正（項目の追加や削除）が当然のように行われており，複数の尺度をとくに理由の説明もなく単一の指標としてまとめていたことも確認されました。

不十分な測定では再現は難しい

以上の研究結果をまとめると，測定という営みが不十分であることと，現在議論されている再現性との間に関連があることは無視できません。たとえば，モニンら（Monin, Sawyer, and Marquez, 2008）は，「再現性プロジェクト：心理学」の一環として追試もする中で，様々な尺度を用いて研究を行いました。しかし，追試では，主要な測定道具の因子解が異なることが明らかにされ，因子を形成する項目も異なっていました。この研究結果はどのように解釈すべきでしょうか？　理論が間違っていたのでしょうか，追試の失敗でしょうか，それとも測定道具が悪かったのでしょうか？　繰り返しになりますが，このような問いは広範囲にわたっています。たとえば，抑うつの場合，ある尺度の因子構造は，サンプルによって，また同じサンプルでも時間の経過によって，さらには同じサンプルでも層によって異なることがよくあります。

尺度に妥当性がなかったり，尺度がサンプルによって異なる構成概念を測定したりする場合，追試を行う利益はほとんどありません。なによりもまず，対象とする変数をどのように定義し，測定するのかについて立ち止まって考えなければなりません。そのような場合，必要なのは追試ではなく妥当性の研究です。心理学の再現性を高めようと思うなら，測定という営みを改善しなければなりません。再現が当たり前になるには，測定理論が当たり前に使われなければなりません。

今後の展望

心理学では規範が変わりつつあり，近年の論文や出版社の方針によって，心理学者はより厳密でオープンな実践に取り組んでいます。しかし，測定と再現性との関連に焦点を当てているものは依然として少ないです。そこで，心理学のすべての分野の研究者に関連すると考えられる，いくつかの概括的な提言をして本稿を終わりにします。

測定しようとする構成概念（構成概念をどのように定義し，どのように測定するのか）と，測定道具に関する情報をはっきりと示すこと。
数ある尺度の中から特定の尺度を選ぶ場合や，尺度を修正する場合は，その合理的根拠を示すこと。可能であれば，複数の測定道具を使用して，知見の頑健性を示したり，ある知見が特定の尺度への反応であることを示したりすること。
研究の事前登録をすること。これによって，好ましい結果を選択的に報告すること，望ましい結果を得るために測定道具を探索的に変えること，測定道具ごとに異なる結果に対して拡大解釈することを防ぐことができる。
研究で用いる測定道具について熟慮すること。その測定道具の妥当性の証拠はどのカテゴリ（なにもない，αのみ，引用，多くの証拠）なのか？　最初の2つのカテゴリであれば，妥当性検証研究の実施を検討すること（参考文献は以下）。それができないのであれば，測定に研究の限界があると認めること。
妥当性の証拠の唯一の情報としてクロンバックのαを使うのは止めること。αにいかに限界があるのかについてはこれまでに散々指摘され，はっきりと説明されている（たとえば，Sijtsma, 2009）。αだけでは尺度の妥当性にはならない。
査読の際や，編集委員を務める際には，上記の点を考慮すること。読者が今後の研究で測定を評価し再現できるように測定に関して必要な情報を著者にしっかり報告してもらうようにし，担当する雑誌における測定の規準を変更する手助けをすること。

測定の研究が難しいことは承知しています。測定には，理論的な専門知識と方法的な専門知識の両方が必要です。優れた心理測定の実践で，定義が不十分な構成概念の埋め合わせをすることはできませんし，十分に定義された構成概念で，不十分な心理測定の埋め合わせをすることはできません。このような理由から，測定を手っ取り早く改善する方法は見つけられません。その代わりとして，多くの心理学者は妥当性理論や心理測定の養成課程がなかったであろうと考えられるので，さらなる学習に興味がある人のために文献リストを作りました。入手しやすい文献とともに，測定と妥当性検証に関する重要な資料のコレクションもあります。

最後に，Wikipediaの「Psychological Measurement」の記事（同記事は「Psychological Evaluation」のページに自動で遷移します）のスクリーンショット（図1）をご紹介します。

諸手を挙げて賛成です。測定はもっと注目されるべきです。

図1. 心理学的測定についてのWikipediaの記事のスクリーンショット。心理学的評価のページに自動で遷移する。

あとがき

　以上が「Measurement Matters」の全文訳（謝辞・文献リスト除く）です。いちおう，2点だけ，個人的に気になることを書いておきたいと思います。

妥当性についての議論

　今回はレーヴィンガー（Loevinger, 1957）の妥当性に基づくとのことでした。レーヴィンガーの妥当性の考え方はStandards（AERA et al., 2014）にも受け継がれており，論文の発表年は60年も前ですが，今日にも通用すると考えることもできるかもしれません。

　一方で，やはり気になるのは，レーヴィンガーの妥当性と今日的な妥当性（メシック的な妥当性／妥当性検証）とは微妙に考え方が違う点です。レーヴィンガー（Loevinger, 1957）はクロンバックとミール（Cronbach & Meehl, 1955：今日的な妥当性の考え方の源流）の批判的継承として発表されており，C&Mと構成概念の扱い方が若干違います。

　レーヴィンガーは「構成概念は研究者の頭あるいは雑誌の中にあるもの」と考えており，「特性（＝人間にあるもの）」と「構成概念」とを分けて捉え，妥当性にとってのコアは構成しないものであると述べています（Slaney, 2017）。（C&Mの発展的継承である）メシック的な妥当性とは，「理論や証拠がテストの使用目的に対するテスト得点の解釈の仕方を支持する程度」（AERA et al., 2014）であり，妥当性のコアは解釈（＝構成するもの）が適切かどうかにあります。すなわち，レーヴィンガーとメシックの妥当性の捉え方は微妙に違うわけです。

　妥当性がどのようなものであれ測定の軽視が良くないのはその通りですが，測定が良いかどうかは妥当性がどのようなものかに依存するので，妥当性をどのようなものと考えるかは測定と同じ程度に考えるべき問題なのだと感じました。

　Assessment in Education: Principles, Policy & Practice, Volume 23, Issue 2 (2016) においてvalidity特集が組まれていますので，ご関心のある方はぜひ（読書会をしてもいいかも？）。

　余談ですが，ボースブーム（Borsboom, 2005）の妥当性は「測りたいものが測れているか」という極めて明確な定義で，多くの心理学者にとって馴染みやすい定義であると思います。しかし，ボースブームはメシック的な妥当性への批判として妥当性の議論を展開しています。すなわち，ボースブームの妥当性とメシック的な妥当性は基本的には対立するものであり，単純には並置できません。

　ボースブームの定義を採用しておきながら，メシック的な妥当性／妥当性検証（妥当化）を無説明に並置することは，端的にいえば，あまり良くない営みだと思います。ボースブームとメシックを統合する際には少なくともきちんとした説明（なぜ両者が統合できるのか）が必要です。

測定の妥当性についての提言（への苦言）

　最後の提言で「研究で用いる測定道具について熟慮すること。その測定道具の妥当性の証拠はどのカテゴリ（なにもない，αのみ，引用，多くの証拠）なのか？　最初の2つのカテゴリであれば，妥当性検証研究の実施を検討すること（参考文献は以下）。それができないのであれば，測定に研究の限界があると認めること。」とありました。全体的な内容には賛同いたしますが，「それができないのであれば，測定に研究の限界があると認めること。」は少し弱腰すぎないかと個人的には思います。

　妥当性が検証できないというのは要するに何を測定できているのかわからない（あるいは，テスト得点の解釈が適切かわからない）ということですので，結果をどのように判断すればいいのかわかりません。測定に限界があるとは，「結果は◯◯でした。でも，正しいかわかりません。」と述べていることと一緒であり，どこまで正しいのかさえわかりません。研究の限界 limitation とは，「ここまでは言えそう。これ以上は言えなそう。」という「結果の正しさ」の境界線を引く行為であることを踏まえると，「測定できていないかも」は限界でさえない（研究をやり直すべき事象である）と個人的には感じます。

　蓄積していくことでわかることもあるということなのかもしれませんが，それはあくまで例外事項としておくべきであり，原則的には，妥当性を担保することが求められると思います。ですので，（ちょっと強気すぎるかもしれませんが，）「妥当性の検証ができないのであれば，そもそも測定できるものなのかどうかを考え直すこと」が良いのではないかと思います。