読了: Mollick & Kober (2020) 薬物依存の計算モデル

Mollick, J. A., & Kober, H. (2020). Computational models of drug use and addiction: A review. Journal of Abnormal Psychology, 129(6), 544–555.

都合によりしばらく前に目を通したやつ。薬物依存の計算モデルのレビューである。

1. イントロダクション
 依存症 (薬物使用障害, SUD)というのは深刻な問題でして… [中略]
 依存症のモデルは、純粋に心理学的なモデルから脳回路ベースのモデルまでいろいろあるけれど、多くのモデルは神経生物学的にインスパイアされているか、神経生物学的なコンポーネントを仮定している。
 まあモデルがあるだけありがたいんだけど、でも理論的モデルというのはSUDの発展と維持における具体的な機能なりプロセスなりを形式化していない。だから検証可能な仮説を生まない。
 その点、計算論的なモデルだとより助かる。もちろん、ちゃんと理論を持っていて、モデルの要素は人間の心的過程とリンクしていないといけないんだけど。

2. 依存症と薬物使用の計算論的モデル
 大きく、(1)数学的モデルと (2)生物学ベースのモデルに分かれる。モデルの要素と脳回路が正確に対応していないのが前者、しているのが後者。前者はマーいうところのアルゴリズムレベル、後者は実装レベル。

2.1 数学モデル
 最初期のモデルはBeckerの合理的嗜癖理論。依存症というのも効用最大化だと考える。これに対してBernheim & Rangel (2004)は薬物使用を非合理的な誤りとして特徴づけ、クールな合理的システムとホットな非合理的システムを考えた。どちらのモデルも、人間のデータには適用されなかったし[えっそうなの??]、薬物使用と依存症それ自体を区別していなかった。
 以下、数学的モデルを4群に分けて紹介する。

 その1,強化学習とドーパミン・ベースのモデル。
 中脳辺縁系のドーパミン・システムに焦点を当て、ドーパミン・ニューロンが期待と結果のずれ(予測誤差, PE)を符号化しているのだと考える。薬物はこのシステムを鋭敏にし、報酬の顕著性を薬物手掛かりに帰属させるので、薬物への渇望と使用動機が高まる。手がかりの価値を拡張させるような学習がなくても、生理学的な動因状態のせいで手がかりの価値が割り増される。
 こういうモデルは、薬物によって引き起こされる学習の影響については述べず、薬物使用の行動的な効果のシミュレーションに焦点を当てている。塩分を剥奪すると塩分を予測する手がかりに対して腹側淡蒼球(価値の符号化に関わる)の神経信号が増えることが知られていて[動物の話でしょうね]、モデルはこの知見と一致している。
 いっぽう、薬物使用について述べているだけで依存症にそのものについて述べているわけではない。また、予測誤差ベースの説明とも一致しない(予測誤差ベースの説明では、価値が変化するためには新しい学習が必要なはずである)[←んんん? ちょっとよくわかんなくなっちゃった]。

 Redish(2004)というのもある。コカインがドーパミン・トランスポーター(ドーパミンを再取り込みするタンパク質)に与える影響に注目し、薬物という報酬に伴って一貫してポジティブなPEが生じるので、薬物の手がかりの価値は増大すると考える。このモデルによれば、ブロッキング(手がかりについての以前の学習が他の手がかりについての新しい学習を阻害すること)は起きない。
 メタンフェタミンの使用者ではブロッキングは減ることがわかっており、モデルはこの知見と一致する。いっぽう、薬物を与えた動物とかタバコ使用者ではブロッキングが起きるといわれており、モデルはこの知見とは一致しない。また、薬物でネガティブなPEも起きるという研究もある。

 その2,道具的行動としての薬物摂取。[道具的instrumentalってオペラント条件づけのこと?]
 状態と行為の価値の学習に対する薬物使用の効果をモデル化する。薬物使用によって報酬の水準が上がり、PEが大きくなって、薬物使用の価値が上がる。
 このモデルによれば、薬物の価値は高原に達するので、薬物使用を続けた後でブロッキングが起きる[?? いまいちわからん]。この点がRedish(2004)とちがう。
 いっぽう、薬物摂取のみに焦点を当てていて、依存症の他のたくさんの側面をとらえていない。また、このモデルによればPEはSUDの人とそうでない人とで違うはずだが、同じだという研究もある。

 その3,「モデルベース」、「モデルフリー」、目標、習慣。
 「モデルフリー」意思決定と「モデルベース」意思決定を区別する数理モデル。前者はPEによる行為の価値の更新が過去の経験に基づいて行われ、行為の価値は保存されて将来の行為選択をガイドする。後者では世界の内的モデルが結果の見込みに基づいて行為を評価する。すべての潜在的結果を直接に経験しなくても行為の価値を更新できる。[運動技能学習でいうところの外的フィードバックと内的フィードバックみたいな話だろうか? ゴルフ練習場で実際にボールを打つのと駅のプラットホームで傘でスイングするのとの違いというか?]
 モデルベース制御は目標志向的な道具的制御と関連し、現在の結果の値に敏感である。いっぽうモデルフリーのほうは結果の値の変化に関わらず反応が持続する。
 両方が相互作用して行動を制御する。どちらも腹側線条体(VS)での価値計算に依存する。
 
 Redish & Johnsn (2007), Redish, et al.(2008)というのもある。ゴールベースの計画システムと習慣学習プロセスの相互作用に焦点を当てたモデル。前者は現在の状況の認識、潜在的結果の予測、結果の価値の計算のコンポーネントの相互作用。[…中略…] このモデルはパブロフ型の学習と道具的学習をひとつの計画システムに合成している。[…なんか批判と応答があるようなんだけどよくわからん…]

 広く言えば、薬物使用におけるモデルベースvsモデルフリーという考え方は、依存症を目標志向的制御から習慣的制御への意向として記述する動物モデルと整合している。また[…中略…]といった実験の知見とも整合している。しかし、薬を与えられた動物・人もモデルベース決定できるし[…とかなんとか限界があるという話]。

 その4、予測的符号化モデル。
 推論実行のベイジアン確率モデル。先行信念とデータで事後確率が計算されると定式化する。
 Fristonは自由エネルギー原理というのを唱えている。人は自由エネルギー(事前信念と事後信念の差)を最小化するような内的状態と行為を選ぶというモデル。感覚状態から得られたベイジアンPEはその信念への確信度で重みづけられるんだけど、これがドーパミンシステムによって捉えられる[?]。このモデルによれば薬によって信念の確信度が高くなりすぎて依存症になる。
 このモデルは動物実験や人間の研究と整合する。でも[…限界もある]。

 Gu & Filbey (2017)というのもある。薬はドーパミン・システムに影響して確信度が高くなる。依存症の人の薬の効果についての事前信念は、使用の期待がないときには不満足つまり渇望にシフトする。[…後略]
 Gu (2018)はこれを禁欲期間中の渇望に拡張したんだけど […後略。問題があるんだってさ]

 というわけで、予測的符号化モデルは有望なんだけど、確信度の役割をもう少し明確にしたりして、説明の矛盾を解決しなければならんね。

2.2 脳モデル
 actor-criticモデル。actorシステムが行動を選びcriticシステムが評価する。後者はPEを使い、結果が期待より良いか悪いかを判断する。このモデルは腹側線条体(VS)と背側線条体(DS)の相互作用に適用される。VSはPEに貢献する状態の価値を符号化し、DSは行為の価値を符号化するといわれているので。このモデルは依存症の後期を説明できるが、明示的なシミュレーションはない。
 VS criticにおいてはappetitiveな学習のほうが嫌悪学習より学習率が高いと仮定して衝動的な依存症行動を説明するモデルもある。
 こういうモデルは動物実験と整合するが、人間の依存症で検証されたことはない。

 Karamati & Gutkin (2013)というのもあって… [長めの1パラグラフを使ってたっぷり説明しているが、いやー、難しくてよくわからん。パス]

3. 要約と今後の方向
 [気を取り直して細かくメモする]

 依存症の理論的・神経生物学的モデルは依存症を複雑で多段階的な疾患と捉え、皮質下(中脳、大脳基底核、扁桃体)のシステムと皮質(前頭葉)のシステムの妨害として特徴づける。その多くは人間の依存症の知見に基づく。
 いっぽう計算論的モデルは、多くの場合、薬物摂取選択の限られた側面にのみ焦点を当て、動物の知見に依存している。生態学的妥当性とか、人間の依存症について理解する際の効用とかは低い。物質使用障害の複雑さをとらえているモデルは少なく、その複数の段階と多面的な症状集合とを統合できていない。治療・回復の過程についても提案していない。
 計算論的モデルにいわせれば、依存症というのは、薬の報酬が学習と行為選択に影響するときに生じる、継続的な薬物摂取行動である。どう影響するかというと、薬の手がかりの価値を高めるか、推定の精度に影響するかである。段階を提案しているモデルもあるけど、制御が徐々に習慣的過程にシフトするか、目標志向的過程を許すかである[?]。[…後略…]

 我々が思うに、臨床的に有用なモデルは、理論に基づき、薬物使用だけでなく依存症全体に関わる心理的現象を記述し、心理データと神経生物学の両方に依存し、要素をモジュールに定式化し、臨床的な予測ができるように計算を特徴づけるモデルである。
 有望株のひとつは価値ベース意思決定(VBDM)モデルである[著者らのin prepの論文がreferされているが、探しても見当たらない]。これはHuy et al.(2015)の「決定理論的精神医学」に近い。
 [以下、VBDMの宣伝が続く…]
——-
 基礎知識が乏しくてよくわからんところが多かった。人生こういうこともある。
 最後はVBDMの紹介なのだが、何を読んだらいいのかわからない。たぶんField et al.(2020, Psych.AddictiveBehav.)が近いようだが、著者が重なっていない…。