Cloud, A., Le, M., Chua, J., Betley, J., Sztyber-Betley, A., Hilton, J., Marks, S., Evans, O. (2025) Subliminal Learning: Language Models Transmit Behavioral Traits Via Hidden Signals In Data. arXiv:2507.14805
この7月末に公開され大いにバズッたらしきプレプリント。ちょっと検索するだけで、この論文を紹介するブログ記事が山のようにみつかる。ついでにいうと、最近はブログでの論文紹介は全く読まなくなってしまった。どうせ生成AIで書いたんだろ、と思うと急速に読む気が失せてしまうのである。なぜだろう、不思議だ。AIに任せた方が的を得た要約になるかもしれないのにね。
勤務先で紹介するためにレジュメを切ったので、内容は省略するけれど、要するに、あるLLMの出力を学習データにして別のLLMを訓練した時、どっからどうみてもデータにそんな情報は含まれていないのに、親側の特性が子側に転移してしまう、という話である。4つくらい実験をやっているんだけど、中には、そんな特性が転移しちゃうの? 困るー!と思うような、人間から見て邪悪な特性があっさり転移することを示す実験もあって、題材の選び方がうまい。
どうにも不思議な現象だが、モデルのタイプが同じだと転移が生じるとのことで、なるほどな、個々のパラメータは想像もつかないようないろんな挙動と対応していて、モデルのタイプが同じだとその対応関係が似るんだろうな、となんだか腑に落ちる面もある。考察のところでHinton先生のかつての指摘が紹介されてて、そもそもLLMの蒸留がこうもうまくいくってことは、要は親の出力には普通の訓練データに入ってない闇の知識が混じってるってことだよね、というような主旨であった。これも、なるほどですね、という感じである。
知識不足できわめてざっくりした感想しか持てないんだけど、結局のところ、LLMとその学習についての我々のメンタルモデルがしょぼいってことなんでしょうね。今後研究が進めば、人間側ももっと有用なメンタルモデルを持てるようになるのかもしれない。