elsur.jpn.org >

« 読了:「ヘンリー四世」 | メイン | MSIが選ぶマーケティング論文:2016年秋 »

2017年1月 5日 (木)

Simkin, M.V., Roychowdhury, V.P. (2003) Read Before You Cite! Complex Systems, 14(3).

 かつてフロイトは精神分析学を言い間違いに適用してヒトの心理を暴いた。このたび我々は統計分析をミスプリに適用し、論文の著者が引用文献をほんとに読んでいるかどうかを暴く方法を開発しました...という論文。はっはっは。

 たとえば、ある有名な物理学の論文を引用している論文を4300本集めたところ、引用文献の際にミスプリがあるのが196本。ところがミスプリの異なり数は45種類で、一番メジャーなミスプリは78本もの論文でみつかった。誤りがコピペで伝染しているのだろう。縦軸に頻度の対数、横軸に頻度のランクの対数をとってミスプリの種類をプロットすると綺麗な直線となる。つまりZipf法則に従っているわけである。

 大雑把に考えると...
 ミスプリの総数を$T$、ミスプリの異なり数を$D$としよう。$T-D$人の引用者は他の人が書いた書誌情報をコピペしている、つまり実は読んでないと考える。$D$人の引用者は、まあ書誌情報にはミスプリがあるけど推定無罪ってことにすると、$T$人中$D$人が読んだ人。この比率は、ある論文の引用者に占める、その論文をほんとに読んだ人の割合$R$を近似していると考えられる。

 もうちょっときちんと考えると...[ここから本格的に数式が入ってくる。基本的なアイデアは上と変わんないと思うので略]
 というわけで、ある文献の引用者のうちその文献を読んでいるのは20%程度ではないか。云々。

 後半の肝心なところは読み飛ばしたけど、まあ、よしとしよう。発想が面白いっすね。
 それにしても、この話の肝になるのは、引用文献の書誌情報に伝染性のミスプリがあったらその文献を読んでない、という仮定である。著者らの言い分はこうだ。「原理的には、著者は引用を信頼できない文献リストからコピーしたが、その論文はちゃんと読んでいる、と主張することも可能かもしれない。しかし普通に考えれば、そんなのは比較的に稀で、ほとんどの場合にはあてはまらないと思われるだろう」。
 うーん、そうかなあ。文献管理ソフトをつかっていると、(1)欲しい文献の書誌情報を入力し(既存文献からのコピペで)、(2)その文献を手に入れて読み、(3)自分の原稿で引用したら、最初にいれた書誌情報が反映されちゃった...というようなことがありがちだと思うんですけど? ついでにいうと、著者が自分の過去論文を引用してて、その書誌情報が間違っている、というのも見たことあるんですけど?
 著者らもここが弱点だという認識があるようで、いわく、この論文で言う「読者」とは、引用文献リストを作る際にオリジナルの論文や信頼できるデータベースを参照した人のことだ、と断っている。

論文:データ解析 - 読了:Simkin & Roychowdhury (2003) 論文を引用している人のうち何割がその論文をほんとに読んでいるかを推定する