« 読了:Kuncel., Borneman, & Kiger (2012) 意図的虚偽回答の検出 feat. ベイジアン自白剤 | メイン | 読了: 崔(2014) 世論調査の途中で調査対象者に反論してみる »
2014年5月 7日 (水)
Miller, S.R., Brailey, B.P., Kirlik, A. (in press) Exploring the utility of Bayesian truth serum for assessing design knowledge. Human–Computer Interaction.
デザイン教育における教育評価にベイジアン自白剤(BTS)を使うという研究。著者の方にお送りいただきました。日本語のブログなんてお読みになってないでしょうけど、深く感謝いたします。とても勉強になりました。
全く予備知識のない分野なので、メモを取りながら読んだ。
イントロダクション
デザイン思考は大事だ。だからデザイン教育は大事だ。ところが教育評価がすごく大変だ。そこで学生の作品を学生同士で評価させることがある。でもそれはそれで大変だ。そこでBTSを使った評価方法をご提案いたします。
先行研究
デザイン思考は大事だという研究はいっぱいある。だからデザイン思考の教育も大事だ。ということは、ビジネスでも教育でも、デザイン思考の能力評価は大事だ。評価にあたっては多様な観点がありうるが、教育者が特に注目するのは、分析・評価・創造という高次な思考能力であろう。
従来の評価方法としては:
- 伝統的な評価方法。デザイン・プロセスとデザイン原理についての多肢選択テストとか。より低次な能力を測ってしまっている。
- オープン・エンド型のデザイン課題や、デザイン・ポートフォリオ(←よくわかんないけど、要は作品集をつくらせるというようなことであろう)。評価は主観的にならざるをえないし、学生の人数が増えると大変。評価規定をつくることが多いが(たとえば、学習すべきスキルは「ブレインストーミング」、達成レベル1は「定義を拡張する」、2は「見出しを使って効率的にアイデアを表現する」、3は「アイデアに流動的かつ整合的な見出しをつける」だ、というような)、規定をつくるのが大変だし、つくってもやはり評価は主観的だ。
- 学生同士のピア評価。メタ分析によれば、全体的な評価は教員の評価と一致する。評価することを通じて高次認知能力や伝達能力が改善されるという面もある。ふつう、デザインプロセスについての知識の評価や、デザイン・ソリューションの成否の評価に使われており、デザイナーの全体的な能力評価には使われていない。
提案手法
BTSの紹介(←BTSを構成する2要素のうち、あんまり本質的でない「予測スコア」のほうを重視しているところが面白い。集団の回答の予測は学生のメタ知識を反映しているだろうという理屈。うーん、まあこの課題ならそうかも...)。個人レベルのスコアを以下の2種類算出。これを学生の能力評価として用いる。
- 個人インデクス。個人が得たBTSスコアの平均。
- プールド・インデクス。個人の回答が得たBTSスコアの平均。(←すごくわかりにくい説明だが、「情報スコア」のみの平均という意味)
実験
被験者はイリノイ大のデザイン・コースの学生71名。4週の実験。
- 1週目: 製品デザインの写真(洗面台、USBの差し込み口、ドアノブ etc.)30枚をみせ、それぞれの写真について質問。一問目は、それが(デザイン原理)の良い例になっているか、原則に違犯している例か、原則が適用されない例か、の三択。ここで(デザイン原理)のところには、"physical affordance design principle"とか、"comfort design principle"といった個別の原理名が入る。その内容についてはこのコースで学習済みなので教示しない。(付録に全設問が載っている。正解はわかんないんだけど、USBの例はきっとアフォーダンスの原理に違犯してるんだろうなあ。あれ、差し込むときの天地がわかんないもんね)。二問目は、同じコースの人の各選択肢への回答率をパーセンテージで予測。なお、BTSについての説明はなし、単に正直に答えるように教示するのみ。
- 2週目: 「キャンパス内で、歩きながらの携帯電話やMP3プレイヤーのせいで事故に遭う人が多い。解決案をつくれ」という課題を与え、デザイン案を可能な限りたくさんスケッチさせる。で、自己ベストアイデアをひとつ選ばせる。
- 3週目: 2週目で得られたデザイン案(各人のベストアイデア)を一人あたり15個提示(自分のは提示されない)。4件法で評価させ、批評文を書かせる。さらに他の人の回答を予測させる。
- 4週目: 自分のベストアイデアと、3週目で得られた他の学生の批評文を提示(←おそらく15個くらいであろう)。自分のデザイン案を修正させる。さらに、コメントが役に立ったかどうかを4件法評価。
(あとでアイデアのスケッチ例が紹介されるんだけど、これがちょっと笑ってしまった。idea score最高点を得たアイデアは「機器にGPSをつけて危険を知らせる」、最低のアイデアは「頭を下に向けると快適でなくなるイヤフォン」)
で、以下の変数について分析:
- a. test average: コースの中間試験と期末試験の得点の平均
- b. course grade: コースの評価
- c. conventional wisdome: 写真評価で、多数派の回答カテゴリに投票した回数。
- d. response accuracey: 写真評価で、教員とおなじカテゴリに投票した回数。
- e. idea score: 自分のベストアイデアに対する他人の評価(全員が4のときに満点)。
- f. critique score: 自分の批評文に対する他人の評価(全員が4のときに満点)。
- g. 写真評価へのBTSスコア(個人インデクスとBTSプールドインデクス)。
- h. 他人のベストアイデアに対する評価のBTSスコア(個人インデクスとBTSインデクス)。
結果
- 1. a. test averageと b. cource gradeを目標変数にして、c, d, g, h がどう効くかを調べる... といっても単相関をみるだけだけど。g.写真評価へのBTSスコア(個人インデクス)と a. test average のみが有意になった(それとて r=+0.23だけど)。
- 2. e. idea scoreとa,b,c,d,g,hとの相関は、c.conventional wisdomと、g.写真評価へのBTSスコア(プールド・インデクス)が有意(r=+0.25, +0.23)。
- 3. f. critique scoreとa,b,c,d,g,hとの相関は、g.写真評価へのBTSスコア(両方)が有意(r=+0.34, +0.23)。
考察 (これがすごく長い...)
- デザイン知識の測定には、デザイン原理に基づくアイデアの評価という課題が有用であろう (結果2で、conventional wisdomがidea scoreを予測したから)。
- 写真評価も批評もデザイン原理についての知識が必要だから、当然かもしれないけど、でもBTSはデザイン分析スキルの測定方法として有用かも(結果3より)。その一般化可能性と適用可能性を確かめるためにはテストしているスキルセットについて注意深く検討する必要がある。
- コースの試験は重要なデザイン知識を測っていなかったのだろう(結果1)。
結論
BTSは有用であろう。採点者の主観性を排除できるし、楽だし、スケールアウトするし。
ううううむ。。。
この論文は、ほかのベイジアン自白剤の研究とはかなり毛色が違っている。まず、ベイジアン自白剤が持っている真実申告メカニズムという性質には関心がない(だからBTSスコアのフィードバックはおろか、説明さえしていない)。さらに、スコアを回答の真実性を表すものと捉えるのではなく、回答者の能力を表すものとして捉えている。
つらつら考えるに... この実験で写真評価のBTSが(かすかではあるが)対象者の能力らしきものを表したのは、写真評価課題が単なる推論課題ではなく、「それに答えるために必要な知識体系がこのコースで教授されている」課題だったからではないか、と思う。当然ながら学生の中には「物理的アフォーダンスの原理って、ええとなんだっけ」というような出来の悪い奴もいただろう。そういう奴は、写真評価において当てずっぽうに答えざるをえないし(回答の事前分布を持っていないから、予測スコアも情報スコアも下がる)、批評もうまくできないはずだ。
ということは、逆にいうと... BTSスコアは回答の真実性を表す(と主張されている)が、それだって回答者の問題についての知識と切り離せないわけだ。たとえば「集団的自衛権の行使に賛成ですか反対ですか」という設問についてBTSスコアを調べ、スコアが低かったとして、それはなにかの事情で真実を語っていない可能性が高いということを示しているのかもしれないし、そもそも集団的自衛権とはなにかがよく分かっていない可能性が高いということを示しているかもしれないわけだ。こうやって書いちゃうと当たり前だけど、正直、この発想はなかった...。
論文:予測市場 - 読了:Miller, Brailey, & Kirlik (in press) ベイジアン自白剤 in デザイン教育評価