2015年5月17日日曜日

八ツ橋チャンピオンシップ?

京都のおみやげ菓子で有名な、八ツ橋について調べていたところ、ちょっとおもしろい論文(?)を見つけました。

私たちはお土産にどの八ツ橋を買えば良いのか?

という、京都大学大学院情報学研究科が公開している論文です。
その研究室の業績目録にも記載されており、論文誌に掲載されている論文のスタイルをとりながら、実際には査読つき論文誌に掲載されたものではないようです。
京大らしい遊び心にあふれた論文ですが、その中に評価手法として新規なものを出しているところが素晴らしいと思います。多分、その手法の部分は、きちんとした論文誌に投稿してあるだと思います。

一般メディアにも取り上げられているようで、銘柄の結果についてはご存知のかたもおられると思います。
一方で、被験者の主観的な評価をもとに幅広く当てはまる結論を出していくという点では、臨床医学の論文と共通する点が多いという点で私は興味を持ち、この論文を分析してみました。

簡単にこの論文の骨格をまとめると、以下のようになります。
1.       【目的】お土産に最適な生八ツ橋(餡入り生八ツ橋)が何かを決めること。
2.       【実験方法】11銘柄のニッキ味の餡入り生八ツ橋を9人の評価者(被験者)が食べくらべて、美味しさを評価した。
3.       【比較方法】4種の評価方法で評価し、11銘柄のランク付けを行った。
4.       【結果】4種の評価方法により結果は異なるが、聖護院八ツ橋総本店と京栄堂のものが概ね12位を争った。

この論文の重要な点は、2の実験方法として、「漸進比較法」という比較法を提唱した点と、3の比較方法(被験者の比較データから美味しさベクトル、つまり(相対的)美味しさの程度を示す指標)として4つの数学的手法を導入して比較していることです。
3の数学の部分に関しては、しっかりした背景があるものと思われ、その手法は妥当であるのだと推察します。

しかし、この論文には、いくつかの問題点があります。そのうち3つが重大な問題点と思われますが、その中で、論文を読み慣れないかたがたにも納得していただけると思われる2点について説明します。

1点は、「そもそも何のランク付けをしようとしているのか?」という点、
もう一つは「9人の評価結果が全体を代表した結果とそのまま言えるのか?」という点です。

まず、「そもそも何のランク付けをしようとしているのか?」については、論文のタイトルと序論においては、
「お土産として適した八ツ橋のランク付けを行う」ことが目的であると明確に読み取れます。しかし、実際に被験者9人で調べたことは、「美味しさの比較」です。
この論文の著者の皆さんは、「最も美味しい生八ツ橋が、お土産として最も適しているはず」ということを暗黙の前提条件にしていると理解できます。このように、目的のパラメータを直接調べるのではなく、代わりとなるもので評価するのは代理(surrogate)指標です。
ですが、この場合、「目的の評価を直接調べる代わりに代理指標が使える」ことを証明するか、合理的根拠を示さなければなりません。
でも考えてみましょう「お土産として適した」という評価の要素としては、「美味しさ」が含まれているのは当然でしょうが、その他にも、「値段」や「日持ち」、「箱の大きさや重さ」なども含まれるでしょう。特に、美味しさの点では申し分ないが、他の銘柄と比較して圧倒的に高い商品である場合、「お土産として最も適している」とは言いがたいでしょう。つまり、「美味しさ」がそのままストレートに「お土産として適した」にはつながらないと思われます。例え、1個ずつの値段にそう開きはないにしても、美味しさの点では少し劣るが6個入りが一箱600円で売っているA銘柄があり、一方B銘柄は、美味しさは一番だが、110個入りのものしかなく、1000円で販売している場合であれば、お土産として職場や隣近所にあげるのならA銘柄のほうが適しているという評価が十分成り立つでしょう。(自宅用にはもちろんB銘柄を選ぶでしょうが!)
「最も美味しい」は「お土産に最適な」とは等価ではないのです。


もう一つの問題点は、9人の被験者での評価結果をそのまま、大多数の評価結果として良いのか?という問題です。このように、少数の被験者での結果を一般化することを外挿(Extrapolation)と呼びます。どのような外挿が可能であるかは、被験者がどのような特性を持っているか、それが統計学的に何らかの集団を代表するのに十分な数なのかに大きく依存します。ところが、この論文には、9人の評価者がどのような人々であったかについての言及が全くありません。そのため、「9人の被験者での評価結果をそのまま大多数の評価結果だ」とするのは無理というか不可能です。
もし9人が全員女性だったとしますと、せいぜい言えるのは、「女性では◯◯銘柄が一番」ということまでです。また、男女混在していたとしても、全員が学生(二十代)であったとすれば、「若者では◯◯銘柄が一番」としか言えません。
なお、この問題は、「Crowd-BT モデルによる推定」という評価者の好みの偏りの補正では是正できません。集団全体の偏りの問題だからです。


他にも、細かなことですが、統計的有意性の検定の問題やそれに関連して、有意性を確認するには何名の被験者で行わなければならないかというプラニングの問題(9名の評価で果たして統計的有意差がでるのか)、実験方法として、適切な盲検処置(ブラインディング;マスキング)を行ったか、刺激呈示の順序の影響、履歴効果などをどうコントロールしたかなどの問題もあります。

ただ、このような問題は、おそらく克服できるものと思います。先ほど上げた、第一の問題点は、タイトル(つまり、調べたい問題設定)を、「一番美味しい八ツ橋はどれか」にすれば済むことです(実際、ニュース記事その他を見ていると、「一番美味しい八ツ橋はどれか」の論文と理解している論調がほとんどのようです)。第二の問題点は、被験者の背景情報(性別、年代、京都出身/京都以外の出身、)を1つの表にまとめて、それをもとに論考すれば良いことだからです。


すでに、これらの点についてはお気づきのことでしょうし、今後査読付き論文誌に投稿になる場合には十分配慮しておられると思います。今後の研究の発展が楽しみです。きっと医学や心理学の研究方法にもインパクトを及ぼすでしょう。

0 件のコメント:

コメントを投稿

SonyノイズキャンセリングヘッドホンWH-1000XM4のトンネルボコッ大幅改善

 SonyノイズキャンセリングヘッドホンWH-1000XM4では、新幹線でのトンネル出入りの際のボコッが、WH-1000XM3と比較して大幅に減少しているようです。 山陽新幹線・九州新幹線ではトンネルが多いため、高速でトンネルに入ったり出たりすると、車内の気圧が急激に変動するため...