2005.10.10
人気の分布と質の分布
先日「Ajaxは「隠れた技術を表舞台に出す」」で紹介した工藤拓さんが、またしても示唆に富むエントリを書いています。

きまぐれ日記 : page popularity と page quality
http://chasen.org/~taku/blog/archives/2005/10/popularity_qual.html

注目のエントリーの仕様が、はてブの偏りを助長してるのではを読んでふと思うことがありました。 一般に popularity による quality 評価の性能は、popularity の初期状態に強く依存します。初期状態がよければそのまま正のフィードバックに乗りますが、それに失敗すると shut out されてしまいます。ページの初期のquality なんてそもそも不安定で信頼できません。単に早くページが作られたという理由だけで quality が過大評価されてしまう現象はよくあります>。

<popularity と randomness はトレードオフの関係にあります。前者は今まで知っているページの quality を重視し、後者は今まで知られていないページの潜在的な quality を評価するのに役立ちます。情報検索の precison と recall とほぼ同じ概念です>。

この考え方をはてなブックマークに適用し、以下のような意見が述べられています。

<はてなブックマークも、適切な無作為性を入れると面白みが増すと思います。たとえば、1000人が1000人、同じ注目エントリを読んで、ひとつの方向にバイアスがかかったリストになるよりは、個々が重なりを持ちつつも、少量の別々のページを読むほうが、quality の高いページをまんべんなく収集できそうです>。

この「人気と質の関係」は、はてなブックマークに限らず、現実世界でもよく見られる気がします。

「売れている」ということが最大の売り文句になる、という話を聞いたことがありますが、これなどはまさにそうでしょうね。

いったん人気が出ると、そこにいっそう人気が集中していく構造は、「人気の分配」の観点から見ると、一部のものに人気を集中させる効果がある。この結果、「人気の分布」と「質の分布」にズレが生じて、質が高いのに注目されないものをたくさん生んでしまう。

このまえの選挙で言われた、小選挙区による「地すべり」効果とも少し似ている気がしますね。