おとなり日記

はてなダイアリー独特の機能として、おとなり日記なるものがあるわけだが、ここ数日分のお隣に行ってみた。今のところ、何となく同じようなキーワードを使っている、というくらいのお隣さんだ。どういうアルゴリズムを使ってお隣さんを捜してくるのか。使っているキーワードの頻度あたりが妥当か。このお隣さん検索アルゴリズムにもベイズ理論とか使ってみたら面白いな。

今よりも多めの候補を出しておいて、ユーザーはとりあえず全体を見てみる。この中で、お隣さんと思えるものを選択。統計データが蓄積されていけばお隣さん抽出率も上がり、そのうち単にキーワードの頻度だけではあらわれてこない潜在的なお隣さんが見つかるに違いない*1

問題は統計データを、全体で共用するのか、それとも、ユーザー個人の範囲に収めるのか。もし全体で共用すると、自分はお隣さんだと思っていない人が、実は自分のことをお隣さんだと思っている、という面白いことが起きるかもしれない。一方で、共用した場合、お隣さんではないのに、お隣さんのフリをするユーザーがいるとデータの信頼性が落ちる。

とか、考えてみたのは、最初に書いたようにおとなり日記にあまりお隣さんの雰囲気を感じ無かったからね。今のままでも偶然関係ない人に出会うチャンスを持っているので面白いと思うけど。

*1:統計を取るデータにキーワードだけでなく文体とか更新する時間とか含めてみる