Spambayes

Python で書かれたベイズ理論に基づくスパムフィルタ、Spambayes を owa さんが日本語化されたようだ(SpamBayes 日本語化 | 象歩ブログ)。Subject とサマリ表示の文字化けを直されたようだ。

実際の内部処理については、

課題はもう一つあって、日本語トークンの分離ができていません。日本語メールの場合フィルタ効率が落ちるという話もあります。また中文やハングルの場合どうなるのか解かりません。まあ、Subject と本文だけで判定してる訳でもなさそうなので、そうでも無いと思ってますけど。

とのこと。日本語で一番やっかいなところ。まともにやるなら MeCab のような解析エンジンを使ってトークンを分けるのが理想なんだろうけど、ベイズ理論のスパムフィルタとして利用するなら、そこまでやる必要はないかもしれない。日本語のスパムメールは今のところ特徴的なので、漢字とカタカナとひらがなを分離できれば統計情報としては十分利用できると思うんだが。