まんま
女性
10代
中国
たくさんのことを、この初めてのバイトで学びました。
[C++][algorithm] ham: 文字NグラムとバイトNグラム
ham: 文字NグラムとバイトNグラム C++, algorithm
Nグラムベースのベイジアンフィルタ。
hamは0.0.1ではUTF-8にのみ対応し、その文字Nグラム(N~Mグラム)*1を素性として扱っていた。
0.0.2では、それ以外にバイトNグラムも扱えるように拡張してみた*2。
以下は、そのバイトNグラムと文字Nグラムとの比較結果。
バイトNグラムと文字Nグラムの比較。
※ データ取得スクリプト(download.rb,download_yahoo
情報元link:http://d.hatena.ne.jp/sile/20100728/1280333474
