moxt

Just another Blog site

不均衡データでClassification of text documents using sparse featuresしてみる

   

読み取った新書のデータから自分にとって興味あるか否かを判定する、という一連をやった。

生まれつき好奇心が全く無い病気なので、全体の比で見ると「興味あり」が圧倒的に少ない。
不均衡データってヤツ。

ベルヌーイ分布なナイーブベイズでこの不均衡データを予測してみたら精度が97%くらい出てしまった。
これは絶対ウソだな。

他の分類器でやってみたらどうなるんだろうかと思った。
けど、他の分類器って何あるのかよく分からないし挫折しようとしてたら下記を見つけた。

Classification of text documents using sparse features – scikit-learn 0.17.1 documentation

いろんな分類器試してるので、(フェイスブックで全く知らない他人の投稿に)イイネ(した)。
これをマネします。

データ

新書のデータはいつものDMMから得た。

https://gist.github.com/nihon-taro/b195c6a3b1a0f59c7a5f705232e5ab2f

ソースコード

コードはこんな感じ。

日本語の文章だったので、Mecabでわかち書きしながらベクトルにした。
下記の2つをそのまま使わせてもらった。

http://qiita.com/katryo/items/f86971afcb65ce1e7d40

http://qiita.com/HirofumiYashima/items/9308ea0607312218b20c#_reference-980db7bbab5dfcf49155

結果

どの分類器も「とりあえず全部NO!って言っておけば大丈夫っしょw」って感じを醸しててアレ。
テストデータも不均衡になってるのでダメそう。

この残念な感じからマトモな感じになる試行錯誤を記録していきたい。

 - 機械学習

336px




336px




  • このエントリーをはてなブックマークに追加
  • follow us in feedly

  関連記事