moxt

Just another Blog site

不均衡データでClassification of text documents using sparse featuresしてみる

   

読み取った新書のデータから自分にとって興味あるか否かを判定する、という一連をやった。

生まれつき好奇心が全く無い病気なので、全体の比で見ると「興味あり」が圧倒的に少ない。
不均衡データってヤツ。

ベルヌーイ分布なナイーブベイズでこの不均衡データを予測してみたら精度が97%くらい出てしまった。
これは絶対ウソだな。

他の分類器でやってみたらどうなるんだろうかと思った。
けど、他の分類器って何あるのかよく分からないし挫折しようとしてたら下記を見つけた。

Classification of text documents using sparse features – scikit-learn 0.17.1 documentation

いろんな分類器試してるので、(フェイスブックで全く知らない他人の投稿に)イイネ(した)。
これをマネします。

データ

新書のデータはいつものDMMから得た。

https://gist.github.com/nihon-taro/b195c6a3b1a0f59c7a5f705232e5ab2f

ソースコード

コードはこんな感じ。

日本語の文章だったので、Mecabでわかち書きしながらベクトルにした。
下記の2つをそのまま使わせてもらった。

http://qiita.com/katryo/items/f86971afcb65ce1e7d40

http://qiita.com/HirofumiYashima/items/9308ea0607312218b20c#_reference-980db7bbab5dfcf49155

結果

どの分類器も「とりあえず全部NO!って言っておけば大丈夫っしょw」って感じを醸しててアレ。
テストデータも不均衡になってるのでダメそう。

この残念な感じからマトモな感じになる試行錯誤を記録していきたい。

 - 機械学習

  • このエントリーをはてなブックマークに追加
  • follow us in feedly

  関連記事

no image
[WIP]単純ベイズ分類器がまったく単純じゃないので入門

書き途中&間違いあるかも 単純(ナイーブ)ベイズ分類器というものがある。 …

images
imbalanced-learnで不均衡データをアンダーサンプリングしてみる

https://github.com/scikit-learn-contrib/imbalanced-learn ↑ドキュメントを読めば終わり。 …

2152048926_d60b8ea093_z
コード読みながら理解する機械学習〜porn_sieve〜

porn_sieveは、好みの動画(xvideos)を数値評価することでアナタに最適な動画(xvideos)を提供してくれるPython製アプリだ。 最適な動画を選定するために「機械学習」ってのが使われているわけですね。 …

keras-logo-small
KerasのCNNを使って文書分類する

Contents1 TL;DR(笑)2 …