moxt

Just another Blog site

ディープラーニングで本田翼を見分けたい。初歩編

      2015/07/11

佐村河内守のアレの焼き増し。
ショートボブ4姉妹の画像群を学習させて本田翼を本田翼と正しく分類できたらバンザイですね、ってヤツ。

やること

  • ディープラーニングを行う環境を整える
  • 学習に必要な画像を集める
  • 画像を学習させて分類器を作る
  • 実際に試験用の画像を分類してみる

ディープラーニングを行う環境を整える

dockerを使って環境構築する

caffeというディープラーニングのフレームワークライブラリを使う。
『Caffeで手軽に画像分類』が手軽にできない。でも書いたが、環境構築が大変。
完璧主義者になって環境構築から挑戦して挫折するより、惰性を発揮してDockerを使うと良い。

dockerのインストール方法は適当にググると出てくる。

ありがたいことにcaffe環境をdockerizeしてくれてる人がいるので感謝しながらpullする。

optフォルダ以下にcaffeがあることが確認できるかと思う。

学習に必要な画像を集める

環境は整った。
ディープラーニングに限らず学習を行うためには大量の画像データが必要になる。
手で集めるのは大変だろうから、プログラムを組むなりして自動で集取するようにする。

こちらのように動画から顔画像を収集するもよし、クローラーで集めてくるもよし。

自分はSeleniumを使って画像を集めた。

ここから先は基本的にご注文はDeep Learningですか?でやってることを丸パクリしてるだけ。
インターネッツに感謝です。シェアーさせていただきます。

取得してきた画像はImageMagickを使って正規化しておくと良いらしい。
xargsが好きなので、xargsでやった。

各画像ディレクトリ名は数字にしていたのでそれに従う。

0:久保田智子
1:のっち(Perfume)
2:芹那
3:本田翼
4:その他

こんな感じ。

Caffe on Docker独自の問題?

コンテナの外にあるファイルを参照できるようにする

ちょっと脱線する。
今回Dockerを使ってるので、画像ファイルはコンテナ内に保存せず自分のローカル環境に保存しておきたい。
というもの、コンテナ内でwgetなどして画像を取ってきても、コンテナを壊すとその画像は破棄されるからだ。

一方、Caffe環境はDockerコンテナ内で用意しているためCaffe系のスクリプトの実行は当然コンテナ内でやる必要がある。
『ご注文はディープラーニングですか?』に書いてるように、用意した画像をLevelDBというデータベースに保存する必要がある。
で、この保存処理はCaffeが実行できる環境下で行わなければいけない。

画像をコンテナ内には保存したくない。
でも、画像を参照するスクリプトはコンテナ内で実行しないとダメ。

と、いう状況。

スクリプトからコンテナ外にあるファイルを参照できるようになればOK、ということ。

これを実現するためにDockerのVolumeという仕組み(オプション?)を使う。

docker runを実行してる場所が画像設置してる場所なら下記のような感じでOK

これでコンテナ内の/opt/caffe/volumeにcdしてみて、ローカルの画像設置フォルダを参照できているか確認する。

フォルダはあるけど画像が無い場合はパーミッションの問題かもしれない。

自分はboot2docker側の問題(?)で画像が参照できなかったので、下記を参考にして対処した。
https://github.com/boot2docker/boot2docker/issues/587#issuecomment-66935011

で、『ご注文はディープラーニングですか?』に書かれてるLevelDBに保存するスクリプトをCaffeコンテナ内で実行すれば大丈夫なはず。
コンテナで実行してる影響で参照するパスがちょっと変わってる。
これが原因でスクリプトが動作しないので、その辺は↓のようにイイカンジに直しておく。

無事にLevelDBが作れたはずなので、次は画像を学習させる。

画像を学習させて分類器を作る

自分で学習機を作るのはちょっと大変なので、有り物に便乗する。
これも『ご注文は…』の『学習機の設定』を丸パクリすればOK。
ここに載ってるのはcifar10というコンペでいい成績だした系の学習機の設定、、、かな。

cifar10_quick_train_test.prototxtを見ると、trainとtestで参照してるDBがLevelDBではなくLMDBになってる。
LevelDBで用意しちゃったので、ここをLMDBからLEVELDBに書き換えておく。

こんな感じに。

cifar10_quick_train_test.prototxtとcifar10_quick.prototxtの出力結果のラベル数を表すip2レイヤーのnum_outputを10から主要キャラ5人+その他の6に変更しました。

今回は本田翼、のっち(Perfume)、芹那、久保田智子とその他(適当な人間画像)なので、num_outputは5にしておく。

それから、学習を実行する上でimage mean(平均画像?)が必要になる。
こんな感じ。

設定したら学習を実行する。
CPUでやったので数時間かかった。。

待ってるとcifar10_quick_iter_4000.caffemodelというファイルが生成されてる。

実際に試験用の画像を分類してみる

分類器ができたので実際に画像を分類してみる。

スクリプトは下記の通り。

imageのパスに分類させたい画像を指定する。

分類例

いくつか画像を試してみたけど、サンプル(各ラベル100枚くらい。。)が足りないのかちょくちょく誤分類する。

うまくいったヤツ

tsubasa_ok

うまくいかないヤツ

tsubasa_error

芹那と誤認。

おわりに

まあ、一応仕組みはできたはず。
次はサンプル数を増やしたり、スクリプトの使い勝手を良くして効率よく進められるようにしていきたい。
あとGPU化。

本田翼かわいい。

 - ディープラーニング

336px




336px




  • このエントリーをはてなブックマークに追加
  • follow us in feedly

  関連記事