まだ画像認識 | おごちゃんの雑文

最大の課題は数字や記号を正しく読み取れること。

カメラで撮ったものを認識させる関係上、多少の傾きでも平気なアルゴリズムを使う必要がある。なので、認識ベクトルに「認識対象の外周の法線の方向のフーリエ係数」を使うアプローチを使う。これなら、傾いていても同じ方向のベクトルになる。

ところが問題があって、この方法だと「6」と「9」がうまく認識できない。また「2」と「5」も誤認識しやすい。「|」と「ー」もダメ。向きが重要なものって少なくないのだ。

まぁいろいろな工夫を使えば出来る見通しはたっているのだけど、あんまりアドホックなものを並べるのもなぁ。

と言えば、「クサ」の報告によれば、某所でのQRコードの認識のデモはコケたらしい。資料とか見るといろいろ言い訳があったようだが、資料見る限り、「そりゃーダメでしょ」だな。いや、頑張ってるとは思うけどさ。どこが根本的な問題かってのは、きっとやってる奴等わかってないんだろな。

画像処理は大昔にもやってたし、今回は認識までやったのだけど、それでわかったことは「ロバストにやらせるには、プログラムの見通しが大事」ってことだな。最近は良質のライブラリが多いんだけど、まだまだブラックボックスだと思って使えるものじゃない。アルゴリズムとコードを理解しつつ、一歩一歩作って行くのがロバストへの近道のようだ。もちろん速度の点ではライブラリの方が一日の長があるのだけど、そこに至るまでは理解しつつやらないといけないようだ。