OCRでは、楕円形のオブジェクトの側面にある歪んだテキストをどのように処理する必要がありますか?
1つの缶(またはボトル、または同様の楕円形のオブジェクト)を含み、その全体にテキストがある画像について考えてみます。下の画像では、ボトルがたくさんありますが、各画像にはそのようなオブジェクトが1つしか含まれていないと想定できます。
ご覧のとおり、各缶では、テキストが左から右に流れる可能性があり、OCRシステムでは、カメラアングルと位置合わせされていないため、缶の左側と右側のテキストが見落とされる可能性があります。
それで、テキストを読んだり、この丸いオブジェクトをまっすぐなものにすることができるように、特定の方法で前処理するなど、これに対する解決策はありますか?(この問題を解決できるPythonプログラムがあれば、私と共有していただけませんか?)
回答
2 BrianO'Donnell
これに関する多くの論文がありますが、以下は良いスタートです:
- プログラムでワインラベルを開封する方法。著者はPythonのソースコードを含めています。
パノラマビューはしたくないとおっしゃいましたが、それは複数の意味があります。複数の写真を撮っているときに缶を回転させたくない、または異なる角度から複数の写真を撮りたくないということを意味する場合は、ペリセントリックレンズを試すことができます。これには、アンラップを実行するための画像処理が必要になります。ラッピングがはるかに厳しいため、より多くの解像度が必要です。ただし、利点は、完全な円筒面の単一の画像が得られ、特徴やテキストを見逃さないことです。