Di OCR, bagaimana saya harus menangani teks melengkung di sisi objek oval?

Jan 06 2021

Pertimbangkan gambar yang berisi satu kaleng (atau botol, atau objek oval serupa), yang memiliki teks di atasnya. Pada gambar di bawah, saya memiliki banyak botol, tetapi Anda dapat berasumsi bahwa setiap gambar hanya berisi satu objek.

Seperti yang bisa kita lihat, di setiap kaleng, teks bisa mengalir dari kiri ke kanan, dan sistem OCR mana pun mungkin melewatkan teks di sisi kiri dan kanan kaleng, karena tidak sejajar dengan sudut kamera.

Jadi, adakah solusi untuk ini, seperti preprocessing dengan cara tertentu, sehingga kita dapat membaca teks atau membuat objek bulat ini menjadi lurus? (Jika ada program Python yang dapat menyelesaikan masalah ini, bisakah Anda membagikannya dengan saya?)

Jawaban

2 BrianO'Donnell Jan 08 2021 at 01:25

Ada banyak makalah tentang ini, tetapi berikut ini adalah awal yang baik:

  • Cara membuka bungkus label anggur secara terprogram . Penulis memasukkan kode sumber dengan Python.

Anda menyebutkan bahwa Anda tidak ingin melakukan pemandangan panorama tetapi itu memiliki lebih dari satu arti. Jika saya menganggap yang Anda maksud Anda tidak ingin memutar kaleng saat mengambil banyak foto, atau Anda tidak ingin mengambil banyak foto dari sudut yang berbeda, Anda dapat mencoba lensa pericentric . Ini akan membutuhkan beberapa pemrosesan gambar untuk membuka bungkusnya. Lebih banyak resolusi diperlukan karena pembungkusnya jauh lebih parah. Keuntungannya adalah Anda akan memiliki satu gambar dari permukaan silinder penuh dan tidak akan melewatkan fitur atau teks apa pun.