Trong OCR, tôi nên xử lý như thế nào với văn bản bị cong vênh trên các mặt của các đối tượng hình bầu dục?
Hãy xem xét một hình ảnh có chứa một lon (hoặc chai, hoặc bất kỳ vật thể hình bầu dục nào tương tự), có các văn bản trên đó. Trong hình dưới đây, tôi có nhiều chai, nhưng bạn có thể cho rằng mỗi hình chỉ chứa một đối tượng như vậy.

Như chúng ta có thể thấy, trong mỗi lon, văn bản có thể chảy từ trái sang phải và bất kỳ hệ thống OCR nào cũng có thể bỏ sót văn bản ở bên trái và bên phải của lon, vì chúng không được căn chỉnh với góc máy ảnh.
Vì vậy, có giải pháp nào cho việc này, chẳng hạn như tiền xử lý theo một cách nào đó, để chúng ta có thể đọc văn bản hoặc biến đối tượng tròn này thành một vật thể thẳng? (Nếu có bất kỳ chương trình Python nào có thể giải quyết vấn đề này, bạn có thể vui lòng chia sẻ nó với tôi được không?)
Trả lời
Có nhiều tài liệu về vấn đề này nhưng sau đây là một khởi đầu tốt:
- Cách mở nhãn rượu theo chương trình . Tác giả bao gồm mã nguồn bằng Python.

Bạn đã đề cập rằng bạn không muốn thực hiện một cái nhìn toàn cảnh nhưng điều đó có nhiều hơn một ý nghĩa. Nếu tôi cho rằng ý của bạn là bạn không muốn xoay lon khi chụp nhiều ảnh hoặc bạn không muốn chụp nhiều ảnh từ các góc độ khác nhau, bạn có thể thử một ống kính hướng tâm . Điều này sẽ yêu cầu một số xử lý hình ảnh để thực hiện việc mở gói. Cần phải giải quyết nhiều hơn vì quá trình gói sẽ nghiêm trọng hơn nhiều. Tuy nhiên, ưu điểm là bạn sẽ có một hình ảnh duy nhất của bề mặt hình trụ đầy đủ và sẽ không bỏ lỡ bất kỳ tính năng hoặc văn bản nào.
