ओसीआर में, मुझे अंडाकार वस्तुओं के किनारों पर विकृत पाठ से कैसे निपटना चाहिए?
एक ऐसी छवि पर विचार करें जिसमें एक कैन (या बोतल, या कोई समान अंडाकार वस्तु) हो, जिसके चारों ओर ग्रंथ हों। नीचे की छवि में, मेरे पास कई बोतलें हैं, लेकिन आप यह मान सकते हैं कि प्रत्येक छवि में केवल एक ही वस्तु होती है।
जैसा कि हम देख सकते हैं, प्रत्येक कैन में, टेक्स्ट बाएं से दाएं की ओर प्रवाहित हो सकता है, और कोई भी OCR सिस्टम कैन के बाईं और दाईं ओर पाठ को याद कर सकता है, क्योंकि वे कैमरा कोण के साथ संरेखित नहीं हैं।
तो, क्या इसके लिए कोई समाधान है, जैसे कि एक निश्चित तरीके से प्रीप्रोसेस करना, ताकि हम पाठ को पढ़ सकें या इस गोल वस्तु को एक सीधे में बना सकें? (यदि कोई पायथन कार्यक्रम है जो इस समस्या को हल कर सकता है, तो क्या आप इसे मेरे साथ साझा कर सकते हैं?)
जवाब
इस पर कई कागजात हैं लेकिन निम्नलिखित एक अच्छी शुरुआत है:
- प्रोग्राम को वाइन लेबल अनप्लग कैसे करें । लेखक में पायथन में स्रोत कोड शामिल है ।
आपने उल्लेख किया है कि आप एक मनोरम दृश्य नहीं करना चाहते हैं लेकिन इसका एक से अधिक अर्थ है। अगर मुझे लगता है कि आप मतलब है कि आप कई फ़ोटो लेते समय कैन को घुमाना नहीं चाहते हैं, या आप अलग-अलग कोणों से कई फ़ोटो नहीं लेना चाहते हैं, तो आप एक पेरीसेंट्रिक लेंस आज़मा सकते हैं । इसके लिए कुछ इमेज प्रोसेसिंग की आवश्यकता होती है, जो अलिखित करना है। अधिक संकल्प की आवश्यकता होती है क्योंकि रैपिंग अधिक गंभीर होती है। हालांकि फायदा यह है कि आपके पास पूर्ण बेलनाकार सतह की एक ही छवि होगी और कोई भी विशेषता या पाठ याद नहीं होगा।