एक छवि पर फ़्रेमयुक्त पाठ के निर्देशांक
मैं एक छवि पर फ़्रेम किए गए पाठ के निर्देशांक प्राप्त करना चाहूंगा। पैराग्राफ में पतली काली सीमाएँ हैं। बाकी की छवि में सामान्य पैराग्राफ और स्केच शामिल हैं।
यहाँ एक उदाहरण है:

क्या आपको इस बात का कोई अंदाजा है कि इसे प्राप्त करने के लिए इमेज लाइब्रेरी के साथ पायथन में मुझे किस तरह के एल्गोरिदम का उपयोग करना चाहिए? धन्यवाद।
जवाब
एक फ़्रेमयुक्त पाठ का पता लगाने के लिए कुछ विचार जो बड़े पैमाने पर खोज करने के लिए नीचे आते हैं / पर्याप्त आकार के आयत:
OpenCV के साथ आकृति पाएं, बहुभुज सन्निकटन एल्गोरिथ्म का उपयोग करके आकृतियों का विश्लेषण करें (जिसे रामर-डगलस-प्यूकर एल्गोरिथ्म के रूप में भी जाना जाता है )। आप अतिरिक्त रूप से बाउंडिंग बॉक्स के पहलू अनुपात की जांच कर सकते हैं ताकि यह सुनिश्चित हो सके कि आकार एक आयत है और साथ ही पृष्ठ की चौड़ाई की जांच करें क्योंकि यह आपके मामले में एक ज्ञात मीट्रिक है। PyImageSearch ने किया यह अद्भुत लेख:cv2.approxPolyDP()
- OpenCV आकार का पता लगाने
एक संबंधित प्रश्न में , एक क्षैतिज रेखा का पता लगाने के लिए Hough Lines पर गौर करने का सुझाव भी है , एक मोड़ को एक समान खड़ी रेखाओं का पता लगाने के लिए। 100% निश्चित नहीं है कि यह दृष्टिकोण कितना विश्वसनीय होगा।
एक बार जब आप बॉक्स फ़्रेम पाते हैं, तो अगला चरण यह जांचना होगा कि क्या उनके अंदर कोई पाठ है। पाठ का पता लगाना सामान्य रूप से एक व्यापक समस्या है और इसे करने के कई तरीके हैं, यहाँ कुछ उदाहरण दिए गए हैं:
पूर्व पाठ डिटेक्टर लागू करें
पिक्सेललिंक
tesseract (जैसे के माध्यम से
pytesseract
) लेकिन यकीन है कि अगर यह भी कई गलत सकारात्मक नहीं होगायदि यह बक्सों के खाली होने या न होने का एक सरल मामला है, तो आप औसत पिक्सेल मानों के लिए जाँच कर सकते हैं - जैसे कि cv2.countNonZero()। उदाहरण:
- OpenCV का उपयोग करके खाली आयत की पहचान कैसे करें
- OpenCV का उपयोग करके काले पिक्सेल की गणना करें
अतिरिक्त संदर्भ:
- चतुर्भुज / आयत का पता लगाने के लिए संवेदी तंत्रिका नेटवर्क का उपयोग करते हुए विचार