एक छवि पर फ़्रेमयुक्त पाठ के निर्देशांक

Dec 18 2020

मैं एक छवि पर फ़्रेम किए गए पाठ के निर्देशांक प्राप्त करना चाहूंगा। पैराग्राफ में पतली काली सीमाएँ हैं। बाकी की छवि में सामान्य पैराग्राफ और स्केच शामिल हैं।

यहाँ एक उदाहरण है:

क्या आपको इस बात का कोई अंदाजा है कि इसे प्राप्त करने के लिए इमेज लाइब्रेरी के साथ पायथन में मुझे किस तरह के एल्गोरिदम का उपयोग करना चाहिए? धन्यवाद।

जवाब

2 alecxe Dec 18 2020 at 18:02

एक फ़्रेमयुक्त पाठ का पता लगाने के लिए कुछ विचार जो बड़े पैमाने पर खोज करने के लिए नीचे आते हैं / पर्याप्त आकार के आयत:

  • OpenCV के साथ आकृति पाएं, बहुभुज सन्निकटन एल्गोरिथ्म का उपयोग करके आकृतियों का विश्लेषण करें (जिसे रामर-डगलस-प्यूकर एल्गोरिथ्म के रूप में भी जाना जाता है )। आप अतिरिक्त रूप से बाउंडिंग बॉक्स के पहलू अनुपात की जांच कर सकते हैं ताकि यह सुनिश्चित हो सके कि आकार एक आयत है और साथ ही पृष्ठ की चौड़ाई की जांच करें क्योंकि यह आपके मामले में एक ज्ञात मीट्रिक है। PyImageSearch ने किया यह अद्भुत लेख:cv2.approxPolyDP()

    • OpenCV आकार का पता लगाने
  • एक संबंधित प्रश्न में , एक क्षैतिज रेखा का पता लगाने के लिए Hough Lines पर गौर करने का सुझाव भी है , एक मोड़ को एक समान खड़ी रेखाओं का पता लगाने के लिए। 100% निश्चित नहीं है कि यह दृष्टिकोण कितना विश्वसनीय होगा।


एक बार जब आप बॉक्स फ़्रेम पाते हैं, तो अगला चरण यह जांचना होगा कि क्या उनके अंदर कोई पाठ है। पाठ का पता लगाना सामान्य रूप से एक व्यापक समस्या है और इसे करने के कई तरीके हैं, यहाँ कुछ उदाहरण दिए गए हैं:

  • पूर्व पाठ डिटेक्टर लागू करें

  • पिक्सेललिंक

  • tesseract (जैसे के माध्यम से pytesseract) लेकिन यकीन है कि अगर यह भी कई गलत सकारात्मक नहीं होगा

  • यदि यह बक्सों के खाली होने या न होने का एक सरल मामला है, तो आप औसत पिक्सेल मानों के लिए जाँच कर सकते हैं - जैसे कि cv2.countNonZero()। उदाहरण:

    • OpenCV का उपयोग करके खाली आयत की पहचान कैसे करें
    • OpenCV का उपयोग करके काले पिक्सेल की गणना करें

अतिरिक्त संदर्भ:

  • चतुर्भुज / आयत का पता लगाने के लिए संवेदी तंत्रिका नेटवर्क का उपयोग करते हुए विचार