पायथन के साथ एआई - कंप्यूटर विजन
कंप्यूटर दृष्टि का संबंध कंप्यूटर सॉफ्टवेयर और हार्डवेयर का उपयोग करते हुए मानव दृष्टि की मॉडलिंग और नकल से है। इस अध्याय में, आप इसके बारे में विस्तार से जानेंगे।
कंप्यूटर दृष्टी
कंप्यूटर दृष्टि एक अनुशासन है जो दृश्य में मौजूद संरचना के गुणों के संदर्भ में, इसकी 2d छवियों से 3 डी दृश्य को फिर से संगठित, पुनर्निर्माण और समझने के तरीके का अध्ययन करता है।
कंप्यूटर विजन पदानुक्रम
कंप्यूटर दृष्टि को निम्नलिखित के रूप में तीन मूल श्रेणियों में विभाजित किया गया है -
Low-level vision - इसमें फीचर एक्सट्रैक्शन के लिए प्रोसेस इमेज शामिल है।
Intermediate-level vision - इसमें ऑब्जेक्ट मान्यता और 3 डी दृश्य व्याख्या शामिल है
High-level vision - इसमें गतिविधि, इरादा और व्यवहार जैसे दृश्य का वैचारिक विवरण शामिल है।
कंप्यूटर विजन बनाम इमेज प्रोसेसिंग
छवि प्रसंस्करण छवि परिवर्तन के लिए छवि का अध्ययन करता है। इमेज प्रोसेसिंग का इनपुट और आउटपुट दोनों ही इमेज हैं।
कंप्यूटर दृष्टि उनकी छवि से भौतिक वस्तुओं के स्पष्ट, सार्थक विवरण का निर्माण है। कंप्यूटर दृष्टि का आउटपुट 3 डी दृश्य में संरचनाओं का वर्णन या व्याख्या है।
अनुप्रयोग
कंप्यूटर दृष्टि निम्नलिखित क्षेत्रों में आवेदन पाती है -
Robotics
स्थानीयकरण-निर्धारित रोबोट स्थान स्वचालित रूप से
Navigation
बाधा से बचाव
असेम्बली (पेग-इन-होल, वेल्डिंग, पेंटिंग)
हेरफेर (जैसे PUMA रोबोट मैनिप्युलेटर)
ह्यूमन रोबोट इंटरेक्शन (HRI): लोगों के साथ बातचीत करने और उनकी सेवा करने के लिए बुद्धिमान रोबोटिक्स
Medicine
वर्गीकरण और पहचान (जैसे घाव या कोशिकाओं का वर्गीकरण और ट्यूमर का पता लगाना)
2 डी / 3 डी विभाजन
3 डी मानव अंग पुनर्निर्माण (एमआरआई या अल्ट्रासाउंड)
दृष्टि निर्देशित रोबोटिक्स सर्जरी
Security
- बॉयोमीट्रिक्स (आईरिस, फिंगर प्रिंट, चेहरे की पहचान)
- निगरानी-कुछ संदिग्ध गतिविधियों या व्यवहारों का पता लगाना
Transportation
- स्वायत्त वाहन
- सुरक्षा, जैसे, चालक सतर्कता निगरानी
Industrial Automation Application
- औद्योगिक निरीक्षण (दोष का पता लगाना)
- Assembly
- बारकोड और पैकेज लेबल पढ़ना
- वस्तु छांटना
- दस्तावेज़ की समझ (जैसे OCR)
उपयोगी पैकेज स्थापित करना
पायथन के साथ कंप्यूटर की दृष्टि के लिए, आप एक लोकप्रिय पुस्तकालय का उपयोग कर सकते हैं जिसे कहा जाता है OpenCV(ओपन सोर्स कंप्यूटर विजन)। यह मुख्य रूप से वास्तविक समय की कंप्यूटर दृष्टि के उद्देश्य से प्रोग्रामिंग कार्यों की एक लाइब्रेरी है। यह C ++ में लिखा गया है और इसका प्राथमिक इंटरफ़ेस C ++ में है। आप निम्न कमांड की सहायता से इस पैकेज को स्थापित कर सकते हैं -
pip install opencv_python-X.X-cp36-cp36m-winX.whl
यहां X आपकी मशीन पर स्थापित पायथन के संस्करण के साथ-साथ आपके पास होने वाले win32 या 64 बिट का प्रतिनिधित्व करता है।
यदि आप उपयोग कर रहे हैं anaconda पर्यावरण, तो OpenCV को स्थापित करने के लिए निम्नलिखित कमांड का उपयोग करें -
conda install -c conda-forge opencv
एक छवि पढ़ना, लिखना और प्रदर्शित करना
अधिकांश सीवी अनुप्रयोगों को छवियों को इनपुट के रूप में प्राप्त करने और आउटपुट के रूप में छवियों का उत्पादन करने की आवश्यकता होती है। इस अनुभाग में, आप सीखेंगे कि ओपनसीवी द्वारा प्रदान किए गए कार्यों की सहायता से छवि फ़ाइल कैसे पढ़ें और लिखें।
OpenCV एक छवि फ़ाइल को पढ़ने, दिखाने, लिखने के लिए कार्य करता है
OpenCV इस उद्देश्य के लिए निम्नलिखित कार्य प्रदान करता है -
imread() function- यह एक छवि को पढ़ने के लिए कार्य है। OpenCV इम्रेड () PNG, JPEG, JPG, TIFF, आदि जैसे विभिन्न छवि प्रारूपों का समर्थन करता है।
imshow() function- यह एक विंडो में एक छवि दिखाने के लिए कार्य है। विंडो स्वचालित रूप से छवि आकार में फिट हो जाती है। OpenCV imshow () PNG, JPEG, JPG, TIFF, आदि जैसे विभिन्न छवि प्रारूपों का समर्थन करता है।
imwrite() function- यह एक छवि लिखने के लिए कार्य है। OpenCV imwrite () PNG, JPEG, JPG, TIFF, आदि जैसे विभिन्न छवि प्रारूपों का समर्थन करता है।
उदाहरण
यह उदाहरण एक प्रारूप में एक छवि को पढ़ने के लिए पायथन कोड दिखाता है - इसे एक विंडो में दिखाना और उसी छवि को अन्य प्रारूप में लिखना। नीचे दिखाए गए चरणों पर विचार करें -
OpenCV पैकेज को दिखाए अनुसार आयात करें -
import cv2
अब, किसी विशेष छवि को पढ़ने के लिए, इम्रेड () फ़ंक्शन का उपयोग करें -
image = cv2.imread('image_flower.jpg')
छवि दिखाने के लिए, का उपयोग करें imshow()समारोह। उस विंडो का नाम जिसमें आप छवि देख सकते हैंimage_flower।
cv2.imshow('image_flower',image)
cv2.destroyAllwindows()
अब, हम एक ही छवि को अन्य प्रारूप में लिख सकते हैं, कह सकते हैं कि imwrite () फ़ंक्शन का उपयोग करके .png -
cv2.imwrite('image_flower.png',image)
आउटपुट ट्रू का अर्थ है कि छवि को सफलतापूर्वक .png फ़ाइल के समान फ़ोल्डर में भी लिखा गया है।
True
नोट - फ़ंक्शन नष्ट करने वाली विंडोज () बस हमारे द्वारा बनाई गई सभी खिड़कियों को नष्ट कर देती है।
रंग अंतरिक्ष रूपांतरण
OpenCV में, छवियों को पारंपरिक RGB रंग का उपयोग करके संग्रहीत नहीं किया जाता है, बल्कि उन्हें रिवर्स ऑर्डर में BGR क्रम में संग्रहीत किया जाता है। इसलिए छवि को पढ़ने के दौरान डिफ़ॉल्ट रंग कोड BGR है। cvtColor() एक रंग कोड से दूसरे में छवि परिवर्तित करने के लिए रंग रूपांतरण समारोह।
उदाहरण
बीजीआर से ग्रेस्केल में छवि बदलने के लिए इस उदाहरण पर विचार करें।
आयात करें OpenCV पैकेज के रूप में दिखाया गया है -
import cv2
अब, किसी विशेष छवि को पढ़ने के लिए, इम्रेड () फ़ंक्शन का उपयोग करें -
image = cv2.imread('image_flower.jpg')
अब, यदि हम इस छवि का उपयोग करते हुए देखते हैं imshow() फ़ंक्शन, तब हम देख सकते हैं कि यह छवि BGR में है।
cv2.imshow('BGR_Penguins',image)
अब, उपयोग करें cvtColor() फ़ंक्शन को इस छवि को ग्रेस्केल में बदलने के लिए।
image = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
cv2.imshow('gray_penguins',image)
किनारे का पता लगाना
मनुष्य, एक मोटे स्केच को देखने के बाद, कई वस्तु प्रकारों और उनके पोज़ को आसानी से पहचान सकता है। यही कारण है कि किनारों मानव जीवन के साथ-साथ कंप्यूटर दृष्टि के अनुप्रयोगों में एक महत्वपूर्ण भूमिका निभाते हैं। OpenCV नामक बहुत ही सरल और उपयोगी फ़ंक्शन प्रदान करता हैCanny()किनारों का पता लगाने के लिए।
उदाहरण
निम्न उदाहरण किनारों की स्पष्ट पहचान दर्शाता है।
दिखाए गए अनुसार OpenCV पैकेज आयात करें -
import cv2
import numpy as np
अब, किसी विशेष छवि को पढ़ने के लिए, का उपयोग करें imread() समारोह।
image = cv2.imread('Penguins.jpg')
अब, का उपयोग करें Canny () पहले से पढ़ी गई छवि के किनारों का पता लगाने के लिए कार्य करता है।
cv2.imwrite(‘edges_Penguins.jpg’,cv2.Canny(image,200,300))
अब, किनारों के साथ छवि दिखाने के लिए, imshow () फ़ंक्शन का उपयोग करें।
cv2.imshow(‘edges’, cv2.imread(‘‘edges_Penguins.jpg’))
यह पायथन प्रोग्राम नाम की एक छवि बनाएगा edges_penguins.jpg बढ़त का पता लगाने के साथ।
चेहरा पहचानना
फेस डिटेक्शन कंप्यूटर विज़न के आकर्षक अनुप्रयोगों में से एक है जो इसे अधिक यथार्थवादी और साथ ही भविष्य बनाता है। OpenCV में फेस डिटेक्शन करने के लिए एक अंतर्निहित सुविधा है। हम उपयोग करने जा रहे हैंHaar फेस डिटेक्शन के लिए कैस्केड क्लासिफायर।
हर कैस्केड डेटा
हमें हार कैस्केड क्लासिफायर का उपयोग करने के लिए डेटा की आवश्यकता है। आप इस डेटा को हमारे OpenCV पैकेज में पा सकते हैं। OpenCv को स्थापित करने के बाद, आप फ़ोल्डर का नाम देख सकते हैंhaarcascades। अलग-अलग एप्लिकेशन के लिए .xml फाइलें होंगी। अब, उन सभी को अलग-अलग उपयोग के लिए कॉपी करें और वर्तमान प्रोजेक्ट के तहत एक नए फ़ोल्डर में पेस्ट करें।
Example
निम्नलिखित छवि में दिखाए गए अमिताभ बच्चन के चेहरे का पता लगाने के लिए Haar Cascade का उपयोग करते हुए पायथन कोड है -
आयात करें OpenCV पैकेज के रूप में दिखाया गया है -
import cv2
import numpy as np
अब, का उपयोग करें HaarCascadeClassifier चेहरा पहचानने के लिए -
face_detection=
cv2.CascadeClassifier('D:/ProgramData/cascadeclassifier/
haarcascade_frontalface_default.xml')
अब, किसी विशेष छवि को पढ़ने के लिए, का उपयोग करें imread() कार्य -
img = cv2.imread('AB.jpg')
अब इसे ग्रेस्केल में बदलें क्योंकि यह ग्रे इमेज को स्वीकार करेगा -
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
अब, का उपयोग कर face_detection.detectMultiScale, वास्तविक चेहरा पहचान का प्रदर्शन करें
faces = face_detection.detectMultiScale(gray, 1.3, 5)
अब, पूरे चेहरे के चारों ओर एक आयत बनाएं -
for (x,y,w,h) in faces:
img = cv2.rectangle(img,(x,y),(x+w, y+h),(255,0,0),3)
cv2.imwrite('Face_AB.jpg',img)
यह पायथन प्रोग्राम नाम की एक छवि बनाएगा Face_AB.jpg जैसा कि चेहरे की पहचान के साथ दिखाया गया है
आँख का पता लगाना
नेत्र पहचान कंप्यूटर दृष्टि का एक और आकर्षक अनुप्रयोग है जो इसे और अधिक यथार्थवादी और भविष्य बनाता है। ओपनसीवी में आंख का पता लगाने के लिए एक अंतर्निहित सुविधा है। हम उपयोग करने जा रहे हैंHaar cascade आंख का पता लगाने के लिए क्लासिफायरियर।
उदाहरण
निम्न चित्र में दिए गए अमिताभ बच्चन के चेहरे का पता लगाने के लिए Haar Cascade का उपयोग करके पायथन कोड दिया गया है -
दिखाए गए अनुसार OpenCV पैकेज आयात करें -
import cv2
import numpy as np
अब, का उपयोग करें HaarCascadeClassifier चेहरा पहचानने के लिए -
eye_cascade = cv2.CascadeClassifier('D:/ProgramData/cascadeclassifier/haarcascade_eye.xml')
अब, किसी विशेष छवि को पढ़ने के लिए, का उपयोग करें imread() समारोह
img = cv2.imread('AB_Eye.jpg')
अब इसे ग्रेस्केल में बदलें क्योंकि यह ग्रे इमेज को स्वीकार करेगा -
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
की मदद से अब eye_cascade.detectMultiScale, वास्तविक चेहरा पहचान का प्रदर्शन करें
eyes = eye_cascade.detectMultiScale(gray, 1.03, 5)
अब, पूरे चेहरे के चारों ओर एक आयत बनाएं -
for (ex,ey,ew,eh) in eyes:
img = cv2.rectangle(img,(ex,ey),(ex+ew, ey+eh),(0,255,0),2)
cv2.imwrite('Eye_AB.jpg',img)
यह पायथन प्रोग्राम नाम की एक छवि बनाएगा Eye_AB.jpg के रूप में आंख का पता लगाने के साथ -