पायथन - ग्राफ़ डेटा

CSGraph के लिए खड़ा है Compressed Sparse Graph, जो विरल मैट्रिक्स अभ्यावेदन के आधार पर फास्ट ग्राफ एल्गोरिदम पर केंद्रित है।

ग्राफ प्रतिनिधित्व

शुरुआत करने के लिए, आइए समझते हैं कि एक विरल ग्राफ क्या है और यह ग्राफ अभ्यावेदन में कैसे मदद करता है।

वास्तव में एक विरल ग्राफ क्या है?

एक ग्राफ सिर्फ नोड्स का एक संग्रह है, जिनके बीच लिंक हैं। रेखांकन लगभग कुछ भी प्रतिनिधित्व कर सकता है - सामाजिक नेटवर्क कनेक्शन, जहां प्रत्येक नोड एक व्यक्ति है और परिचितों से जुड़ा हुआ है; छवियां, जहां प्रत्येक नोड एक पिक्सेल है और पड़ोसी पिक्सेल से जुड़ा है; एक उच्च-आयामी वितरण में अंक, जहां प्रत्येक नोड अपने निकटतम पड़ोसियों से जुड़ा हुआ है और व्यावहारिक रूप से कुछ और आप कल्पना कर सकते हैं।

ग्राफ डेटा का प्रतिनिधित्व करने के लिए एक बहुत ही कुशल तरीका एक विरल मैट्रिक्स में है: हमें इसे जी कहते हैं। मैट्रिक्स जी आकार N x N का है, और G [i, j] नोड 'i' और नोड के बीच संबंध का मूल्य देता है। 'जे'। एक विरल ग्राफ में ज्यादातर शून्य होते हैं - यानी, अधिकांश नोड्स में केवल कुछ कनेक्शन होते हैं। यह संपत्ति ब्याज के अधिकांश मामलों में सच साबित होती है।

विरल ग्राफ सबमॉडल का निर्माण, स्किटिट-लर्न में प्रयुक्त कई एल्गोरिदम से प्रेरित था जिसमें निम्नलिखित शामिल थे -

  • Isomap - एक मैनिफोल्ड लर्निंग अल्गोरिथम, जिसमें एक ग्राफ में सबसे छोटे रास्ते खोजने की आवश्यकता होती है।

  • Hierarchical clustering - न्यूनतम फैले पेड़ के आधार पर क्लस्टरिंग एल्गोरिथ्म।

  • Spectral Decomposition - विरल ग्राफ लैपलीन पर आधारित एक प्रक्षेपण एल्गोरिथ्म।

एक ठोस उदाहरण के रूप में, कल्पना करें कि हम निम्नलिखित अप्रत्यक्ष ग्राफ का प्रतिनिधित्व करना चाहेंगे -

इस ग्राफ में तीन नोड्स हैं, जहां नोड 0 और 1 वजन 2 के किनारे से जुड़े हुए हैं, और नोड्स 0 और 2 वजन के किनारे से जुड़े हुए हैं। 1. हम घने, नकाबपोश और विरल प्रतिनिधित्व का निर्माण कर सकते हैं जैसा कि निम्नलिखित उदाहरण में दिखाया गया है। , यह ध्यान में रखते हुए कि एक अप्रत्यक्ष ग्राफ एक सममित मैट्रिक्स द्वारा दर्शाया गया है।

G_dense = np.array([ [0, 2, 1],
                     [2, 0, 0],
                     [1, 0, 0] ])
                     
G_masked = np.ma.masked_values(G_dense, 0)
from scipy.sparse import csr_matrix

G_sparse = csr_matrix(G_dense)
print G_sparse.data

उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।

array([2, 1, 2, 1])

यह पिछले ग्राफ के समान है, नोड्स को छोड़कर 0 और 2 शून्य वजन के किनारे से जुड़े हुए हैं। इस मामले में, ऊपर घने प्रतिनिधित्व अस्पष्टता की ओर जाता है - गैर-किनारों का प्रतिनिधित्व कैसे किया जा सकता है, अगर शून्य एक सार्थक मूल्य है। इस मामले में, अस्पष्टता को खत्म करने के लिए या तो एक नकाबपोश या विरल प्रतिनिधित्व का उपयोग किया जाना चाहिए।

आइए हम निम्नलिखित उदाहरण पर विचार करें।

from scipy.sparse.csgraph import csgraph_from_dense
G2_data = np.array
([
   [np.inf, 2, 0 ],
   [2, np.inf, np.inf],
   [0, np.inf, np.inf]
])
G2_sparse = csgraph_from_dense(G2_data, null_value=np.inf)
print G2_sparse.data

उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।

array([ 2., 0., 2., 0.])