पायथन - ग्राफ़ डेटा
CSGraph के लिए खड़ा है Compressed Sparse Graph, जो विरल मैट्रिक्स अभ्यावेदन के आधार पर फास्ट ग्राफ एल्गोरिदम पर केंद्रित है।
ग्राफ प्रतिनिधित्व
शुरुआत करने के लिए, आइए समझते हैं कि एक विरल ग्राफ क्या है और यह ग्राफ अभ्यावेदन में कैसे मदद करता है।
वास्तव में एक विरल ग्राफ क्या है?
एक ग्राफ सिर्फ नोड्स का एक संग्रह है, जिनके बीच लिंक हैं। रेखांकन लगभग कुछ भी प्रतिनिधित्व कर सकता है - सामाजिक नेटवर्क कनेक्शन, जहां प्रत्येक नोड एक व्यक्ति है और परिचितों से जुड़ा हुआ है; छवियां, जहां प्रत्येक नोड एक पिक्सेल है और पड़ोसी पिक्सेल से जुड़ा है; एक उच्च-आयामी वितरण में अंक, जहां प्रत्येक नोड अपने निकटतम पड़ोसियों से जुड़ा हुआ है और व्यावहारिक रूप से कुछ और आप कल्पना कर सकते हैं।
ग्राफ डेटा का प्रतिनिधित्व करने के लिए एक बहुत ही कुशल तरीका एक विरल मैट्रिक्स में है: हमें इसे जी कहते हैं। मैट्रिक्स जी आकार N x N का है, और G [i, j] नोड 'i' और नोड के बीच संबंध का मूल्य देता है। 'जे'। एक विरल ग्राफ में ज्यादातर शून्य होते हैं - यानी, अधिकांश नोड्स में केवल कुछ कनेक्शन होते हैं। यह संपत्ति ब्याज के अधिकांश मामलों में सच साबित होती है।
विरल ग्राफ सबमॉडल का निर्माण, स्किटिट-लर्न में प्रयुक्त कई एल्गोरिदम से प्रेरित था जिसमें निम्नलिखित शामिल थे -
Isomap - एक मैनिफोल्ड लर्निंग अल्गोरिथम, जिसमें एक ग्राफ में सबसे छोटे रास्ते खोजने की आवश्यकता होती है।
Hierarchical clustering - न्यूनतम फैले पेड़ के आधार पर क्लस्टरिंग एल्गोरिथ्म।
Spectral Decomposition - विरल ग्राफ लैपलीन पर आधारित एक प्रक्षेपण एल्गोरिथ्म।
एक ठोस उदाहरण के रूप में, कल्पना करें कि हम निम्नलिखित अप्रत्यक्ष ग्राफ का प्रतिनिधित्व करना चाहेंगे -
इस ग्राफ में तीन नोड्स हैं, जहां नोड 0 और 1 वजन 2 के किनारे से जुड़े हुए हैं, और नोड्स 0 और 2 वजन के किनारे से जुड़े हुए हैं। 1. हम घने, नकाबपोश और विरल प्रतिनिधित्व का निर्माण कर सकते हैं जैसा कि निम्नलिखित उदाहरण में दिखाया गया है। , यह ध्यान में रखते हुए कि एक अप्रत्यक्ष ग्राफ एक सममित मैट्रिक्स द्वारा दर्शाया गया है।
G_dense = np.array([ [0, 2, 1],
[2, 0, 0],
[1, 0, 0] ])
G_masked = np.ma.masked_values(G_dense, 0)
from scipy.sparse import csr_matrix
G_sparse = csr_matrix(G_dense)
print G_sparse.data
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
array([2, 1, 2, 1])
यह पिछले ग्राफ के समान है, नोड्स को छोड़कर 0 और 2 शून्य वजन के किनारे से जुड़े हुए हैं। इस मामले में, ऊपर घने प्रतिनिधित्व अस्पष्टता की ओर जाता है - गैर-किनारों का प्रतिनिधित्व कैसे किया जा सकता है, अगर शून्य एक सार्थक मूल्य है। इस मामले में, अस्पष्टता को खत्म करने के लिए या तो एक नकाबपोश या विरल प्रतिनिधित्व का उपयोग किया जाना चाहिए।
आइए हम निम्नलिखित उदाहरण पर विचार करें।
from scipy.sparse.csgraph import csgraph_from_dense
G2_data = np.array
([
[np.inf, 2, 0 ],
[2, np.inf, np.inf],
[0, np.inf, np.inf]
])
G2_sparse = csgraph_from_dense(G2_data, null_value=np.inf)
print G2_sparse.data
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
array([ 2., 0., 2., 0.])