बायोपथॉन - क्लस्टर विश्लेषण

सामान्य तौर पर, क्लस्टर विश्लेषण समान समूह में वस्तुओं का एक समूह बना रहा है। इस अवधारणा का उपयोग मुख्य रूप से डेटा खनन, सांख्यिकीय डेटा विश्लेषण, मशीन सीखने, पैटर्न मान्यता, छवि विश्लेषण, जैव सूचना विज्ञान आदि में किया जाता है। यह विभिन्न एल्गोरिदम द्वारा समझा जा सकता है कि विभिन्न विश्लेषण में क्लस्टर का व्यापक रूप से उपयोग कैसे किया जाता है।

जैव सूचना विज्ञान के अनुसार, क्लस्टर विश्लेषण मुख्य रूप से जीन अभिव्यक्ति डेटा विश्लेषण में समान जीन अभिव्यक्ति वाले जीन के समूहों को खोजने के लिए उपयोग किया जाता है।

इस अध्याय में, हम एक वास्तविक डेटासेट पर क्लस्टरिंग के मूल सिद्धांतों को समझने के लिए बायोपथॉन में महत्वपूर्ण एल्गोरिदम की जांच करेंगे।

बायोपथॉन सभी एल्गोरिदम को लागू करने के लिए बायो. क्लस्टर मॉड्यूल का उपयोग करता है। यह निम्नलिखित एल्गोरिदम का समर्थन करता है -

  • पदानुक्रमित क्लस्टरिंग
  • के - क्लस्टरिंग
  • स्व-व्यवस्थित मानचित्र
  • प्रमुख कंपोनेंट विश्लेषण

आइए हम उपरोक्त एल्गोरिदम पर एक संक्षिप्त परिचय दें।

पदानुक्रमित क्लस्टरिंग

पदानुक्रमित क्लस्टरिंग का उपयोग प्रत्येक नोड को अपने निकटतम पड़ोसी से दूरी मापने के लिए और एक क्लस्टर बनाने के लिए किया जाता है। Bio.Cluster नोड में तीन विशेषताएँ हैं: बाएँ, दाएँ और दूरी। जैसा कि नीचे दिखाया गया है, हम एक साधारण क्लस्टर बनाते हैं -

>>> from Bio.Cluster import Node 
>>> n = Node(1,10) 
>>> n.left = 11 
>>> n.right = 0 
>>> n.distance = 1 
>>> print(n) 
(11, 0): 1

यदि आप ट्री आधारित क्लस्टरिंग का निर्माण करना चाहते हैं, तो नीचे दिए गए कमांड का उपयोग करें -

>>> n1 = [Node(1, 2, 0.2), Node(0, -1, 0.5)] >>> n1_tree = Tree(n1) 
>>> print(n1_tree) 
(1, 2): 0.2 
(0, -1): 0.5 
>>> print(n1_tree[0]) 
(1, 2): 0.2

हमें Bio.Cluster मॉड्यूल का उपयोग करके पदानुक्रमित क्लस्टरिंग करते हैं।

विचार करें कि दूरी एक सरणी में परिभाषित की गई है।

>>> import numpy as np 
>>> distance = array([[1,2,3],[4,5,6],[3,5,7]])

अब ट्री क्लस्टर में दूरी सरणी जोड़ें।

>>> from Bio.Cluster import treecluster 
>>> cluster = treecluster(distance) 
>>> print(cluster) 
(2, 1): 0.666667 
(-1, 0): 9.66667

उपरोक्त फ़ंक्शन ट्री क्लस्टर ऑब्जेक्ट देता है। इस ऑब्जेक्ट में नोड्स होते हैं जहां आइटम की संख्या पंक्तियों या स्तंभों के रूप में क्लस्टर की जाती है।

के - क्लस्टरिंग

यह एक प्रकार का विभाजन एल्गोरिथ्म है और इसे k - मतलब, मंझला और ध्यान हटाने वाली श्रेणी में वर्गीकृत किया गया है। आइए हम संक्षेप में प्रत्येक क्लस्टरिंग को समझें।

K- मतलब क्लस्टरिंग

यह दृष्टिकोण डेटा माइनिंग में लोकप्रिय है। इस एल्गोरिदम का लक्ष्य डेटा में समूहों को खोजना है, चर के द्वारा प्रतिनिधित्व किए गए समूहों की संख्या।

एल्गोरिथ्म प्रदान किए गए सुविधाओं के आधार पर K समूहों में से किसी एक को प्रत्येक डेटा बिंदु को असाइन करने के लिए चलने का कार्य करता है। फ़ीचर समानता के आधार पर डेटा पॉइंट्स को क्लस्टर किया जाता है।

>>> from Bio.Cluster import kcluster 
>>> from numpy import array 
>>> data = array([[1, 2], [3, 4], [5, 6]]) 
>>> clusterid, error,found = kcluster(data) 
>>> print(clusterid) [0 0 1] 
>>> print(found) 
1

के-मेडियंस क्लस्टरिंग

यह क्लस्टरिंग एल्गोरिथ्म का एक अन्य प्रकार है जो प्रत्येक सेंटीमीटर के लिए इसका केंद्रक निर्धारित करने के लिए माध्य की गणना करता है।

K- मेडुस्ट क्लस्टरिंग

यह दृष्टिकोण वस्तुओं के दिए गए सेट पर आधारित है, दूरी मैट्रिक्स और उपयोगकर्ता द्वारा पारित समूहों की संख्या का उपयोग करते हुए।

नीचे बताए अनुसार दूरी मैट्रिक्स पर विचार करें -

>>> distance = array([[1,2,3],[4,5,6],[3,5,7]])

हम नीचे दिए गए आदेश का उपयोग करते हुए k-medoids क्लस्टरिंग की गणना कर सकते हैं -

>>> from Bio.Cluster import kmedoids 
>>> clusterid, error, found = kmedoids(distance)

चलिए, हम एक उदाहरण पर विचार करते हैं।

Kcluster फ़ंक्शन इनपुट के रूप में डेटा मैट्रिक्स लेता है न कि Seq इंस्टेंस। आपको अपने अनुक्रमों को एक मैट्रिक्स में बदलना होगा और इसे kcluster फ़ंक्शन प्रदान करना होगा।

संख्यात्मक तत्वों वाले मैट्रिक्स को डेटा परिवर्तित करने का एक तरीका केवल उपयोग करने से है numpy.fromstringसमारोह। यह मूल रूप से प्रत्येक अक्षर को अपने ASCII समकक्ष के अनुक्रम में अनुवादित करता है।

यह एन्कोडेड अनुक्रमों का 2 डी सरणी बनाता है जिसे क्लक्स्टर फ़ंक्शन मान्यता देता है और आपके अनुक्रमों को क्लस्टर करने के लिए उपयोग करता है।

>>> from Bio.Cluster import kcluster 
>>> import numpy as np 
>>> sequence = [ 'AGCT','CGTA','AAGT','TCCG'] 
>>> matrix = np.asarray([np.fromstring(s, dtype=np.uint8) for s in sequence]) 
>>> clusterid,error,found = kcluster(matrix) 
>>> print(clusterid) [1 0 0 1]

स्व-व्यवस्थित मानचित्र

यह दृष्टिकोण एक प्रकार का कृत्रिम तंत्रिका नेटवर्क है। यह कोहेनन द्वारा विकसित किया गया है और अक्सर कोहेनन मानचित्र के रूप में कहा जाता है। यह आयताकार टोपोलॉजी पर आधारित समूहों में वस्तुओं को व्यवस्थित करता है।

नीचे दिखाए गए समान सरणी दूरी का उपयोग करके एक सरल क्लस्टर बनाते हैं -

>>> from Bio.Cluster import somcluster 
>>> from numpy import array 
>>> data = array([[1, 2], [3, 4], [5, 6]]) 
>>> clusterid,map = somcluster(data) 

>>> print(map) 
[[[-1.36032469 0.38667395]] 
   [[-0.41170578 1.35295911]]] 

>>> print(clusterid) 
[[1 0]
   [1 0]
   [1 0]]

यहाँ, clusterid दो स्तंभों के साथ एक सरणी है, जहां पंक्तियों की संख्या उन वस्तुओं की संख्या के बराबर है, जिन्हें क्लस्टर किया गया था, और data या तो पंक्तियों या स्तंभों के साथ एक सरणी है।

प्रमुख कंपोनेंट विश्लेषण

प्रधान घटक विश्लेषण उच्च-आयामी डेटा की कल्पना करने के लिए उपयोगी है। यह एक ऐसी विधि है जो मूल डेटा के प्रक्षेपण को एक ही संख्या या कम आयामों में गणना करने के लिए रैखिक बीजगणित और सांख्यिकी से सरल मैट्रिक्स संचालन का उपयोग करती है।

प्रिंसिपल कंपोनेंट एनालिसिस एक टपल कॉलमस्मैन, निर्देशांक, घटकों, और आइजनवेल्यूज को लौटाता है। आइए हम इस अवधारणा की मूल बातों पर ध्यान दें।

>>> from numpy import array 
>>> from numpy import mean 
>>> from numpy import cov 
>>> from numpy.linalg import eig 

# define a matrix 
>>> A = array([[1, 2], [3, 4], [5, 6]]) 

>>> print(A) 
[[1 2]
   [3 4]
   [5 6]] 
 
# calculate the mean of each column 
>>> M = mean(A.T, axis = 1) 
>>> print(M) 
[ 3. 4.] 

# center columns by subtracting column means 
>>> C = A - M

>>> print(C) 
[[-2. -2.]
   [ 0. 0.]
   [ 2. 2.]] 

# calculate covariance matrix of centered matrix 
>>> V = cov(C.T) 

>>> print(V) 
[[ 4. 4.]
   [ 4. 4.]] 
 
# eigendecomposition of covariance matrix 
>>> values, vectors = eig(V) 

>>> print(vectors) 
[[ 0.70710678 -0.70710678]
   [ 0.70710678 0.70710678]] 
 
>>> print(values) 
[ 8. 0.]

नीचे दिए गए अनुसार हमें उसी आयताकार मैट्रिक्स डेटा को Bio.Cluster मॉड्यूल पर लागू करें -

>>> from Bio.Cluster import pca 
>>> from numpy import array 
>>> data = array([[1, 2], [3, 4], [5, 6]]) 
>>> columnmean, coordinates, components, eigenvalues = pca(data) 
>>> print(columnmean) 
[ 3. 4.] 
>>> print(coordinates) 
[[-2.82842712 0. ]
   [ 0.         0. ]
   [ 2.82842712 0. ]] 
>>> print(components) 
[[ 0.70710678 0.70710678]
   [ 0.70710678 -0.70710678]] 
>>> print(eigenvalues) 
[ 4. 0.]