अपाचे तूफान - त्रिशूल
ट्राइडेंट स्टॉर्म का विस्तार है। स्टॉर्म की तरह, ट्रिडेंट भी ट्विटर द्वारा विकसित किया गया था। ट्राइडेंट को विकसित करने के पीछे मुख्य कारण स्टॉर्म के शीर्ष पर स्टेटफुल स्ट्रीम प्रोसेसिंग और कम विलंबता वितरित क्वेरी के साथ एक उच्च-स्तरीय अमूर्तता प्रदान करना है।
ट्रिडेंट टोंटी और बोल्ट का उपयोग करता है, लेकिन निष्पादन से पहले ये निम्न-स्तरीय घटक ट्रिडेंट द्वारा ऑटो-जेनरेट किए जाते हैं। ट्राइडेंट में फंक्शन, फिल्टर, जॉइन, ग्रुपिंग और एग्रीगेशन होता है।
ट्राइडेंट प्रक्रियाएं बैचों की एक श्रृंखला के रूप में प्रवाहित होती हैं जिन्हें लेनदेन के रूप में संदर्भित किया जाता है। आम तौर पर उन छोटे बैचों का आकार इनपुट स्ट्रीम के आधार पर हजारों या लाखों टुपल्स के क्रम पर होगा। इस तरह, ट्राइडेंट स्टॉर्म से अलग है, जो ट्यूपल-बाय-ट्यूपल प्रोसेसिंग करता है।
बैच प्रसंस्करण अवधारणा डेटाबेस लेनदेन के समान है। हर लेन-देन को एक लेनदेन आईडी सौंपा गया है। लेन-देन सफल माना जाता है, एक बार इसकी सारी प्रक्रिया पूरी हो जाती है। हालाँकि, लेन-देन में से किसी एक को संसाधित करने में विफलता के कारण संपूर्ण लेन-देन पीछे हट जाएगा। प्रत्येक बैच के लिए, ट्राइडेंट लेन-देन की शुरुआत में शुरुआत को कॉल करेगा, और इसके अंत में प्रतिबद्ध होगा।
त्रिशूल टोपोलॉजी
ट्रिडेंट एपीआई "ट्राइडेंट टापोलॉजी" वर्ग का उपयोग करके ट्राइडेंट टोपोलॉजी बनाने का एक आसान विकल्प उजागर करता है। मूल रूप से, ट्राइडेंट टोपोलॉजी को टोंटी से इनपुट स्ट्रीम प्राप्त होती है और स्ट्रीम पर ऑपरेशन (फ़िल्टर, एग्रीगेशन, ग्रुपिंग, आदि) के अनुक्रम का आदेश दिया है। तूफान टपल की जगह त्रिशूल टपल और बोल्ट को ऑपरेशन द्वारा प्रतिस्थापित किया गया है। एक सरल त्रिशूल टोपोलॉजी के रूप में बनाया जा सकता है -
TridentTopology topology = new TridentTopology();
त्रिशूल टुपल्स
ट्राइडेंट टपल मूल्यों की एक नामित सूची है। TridentTuple इंटरफ़ेस एक Trident टोपोलॉजी का डेटा मॉडल है। TridentTuple इंटरफ़ेस डेटा की मूल इकाई है जिसे Trident टोपोलॉजी द्वारा संसाधित किया जा सकता है।
ट्रिडेंट स्पाउट
ट्राइडेंट की विशेषताओं का उपयोग करने के लिए अतिरिक्त विकल्पों के साथ ट्राइडेंट टोंटी स्टॉर्म टोंटी के समान है। वास्तव में, हम अभी भी IRichSpout का उपयोग कर सकते हैं, जिसका उपयोग हमने स्टॉर्म टोपोलॉजी में किया है, लेकिन यह प्रकृति में गैर-लेन-देन होगा और हम ट्रिडेंट द्वारा प्रदान किए गए लाभों का उपयोग करने में सक्षम नहीं होंगे।
ट्रिडेंट की सुविधाओं का उपयोग करने के लिए सभी कार्यक्षमता वाले मूल टोंटी "ITridentSpout" है। यह ट्रांजेक्शनल और अपारदर्शी दोनों ट्रांजेक्शनल शब्दार्थ का समर्थन करता है। अन्य स्पाउट्स IBatchSpout, IPartitionedTridentSpout और IOpaquePartitionedTridentSpout हैं।
इन जेनेरिक स्पाउट्स के अलावा, ट्रिडेंट में ट्राइडेंट स्पाउट के कई नमूना कार्यान्वयन हैं। उनमें से एक फीडरबैचस्पाउट टोंटी है, जिसका उपयोग हम बैच प्रसंस्करण, समानता आदि के बारे में चिंता किए बिना ट्रिडेंट ट्यूपल्स की नाम सूची आसानी से भेजने के लिए उपयोग कर सकते हैं।
फीडरबैचस्पाउट निर्माण और डेटा फीडिंग नीचे दिखाए अनुसार किया जा सकता है -
TridentTopology topology = new TridentTopology();
FeederBatchSpout testSpout = new FeederBatchSpout(
ImmutableList.of("fromMobileNumber", "toMobileNumber", “duration”));
topology.newStream("fixed-batch-spout", testSpout)
testSpout.feed(ImmutableList.of(new Values("1234123401", "1234123402", 20)));
ट्राइडेंट ऑपरेशन
ट्रिडेंट ट्रिडेंट ट्यूपल्स के इनपुट स्ट्रीम को प्रोसेस करने के लिए "ट्राइडेंट ऑपरेशन" पर निर्भर करता है। ट्रिडेंट एपीआई के पास सरल-से-जटिल स्ट्रीम प्रोसेसिंग को संभालने के लिए कई इन-बिल्ट ऑपरेशन हैं। ये ऑपरेशन सरल सत्यापन से लेकर जटिल समूहन और त्रिशूल ट्यूल के एकत्रीकरण तक होते हैं। आइए हम सबसे महत्वपूर्ण और अक्सर उपयोग किए जाने वाले संचालन से गुजरते हैं।
फ़िल्टर
फ़िल्टर एक ऐसी वस्तु है जिसका उपयोग इनपुट सत्यापन के कार्य को करने के लिए किया जाता है। एक ट्राइडेंट फिल्टर को ट्राइडेंट टपल फ़ील्ड्स के एक सबसेट के रूप में इनपुट मिलता है और कुछ शर्तों के संतुष्ट होने या न होने के आधार पर सही या गलत होता है। अगर सच लौटा है, तो आउटपुट स्ट्रीम में टपल को रखा गया है; अन्यथा, टपल को धारा से हटा दिया जाता है। फ़िल्टर मूल रूप से इनहेरिट करेगाBaseFilter कक्षा और कार्यान्वित करें isKeepतरीका। यहाँ फिल्टर ऑपरेशन का एक नमूना कार्यान्वयन है -
public class MyFilter extends BaseFilter {
public boolean isKeep(TridentTuple tuple) {
return tuple.getInteger(1) % 2 == 0;
}
}
input
[1, 2]
[1, 3]
[1, 4]
output
[1, 2]
[1, 4]
फ़िल्टर फ़ंक्शन को "प्रत्येक" विधि का उपयोग करके टोपोलॉजी में बुलाया जा सकता है। "फ़ील्ड" वर्ग का उपयोग इनपुट निर्दिष्ट करने के लिए किया जा सकता है (ट्रिडेंट टपल का सबसेट)। नमूना कोड इस प्रकार है -
TridentTopology topology = new TridentTopology();
topology.newStream("spout", spout)
.each(new Fields("a", "b"), new MyFilter())
समारोह
Functionएक एकल त्रिशूल पर एक साधारण ऑपरेशन करने के लिए उपयोग की जाने वाली वस्तु है। यह ट्राइडेंट टपल फ़ील्ड्स का सबसेट लेता है और शून्य या अधिक नए ट्राइडेंट टपल फ़ील्ड्स का उत्सर्जन करता है।
Function मूल रूप से विरासत में मिला है BaseFunction वर्ग और लागू करता है executeतरीका। एक नमूना कार्यान्वयन नीचे दिया गया है -
public class MyFunction extends BaseFunction {
public void execute(TridentTuple tuple, TridentCollector collector) {
int a = tuple.getInteger(0);
int b = tuple.getInteger(1);
collector.emit(new Values(a + b));
}
}
input
[1, 2]
[1, 3]
[1, 4]
output
[1, 2, 3]
[1, 3, 4]
[1, 4, 5]
फ़िल्टर ऑपरेशन की तरह, फंक्शन ऑपरेशन का उपयोग करके टोपोलॉजी में बुलाया जा सकता है eachतरीका। नमूना कोड इस प्रकार है -
TridentTopology topology = new TridentTopology();
topology.newStream("spout", spout)
.each(new Fields(“a, b"), new MyFunction(), new Fields(“d")));
एकत्रीकरण
एकत्रीकरण एक वस्तु है जिसका उपयोग इनपुट बैच या विभाजन या स्ट्रीम पर एकत्रीकरण संचालन करने के लिए किया जाता है। त्रिशूल के तीन प्रकार के एकत्रीकरण हैं। वे इस प्रकार हैं -
aggregate- अलगाव में त्रिशूल के प्रत्येक बैच को एकत्र करता है। कुल प्रक्रिया के दौरान, ट्यूपल्स को शुरू में एक ही बैच के सभी विभाजन को एक ही विभाजन में संयोजित करने के लिए ग्लोबल ग्रुपिंग का उपयोग करके पुनः आरंभ किया जाता है।
partitionAggregate- ट्राइडेंट टपल के पूरे बैच के बजाय प्रत्येक विभाजन को एकत्र करता है। विभाजन समुच्चय का आउटपुट पूरी तरह से इनपुट टपल को बदल देता है। विभाजन समुच्चय के उत्पादन में एकल फ़ील्ड टपल शामिल है।
persistentaggregate - सभी बैचों में सभी त्रिशूल पर एकत्र होते हैं और परिणाम को मेमोरी या डेटाबेस में संग्रहीत करते हैं।
TridentTopology topology = new TridentTopology();
// aggregate operation
topology.newStream("spout", spout)
.each(new Fields(“a, b"), new MyFunction(), new Fields(“d”))
.aggregate(new Count(), new Fields(“count”))
// partitionAggregate operation
topology.newStream("spout", spout)
.each(new Fields(“a, b"), new MyFunction(), new Fields(“d”))
.partitionAggregate(new Count(), new Fields(“count"))
// persistentAggregate - saving the count to memory
topology.newStream("spout", spout)
.each(new Fields(“a, b"), new MyFunction(), new Fields(“d”))
.persistentAggregate(new MemoryMapState.Factory(), new Count(), new Fields("count"));
एकत्रीकरण ऑपरेशन या तो CombinerAggregator, ReducerAggregator, या सामान्य Aggregator इंटरफ़ेस का उपयोग करके बनाया जा सकता है। उपरोक्त उदाहरण में उपयोग किया गया "गणना" एग्रीगेटर बिल्ड-इन एग्रीगेटर्स में से एक है। इसे "कंबाइनएगएग्रेगेटर" का उपयोग करके लागू किया गया है। कार्यान्वयन इस प्रकार है -
public class Count implements CombinerAggregator<Long> {
@Override
public Long init(TridentTuple tuple) {
return 1L;
}
@Override
public Long combine(Long val1, Long val2) {
return val1 + val2;
}
@Override
public Long zero() {
return 0L;
}
}
समूहन
ग्रुपिंग ऑपरेशन एक इनबिल्ट ऑपरेशन है और इसके द्वारा कॉल किया जा सकता है groupByतरीका। GroupBy मेथड एक पार्टीशन के द्वारा पुन: विभाजन करता है निर्दिष्ट क्षेत्रों पर, और फिर प्रत्येक पार्टीशन के अंदर, यह ग्रुप्स को एक साथ ट्यूप करता है जिनके ग्रुप फील्ड्स बराबर होते हैं। आम तौर पर, हम समूहीकृत एकत्रीकरण प्राप्त करने के लिए "persistentAggregate" के साथ "groupBy" का उपयोग करते हैं। नमूना कोड इस प्रकार है -
TridentTopology topology = new TridentTopology();
// persistentAggregate - saving the count to memory
topology.newStream("spout", spout)
.each(new Fields(“a, b"), new MyFunction(), new Fields(“d”))
.groupBy(new Fields(“d”)
.persistentAggregate(new MemoryMapState.Factory(), new Count(), new Fields("count"));
विलय और जुड़ना
विलय और जुड़ाव क्रमशः "मर्ज" और "जॉइन" विधि का उपयोग करके किया जा सकता है। विलय एक या एक से अधिक धाराओं को जोड़ता है। जुड़ना विलय के समान है, इस तथ्य को छोड़कर कि जुड़ने से दो धाराओं की जांच और शामिल होने के लिए दोनों ओर से त्रिशूल टपल क्षेत्र का उपयोग होता है। इसके अलावा, जॉइनिंग केवल बैच स्तर के तहत काम करेगा। नमूना कोड इस प्रकार है -
TridentTopology topology = new TridentTopology();
topology.merge(stream1, stream2, stream3);
topology.join(stream1, new Fields("key"), stream2, new Fields("x"),
new Fields("key", "a", "b", "c"));
राज्य का रखरखाव
त्रिशूल राज्य रखरखाव के लिए एक तंत्र प्रदान करता है। राज्य की जानकारी टोपोलॉजी में ही संग्रहीत की जा सकती है, अन्यथा आप इसे एक अलग डेटाबेस में भी संग्रहीत कर सकते हैं। कारण एक राज्य बनाए रखने के लिए है कि अगर प्रसंस्करण के दौरान कोई भी ट्यूपल विफल हो जाता है, तो असफल ट्यूपल पीछे हट जाता है। यह राज्य को अपडेट करते समय एक समस्या पैदा करता है क्योंकि आप सुनिश्चित नहीं हैं कि इस ट्यूपल की स्थिति पहले से अपडेट की गई है या नहीं। यदि राज्य को अपडेट करने से पहले ट्यूपल विफल हो गया है, तो टपल को पुनः प्राप्त करने से राज्य स्थिर हो जाएगा। हालांकि, अगर राज्य को अपडेट करने के बाद टुपल विफल हो गया है, तो उसी टपल को पुनः प्राप्त करने से डेटाबेस में गिनती बढ़ जाएगी और राज्य अस्थिर हो जाएगा। किसी संदेश को केवल एक बार संसाधित करने के लिए निम्नलिखित चरणों को करने की आवश्यकता है -
छोटे बैचों में ट्यूपल्स को संसाधित करें।
प्रत्येक बैच को एक अद्वितीय आईडी असाइन करें। यदि बैच को वापस लिया जाता है, तो उसे एक ही विशिष्ट आईडी दी जाती है।
बैचों के बीच राज्य अद्यतन का आदेश दिया जाता है। उदाहरण के लिए, दूसरे बैच का राज्य अद्यतन तब तक संभव नहीं होगा जब तक कि पहले बैच के लिए राज्य का अपडेट पूरा नहीं हो जाता।
आरपीसी का वितरण किया
वितरित RPC का उपयोग ट्राइडेंट टोपोलॉजी से परिणाम को क्वेरी और पुनः प्राप्त करने के लिए किया जाता है। तूफान में एक इनबिल्ट वितरित आरपीसी सर्वर है। वितरित RPC सर्वर क्लाइंट से RPC अनुरोध प्राप्त करता है और इसे टोपोलॉजी में भेजता है। टोपोलॉजी अनुरोध को संसाधित करता है और वितरित आरपीसी सर्वर को परिणाम भेजता है, जिसे क्लाइंट को वितरित आरपीसी सर्वर द्वारा पुनर्निर्देशित किया जाता है। ट्रिडेंट की वितरित RPC क्वेरी सामान्य RPC क्वेरी की तरह निष्पादित होती है, इस तथ्य को छोड़कर कि ये क्वेरी समानांतर में चलती हैं।
त्रिशूल का उपयोग कब करें?
जैसा कि कई उपयोग-मामलों में, यदि आवश्यकता केवल एक बार क्वेरी करने की है, तो हम इसे ट्राइडेंट में एक टोपोलॉजी लिखकर प्राप्त कर सकते हैं। दूसरी ओर, स्टॉर्म के मामले में एक बार प्रसंस्करण प्राप्त करना मुश्किल होगा। इसलिए त्रिशूल उन उपयोग-मामलों के लिए उपयोगी होगा जहां आपको एक बार प्रसंस्करण की आवश्यकता होती है। ट्रिडेंट सभी उपयोग के मामलों के लिए नहीं है, विशेष रूप से उच्च-प्रदर्शन उपयोग के मामले क्योंकि यह स्टॉर्म में जटिलता जोड़ता है और राज्य का प्रबंधन करता है।
ट्राइडेंट का कार्य उदाहरण
हम अपने कॉल लॉग एनालाइज़र एप्लिकेशन को पिछले भाग में किए गए ट्राइडेंट फ्रेमवर्क में परिवर्तित करने जा रहे हैं। सादे तूफान की तुलना में ट्रिडेंट एप्लिकेशन अपेक्षाकृत आसान होगा, इसकी उच्च-स्तरीय एपीआई के लिए धन्यवाद। ट्राइडेंट में फंक्शन, फिल्टर, एग्रीगेट, ग्रुपबाय, जॉइन और मर्ज ऑपरेशंस में से किसी एक को करने के लिए स्टॉर्म की आवश्यकता होगी। अंत में हम DRPC सर्वर का उपयोग शुरू करेंगेLocalDRPC कक्षा और कुछ कीवर्ड का उपयोग करके खोजें execute LocalDRPC वर्ग की विधि।
कॉल जानकारी को स्वरूपित करना
FormatCall वर्ग का उद्देश्य "कॉलर नंबर" और "रिसीवर नंबर" सहित कॉल जानकारी को प्रारूपित करना है। पूरा कार्यक्रम कोड इस प्रकार है -
कोडिंग: FormatCall.java
import backtype.storm.tuple.Values;
import storm.trident.operation.BaseFunction;
import storm.trident.operation.TridentCollector;
import storm.trident.tuple.TridentTuple;
public class FormatCall extends BaseFunction {
@Override
public void execute(TridentTuple tuple, TridentCollector collector) {
String fromMobileNumber = tuple.getString(0);
String toMobileNumber = tuple.getString(1);
collector.emit(new Values(fromMobileNumber + " - " + toMobileNumber));
}
}
CSVSplit
CSVSplit वर्ग का उद्देश्य इनपुट स्ट्रिंग को "अल्पविराम ()" के आधार पर विभाजित करना है और स्ट्रिंग में प्रत्येक शब्द का उत्सर्जन करना है। यह फ़ंक्शन वितरित क्वेरी के इनपुट तर्क को पार्स करने के लिए उपयोग किया जाता है। पूरा कोड इस प्रकार है -
कोडिंग: CSVSplit.java
import backtype.storm.tuple.Values;
import storm.trident.operation.BaseFunction;
import storm.trident.operation.TridentCollector;
import storm.trident.tuple.TridentTuple;
public class CSVSplit extends BaseFunction {
@Override
public void execute(TridentTuple tuple, TridentCollector collector) {
for(String word: tuple.getString(0).split(",")) {
if(word.length() > 0) {
collector.emit(new Values(word));
}
}
}
}
लॉग एनालाइजर
यह मुख्य अनुप्रयोग है। प्रारंभ में, एप्लिकेशन TridentTopology को आरंभ करेगा और उपयोग करने वाले कॉलर जानकारी को फीड करेगाFeederBatchSpout। का उपयोग करके त्रिशूल टोपोलॉजी स्ट्रीम बनाई जा सकती हैnewStreamTridentTopology वर्ग की विधि। इसी तरह, त्रिशूल टोपोलॉजी DRPC स्ट्रीम का उपयोग करके बनाया जा सकता हैnewDRCPStreamTridentTopology वर्ग की विधि। एक साधारण DRCP सर्वर LocalDRPC वर्ग का उपयोग करके बनाया जा सकता है।LocalDRPCकुछ कीवर्ड खोज करने के लिए निष्पादन विधि है। पूरा कोड नीचे दिया गया है।
कोडिंग: LogAnalyserTrident.java
import java.util.*;
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.LocalDRPC;
import backtype.storm.utils.DRPCClient;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
import storm.trident.TridentState;
import storm.trident.TridentTopology;
import storm.trident.tuple.TridentTuple;
import storm.trident.operation.builtin.FilterNull;
import storm.trident.operation.builtin.Count;
import storm.trident.operation.builtin.Sum;
import storm.trident.operation.builtin.MapGet;
import storm.trident.operation.builtin.Debug;
import storm.trident.operation.BaseFilter;
import storm.trident.testing.FixedBatchSpout;
import storm.trident.testing.FeederBatchSpout;
import storm.trident.testing.Split;
import storm.trident.testing.MemoryMapState;
import com.google.common.collect.ImmutableList;
public class LogAnalyserTrident {
public static void main(String[] args) throws Exception {
System.out.println("Log Analyser Trident");
TridentTopology topology = new TridentTopology();
FeederBatchSpout testSpout = new FeederBatchSpout(ImmutableList.of("fromMobileNumber",
"toMobileNumber", "duration"));
TridentState callCounts = topology
.newStream("fixed-batch-spout", testSpout)
.each(new Fields("fromMobileNumber", "toMobileNumber"),
new FormatCall(), new Fields("call"))
.groupBy(new Fields("call"))
.persistentAggregate(new MemoryMapState.Factory(), new Count(),
new Fields("count"));
LocalDRPC drpc = new LocalDRPC();
topology.newDRPCStream("call_count", drpc)
.stateQuery(callCounts, new Fields("args"), new MapGet(), new Fields("count"));
topology.newDRPCStream("multiple_call_count", drpc)
.each(new Fields("args"), new CSVSplit(), new Fields("call"))
.groupBy(new Fields("call"))
.stateQuery(callCounts, new Fields("call"), new MapGet(),
new Fields("count"))
.each(new Fields("call", "count"), new Debug())
.each(new Fields("count"), new FilterNull())
.aggregate(new Fields("count"), new Sum(), new Fields("sum"));
Config conf = new Config();
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("trident", conf, topology.build());
Random randomGenerator = new Random();
int idx = 0;
while(idx < 10) {
testSpout.feed(ImmutableList.of(new Values("1234123401",
"1234123402", randomGenerator.nextInt(60))));
testSpout.feed(ImmutableList.of(new Values("1234123401",
"1234123403", randomGenerator.nextInt(60))));
testSpout.feed(ImmutableList.of(new Values("1234123401",
"1234123404", randomGenerator.nextInt(60))));
testSpout.feed(ImmutableList.of(new Values("1234123402",
"1234123403", randomGenerator.nextInt(60))));
idx = idx + 1;
}
System.out.println("DRPC : Query starts");
System.out.println(drpc.execute("call_count","1234123401 - 1234123402"));
System.out.println(drpc.execute("multiple_call_count", "1234123401 -
1234123402,1234123401 - 1234123403"));
System.out.println("DRPC : Query ends");
cluster.shutdown();
drpc.shutdown();
// DRPCClient client = new DRPCClient("drpc.server.location", 3772);
}
}
बिल्डिंग और अनुप्रयोग चल रहा है
पूर्ण आवेदन में तीन जावा कोड हैं। वे इस प्रकार हैं -
- FormatCall.java
- CSVSplit.java
- LogAnalyerTrident.java
आवेदन निम्नलिखित कमांड का उपयोग करके बनाया जा सकता है -
javac -cp “/path/to/storm/apache-storm-0.9.5/lib/*” *.java
आवेदन निम्नलिखित आदेश का उपयोग करके चलाया जा सकता है -
java -cp “/path/to/storm/apache-storm-0.9.5/lib/*”:. LogAnalyserTrident
उत्पादन
एक बार आवेदन शुरू होने के बाद, एप्लिकेशन क्लस्टर स्टार्टअप प्रक्रिया, संचालन प्रसंस्करण, DRPC सर्वर और क्लाइंट जानकारी और अंत में क्लस्टर बंद करने की प्रक्रिया के बारे में पूरा विवरण आउटपुट करेगा। यह आउटपुट कंसोल पर प्रदर्शित होगा जैसा कि नीचे दिखाया गया है।
DRPC : Query starts
[["1234123401 - 1234123402",10]]
DEBUG: [1234123401 - 1234123402, 10]
DEBUG: [1234123401 - 1234123403, 10]
[[20]]
DRPC : Query ends