मुझे हर मैच को अलग से प्रदर्शित करने के लिए "grep -zoP" कैसे मिल सकता है?
मेरे पास इस फॉर्म पर एक फाइल है:
X/this is the first match/blabla
X-this is
the second match-
and here we have some fluff.
और मैं "एक्स" के बाद और उसी मार्कर के बीच दिखाई देने वाली सभी चीजों को निकालना चाहता हूं। इसलिए अगर मेरे पास "एक्स + मैच +" है, तो मैं "मैच" प्राप्त करना चाहता हूं, क्योंकि यह "एक्स" और मार्कर + + के बाद दिखाई देता है।
इसलिए दी गई नमूना फ़ाइल के लिए मैं यह आउटपुट लेना चाहूंगा:
this is the first match
और फिर
this is
the second match
मैं X के बीच की सभी सामग्री को एक मार्कर द्वारा उपयोग करके प्राप्त करने में कामयाब रहा:
grep -zPo '(?<=X(.))(.|\n)+(?=\1)' file
अर्थात्:
grep -Po '(?<=X(.))(.|\n)+(?=\1)'एक्स से मैच करने के बाद(something)उस पर कब्जा कर लिया जाता है और अंत में मिलान किया जाता है(?=\1)(मैं यहां अपने उत्तर पर कोड आधारित करता हूं )।- नोट मैं
(.|\n)एक नई लाइन सहित कुछ भी मैच करने के लिए उपयोग करता हूं, और यह कि मैं-zgrep में भी नई लाइनों के साथ मेल खाता हूं ।
तो यह अच्छी तरह से काम करता है, एकमात्र समस्या आउटपुट के प्रदर्शन से आती है:
$ grep -zPo '(?<=X(.))(.|\n)+(?=\1)' file
this is the first matchthis is
the second match
जैसा कि आप देख सकते हैं, सभी मैच एक साथ दिखाई देते हैं, "यह पहला मैच है" जिसके बाद "यह दूसरा मैच है" जिसमें कोई भी विभाजक नहीं है। मुझे पता है कि यह "-z" के उपयोग से आता है, जो सभी फाइल को लाइनों के एक सेट के रूप में मानता है , प्रत्येक को एक शून्य बाइट (एएससीआईआई एनयूएल चरित्र) द्वारा एक नई पंक्ति ("मैन जीआरपीपी" उद्धृत करते हुए ) के बजाय समाप्त किया जाता है ।
तो: क्या इन सभी परिणामों को अलग-अलग प्राप्त करने का एक तरीका है?
मैंने GNU Awk में भी कोशिश की:
awk 'match($0, /X(.)(\n|.*)\1/, a) {print a[1]}' file
लेकिन (\n|.*)काम भी नहीं किया।
जवाब
उपयोग का मामला एक तरह से समस्याग्रस्त है, क्योंकि जैसे ही आप मैचों को प्रिंट करते हैं, आप जानकारी खो देते हैं कि वास्तव में विभाजक कहाँ था। लेकिन अगर यह स्वीकार्य है, तो पाइप करने का प्रयास करें xargs -r0।
grep -zPo '(?<=X(.))(.|\n)+(?=\1)' file | xargs -r0
ये विकल्प GNU एक्सटेंशन हैं, लेकिन फिर ऐसा है grep -zऔर (ज्यादातर) grep -P, इसलिए शायद यह स्वीकार्य है।
awk रेगेक्सपी परिभाषा के भीतर बैकरेफर का समर्थन नहीं करता है।
समाधान:
$ grep -zPo '(?s)(?<=X(.)).+(?=\1)' ip.txt | tr '\0' '\n' this is the first match this is the second match # with ripgrep, which supports multiline matching $ rg -NoUP '(?s)(?<=X(.)).+(?=\1)' ip.txt
this is the first match
this is
the second match
के (?s)X(.)\K.+(?=\1)स्थान पर भी उपयोग कर सकते हैं (?s)(?<=X(.)).+(?=\1)। इसके अलावा, आप match+xyz+foobazइनपुट के लिए मिलान से बचने के लिए यहां गैर-लालची मात्रा का उपयोग करना चाह सकते हैंX+match+xyz+foobaz+
साथ में perl
$ perl -0777 -nE 'say $& while(/X(.)\K.+(?=\1)/sg)' ip.txt
this is the first match
this is
the second match
यहाँ एक और ग्नू-ऑक सॉल्यूशन का उपयोग किया जा रहा है RSऔर RT:
awk -v RS='X.' 'ch != "" && n=index($0, ch) { print substr($0, 1, n-1)
}
RT {
ch = substr(RT, 2, 1)
}' file
this is the first match
this is
the second match
जीएनयू मल्टी-आरएस, आरटी, और जेनबस () के लिए जाग के साथ और पूरी फ़ाइल को मेमोरी में पढ़ने के लिए बिना:
$ awk -v RS='X.' 'NR>1{print "<" gensub(end".*","",1) ">"} {end=substr(RT,2,1)}' file
<this is the first match>
<this is
the second match>
जाहिर है मैंने "<" और ">" को जोड़ा है ताकि आप देख सकें कि प्रत्येक आउटपुट रिकॉर्ड कहां से शुरू होता है / समाप्त होता है।
ऊपर मानता है कि चरित्र के बाद Xएक गैर पुनरावृत्ति regexp metachar (जैसे नहीं है ., ^, [, आदि) तो YMMV
GNU grep -zशून्य वर्णों के साथ इनपुट / आउटपुट रिकॉर्ड को समाप्त करता है (जैसे अन्य उपकरणों के साथ संयोजन में उपयोगी sort -z)। pcregrep ऐसा नहीं करेगा:
pcregrep -Mo2 '(?s)X(.)(.+?)\1' file
-onumberलुकऑर्ड्स के बजाय उपयोग किया जाता है। ?आलसी क्वांटिफायर जोड़ा (मामले में \1बाद में होता है)।