क्या PSOLA या WSOLA वोकल स्ट्रेचिंग / रिटुनिंग के लिए बेहतर है?

Aug 16 2020

मैं एक टाइम-डोमेन पिच संशोधन एल्गोरिथ्म जैसे PSOLA (पिच सिंक्रोनस ओवरलैप और ऐड) या WSOLA (वेवफॉर्म समानता ओवरलैप और ऐड) को लागू करना चाह रहा हूं।

फिलहाल मैं PSOLA का उपयोग कर रहा हूं, लेकिन मुझे लगता है कि WSOLA कॉम्प्लेक्स वेवफॉर्म के साथ पॉलीफोनिक सिग्नल के लिए अधिक मजबूत होगा, जबकि PSOLA वोकल्स जैसे मोनोफोनिक सिग्नल के साथ बेहतर काम करता है। मुझे लगता है कि WSOLA का उपयोग करके भविष्य के प्रमाण के लिए बेहतर हो सकता है, भले ही मैं अभी के लिए मोनोफोनिक संकेतों में दिलचस्पी रखता हूं।

मुझे लगता है कि PSOLA के विपरीत WSOLA का उपयोग करने के लिए कोई नुकसान है, तो मुझे आश्चर्य है।

ऐसा लगता है कि दोनों तकनीक समान रूप से काम करती हैं, दोनों तरंग के भीतर पुनरावृत्ति की पहचान करते हैं, हालांकि WSOLA मूल रूप से लॉक नहीं करता है। क्या मौलिक लॉकिंग स्वर के लिए PSOLA को श्रेष्ठ बनाता है?

अधिक सटीक होने के लिए, मैं निम्नलिखित कार्यों के लिए WSOLA बनाम PSOLA के फायदे और नुकसान को जानने की कोशिश कर रहा हूं:

  1. पिच सुधार
  2. समय का सुधार
  3. पूर्व सुधार

जवाब

2 ederwander Aug 17 2020 at 01:23

अधिक सटीक होने के लिए, मैं निम्नलिखित कार्यों के लिए WSOLA बनाम PSOLA के फायदे और नुकसान को जानने की कोशिश कर रहा हूं:

पिच सुधार:

  • PSOLA - लाभ आप अनाज के बीच दर स्थान के आधार पर सीधे पिच को बदल सकते हैं, फॉर्मेंट को बरकरार रख सकते हैं ... पिच को बदलने के लिए आपको समय के पैमाने की आवश्यकता नहीं है और बाद में फिर से भरना है।
  • PSOLA - नुकसान क्या आपको सुपर पावर पिच डिटेक्टर की आवश्यकता है
  • WSOLA - नुकसान WSOLA एक पिच शिफ्ट एल्गोरिथ्म नहीं है, WSOLA एक टाइम स्केल एल्गोरिथ्म है, पिच को बदलने के लिए समय के पैमाने की आवश्यकता होगी और उन्हें फिर से तैयार करना होगा, फॉर्मेंट्स खो जाएंगे, इसलिए आपको अच्छी जगहों को खोजने के लिए बस एक तरह के ऑटोकरेक्लेशन की आवश्यकता होगी टुकड़ा करने के लिए, इसलिए यह पिच की जानकारी के समान नहीं है, यदि आप एक स्वचालित पिच सुधार का निर्माण कर रहे हैं तो एक बुनियादी ऑटोक्रॉलेशन आपको सही पिच जानकारी नहीं देगा।
  • WSOLA - यहां एक लाभ यह है कि यह पिच पर निर्भर नहीं है टुकड़ा करने के लिए, बस सबसे अच्छा मैच समानता में टुकड़ा, याद रखें कि यह सिर्फ एक बार स्केल एल्गोरिथ्म है, आपको पिच को बदलने के लिए फिर से भरना होगा

समय सुधार:

समय के पैमाने के लिए मुझे लगता है कि WSOLA का यहां सबसे अच्छा फायदा है या कुछ TDHSआधारित अल्गॉर्टिह्म है, हाँ, आप पीएसओएल का समय-समय पर उपयोग कर सकते हैं और पिच शिफ्ट को एक साथ लागू कर सकते हैं, बस पिच शिफ्ट या सिर्फ टाइम स्केल, लेकिन अगर आप सिर्फ टाइम स्केलिंग कर रहे हैं, तो WSOLA एक स्मार्ट है पसंद, कोई ज़रूरत नहीं है WSOLA में एक अल्ट्रा पिच डिटेक्टर का निर्माण, बस एक लहर फार्म इसी तरह आपकी समस्या का समाधान होगा (AutoCorrelation हल कर सकते हैं ...)

पूर्व सुधार:

  • PSOLA - डिफ़ॉल्ट रूप से अछूत हो जाएगा, लेकिन आप फार्मेंटों को भी ताना दे सकते हैं, यह PSOLA में अद्भुत है ...
  • WSOLA - समय के पैमाने के बाद और आपके फॉर्मूले के खो जाने के बाद आपके फॉर्मूले खो जाएंगे और आपको मूल सिग्नल प्राप्त करने के लिए मूल सिग्नल से वर्णक्रमीय लिफाफे में फॉर्मेट प्राप्त करने होंगे और इसे पिच शिफ्ट किए गए सिग्नल में लागू करना होगा, आप इसे निम्न फ़िल्टर फ़िल्टर का उपयोग कर सकते हैं वर्णक्रमीय, एक चोटी उठाने और प्रक्षेप का उपयोग करें या लिफाफे को प्राप्त करने के लिए एक cepstrum का उपयोग करें ...

मुझे पता है कि PSOLA असीम रूप से अधिक जटिल है, लेकिन मैं इस एल्गोरिथ्म को वास्तव में महान मानता हूं, अगर आपके पास एक सभ्य पिच है तो यह आपको बहुत बहुमुखी प्रतिभा देगा।

1 robertbristow-johnson Aug 16 2020 at 17:26

मुझे लगता है कि आप सही हैं कि WSOLA पॉलीफोनिक के लिए बेहतर है, लेकिन उस पद्धति में अभी भी गड़बड़ हैं। इसका कारण थोड़ा बेहतर है क्योंकि पिच का पता लगाने वाला एल्गोरिदम केवल अच्छे विभाजन के विस्थापन की तलाश में है। यदि यह एक सप्तक है, तो यह आपको बहुत बुरा नहीं लगता है क्योंकि विभाजन अभी भी अच्छा है। हालांकि, यदि पिच नोटों के एक गैर-हार्मोनिक कॉर्ड को शिफ्ट करना (एक छोटा कॉर्ड कहती हैं), तो कोई अच्छा स्प्लिट विस्थापन नहीं होगा, इसलिए आप कम से कम खराब वाले को चुनना समाप्त करते हैं।

अब PSOLA को सटीक रूप से जानने की आवश्यकता है कि पिच और ऑक्टेव की त्रुटियां ध्वनि की तरह होंगी। लेकिन वह पिच शिफ्टिंग का तरीका है जो आप वोकल्स के लिए चाहते हैं और मैं जिस पेपर की ओर इशारा कर रहा हूं वह बताता है कि क्यों

लेकिन टाइम स्केलिंग बिल्कुल पिच शिफ्टिंग नहीं है। जब समय कुछ भी हो, वोकल्स सहित, PSOLA का उपयोग न करें। WSOLA या एक फ़ेज-वेकोडर की तरह फ़्रीक्वेंसी-डोमेन विधि का उपयोग करें।