Gzipped CSV फ़ाइल पढ़ते समय अजीब अक्षर [डुप्लिकेट]
मैं एक CSV फ़ाइल पढ़ने की कोशिश कर रहा हूँ, जिसे मैंने UTF-8 एन्कोडेड फ़ाइल के रूप में सहेजा है। जब मैं पंडों के साथ फाइल पढ़ने की कोशिश करता हूं, तो बहुत समय लगता है लेकिन मुझे वांछित आउटपुट मिलता है।
out_pd = pd.read_csv('../files/example_file_out.csv.gzip', sep='\t', encoding='utf-8', compression='gzip')
स्पार्क में लगभग वैसा ही करना, जैसा कि एचडीएफएस की एक ही फाइल को पढ़ना है:
out_spark = spark.read.format('csv').options(header = "true", sep = "\t", encoding = "UTF-8").load("/Path/to/Folder/example_file_out.csv.gzip" )
out_spark.show()
इस परिणाम के साथ:
+ ------------------------------------------------- -------------------------------------------------------------- - + | out_ example_file_out.csv.gziprFr$�|�l�A?��̈��L��F��cWZ�F��Ef�^�5C�k�hW���H$ j .xH? } एन | + ------------------------------------------------- -------------------------------------------------------------- - + | @ | # "<= <^ <... | | ϟ Ͽ O | ... | | ރ Y ^ | xo--------e> Y ... | ------------------------------------- -------------------------------------------------------------- -------------- +
मैं वास्तव में नहीं जानता कि मैं क्या गलत कर रहा हूँ। आपकी मदद के लिए अग्रिम धन्यवाद!
जवाब
स्पार्क फ़ाइल एक्सटेंशन का उपयोग करके फ़ाइल संपीड़न प्रारूप को संक्रमित करता है। डिफ़ॉल्ट रूप से gzipped फ़ाइलों का विस्तार होता है .gz
, इसलिए यदि आप अपनी फ़ाइल का नाम बदलने के .gz
बजाय .gzip
उसका नाम बदलना चाहते हैं, तो स्पार्क को ठीक से csv फ़ाइल को विघटित करने में सक्षम होना चाहिए।