Gzipped CSV फ़ाइल पढ़ते समय अजीब अक्षर [डुप्लिकेट]

Jan 12 2021

मैं एक CSV फ़ाइल पढ़ने की कोशिश कर रहा हूँ, जिसे मैंने UTF-8 एन्कोडेड फ़ाइल के रूप में सहेजा है। जब मैं पंडों के साथ फाइल पढ़ने की कोशिश करता हूं, तो बहुत समय लगता है लेकिन मुझे वांछित आउटपुट मिलता है।

out_pd = pd.read_csv('../files/example_file_out.csv.gzip', sep='\t', encoding='utf-8', compression='gzip')

स्पार्क में लगभग वैसा ही करना, जैसा कि एचडीएफएस की एक ही फाइल को पढ़ना है:

out_spark = spark.read.format('csv').options(header = "true", sep = "\t", encoding = "UTF-8").load("/Path/to/Folder/example_file_out.csv.gzip" )
out_spark.show()

इस परिणाम के साथ:

+ ------------------------------------------------- -------------------------------------------------------------- - + | out_ example_file_out.csv.gziprFr$�|�l�A?��̈��L��F��cWZ�F��Ef�^�5C�k�hW���H$ j .xH? } एन | + ------------------------------------------------- -------------------------------------------------------------- - + | @ | # "<= <^ <... | | ϟ Ͽ O | ... | | ރ Y ^ | xo--------e> Y ... | ------------------------------------- -------------------------------------------------------------- -------------- +

मैं वास्तव में नहीं जानता कि मैं क्या गलत कर रहा हूँ। आपकी मदद के लिए अग्रिम धन्यवाद!

जवाब

mck Jan 12 2021 at 03:18

स्पार्क फ़ाइल एक्सटेंशन का उपयोग करके फ़ाइल संपीड़न प्रारूप को संक्रमित करता है। डिफ़ॉल्ट रूप से gzipped फ़ाइलों का विस्तार होता है .gz, इसलिए यदि आप अपनी फ़ाइल का नाम बदलने के .gzबजाय .gzipउसका नाम बदलना चाहते हैं, तो स्पार्क को ठीक से csv फ़ाइल को विघटित करने में सक्षम होना चाहिए।