Как вы читаете большой файл с несортированными табличными данными по частям в Python?

Dec 21 2020

У меня есть большой CSV-файл (> 100 ГБ), который я хочу прочитать в память и обработать данные по частям. У меня есть два ограничения:

Очевидно, я не могу прочитать весь файл в памяти. У меня на машине всего около 8 ГБ оперативной памяти.
Данные являются табличными и неупорядоченными. Мне нужно читать данные группами.

Бегущая строка	Дата	Поле1	Поле2	Поле3
AAPL	20201201	0	0	0
AAPL	20201202	0	0	0
AAPL	20201203	0	0	0
AAPL	20201204	0	0	0
NFLX	20201201	0	0	0
NFLX	20201202	0	0	0
NFLX	20201203	0	0	0
NFLX	20201204	0	0	0

Проблема здесь в том, что данные должны считываться группами. Сгруппированы по тикеру и дате. Если я скажу, что хочу прочитать 10 000 записей в каждом пакете. Граница этого пакета не должна разделять группы. т.е. все данные AAPL за декабрь 2020 г. должны попасть в один пакет. Эти данные не должны появляться в двух пакетах.

Большинство моих коллег, когда они сталкиваются с подобной ситуацией, обычно создают сценарий bash, в котором они используют awk, cut, sort, uniq для разделения данных на группы и записи нескольких промежуточных файлов на диск. Затем они используют Python для обработки этих файлов. Мне было интересно, есть ли для этого однородное решение Python / Pandas / Numpy.

Ответы

genodeftest Dec 21 2020 at 03:11

Как насчет этого:

открыть файл
цикл по строкам чтения: Для каждой строки прочтите:

проанализировать тикер
если еще не сделано:
- создать + открыть файл для этого тикера (" файл тикера ")
- добавить к некоторому dict, где ключ = тикер и значение = дескриптор файла
записать строку в файл тикера

закройте файлы тикера и исходный файл
обрабатывать каждый отдельный файл тикера

Martin Dec 21 2020 at 03:44

Я бы рассмотрел два варианта

Вэкс и Даск.

Кажется, Vaex сосредоточен именно на том, что вам нужно. Ленивая обработка и очень большие наборы данных. Проверьте их github. Однако кажется, что вам нужно конвертировать файлы в hdf5, что может занять немного времени.

Что касается Даска, то я бы не стал рассчитывать на успех. Dask в первую очередь ориентирован на распределенные вычисления, и я не совсем уверен, может ли он лениво обрабатывать большие файлы. Но вы можете попробовать и посмотреть.

tgrandje Dec 23 2020 at 03:05

Этот подход - чистые панды. Он будет использовать две функции: одну для вычисления индексов, другую для чтения одного фрагмента. Я бы сказал, что он полностью потерпит неудачу, если какая-либо из ваших групп не умещается в памяти (но, учитывая ваши критерии, согласно которым эти группы должны читаться по одной, я бы сказал, что наверняка это подходит).

Вам нужно будет перебрать словарь индексов (вычисленных из первой функции), чтобы прочитать весь фрейм данных.

Надеюсь, что это поможет ... (Не сомневайтесь, измените значение chunksize по умолчанию под свои нужды).