java dzieli duże pliki na mniejsze pliki, jednocześnie dzieląc rekord wielowierszowy bez przerywania rekordu w stanie niekompletnym

Nov 30 2020

Mam rekord podzielony na wiele wierszy w pliku. Jedynym sposobem na zidentyfikowanie końca rekordu jest sytuacja, gdy nowy rekord zaczyna się od ABC. Poniżej znajduje się próbka. Rozmiar pliku może wynosić 5-10 GB i szukam wydajnej logiki java TYLKO do dzielenia plików (nie ma potrzeby czytania każdej linii), ale logika podziału powinna sprawdzić, czy nowy plik z nowym rekordem powinien zaczynać się od W tym przypadku „ABC”.

Dodano kilka szczegółów, szukam tylko podziału pliku i podczas dzielenia ostatni rekord powinien zostać poprawnie zakończony w pliku.

Czy ktoś może zasugerować?

HDR
ABCline1goesonforrecord1   //first record 
line2goesonForRecord1      
line3goesonForRecord1          
line4goesonForRecord1
ABCline2goesOnForRecord2  //second record
line2goesonForRecord2
line3goesonForRecord2
line4goesonForRecord2
line5goesonForRecord2
ABCline2goesOnForRecord3     //third record
line2goesonForRecord3
line3goesonForRecord3
line4goesonForRecord3
TRL

Odpowiedzi

1 OctavianR. Nov 30 2020 at 20:36

Więc to jest kod, którego potrzebujesz. Testowałem na pliku 10 Gb i podzielenie pliku zajmuje 64 sekundy

import java.io.BufferedWriter;
import java.io.IOException;
import java.io.UncheckedIOException;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.StandardOpenOption;
import java.util.concurrent.TimeUnit;

public class FileSplitter {

    private final Path filePath;
    private BufferedWriter writer;
    private int fileCounter = 1;

    public static void main(String[] args) throws Exception {
        long startTime = System.nanoTime();
        new FileSplitter(Path.of("/tmp/bigfile.txt")).split();
        System.out.println("Time to split " + TimeUnit.NANOSECONDS.toSeconds(System.nanoTime() - startTime));
    }

    private static void generateBigFile() throws Exception {
        var writer = Files.newBufferedWriter(Path.of("/tmp/bigfile.txt"), StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING);
        for (int i = 0; i < 100_000; i++) {
            writer.write(String.format("ABCline1goesonforrecord%d\n", i + 1));
            for (int j = 0; j < 10_000; j++) {
                writer.write(String.format("line%dgoesonForRecord%d\n", j + 2, i + 1));
            }
        }

        writer.flush();
        writer.close();
    }

    public FileSplitter(Path filePath) {
        this.filePath = filePath;
    }

    void split() throws IOException {
        try (var stream = Files.lines(filePath, StandardCharsets.UTF_8)) {
            stream.forEach(line -> {
                if (line.startsWith("ABC")) {
                    closeWriter();
                    openWriter();
                }
                writeLine(line);
            });
        }
        closeWriter();
    }

    private void writeLine(String line) {
        if (writer != null) {
            try {
                writer.write(line);
                writer.write("\n");
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to write line to file part", e);
            }
        }
    }

    private void openWriter() {
        if (this.writer == null) {
            var filePartName = filePath.getFileName().toString().replace(".", "_part" + fileCounter + ".");
            try {
                writer = Files.newBufferedWriter(Path.of("/tmp/split", filePartName), StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING);
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to write line to file", e);
            }
            fileCounter++;
        }
    }

    private void closeWriter() {
        if (writer != null) {
            try {
                writer.flush();
                writer.close();
                writer = null;
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to close writer", e);
            }
        }
    }
}

Przy okazji, rozwiązanie ze skanerem też działa.

Jeśli chodzi o nie przeczytanie wszystkich wierszy, nie rozumiem, dlaczego tego nie chcesz. Jeśli zdecydujesz się nie czytać wszystkich wierszy (jest to możliwe), to najpierw nadmiernie skomplikujesz rozwiązanie, a po drugie jestem prawie pewien, że stracisz wydajność z powodu tej logiki, którą musisz uwzględnić podczas dzielenia.

JohnSmith Nov 30 2020 at 19:28

Nie testowałem tego, ale coś takiego powinno działać, nie czytasz całego pliku w pamięci tylko po jednej linii na raz, więc nie powinno być źle.