Java teilt große Dateien in kleinere Dateien auf, während der mehrzeilige Datensatz aufgeteilt wird, ohne den Datensatz in einem unvollständigen Zustand zu beschädigen

Nov 30 2020

Ich habe einen Datensatz in mehrere Zeilen in einer Datei aufgeteilt. Das Ende des Datensatzes kann nur identifiziert werden, wenn der neue Datensatz mit ABC beginnt. Unten ist das Beispiel. Die Dateigröße könnte 5-10 GB betragen, und ich suche NUR nach einer effizienten Java-Logik, um die Dateien zu teilen (es ist nicht erforderlich, jede Zeile zu lesen), aber die Aufteilungslogik sollte prüfen, ob eine neue Datei mit einem neuen Datensatz gestartet werden soll "ABC" in diesem Fall.

Einige Details hinzugefügt, ich suche nur nach dem Teilen der Datei und während des Teilens sollte der letzte Datensatz korrekt in einer Datei beendet werden.

Kann jemand bitte vorschlagen?

HDR
ABCline1goesonforrecord1   //first record 
line2goesonForRecord1      
line3goesonForRecord1          
line4goesonForRecord1
ABCline2goesOnForRecord2  //second record
line2goesonForRecord2
line3goesonForRecord2
line4goesonForRecord2
line5goesonForRecord2
ABCline2goesOnForRecord3     //third record
line2goesonForRecord3
line3goesonForRecord3
line4goesonForRecord3
TRL

Antworten

1 OctavianR. Nov 30 2020 at 20:36

Das ist also der Code, den Sie brauchen. Ich habe eine 10-GB-Datei getestet und es dauert 64 Sekunden, um die Datei zu teilen

import java.io.BufferedWriter;
import java.io.IOException;
import java.io.UncheckedIOException;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.StandardOpenOption;
import java.util.concurrent.TimeUnit;

public class FileSplitter {

    private final Path filePath;
    private BufferedWriter writer;
    private int fileCounter = 1;

    public static void main(String[] args) throws Exception {
        long startTime = System.nanoTime();
        new FileSplitter(Path.of("/tmp/bigfile.txt")).split();
        System.out.println("Time to split " + TimeUnit.NANOSECONDS.toSeconds(System.nanoTime() - startTime));
    }

    private static void generateBigFile() throws Exception {
        var writer = Files.newBufferedWriter(Path.of("/tmp/bigfile.txt"), StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING);
        for (int i = 0; i < 100_000; i++) {
            writer.write(String.format("ABCline1goesonforrecord%d\n", i + 1));
            for (int j = 0; j < 10_000; j++) {
                writer.write(String.format("line%dgoesonForRecord%d\n", j + 2, i + 1));
            }
        }

        writer.flush();
        writer.close();
    }

    public FileSplitter(Path filePath) {
        this.filePath = filePath;
    }

    void split() throws IOException {
        try (var stream = Files.lines(filePath, StandardCharsets.UTF_8)) {
            stream.forEach(line -> {
                if (line.startsWith("ABC")) {
                    closeWriter();
                    openWriter();
                }
                writeLine(line);
            });
        }
        closeWriter();
    }

    private void writeLine(String line) {
        if (writer != null) {
            try {
                writer.write(line);
                writer.write("\n");
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to write line to file part", e);
            }
        }
    }

    private void openWriter() {
        if (this.writer == null) {
            var filePartName = filePath.getFileName().toString().replace(".", "_part" + fileCounter + ".");
            try {
                writer = Files.newBufferedWriter(Path.of("/tmp/split", filePartName), StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING);
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to write line to file", e);
            }
            fileCounter++;
        }
    }

    private void closeWriter() {
        if (writer != null) {
            try {
                writer.flush();
                writer.close();
                writer = null;
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to close writer", e);
            }
        }
    }
}

Übrigens funktioniert die Lösung mit Scanner auch.

Da ich nicht alle Zeilen lese, verstehe ich nicht, warum Sie das nicht wollen. Wenn Sie nicht alle Zeilen lesen (es ist möglich), werden Sie erstens die Lösung überkomplizieren und zweitens bin ich mir ziemlich sicher, dass Sie aufgrund der Logik, die Sie in die Aufteilung einbeziehen müssen, an Leistung verlieren.

JohnSmith Nov 30 2020 at 19:28

Ich habe das nicht getestet, aber so etwas sollte funktionieren. Sie lesen nicht die gesamte Datei im Speicher nur zeilenweise, also sollte es nicht schlecht sein.