java divise les gros fichiers en fichiers plus petits tout en fractionnant l'enregistrement multiligne sans casser l'enregistrement à l'état incomplet

Nov 30 2020

J'ai un enregistrement divisé en plusieurs lignes dans un fichier. Le seul moyen d'identifier la fin de l'enregistrement est lorsque le nouvel enregistrement commence par ABC. Voici l'exemple. La taille du fichier pourrait être de 5 à 10 Go et je recherche une logique Java efficace UNIQUEMENT pour diviser les fichiers (pas besoin de lire chaque ligne), mais la logique de division devrait être vérifiée pour démarrer un nouveau fichier avec un nouvel enregistrement, qui devrait commencer par "ABC" dans ce cas.

Ajout de quelques détails supplémentaires, je cherche simplement à diviser le fichier et lors du fractionnement, le dernier enregistrement doit se terminer correctement dans un fichier.

Quelqu'un peut-il suggérer s'il vous plaît?

HDR
ABCline1goesonforrecord1   //first record 
line2goesonForRecord1      
line3goesonForRecord1          
line4goesonForRecord1
ABCline2goesOnForRecord2  //second record
line2goesonForRecord2
line3goesonForRecord2
line4goesonForRecord2
line5goesonForRecord2
ABCline2goesOnForRecord3     //third record
line2goesonForRecord3
line3goesonForRecord3
line4goesonForRecord3
TRL

Réponses

1 OctavianR. Nov 30 2020 at 20:36

Donc, c'est le code dont vous avez besoin. J'ai testé sur un fichier de 10 Go et il faut 64 secondes pour diviser le fichier

import java.io.BufferedWriter;
import java.io.IOException;
import java.io.UncheckedIOException;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.StandardOpenOption;
import java.util.concurrent.TimeUnit;

public class FileSplitter {

    private final Path filePath;
    private BufferedWriter writer;
    private int fileCounter = 1;

    public static void main(String[] args) throws Exception {
        long startTime = System.nanoTime();
        new FileSplitter(Path.of("/tmp/bigfile.txt")).split();
        System.out.println("Time to split " + TimeUnit.NANOSECONDS.toSeconds(System.nanoTime() - startTime));
    }

    private static void generateBigFile() throws Exception {
        var writer = Files.newBufferedWriter(Path.of("/tmp/bigfile.txt"), StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING);
        for (int i = 0; i < 100_000; i++) {
            writer.write(String.format("ABCline1goesonforrecord%d\n", i + 1));
            for (int j = 0; j < 10_000; j++) {
                writer.write(String.format("line%dgoesonForRecord%d\n", j + 2, i + 1));
            }
        }

        writer.flush();
        writer.close();
    }

    public FileSplitter(Path filePath) {
        this.filePath = filePath;
    }

    void split() throws IOException {
        try (var stream = Files.lines(filePath, StandardCharsets.UTF_8)) {
            stream.forEach(line -> {
                if (line.startsWith("ABC")) {
                    closeWriter();
                    openWriter();
                }
                writeLine(line);
            });
        }
        closeWriter();
    }

    private void writeLine(String line) {
        if (writer != null) {
            try {
                writer.write(line);
                writer.write("\n");
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to write line to file part", e);
            }
        }
    }

    private void openWriter() {
        if (this.writer == null) {
            var filePartName = filePath.getFileName().toString().replace(".", "_part" + fileCounter + ".");
            try {
                writer = Files.newBufferedWriter(Path.of("/tmp/split", filePartName), StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING);
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to write line to file", e);
            }
            fileCounter++;
        }
    }

    private void closeWriter() {
        if (writer != null) {
            try {
                writer.flush();
                writer.close();
                writer = null;
            } catch (IOException e) {
                throw new UncheckedIOException("Failed to close writer", e);
            }
        }
    }
}

Btw, la solution avec Scanner fonctionne aussi.

En ce qui concerne le fait de ne pas lire toutes les lignes, je ne vois pas pourquoi vous ne le voulez pas. Si vous choisissez de ne pas lire toutes les lignes (c'est possible), vous allez d'abord trop compliquer la solution et deuxièmement, je suis à peu près sûr que vous perdrez des performances à cause de cette logique que vous devez intégrer dans le fractionnement.

JohnSmith Nov 30 2020 at 19:28

Je n'ai pas testé cela mais quelque chose comme ça devrait fonctionner, vous ne lisez pas tout le fichier en mémoire une seule ligne à la fois, donc ça ne devrait pas être mauvais.