Apache POI Word - Extraction de texte

Ce chapitre explique comment extraire des données textuelles simples d'un document Word à l'aide de Java. Si vous souhaitez extraire des métadonnées d'un document Word, utilisez Apache Tika.

Pour les fichiers .docx, nous utilisons la classe org.apache.poi.xwpf.extractor.XPFFWordExtractor qui extrait et renvoie des données simples d'un fichier Word. De la même manière, nous avons différentes méthodologies pour extraire des en-têtes, des notes de bas de page, des données de tableau, etc. à partir d'un fichier Word.

Le code suivant montre comment extraire du texte simple à partir d'un fichier Word -

import java.io.FileInputStream;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordExtractor {

   public static void main(String[] args)throws Exception {

      XWPFDocument docx = new XWPFDocument(new FileInputStream("create_paragraph.docx"));
      
      //using XWPFWordExtractor Class
      XWPFWordExtractor we = new XWPFWordExtractor(docx);
      System.out.println(we.getText());
   }
}

Enregistrez le code ci-dessus sous WordExtractor.java. Compilez et exécutez-le à partir de l'invite de commande comme suit -

$javac WordExtractor.java
$java WordExtractor

Il générera la sortie suivante:

At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning
purpose in the domains of Academics, Information Technology, Management and Computer
Programming Languages.