Le moyen le plus pratique de lire un objet blob Azure (PDF) dans le cloud?

Aug 18 2020

Je suis un peu un débutant et je n'ai encore jamais traité de solutions basées sur le cloud.

Mon programme utilise la bibliothèque PDFBox pour extraire des données de PDF et renommer le fichier en fonction des données. Tout est actuellement local, mais devra éventuellement être déployé en tant que fonction Azure. Les fichiers PDF seront stockés dans un conteneur d'objets blob Azure - le déclencheur Stockage d'objets blob Azure pour Azure Functions est une raison importante de ce choix.

Bien sûr, je peux télécharger le blob localement et le lire, mais le programme doit fonctionner uniquement dans le Cloud. J'ai essayé de lire les blobs directement en utilisant Java, mais cela a donné des données charabiaques et n'était pas compatible avec PDFbox. Mon plan pour l'instant est de stocker temporairement les fichiers ailleurs dans le cloud (par exemple OneDrive, Azure File Storage) et d'essayer de les ouvrir à partir de là. Cependant, cela semble pouvoir rapidement se transformer en une solution trop compliquée. Mes questions:

(1) Existe-t-il un moyen d'ouvrir un objet blob en tant que fichier, plutôt que CloudBlockBlob, de sorte que cette étape supplémentaire n'est pas nécessaire?

(2) Si non, quel serait le stockage temporaire recommandé dans ce cas?

(3) Existe-t-il d'autres moyens d'aborder cette question?

Réponses

2 krishg Aug 29 2020 at 16:30

Étant donné que vous planifiez la fonction Azure, vous pouvez utiliser le déclencheur / la liaison d'objets blob pour obtenir directement les octets. Ensuite, vous pouvez utiliser la méthode de chargement PDFBox PdfDocument pour créer directement l'objet PDDocument.load(content). Vous n'aurez pas besoin de stockage temporaire pour stocker le fichier pour le charger.

@FunctionName("blobprocessor")
public void run(
  @BlobTrigger(name = "file",
               dataType = "binary",
               path = "myblob/{name}",
               connection = "MyStorageAccountAppSetting") byte[] content,
  @BindingName("name") String filename,
  final ExecutionContext context
) {
  context.getLogger().info("Name: " + filename + " Size: " + content.length + " bytes");
  PDDocument doc = PDDocument.load(content);
  // do your stuffs
}