Impossibile creare file .box -Training Tessearct

Aug 16 2020

Sto cercando di addestrare Tesseract in Ubuntu 20.04.1 LTS. Ho scaricato tesseract e gli strumenti di formazione richiesti.

Per i dati di addestramento sto usando jTessBoxEditor. Ho i file .tiff ma non riesco a creare i file .box. Quando digito quanto segue nel mio terminale:

tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox

ottengo il seguente errore:

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

Ho provato a scaricare eng.traineddata da git e ad incollarlo su tessdata. Ma ho ricevuto lo stesso messaggio di errore. Poi ho cambiato TESSDATA_PREFIX diverse volte per farlo puntare a tessdata ma ho ricevuto di nuovo lo stesso messaggio di errore. Come posso risolvere questo problema?

Modifica: l'eseguibile tesseract e il codice sorgente tesseract che ho scaricato si trovano in posizioni diverse.

Risposte

Hula Aug 25 2020 at 00:19

Ho scaricato tesseract in due posizioni. La posizione a cui puntava TESSDATA_PREFIX non aveva eng.traineddata. L'ho scaricata in quella directory da github e l'ho usata cat >> .pam_environmentdi nuovo per fare in modo che TESSDATA_PREFIX punti quella posizione.

Ho effettuato nuovamente l'accesso e ora sono in grado di creare file .box.