Não é possível criar arquivos .box -Training Tessearct

Aug 16 2020

Estou tentando treinar o Tesseract no Ubuntu 20.04.1 LTS. Baixei o tesseract e as ferramentas de treinamento necessárias.

Para os dados de treinamento, estou usando o jTessBoxEditor. Tenho os arquivos .tiff, mas não consigo fazer os arquivos .box. Quando digito o seguinte no meu terminal:

tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox

Estou tendo o erro a seguir:

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

Eu tentei baixar eng.traineddata do git e colá-lo em tessdata. Como resolvo isso?

Editar: O executável do tesseract e o código-fonte do tesseract que baixei estão em locais diferentes.

Respostas

Hula Aug 25 2020 at 00:19

Eu baixei o tesseract em dois locais. O local para o qual TESSDATA_PREFIX estava apontando não tinha eng.traineddata cat >> .pam_environment.

Eu loguei novamente e agora posso criar arquivos .box.