Olá,
Segui diversas dicas e instalei o ocr tesseract e o gscan2pdf.
Minha intenção é passar para texto as tabelas de uns documentos que tenho em pdf.
Abri o pdf no Gimp, selecionei a tabela e salvei como tif.
Abri o gscan2pdf, importei a imagem e selecionei OCR indicando a língua português.
Tudo que foi dado foi:
ÉE CE I 2 E 5 E
l.II'\IIII)A;I:)Eî II)A; îî ISE ÉQÇÃ
È Éê;5 I I_
Esta é a mesma saída de quando uso o tesseract pela linha de comando.
Alguém tem idéia do que possa estar acontecendo?
Obrigado.
Antônio