OCR Tesseract e gscan2pdf

Iniciado por olinto, 11 de Dezembro de 2008, 00:47

tópico anterior - próximo tópico

olinto

Olá,

Segui diversas dicas e instalei o ocr tesseract e o gscan2pdf.

Minha intenção é passar para texto as tabelas de uns documentos que tenho em pdf.

Abri o pdf no Gimp, selecionei a tabela e salvei como tif.

Abri o gscan2pdf, importei a imagem e selecionei OCR indicando a língua português.

Tudo que foi dado foi:
ÉE CE I 2 E 5 E
l.II'\IIII)A;I:)Eî II)A; îî ISE ÉQÇÃ
È Éê;5 I I_

Esta é a mesma saída de quando uso o tesseract pela linha de comando.

Alguém tem idéia do que possa estar acontecendo?

Obrigado.

Antônio



Antônio Olinto
Linux User 455618
Ubuntu User 31203