Converter arquivo scaneado para texto no BrOffice

nabase · 25 de Outubro de 2011, 08:07

Necessito scanerar vários arquivos de texto (livros) e quero converter estes arquivos para texto, para poder editá-los no BrOffice (ou outro aplicativo de texto). Como posso fazer isto? Alguém poderia me ajudar?
Um abraço à todos.

Natalino Sampaio

rjbgbo · 25 de Outubro de 2011, 08:55

http://www.vivaolinux.com.br/dica/OCR-no-Ubuntu-9.04-utilizando-tesseract-e-gscan2pdf

nabase · 25 de Outubro de 2011, 09:48

Eu instalei o aplicativo e testei... Consegui escanear e salvar como pdf, mas não consegui converter em texto....

rjbgbo · 25 de Outubro de 2011, 11:25

vc chegou a usar o ocr desse programa?
veja também: http://ubuntued.info/converter-pdfs-para-texto

nabase · 25 de Outubro de 2011, 12:22

Acabei de instalar... testei e dá um erro:

root@natalino-Inspiron-1545:/home/natalino# pstotext -output final.txt Teste.pdf
GPL Ghostscript 9.04: Unrecoverable error, exit code 1
root@natalino-Inspiron-1545:/home/natalino#

Sabe me dizer o que pode ser?

rjbgbo · 25 de Outubro de 2011, 14:06

tenta procurar pelo pacote Ghostscript, na central de programas ou synaptic, pode ser que esteja faltando

irtigor · 26 de Outubro de 2011, 08:43

O tesseract converte pra texto, verifique no gscan2pdf se não existe a possibilidade de trocar o formato de saída, ou use o pdftotext.

achteutis · 26 de Outubro de 2011, 09:32

Olá,

não sei se na lista linkada aqui há essa opção, mas uso um programa chamado GimageReader. Aqui tem links pra instalação dos pacotes .deb: http://www.webupd8.org/2011/03/gimagereader-tesseract-ocr-gui-gets.html

e também, acho que pra versões mais antigas do ubuntu

http://www.webupd8.org/2011/01/extract-text-from-pdfs-and-images-with.html.

Bom, o programa é muito bom e simples. Recomendo instalar os pacotes tesseract pras línguas que você quer. Nos repositórios tem pra inglês, francês, espanhol, português e italiano.

No programa abre uma janela, você abre o pdf e ele pode passar todo o podf pra texto, só páginas selecionadas ou mesmo uma parte do texto, se você selecionar. Vai abrir uma janela à direita, com o texto convertido. SElecione-o e use a opção de unir as linhas pra transformar linha soltas em parágrafos.

IMportante: um botão regula a parte de contraste e dpi das imagens. Lembre que quanto melhor a imagem, mais nítido o contorno das letras e mais fácil o reconhecimento por parte do programa. Eu regulo sempre pro máximo de contraste - já que scaneio meus textos em escala de cinza -, sem brilho adicional, e 300 dpi.

Em tempo: o Gscan2pdf tem suas vantagens e desvantagens. Vantagem: é bem rápido, se precisar escanear com mais urgência, é na boa. Desvantagem: justamente a qualidade da conversão de pdf-imagem pra texto via OCR. Embora use o tesseract (creio), os caracteres resultantes têm muito problema, acabam precisando de muita correção. Se a imagem escaneada for boa, o Gimagereader vai puxar um texto com muito pouco erro.

Em tempo 2: recomendo, além do xsane (tem nos repositórios), o Scan tailor (também nos repositórios) junto com o imagemagick (já vem instalado), pra scanear. Scaneio com o xsane, no formato tiff. Faço um projeto com o scan tailor - programa muuuuito bom, pra formatar páginas scaneadas (página de documentação aqui, em russo e inglês, com video tutorial). Depois converto os tiff pra pdf (fica com alta qualidade) com o comando mogrify -format pdf *.tif (ou *.tiff, dependendo de como for a extensão resultante). Convertidas as páginas pra pdf, junte-as com o pdf-shuffler (repositórios). Ficam prontas pro Gimagereader passar pra texto.

Ufa. Difícil, trabalhoso, mas inevitável, pra quem precisa ou quer utilizar o menos papel possível.

Bom trabalho.

rjbgbo · 26 de Outubro de 2011, 09:47

na central de programas do ubuntu 11.10 descobri - http://live.gnome.org/OCRFeeder
ainda não testei, mas se procurando lá ocr, se acha opções.

achteutis · 26 de Outubro de 2011, 20:12

Citação de: rjbgbo online 26 de Outubro de 2011, 09:47
na central de programas do ubuntu 11.10 descobri - http://live.gnome.org/OCRFeeder
ainda não testei, mas se procurando lá ocr, se acha opções.
[/quote

O OCRfeedr é bom, mas limitado se comparado ao GimageReader. No OCRfeeder, abrir um pdf é difícil, tem que passar OCR uma página por vez, e não tem um comando (que procura por expressões regulares) que una as linhas quebradas pra fazer os parágrafos. No GimageReader tem essa opção, dá pra puxar os textos de todo o documento. E pelo menos aqui ele puxa os recursos do computador, e paralisa o resto. Mas se quiser usar os programas do repositório, é uma boa opção.