Existe OCR para Linux? (mais precisamente, UBUNTU DAPPER)

Serj Tankian · 10 de Setembro de 2006, 16:47

OCR é um programa que atua como um scanner, ou seja, peguemos o exemplo do ABBY, para Windows: você tem uma apostila em PDF e quer passar pro Word, então digitaliza a imagem do PDF com o ABBY que, na mesma hora, exporta os caracteres para formato WORD.

Existe algum programa destes para Linux? Meu crack para o ABBY no windows expirou e, como estou quase de mala e cuia no linux, preciso de umprograminha destes...

Grato

Lamego · 10 de Setembro de 2006, 18:04

Serj,
vai no synaptic e procura por "ocr", aparem lá 2 ou 3 programas, pessoalmente nunca utilizei OCR por isso não posso aconselhar melhor.

rodrigo666 · 10 de Setembro de 2006, 21:11

Ué, o próprio Xsane não vem com OCR?

boi · 10 de Setembro de 2006, 21:27

Mas então, você quer um OCR mesmo ou apenas um programa que converta de pdf para texto? Se for o último caso, experimente isso no terminal:

Código Selecionar

pdftotext apostila.pdf apostila.txt

O pdftotext faz parte do pacote poppler-utils, se você não tiver instalado, basta dar um apt-get. Também existe o pdftohtml no mesmo pacote.

lueneberg · 10 de Setembro de 2006, 22:35

Citação de: Serj Tankian online 10 de Setembro de 2006, 16:47
OCR é um programa que atua como um scanner, ou seja, peguemos o exemplo do ABBY, para Windows: você tem uma apostila em PDF e quer passar pro Word, então digitaliza a imagem do PDF com o ABBY que, na mesma hora, exporta os caracteres para formato WORD.

Existe algum programa destes para Linux? Meu crack para o ABBY no windows expirou e, como estou quase de mala e cuia no linux, preciso de umprograminha destes...

Grato

exist o kooka (kde) nunca testei, mais de uma olhada

http://kooka.kde.org/

screen:

http://kooka.kde.org/screenshots/index.php

agente100gelo · 16 de Setembro de 2006, 13:03

Existe o GOCR (modo texto)
Eu tive uma dificuldade de conversão (provavelmente porque digitalizei em modo colorido), e agora meu scanner deu pau.

Digitalize uma imagem como ppm

Código Selecionar

gocr -o texto.txt imagem.ppm

Digitalizou cerca de 90% do texto. Teve alguns enganos com i com ascentos agudos onde não tinha mas deu pro gasto. Talvez tenha que digitalizar aumentando o contraste para melhorar a perfomance.

No Gimp aparece a chamada para gocr mas não vi como digitalizar direto.

Mitzgitari · 24 de Setembro de 2006, 21:38

O XSane utiliza o GOCR para o reconhecimento de caractéres.
Embora eu tenha gostado muito das fotos e imagens que eu digitalizei o OCR deixou muito a desejar (Talvez precise de alguma configuração extra, realmente não sei). Tentei buscar na internet uma solução para o problema com o OCR, mas até agora eu não consegui nada. Se conseguir alguma coisa eu posto aqui (Se conseguirem alguma informação neste sentido também postem, está informação é raridade na internet).
Só para constar eu utilizo uma Multifuncional HP 1510.

Serj Tankian · 27 de Setembro de 2006, 22:08

o xsane só digitaliza de algum scanner, oq eu queria era pegar apostilas que tenho no HD em formato PDF e passar para Word, para poder editá-las

Alatar · 06 de Dezembro de 2006, 19:09

Provavelmente você precisa instalar o OCR

Código Selecionar

sudo apt-get install gocr gocr-gtk

Não é uma maravilha não, tive muitos erros.

dudu_ubuntun · 06 de Dezembro de 2006, 23:40

Desculpem me meter, mas testei a dica do bo funcionou perfeitamente, somente as figuras não apareceram no txt, mas isso também nao é um problema mto sério, parabéns pela dica boi

Newhouse · 16 de Setembro de 2009, 21:31

Citação de: dudu_ubuntun online 06 de Dezembro de 2006, 23:40
Desculpem me meter, mas testei a dica do bo funcionou perfeitamente, somente as figuras não apareceram no txt, mas isso também nao é um problema mto sério, parabéns pela dica boi

Então, mas restaria o problema daqueles PDF de texto digitalizado na forma de imagem... Melhor explicando, imagina que tu pegou um livro e scaneou ele, salvando as páginas em JPG e depois juntou todas elas num PDF, nesse caso converter pra texto não adiantaria, aí só com o OCR mesmo.

Em termos de OCR, parece que a dupla Tesseract e gscan2pdf são uma boa pedida!

http://www.vivaolinux.com.br/dica/OCR-no-Ubuntu-9.04-utilizando-tesseract-e-gscan2pdf