Existe OCR para Linux? (mais precisamente, UBUNTU DAPPER)

Iniciado por Serj Tankian, 10 de Setembro de 2006, 16:47

tópico anterior - próximo tópico

Serj Tankian

OCR é um programa que atua como um scanner, ou seja, peguemos o exemplo do ABBY, para Windows: você tem uma apostila em PDF e quer passar pro Word, então digitaliza a imagem do PDF com o ABBY que, na mesma hora, exporta os caracteres para formato WORD.

Existe algum programa destes para Linux? Meu crack para o ABBY no windows expirou e, como estou quase de mala e cuia no linux, preciso de umprograminha destes...

Grato
"Viva!! Viva!! Viva a Sociedade Alternativa! À lei do forte, esta é a nossa lei e alegria do mundo!! Viva!! Viva!!"

Lamego

Serj,
vai no synaptic e procura por "ocr", aparem lá 2 ou 3 programas, pessoalmente nunca utilizei OCR por isso não posso aconselhar melhor.
João Luís Marques Pinto
Mais programs e jogos para o Ubuntu


boi

Mas então, você quer um OCR mesmo ou apenas um programa que converta de pdf para texto? Se for o último caso, experimente isso no terminal:

pdftotext apostila.pdf apostila.txt

O pdftotext faz parte do pacote poppler-utils, se você não tiver instalado, basta dar um apt-get. Também existe o pdftohtml no mesmo pacote.

lueneberg

Citação de: Serj Tankian online 10 de Setembro de 2006, 16:47
OCR é um programa que atua como um scanner, ou seja, peguemos o exemplo do ABBY, para Windows: você tem uma apostila em PDF e quer passar pro Word, então digitaliza a imagem do PDF com o ABBY que, na mesma hora, exporta os caracteres para formato WORD.

Existe algum programa destes para Linux? Meu crack para o ABBY no windows expirou e, como estou quase de mala e cuia no linux, preciso de umprograminha destes...

Grato

exist o kooka (kde) nunca testei, mais de uma olhada

http://kooka.kde.org/

screen:

http://kooka.kde.org/screenshots/index.php

agente100gelo

Existe o GOCR (modo texto)
Eu tive uma dificuldade de conversão (provavelmente porque digitalizei em modo colorido), e agora meu scanner deu pau.

Digitalize uma imagem como ppm
gocr -o texto.txt imagem.ppm

Digitalizou cerca de 90% do texto. Teve alguns enganos com i com ascentos agudos onde não tinha mas deu pro gasto. Talvez tenha que digitalizar aumentando o contraste para melhorar a perfomance.

No Gimp aparece a chamada para gocr mas não vi como digitalizar direto.
Advogado e analista de sistema cearense.
Twitter: @glaydson

Mitzgitari

O XSane utiliza o GOCR para o reconhecimento de caractéres.
Embora eu tenha gostado muito das fotos e imagens que eu digitalizei o OCR deixou muito a desejar (Talvez precise de alguma configuração extra, realmente não sei). Tentei buscar na internet uma solução para o problema com o OCR, mas até agora eu não consegui nada. Se conseguir alguma coisa eu posto aqui (Se conseguirem alguma informação neste sentido também postem, está informação é raridade na internet).
Só para constar eu utilizo uma Multifuncional HP 1510.

Serj Tankian

o xsane só digitaliza de algum scanner, oq eu queria era pegar apostilas que tenho no HD em formato PDF e passar para Word, para poder editá-las
"Viva!! Viva!! Viva a Sociedade Alternativa! À lei do forte, esta é a nossa lei e alegria do mundo!! Viva!! Viva!!"

Alatar

Provavelmente você precisa instalar o OCR

sudo apt-get install gocr gocr-gtk

Não é uma maravilha não, tive muitos erros.

dudu_ubuntun

Desculpem me meter, mas testei a dica do bo  funcionou perfeitamente, somente as figuras não apareceram no txt, mas isso também nao é um problema mto sério, parabéns pela dica boi ;)

Newhouse

Citação de: dudu_ubuntun online 06 de Dezembro de 2006, 23:40
Desculpem me meter, mas testei a dica do bo  funcionou perfeitamente, somente as figuras não apareceram no txt, mas isso também nao é um problema mto sério, parabéns pela dica boi ;)

Então, mas restaria o problema daqueles PDF de texto digitalizado na forma de imagem... Melhor explicando, imagina que tu pegou um livro e scaneou ele, salvando as páginas em JPG e depois juntou todas elas num PDF, nesse caso converter pra texto não adiantaria, aí só com o OCR mesmo.

Em termos de OCR, parece que a dupla Tesseract e gscan2pdf são uma boa pedida!

http://www.vivaolinux.com.br/dica/OCR-no-Ubuntu-9.04-utilizando-tesseract-e-gscan2pdf