[Resolvido]O.C.R. que salve com o "texto sob a imagem"?

Iniciado por Feitosa, 20 de Agosto de 2010, 00:51

tópico anterior - próximo tópico

Feitosa

Saudações,

Testei o tesseract e o gscan2pdf, em termos de OCR em si, não fica devendo nada aos programas pagos, na hora de salvar, entretanto, não consegui fazer algo que queria...

No ABBY Fine reader, quando queremos salvar em PDF, existe a opção de salvar o texto ou salvar a imagem "com o texto por baixo", conforme a figura abaixo:


http://www.imagebam.com/image/c1c78f93276763

A vantagem desse método é que você conserva o layout original da imagem e agrega o texto para fins de Ctrl-C Ctrl-V... Para um exemplo do resultado desejado: http://www.cepc.es/rap/Publicaciones/Revistas/2/REP_048_184.pdf - o layout original permanece, mas o texto está "por baixo" é só tentar selecionar!

A dúvida é, como fazer isso no Linux?

Obrigado!

rjbgbo

real = ao abby, ainda ñ conheço no linux
e sequer sabia que ele fazia isso
mas seria algo que um editor de pdf faria?
veja http://xournal.sourceforge.net/
Linux User #440843 | Ubuntu User #11469

Feitosa

Citação de: rjbgbo online 20 de Agosto de 2010, 07:38
real = ao abby, ainda ñ conheço no linux
e sequer sabia que ele fazia isso
mas seria algo que um editor de pdf faria?
veja http://xournal.sourceforge.net/

Opa, obrigado rjbgbo!

Vou dar uma olhada no link...

Sobre o abby, dependendo da resolução da imagem, tenho resultados equivalentes com o tesseract+gscan2pdf !

Tenho a impressão que quando as pessoas reclamam do tesseract é porque testaram em imagens com baixa resolução e/ou sem instalar o pacote em português, aí fica ruim né?

Também tenho a impressão que o abby só ganha mesmo em imagens com baixa resolução...

Ah, são impressões minhas, nunca fiz nenhum teste ou pesquisa pra verificar não...

Abraço!

Feitosa

Atualizando...

Pesquisando por aí, tive uma surpresa, o ABBY finereader existe pra linux! O problema é que pelo que vi por aí, é linha de comando e é pago (e caro)...

Acabei esbarrando no OCROpus, pelo que entendi, um projeto da Google a partir do tesseract, que possui um "Document Layout Analysis", o problema é que também não possui front end, exceto pro Knoppix: http://old.nabble.com/Book-scanning-frontend-application--td26979943.html

Como não vou abrir mão do Ubuntu pelo Knoppix, baixei o adriane-ocr mas não consegui fazê-lo funcionar...

É mesmo uma pena, pra mim, um OCR completo é a única coisa que falta no linux! Honestamente, se eu soubesse programar, desenvolveria um!

Feitosa

#4
Citação de: Feitosa online 21 de Agosto de 2010, 13:19
É mesmo uma pena, pra mim, um OCR completo é a única coisa que falta no linux! Honestamente, se eu soubesse programar, desenvolveria um!

Com muita felicidade, descobri que estava errado! Graças ao Jeffrey Ratcliffe (thanks a lot Jeff), idealizador e responsável pelo gscan2pdf, descobri que o Ubuntu (64 bits) estava oferecendo a 0.9.29 quando a mais recente é a 0.9.31, que possibilita uma ótima integração com o ocropus.

Com isso eu consigo um ocr com"Document Layout Analysis" e uma perfeita interface gráfica posso salvar perfeitamente o pdf com o texto sob a imagem.

Não falta mais nada no linux!

ucastrobr

#5
Para esse efeito existe um programa gratuito, mas deve ser rodado via wine visto que não é feito para linux. Testei funcionou bem.
O melhor software gratuito com o melhor recurso de OCR,
Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Ele permite selecionar e copiar um texto tanto de um PDF normal como daqueles com texto em formato de imagem.
Se baixar pelo site vai pedir um cadastro básico, se baixar pelo Baixaki é direto e o link de download é o mesmo: Download e comentários
Permite selecionar o texto, copiar e colar: Clique na aba Edit > Select All > Copy,
que é igual a "Ctrl+A > Ctrl+C > Ctrl+V" para colar no Word ou Bloco de Notas.
Para selecionar só uma parte do texto clique na aba "Select text" e para selecionar uma imagem clique na aba "Set".


Agora se for só para editar pdf:

sudo apt-get install openoffice.org-pdfimport
Depois quando abre o arquivo pdf com o editor de texto do openoffice, ele permite editar manipular texto e imagem.
Desde que o pdf não esteja protegido.
Spock – "After a time, you may find that having is not so pleasing a thing, after all, as wanting. It is not logical, but it is often true."
("Depois um de tempo você vai perceber que ter algo pode não ser tão prazeroso quanto deseja-lo. Isto não é lógico, mas frequentemente é verdade.")

livre1

Amigo qual a versão do ocropos você me recomenda?





A versão 4 alpha?



A versão 3.1 alpha?



Ou a versão 3.0 que acredito ser a estavel?

Feitosa

Citação de: ucastrobr online 27 de Agosto de 2010, 10:57
Para esse efeito existe um programa gratuito, mas deve ser rodado via wine visto que não é feito para linux. Testei funcionou bem.
O melhor software gratuito com o melhor recurso de OCR,
Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Valeu pela dica, não conhecia. Aqui o link da nuance.com não abriu e na descrição do baixaki não vi nada sobre o.c.r.

De qualquer forma, se for pra rodar via wine, eu tenho uma licença do ABBY, o que eu queria mesmo era um programa nativo do linux e encontrei!


Citação de: livre1 online 28 de Agosto de 2010, 03:23
Amigo qual a versão do ocropos você me recomenda?

Sobre a versão do ocropus, estou usando a dos repositórios do Ubuntu 64 com resultados satisfatórios (claro que isso depende muito da qualidade da imagem a ser reconhecida).

livre1

Citação de: Feitosa online 02 de Setembro de 2010, 03:25
Citação de: ucastrobr online 27 de Agosto de 2010, 10:57
Para esse efeito existe um programa gratuito, mas deve ser rodado via wine visto que não é feito para linux. Testei funcionou bem.
O melhor software gratuito com o melhor recurso de OCR,
Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Valeu pela dica, não conhecia. Aqui o link da nuance.com não abriu e na descrição do baixaki não vi nada sobre o.c.r.

De qualquer forma, se for pra rodar via wine, eu tenho uma licença do ABBY, o que eu queria mesmo era um programa nativo do linux e encontrei!


Citação de: livre1 online 28 de Agosto de 2010, 03:23
Amigo qual a versão do ocropos você me recomenda?

Sobre a versão do ocropus, estou usando a dos repositórios do Ubuntu 64 com resultados satisfatórios (claro que isso depende muito da qualidade da imagem a ser reconhecida).




Ok obrigado eu vi que no repositorio tem (antes eu não procurei...).



A do repositorio deve ter uma boa qualidade acredito.