Autor Tópico: [Resolvido]O.C.R. que salve com o "texto sob a imagem"?  (Lida 4795 vezes)

Offline Feitosa

  • Usuário Ubuntu
  • *
  • Mensagens: 127
    • Ver perfil
[Resolvido]O.C.R. que salve com o "texto sob a imagem"?
« Online: 20 de Agosto de 2010, 00:51 »
Saudações,

Testei o tesseract e o gscan2pdf, em termos de OCR em si, não fica devendo nada aos programas pagos, na hora de salvar, entretanto, não consegui fazer algo que queria...

No ABBY Fine reader, quando queremos salvar em PDF, existe a opção de salvar o texto ou salvar a imagem "com o texto por baixo", conforme a figura abaixo:


http://www.imagebam.com/image/c1c78f93276763

A vantagem desse método é que você conserva o layout original da imagem e agrega o texto para fins de Ctrl-C Ctrl-V... Para um exemplo do resultado desejado: http://www.cepc.es/rap/Publicaciones/Revistas/2/REP_048_184.pdf - o layout original permanece, mas o texto está "por baixo" é só tentar selecionar!

A dúvida é, como fazer isso no Linux?

Obrigado!
« Última modificação: 02 de Setembro de 2010, 03:41 por Feitosa »

Offline rjbgbo

  • Usuário Ubuntu
  • *
  • Mensagens: 3.889
  • Xubuntu 18.04LTS
    • Ver perfil
    • Twitter
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #1 Online: 20 de Agosto de 2010, 07:38 »
real = ao abby, ainda ñ conheço no linux
e sequer sabia que ele fazia isso
mas seria algo que um editor de pdf faria?
veja http://xournal.sourceforge.net/
Linux User #440843 | Ubuntu User #11469

Offline Feitosa

  • Usuário Ubuntu
  • *
  • Mensagens: 127
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #2 Online: 20 de Agosto de 2010, 22:13 »
real = ao abby, ainda ñ conheço no linux
e sequer sabia que ele fazia isso
mas seria algo que um editor de pdf faria?
veja http://xournal.sourceforge.net/

Opa, obrigado rjbgbo!

Vou dar uma olhada no link...

Sobre o abby, dependendo da resolução da imagem, tenho resultados equivalentes com o tesseract+gscan2pdf !

Tenho a impressão que quando as pessoas reclamam do tesseract é porque testaram em imagens com baixa resolução e/ou sem instalar o pacote em português, aí fica ruim né?

Também tenho a impressão que o abby só ganha mesmo em imagens com baixa resolução...

Ah, são impressões minhas, nunca fiz nenhum teste ou pesquisa pra verificar não...

Abraço!

Offline Feitosa

  • Usuário Ubuntu
  • *
  • Mensagens: 127
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #3 Online: 21 de Agosto de 2010, 13:19 »
Atualizando...

Pesquisando por aí, tive uma surpresa, o ABBY finereader existe pra linux! O problema é que pelo que vi por aí, é linha de comando e é pago (e caro)...

Acabei esbarrando no OCROpus, pelo que entendi, um projeto da Google a partir do tesseract, que possui um "Document Layout Analysis", o problema é que também não possui front end, exceto pro Knoppix: http://old.nabble.com/Book-scanning-frontend-application--td26979943.html

Como não vou abrir mão do Ubuntu pelo Knoppix, baixei o adriane-ocr mas não consegui fazê-lo funcionar...

É mesmo uma pena, pra mim, um OCR completo é a única coisa que falta no linux! Honestamente, se eu soubesse programar, desenvolveria um!

Offline Feitosa

  • Usuário Ubuntu
  • *
  • Mensagens: 127
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #4 Online: 27 de Agosto de 2010, 00:35 »
É mesmo uma pena, pra mim, um OCR completo é a única coisa que falta no linux! Honestamente, se eu soubesse programar, desenvolveria um!

Com muita felicidade, descobri que estava errado! Graças ao Jeffrey Ratcliffe (thanks a lot Jeff), idealizador e responsável pelo gscan2pdf, descobri que o Ubuntu (64 bits) estava oferecendo a 0.9.29 quando a mais recente é a 0.9.31, que possibilita uma ótima integração com o ocropus.

Com isso eu consigo um ocr com"Document Layout Analysis" e uma perfeita interface gráfica posso salvar perfeitamente o pdf com o texto sob a imagem.

Não falta mais nada no linux!
« Última modificação: 27 de Agosto de 2010, 00:41 por Feitosa »

Offline ucastrobr

  • Usuário Ubuntu
  • *
  • Mensagens: 693
  • Usa Ubuntu 11.10 (Oneiric Ocelot)
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #5 Online: 27 de Agosto de 2010, 10:57 »
Para esse efeito existe um programa gratuito, mas deve ser rodado via wine visto que não é feito para linux. Testei funcionou bem.
O melhor software gratuito com o melhor recurso de OCR,
Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Ele permite selecionar e copiar um texto tanto de um PDF normal como daqueles com texto em formato de imagem.
Se baixar pelo site vai pedir um cadastro básico, se baixar pelo Baixaki é direto e o link de download é o mesmo: Download e comentários
Permite selecionar o texto, copiar e colar: Clique na aba Edit > Select All > Copy,
que é igual a "Ctrl+A > Ctrl+C > Ctrl+V" para colar no Word ou Bloco de Notas.
Para selecionar só uma parte do texto clique na aba "Select text" e para selecionar uma imagem clique na aba "Set".


Agora se for só para editar pdf:

Código: [Selecionar]
sudo apt-get install openoffice.org-pdfimportDepois quando abre o arquivo pdf com o editor de texto do openoffice, ele permite editar manipular texto e imagem.
Desde que o pdf não esteja protegido.
« Última modificação: 27 de Agosto de 2010, 13:18 por ucastrobr »
Spock – "After a time, you may find that having is not so pleasing a thing, after all, as wanting. It is not logical, but it is often true."
("Depois um de tempo você vai perceber que ter algo pode não ser tão prazeroso quanto deseja-lo. Isto não é lógico, mas frequentemente é verdade.")

Offline livre1

  • Usuário Ubuntu
  • *
  • Mensagens: 650
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #6 Online: 28 de Agosto de 2010, 03:23 »
Amigo qual a versão do ocropos você me recomenda?





A versão 4 alpha?



A versão 3.1 alpha?



Ou a versão 3.0 que acredito ser a estavel?

Offline Feitosa

  • Usuário Ubuntu
  • *
  • Mensagens: 127
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #7 Online: 02 de Setembro de 2010, 03:25 »
Para esse efeito existe um programa gratuito, mas deve ser rodado via wine visto que não é feito para linux. Testei funcionou bem.
O melhor software gratuito com o melhor recurso de OCR,
Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Valeu pela dica, não conhecia. Aqui o link da nuance.com não abriu e na descrição do baixaki não vi nada sobre o.c.r.

De qualquer forma, se for pra rodar via wine, eu tenho uma licença do ABBY, o que eu queria mesmo era um programa nativo do linux e encontrei!


Amigo qual a versão do ocropos você me recomenda?

Sobre a versão do ocropus, estou usando a dos repositórios do Ubuntu 64 com resultados satisfatórios (claro que isso depende muito da qualidade da imagem a ser reconhecida).

Offline livre1

  • Usuário Ubuntu
  • *
  • Mensagens: 650
    • Ver perfil
Re: O.C.R. que salve com o "texto sob a imagem"?
« Resposta #8 Online: 02 de Setembro de 2010, 05:17 »
Para esse efeito existe um programa gratuito, mas deve ser rodado via wine visto que não é feito para linux. Testei funcionou bem.
O melhor software gratuito com o melhor recurso de OCR,
Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Valeu pela dica, não conhecia. Aqui o link da nuance.com não abriu e na descrição do baixaki não vi nada sobre o.c.r.

De qualquer forma, se for pra rodar via wine, eu tenho uma licença do ABBY, o que eu queria mesmo era um programa nativo do linux e encontrei!


Amigo qual a versão do ocropos você me recomenda?

Sobre a versão do ocropus, estou usando a dos repositórios do Ubuntu 64 com resultados satisfatórios (claro que isso depende muito da qualidade da imagem a ser reconhecida).




Ok obrigado eu vi que no repositorio tem (antes eu não procurei...).



A do repositorio deve ter uma boa qualidade acredito.