Autor Tópico: OCR de qualidade no Linux: agora é fácil  (Lida 7658 vezes)

Offline rjbgbo

  • Usuário Ubuntu
  • *
  • Mensagens: 3.889
  • Xubuntu 18.04LTS
    • Ver perfil
    • Twitter
OCR de qualidade no Linux: agora é fácil
« Online: 21 de Novembro de 2007, 19:06 »
OCR de qualidade no Linux: agora é fácil

Para quem acompanha a saga de realizar um OCR no Linux (veja OCR de qualidade no Linux, Brazilian Portuguese oficialmente suportado no Tesseract-OCR e Tesseract OCR chega no Debian Sid), devo dizer que aproximamos do clímax (com duplo sentido, por favor), três meses depois. Mostrei como rodar o tesseract, criar um dicionário, como instalar no Debian Sid mas fica a sensação de incompleto pois faltava uma interface gráfica que tornasse o processo menos doloroso. O autor da jóia, Jeffrey Ratcliffe, frequenta a lista do tesseract e disponibilizou o gscan2pdf (e o pacote .deb do mesmo, para 32 bits!!). O gscan2pdf tem suporte ao Tesseract, mas não é só um programinha gráfico de OCR: ele escaneia em batch, frente e verso (ajustando as margens), roda o unpaper, bate córner e vai para a área cabecear. Veja os posts anteriores e instale o tesseract-ocr, tesseract-por e o gscan2pdf. Rode o programa (está em Gráficos, no menu Gnome) e escaneie o documento, eu usei estas opções (marquei em amarelo, o que eu modifiquei):



Mande escanear (precisa dizer que é para clicar no botão com um scanner :-P ?). Ele vai fazer o processo e aplicar o OCR em seguida. O texto reconhecido fica em baixo do texto escaneado. Note que eu coloquei algumas dificuldades para o programa, como um texto girado e manuscrito (que não será reconhecido mas aparece como ruído no texto abaixo):



P.S.: Não leio esta revista, mas era uma xerox que tinha disponível aqui em casa. Foi o primeiro que achei. P.P.S: o unpaper ajuda a tirar o manuscrito lateral, mas piora a performance em outras seções. Teste e veja o que melhor lhe agrada, agora é fácil!!

Fonte: http://profs.if.uff.br/tjpp/blog/entradas/ocr-de-qualidade-no-linux-agora-e-facil

Gostaria de add mais essa dica: http://www.vivaolinux.com.br/dica/OCR-no-Ubuntu-9.04-utilizando-tesseract-e-gscan2pdf
« Última modificação: 24 de Janeiro de 2010, 08:32 por rjbgbo »
Linux User #440843 | Ubuntu User #11469

Offline Junior_Sampa

  • Usuário Ubuntu
  • *
  • Mensagens: 382
  • Ubuntu 12.04 64bits - Unity 3D
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #1 Online: 21 de Novembro de 2007, 19:57 »
Muito legal Ricardo!!!

Sempre vejo posts seus! Sempre de grande valia a comunidade!!!

Abrs.
Junior

Offline advogama

  • Usuário Ubuntu
  • *
  • Mensagens: 181
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #2 Online: 21 de Novembro de 2007, 20:44 »
ótima dica Ricardo, eu que trabalho com textos, precisava muito desse programa.
Prepare-se para o Vista. Aprenda Linux.


Offline nq6

  • Usuário Ubuntu
  • *
  • Mensagens: 35
    • Ver perfil
    • Linux ubuntu & Afins
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #3 Online: 21 de Novembro de 2007, 20:50 »
Legal, só falta aparecer um drive para o meu hp scanjet 2400. rsrsrs... mais é legal
http://nq6.blogspot.com/
Linux ubuntu & Afins - Um blog com muitas dicas, perfeito para quem está começando.

Offline advogama

  • Usuário Ubuntu
  • *
  • Mensagens: 181
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #4 Online: 21 de Novembro de 2007, 21:28 »
Eu instalei e esta funcionando, mas o OCR dele é em inglês e não reconheceu nada. Como instalar o OCR em portugues.
Prepare-se para o Vista. Aprenda Linux.


Offline Mitzgitari

  • Usuário Ubuntu
  • *
  • Mensagens: 158
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #5 Online: 21 de Novembro de 2007, 22:41 »
Este é Tesseract-OCR é ótimo. Estou usando ele aqui (Baixei o pacote dele no Getdeb). Só faltava mesmo uma interface pra ele.
Bem, agora creio que não falta mais nada

Offline rjbgbo

  • Usuário Ubuntu
  • *
  • Mensagens: 3.889
  • Xubuntu 18.04LTS
    • Ver perfil
    • Twitter
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #6 Online: 22 de Novembro de 2007, 19:47 »
Eu instalei e esta funcionando, mas o OCR dele é em inglês e não reconheceu nada. Como instalar o OCR em portugues.

Veja só: http://profs.if.uff.br/tjpp/blog/entradas/brazilian-portuguese-oficialmente-suportado-no-tesseract-ocr
Linux User #440843 | Ubuntu User #11469

Offline advogama

  • Usuário Ubuntu
  • *
  • Mensagens: 181
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #7 Online: 23 de Novembro de 2007, 21:41 »
Eu instalei e esta funcionando, mas o OCR dele é em inglês e não reconheceu nada. Como instalar o OCR em portugues.

Veja só: http://profs.if.uff.br/tjpp/blog/entradas/brazilian-portuguese-oficialmente-suportado-no-tesseract-ocr

Eu segui as dicas, os dicionarios estão na pasta correta, com permissão concedida e mesmo assim o OCR só me dá a opção ingles.

Agora tenho duas perguntas, talvez seja por isso que não funciona:

1- O OCR reconhece o texto de qualquer imagem, independentemente da extenção do arquivo: exemplo eu abri uma imagem (a foto de um documento) o arquivo era .jpg , depois eu transformei o mesmo arquivo em .tif - também não leu.

2- A imagem tem de vir de um scanner, ou eu posso usar uma imagem já salva e aplicar o OCR (é esta segunda opção que estou tentando usar).
Prepare-se para o Vista. Aprenda Linux.


Offline advogama

  • Usuário Ubuntu
  • *
  • Mensagens: 181
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #8 Online: 23 de Novembro de 2007, 21:43 »
Eu instalei e esta funcionando, mas o OCR dele é em inglês e não reconheceu nada. Como instalar o OCR em portugues.

Veja só: http://profs.if.uff.br/tjpp/blog/entradas/brazilian-portuguese-oficialmente-suportado-no-tesseract-ocr

Eu segui as dicas, os dicionarios estão na pasta correta, com permissão concedida e mesmo assim o OCR só me dá a opção ingles.

Agora tenho duas perguntas, talvez seja por isso que não funciona:

1- O OCR reconhece o texto de qualquer imagem, independentemente da extenção do arquivo: exemplo eu abri uma imagem (a foto de um documento) o arquivo era .jpg , depois eu transformei o mesmo arquivo em .tif - também não leu ?

2- A imagem tem de vir de um scanner, ou eu posso usar uma imagem já salva e aplicar o OCR (é esta segunda opção que estou tentando usar)?
Prepare-se para o Vista. Aprenda Linux.


Offline Evaristo

  • Usuário Ubuntu
  • *
  • Mensagens: 86
    • Ver perfil
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #9 Online: 26 de Novembro de 2007, 15:53 »
Também gostaria de saber se posso usar o ocr para documento já existente em pdf...

Alguma dica??

Abs

Offline Sall

  • Usuário Ubuntu
  • *
  • Mensagens: 17
    • Ver perfil
    • SP lista - guia de empresas
Re: OCR de qualidade no Linux: agora é fácil
« Resposta #10 Online: 02 de Abril de 2008, 23:31 »
Opa

Instalei tudo de acordo com as instruções, e além de não aparecer a opção em português para mim também, o reconhecimento ficou um lixo.

Conseguiu se sair pior que o Gocr.....

Alguém aí conhece algum outro OCR bom, que realmente funcione, como p. ex. o que vem no CD da HP para Windows?