Formatação de Textos: Remover texto exibido "lado a lado".

Iniciado por JoaoDamasceno.ufc, 18 de Agosto de 2017, 09:48

tópico anterior - próximo tópico

JoaoDamasceno.ufc

Bom dia senhores.

Recentemente postei uma dúvida de como usar recursos OCR, ou seja, tenho textos que são pdf's porém, escaneados. Com as ferramentas OCR pronto, problema resolvido. Mas agora tem o seguinte desafio:

Como faço pra que textos já no LibreOffice Writer, resultado da conversão "pdf(ocr)/odt", fiquem com cada folha não lado a lado e sim cada folha em um lado do A4?

P.S. Seria algo semelhante a "remover a função retrato e usar a posição paisagem" se não me engano... ??? (o que no caso, não deu certo... rs...)

druidaobelix

#1
Citação de: JoaoDamasceno.ufc online 18 de Agosto de 2017, 09:48
Como faço pra que textos já no LibreOffice Writer, resultado da conversão "pdf(ocr)/odt", fiquem com cada folha não lado a lado e sim cada folha em um lado do A4?

Pois então, prezado @JoaoDamasceno.ufc,

Precisamos entender melhor a questão quando diz "fiquem com cada folha não lado a lado e sim cada folha em um lado do A4" estás a querer dizer frente e verso do A4, é isso?

Se for, a função é de impressora, não do documento em si, já que documento digital evidentemente não tem lado no sentido de frente e verso.

Seguindo essa linha, de que se trata de frente e verso, e portanto questão de impressão física do documento, então com o documento aberto:

clica em Arquivo/Imprimir

Escolha a aba "Layout da Página"

Lados da página na parte inferior da janela

Normalmente estará "Todas as páginas"

Escolha:

Verso / páginas esquerdas

Frente / páginas direitas





www.arredondar.org.br
Vencedor Desafio de Impacto Social Google 2016!
Você também pode participar e fazer a diferença.

JoaoDamasceno.ufc

Citação de: druidaobelix online 18 de Agosto de 2017, 11:36
Citação de: JoaoDamasceno.ufc online 18 de Agosto de 2017, 09:48
Como faço pra que textos já no LibreOffice Writer, resultado da conversão "pdf(ocr)/odt", fiquem com cada folha não lado a lado e sim cada folha em um lado do A4?

Pois então, prezado @JoaoDamasceno.ufc,

Precisamos entender melhor a questão quando diz "fiquem com cada folha não lado a lado e sim cada folha em um lado do A4" estás a querer dizer frente e verso do A4, é isso?
_______________________

Se for, a função é de impressora, não do documento em si, já que documento digital evidentemente não tem lado no sentido de frente e verso.

Seguindo essa linha, de que se trata de frente e verso, e portanto questão de impressão física do documento, então com o documento aberto:

clica em Arquivo/Imprimir

Escolha a aba "Layout da Página"

Lados da página na parte inferior da janela

Normalmente estará "Todas as páginas"

Escolha:

Verso / páginas esquerdas

Frente / páginas direitas


Quero colocar uma página pra vocês verem, mas não há esse recurso no fórum... O que quero é remover o formato de exibição "livreto", e passar a ter o texto corrido, ou seja, cada página de texto é uma folha de A4 e não como livreto. Sei que não é só questão de "rotacionar o texto" e nem contar com recursos tipo "paisagem vs. retrato". Em outras palavras: O texto está dividido em 2 colunas em todas as folhas, quero sem essas colunas.

druidaobelix

#3
Citação de: JoaoDamasceno.ufc online 18 de Agosto de 2017, 11:55
Quero colocar uma página pra vocês verem, mas não há esse recurso no fórum...

Já que mencionou a dificuldade, então vamos elucidar essa questão, então agora um aspecto meramente administrativo do uso do Fórum, que ainda não chegou na era multimedia quanto ao uso corrente, de fato é um pouco complicado postar diretamente imagens aqui, além do que existem limitações de tamanho por uma questão de economizar espaço no servidor.

Quando for necessário e quiser disponibilizar uma imagem da tela, use um servidor externo de imagens, postando no tópico um link da miniatura da imagem, pois há uma regra de limitação de tamanho de imagens que se pode postar no Fórum, que é de 40Kb.

Confira aqui (item 8 -X):

http://ubuntuforum-br.org/index.php/topic,43147.0.html

Para aprender como anexar uma imagem em miniatura ao tópico (porque há limite nas regras do Fórum) através de um servidor de imagens externo, veja esse tópico e nele especialmente o post #2 do colega /Creto/:

Anexar uma imagem ao tópico

http://ubuntuforum-br.org/index.php/topic,117916.msg649065.html#msg649065

http://imgur.com

Apenas como exemplo, algo assim a miniatura da imagem linkada:



www.arredondar.org.br
Vencedor Desafio de Impacto Social Google 2016!
Você também pode participar e fazer a diferença.

druidaobelix

#4
Mas já agora parece que estás a falar em texto colunado, tal qual esse:



No caso dividido em duas colunas determinados parágrafos.

É disso que se trata a dúvida?


Editando:

Em homenagem à autoria, o exemplo acima foi criado a partir do texto existente nesse link:

Sobrevivendo na Ciência
Um pequeno manual para a jornada do cientista
13/03/2012 por Marco

https://marcoarmello.wordpress.com/2012/03/13/tese/
www.arredondar.org.br
Vencedor Desafio de Impacto Social Google 2016!
Você também pode participar e fazer a diferença.

druidaobelix

#5
Pois bem, em sendo esse o caso, em realmente se tratando de "Texto Colunado", no LibreOffice, para colunar um texto contínuo, se faz:

Com o mouse marque o texto a ser colunado

Vá em Formatar/Colunas

No primeiro bloco "Configurações" escolha a quantidade de colunas.

Para desfazer é igualmente marcar o texto colunado e então trazer o marcador de colunas para 1 (um), o que resultará em texto contínuo novamente.

www.arredondar.org.br
Vencedor Desafio de Impacto Social Google 2016!
Você também pode participar e fazer a diferença.

zekkerj

Se eu entendi o problema... nosso amigo tem uma ferramenta que faz o OCR, mas que entregou a ele um texto que não é colunado, mas sim que o texto das duas colunas foi misturado, dando a impressão visual de um texto colunado.

O que eu imagino então é que nessa situação, não tem muito que se possa ser feito. Mesmo que houvesse alguma marcação que pudesse ser usada por um programa como o SED ou o AWK, seria bem complicado separar as duas partes em arquivos diferentes.


Enviado do meu smartphone.
Pesquise antes de perguntar, sua dúvida pode já ter sido respondida.
Não respondo dúvidas por MP, coloque sua dúvida no fórum onde ela pode ser pesquisada pelos seus colegas!
Não venha ao fórum apenas para perguntar. Se você sabe a resposta de um problema, porque não ajudar seu colega? ;D

druidaobelix

Citação de: zekkerj online 23 de Agosto de 2017, 21:16
Se eu entendi o problema... nosso amigo tem uma ferramenta que faz o OCR, mas que entregou a ele um texto que não é colunado, mas sim que o texto das duas colunas foi misturado, dando a impressão visual de um texto colunado.

De fato, pode ser sim que seja isso, vamos ver se o autor do tópico disponibiliza uma imagem para que possamos concretamente ver do que se trata e, quem sabe, um link para um próprio arquivo no qual se possa melhor trabalhar.
www.arredondar.org.br
Vencedor Desafio de Impacto Social Google 2016!
Você também pode participar e fazer a diferença.

sigur

Se me lembro bem, o user trabalha com leis, direito, etc... então, creio que o tipo de texto que ele quer mexer seja daqueles lado-a-lado, pra se comprar versão nova, com veersão cirrigida.

Bem, isso posto, acredito que o problema foi:

1. ele escaneou um documento que visualmente tinha duas colunas (ou foi impresso duas páginas por folha, em modo paisagem, ou era uma tabela com duas colunas).

2. o programa reconheceu isso e gerou um arquivo que contém duas colunas.

3. creio que ele quer jogar a coluna da direita embaixo da coluna da esquerda, pra tirar esse efeito

4. como o outro amigo disse, se for colunado, é só usar a opção de colunas.

4.1 agora, se for uma tabela com duas células, daí tem que remover a tabela pra que o texto fique contínuo (isso não sei se é simples, pois qualquer coisa feita selecionado o texto, 'copia' a tabela... rs)

Espero ter ajudado a entender o problema.

JoaoDamasceno.ufc

Citação de: sigur online 26 de Agosto de 2017, 18:00
Se me lembro bem, o user trabalha com leis, direito, etc... então, creio que o tipo de texto que ele quer mexer seja daqueles lado-a-lado, pra se comprar versão nova, com veersão cirrigida.

Bem, isso posto, acredito que o problema foi:

1. ele escaneou um documento que visualmente tinha duas colunas (ou foi impresso duas páginas por folha, em modo paisagem, ou era uma tabela com duas colunas).

2. o programa reconheceu isso e gerou um arquivo que contém duas colunas.

3. creio que ele quer jogar a coluna da direita embaixo da coluna da esquerda, pra tirar esse efeito

4. como o outro amigo disse, se for colunado, é só usar a opção de colunas.

4.1 agora, se for uma tabela com duas células, daí tem que remover a tabela pra que o texto fique contínuo (isso não sei se é simples, pois qualquer coisa feita selecionado o texto, 'copia' a tabela... rs)

Espero ter ajudado a entender o problema.

É precisamente isso mesmo...!!! Ainda pensei que usando a ideia do item 4. como o outro amigo disse, se for colunado, é só usar a opção de colunas. daria certo.Massss... nada feito. Pensem num negócio chato é viver dizendo que não façam textos dessa forma, mas não poucas vezes me deparo com essa formatação que no caso do que é necessário aqui, é impossível se trabalhar com textos assim. Hoje até já consigo usar ferramentas tipo OCR, mas tenho percebido que quando o PDF vem de um scanner onde o texto "convertido" (doc. docx. odt. txt... ) vem de um texto com duas colunas, puuutz, pra formatar em outros formatos é um parto.  >:(

druidaobelix

Citação de: JoaoDamasceno.ufc online 30 de Agosto de 2017, 16:39
É precisamente isso mesmo...!!!

Então, @JoaoDamasceno.uf,

Se você fornecer uma imagem do arquivo aqui no tópico, da forma já explicada antes, ajuda pra caramba a entender o problema.

Esse é um daqueles casos onde se pode dizer que uma imagem vale por mil palavras.  :)

Se você, ainda, fornecer um link para um arquivo real que espelhe o problema e que possamos baixar e testar, então ajuda pra carambra três vezes mais, pois aí permitirá que trabalhemos concretamente no arquivo buscando uma solução razoável.  ;)



www.arredondar.org.br
Vencedor Desafio de Impacto Social Google 2016!
Você também pode participar e fazer a diferença.

sigur

Outra possibilidade seria fazer um script sh pra cortar o pdf escaneado original antes de fazer o reconhecimento, ou seja, cada página do pdf virariam duas páginas com o conteúdo das 'colunas' apenas. Assim, não tem mais o problema de ficar lado-a-lado.

Existe o pdftk que uso bastante pra manipular pdfs.

Se quiser aventurar-se também, dá pra incluir as páginas de um pdf no LaTex e cortar, manipular, etc... já fiz cada maravilha com isso, por lazer, pois adoro TeX.

Boa sorte.