Algum estado. Estruturas geram relatórios em arquivos de documentos. Em algum lugar, isso é feito à mão e em algum lugar automaticamente. Imagine que você é instruído a processar uma tonelada desses documentos. Isso pode ser necessário para isolar algumas informações específicas ou apenas verificar o conteúdo. Precisamos extrair apenas texto não formatado sem gráficos e figuras. Por exemplo, é mais fácil inserir esses dados em uma rede neural para análises adicionais.
Aqui estão algumas opções para a pessoa mais comum:
- Alças iteram sobre todos os arquivos, um por um. Após o décimo documento, você terá a idéia de que está fazendo algo errado.
- Tente encontrar na Internet uma biblioteca especial (extensão) para trabalhar com arquivos doc em uma linguagem de programação que você possui. Passe mais uma hora entendendo como trabalhar com esta biblioteca. Você também deve enfrentar o fato de que os princípios de trabalhar com doc e docx são um pouco diferentes.
- Tente salvar automaticamente todos os documentos em um formato diferente, o que será mais conveniente para trabalhar.
Apenas sobre a última opção e conversaremos.
E um script vbs se apressa para nos ajudar. Um script vbs pode ser chamado na linha de comando, o que pode ser feito em qualquer linguagem de programação.
Crie um arquivo converter.vbs
Const wdFormatText = 2 Set objWord = CreateObject("Word.Application") Set objDoc = objWord.Documents.Open(Wscript.Arguments.Item(0), True) objDoc.SaveAs WScript.Arguments.Item(1), wdFormatText objWord.Quit
Na primeira linha, indicamos em qual formato iremos converter: 2 - para txt, 17 - para pdf.
Todos os formatos podem ser visualizados
aqui . Na segunda linha, abrimos diretamente a palavra. Após a abertura, você pode adicionar a seguinte linha:
objWord.Visible = TRUE
Isso fará com que vejamos o processo de abertura do Word. Isso pode ser útil se, em algum momento, ocorrer um erro, a palavra não se fechar e, sem essa linha, o processo poderá ser interrompido apenas pelo gerenciador de tarefas e, assim, podemos clicar na cruz.
No prompt de comando, o script será executado da seguinte maneira:
converter.vbs ___\_.docx ___\___
Wscript.Arguments.Item (0) é o caminho_arquivo_arquivo completo \ nome_do_arquivo.docx
WScript.Arguments.Item (1) - full_path_to_save_save \ file_name sem extensão
Assim, na terceira linha do nosso script, abrimos o arquivo e, na próxima linha, salvamos no formato especificado. E no final fechamos a palavra.
Há outro pequeno truque que você precisa. Às vezes, devido a diferenças nas versões do word ou por outros motivos, o word pode xingar, dizendo que o arquivo está danificado. Ao abrir o arquivo manualmente, veremos um aviso "a tabela está danificada, continue abrindo o arquivo?". E você só precisa clicar em "Sim", mas o script interromperá o trabalho neste momento.
Vbs tem uma tentativa muito desajeitada de pegar construção. Você pode solucionar esse problema adicionando apenas duas linhas. No total, um script estável completo é o seguinte:
Const wdFormatText = 2 Set objWord = CreateObject("Word.Application") objWord.Visible = TRUE On Error Resume Next Set objDoc = objWord.Documents.Open(Wscript.Arguments.Item(0), True) Set objDoc = objWord.Documents.Open(Wscript.Arguments.Item(0), True) objDoc.SaveAs WScript.Arguments.Item(1), wdFormatText objWord.Quit
Como você pode ver, a abertura do arquivo é duplicada. No caso em que tudo estiver em ordem com o arquivo, o arquivo será aberto duas vezes e, em caso de erro, continuará a abrir o arquivo.
E para todo bombeiro, um exemplo de como uma função pode parecer em Python
import os
Em seguida, basta aplicar esta função a todos os arquivos que precisam ser convertidos.
Sumário
- Esta solução é adequada para todos os formatos de palavras.
- Você não passou mais de 10 minutos lendo este artigo.
- Você pode implementar conhecendo qualquer linguagem de programação.